JP5469011B2 - Incident management system, failure impact range visualization method - Google Patents

Incident management system, failure impact range visualization method Download PDF

Info

Publication number
JP5469011B2
JP5469011B2 JP2010176461A JP2010176461A JP5469011B2 JP 5469011 B2 JP5469011 B2 JP 5469011B2 JP 2010176461 A JP2010176461 A JP 2010176461A JP 2010176461 A JP2010176461 A JP 2010176461A JP 5469011 B2 JP5469011 B2 JP 5469011B2
Authority
JP
Japan
Prior art keywords
configuration
information
failure
incident
status
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010176461A
Other languages
Japanese (ja)
Other versions
JP2012038028A (en
Inventor
浩 吉田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nomura Research Institute Ltd
Original Assignee
Nomura Research Institute Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nomura Research Institute Ltd filed Critical Nomura Research Institute Ltd
Priority to JP2010176461A priority Critical patent/JP5469011B2/en
Publication of JP2012038028A publication Critical patent/JP2012038028A/en
Application granted granted Critical
Publication of JP5469011B2 publication Critical patent/JP5469011B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Description

本発明は、ITサービス運用管理におけるインシデント管理システムなどの技術に関し、特に、対象システムの構成や障害状況などを把握・可視化する技術などに関する。   The present invention relates to a technology such as an incident management system in IT service operation management, and more particularly, to a technology for grasping and visualizing a configuration of a target system and a failure status.

ITサービス運用管理におけるインシデント管理などに係わる基準として、ITIL(Information Technology Infrastructure Library)Version3などがある。インシデント管理システムでは、管理対象の情報処理システム(対象システム)で発生する障害などのインシデントをインシデント情報として記録・管理し、インシデントへの対策(対応)やエスカレーションに連携する。   ITIL (Information Technology Infrastructure Library) Version 3 is a standard related to incident management in IT service operation management. In the incident management system, incidents such as failures occurring in the information processing system (target system) to be managed are recorded and managed as incident information, and linked to incident countermeasures (responses) and escalations.

対象システムでは、クラウド環境の発展などに伴い、仮想サーバや並列分散処理などの技術が適用されている。また、対象システムでは、サービスレベルなどに基づいて、サーバやデータベースなどの構成部位(構成アイテム)は、障害許容性(フォールト・トレランス等)や性能などを考慮して、多重化構成などで設計・実装されている。   In the target system, technologies such as virtual servers and parallel distributed processing are applied with the development of the cloud environment. In the target system, components (configuration items) such as servers and databases are designed and multiplexed in consideration of fault tolerance (fault tolerance, performance, etc.) and performance based on the service level. Has been implemented.

先行技術例として、特開2007−257244号公報(特許文献1)(障害影響範囲特定システム等)、特開2009−181537号公報(特許文献2)(インシデント管理システム等)などがある。   Examples of prior art include Japanese Patent Application Laid-Open No. 2007-257244 (Patent Document 1) (failure influence range specifying system and the like), Japanese Patent Application Laid-Open No. 2009-181537 (Patent Document 2) (incident management system and the like), and the like.

特開2007−257244号公報JP 2007-257244 A 特開2009−181537号公報JP 2009-181537 A

従来のインシデント管理システム(及び構成管理システム等の関連システム)では、課題として、対象システムでの障害(インシデント)の発生時の影響範囲や影響先(上位のサービスなど)、及び緊急度やインパクトレベルなどを、担当者(インシデント管理者)が即座に把握することが難しい。よって、それらの把握に基づく優先度などに即した迅速なエスカレーション及び対策の実施などが難しい。特に、対象システムの構成部位が障害許容性などに応じた多重化構成などを採る場合、構成部位(構成アイテム)間での影響関係などが複雑であるため、上記の課題が顕著である。   In conventional incident management systems (and related systems such as configuration management systems), the issues are the scope of impact and the impact destination (higher services, etc.), and the urgency and impact level when a failure (incident) occurs in the target system. It is difficult for the person in charge (incident manager) to grasp such information immediately. Therefore, it is difficult to quickly escalate and implement countermeasures in accordance with the priority based on these grasps. In particular, when the configuration part of the target system adopts a multiplexed configuration or the like according to the fault tolerance or the like, the above-described problem is remarkable because the influence relationship between the configuration parts (configuration items) is complicated.

上記課題に対し、対象システムの障害影響範囲などの状況や構成(インシデント状況や運用状況)を画面で可視化する技術などが有効なものとして考えられる。しかし、従来技術では、クラウド環境や障害許容性などを考慮して設計・実装された構成の対象システムにおける障害影響範囲などの状況や構成を画面でわかりやすく可視化する技術について検討・実現が不十分である。   For the above problems, a technique for visualizing the status and configuration (incident status and operational status) of the target system on the screen, etc., is considered effective. However, in the conventional technology, there is insufficient examination and realization of technology that makes it easy to understand the situation and configuration such as the failure impact range in the target system of the configuration designed and implemented considering the cloud environment and fault tolerance etc. on the screen It is.

本発明の主な目的は、上記インシデント管理システム等に係わり、クラウド環境や障害許容性などを考慮した構成の対象システムにおける、障害影響範囲などの状況や構成、及びインシデント・対策の優先度などの情報を画面で可視化することで、担当者が上記状況などを即座にわかりやすく把握でき、迅速なエスカレーション及び対策の実施などが実現できる技術を提供することである。   The main object of the present invention relates to the above incident management system, etc., such as the situation and configuration of the failure impact range, the priority of incidents and countermeasures, etc. in the target system configured in consideration of the cloud environment and fault tolerance By visualizing information on the screen, the person in charge can immediately grasp the above situation in an easy-to-understand manner, and provide a technology that can realize prompt escalation and implementation of countermeasures.

上記目的を達成するために、本発明の代表的な実施の形態は、インシデント管理システム等であって、以下に示す構成を有することを特徴とする。   In order to achieve the above object, a typical embodiment of the present invention is an incident management system or the like, and has the following configuration.

本インシデント管理システムは、対象システムの障害を含むインシデントをインシデント情報として第1のデータベースに管理し、前記対象システムの構成を構成情報として第2のデータベースに管理する構成管理システムと連携し、担当者の端末に対して情報の画面を提供するサービスポータルシステムと連携し、前記対象システムの障害を含むインシデントを監視する障害監視システムと連携する。本インシデント管理システムは、前記対象システムの構成、障害影響範囲及び障害影響先サービスを含むインシデント状況を可視化する画面を、前記構成情報及び前記インシデント情報を用いて作成し、前記担当者の端末に提供する第1の機能と、前記対象システムにおける障害許容性を考慮して設計される構成部位を含む構成を、構成管理モデルとして前記構成情報に設定する第2の機能と、を有する。   The incident management system manages incidents including failures in the target system in the first database as incident information, and cooperates with the configuration management system that manages the configuration of the target system in the second database as configuration information. In cooperation with a service portal system that provides information screens to the terminals of the system, it cooperates with a fault monitoring system that monitors incidents including faults in the target system. The incident management system uses the configuration information and the incident information to create a screen for visualizing the incident status including the configuration of the target system, the failure influence range, and the failure affected service, and provides the screen to the person in charge And a second function for setting a configuration including a configuration part designed in consideration of fault tolerance in the target system in the configuration information as a configuration management model.

そして、前記構成管理モデルでは、前記障害許容性を考慮して設計される構成部位を含む各構成部位を第1の構成アイテムとして設定し、前記第1の構成アイテムについての障害許容性を第2の構成アイテムとして設定し、前記第1、第2の構成アイテムを含む構成アイテム間の依存関係性をリンクとして設定する。前記第1の機能による画面では、前記構成アイテムをリンクで接続した構造で、前記対象システムの構成管理モデル、障害影響範囲及び障害影響先サービスを含むインシデント状況を表示する。   In the configuration management model, each configuration part including a configuration part designed in consideration of the fault tolerance is set as a first configuration item, and the fault tolerance for the first configuration item is set to the second. And the dependency between the configuration items including the first and second configuration items is set as a link. The screen by the first function displays an incident status including a configuration management model, a failure influence range, and a failure influence destination service of the target system in a structure in which the configuration items are connected by links.

本発明の代表的なものによれば、インシデント管理システム等に係わり、クラウド環境や障害許容性などを考慮した構成の対象システムにおける、障害影響範囲などの状況や構成、及びインシデント・対策の優先度などの情報を画面で可視化することで、担当者が上記状況などを即座にわかりやすく把握でき、迅速なエスカレーション及び対策の実施などが実現できる。   According to a representative example of the present invention, the status and configuration of the failure impact range, etc., and the priority of incidents and countermeasures in the target system related to the incident management system and the like, taking into account the cloud environment and fault tolerance, etc. By visualizing such information on the screen, the person in charge can immediately grasp the above situation in an easy-to-understand manner, and can implement prompt escalation and implementation of countermeasures.

本発明の一実施の形態のインシデント管理システムを含むコンピュータシステム全体の概要構成例を示す図である。It is a figure which shows the example of an outline structure of the whole computer system containing the incident management system of one embodiment of this invention. 本実施の形態のインシデント管理システムに係わる各部の構成例を示す図である。It is a figure which shows the structural example of each part concerning the incident management system of this Embodiment. 本実施の形態における対象システムの構成管理モデル及び正常時の状況を可視化する画面例を示す図である。It is a figure which shows the example of a screen which visualizes the structure management model of the object system in this Embodiment, and the condition at the time of normal. 本実施の形態における対象システムの構成管理モデル及び障害時の状況を可視化する画面例を示す図である。It is a figure which shows the example of a screen which visualizes the structure management model of the target system in this Embodiment, and the condition at the time of a failure. (a)〜(f)は、本実施の形態における対象システムの障害許容性構成アイテム(FTCI)の障害許容情報の例を示す図である。(A)-(f) is a figure which shows the example of the fault tolerance information of the fault tolerance configuration item (FTCI) of the target system in this Embodiment. 本実施の形態における構成情報(構成アイテム情報)等の例を示す図である。It is a figure which shows an example of the structure information (structure item information) etc. in this Embodiment. 本実施の形態における構成アイテムのステータス決定方法の例を示す図である。It is a figure which shows the example of the status determination method of the configuration item in this Embodiment. 本実施の形態における構成アイテム間の依存関係性の情報の例を示す図である。It is a figure which shows the example of the information of the dependency relation between the configuration items in this Embodiment. 本実施の形態における構成管理モデル(一部)の例を示す図である。It is a figure which shows the example of the structure management model (part) in this Embodiment. 本実施の形態における優先度算出方法などを示す図である。It is a figure which shows the priority calculation method etc. in this Embodiment. 本実施の形態におけるインシデント情報の例を示す図である。It is a figure which shows the example of the incident information in this Embodiment. 本実施の形態におけるインシデント画面の例を示す図である。It is a figure which shows the example of the incident screen in this Embodiment. 従来技術例における画面例を示す図である。It is a figure which shows the example of a screen in a prior art example.

以下、本発明の実施の形態(インシデント管理システム、障害影響範囲可視化方法)を図面に基づいて詳細に説明する。なお、実施の形態を説明するための全図において、同一部には原則として同一符号を付し、その繰り返しの説明は省略する。   Hereinafter, embodiments of the present invention (incident management system, failure effect range visualization method) will be described in detail with reference to the drawings. Note that components having the same function are denoted by the same reference symbols throughout the drawings for describing the embodiment, and the repetitive description thereof will be omitted.

[概要等]
本実施の形態の概要や特徴などは以下である(図1,図3,図4等)。主な特徴として、本インシデント管理システム10は、障害影響範囲可視化機能101を有し、また、構成管理システム20は、障害許容性構成アイテム(FTCI)設定機能102を有する(図1)。障害影響範囲可視化機能101は、対象システム1の構成及び障害状況(障害影響範囲など)を画面で可視化する機能である。FTCI設定機能102は、対象システム1の構成情報(構成管理モデル)において、サーバ等の構成部位(構成アイテム:CI)の「障害許容性」(障害許容性などを考慮した設計・実装の構成)を、一種の構成アイテム(障害許容性構成アイテム:FTCI)として設定する機能である。
[Summary]
The outline and features of the present embodiment are as follows (FIGS. 1, 3, 4, etc.). As main features, the incident management system 10 has a failure influence range visualization function 101, and the configuration management system 20 has a failure tolerance configuration item (FTCI) setting function 102 (FIG. 1). The failure influence range visualization function 101 is a function for visualizing the configuration and failure status (failure influence range, etc.) of the target system 1 on a screen. The FTCI setting function 102 is configured in the configuration information (configuration management model) of the target system 1 as “failure tolerance” (design / implementation configuration considering failure tolerance) of a configuration part (configuration item: CI) such as a server. Is set as a kind of configuration item (fault tolerance configuration item: FTCI).

構成アイテム(CI)とは、構成管理モデル(構成情報)及び画面(図3等)において、対象システム1を構成するサーバ等の構成部位であり、画面に表示する対象となる要素である。CIは、カテゴリ等に応じて、特定のアイコンなどの表現で表示される。CI間の依存関係性(リンク)も線などで可視化される。CI及びリンクを含んで成る構成管理モデルが設定される。   The configuration item (CI) is a configuration part such as a server configuring the target system 1 in the configuration management model (configuration information) and the screen (FIG. 3 and the like), and is an element to be displayed on the screen. The CI is displayed as a specific icon or the like according to the category or the like. Dependencies (links) between CIs are also visualized with lines. A configuration management model including a CI and a link is set.

「障害許容性」とは、本技術分野における公知の用語(フォールト・トレランス等)に従ったものであり、対象システム1における障害許容性や性能やサービスレベルなどを考慮した設計・実装の構成に相当し、例えば冗長構成など(物理的・仮想的な多重化・クラスタリングなど)の公知の各種技術が該当する。「障害許容性」は、対象システム1(CI)の設計情報の1つであり、FTCI設定機能102を用いて、担当者3等により、FTCIとして設定が可能となっている。   “Fault tolerance” is in accordance with a well-known term (fault tolerance, etc.) in this technical field, and is designed and implemented in consideration of fault tolerance, performance, service level, etc. in the target system 1. This corresponds to various known techniques such as a redundant configuration (physical / virtual multiplexing / clustering, etc.). “Fault tolerance” is one piece of design information of the target system 1 (CI), and can be set as FTCI by the person in charge 3 or the like using the FTCI setting function 102.

画面(図3,図4等)では、FTCIを含む構成管理モデル上に、本システムでの分析結果など(障害状況など)がマッピングされた情報が可視化される。これにより担当者3は障害影響範囲やエスカレーション先などをわかりやすく即座に把握することができる。   On the screen (FIG. 3, FIG. 4, etc.), information in which an analysis result (failure status, etc.) in this system is mapped on a configuration management model including FTCI is visualized. As a result, the person in charge 3 can immediately and easily understand the fault influence range and the escalation destination.

[システム構成]
図1で、本インシデント管理システム10を含むコンピュータシステム全体の概要構成例を示す。本インシデント管理システム10は、構成管理システム20、サービスポータルシステム30、障害監視システム40等と連携するシステムである。運用管理・監視、インシデント管理、及び構成管理などのプロセス間の連携がシステム化されている。対象システム1は、インシデント管理運用の対象となる情報処理システム(稼働システム)である。担当者3は、サービスポータルシステム30を利用するユーザやその端末などである。図1のように各システム間は通信可能に接続される。なお各システム(10,20,30,40等)を一体化したシステムとしてもよいし、適宜分割した構成としてもよい。
[System configuration]
FIG. 1 shows a schematic configuration example of the entire computer system including the incident management system 10. The incident management system 10 is a system that cooperates with the configuration management system 20, the service portal system 30, the failure monitoring system 40, and the like. Cooperation between processes such as operation management / monitoring, incident management, and configuration management is systematized. The target system 1 is an information processing system (operation system) that is a target of incident management operation. The person in charge 3 is a user who uses the service portal system 30 or a terminal thereof. As shown in FIG. 1, the systems are connected to be communicable. Each system (10, 20, 30, 40, etc.) may be integrated, or may be appropriately divided.

○対象システム1: 対象システム1は、例えば、ネットワーク機器(スイッチ等)、サーバ、ストレージ、データベース、ミドルウェア、アプリケーション、等の構成部位を含んで成り、所定のサービス(サービス処理)を実現する。各構成部位は、例えばログ情報や障害メッセージを保持または出力する。   Target system 1: The target system 1 includes components such as network devices (switches, etc.), servers, storages, databases, middleware, applications, and the like, and realizes predetermined services (service processing). Each component holds or outputs log information or a failure message, for example.

○インシデント管理システム10: インシデント管理システム10は、サーバシステム等により構成され、基本的な機能として、インシデント管理データベース(DB)51に障害情報を含むインシデント情報を管理(登録・検索など)する。インシデント情報は、障害情報、稼働情報(初期診断実行結果情報)、分析結果(優先度など)、等の情報が含まれる(後述、図11等)。またインシデント情報は、対策情報、担当者情報などが含まれ得る(又は関連付けられる)。DB51のインシデント情報(b2)をもとにインシデント画面G2が構成される。   Incident management system 10: The incident management system 10 includes a server system and the like, and manages (registers / searches etc.) incident information including failure information in an incident management database (DB) 51 as a basic function. Incident information includes information such as failure information, operation information (initial diagnosis execution result information), analysis results (priority, etc.) (described later, such as FIG. 11). The incident information may include (or be associated with) countermeasure information, person-in-charge information, and the like. An incident screen G2 is configured based on the incident information (b2) in the DB 51.

またインシデント管理システム10では、構成管理システム20で管理される対象システム1の構成(構成管理モデル)に関して、障害監視システム40での対象システム1の障害監視に基づき、初期診断や分析処理により、構成・運用状況、障害などのインシデントの状況を把握する(障害構成情報b3やインシデント情報b2に反映される)。   In addition, in the incident management system 10, the configuration (configuration management model) of the target system 1 managed by the configuration management system 20 is configured by initial diagnosis and analysis processing based on the fault monitoring of the target system 1 by the fault monitoring system 40. -Grasp the status of incidents such as operational status and faults (reflected in fault configuration information b3 and incident information b2).

担当者3等により、インシデント画面G2を通じて、対象システム1での障害などのインシデントに関して、対策情報(対策手順、説明など)や関連情報などを登録したり、検索したりすることができる。   The person in charge 3 or the like can register or search for countermeasure information (measurement procedure, explanation, etc.) and related information regarding incidents such as failures in the target system 1 through the incident screen G2.

図2には、インシデント管理システム10の各部の詳細構成例などを示す。インシデント管理システム10は、障害情報取得部11、構成情報取得部12、初期診断部13、分析部14{障害影響範囲CI抽出部15、FTCI状況把握部16、優先度算出部17}、情報登録部18、等を有する構成である。各部はソフトウェアプログラム等により実現される。   FIG. 2 shows a detailed configuration example of each part of the incident management system 10. The incident management system 10 includes a failure information acquisition unit 11, a configuration information acquisition unit 12, an initial diagnosis unit 13, an analysis unit 14 {failure influence range CI extraction unit 15, FTCI situation grasping unit 16, priority calculation unit 17}, information registration It is the structure which has the part 18, etc. Each unit is realized by a software program or the like.

分析部14は、インシデント分析の一部(FTCIを含む対象システム1の障害(インシデント)の影響などの分析)をシステム化した処理部である。分析部14は、検知された障害(インシデント)について障害影響範囲などを把握する機能、及び複数の障害(インシデント)について優先順位付けのための優先度などを算出する機能などを含む。各部の詳細については後述のフローで説明する。   The analysis unit 14 is a processing unit that systematizes a part of the incident analysis (analysis of the influence of the failure (incident) of the target system 1 including FTCI). The analysis unit 14 includes a function for grasping a failure influence range and the like for a detected failure (incident), a function for calculating priorities for prioritizing a plurality of failures (incidents), and the like. Details of each part will be described in a later-described flow.

○構成管理システム20: 構成管理システム20は、サーバシステム等により構成され、基本的な機能として、対象システム1や障害監視システム40等から取得・収集した構成情報や、担当者3等により設定される構成情報を、構成管理データベース(DB)52に管理(登録・検索など)する。構成情報は、CI情報(FTCI情報を含む)などが含まれる。構成情報を用いて、対象システム1の障害許容性などを含む構成が、構成管理モデルとしてモデル化される。また構成情報は、担当者情報などが含まれ得る(又は関連付けられる)。DB52の構成情報(b1)をもとに構成情報画面G1が構成される。   ○ Configuration management system 20: The configuration management system 20 is configured by a server system or the like, and is set by the configuration information acquired / collected from the target system 1, the fault monitoring system 40, etc., or the person in charge 3 as basic functions. Configuration information is managed (registered, searched, etc.) in the configuration management database (DB) 52. The configuration information includes CI information (including FTCI information) and the like. A configuration including the fault tolerance of the target system 1 and the like is modeled as a configuration management model using the configuration information. The configuration information may include (or be associated with) person-in-charge information. The configuration information screen G1 is configured based on the configuration information (b1) in the DB 52.

担当者3等により、構成情報画面G1を通じて、対象システム1の構成(構成管理モデル)に関して、構成アイテム(CI)及びCI間の依存関係性(リンク)、上位のサービスとの関係性、などを構成情報(構成管理モデル情報)として設定することができる。特に、担当者3等により、FTCI設定機能102を用いて、構成管理モデルに、CIの冗長構成の関係性など、FTCIの情報(後述、図5)を設定することができる。   The person in charge 3 and the like, through the configuration information screen G1, regarding the configuration of the target system 1 (configuration management model), the dependency between the configuration item (CI) and the CI (link), the relationship with the upper service, etc. It can be set as configuration information (configuration management model information). In particular, the person in charge 3 or the like can use the FTCI setting function 102 to set FTCI information (to be described later, FIG. 5) such as the relationship of the CI redundant configuration in the configuration management model.

また例えば構成管理システム20では、対象システム1の構成部位(CI)やそのカテゴリ等に対して、所定の担当者3(エスカレーション先を含む)を関連付け管理することができる。担当者情報は、例えば、通知先のアドレス、組織における所属、名前、担当の構成部位(CI)などの情報を有する。構成情報やインシデント情報には、必要に応じて担当者情報が関連付けられる。   Further, for example, the configuration management system 20 can associate and manage a predetermined person in charge 3 (including an escalation destination) with respect to a configuration part (CI) of the target system 1 and its category. The person-in-charge information includes, for example, information such as a notification destination address, organization affiliation, name, and a constituent part (CI) in charge. Personnel information is associated with configuration information and incident information as necessary.

また上記の構成情報は、担当者3等による手動操作での設定に限らず、一部自動的な処理による登録なども可能である。例えば、構成管理システム20は、対象システム1から構成情報を取得・収集してDB52に反映する(a2)。また障害監視システム40との連携により同様に構成情報を取得してもよい(図1のa3)。例えば対象システム1の構成部位間での公知のディスカバリコマンド実行などによって構成情報の自動収集なども可能である。   The above configuration information is not limited to setting by manual operation by the person in charge 3 or the like, but registration by partially automatic processing is also possible. For example, the configuration management system 20 acquires and collects configuration information from the target system 1 and reflects it in the DB 52 (a2). Further, the configuration information may be obtained in the same manner in cooperation with the failure monitoring system 40 (a3 in FIG. 1). For example, it is possible to automatically collect configuration information by executing a known discovery command between components of the target system 1.

○サービスポータルシステム30: サービスポータルシステム30は、サーバシステム等により構成され、図2の画面提供部31(例えばWebサーバ等による)を有し、各システム(10,20)の情報(構成情報b1,インシデント情報b2,障害構成情報b3等)を用いて、担当者3等が閲覧するための各種の画面(G1,G2等)をWebページ等で構成し、担当者3の端末に提供する。画面を構成する元となる情報は、インシデント管理システム10(情報登録部18)側から提供される。   Service Portal System 30: The service portal system 30 is configured by a server system or the like, has the screen providing unit 31 (for example, by a Web server or the like) in FIG. 2, and information (configuration information b1) of each system (10, 20). , Incident information b2, failure configuration information b3, etc.), various screens (G1, G2, etc.) for the person-in-charge 3 to view are composed of web pages and provided to the terminal of the person-in-charge 3. The information that constitutes the screen is provided from the incident management system 10 (information registration unit 18) side.

本実施の形態では、画面として、構成情報画面G1,インシデント画面G2を有する。特に、構成情報画面G1では、構成情報b1、障害構成情報b3をもとに、対象システム1に関する従来の構成情報(FTCI等は無し)を表示可能とするだけでなく、FTCIを含む各CI及びリンクの構成(構成管理モデル)、及びその上にマッピングされる障害状況など(障害箇所・障害影響範囲・障害影響先サービスなど、及び担当者情報など)を可視化する(後述、図3,図4等)。インシデント画面G2では、インシデント情報b2をもとに、優先度、目標解決時間、担当者情報などを含むインシデント情報を表示する(後述、図11,図12等)。障害構成情報b3は、構成管理モデル(構成情報b1)上に、分析部14での分析結果による障害状況(障害影響範囲などを含む)や関連情報などをマッピングした情報である。   In this embodiment, the screen includes a configuration information screen G1 and an incident screen G2. In particular, on the configuration information screen G1, not only can the conventional configuration information (no FTCI etc.) related to the target system 1 be displayed based on the configuration information b1 and the failure configuration information b3, but each CI including FTCI and Visualize the link configuration (configuration management model) and the failure status mapped on it (failure location, failure impact range, failure impact destination service, etc., and person-in-charge information) (see below, FIGS. 3 and 4) etc). On the incident screen G2, incident information including priority, target solution time, person-in-charge information, etc. is displayed based on the incident information b2 (described later, FIG. 11, FIG. 12, etc.). The failure configuration information b3 is information obtained by mapping a failure status (including failure influence range and the like) and related information based on the analysis result in the analysis unit 14 on the configuration management model (configuration information b1).

なお、障害構成情報b3については、インシデント管理システム10からサービスポータルシステム30へ提供する形に限らず、構成管理システム20から提供する形などとしてもよい。その場合、構成管理システム20内(DB52)で、障害構成情報b3を含む構成管理モデルを管理する。また構成情報画面G1とは別に障害構成情報b3用の画面などを提供してもよい。   The failure configuration information b3 is not limited to the form provided from the incident management system 10 to the service portal system 30, but may be provided from the configuration management system 20. In that case, the configuration management model including the failure configuration information b3 is managed in the configuration management system 20 (DB 52). In addition to the configuration information screen G1, a screen for failure configuration information b3 may be provided.

担当者3の端末に対する画面の提供の仕方(GUI)としては、対象システム1の構成・状況の変動に応じて画面表示内容を更新表示する。例えば、所定のWebページのウィンドウ(画面G1等)で常に対象システム1の構成や障害状況を表示する。そして構成や障害状況の変動に応じて上記表示内容を更新する。あるいはユーザ操作に応じて必要な時だけ画面を表示してもよい。また例えば障害検知(S1)に伴うアラートによって自動的に画面を表示してもよい。また画面G1と画面G2の間で表示を遷移してもよいし、表示内容を統合してもよい。また例えば、時点ごとに構成・状況を履歴(スナップ)として保存しておき、指定の時点の情報を表示可能としてもよい。   As a way of providing a screen (GUI) for the terminal of the person in charge 3, the screen display content is updated and displayed in accordance with the change in the configuration and status of the target system 1. For example, the configuration and failure status of the target system 1 are always displayed in a predetermined Web page window (screen G1 or the like). Then, the display contents are updated in accordance with changes in configuration and failure status. Alternatively, the screen may be displayed only when necessary according to a user operation. Further, for example, the screen may be automatically displayed by an alert accompanying failure detection (S1). Further, the display may transition between the screen G1 and the screen G2, or the display contents may be integrated. Further, for example, the configuration / situation may be saved as a history (snap) for each time point, and information at a specified time point may be displayed.

○障害監視システム40: 障害監視システム40は、公知の各種技術により構成可能であり、例えば、対象システム1に対して、サーバ・ストレージの監視及び構成情報収集、ネットワークの監視及び構成情報収集、及び監視に基づく障害ログ解析、等の処理機能を有する。なお他のシステム(10,20)に障害監視システム40の処理機能を備えてもよい。障害監視システム40は、対象システム1の構成部位からログ・障害メッセージ(a1)等を収集し、それによる障害情報(例えば障害ログ解析による障害検知・障害箇所情報など)をインシデント管理システム10に通知する(S1)。また障害監視システム40は、対象システム1の構成部位の構成情報を収集し、構成管理システム20に提供してもよい(a3)。   Fault monitoring system 40: The fault monitoring system 40 can be configured by various known technologies. For example, for the target system 1, server / storage monitoring and configuration information collection, network monitoring and configuration information collection, and It has processing functions such as failure log analysis based on monitoring. In addition, the processing function of the failure monitoring system 40 may be provided in another system (10, 20). The failure monitoring system 40 collects logs / failure messages (a1) from the components of the target system 1 and notifies the incident management system 10 of failure information (for example, failure detection / failure location information by failure log analysis). (S1). Further, the failure monitoring system 40 may collect configuration information of the components of the target system 1 and provide the configuration information to the configuration management system 20 (a3).

○担当者3: 担当者3は、サービスポータルシステム30を利用する担当者及びその端末等を示す。担当者3は、エスカレーション先を含む。担当者3は、Webブラウザ等を備える端末から、サービスポータルシステム30へアクセスし、構成情報画面G1、インシデント画面G2を含む各種の画面(Webページ等)を閲覧することができる。担当者3の端末は、画面提供部31への要求に応じて上記画面を取得して表示したり、あるいは自動的に画面の表示更新内容データを取得して表示内容を更新する。   ○ Person in charge 3: Person in charge 3 shows a person in charge who uses the service portal system 30 and its terminal. The person in charge 3 includes an escalation destination. The person in charge 3 can access the service portal system 30 from a terminal provided with a Web browser and browse various screens (Web pages and the like) including the configuration information screen G1 and the incident screen G2. The terminal of the person in charge 3 acquires and displays the screen in response to a request to the screen providing unit 31, or automatically acquires display update content data of the screen and updates the display content.

担当者3として、Uは、初期診断担当者である。A,B,Cは、各種のエスカレーション先の担当者である。Aは機能的エスカレーション先を示し、対象システム1の構成部位に関連付けられる開発者・保守運用者などである。B,Cは階層的エスカレーション先を示し、組織の上司−部下といった階層的な関係者を示す。エスカレーション先は各種を設けて管理してもよい。例えば、階層的エスカレーション先の第1の種別(B)として管理(本システム)側の担当者、第2の種別(C)として顧客(対象システム1)側の担当者、等である。E1はUからAへのエスカレーション(通知など)を示す。E2はUからBまたはCへのエスカレーション(通知など)を示す。   As the person in charge 3, U is the person in charge of initial diagnosis. A, B, and C are persons in charge of various escalation destinations. A indicates a functional escalation destination, which is a developer / maintenance operator or the like associated with a component of the target system 1. B and C indicate hierarchical escalation destinations, and hierarchical parties such as the supervisor and subordinates of the organization. Various escalation destinations may be managed. For example, the first type (B) of the hierarchical escalation destination is the person in charge on the management (this system) side, the second type (C) is the person in charge on the customer (target system 1) side, and the like. E1 indicates escalation (notification, etc.) from U to A. E2 indicates an escalation (notification or the like) from U to B or C.

[管理運用フロー]
本実施の形態のインシデント管理システム10及び障害影響範囲可視化方法におけるインシデント管理運用フローの概要は以下である。なお本管理運用フローは、ITIL Version3に準拠したものとなっている。
[Management operation flow]
The outline of the incident management operation flow in the incident management system 10 and the failure influence range visualization method of the present embodiment is as follows. This management operation flow conforms to ITIL Version 3.

(0)FTCIを含む構成管理モデルの設定 (その他、構成情報(b1)の取得等)
(1−1)障害(インシデント)の検知 (その他、インシデントの識別・記録等)
(1−2)初期診断 (その他、障害ログ解析等)
(2−1)分析による障害状況などの把握: 障害影響範囲・影響先、FTCI状況などの把握
(2−2)分析によるインシデントの優先順位付け(対策方針決定): 優先度・目標解決時間・エスカレーション先などの決定
(3−1)上記分析結果などを反映した情報の作成・登録: 構成管理モデル上に障害状況などをマッピング(障害構成情報b3)、及び対応するインシデント情報(b2)
(3−2)画面提供: 上記の情報(b3,b2)を可視化する画面(構成情報画面G1,インシデント画面G2)を構成し担当者3へ提供
(4−1)1次対応: 担当者3(初期診断担当者Uなど)により上記画面(G1,G2)で構成・障害状況・対策方針などを把握し、必要に応じて各種のエスカレーション(E1,E2)を実行
(4−2)2次対応: エスカレーション先の担当者3(A,B,C)により、上記画面(G1,G2)で構成・障害状況・対策方針などを把握し、必要に応じて対策などを実施。
(0) Configuration management model setting including FTCI (Others, acquisition of configuration information (b1), etc.)
(1-1) Fault (incident) detection (Incident identification / recording, etc.)
(1-2) Initial diagnosis (Others, failure log analysis, etc.)
(2-1) Understanding failure status through analysis: Understanding failure impact range, impact destination, FTCI status, etc. (2-2) Incident prioritization through analysis (decision of countermeasure policy): Priority, target solution time, Determination of escalation destination, etc. (3-1) Creation / registration of information reflecting the above analysis results: Mapping failure status on the configuration management model (failure configuration information b3) and corresponding incident information (b2)
(3-2) Screen provision: The screen (configuration information screen G1, incident screen G2) for visualizing the above information (b3, b2) is configured and provided to the person in charge 3 (4-1) Primary response: Person in charge 3 (Early diagnosis staff U, etc.) grasp the configuration, failure status, countermeasures, etc. on the above screen (G1, G2) and execute various escalations (E1, E2) as necessary (4-2) Secondary Response: The person in charge 3 (A, B, C) of the escalation destination grasps the configuration, failure status, countermeasure policy, etc. on the above screen (G1, G2), and implements countermeasures as necessary.

上記(4−2)では、例えば、機能的エスカレーション先の担当者(A)により、画面G2での障害メッセージの確認や、画面G1の障害影響範囲などを対象とした調査などを行い、例えばサーバプログラム修正など、障害への対策を実施する。これにより、当該障害の復旧など(問題解決)の場合、当該インシデントがクローズされる。なおインシデント情報(b2)の登録(更新)は随時行われ、インシデントのステータスは随時更新される。   In the above (4-2), for example, the person in charge of functional escalation (A) checks the failure message on the screen G2, investigates the failure influence range on the screen G1, etc. Implement countermeasures such as program correction. Thereby, in the case of recovery of the failure (problem solving), the incident is closed. Incident information (b2) is registered (updated) at any time, and the incident status is updated at any time.

[処理フロー]
図1,図2を用いて、上記管理運用フローに基づく本システムの処理フローにおける、対象システム1での障害発生時における主な処理の流れ(ステップS0〜S9で示す)について説明する。
[Processing flow]
A main processing flow (indicated by steps S0 to S9) when a failure occurs in the target system 1 in the processing flow of the present system based on the management operation flow will be described with reference to FIGS.

(S0:構成設定) 準備・前提の1つとして、構成管理システム20(DB52)に対し、対象システム1の構成(構成管理モデル)を設定する。例えば、担当者3等により、構成情報画面G1を用いて、各構成要素をCIとして設定し、CI間の依存関係性(リンク)を設定し、またFTCI設定機能102を用いて、構成要素(CI)の障害許容性をFTCIとして設定することにより、構成管理モデルを構成情報として設定する。   (S0: Configuration Setting) As one of preparation and premise, the configuration (configuration management model) of the target system 1 is set in the configuration management system 20 (DB 52). For example, the person in charge 3 or the like uses the configuration information screen G1 to set each component as a CI, sets a dependency (link) between CIs, and uses the FTCI setting function 102 to set the component ( By setting the fault tolerance of CI) as FTCI, the configuration management model is set as configuration information.

(S1:障害検知) インシデント管理システム10(障害情報取得部11)は、障害監視システム40を用いて対象システム1の障害を検知する。障害検知をトリガにしてS2以降の処理を実行する。例えば、対象システム1から障害監視システム40へ障害情報(障害メッセージ等)が出力される(図2のa1)。障害監視システム40から障害情報取得部11へ障害情報(障害メッセージ等)が出力される。障害情報取得部11は、受信(取得)した障害情報をDB51へインシデント情報として登録してもよい。障害情報取得部11は、例えば、障害ログ解析などにより、障害メッセージから障害箇所のCIを抽出してもよい。   (S1: Failure Detection) The incident management system 10 (failure information acquisition unit 11) detects a failure of the target system 1 using the failure monitoring system 40. The process after S2 is executed with the failure detection as a trigger. For example, failure information (failure message or the like) is output from the target system 1 to the failure monitoring system 40 (a1 in FIG. 2). Fault information (such as a fault message) is output from the fault monitoring system 40 to the fault information acquisition unit 11. The failure information acquisition unit 11 may register the received (acquired) failure information in the DB 51 as incident information. The failure information acquisition unit 11 may extract the CI of the failure location from the failure message by, for example, failure log analysis.

(S2:構成情報取得) インシデント管理システム10(構成情報取得部12)は、構成管理システム20(DB52)から、日次などの所定のタイミングで、対象システム1の構成情報(構成管理モデル情報)を取得する。あるいは、構成が変更されたタイミングなどで構成情報を取得してもよい。取得した構成情報を以下の処理で用いる。   (S2: Configuration Information Acquisition) The incident management system 10 (configuration information acquisition unit 12) receives configuration information (configuration management model information) of the target system 1 from the configuration management system 20 (DB52) at a predetermined timing such as daily. To get. Alternatively, the configuration information may be acquired at a timing when the configuration is changed. The acquired configuration information is used in the following processing.

(S3:初期診断実行) S1をもとに、インシデント管理システム10(初期診断部13)は、対象システム1(S1の障害検知箇所を含む、診断対象とする例えば対象システム1の全体または一部)に対して、初期診断(初期診断スクリプト)を実行する。初期診断スクリプトは、診断対象の部位のカテゴリ(サーバ、データベース等)毎に対応したスクリプトプログラムである。   (S3: Execution of initial diagnosis) Based on S1, the incident management system 10 (initial diagnosis unit 13) sets the target system 1 (for example, the entire or part of the target system 1 to be diagnosed, including the failure detection location of S1). ) To execute an initial diagnosis (initial diagnosis script). The initial diagnosis script is a script program corresponding to each category (server, database, etc.) of the part to be diagnosed.

(S4:初期診断結果取得) インシデント管理システム10(初期診断部13)は、対象システム1から、上記S3の初期診断スクリプトの実行結果(稼働情報)を取得する。これにより対象システム1の稼働状況を把握する(障害箇所(CI)の把握を含む)。S4の結果情報は、DB51の該当インシデント情報に反映してもよい。   (S4: Initial diagnosis result acquisition) The incident management system 10 (initial diagnosis unit 13) acquires the execution result (operation information) of the initial diagnosis script of S3 from the target system 1. As a result, the operating status of the target system 1 is grasped (including the grasp of the failure location (CI)). The result information of S4 may be reflected in the corresponding incident information in the DB 51.

次に、S4までの情報に基づき、以下のS5〜S7で、分析部14により、当該障害(インシデント)に関する分析処理を行う。これにより、S5では障害影響範囲のCIを把握し、S6ではFTCIの状況(ステータス)を把握し、S7では、優先度(P)や目標解決時間(T)などを決定する。   Next, based on the information up to S4, the analysis unit 14 performs analysis processing on the failure (incident) in the following S5 to S7. As a result, the CI of the fault influence range is grasped in S5, the situation (status) of the FTCI is grasped in S6, and the priority (P) and the target solution time (T) are determined in S7.

(S5:障害影響範囲CI抽出) 障害影響範囲CI抽出部15は、S4,S2の情報などを用いて、当該障害箇所に係わる障害影響範囲のCI(FTCIを含む)を抽出する(後述、図4等)。   (S5: Failure Influence Range CI Extraction) The failure influence range CI extraction unit 15 extracts the failure influence range CI (including FTCI) related to the failure location using the information in S4 and S2 (described later, FIG. 4 etc.).

(S6:FTCI状況把握) FTCI状況把握部16は、S4,S5,S2の情報などを用いて、FTCIの状況(障害許容状況)をステータスとして決定する(後述、図4,図7等)。   (S6: FTCI situation grasping) The FTCI situation grasping unit 16 determines the FTCI situation (failure allowable situation) as the status using the information of S4, S5, S2, etc. (described later, FIG. 4, FIG. 7, etc.).

また上記S5,S6の処理に基づいて、分析部14は、下位のFTCIのステータス等に応じて、障害影響先となる上位のサービス(サービスCI)のステータスや数(N)などを把握する。   Also, based on the processing of S5 and S6, the analysis unit 14 grasps the status and number (N) of the higher-level service (service CI) that is the failure-affected destination according to the status of the lower-level FTCI.

(S7:優先度算出) 優先度算出部17は、S4〜S6,S2の情報などを用いて、対象システム1の現在のサービスレベルやFTCIを含む各CIの状況(例えばCIのステータス:「正常」、「縮退」、「低下」、「停止」等)などを総合的に考慮して、緊急度(α)やインパクトレベル(β)を算出する。そして、これらの情報(α,β)を用いて、当該障害(インシデント)への対策の優先度(P)を算出する。更に、優先度(P)に応じた目標解決時間(T)や、エスカレーション有無などを決定する(後述、図10等)。   (S7: Priority calculation) The priority calculation unit 17 uses the information of S4 to S6, S2, and the like, the status of each CI including the current service level of the target system 1 and the FTCI (for example, the CI status: “Normal” ”,“ Degeneration ”,“ decrease ”,“ stop ”, etc.) are comprehensively considered, and the urgency level (α) and impact level (β) are calculated. Then, using these pieces of information (α, β), the priority (P) of the countermeasure against the failure (incident) is calculated. Furthermore, the target solution time (T) according to the priority (P), the presence / absence of escalation, and the like are determined (described later, such as FIG. 10).

(S8:情報登録) インシデント管理システム10(情報登録部18)は、上記S7までの処理で得た各種情報(障害箇所、障害影響範囲、CI及びリンクのステータス、障害影響先サービス数(N)、優先度(P)、目標解決時間(T)など)を用いて、障害構成情報b3やインシデント情報b2を作成または更新し、DB51,DB52等に対して登録する。S5〜S7の分析結果(障害状況など)は、S2の構成管理モデル(構成情報b1)上にマッピングされ、障害構成情報b3となる。   (S8: Information registration) The incident management system 10 (information registration unit 18) obtains various types of information (failure location, fault impact range, CI and link status, number of fault impact destination services (N) obtained through the processing up to S7. The failure configuration information b3 and the incident information b2 are created or updated using the priority (P), the target solution time (T), etc., and registered in the DB 51, DB 52, and the like. The analysis results (failure status, etc.) of S5 to S7 are mapped onto the configuration management model (configuration information b1) of S2 and become failure configuration information b3.

サービスポータルシステム30側は、インシデント管理システム10(情報登録部18)等に対して上記の情報(b3,b2)を必要に応じて要求して取得する。あるいは、サービスポータルシステム30側で障害構成情報b3の作成などを行う形態の場合は、情報登録部18は、上記の情報(b3,b2)をサービスポータルシステム30へ送信して登録してもよい。これにより画面(G1,G2)が構成・提供可能となる。   The service portal system 30 side requests and acquires the above information (b3, b2) from the incident management system 10 (information registration unit 18) or the like as necessary. Alternatively, in the case of creating the failure configuration information b3 on the service portal system 30 side, the information registration unit 18 may transmit and register the above information (b3, b2) to the service portal system 30. . As a result, the screens (G1, G2) can be configured and provided.

(S9:画面提供) サービスポータルシステム30(画面提供部31)は、上記の障害構成情報b3を用いることで、構成・障害状況などを可視化する構成情報画面G1を構成し担当者3に対して提供する。また、インシデント情報b2を用いることでインシデント画面G2を構成し担当者3に対して提供する。初期診断担当者Uなどの担当者3は、構成情報画面G1の参照により、対象システム1の構成・障害状況(障害影響範囲を含む)・関連情報(担当者情報などを含む)などを把握でき、インシデント画面G2の参照により、詳細なインシデント情報を把握できる。   (S9: Screen Provision) The service portal system 30 (screen provision unit 31) uses the above-described failure configuration information b3 to construct a configuration information screen G1 for visualizing the configuration / failure status and the like to the person in charge 3 provide. Further, by using the incident information b2, an incident screen G2 is constructed and provided to the person in charge 3. The person in charge 3 such as the initial diagnosis person in charge U can grasp the configuration, the failure status (including the failure influence range), related information (including the person in charge information, etc.) of the target system 1 by referring to the configuration information screen G1. Detailed incident information can be grasped by referring to the incident screen G2.

[処理例(a)]
前記初期診断(S3,S4)〜FTCI状況把握(S6)に係わる詳細処理例は以下である。これは、対象システム1の状況に応じて各CI及びリンクのステータスを更新する処理例であり、図6〜図8等のデータ情報(後述)を用いる。
[Processing example (a)]
Detailed processing examples relating to the initial diagnosis (S3, S4) to FTCI status grasping (S6) are as follows. This is a processing example in which the status of each CI and link is updated according to the status of the target system 1, and data information (described later) shown in FIGS.

(1)初期診断スクリプト実行: 前記S3で、初期診断部13は、障害検知(S1)に基づく診断対象の各構成部位(CI)に対し、当該CIのカテゴリ毎に対応付けられたスクリプトを、図6の初期診断スクリプトパラメータを引数にして実行する。前記S4で、S3の実行結果(稼働情報)は図6の構成情報に格納される。   (1) Initial diagnosis script execution: In S3, the initial diagnosis unit 13 executes a script associated with each CI category for each component (CI) to be diagnosed based on failure detection (S1). The initial diagnosis script parameter of FIG. 6 is executed as an argument. In S4, the execution result (operation information) of S3 is stored in the configuration information of FIG.

(2)CIステータスの登録: 障害影響範囲CI抽出部15は、障害箇所に関係する各CI(ここではFTCIを除くCI)に対し、上記(1)の結果情報をもとに、図6,図7のステータス決定方法に従い決定されるステータスを、当該CIのステータスとして登録する。   (2) Registration of CI status: The failure influence range CI extraction unit 15 applies to each CI (here, CI excluding FTCI) related to the failure location, based on the result information of the above (1), FIG. The status determined according to the status determination method of FIG. 7 is registered as the status of the CI.

(3)依存関係性ステータスの登録: 障害影響範囲CI抽出部15は、障害箇所に関係する各CI間の依存関係性(リンク)に対し、当該CIのレイヤ番号(図6)の大きい方(即ち下位)のCIのステータスを、当該依存関係性(リンク)のステータス(「依存関係性ステータス」)として登録する(図8,図9)。   (3) Dependency Status Registration: The failure influence range CI extraction unit 15 has a larger CI layer number (FIG. 6) for the dependency relationship (link) between the CIs related to the failure location ( That is, the status of the lower CI is registered as the status of the dependency (link) (“dependency status”) (FIGS. 8 and 9).

(4)FTCIステータスの登録: FTCI状況把握部16は、障害箇所・障害影響範囲に関係する各FTCIに対し、図6,図7のステータス決定方法に従い決定されるステータスを、当該FTCIのステータスに登録する。   (4) FTCI status registration: The FTCI status grasping unit 16 sets the status determined according to the status determination method of FIGS. 6 and 7 to the status of the FTCI for each FTCI related to the fault location / failure influence range. sign up.

[処理例(b)]
前記情報登録(S8)〜画面提供(S9)の詳細処理例は以下である。図6〜図8等のデータ情報(後述)を用いる。インシデント管理システム10(情報登録部18等)は、DB51,DB52等に対して、随時(例えば構成・状況の変動に応じたタイミング)、画面(G1,G2等)の提供・内容更新のための情報(b1〜b3等)を作成・登録・提供する処理を行う。以下例えば情報登録部18による処理である。
[Processing example (b)]
Detailed processing examples from the information registration (S8) to the screen provision (S9) are as follows. Data information (described later) shown in FIGS. The incident management system 10 (information registration unit 18 or the like) can provide the screens (G1, G2, etc.) to the DB 51, DB 52, etc. at any time (for example, timing according to changes in configuration / situation), and update the contents. Processing to create, register, and provide information (b1 to b3, etc.) is performed. Hereinafter, for example, processing by the information registration unit 18 is performed.

(1)画面G1(障害構成情報b3)におけるCIアイコン(FTCIアイコンを含む)の表示状態を、当該CI(FTCI)のステータス(図6)の変動に応じて変更する。例えば、該当CIのステータスが「正常」から「異常」/「停止」へ変動したことに応じて、該当CIアイコンの表示色を青から赤へ変更する処理を行う。   (1) The display state of the CI icon (including the FTCI icon) on the screen G1 (failure configuration information b3) is changed according to the change in the status of the CI (FTCI) (FIG. 6). For example, in response to the status of the corresponding CI changing from “normal” to “abnormal” / “stop”, a process of changing the display color of the corresponding CI icon from blue to red is performed.

(2)画面G1(障害構成情報b3)におけるCI間の依存関係性(リンク)の表示状態を、当該依存関係性(リンク)のステータス(図8)の変動に応じて変更する。上記(1)の変更に併せて(2)の変更を行う。例えば、該当の依存関係性のステータスを、下位CIのステータスに応じて決定・変更する処理を行う。   (2) The display state of the dependency relationship (link) between CIs on the screen G1 (failure configuration information b3) is changed in accordance with the change in the dependency relationship (link) status (FIG. 8). The change in (2) is performed in conjunction with the change in (1) above. For example, a process of determining / changing the status of the corresponding dependency relationship according to the status of the lower CI is performed.

(3)上記(1),(2)の変更の情報を用いて、画面G1用の障害構成情報b3、及び画面G2用のインシデント情報b2等を作成または更新し、DB51,DB52等に対して登録する。これにより、サービスポータルシステム30(画面提供部31)では、上記情報を用いて、図3,図4の例のような画面G1等を提供可能とする。   (3) Create or update failure configuration information b3 for screen G1, incident information b2 for screen G2, etc. using information on the changes in (1) and (2) above, and for DB 51, DB 52, etc. sign up. Thereby, the service portal system 30 (screen providing unit 31) can provide the screen G1 and the like as in the examples of FIGS. 3 and 4 using the above information.

また上記情報の他にも同様に、画面内に表示する各種の情報(例えば、図3内の担当者のアイコンの表示用の情報や、CIステータスの表示用の情報や、障害箇所、障害影響範囲、障害影響先サービスなどの表示用の情報など)を作成・登録・提供する。   In addition to the above information, various types of information displayed on the screen (for example, information for displaying the icon of the person in charge in FIG. 3, information for displaying the CI status, fault location, fault impact) Create, register, and provide information for display such as scope and failure-affected service.

[画面(1)]
図3,図4等は表示画面例を示し、あわせて対象システム1の構成例も示されている。図3には、障害構成情報b3を可視化する画面(構成情報画面G1)の第1の例(対象システム1が正常時の場合)を示す。本画面では、障害構成情報b3等に基づき、複数のCI(CIアイコン)間が依存関係性を示すリンク(線)で接続された構造を表示する。
[Screen (1)]
3 and 4 show examples of display screens, and a configuration example of the target system 1 is also shown. FIG. 3 shows a first example (when the target system 1 is normal) of a screen (configuration information screen G1) for visualizing the failure configuration information b3. This screen displays a structure in which a plurality of CIs (CI icons) are connected by links (lines) indicating dependency relationships based on the failure configuration information b3 and the like.

画面の上方ほどレイヤ番号(図6)が小さい上位のCI(“Service”,“Cluster”等)を示し、下方ほどレイヤ番号が大きい下位のCI(“Physical Server”,“L2Switch”等)を示す。論理的な単位・仮想的な単位(サービス、仮想サーバ、アプリケーション等)ほどレイヤが上位に設定され、物理的な単位(サーバ機器やネットワーク機器など)ほどレイヤが下位に設定される。図3では、下位から順に例えば、“Terminal”(端末),“L3Switch”,“L2Switch”,“Physical Server”(物理サーバ),“Hypervisor”(サーバ仮想化ソフトウェア),“DB Server”(仮想化サーバ),“DataBase”,“Cluster”(障害許容性)等のCIを有する。雲のアイコンは対象システム1で提供される上位のサービス(サービスCI)を示す。   An upper CI ("Service", "Cluster", etc.) with a lower layer number is shown in the upper part of the screen, and a lower CI ("Physical Server", "L2Switch", etc.) with a higher layer number is shown in the lower part of the screen. . A logical unit / virtual unit (service, virtual server, application, etc.) has a higher layer, and a physical unit (server device, network device, etc.) has a lower layer. In FIG. 3, for example, “Terminal” (terminal), “L3Switch”, “L2Switch”, “Physical Server” (physical server), “Hypervisor” (server virtualization software), “DB Server” (virtualization) Server), “DataBase”, “Cluster” (failure tolerance), etc. A cloud icon indicates a higher-level service (service CI) provided by the target system 1.

各CIやリンクについては、名称、カテゴリ、ステータス、その他に応じて、色やアイコンや文字情報、大きさ、その他など、表現を変えて表示する。例えば図3では、ステータスが「正常」であるCI及びリンクを実線や青で表示する。   Each CI and link is displayed with different expressions such as color, icon, character information, size, etc., according to the name, category, status, etc. For example, in FIG. 3, CIs and links whose status is “normal” are displayed in solid lines or blue.

またFTCIについては、通常のCI(非FTCI)と区別できるように特定のアイコン(図3の例では八角形のアイコン)で表示する。401〜414等はFTCIを示す。それ以外は通常のCI(非FTCI)を示す。FTCIに付随する障害許容情報については後述する(図5)。   The FTCI is displayed with a specific icon (an octagonal icon in the example of FIG. 3) so that it can be distinguished from a normal CI (non-FTCI). 401-414 etc. show FTCI. Otherwise, normal CI (non-FTCI) is indicated. The fault tolerance information associated with FTCI will be described later (FIG. 5).

各CIやリンクの表示の仕方は、本システムに対して入力・設定が可能である。   The method of displaying each CI and link can be input and set in the system.

また各CIアイコンに対しては、当該CIに関連付けられる関連情報を適宜表示する。例えば担当者3のマウス操作(CIアイコンへのマウスオーバやクリック等)により、当該CIの関連情報をポップアップなどの形で表示する。例えば、当該CIに関連付けられるインシデント情報を表示、あるいはインシデント画面G2へリンクする。また例えば、当該FTCIに関連付けられる障害許容情報を表示する。   In addition, for each CI icon, related information associated with the CI is appropriately displayed. For example, when the person in charge 3 performs a mouse operation (such as mouse over or clicking on a CI icon), the relevant information of the CI is displayed in a pop-up form. For example, incident information associated with the CI is displayed or linked to the incident screen G2. Also, for example, fault tolerance information associated with the FTCI is displayed.

また例えば、当該CIに関連付けられる担当者3の情報を表示する。図3の例では、CIアイコンの右上(A:例えばオレンジ色)や左上(B,C:例えば緑色)などに担当者アイコンを表示し、当該担当者アイコンの操作により担当者3の情報を表示する。FTCIアイコンや、サービスCIアイコン毎に、存在する種別の担当者3のアイコンが表示される。   Further, for example, information on the person in charge 3 associated with the CI is displayed. In the example of FIG. 3, the person-in-charge icon is displayed on the upper right (A: for example, orange) or upper left (B, C: for example, green) of the CI icon, and information on the person in charge 3 is displayed by operating the person-in-charge icon. To do. For each FTCI icon or service CI icon, the icon of the person in charge 3 of the existing type is displayed.

[画面(2)]
図4には、図3と同じ前提で、障害構成情報b3を可視化する画面(構成情報画面G1)の第2の例(対象システム1での障害発生時の場合)を示す。図3の構成管理モデル上に障害状況(障害影響範囲など)などが反映された内容である。CI名称などは略す。図4の例では、各リンクの線をステータスに応じた線種(「正常」は実線、「縮退」は破線、「低下」は1点鎖線、「停止」は点線)で表示している。
[Screen (2)]
FIG. 4 shows a second example (when a failure occurs in the target system 1) of a screen (configuration information screen G1) for visualizing the failure configuration information b3 on the same premise as FIG. The content reflects the failure status (failure impact range, etc.) on the configuration management model of FIG. CI names are omitted. In the example of FIG. 4, each link line is displayed with a line type corresponding to the status (“normal” is a solid line, “degenerate” is a broken line, “decline” is a one-dot chain line, and “stop” is a dotted line).

障害箇所、障害影響範囲、障害影響先サービスなどを、特定のアイコンや囲み等の表現によって表示する。表現は例えば障害度合いが深刻なもの(ステータス値が大きいものに対応する)ほど目立つようにする。   The fault location, fault impact range, fault impact destination service, and the like are displayed using specific icons or boxes. For example, the expression is made more conspicuous as the degree of failure is serious (corresponding to a large status value).

501〜505等は、前記S1等に基づく障害箇所(CI,リンク)を示す。また、障害影響範囲CI(前記S5)については、例えば、該当の各CIが囲みで表示される。囲みの種類や色はステータスに応じたものにする。図4の例では、ステータスが「停止」中の障害影響範囲のCIをそれぞれ実線の囲みで強調するように表示している。同様に「低下」や「縮退」の範囲についてもそれぞれ表示してもよい。色で表現する場合は例えば、CI及びリンクのステータスが「正常」の場合は青、「縮退」は紫、「低下」は黄、「停止」は赤、などで表示する。また各CIのステータス等の情報をポップアップ等で表示してもよい。   Reference numerals 501 to 505 and the like indicate failure locations (CI, links) based on the S1 and the like. In addition, for the failure influence range CI (S5), for example, each corresponding CI is displayed in a box. The type and color of the enclosure will depend on the status. In the example of FIG. 4, the CIs in the failure influence range whose status is “stopped” are displayed so as to be highlighted with a solid line box. Similarly, ranges of “decrease” and “degeneration” may be displayed respectively. For example, when the status of the CI and the link is “normal”, it is displayed in blue, “degenerate” is purple, “decreased” is yellow, “stop” is red, and the like. Information such as the status of each CI may be displayed in a pop-up or the like.

500は、障害影響範囲の一例(一部のみ)であり、501の障害箇所(物理サーバ)から上位への障害影響によりFTCI401,402までの範囲を示している。このように複数のCIやリンクを包含した範囲を表示してもよい。また、FTCIの上位のサービス(本例では601,602の2つ)も障害影響を受けている。図4の例では、ステータスが「停止」の各サービス(601,602)について、障害影響先サービスとして囲みで表示している。また、障害影響サービス数(N)などのサービス状況の情報をポップアップ等で表示してもよい。   500 is an example (only a part) of the failure influence range, and shows the range from the failure location (physical server) 501 to the FTCIs 401 and 402 due to the failure influence to the upper level. Thus, a range including a plurality of CIs and links may be displayed. In addition, the services higher in the FTCI (two in this example, 601 and 602) are also affected by the failure. In the example of FIG. 4, each service (601, 602) whose status is “stopped” is displayed in a box as a failure affected service. Also, service status information such as the number of failure-affected services (N) may be displayed in a pop-up or the like.

図4の例では、FTCI401,402等は、ステータスが「停止(3)」である。FTCI403は「縮退(1)」である。FTCI404は「低下(2)」である。FTCI405〜408は「正常(0)」である。FTCI409は「縮退(1)」である。FTCI411,412,413,414は「正常(0)」である。上位の2つのサービス601,602は、ステータスが「停止(3)」である。障害影響サービス数(N)(「停止」のもの)は2である。   In the example of FIG. 4, the status of the FTCI 401, 402, etc. is “stop (3)”. The FTCI 403 is “degeneration (1)”. FTCI 404 is “Decrease (2)”. The FTCIs 405 to 408 are “normal (0)”. The FTCI 409 is “degenerate (1)”. The FTCIs 411, 412, 413, and 414 are “normal (0)”. The upper two services 601 and 602 have a status of “stop (3)”. The number (N) of fault-affected services (“stop”) is 2.

担当者3は、画面G1で、色の違いや囲みや特定のアイコンや表示情報を見ることで、障害影響範囲などをわかりやすく把握することができる。構成部位(CI)に関連付けられた形で各種情報が参照可能であるため、担当者3による状況把握などが容易化・迅速化できる。例えば初期診断担当者Uは、障害影響範囲などに該当しているCIアイコンやその担当者アイコンに触れると、対応するインシデント情報や、存在する各種のエスカレーション先(A,B,C)などの担当者3の情報を見ることができ、また対応するエスカレーション動作(通知)へ連携することもできる。   The person in charge 3 can grasp the fault influence range and the like in an easy-to-understand manner by looking at the difference in color, surroundings, specific icons, and display information on the screen G1. Since various types of information can be referred to in a form associated with the component part (CI), the situation grasp by the person in charge 3 can be facilitated and speeded up. For example, when a person in charge of initial diagnosis U touches a CI icon corresponding to a failure influence range or the person in charge thereof, the person in charge of corresponding incident information or various escalation destinations (A, B, C) exists. The information of the person 3 can be viewed, and the corresponding escalation operation (notification) can be linked.

[画面(3)]
図13は、一般的な従来技術例における対象システム構成を可視化する画面例を示す。従来技術例ではCI間の依存関係性(リンク)が表示されていないので、障害箇所の影響先が把握できない。また、従来技術例ではFTCIは無いので、冗長構成箇所が障害になった場合の上位レイヤへの影響度などが把握できない。一方、本実施の形態ではCI間の依存関係性(リンク)とFTCIがあるため、障害箇所の影響先とサービス等の上位レイヤへの影響度などを把握することができる。なお特許文献1,2等の先行技術例でも、FTCI等を表示する機能は持っていない。
[Screen (3)]
FIG. 13 shows an example of a screen for visualizing a target system configuration in a general prior art example. In the prior art example, since the dependency relationship (link) between the CIs is not displayed, the influence destination of the failure part cannot be grasped. In addition, since there is no FTCI in the prior art example, it is impossible to grasp the degree of influence on the upper layer when a redundant configuration location becomes a failure. On the other hand, in the present embodiment, since there are dependency relationships (links) between CIs and FTCIs, it is possible to grasp the influence destination of a failure location and the degree of influence on higher layers such as services. Note that even prior art examples such as Patent Documents 1 and 2 do not have a function of displaying FTCI or the like.

[FTCI情報]
図5には、図3の構成に対応した各FTCIの障害許容情報の例について示す。FTCIでは、それぞれ、属性情報として、障害許容性に関する設計情報(「障害許容情報」)が入力・設定される。障害許容情報は、対象システム1の構成に応じて異なる設計情報であり、担当者3等により設定可能である(FTCI設定機能102)。また、関連するCI(上位、下位)との関係性なども依存関係性(リンク)の形で設定される。またFTCIに関する担当者3(A,B,C等)が存在する場合はその担当者情報が関連付けられる。
[FTCI information]
FIG. 5 shows an example of fault tolerance information of each FTCI corresponding to the configuration of FIG. In FTCI, design information related to fault tolerance (“failure tolerance information”) is input and set as attribute information. The fault tolerance information is design information that differs depending on the configuration of the target system 1, and can be set by the person in charge 3 or the like (FTCI setting function 102). Further, the relationship with related CIs (upper and lower) is also set in the form of dependency (link). If there is a person in charge 3 (A, B, C, etc.) related to FTCI, the person in charge information is associated.

図5(a)に示した、401,402等のFTCI(アイコン表示名称:“Cluster”)では、DBアクセス(ServiceからDBへのアクセス)に関して負荷分散などのための二重化構成(クラスタリング構成)である。この二重化構成で、片方の系のみが障害状態(片系障害)の場合は「縮退」(サービス許容)、両方の系が障害状態(両系障害)の場合は「停止」(サービス停止)、といった情報が設定される。   In the FTCI (icon display name: “Cluster”) such as 401 and 402 shown in FIG. 5A, a duplex configuration (clustering configuration) for load distribution and the like regarding DB access (access from the service to the DB) is used. is there. In this duplex configuration, if only one system is in a failed state (single system failure), "Degenerate" (service allowed), if both systems are in a failed state (both system failures), "stopped" (service stopped), Such information is set.

図5(b)に示した、403,404等のFTCI(“Cluster”)では、Middleware(MW)アクセス(ServiceからMiddlewareへのアクセス)に関して負荷分散などのための三重化構成(クラスタリング構成)である。この三重化構成で、一重障害の場合は「縮退」(サービス許容)、二重障害の場合は「低下」(サービス低下)、三重障害の場合は「停止」(サービス停止)、といった情報が設定される。   FTCI (“Cluster”) such as 403 and 404 shown in FIG. 5B is a triple configuration (clustering configuration) for load distribution with respect to Middleware (MW) access (access from Service to Middleware). is there. In this triple configuration, information such as “degenerate” (service allowance) for a single failure, “decrease” (service degradation) for a double failure, and “stop” (service stop) for a triple failure is set. Is done.

図5(c)に示した、405〜409等のFTCI(“Cluster”)では、L2Switch−Physical Server(PS)間が二重化構成である。この二重化構成で、片系障害の場合は「縮退」、両系障害の場合は「上位のFTCIに依存」(上位のFTCIのステータスに応じて当該ステータスが決定される等)、といった情報が設定される。   In FTCI ("Cluster") such as 405 to 409 shown in FIG. 5C, the L2Switch-Physical Server (PS) has a duplex configuration. In this duplex configuration, information such as “degenerate” in the case of a one-system failure and “depends on higher-level FTCI” in the case of both-system failure (such status is determined according to the status of the higher-level FTCI) is set. Is done.

図5(d)に示した、411,412等のFTCI(“Cluster”)では、L2Switch−Storage間が二重化構成である。この二重化構成で、片系障害の場合は「縮退」、両系障害の場合は「停止」(サービス停止(全体))、といった情報が設定される。   In FTCI (“Cluster”) such as 411 and 412 shown in FIG. 5D, the L2Switch-Storage configuration is a duplex configuration. In this duplex configuration, information such as “degenerate” in the case of a single system failure and “stop” (service stop (all)) in the case of both system failures is set.

図5(e)に示した、413のFTCI(“Cluster”)では、L2Switchが二重化構成である。この二重化構成で、片系障害の場合は「縮退」、両系障害の場合は「停止」(サービス停止(全体))、といった情報が設定される。   In FTCI (“Cluster”) 413 shown in FIG. 5E, the L2Switch has a duplex configuration. In this duplex configuration, information such as “degenerate” in the case of a single system failure and “stop” (service stop (all)) in the case of both system failures is set.

図5(f)に示した、414のFTCI(“Cluster”)では、L3Switchが二重化構成である。この二重化構成で、片系障害の場合は「縮退」、両系障害の場合は「停止」(サービス停止(全体))、といった情報が設定される。   In FTCI (“Cluster”) 414 shown in FIG. 5F, L3Switch has a duplex configuration. In this duplex configuration, information such as “degenerate” in the case of a single system failure and “stop” (service stop (all)) in the case of both system failures is set.

[CI情報]
図6は、構成情報(CI情報)のデータ構造例(テーブル)を示す。項目として、CI_ID、カテゴリ名、レイヤ番号、初期診断スクリプトパラメータ、機能的エスカレーション(A)、階層的エスカレーション#1(B)、階層的エスカレーション#2(C)、ステータス決定方法、ステータス、初期診断スクリプト実行結果、等を有する。
[CI information]
FIG. 6 shows a data structure example (table) of configuration information (CI information). Items include CI_ID, category name, layer number, initial diagnostic script parameter, functional escalation (A), hierarchical escalation # 1 (B), hierarchical escalation # 2 (C), status determination method, status, initial diagnostic script Execution results, etc.

CI_IDはCIの識別子である。カテゴリ名は、CIのカテゴリ(種別)を示し、DBサーバ、DB、ミドルウェア、サービス、等の他に、「障害許容性」(FTCI)を有する。FTCIについては更にFTCIの種別など(例えば図5のような各FTCI)を設けて管理してもよい。   CI_ID is an identifier of the CI. The category name indicates the category (type) of the CI, and has “failure tolerance” (FTCI) in addition to the DB server, DB, middleware, service, and the like. The FTCI may be managed by providing a FTCI type or the like (for example, each FTCI as shown in FIG. 5).

レイヤ番号は、CIの属するレイヤを示し、CI間の上位・下位などの関係性に関する情報である。レイヤの数値が小さい方が上位、大きい方が下位である。レイヤに応じて構成管理モデルが作成・表示される。またCIのステータスなどはレイヤを考慮して決定される。本例では、レイヤ1:サービス、レイヤ1.5:FTCI、レイヤ2:DB,ミドルウェア等、レイヤ3:DBサーバ,Webサーバ等、といったように規定されている。   The layer number indicates the layer to which the CI belongs, and is information regarding the relationship between the CIs such as upper and lower levels. The smaller the numerical value of the layer is, the higher the lower one. A configuration management model is created and displayed according to the layer. The CI status and the like are determined in consideration of the layers. In this example, layer 1: service, layer 1.5: FTCI, layer 2: DB, middleware, etc., layer 3: DB server, Web server, etc. are defined.

初期診断スクリプトパラメータは、初期診断処理(S3)で引数として用いるパラメータ情報を示す。例えばIPやユーザ・パスワードなどの情報である。初期診断スクリプト実行結果は、初期診断処理の結果(S4)の情報を示す。これらはインシデント情報にも格納される。   The initial diagnosis script parameter indicates parameter information used as an argument in the initial diagnosis process (S3). For example, information such as IP and user password. The initial diagnosis script execution result indicates information on the result (S4) of the initial diagnosis process. These are also stored in incident information.

機能的エスカレーション(A)は、当該CI(構成部位)に関連付けられる、機能的エスカレーション先の担当者3の情報を示す。A1〜A3は個別の担当者を示す。階層的エスカレーション(B)は、第1種の階層的エスカレーション先として、管理(本システム)側の担当者(例えば上司)の情報を示す。B1〜B3は個別の担当者を示す。階層的エスカレーション(C)は、第2種の階層的エスカレーション先として、顧客(対象システム1)側の担当者(例えば上司)の情報を示す。C1は個別の担当者を示す。   Functional escalation (A) indicates information of the person 3 in charge of functional escalation associated with the CI (component). A1 to A3 indicate individual persons in charge. Hierarchical escalation (B) indicates information of a person in charge (for example, a supervisor) on the management (this system) side as the first type of hierarchical escalation destination. B1 to B3 indicate individual persons in charge. Hierarchical escalation (C) indicates information of a person in charge (for example, a supervisor) on the customer (target system 1) side as a second type of hierarchical escalation destination. C1 indicates an individual person in charge.

ステータス決定方法は、次の項目であるステータスの値の決定方法を示す(詳しくは図7)。例えば、カテゴリがDBサーバ,DB,ミドルウェア等のCIでは、(a)の方法を適用し、IDが“0126”のFTCI(401)では(b)の方法を適用し、IDが“0130”のFTCI(403)では(c)の方法を適用し、サービスCIでは(d)の方法を適用する等、CI及びカテゴリ毎に異なる設定が可能である。ステータスは、当該CIの状況を示し、例えば「正常(0)」、「縮退(1)」、「低下(2)」、「停止(3)」、「異常(1)」などを有する。特にFTCIの場合、ステータスは障害許容状況を示す。ステータスの括弧の値は、カテゴリや方法ごとに、ステータスを識別する番号を示す。障害度合い等が大きいほどこのステータス値(ステータス番号)が大きくなるように定義されている。   The status determination method indicates a method for determining a status value as the next item (see FIG. 7 in detail). For example, in a CI whose category is DB server, DB, middleware or the like, the method (a) is applied, and in the FTCI (401) whose ID is “0126”, the method (b) is applied and the ID is “0130”. Different settings can be made for each CI and category, such as applying the method (c) in the FTCI (403) and applying the method (d) in the service CI. The status indicates the status of the CI, and includes, for example, “normal (0)”, “degenerate (1)”, “degraded (2)”, “stop (3)”, “abnormal (1)”, and the like. In particular, in the case of FTCI, the status indicates a fault tolerance situation. The value in the parenthesis of status indicates a number for identifying the status for each category or method. The status value (status number) is defined so as to increase as the degree of failure or the like increases.

図7は、ステータス決定方法の例を示す。   FIG. 7 shows an example of a status determination method.

(a)の方法では、対象CIの初期診断スクリプト実行結果において、正常終了の場合は、ステータスを「正常(0)」とし、異常終了の場合はステータスを「異常(1)」とする。これは単純な2値の定義の例であるが、CIや方法に応じて多値で定義する形にしてもよい。   In the method (a), in the initial diagnostic script execution result of the target CI, the status is set to “normal (0)” in the case of normal termination, and the status is set to “abnormal (1)” in the case of abnormal termination. This is an example of a simple binary definition, but it may be defined in multiple values according to the CI or method.

(b)の方法では、下位CIの正常稼働率(rとする)において、100%の場合は「正常(0)」、50%以上で100%未満の場合は「縮退(1)」、0%の場合は「停止(3)」とする。rは各CIのステータス値から算出できる。   In the method (b), in the normal operation rate (r) of the lower CI, “normal (0)” when 100%, “degenerate (1)” when 50% or more and less than 100%, 0 In the case of%, “stop (3)” is assumed. r can be calculated from the status value of each CI.

(c)の方法では、下位CIの正常稼働率(r)において、100%の場合は「正常(0)」、65%以上で100%未満の場合は「縮退(1)」、1%以上で65%未満の場合は「低下(2)」、0%の場合は「停止(3)」とする。   In the method of (c), in the normal operation rate (r) of the lower CI, “normal (0)” when 100%, “degenerate (1)” when 65% or more and less than 100%, 1% or more If it is less than 65%, “decrease (2)”, and if it is 0%, “stop (3)”.

(d)の方法では、下位CIのステータス番号が1番大きいステータス(障害度合い等が1番大きいもの)を継承する。例えば、図4の左側のサービスCI(601)の場合、一方の下位CI(401)は「停止(3)」、他方の下位CI(403)は「縮退(1)」であるため、大きい方である「停止(3)」の方が継承されて当該サービスCIのステータスに設定される。   In the method (d), the status with the highest status number of the lower CI (the one with the highest failure degree or the like) is inherited. For example, in the case of the service CI (601) on the left side of FIG. 4, one lower CI (401) is “stop (3)”, and the other lower CI (403) is “degenerate (1)”. “Stop (3)” is inherited and set to the status of the service CI.

[依存関係性]
図8は、CI間の依存関係性(リンク)のデータ構造例(テーブル)を示す。図8の値は、図9の構成管理モデルの例(一部)と対応した値である。図9でCI及びリンク(線)の隣の数値はIDを示す。各CI間の線が依存関係性(リンク)を示している。なお依存関係性(リンク)についてもCIの一種に含める(依存関係性CIとする)。
[Dependency]
FIG. 8 shows a data structure example (table) of dependency relationships (links) between CIs. The values in FIG. 8 correspond to the example (part) of the configuration management model in FIG. In FIG. 9, the numerical values next to the CI and the link (line) indicate the ID. A line between each CI indicates a dependency (link). Dependency relationships (links) are also included in a type of CI (referred to as dependency relationship CI).

図8で、項目として、依存関係性(リンク)_ID,第1のCI(下位CI)_ID、第2のCI(上位CI)_ID、依存関係性ステータス(=下位CIステータス)を有する。   In FIG. 8, items include dependency (link) _ID, first CI (lower CI) _ID, second CI (upper CI) _ID, and dependency status (= lower CI status).

図9の例では、あるサービス(0131)の下位に、FTCIとして“Cluster”(0126)と“Cluster”(0130)の2つがある。FTCI“Cluster”(0126)は、二重化構成であり、下位に、2つのDB(0124,0125)がある。DB(0124)の下位にDBサーバ(0123)がある。FTCI“Cluster”(0130)は、三重化構成であり、下位に、3つのミドルウェア(0127,0128,0129)がある。各CI・リンクをステータスに応じた表現で示している。吹き出しはステータスを示す。特にステータスが「異常」のCIを点線で示している。   In the example of FIG. 9, there are two FTCIs, “Cluster” (0126) and “Cluster” (0130), below a certain service (0131). FTCI “Cluster” (0126) has a duplex configuration, and there are two DBs (0124, 0125) at the lower level. A DB server (0123) is subordinate to the DB (0124). The FTCI “Cluster” (0130) has a triple configuration, and there are three middlewares (0127, 0128, 0129) at the lower level. Each CI / link is shown in an expression corresponding to the status. A balloon indicates the status. In particular, a CI whose status is “abnormal” is indicated by a dotted line.

図9のように、例えばID“1233”の依存関係性(リンク)は、ID“0123”のDBサーバである第1のCI(下位CI)と、ID“0124”のDBである第2のCI(上位CI)との依存関係性(リンク)を示し、当該依存関係性(リンク)ステータスは、下位CIのステータスと同じ「異常」(例:赤)である。   As shown in FIG. 9, for example, the dependency (link) of the ID “1233” is the first CI (subordinate CI) that is the DB server of ID “0123” and the second DB that is the DB of ID “0124”. The dependency relationship (link) with the CI (upper CI) is shown, and the dependency relationship (link) status is “abnormal” (for example, red) as the status of the lower CI.

ステータスの例として、“Cluster”(0126)における一方側のDBサーバ(0123)及びそのDB(0124)では「異常」(例:赤)であり、他方側のDB(0125)では「正常」(例:青)である。“Cluster”(0126)は、片系障害であるため、「縮退」(例:紫)である。また、“Cluster”(0130)における第1のミドルウェア(0127)は「正常」(例:青)であり、第2、第3のミドルウェア(0128,0129)は「異常」(例:赤)である。“Cluster”(0130)は、二重障害であるため、「低下」(例:黄)である。サービス(0131)は、“Cluster”(0130)の方のステータスの継承により「低下」(例:黄)となる。   As an example of the status, in the “Cluster” (0126), one side DB server (0123) and its DB (0124) are “abnormal” (eg, red), and the other side DB (0125) is “normal” ( Example: Blue). Since “Cluster” (0126) is a one-system failure, it is “degenerate” (example: purple). In the “Cluster” (0130), the first middleware (0127) is “normal” (example: blue), and the second and third middleware (0128, 0129) are “abnormal” (example: red). is there. “Cluster” (0130) is “decreased” (eg, yellow) because it is a double failure. The service (0131) is “decreased” (eg, yellow) due to the inheritance of the status of “Cluster” (0130).

[優先度などの算出]
図10に、優先度算出部17(前記S7)における優先度(P)などの算出方法を示す。図10(a)は、緊急度(α)の算出方法(一例)を示す。障害影響範囲(前記S5)におけるFTCIのステータスや障害許容情報に応じて緊急度(α)を決定する。条件として、FTCIのステータスにおいて、「正常(0)」か「縮退(1)」がある場合は、α=1とする。「停止(3)」が無く「低下(2)」がある場合は、α=2とする。「停止(3)」がある場合は、α=3とする。
[Calculation of priority, etc.]
FIG. 10 shows a calculation method of the priority (P) and the like in the priority calculation unit 17 (S7). FIG. 10A shows a method (one example) of calculating the degree of urgency (α). The urgency level (α) is determined in accordance with the FTCI status and the fault tolerance information in the fault influence range (S5). As a condition, α = 1 is set when there is “normal (0)” or “degenerate (1)” in the status of FTCI. If there is no “stop (3)” and “decrease (2)”, α = 2. If there is “stop (3)”, α = 3.

図10(b)は、インパクトレベル(β)の算出方法(一例)を示す。ステータス決定方法(図7)に応じて異なる。FTCIのステータスや障害許容情報などを用いて、各ステータスのFTCIの数や障害影響サービス数などの状況に応じてインパクトレベル(β)を算出する。例えば図7の(c)の方法の場合(ステータス値は正常(0),縮退(1),低下(2),停止(3)の4値)、条件(式)として、FTCIのステータスにおいて、[縮退(1)のFTCI数(n1)]×係数a1(例:1)+[低下(2)のFTCI数(n2)]×係数a2(例:5)+[停止(3)のFTCI数(n3)]×係数a3(例:10)である。本式による数値をインパクトレベル(β)とする。各重み付け係数(a1〜a3)の値は一例である。   FIG. 10B shows a method for calculating the impact level (β) (an example). It depends on the status determination method (FIG. 7). Using the status of FTCI, fault tolerance information, and the like, the impact level (β) is calculated according to the situation such as the number of FTCI of each status and the number of fault-affected services. For example, in the case of the method of (c) in FIG. 7 (status values are four values of normal (0), degeneration (1), decrease (2), and stop (3)), as a condition (expression), in the FTCI status, [Degenerate (1) FTCI number (n1)] × Coefficient a1 (Example: 1) + [Decrease (2) FTCI number (n2)] × Coefficient a2 (Example: 5) + [Stop (3) FTCI number (N3)] × coefficient a3 (example: 10). The numerical value according to this formula is the impact level (β). The value of each weighting coefficient (a1 to a3) is an example.

同様に例えば(b)の方法の場合(ステータス値は正常(0),縮退(1),停止(3)の3値)、上記式は、β=[縮退(1)のFTCI数(n1)]×係数a1+[停止(3)のFTCI数(n3)]×係数a3といったようになる。   Similarly, for example, in the case of the method (b) (status values are three values of normal (0), degeneration (1), and stop (3)), the above equation is expressed by β = [number of FTCIs of degeneration (1) (n1) ] × coefficient a1 + [number of FTCIs for stop (3) (n3)] × coefficient a3.

図10(c)は、優先度(P)などの算出方法(一例)を示す。上記α,βの値を用いる。条件として、α×β≦9の場合、優先度(P)=「低」とする。10≦α×β≦29の場合、優先度(P)=「中」とする。30≦α×βの場合、優先度(P)=「高」とする。   FIG. 10C shows a calculation method (one example) such as the priority (P). The values of α and β are used. As a condition, when α × β ≦ 9, priority (P) = “low”. When 10 ≦ α × β ≦ 29, the priority (P) = “medium”. When 30 ≦ α × β, the priority (P) = “high”.

また、優先度(P)に対応して、当該障害(インシデント)への対策における目標解決時間(T)を求める。本例では、P=「低」の場合は12時間、P=「中」の場合は6時間、P=「高」の場合は2時間、といったように対応付けている。   In addition, corresponding to the priority (P), a target solution time (T) in the countermeasure for the failure (incident) is obtained. In this example, the correspondence is 12 hours when P = “low”, 6 hours when P = “medium”, and 2 hours when P = “high”.

また、優先度(P)に対応して、前述の各種のエスカレーション(A〜C)の有無などを求める。例えば、P=「低」の場合、階層的エスカレーション#1(B)及び階層的エスカレーション#2(C)ともに無しである。P=「中」の場合、#1(B)(管理側への連絡等)を有りにする。更に、P=「高」の場合、#2(C)(顧客側への連絡等)も有りにする。   Also, the presence or absence of the above-described various escalations (A to C) is obtained in correspondence with the priority (P). For example, when P = “low”, there is no hierarchical escalation # 1 (B) and hierarchical escalation # 2 (C). In the case of P = “medium”, # 1 (B) (contact to the management side, etc.) is set to “present”. Further, when P = “high”, # 2 (C) (contact to the customer side, etc.) is also set.

またその他、前記S5で抽出した障害影響範囲CIや前記S6で決定したFTCIステータス等をもとに、障害影響サービス数(N)を算出する。例えば、サービスCIの下位のFTCIのステータスなどに応じて当該サービスCIのステータスを決定する。そしてサービスCIのステータス(「縮退」、「低下」、「停止」など)毎に、障害影響サービス数(N)をカウントする。   In addition, the number (N) of failure affected services is calculated based on the failure affected range CI extracted in S5 and the FTCI status determined in S6. For example, the status of the service CI is determined according to the status of the FTCI subordinate to the service CI. Then, the number (N) of failure-affected services is counted for each service CI status (“degenerate”, “decreased”, “stopped”, etc.).

情報登録部18等は、上記で得た各情報を含めて記述したインシデント情報b2を、DB51等に登録する。   The information registration unit 18 or the like registers the incident information b2 described including the information obtained above in the DB 51 or the like.

[インシデント情報]
図11に、インシデント情報(b2)のデータ構造例(テーブル)を示す。図12は、図11に対応するインシデント画面G2の例(フォーマット)を示す。インシデント情報において、項目として、インシデントID,緊急度(α),インパクトレベル(β),障害影響サービス数(N),優先度(P),目標解決時間(T),階層的エスカレーション#1(B),#2(C)、等を有する。各項目には前述した処理で得た情報が格納される。インシデントIDやその他の従来のインシデント情報と同様の項目(ステータス、タイトル、カテゴリ、構成部位(CI)、日時、説明情報など)も格納・管理される。障害影響サービス数(N)についてはステータスごとの値を格納する。図12のインシデント画面G2では、図11のインシデント情報をもとに情報が表示される。担当者3は、画面G2でインシデント情報を参照したり、値を入力することができる。他にも例えば、当該CIに関連付けられる担当者3の情報など(機能的エスカレーション(A)の担当者3や当該担当者3(A)による対策情報など)を管理・表示してもよい。
Incident information
FIG. 11 shows a data structure example (table) of the incident information (b2). FIG. 12 shows an example (format) of the incident screen G2 corresponding to FIG. In incident information, items include incident ID, urgency level (α), impact level (β), number of failure-affected services (N), priority (P), target solution time (T), hierarchical escalation # 1 (B ), # 2 (C), and the like. Each item stores information obtained by the processing described above. The same items as the incident ID and other conventional incident information (status, title, category, component (CI), date, description information, etc.) are also stored and managed. For the number of failure-affected services (N), a value for each status is stored. In the incident screen G2 of FIG. 12, information is displayed based on the incident information of FIG. The person in charge 3 can refer to incident information or input a value on the screen G2. In addition, for example, information on the person in charge 3 associated with the CI (such as information on the person in charge 3 of the functional escalation (A) or countermeasure information by the person in charge 3 (A)) may be managed and displayed.

[具体例]
前述したフロー(S0〜S9)に沿った具体例を以下に示す。
[Concrete example]
A specific example along the flow (S0 to S9) described above is shown below.

(S0)図3で示されるような構成管理モデルを設定する。   (S0) A configuration management model as shown in FIG. 3 is set.

(S1)障害検知(障害情報)により、障害箇所のCIが例えば図4の501(物理サーバ)であるとする。他の障害箇所(502等)がある場合も同様の考え方である。   (S1) Assume that the failure location CI is, for example, 501 (physical server) in FIG. 4 by failure detection (failure information). The same concept applies when there is another fault location (502 etc.).

(S2)障害箇所(501)を含む関連するCI情報(全部または一部)を取得する。少なくとも上位・下位でつながるCI及びリンクの情報が取得される。   (S2) Acquire related CI information (all or a part) including the failure location (501). Information on CIs and links connected at least in the upper and lower levels is acquired.

(S3),(S4)障害箇所(501)を含む対象に対する初期診断実行結果を得る。   (S3), (S4) An initial diagnosis execution result is obtained for the object including the failure location (501).

(S5)上記結果から、障害箇所(501)を含む障害影響範囲のCIを抽出する。例えば図4の障害影響範囲500のCIが抽出される。障害箇所などの下位CIから、依存関係性(リンク)でつながる上位CIへ、障害の影響が伝播する。処理例としては、上位CIのステータスが、リンクで接続されるすべての下位CIのステータスの値を用いた前述の計算に応じて決定される。障害影響範囲500は、上位のFTCI(例えば401,402)までを含めた場合である。   (S5) From the above result, the CI in the fault influence range including the fault location (501) is extracted. For example, the CI in the failure influence range 500 of FIG. 4 is extracted. The influence of the failure propagates from the lower CI such as the failure location to the higher CI connected by the dependency (link). As an example of processing, the status of the upper CI is determined according to the above calculation using the status values of all the lower CIs connected by the link. The failure influence range 500 is a case including up to upper FTCI (eg, 401, 402).

(S6)上記障害影響範囲に係わるFTCI(例えば401,402)について、障害許容状況を把握する。例えば401について、図6,図7の方法(b)を用いてステータスを決定する。まず、401の下位の一方の障害箇所(501)の障害の影響のみを考えた場合、401のステータスは、片系障害なので「縮退(1)」になる。また401の下位のもう一方の障害箇所(502)の障害の影響を加えて考えた場合、401のステータスは、両系障害なので「停止(3)」になる。402のFTCIについても同様に、「停止(3)」になる。   (S6) For the FTCI (eg, 401, 402) related to the failure influence range, the failure allowable status is grasped. For example, for 401, the status is determined using the method (b) of FIGS. First, considering only the influence of a failure at one failure location (501) below 401, the status of 401 is "degenerate (1)" because it is a one-system failure. Further, when the influence of the failure of the other failure portion (502) below 401 is added, the status of 401 is “stop (3)” because of the failure of both systems. Similarly, the FTCI 402 is “stop (3)”.

また、障害影響範囲500における更に上位のサービス(601,602)についても、障害影響先(障害影響サービス)として、下位のFTCI(401,402)のステータス等をもとに、ステータス(「停止」)やその数(N=2)などが求まる。   Further, the higher-level services (601, 602) in the failure-affected range 500 also have the status ("stopped") as the failure-affected destination (failure-affected service) based on the status of the lower-level FTCI (401, 402). ) And its number (N = 2).

(S7)上記の障害箇所(501)及びそれに基づくFTCI(401,402)を含む障害影響範囲500に係わるインシデントに関して、優先度(P)を求める。まず、緊急度(α)は、401,402のステータスが共に「停止(3)」の場合、α=3となる。   (S7) The priority (P) is obtained for the incident related to the failure influence range 500 including the failure location (501) and the FTCI (401, 402) based on the failure location (501). First, the urgency level (α) is α = 3 when the statuses of 401 and 402 are both “stop (3)”.

次に、上記障害影響範囲500に係わるインシデントにおけるインパクトレベル(β)は、方法(b)に応じた所定の条件(式)から、例えばβ=2×1+1×5+2×10=27となる。   Next, the impact level (β) in the incident related to the failure influence range 500 is, for example, β = 2 × 1 + 1 × 5 + 2 × 10 = 27 from a predetermined condition (formula) according to the method (b).

次に、上記障害影響範囲500に係わるインシデントにおける優先度(P)は、α×β=3×27=81,30≦α×βであるから、P=「高」となる。あわせて、T=2時間、階層的エスカレーション#1(B):有り、階層的エスカレーション#2(C):有り、と求まる。   Next, since the priority (P) in the incident relating to the failure influence range 500 is α × β = 3 × 27 = 81, 30 ≦ α × β, P = “high”. In addition, T = 2 hours, hierarchical escalation # 1 (B): Yes, hierarchical escalation # 2 (C): Yes.

(S8)上記S7までの結果を、当該インシデント情報b2に反映・登録し、また、障害構成情報b3(図3の構成管理モデル上に上記障害影響範囲500を含む状況をマッピングした情報など)を構成し、DB51等に登録する。   (S8) The results up to S7 are reflected / registered in the incident information b2, and the failure configuration information b3 (information mapping the situation including the failure influence range 500 on the configuration management model in FIG. 3) is stored. Configure and register in DB51 etc.

(S9)上記によりサービスポータルシステム30で担当者3に対し図4のような内容を持つ画面G1が提供される。   (S9) As described above, the service portal system 30 provides the person in charge 3 with the screen G1 having the contents as shown in FIG.

[効果等]
以上、本実施の形態によれば、インシデント管理システム10等に係わり、クラウド環境や障害許容性などを考慮した構成の対象システム1における、障害影響範囲などの状況や構成、及びインシデント・対策の優先度などの情報を画面(G1,G2)で可視化することで、担当者3が上記状況などを即座にわかりやすく把握でき、迅速なエスカレーション(情報伝達)及び対策の実施などが実現できる。
[Effects]
As described above, according to the present embodiment, the situation and configuration of the failure impact range, etc., and the priority of incidents and countermeasures are related to the incident management system 10 and the like in the target system 1 configured in consideration of the cloud environment and fault tolerance. By visualizing information such as the degree on the screen (G1, G2), the person in charge 3 can immediately grasp the above situation in an easy-to-understand manner, and can realize quick escalation (information transmission) and implementation of countermeasures.

担当者3は、障害検知(S1)時、図4等の画面(G1)を見ることで、FTCIを含む構成における障害箇所・障害影響範囲・障害影響先サービス、FTCIステータスなどを、色やアイコンなどによってわかりやすく把握でき、あわせてインシデント情報(G2)を見ることで、当該障害影響範囲や優先度(P)などの情報に基づき、1次切り分けやエスカレーション等の対応を容易化・迅速化できる。   When the person in charge 3 detects the failure (S1), the person in charge 3 sees the screen (G1) in FIG. By viewing incident information (G2) together, it is possible to facilitate and speed up the response such as primary isolation and escalation based on information such as the scope of impact and priority (P). .

本実施の形態では、特に、FTCIを設けた仕組みにより、対象システム1で提供するサービスの継続可能性(サービスレベル等)との兼ね合いで、仮想サーバ等の障害影響範囲のCIだけでなく、それによる障害影響先となるサービス(FTCIの上位のサービスCIなど)の状況を、各サービスのステータスや障害影響サービス数(N)などの可視化によって把握することができる。   In the present embodiment, in particular, due to the mechanism provided with FTCI, in addition to the CI in the fault influence range of the virtual server, etc. in consideration of the continuity of the service provided by the target system 1 (service level, etc.) The status of the service (such as the service CI higher in FTCI) affected by the failure can be grasped by visualizing the status of each service and the number (N) of the failure affected services.

[他の実施の形態]
(1) 対象システム1の構成部位の障害許容性をCI(FTCI)としてモデル化したが、障害許容性以外にも、構成部位の性能(性能指標)などの他の非機能項目(設計情報)をCIとしてモデル化してもよい。
[Other embodiments]
(1) Although the fault tolerance of the component part of the target system 1 is modeled as CI (FTCI), in addition to the fault tolerance, other non-functional items (design information) such as the performance of the component part (performance index) May be modeled as CI.

(2) 障害情報(S1)に基づく初期診断(S3,S4)の際に、対象システム1の全CIに対して診断実行し、その結果から障害箇所CIなどを発見・特定する形だけでなく、一部の特定のCIに対して診断を実行する形態としてもよい。例えば、障害情報(S1)から、障害等が推定される一部の特定のCIを特定(絞り込み)し、その特定のCIを診断対象とする。   (2) In the initial diagnosis (S3, S4) based on the failure information (S1), the diagnosis is executed on all CIs of the target system 1, and the failure location CI is found and specified from the result. The diagnosis may be performed on some specific CIs. For example, a part of specific CIs for which a fault or the like is estimated is specified (narrowed down) from the fault information (S1), and the specific CI is set as a diagnosis target.

(3) 障害情報(S1)等をもとに、自動的に、DB51内の既存インシデント情報(履歴)を検索したり、障害パターン解析などを行い、インシデント情報に関連付けられる又は含まれる対策手順などの対策情報を取得し、あわせて画面(G1,G2)で提示してもよい。   (3) Based on the failure information (S1), etc., the existing incident information (history) in the DB 51 is automatically searched, the failure pattern analysis is performed, and the countermeasure procedure related to or included in the incident information, etc. May be obtained and presented on the screen (G1, G2).

以上、本発明者によってなされた発明を実施の形態に基づき具体的に説明したが、本発明は前記実施の形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることは言うまでもない。   As mentioned above, the invention made by the present inventor has been specifically described based on the embodiment. However, the present invention is not limited to the embodiment, and various modifications can be made without departing from the scope of the invention. Needless to say.

本発明は、統合運用管理システム、インシデント管理システム、構成管理システム、サービスポータルシステム、障害監視システムなどに利用可能である。   The present invention can be used for an integrated operation management system, an incident management system, a configuration management system, a service portal system, a failure monitoring system, and the like.

1…対象システム(稼働システム)、3…担当者、10…インシデント管理システム、11…障害情報取得部、12…構成情報取得部、13…初期診断部、15…障害影響範囲CI抽出部、16…FTCI状況把握部、17…優先度算出部、18…情報登録部、20…構成管理システム、30…サービスポータルシステム、31…画面提供部、40…障害監視システム、51…インシデント管理データベース(DB)、52…構成管理データベース(DB)、101…障害影響範囲可視化機能、102…FTCI設定機能。   DESCRIPTION OF SYMBOLS 1 ... Target system (operation system), 3 ... Person in charge, 10 ... Incident management system, 11 ... Fault information acquisition part, 12 ... Configuration information acquisition part, 13 ... Initial diagnosis part, 15 ... Fault influence range CI extraction part, 16 FTCI situation grasping unit 17 Priority calculating unit 18 Information registering unit 20 Configuration management system 30 Service portal system 31 Screen providing unit 40 Fault monitoring system 51 Incident management database (DB) ), 52 ... Configuration management database (DB), 101 ... Failure influence range visualization function, 102 ... FTCI setting function.

Claims (8)

対象システムの障害を含むインシデントをインシデント情報として第1のデータベースに管理するインシデント管理システムであって、
前記対象システムの構成を構成情報として第2のデータベースに管理する構成管理システムと連携し、
担当者の端末に対して情報の画面を提供するサービスポータルシステムと連携し、
前記対象システムの障害を含むインシデントを監視する障害監視システムと連携し、
本インシデント管理システムは、
前記対象システムの構成、障害影響範囲及び障害影響先サービスを含むインシデント状況を可視化する画面を、前記構成情報及び前記インシデント情報を用いて作成し、前記担当者の端末に提供する第1の機能と、
前記担当者の操作に基づき、前記対象システムにおける障害許容性を考慮して設計される構成部位を含む構成を、構成管理モデルとして前記構成情報に設定する第2の機能と、を有し、
前記構成管理モデルでは、前記障害許容性を考慮して設計される構成部位を含む各構成部位を第1の構成アイテムとして設定し、前記第1の構成アイテムについての障害許容性を第2の構成アイテムとして設定し、前記第1、第2の構成アイテムを含む構成アイテム間の依存関係性をリンクとして設定し、
前記第1の機能による画面では、前記構成アイテムをリンクで接続した構造で、前記対象システムの構成管理モデル、障害箇所を含む障害影響範囲の構成アイテム及び障害影響先サービスを含むインシデント状況を表示すること、を特徴とするインシデント管理システム。
An incident management system that manages an incident including a failure of a target system as incident information in a first database,
In cooperation with a configuration management system that manages the configuration of the target system as configuration information in a second database,
In cooperation with the service portal system that provides information screens to the terminal of the person in charge,
In cooperation with a fault monitoring system that monitors incidents including faults in the target system,
This incident management system
A first function for creating a screen for visualizing an incident situation including a configuration of the target system, a failure influence range, and a failure influence destination service using the configuration information and the incident information, and providing the screen to the terminal of the person in charge; ,
A second function for setting a configuration including a configuration part designed in consideration of fault tolerance in the target system based on an operation of the person in charge as the configuration management model in the configuration information;
In the configuration management model, each configuration part including a configuration part designed in consideration of the fault tolerance is set as a first configuration item, and fault tolerance for the first configuration item is set as a second configuration item. Set as an item, set the dependency between configuration items including the first and second configuration items as a link,
The screen by the first function displays a configuration management model of the target system, a configuration item in a fault impact range including a fault location, and an incident status including a fault target service in a structure in which the configuration items are connected by a link. Incident management system characterized by that.
請求項1記載のインシデント管理システムにおいて、
(S1)前記対象システムでの障害を検知し障害情報を取得する処理部、
(S2)前記対象システムの構成情報を取得する処理部、
(S3)前記対象システムの障害箇所を含む構成部位に対する初期診断を実行する処理部、
(S4)前記初期診断の実行結果の情報を取得する処理部、
(S5)上記(S4)の情報を用いて、前記障害による障害影響範囲に含まれる第1の構成アイテム及び第2の構成アイテムを抽出する処理部、
(S6)上記(S4)の情報を用いて、前記障害による障害影響範囲に含まれる第2の構成アイテムのステータスを、障害許容性の設計情報に従って把握する処理部、
(S7)上記(S6)の情報を用いて、前記障害への対策に関する優先度、及び目標解決時間、更にはエスカレーションの有無、を算出する処理部、
(S8)上記(S7)までの結果を前記インシデント情報及び構成情報に反映し、前記構成管理モデル上に前記障害影響範囲及び障害影響先サービスを含む障害状況をマッピングした情報を作成する処理部、
(S9)上記(S8)で作成した情報を用いて、前記対象システムでの障害状況を可視化する画面を前記担当者に対して提供する処理部、を有すること、を特徴とするインシデント管理システム。
The incident management system according to claim 1,
(S1) a processing unit that detects a failure in the target system and acquires failure information;
(S2) a processing unit for acquiring configuration information of the target system;
(S3) a processing unit that performs an initial diagnosis on a constituent part including a faulty part of the target system;
(S4) a processing unit for acquiring information of an execution result of the initial diagnosis;
(S5) Using the information of (S4) above, a processing unit that extracts the first configuration item and the second configuration item included in the failure influence range due to the failure,
(S6) Using the information of (S4) above, a processing unit that grasps the status of the second configuration item included in the fault influence range due to the fault according to the fault tolerance design information,
(S7) Using the information of (S6) above, a processing unit that calculates the priority regarding the countermeasure against the failure, the target solution time, and further the presence or absence of escalation,
(S8) A processing unit that reflects the results up to (S7) in the incident information and configuration information, and creates information in which the failure status including the failure affected range and the failure affected service is mapped on the configuration management model,
(S9) An incident management system comprising: a processing unit that provides a screen for visualizing a failure status in the target system to the person in charge using the information created in (S8).
請求項2記載のインシデント管理システムにおいて、
前記(S5),(S6)の処理に係わり、前記第2の構成アイテムについて、前記ステータスの決定方法を前記障害許容性の設計情報として設定しておき、
前記ステータスは、障害許容性の度合いに応じた、正常、縮退、低下、停止を含む複数のステータス値を有し、
前記構成アイテム間のリンクは、上位の構成アイテムと下位の構成アイテムを接続し、
前記リンクのステータスは、下位の構成アイテムのステータスに応じて決定され、
前記構成アイテムは、それぞれレイヤに属し、レイヤの上位の構成アイテムのステータスは、レイヤの下位の構成アイテムのステータスに応じて決定され、
上位の構成アイテムのステータスを、前記リンクで接続されるすべての下位の構成アイテムのステータスの値を用いた計算により決定すること、を特徴とするインシデント管理システム。
In the incident management system according to claim 2,
In connection with the processing of (S5) and (S6), the status determination method is set as the fault tolerance design information for the second configuration item,
The status has a plurality of status values including normal, degeneracy, decline, and stop according to the degree of fault tolerance,
The link between the configuration items connects the upper configuration item and the lower configuration item,
The status of the link is determined according to the status of the subordinate configuration item,
Each of the configuration items belongs to a layer, and the status of the configuration item above the layer is determined according to the status of the configuration item below the layer,
An incident management system characterized in that statuses of upper configuration items are determined by calculation using status values of all lower configuration items connected by the link.
請求項1記載のインシデント管理システムにおいて、
前記画面では、前記構成アイテムを示すアイコンごと、及び前記リンクを示す線ごとに、ステータスに応じた色で表示すること、を特徴とするインシデント管理システム。
The incident management system according to claim 1,
An incident management system characterized in that, on the screen, each icon indicating the configuration item and each line indicating the link are displayed in a color corresponding to a status.
請求項1記載のインシデント管理システムにおいて、
前記画面では、前記構成アイテムを示すアイコンごとに、当該構成アイテムに関連付けられる担当者の情報を表示すること、を特徴とするインシデント管理システム。
The incident management system according to claim 1,
The incident management system characterized in that, on the screen, information of a person in charge associated with the configuration item is displayed for each icon indicating the configuration item.
請求項1記載のインシデント管理システムにおいて、
前記画面として、前記構成情報を表示する第1の画面と、前記インシデント情報を表示する第2の画面と、を有し、
前記第1の画面に、前記対象システムの構成管理モデル及び障害影響範囲を含むインシデント状況を表示すること、を特徴とするインシデント管理システム。
The incident management system according to claim 1,
The screen includes a first screen that displays the configuration information, and a second screen that displays the incident information.
An incident management system, characterized in that an incident status including a configuration management model and a failure influence range of the target system is displayed on the first screen.
請求項1記載のインシデント管理システムにおいて、
前記障害への対策に関する優先度、及び目標解決時間、更にはエスカレーションの有無、を算出する処理部を含む分析部を有し、
前記分析部の処理では、
前記第2の構成アイテムのステータスを用いて、当該インシデントの対策の緊急度(α)を算出し、
前記第2の構成アイテムのステータスを用いて、当該インシデントの対策のインパクトレベル(β)を算出し、
上記緊急度(α)とインパクトレベル(β)を用いて、前記優先度を算出し、
前記優先度に対応付けて、目標解決時間を決定し、
前記優先度に対応付けて、エスカレーションの有無を決定し、
前記障害影響範囲による障害影響先となる上位のサービスのステータス及び数を含む情報を算出すること、を特徴とするインシデント管理システム。
The incident management system according to claim 1,
An analysis unit including a processing unit for calculating a priority regarding countermeasures against the failure, a target solution time, and further, the presence or absence of escalation;
In the processing of the analysis unit,
Using the status of the second configuration item, calculate the urgency (α) of countermeasures for the incident,
Using the status of the second configuration item, the impact level (β) of the countermeasure for the incident is calculated,
The priority is calculated using the urgency level (α) and the impact level (β),
In association with the priority, a target solution time is determined,
Corresponding to the priority, determine the presence or absence of escalation,
An incident management system, comprising: calculating information including a status and number of a higher-level service that is a failure affected destination according to the failure affected range.
対象システムの障害を含むインシデントをインシデント情報として第1のデータベースに管理するインシデント管理システムにおける障害影響範囲可視化方法であって、
前記インシデント管理システムは、前記対象システムの構成を構成情報として第2のデータベースに管理する構成管理システム、担当者の端末に対して情報の画面を提供するサービスポータルシステム、及び、前記対象システムの障害を含むインシデントを監視する障害監視システムと連携し、
前記インシデント管理システムは、前記担当者の操作に基づき、前記対象システムにおける障害許容性を考慮して設計される構成部位を含む構成を、構成管理モデルとして前記構成情報に設定する機能と、前記対象システムの構成、障害影響範囲及び障害影響先サービスを含むインシデント状況を可視化する画面を、前記構成情報及び前記インシデント情報を用いて作成し、前記担当者の端末に提供する機能と、を有し、
前記構成管理モデルでは、前記障害許容性を考慮して設計される構成部位を含む各構成部位を第1の構成アイテムとして設定し、前記第1の構成アイテムについての障害許容性を第2の構成アイテムとして設定し、前記第1、第2の構成アイテムを含む構成アイテム間の依存関係性をリンクとして設定し、
前記画面では、前記構成アイテムをリンクで接続した構造で、前記対象システムの構成管理モデル、障害箇所を含む障害影響範囲の構成アイテム及び障害影響先サービスを含むインシデント状況を表示し、
前記インシデント管理システムは、
(S1)前記対象システムでの障害を検知し障害情報を取得する処理、
(S2)前記対象システムの構成情報を取得する処理、
(S3)前記対象システムの障害箇所を含む構成部位に対する初期診断を実行する処理、
(S4)前記初期診断の実行結果の情報を取得する処理、
(S5)上記(S4)の情報を用いて、前記障害による障害影響範囲に含まれる第1の構成アイテム及び第2の構成アイテムを抽出する処理、
(S6)上記(S4)の情報を用いて、前記障害による障害影響範囲に含まれる第2の構成アイテムのステータスを、障害許容性の設計情報に従って把握する処理、
(S7)上記(S6)の情報を用いて、前記障害への対策に関する優先度、及び目標解決時間、更にはエスカレーションの有無、を算出する処理、
(S8)上記(S7)までの結果を前記インシデント情報及び構成情報に反映し、前記構成管理モデル上に前記障害影響範囲及び障害影響先サービスを含む障害状況をマッピングした情報を作成する処理、
(S9)上記(S8)で作成した情報を用いて、前記サービスポータルシステムで、前記対象システムでの障害状況を可視化する画面を前記担当者に対して提供する処理、を行うこと、を特徴とする障害影響範囲可視化方法。
A method for visualizing a fault influence range in an incident management system for managing an incident including a fault in a target system as incident information in a first database,
The incident management system includes a configuration management system that manages the configuration of the target system as configuration information in a second database, a service portal system that provides an information screen to a terminal of a person in charge, and a failure of the target system In conjunction with a fault monitoring system that monitors incidents, including
The incident management system has a function of setting a configuration including a configuration part designed in consideration of fault tolerance in the target system based on an operation of the person in charge as the configuration management model in the configuration information, and the target A screen for visualizing an incident situation including a system configuration, a failure influence range and a failure influence destination service is created using the configuration information and the incident information, and has a function to provide the terminal of the person in charge.
In the configuration management model, each configuration part including a configuration part designed in consideration of the fault tolerance is set as a first configuration item, and fault tolerance for the first configuration item is set as a second configuration item. Set as an item, set the dependency between configuration items including the first and second configuration items as a link,
In the screen, in the structure in which the configuration items are connected by a link, the configuration management model of the target system, the configuration item of the fault impact range including the fault location and the incident status including the fault impact destination service are displayed,
The incident management system includes:
(S1) processing for detecting a failure in the target system and acquiring failure information;
(S2) processing for acquiring configuration information of the target system;
(S3) a process for executing an initial diagnosis on a constituent part including a faulty part of the target system;
(S4) a process for acquiring information on the execution result of the initial diagnosis;
(S5) Using the information of (S4) above, a process of extracting the first configuration item and the second configuration item that are included in the fault influence range due to the fault,
(S6) Using the information of (S4) above, a process of grasping the status of the second configuration item included in the fault influence range due to the fault according to the fault tolerance design information;
(S7) Using the information of (S6) above, a process for calculating the priority regarding the countermeasure against the failure, the target solution time, and further the presence / absence of escalation,
(S8) processing for reflecting the results up to (S7) above in the incident information and configuration information, and creating information in which the failure status including the failure impact range and the fault affected service is mapped on the configuration management model;
(S9) Using the information created in (S8) above, the service portal system performs a process of providing a screen for visualizing the failure status in the target system to the person in charge. How to visualize the range of failure impact.
JP2010176461A 2010-08-05 2010-08-05 Incident management system, failure impact range visualization method Active JP5469011B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010176461A JP5469011B2 (en) 2010-08-05 2010-08-05 Incident management system, failure impact range visualization method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010176461A JP5469011B2 (en) 2010-08-05 2010-08-05 Incident management system, failure impact range visualization method

Publications (2)

Publication Number Publication Date
JP2012038028A JP2012038028A (en) 2012-02-23
JP5469011B2 true JP5469011B2 (en) 2014-04-09

Family

ID=45849984

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010176461A Active JP5469011B2 (en) 2010-08-05 2010-08-05 Incident management system, failure impact range visualization method

Country Status (1)

Country Link
JP (1) JP5469011B2 (en)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150350034A1 (en) * 2013-01-23 2015-12-03 Nec Corporation Information processing device, influence determination method and medium
JP6109662B2 (en) * 2013-07-17 2017-04-05 日本電信電話株式会社 Operation management apparatus, operation management method, and program
JP5873913B2 (en) * 2013-09-12 2016-03-01 雅史 秋月 Business recovery support system and centralized management system
US10417101B2 (en) 2015-02-06 2019-09-17 Nec Corporation Fault monitoring device, virtual network system, and fault monitoring method
JP6482984B2 (en) * 2015-08-24 2019-03-13 株式会社日立製作所 Cloud management method and cloud management system
US10708795B2 (en) 2016-06-07 2020-07-07 TUPL, Inc. Artificial intelligence-based network advisor
JP2017220139A (en) * 2016-06-10 2017-12-14 三菱電機株式会社 Log analyzer, log analysis method, and log analysis program
JP6819357B2 (en) * 2017-02-27 2021-01-27 沖電気工業株式会社 Operation confirmation device, operation confirmation program, operation confirmation method, and operation confirmation system
JP6867589B2 (en) * 2017-05-30 2021-04-28 富士通株式会社 Impact range identification program, impact range identification method, and impact range identification device
JP6874604B2 (en) * 2017-08-30 2021-05-19 沖電気工業株式会社 Coping person support device, coping person support program, and coping person support method
JP7032640B2 (en) * 2017-12-28 2022-03-09 富士通株式会社 Impact range identification program, impact range identification method, and impact range identification device
JP6977650B2 (en) * 2018-03-30 2021-12-08 富士通株式会社 Anomaly detection method, anomaly detection program, and anomaly detection device
JP7436146B2 (en) * 2019-02-07 2024-02-21 日本電信電話株式会社 Failure information notification device and failure information notification method
WO2021166228A1 (en) * 2020-02-21 2021-08-26 日本電信電話株式会社 Network management device, method, and program
WO2021220434A1 (en) * 2020-04-28 2021-11-04 株式会社日立製作所 Device and method for determining extent of influence on business

Also Published As

Publication number Publication date
JP2012038028A (en) 2012-02-23

Similar Documents

Publication Publication Date Title
JP5469011B2 (en) Incident management system, failure impact range visualization method
US10430257B2 (en) Alarms with stack trace spanning logical and physical architecture
US8938489B2 (en) Monitoring system performance changes based on configuration modification
US5758077A (en) Service-centric monitoring system and method for monitoring of distributed services in a computing network
AU2019201687B2 (en) Network device vulnerability prediction
US8544098B2 (en) Security vulnerability information aggregation
EP3520328A1 (en) Network health data aggregation service
US20140122669A1 (en) Methods and apparatus for identifying the impact of changes in computer networks
US11533216B2 (en) Aggregating alarms into clusters to display service-affecting events on a graphical user interface
US8656009B2 (en) Indicating an impact of a change in state of a node
CN110036599A (en) The programming interface of network health information
US20120066376A1 (en) Management method of computer system and management system
US20170192850A1 (en) Time-Differential User Interface for Datacenter Management
US7801712B2 (en) Declaration and consumption of a causality model for probable cause analysis
US10552513B1 (en) Computer system entity rendering system
JP6482984B2 (en) Cloud management method and cloud management system
US9021078B2 (en) Management method and management system
CN106911519A (en) A kind of data acquisition monitoring method and device
US8850321B2 (en) Cross-domain business service management
US20120054324A1 (en) Device, method, and storage medium for detecting multiplexed relation of applications
US9443196B1 (en) Method and apparatus for problem analysis using a causal map
US20220334912A1 (en) System and method for visualizing results of cause diagnosis of event that has occurred or may occur in equipment
EP3945386A1 (en) System and method for determining manufacturing plant topology and fault propagation information
US20130138802A1 (en) Method and system for functional monitoring in multi-server reservation system
US9383901B1 (en) Methods and apparatus for navagating data center using advanced visualization

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130313

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140121

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140128

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140130

R150 Certificate of patent or registration of utility model

Ref document number: 5469011

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250