JP5544929B2 - 運用管理装置、運用管理方法、運用管理プログラム - Google Patents
運用管理装置、運用管理方法、運用管理プログラム Download PDFInfo
- Publication number
- JP5544929B2 JP5544929B2 JP2010043881A JP2010043881A JP5544929B2 JP 5544929 B2 JP5544929 B2 JP 5544929B2 JP 2010043881 A JP2010043881 A JP 2010043881A JP 2010043881 A JP2010043881 A JP 2010043881A JP 5544929 B2 JP5544929 B2 JP 5544929B2
- Authority
- JP
- Japan
- Prior art keywords
- node
- rate
- service system
- healthy
- operation rate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Debugging And Monitoring (AREA)
Description
また、このネットワークシステム(以下「サービスシステム」)における運用状態(動作状態)を管理する運用管理システムでは、一般に、監視対象であるサービスシステムの構成要素(ノード)の動作異常をアラートとして取得し、このアラートの内容や予め設定されたサービスシステム内における各ノードの重要度に基づき、動作異常に対する対処(処理)が行われるノードの優先度が決定され、この優先度に基づき動作異常に対する処理が行われる。
しかしながら、ビジネスサービスシステムを構成する各ノードの優先度は、ビジネスサービスシステム全体の動作状態に与える影響の度合い(インパクト値)を考慮して決定されることが望ましい。
例えば、ウェブ(Web)サーバとAP(アクセスポイント)サーバを含むサービスシステムを監視している場合、各サーバにおける動作停止などの動作異常が異なるサーバで同時に発生した場合、動作異常に対するノードの対処優先順位は、ネットワークシステムの接続構成により確保されている冗長度に応じて決定されることが望ましい。
また、この関連技術として、故障率を変動させて重要度分析を行い、予め設定された閾値以上の値を示す事象をリスク表示する手法が開示されている(特許文献2)。
[発明の目的]
本発明は、上記関連技術の有する不都合を改善し、異なるノードからなるネットワークシステム全体の動作状態を監視すると共に各ノードのネットワークシステムにおける重要度を提示し得る運用管理装置、運用管理方法、運用管理プログラムを提供することを、その目的とする。
次に、本発明の実施形態について、その基本的構成内容を説明する。
尚、この被監視サーバ40および50は、それぞれが設置されたサービスシステムを構成する各ノードの動作異常の検出を行うものとする。
ここでは、ビジネスサービスシステムを構成する子ノードは親ノードに対する接続の仕方を示す接続属性として、AND依存またはOR依存の何れかの属性を有するものとする。
一方、Webグループサーバ、APグループサーバ、およびDBグループサーバは、これら3要素でビジネス1サーバに対して機能的にAND依存であるものとする。
尚、本実施形態の監視制御サーバ20では、ビジネスサービスシステムの論理構成に変更があった場合に、この変更に追随して新たに設定されたシステム論理構成を取得することが可能であるものとする。
動作状態計算本体部10は、システム監視管理部02により取得されたアラートに基づきサービスシステムにおけるノードが健全に動作する割合を示す健全動作率を計算する健全率計算部11と、サービスシステム全体の健全動作率に与える各ノードの影響の度合い(ビジネスインパクト)をインパクト値として算出するインパクト値計算部12と、算出されたインパクト値を記憶保持するインパクト値情報記憶部13を備えている。
まず、末端ノード(Host:ホスト端末)それぞれにおける健全率を算出する健全率演算機能について、説明する。
尚、検知されたどのアラートに対して、どのような重要度を割り当てるか(重み付けを行うか)は、監視制御サーバ20のオペレータが手動により予め設定するものとする。
具体的には、健全率計算部11は、子ノードである末端ノード(Host)に対する親ノードとしてのWebサーバ(Web1〜Web5)、APサーバAP1,AP2、DBサーバDB1それぞれにおける健全率を算出する。
また、健全率計算部11は、子ノードとしてのWebサーバ(Web1〜Web5)、APサーバAP1,AP2、DBサーバDB1それぞれに対するWebグループサーバ、APグループサーバ、DBグループサーバそれぞれにおける健全率と、子ノードとしてのWebグループサーバ、APグループサーバ、DBグループサーバに対する親ノードであるビジネス1サーバの健全率の算出を行う。
また、動作状態計算本体部10は、サービスシステムにおけるノードの接続関係が変更された場合に、システム監視管理部02が取得した接続ノード特定情報に基づき論理トポロジ記憶部内に記憶された論理トポロジの更新を行う(論理トポロジ更新機能)。
ここで、インパクト値とは、上述のように、ビジネスサービスシステム全体の健全動作率(健全率)に与える各ノードの影響の度合いを数値化した値を示す。
尚、ビジネスサービスシステム(図2)に含まれる、あるノード(例えば、Webグループサーバ)には、n個の子ノードが接続されており、各子ノードの健全率はそれぞれ、A1,A2,...,Anであるものとする。このとき、j番目の子ノードのインパクト値Pjは、以下に示す[式1]により算出されるものとする。
Pj=P×(1−Aj)÷{Σ(−Ai)}
ここでは、APグループサーバのインパクト値は0.66D、AP1サーバおよびAP2サーバそれぞれのインパクト値は0.33Dに設定される。
尚、Webグループサーバにおける健全率(0.5)およびインパクト値(0.33)は、図3に示すように、このWebグループサーバに対して子ノードであるWeb1サーバとWeb2サーバそれぞれの健全率(0と1.0)およびインパクト値(共に0.33)に基づき算出される。
また、ビジネス1サーバにおける健全率(0.0)およびインパクト値(1.00)も同様に、Webグループサーバ、APグループサーバ、およびDB1グループサーバそれぞれの健全率およびインパクト値に基づき算出される(図3)。
そのインパクト値を基にすれば、システム管理者は、ビジネスサービスシステムにおけるノードに対する適切な対処優先度を判断することが可能になる。
また、一般に信頼性工学では、各ノードの故障率は静的に定まっており、それらに基づいて系全体の故障率を求めるが、本実施形態では故障率を求めるのではなく、各ノードの稼働状況が動的に変化するシステムにおいて、ある時点でのビジネスサービスがどの程度の割合でサービスを提供できるかの健全性を求めるものである。
これにより、ノードの健全率が低いものは、系全体に対してより多くのインパクトを与えていると考えられる。
また、本実施形態では、予め取得したビジネスサービスシステムの論理構成を利用することにより、ビジネスサービスシステムを構成する各ノードの健全率とビジネスサービスシステム全体の健全動作に対するインパクト値の算出することができる。
次に、本実施形態の動作について、その概略を説明する。
まず、健全率計算部11は、ビジネスサービスシステムから取得したアラートに基づき、ビジネスサービスシステムを構成する各ノードにおける健全動作率を算出する(健全動作率取得工程)。
次いで、健全率計算部11は、予め取得された前記ビジネスサービスシステムの論理トポロジに基づき、下位ノードと直属関係にある上位ノードの健全動作率の算出することにより、最上位ノードの健全動作率をビジネスサービスシステム全体の健全動作率として決定する(健全動作率算出工程)。
次いで、インパクト値計算部12は、各ノードで動作障害が生じた場合に、各ノードが最上位ノードの健全動作率に対して及ぼす影響の度合いを示すインパクト値を、各ノードの健全動作率に基づき算出する(インパクト値算出工程)。
まず、システム監視管理部02が、被監視サーバ40のシステム監視部01を介して、ビジネスサービスシステム(図2)を構成する各ノードにおける動作状態を示す動作情報(アラート)を取得し、アラートストア04に格納する。
また、健全率計算部11は、算出したホスト端末の健全率を用いて、予め設定された論理トポロジに基づき、下位ノード(ここでは、ホスト端末)と直属関係にある親ノードの健全率を算出する。
ここで、各ノードのインパクト値は、例えば、最上位ノード(ビジネス1サーバ)の健全動作率を低下させる割合を示す値であってもよい。
つまり、ビジネスサービスを構成する論理トポロジを活用して、アラート発生時における各ノードの健全性と系全体へのインパクトを数値化して提示することができる。
02 システム監視管理部
03 運用管理画面
04 アラートストア
05 論理トポロジ
10 動作状態計算本体部
11 健全率計算部
12 インパクト値計算部
13 インパクト値情報記憶部
20 監視制御サーバ
30 監視端末
40、50 被監視サーバ
Claims (6)
- 階層構造を成すように接続された異なる複数のノードで行われる実行処理によりサービス提供を行うサービスシステムにおける動作異常を検知するシステム動作監視部と、前記サービスシステムにおける各ノード間の接続関係を論理トポロジとして記憶する論理構成記憶部とを備えた運用管理装置であって、
前記システム動作監視部は、
前記サービスシステムからの動作異常を示すアラートを取得すると共にこのアラートに基づき各ノードそれぞれにおける健全動作率を算出する健全動作率取得手段と、
前記各ノードの内で下位に位置する下位ノードの健全動作率を用いて前記論理トポロジに基づく演算を行うことにより当該下位ノードと直属関係にあり且つその上位に位置する上位ノードの健全動作率を算出すると共に、前記サービスシステムにおける最上位ノードの健全動作率を算出する健全動作率算出手段と、
前記各ノードで動作障害が生じた場合に前記最上位ノードの健全動作率に対する影響の度合いを前記各ノードのインパクト値として算出するインパクト値算出手段とを備えたことを特徴とする運用管理装置。 - 請求項1に記載の運用管理装置において、
前記健全動作率算出手段は、
前記論理トポロジにおける上位ノードおよび下位ノード間の接続状態が直列である場合に前記上位ノードにおける健全動作率を下位ノードの健全動作率の積として算出し、上位および下位ノード間の接続状態が並列である場合に前記上位ノードにおける健全動作率を下位ノードの健全動作率の相加平均として算出する演算機能を備えたことを特徴とする運用管理装置。 - 請求項1または2に記載の運用管理装置において、
前記論理構成記憶部は、システム動作監視部により取得された前記各ノード直属のノードを示す接続ノード特定情報を記憶するノード特定情報記憶機能を備え、
前記健全動作率算出手段は、前記サービスシステムにおけるノードの接続関係が変更された場合に、前記接続ノード特定情報に基づき前記サービスシステムの論理トポロジを更新する論理トポロジ更新手段を備えたことを特徴とする運用管理装置。 - 請求項1または2に記載の運用管理装置において、
前記インパクト値算出手段は、前記ノードの健全動作率が検知されないことにより前記各ノードのインパクト値が算出できない場合に、前記各ノードのインパクト値として予め設定された値より大きい値を前記インパクト値として設定する暫定インパクト値設定機能を備えたことを特徴とする運用管理装置。 - 階層構造を成すように接続された異なる複数のノード間で通信が行われることによりサービス提供を行うサービスシステムの動作異常を検知するシステム動作監視部と、前記サービスシステムにおける各ノード間の接続関係を論理トポロジとして記憶する論理構成記憶部とを備えた運用管理装置にあって、前記動作異常に対する前記各ノードの処理優先度を決定する運用管理方法であって、
前記サービスシステムからの動作異常を示すアラートを取得すると共にこのアラートに基づき各ノードそれぞれにおける健全動作率を算出し、
前記各ノードの内で下位に位置する下位ノードの健全動作率を用いて前記論理トポロジに基づく演算を行うことにより当該下位ノードと直属関係にあり且つその上位に位置する上位ノードの健全動作率を算出すると共に、前記サービスシステムにおける最上位ノードの健全動作率を算出し、
前記各ノードで動作障害が生じた場合に前記最上位ノードの健全動作率に対する影響の度合いを前記各ノードのインパクト値として算出することを特徴とした運用管理方法。 - 階層構造を成すように接続された異なる複数のノード間で通信が行われることによりサービス提供を行うサービスシステムの動作異常を検知するシステム動作監視部と、前記サービスシステムにおける各ノード間の接続関係を論理トポロジとして記憶する論理構成記憶部とを備えた運用管理装置にあって、前記動作異常に対する前記各ノードの処理優先度を決定するための運用管理プログラムであって、
前記サービスシステムからの動作異常を示すアラートを取得すると共にこのアラートに基づき各ノードそれぞれにおける健全動作率を算出する健全動作率取得機能と、
前記各ノードのうちの下位ノードの健全動作率を用いて前記論理トポロジに基づく演算を行うことにより当該下位ノードと直属関係にあり且つその上位に位置する上位ノードの健全動作率を算出すると共に、前記サービスシステムにおける最上位ノードの健全動作率を算出する健全動作率算出機能と、
前記各ノードで動作障害が生じた場合に前記最上位ノードの健全動作率に対する影響の度合いを前記各ノードのインパクト値として算出するインパクト値算出機能とをコンピュータに実行させることを特徴とした運用管理プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010043881A JP5544929B2 (ja) | 2010-03-01 | 2010-03-01 | 運用管理装置、運用管理方法、運用管理プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010043881A JP5544929B2 (ja) | 2010-03-01 | 2010-03-01 | 運用管理装置、運用管理方法、運用管理プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011180805A JP2011180805A (ja) | 2011-09-15 |
JP5544929B2 true JP5544929B2 (ja) | 2014-07-09 |
Family
ID=44692246
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010043881A Expired - Fee Related JP5544929B2 (ja) | 2010-03-01 | 2010-03-01 | 運用管理装置、運用管理方法、運用管理プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5544929B2 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014002557A1 (ja) * | 2012-06-29 | 2014-01-03 | 日本電気株式会社 | 共有リスク影響度評価システム、共有リスク影響度評価方法、およびプログラム |
US20150350034A1 (en) * | 2013-01-23 | 2015-12-03 | Nec Corporation | Information processing device, influence determination method and medium |
JP6592920B2 (ja) * | 2015-03-12 | 2019-10-23 | 日本電気株式会社 | 情報表示装置、情報表示方法及び情報表示プログラム |
US20220331810A1 (en) * | 2019-09-27 | 2022-10-20 | Satake Corporation | Hulling device and hulling control system |
JP7537119B2 (ja) | 2019-09-27 | 2024-08-21 | 株式会社サタケ | 籾摺装置及び籾摺制御システム |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3445517B2 (ja) * | 1999-02-16 | 2003-09-08 | 株式会社東芝 | システムの信頼性設計装置及び方法並びにシステムの信頼性設計用ソフトウェアを記録した記録媒体 |
JP4485763B2 (ja) * | 2003-07-10 | 2010-06-23 | 株式会社日立製作所 | 運用管理方法及び装置 |
JP4592325B2 (ja) * | 2004-04-28 | 2010-12-01 | 株式会社東芝 | Itシステムの設計支援システムおよび設計支援方法 |
JP4669487B2 (ja) * | 2007-03-02 | 2011-04-13 | 株式会社日立製作所 | 情報処理システムの運用管理装置および運用管理方法 |
-
2010
- 2010-03-01 JP JP2010043881A patent/JP5544929B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2011180805A (ja) | 2011-09-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021129367A1 (zh) | 一种监控分布式存储系统的方法及装置 | |
US10462027B2 (en) | Cloud network stability | |
US9575828B2 (en) | Correctly identifying potential anomalies in a distributed storage system | |
JP5719974B2 (ja) | 複数の監視対象デバイスを有する計算機システムの管理を行う管理システム | |
TW202009705A (zh) | 用以自動管理發生於資料中心系統的硬體錯誤事件的方法及其系統 | |
US20170010930A1 (en) | Interactive mechanism to view logs and metrics upon an anomaly in a distributed storage system | |
EP3338191B1 (en) | Diagnostic framework in computing systems | |
WO2012101933A1 (ja) | 運用管理装置、運用管理方法、及びプログラム | |
JP5544929B2 (ja) | 運用管理装置、運用管理方法、運用管理プログラム | |
US7987394B2 (en) | Method and apparatus for expressing high availability cluster demand based on probability of breach | |
CA2955216C (en) | Recovering usability of cloud based service from system failure | |
US9852007B2 (en) | System management method, management computer, and non-transitory computer-readable storage medium | |
KR20170040210A (ko) | 분산 시스템에서 결함을 분석하기 위한 비주얼 툴 | |
US11032152B2 (en) | Machine-learning based self-populating dashboard for resource utilization monitoring in hyper-converged information technology environments | |
WO2015063889A1 (ja) | 管理システム、プラン生成方法、およびプラン生成プログラム | |
US20150370619A1 (en) | Management system for managing computer system and management method thereof | |
US20180241835A1 (en) | Monitoring highly distributed computer systems | |
JP5162582B2 (ja) | 推定原因分析のための因果関係モデルの宣言及び消費 | |
JP6002856B2 (ja) | 監視システム、及び、監視方法 | |
US20210399953A1 (en) | Tail-based span data sampling | |
JP6482984B2 (ja) | クラウド管理方法及びクラウド管理システム | |
US10210127B2 (en) | Storage system cabling analysis | |
JP2006092053A (ja) | システム使用率管理装置及びそれに用いるシステム使用率管理方法並びにそのプログラム | |
US8812916B2 (en) | Failure data management for a distributed computer system | |
JP2017146746A (ja) | ネットワーク評価システム、不稼働率算出方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130214 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131218 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140107 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140226 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140415 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140428 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5544929 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |