JP5544929B2 - 運用管理装置、運用管理方法、運用管理プログラム - Google Patents

運用管理装置、運用管理方法、運用管理プログラム Download PDF

Info

Publication number
JP5544929B2
JP5544929B2 JP2010043881A JP2010043881A JP5544929B2 JP 5544929 B2 JP5544929 B2 JP 5544929B2 JP 2010043881 A JP2010043881 A JP 2010043881A JP 2010043881 A JP2010043881 A JP 2010043881A JP 5544929 B2 JP5544929 B2 JP 5544929B2
Authority
JP
Japan
Prior art keywords
node
rate
service system
healthy
operation rate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010043881A
Other languages
English (en)
Other versions
JP2011180805A (ja
Inventor
清志 中川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2010043881A priority Critical patent/JP5544929B2/ja
Publication of JP2011180805A publication Critical patent/JP2011180805A/ja
Application granted granted Critical
Publication of JP5544929B2 publication Critical patent/JP5544929B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Description

本発明は、異なるノードから構成されるネットワークシステムの動作状態を管理する管理システムに関する。
複数の異なるコンピュータやサーバ装置などのノードからなるネットワークシステム(ビジネスサービスシステム)では、ノード間で相互に通信される通信情報に基づく処理を各ノードが実行することにより、利用者に対してビジネスサービスの提供を行う。
また、このネットワークシステム(以下「サービスシステム」)における運用状態(動作状態)を管理する運用管理システムでは、一般に、監視対象であるサービスシステムの構成要素(ノード)の動作異常をアラートとして取得し、このアラートの内容や予め設定されたサービスシステム内における各ノードの重要度に基づき、動作異常に対する対処(処理)が行われるノードの優先度が決定され、この優先度に基づき動作異常に対する処理が行われる。
ここで、一般に運用管理システムでは、サービスシステムを構成するノードの優先度は、監視対象である各ノード単体を基準として決定されている。
しかしながら、ビジネスサービスシステムを構成する各ノードの優先度は、ビジネスサービスシステム全体の動作状態に与える影響の度合い(インパクト値)を考慮して決定されることが望ましい。
例えば、ウェブ(Web)サーバとAP(アクセスポイント)サーバを含むサービスシステムを監視している場合、各サーバにおける動作停止などの動作異常が異なるサーバで同時に発生した場合、動作異常に対するノードの対処優先順位は、ネットワークシステムの接続構成により確保されている冗長度に応じて決定されることが望ましい。
しかしながら、監視対象ノードそれぞれを基準として決定された、動作異常に対するノードの対処優先順位(優先度)では、上記の例においては、動作停止が生じたサーバであるAPサーバの両者で、動作異常に対するノードの対処優先順位は同程度として扱われてしまい、この場合、サービスシステム全体に対する影響度の大きさを基準とした、対処優先順には、動作異常に対する対処処理が行われない、といった不都合が生じ得る。
これに対する関連技術として、システムにおける業務に及ぼす影響の大きさを示す影響度を、1−(各装置が通常の動作を行う割合)により算出する手法が開示されている(特許文献1)。
また、この関連技術として、故障率を変動させて重要度分析を行い、予め設定された閾値以上の値を示す事象をリスク表示する手法が開示されている(特許文献2)。
さらに、これに対する関連技術として、システムの構成要素における動作障害がシステムに与える影響度を、ノードの実行依存関係に基づき算出し、システムにおけるサービス停止への影響をインパクトシミュレータにより分析する手法が開示されている(特許文献3)。
特開2008−217285号公報 特開2009−176315号公報 特開2005−538459号公報
しかしながら、上記特許文献1〜3に開示された関連技術では、サービスシステムの論理構成(ネットワーク構成)とノードなどのシステム構成要素の対処優先度を示す監視ポリシーとを連動させることができないため、ネットワーク構成に変更が生じた場合に、監視ポリシーを、新たに設定されたネットワーク構成に基づき決定するといった煩雑な設定変更を行う必要があり、これには、膨大な手間がかかるため、運用コストが増大してしまうといった不都合がある。
[発明の目的]
本発明は、上記関連技術の有する不都合を改善し、異なるノードからなるネットワークシステム全体の動作状態を監視すると共に各ノードのネットワークシステムにおける重要度を提示し得る運用管理装置、運用管理方法、運用管理プログラムを提供することを、その目的とする。
上記目的を達成するために、本発明に係る運用管理装置は、階層構造を成すように接続された異なる複数のノードで行われる実行処理によりサービス提供を行うサービスシステムにおける動作異常を検知するシステム動作監視部と、前記サービスシステムにおけるノードの接続関係を論理トポロジとして記憶する論理構成記憶部とを備えた運用管理装置であって、前記システム動作監視部は、前記サービスシステムからの動作異常を示すアラートを取得すると共にこのアラートに基づき各ノードそれぞれにおける健全動作率を算出する健全動作率取得手段と、前記各ノードの内で下位に位置する下位ノードの健全動作率を用いて前記論理トポロジに基づく演算を行うことにより当該下位ノードと直属関係にあり且つその上位に位置する前記上位ノードの健全動作率を算出すると共に、前記サービスシステムにおける最上位ノードの健全動作率を算出する健全動作率算出手段と、前記各ノードで動作障害が生じた場合に前記最上位ノードの健全動作率に対する影響の度合いを前記各ノードのインパクト値として算出するインパクト値算出手段とを備えた構成をとっている。
また、本発明にかかる運用管理方法は、階層構造を成すように接続された異なる複数のノード間で通信が行われることによりサービス提供を行うサービスシステムの動作異常を検知するシステム動作監視部と、前記サービスシステムにおけるノードの接続関係を論理トポロジとして記憶する論理構成記憶部とを備えた運用管理装置にあって、前記動作異常に対する前記各ノードの処理優先度を決定する運用管理方法であって、前記サービスシステムからの動作異常を示すアラートを取得すると共にこのアラートに基づき各ノードそれぞれにおける健全動作率を算出し、前記各ノードの内で下位に位置する下位ノードの健全動作率を用いて前記論理トポロジに基づく演算を行うことにより当該下位ノードと直属関係にあり且つその上位に位置する前記上位ノードの健全動作率を算出すると共に、前記サービスシステムにおける最上位ノードの健全動作率を算出し、前記各ノードで動作障害が生じた場合に前記最上位ノードの健全動作率に対する影響の度合いを前記各ノードのインパクト値として算出することを特徴としている。
又、本発明にかかる運用管理プログラムは、階層構造を成すように接続された異なる複数のノード間で通信が行われることによりサービス提供を行うサービスシステムの動作異常を検知するシステム動作監視部と、前記サービスシステムにおけるノードの接続関係を論理トポロジとして記憶する論理構成記憶部とを備えた運用管理装置にあって、前記動作異常に対する前記各ノードの処理優先度を決定するための運用管理プログラムであって、前記サービスシステムからの動作異常を示すアラートを取得すると共にこのアラートに基づき各ノードそれぞれにおける健全動作率を算出する健全動作率取得機能と、前記各ノードのうちの下位ノードの健全動作率を用いて前記論理トポロジに基づく演算を行うことにより当該下位ノードと直属関係にあり且つその上位に位置する上位ノードの健全動作率を算出すると共に、前記サービスシステムにおける最上位ノードの健全動作率を算出する健全動作率算出機能と、前記各ノードで動作障害が生じた場合に前記最上位ノードの健全動作率に対する影響の度合いを前記各ノードのインパクト値として算出するインパクト値算出機能とをコンピュータに実行させることを特徴としている。
本発明は、以上のように構成され機能するので、これによると、サービスシステムを構成する各ノードの健全動作率を用いて、ネットワークシステムの論理トポロジに基づく演算を行うことにより、直属関係にあるノードそれぞれの健全動作率の算出する健全動作率算出部と、各ノードで動作障害が生じた場合に最上位ノードの健全動作率を低下させる影響の度合いを示す各ノードのインパクト値を算出するインパクト値算出部を備えた構成とすることにより、異なるノードからなるネットワークシステムの動作状態を監視し、各ノードのネットワークシステムにおける重要度を提示する運用管理装置、運用管理方法、および運用管理プログラムを提供することができる。
本発明による運用管理システムにおける一実施形態を示す概略ブロック図である。 図1に開示した運用管理システムにおける管理対象であるビジネスサービスシステムの一実施形態を示す概略ブロック図である。 図1に開示した運用管理システムにおける管理対象であるビジネスサービスシステムの一実施形態を示す概略ブロック図である。
[実施形態]
次に、本発明の実施形態について、その基本的構成内容を説明する。
本実施形態である運用管理システムは、図1に示すように、ノード間の接続関係が階層構造を有し、このノード間で通信が行われることによりサービス提供を行うビジネスサービスシステム(以下「サービスシステム」という)における動作異常を検知するシステム監視部01および51と、このシステム監視部01または51を介して取得したサービスシステムにおける動作異常に係る情報を管理する監視制御サーバ(運用管理装置)20と、この監視制御サーバ20による管理内容を出力表示する運用管理画面03を有する監視端末30を備えた構成を有する。
ここで、システム監視部01および51それぞれは、監視制御サーバ20による監視対象であるサービスシステム内に設置された被監視サーバ40および50内にそれぞれ設定されているものとする。
尚、この被監視サーバ40および50は、それぞれが設置されたサービスシステムを構成する各ノードの動作異常の検出を行うものとする。
ここで、本実施形態におけるビジネスサービスシステムの論理構成は、例えば、図2に示すように、ビジネス1サーバに対して接続されたWebグループサーバ、AP(アクセスポイント)グループサーバ、およびDBグループサーバを備え、Webグループサーバに対して並列で冗長に接続されたWebサーバWeb1〜Web5と、APグループサーバに対して機能的に並列で冗長に接続されたAPサーバAP1およびAP2と、DBグループサーバに接続されたDBサーバDB1と、WebサーバWeb1〜Web5それぞれに対して子ノードとして接続されたホスト端末Host1〜Host5と、APサーバAP,AP2それぞれに子ノードとして接続されたホスト端末Host6,Host7と、DBサーバに対して子ノードとして接続されたホスト端末Host8を備えた、ツリー構成を有するものとする。
ここでは、ビジネスサービスシステムを構成する子ノードは親ノードに対する接続の仕方を示す接続属性として、AND依存またはOR依存の何れかの属性を有するものとする。
尚、AND依存の場合、そのノード(子ノード)の正常性(正常動作状態)が親ノードの正常性に必須である接続属性であり、OR依存の場合は、同一の親ノードに接続されたその他のノード(兄弟ノード)で機能代用が可能である、機能的に冗長的な接続属性を有するものとする。これは、例えば、回路で説明をすると、AND依存は直列接続、OR依存は並列接続であるといえる。
具体的には、図2に示すように、WebサーバWeb1〜Web5はWebグループサーバに対して機能的に冗長構成(並列接続)を取っており、これは、Webグループサーバに対するOR依存にあたる。
一方、Webグループサーバ、APグループサーバ、およびDBグループサーバは、これら3要素でビジネス1サーバに対して機能的にAND依存であるものとする。
尚、本実施形態の監視制御サーバ20では、ビジネスサービスシステムの論理構成に変更があった場合に、この変更に追随して新たに設定されたシステム論理構成を取得することが可能であるものとする。
監視制御サーバ20は、システム監視部01および51それぞれの監視動作を制御すると共にシステム監視部01および51それぞれを介して送り込まれたサービスシステムにおける動作異常に係る情報(動作情報)をアラートとして取得するシステム監視管理部02と、システム監視管理部02により取得されたアラートを記憶保持するアラートストア04と、ビジネスサービスシステムにおけるノードの接続関係(論理構成情報)を論理トポロジとして記憶する論理トポロジ記憶部(論理構成記憶部)05と、ビジネスサービスシステムの各ノードにおける動作状態の健全性の度合いを論理トポロジに基づき計算する動作状態計算本体部10を有する。
システム監視管理部02は、ビジネスサービスシステムを構成する上位および下位ノードそれぞれにおける予め設定された健全動作率を取得する健全動作率取得機能を有する。
動作状態計算本体部10は、システム監視管理部02により取得されたアラートに基づきサービスシステムにおけるノードが健全に動作する割合を示す健全動作率を計算する健全率計算部11と、サービスシステム全体の健全動作率に与える各ノードの影響の度合い(ビジネスインパクト)をインパクト値として算出するインパクト値計算部12と、算出されたインパクト値を記憶保持するインパクト値情報記憶部13を備えている。
健全率計算部11は、下位ノードの健全動作率を用いて論理トポロジに基づく演算を行うことにより、下位ノードと直属関係にある上位ノードの健全動作率の算出し、これによりサービスシステムにおける最上位ノードの健全動作率を算出する健全動作率算出手段を有する。
インパクト値計算部12は、ビジネスサービスシステムにおける各ノードで動作障害が生じた場合に、算出された最上位ノードの健全動作率を低下させる度合いを示す各ノードのインパクト値を、各ノードの健全動作率に基づき算出する(インパクト値算出手段)
尚、監視制御サーバ20は、CPU(Central Processing Unit)、メモリ、記憶装置としてのHDD(Hard Disk Drive)などを備えた、一般のコンピュータ装置であり、上記CPUが予め設定されたプログラムに基づく実行処理を行うことにより各機能動作を実現するものとする。
また、健全率計算部11は、予め記憶された論理トポロジに基づいて、サービスシステムにおける上位ノードおよび下位ノード間の接続状態が直列である場合に、上位ノードにおける健全動作率を下位ノードの健全動作率(以下「健全率」という)の積として算出する。また、上位および下位ノード間の接続状態が並列である場合には、上位ノードにおける健全率を下位ノードの健全動作率の相加平均として算出する(健全率演算機能)。
ここで、健全率計算部11の健全率演算機能について説明する。
まず、末端ノード(Host:ホスト端末)それぞれにおける健全率を算出する健全率演算機能について、説明する。
健全率計算部11は、ビジネスサービスシステム(図2)における各末端ノード(Host1〜8)からシステム監視管理部02が取得したアラートに基づき、各末端ノード単体の健全率を算出する。
ここで、各末端ノード(Host1〜8)から異なる複数のアラートが検知されている場合が生じうる。ここでは、検知されたアラートのうち最も重要度の高いアラートを、各ノードにおける健全率として設定するものとする。例えば、サーバダウン状態の健全率は0であるものとする。
尚、検知されたどのアラートに対して、どのような重要度を割り当てるか(重み付けを行うか)は、監視制御サーバ20のオペレータが手動により予め設定するものとする。
次に、健全率が算出された下位ノードに対する上位ノードにおける健全率を算出する健全率計算部11の健全率演算機能について、説明する。
具体的には、健全率計算部11は、子ノードである末端ノード(Host)に対する親ノードとしてのWebサーバ(Web1〜Web5)、APサーバAP,AP2、DBサーバDB1それぞれにおける健全率を算出する。
また、健全率計算部11は、子ノードとしてのWebサーバ(Web1〜Web5)、APサーバAP,AP2、DBサーバDB1それぞれに対するWebグループサーバ、APグループサーバ、DBグループサーバそれぞれにおける健全率と、子ノードとしてのWebグループサーバ、APグループサーバ、DBグループサーバに対する親ノードであるビジネス1サーバの健全率の算出を行う。
ここでは、ある親ノード(例えば、Webグループサーバ)に、n個の子ノード(親ノードがWebグループサーバである場合、n=5)が接続されており、これら子ノードそれぞれにおける予め算出された健全率をそれぞれA1、A2、・・・Anとする。
このとき、親ノードの健全率は、子ノードが親ノードに対してAND依存に接続されている場合は、接続された子ノードそれぞれにおける健全率の積(A1×A2×A3×・・・×An)として算出されるものとする。
また、子ノードがOR依存に接続されている場合は、親ノードの健全率は、接続された子ノードそれぞれの相加平均{(A1+A2+A3+・・・+An)÷n}として算出されるものとする。
健全率計算部11は、ビジネスサービスシステムにおける末端ノード(子ノード)から親ノードへと階層ごとに各ノードの健全率を算出する。そして、最終的に、最上位ノード(ビジネス1サーバ)における健全率を、ビジネスサービスシステム全体の健全率として算出する。
論理トポロジ記憶部(論理構成記憶部)05は、システム監視管理部02により取得された、各ノード直属のノードを示す接続ノード特定情報を記憶する。
また、動作状態計算本体部10は、サービスシステムにおけるノードの接続関係が変更された場合に、システム監視管理部02が取得した接続ノード特定情報に基づき論理トポロジ記憶部内に記憶された論理トポロジの更新を行う(論理トポロジ更新機能)。
インパクト値計算部12は、上述のように、ビジネスサービスシステムに含まれるノード(上位ノードを有する子ノード)におけるインパクト値として算出するインパクト値算出機能を有する。
ここで、インパクト値とは、上述のように、ビジネスサービスシステム全体の健全動作率(健全率)に与える各ノードの影響の度合いを数値化した値を示す。
ここで、インパクト値計算部12のインパクト値算出機能について、説明する。
尚、ビジネスサービスシステム(図2)に含まれる、あるノード(例えば、Webグループサーバ)には、n個の子ノードが接続されており、各子ノードの健全率はそれぞれ、A1,A2,...,Anであるものとする。このとき、j番目の子ノードのインパクト値Pは、以下に示す[式1]により算出されるものとする。
[式1]
=P×(1−A)÷{Σ(−A)}
また、インパクト値計算部12は、ノードの健全動作率が検知されないことに起因して各ノードのインパクト値が算出できない場合に、各ノードのインパクト値として予め設定された値より大きい値を、インパクト値として設定する暫定インパクト値設定機能を有する。
例えば、図3に示すように、APグループサーバに対して子ノードであるAP1サーバおよびAP2サーバそれぞれの健全率が0.0である場合は、APグループサーバにおける健全率を正確に算出することができない。
この場合、インパクト値計算部12は、検知された健全率が0.0であるノードのインパクト値としてDeadマーク(D)を割当てるものとする。例えば、親ノードと子ノードの両方の健全率がそれぞれ0.0である場合、それぞれのノードのインパクト値を算出する代わりに各ノードに対してDeadマーク(D)を割当てる。
ここでは、APグループサーバのインパクト値は0.66D、AP1サーバおよびAP2サーバそれぞれのインパクト値は0.33Dに設定される。
これにより、Deadマークが割当てられた各ノードは、サービスシステムを構成するノードの中でも他のノードに対する非常にインパクト値が高いノードとして設定され、判別することが容易となる。
尚、Webグループサーバにおける健全率(0.5)およびインパクト値(0.33)は、図3に示すように、このWebグループサーバに対して子ノードであるWeb1サーバとWeb2サーバそれぞれの健全率(0と1.0)およびインパクト値(共に0.33)に基づき算出される。
また、ビジネス1サーバにおける健全率(0.0)およびインパクト値(1.00)も同様に、Webグループサーバ、APグループサーバ、およびDB1グループサーバそれぞれの健全率およびインパクト値に基づき算出される(図3)。
本実施形態の監視制御サーバ20では、ビジネスサービスシステム(ネットワーク)を構成する各ノードの論理的な構成に基づき、ノード異常発生時において系全体がどの程度正常にサービスを提供しているかの健全率を求め、さらには、その健全率に基づき各ノードがどの程度系全体に対する影響を与えるかを算出することができる。
そのインパクト値を基にすれば、システム管理者は、ビジネスサービスシステムにおけるノードに対する適切な対処優先度を判断することが可能になる。
尚、本発明に述べる健全率の計算式は、信頼性工学における故障率の計算式と同等または類似のものであるものとする。
また、一般に信頼性工学では、各ノードの故障率は静的に定まっており、それらに基づいて系全体の故障率を求めるが、本実施形態では故障率を求めるのではなく、各ノードの稼働状況が動的に変化するシステムにおいて、ある時点でのビジネスサービスがどの程度の割合でサービスを提供できるかの健全性を求めるものである。
また、本実施形態では、求めた健全率に基づき各ノードがどれくらいの割合で系にインパクトを与えているかを示す、各ノードのインパクト値を求める。
これにより、ノードの健全率が低いものは、系全体に対してより多くのインパクトを与えていると考えられる。
また、本実施形態では、予め取得したビジネスサービスシステムの論理構成を利用することにより、ビジネスサービスシステムを構成する各ノードの健全率とビジネスサービスシステム全体の健全動作に対するインパクト値の算出することができる。
[実施形態の動作説明]
次に、本実施形態の動作について、その概略を説明する。
まず、健全率計算部11は、ビジネスサービスシステムから取得したアラートに基づき、ビジネスサービスシステムを構成する各ノードにおける健全動作率を算出する(健全動作率取得工程)。
次いで、健全率計算部11は、予め取得された前記ビジネスサービスシステムの論理トポロジに基づき、下位ノードと直属関係にある上位ノードの健全動作率の算出することにより、最上位ノードの健全動作率をビジネスサービスシステム全体の健全動作率として決定する(健全動作率算出程)。
次いで、インパクト値計算部12は、各ノードで動作障害が生じた場合に各ノードが最上位ノードの健全動作率に対して及ぼす影響の度合いを示すインパクト値を各ノードの健全動作率に基づき算出する(インパクト値算出程)。
ここで、上記健全動作率取得工程、健全動作率算出工程、およびインパクト値算出工程については、その実行内容をプログラム化し、コンピュータに実行させるように構成してもよい。
次に、本実施形態にかかる運用管理システムの動作について詳説する。
まず、システム監視管理部02が、被監視サーバ40のシステム監視部01を介して、ビジネスサービスシステム(図2)を構成する各ノードにおける動作状態を示す動作情報(アラート)を取得し、アラートストア04に格納する。
健全率計算部11は、アラートストア04からホスト端末(下位ノード)の動作情報を取得すると共に、この動作情報に基づきホスト端末が通常動作状態にある度合いを示す健全率を算出する。
また、健全率計算部11は、算出したホスト端末の健全率を用いて、予め設定された論理トポロジに基づき、下位ノード(ここでは、ホスト端末)と直属関係にある親ノードの健全率を算出する。
更に、健全率計算部11は、下位ノードと直属関係にある親ノードの健全率を算出していくことにより、ビジネスサービスシステムにおける最上位ノードであるビジネスサーバの健全率を、ビジネスサービスシステム全体の健全率として算出する。これにより、健全率計算部11は、サービスシステムにおける末端ノードから最上位ノードまで、順次、健全率を算出する。
ここで、インパクト値計算部12は、算出された各ノードの健全率に基づき、各ノードで動作障害が生じた場合に最上位ノード(ビジネス1サーバ)の健全動作率、つまり、サービスネットワークシステム全体の健全率(サービス稼働率)に対して及ぼす影響の度合いを示す各ノードのインパクト値を算出し、インパクト値情報記憶部13に格納する。
ここで、各ノードのインパクト値は、例えば、最上位ノード(ビジネス1サーバ)の健全動作率を低下させる割合を示す値であってもよい。
次いで、システム監視管理部02は、インパクト値情報記憶部13にインパクト値に基づき、ビジネスサービスシステムの動作異常(アラート)が検知された場合における対処優先度を示す情報を、監視端末30の運用管理画面に対して出力する。
以上のように、本実施形態の運用管理システムでは、ビジネスサービスシステム(ネットワーク)を構成するノードにおける動作異常の発生時に、動作異常に対する対処処理を行うためのノード間の対処優先度を、常時算出することができ、更には、ノード単体の重要度ではなく、ビジネス全体としての影響度を基にした優先度を算出し出力表示することができるため、システム管理者(監視制御サーバ20のオペレータ)は、ビジネスサービスシステムのシステム構成に応じて、検出されたアラートに対する対処優先度を、適切に判断することを可能とする。
また、本実施形態では、ビジネスサービスシステムの論理構成(ネットワーク構成)に変更があった場合でも、ビジネスサービスシステムの論理構成(ネットワーク構成)が定まった場合に、サービスシステム全体に対する各ノードの健全率およびインパクト値が再計算されるため、新たな論理構成に基づくノード間の優先度の再計算、監視ポリシー変更、新たな監視ポリシーの適用等を行うことなく、新たに設定された論理構成に基づくノードの優先度が一意に決定される。
つまり、ビジネスサービスを構成する論理トポロジを活用して、アラート発生時における各ノードの健全性と系全体へのインパクトを数値化して提示することができる。
これにより、システム管理者(監視制御サーバ20のオペレータ)は、サービスシステムを構成する、各ノードにおける動作異常が系全体に対して及ぼす影響の度合いを把握することができ、且つ、その影響の度合いの順番に基づき動作異常に対しての対処を行うことを可能とする。
本発明は、ノードにより構成され複数の階層構造を有する大規模なネットワークシステムの動作状態を、通信回線を介して遠隔管理するネットワーク管理システムに対して有用に適用することができる。
01、51 システム管理部
02 システム監視管理部
03 運用管理画面
04 アラートストア
05 論理トポロジ
10 動作状態計算本体部
11 健全率計算部
12 インパクト値計算部
13 インパクト値情報記憶部
20 監視制御サーバ
30 監視端末
40、50 被監視サーバ

Claims (6)

  1. 階層構造を成すように接続された異なる複数のノードで行われる実行処理によりサービス提供を行うサービスシステムにおける動作異常を検知するシステム動作監視部と、前記サービスシステムにおけるノードの接続関係を論理トポロジとして記憶する論理構成記憶部とを備えた運用管理装置であって、
    前記システム動作監視部は、
    前記サービスシステムからの動作異常を示すアラートを取得すると共にこのアラートに基づき各ノードそれぞれにおける健全動作率を算出する健全動作率取得手段と、
    前記各ノードの内で下位に位置する下位ノードの健全動作率を用いて前記論理トポロジに基づく演算を行うことにより当該下位ノードと直属関係にあり且つその上位に位置する上位ノードの健全動作率を算出すると共に前記サービスシステムにおける最上位ノードの健全動作率を算出する健全動作率算出手段と、
    前記各ノードで動作障害が生じた場合に前記最上位ノードの健全動作率に対する影響の度合いを前記各ノードのインパクト値として算出するインパクト値算出手段とを備えたことを特徴とする運用管理装置。
  2. 請求項1に記載の運用管理装置において、
    前記健全動作率算出手段は、
    前記論理トポロジにおける上位ノードおよび下位ノード間の接続状態が直列である場合に前記上位ノードにおける健全動作率を下位ノードの健全動作率の積として算出し、上位および下位ノード間の接続状態が並列である場合に前記上位ノードにおける健全動作率を下位ノードの健全動作率の相加平均として算出する演算機能を備えたことを特徴とする運用管理装置。
  3. 請求項1または2に記載の運用管理装置において、
    前記論理構成記憶部は、システム動作監視部により取得された前記各ノード直属のノードを示す接続ノード特定情報を記憶するノード特定情報記憶機能を備え、
    前記健全動作率算出手段は、前記サービスシステムにおけるノードの接続関係が変更された場合に、前記接続ノード特定情報に基づき前記サービスシステムの論理トポロジを更新する論理トポロジ更新手段を備えたことを特徴とする運用管理装置。
  4. 請求項1または2に記載の運用管理装置において、
    前記インパクト値算出手段は、前記ノードの健全動作率が検知されないことにより前記各ノードのインパクト値が算出できない場合に、前記各ノードのインパクト値として予め設定された値より大きい値を前記インパクト値として設定する暫定インパクト値設定機能を備えたことを特徴とする運用管理装置。
  5. 階層構造を成すように接続された異なる複数のノード間で通信が行われることによりサービス提供を行うサービスシステムの動作異常を検知するシステム動作監視部と、前記サービスシステムにおけるノードの接続関係を論理トポロジとして記憶する論理構成記憶部とを備えた運用管理装置にあって、前記動作異常に対する前記各ノードの処理優先度を決定する運用管理方法であって、
    前記サービスシステムからの動作異常を示すアラートを取得すると共にこのアラートに基づき各ノードそれぞれにおける健全動作率を算出し、
    前記各ノードの内で下位に位置する下位ノードの健全動作率を用いて前記論理トポロジに基づく演算を行うことにより当該下位ノードと直属関係にあり且つその上位に位置する上位ノードの健全動作率を算出すると共に、前記サービスシステムにおける最上位ノードの健全動作率を算出し、
    前記各ノードで動作障害が生じた場合に前記最上位ノードの健全動作率に対する影響の度合いを前記各ノードのインパクト値として算出することを特徴とした運用管理方法。
  6. 階層構造を成すように接続された異なる複数のノード間で通信が行われることによりサービス提供を行うサービスシステムの動作異常を検知するシステム動作監視部と、前記サービスシステムにおけるノードの接続関係を論理トポロジとして記憶する論理構成記憶部とを備えた運用管理装置にあって、前記動作異常に対する前記各ノードの処理優先度を決定するための運用管理プログラムであって、
    前記サービスシステムからの動作異常を示すアラートを取得すると共にこのアラートに基づき各ノードそれぞれにおける健全動作率を算出する健全動作率取得機能と、
    前記各ノードのうちの下位ノードの健全動作率を用いて前記論理トポロジに基づく演算を行うことにより当該下位ノードと直属関係にあり且つその上位に位置する上位ノードの健全動作率を算出すると共に、前記サービスシステムにおける最上位ノードの健全動作率を算出する健全動作率算出機能と、
    前記各ノードで動作障害が生じた場合に前記最上位ノードの健全動作率に対する影響の度合いを前記各ノードのインパクト値として算出するインパクト値算出機能とをコンピュータに実行させることを特徴とした運用管理プログラム。
JP2010043881A 2010-03-01 2010-03-01 運用管理装置、運用管理方法、運用管理プログラム Expired - Fee Related JP5544929B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010043881A JP5544929B2 (ja) 2010-03-01 2010-03-01 運用管理装置、運用管理方法、運用管理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010043881A JP5544929B2 (ja) 2010-03-01 2010-03-01 運用管理装置、運用管理方法、運用管理プログラム

Publications (2)

Publication Number Publication Date
JP2011180805A JP2011180805A (ja) 2011-09-15
JP5544929B2 true JP5544929B2 (ja) 2014-07-09

Family

ID=44692246

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010043881A Expired - Fee Related JP5544929B2 (ja) 2010-03-01 2010-03-01 運用管理装置、運用管理方法、運用管理プログラム

Country Status (1)

Country Link
JP (1) JP5544929B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014002557A1 (ja) * 2012-06-29 2014-01-03 日本電気株式会社 共有リスク影響度評価システム、共有リスク影響度評価方法、およびプログラム
US20150350034A1 (en) * 2013-01-23 2015-12-03 Nec Corporation Information processing device, influence determination method and medium
JP6592920B2 (ja) * 2015-03-12 2019-10-23 日本電気株式会社 情報表示装置、情報表示方法及び情報表示プログラム
US20220331810A1 (en) * 2019-09-27 2022-10-20 Satake Corporation Hulling device and hulling control system
JP7537119B2 (ja) 2019-09-27 2024-08-21 株式会社サタケ 籾摺装置及び籾摺制御システム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3445517B2 (ja) * 1999-02-16 2003-09-08 株式会社東芝 システムの信頼性設計装置及び方法並びにシステムの信頼性設計用ソフトウェアを記録した記録媒体
JP4485763B2 (ja) * 2003-07-10 2010-06-23 株式会社日立製作所 運用管理方法及び装置
JP4592325B2 (ja) * 2004-04-28 2010-12-01 株式会社東芝 Itシステムの設計支援システムおよび設計支援方法
JP4669487B2 (ja) * 2007-03-02 2011-04-13 株式会社日立製作所 情報処理システムの運用管理装置および運用管理方法

Also Published As

Publication number Publication date
JP2011180805A (ja) 2011-09-15

Similar Documents

Publication Publication Date Title
WO2021129367A1 (zh) 一种监控分布式存储系统的方法及装置
US10462027B2 (en) Cloud network stability
US9575828B2 (en) Correctly identifying potential anomalies in a distributed storage system
JP5719974B2 (ja) 複数の監視対象デバイスを有する計算機システムの管理を行う管理システム
TW202009705A (zh) 用以自動管理發生於資料中心系統的硬體錯誤事件的方法及其系統
US20170010930A1 (en) Interactive mechanism to view logs and metrics upon an anomaly in a distributed storage system
EP3338191B1 (en) Diagnostic framework in computing systems
WO2012101933A1 (ja) 運用管理装置、運用管理方法、及びプログラム
JP5544929B2 (ja) 運用管理装置、運用管理方法、運用管理プログラム
US7987394B2 (en) Method and apparatus for expressing high availability cluster demand based on probability of breach
CA2955216C (en) Recovering usability of cloud based service from system failure
US9852007B2 (en) System management method, management computer, and non-transitory computer-readable storage medium
KR20170040210A (ko) 분산 시스템에서 결함을 분석하기 위한 비주얼 툴
US11032152B2 (en) Machine-learning based self-populating dashboard for resource utilization monitoring in hyper-converged information technology environments
WO2015063889A1 (ja) 管理システム、プラン生成方法、およびプラン生成プログラム
US20150370619A1 (en) Management system for managing computer system and management method thereof
US20180241835A1 (en) Monitoring highly distributed computer systems
JP5162582B2 (ja) 推定原因分析のための因果関係モデルの宣言及び消費
JP6002856B2 (ja) 監視システム、及び、監視方法
US20210399953A1 (en) Tail-based span data sampling
JP6482984B2 (ja) クラウド管理方法及びクラウド管理システム
US10210127B2 (en) Storage system cabling analysis
JP2006092053A (ja) システム使用率管理装置及びそれに用いるシステム使用率管理方法並びにそのプログラム
US8812916B2 (en) Failure data management for a distributed computer system
JP2017146746A (ja) ネットワーク評価システム、不稼働率算出方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130214

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131218

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140107

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140226

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140415

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140428

R150 Certificate of patent or registration of utility model

Ref document number: 5544929

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees