JP5271761B2 - 障害対処方法及び装置 - Google Patents

障害対処方法及び装置 Download PDF

Info

Publication number
JP5271761B2
JP5271761B2 JP2009059172A JP2009059172A JP5271761B2 JP 5271761 B2 JP5271761 B2 JP 5271761B2 JP 2009059172 A JP2009059172 A JP 2009059172A JP 2009059172 A JP2009059172 A JP 2009059172A JP 5271761 B2 JP5271761 B2 JP 5271761B2
Authority
JP
Japan
Prior art keywords
incident information
identifier
failure
incident
customer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009059172A
Other languages
English (en)
Other versions
JP2010211674A (ja
Inventor
正明 大門
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu FSAS Inc
Original Assignee
Fujitsu FSAS Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu FSAS Inc filed Critical Fujitsu FSAS Inc
Priority to JP2009059172A priority Critical patent/JP5271761B2/ja
Publication of JP2010211674A publication Critical patent/JP2010211674A/ja
Application granted granted Critical
Publication of JP5271761B2 publication Critical patent/JP5271761B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本技術は、障害の通知情報であるインシデント情報に対して中長期的な視点で対処するための情報処理技術に関する。
現在、企業の多くが何らかのシステムを使用しているが、様々な原因でシステムに障害等のトラブルが発生し、その対応は発生後直ぐに行うのが通常である。
しかしながら、運用管理者側では、トラブルの報告が多数同時期に発生する場合があるため、様々な観点から優先度を与えて優先度の高いものから対処している。
その一手法としては以下のような技術が存在する。具体的には、サービス管理装置は、所定のサービスを提供するシステムに対する顧客からのインシデントを受け取ったオペレータによってインシデント毎に作成される、インシデントに関するデータを含むインシデントチケットを管理するインシデント管理部と、インシデントチケットのうちオペレータでは対応できないと判断されたインシデントに関するインシデントチケットと関連付けされる、システムの開発者が対応すべき問題に関するデータを含む問題チケットを管理する問題管理部と、問題チケットのうち、問題の解決のためにシステムのメンテナンスを必要とする問題チケットと関連付けされる、システムの運用担当者が実施すべき変更に関するデータを含む変更チケットを管理する変更管理部とを備える。インシデント管理部は、オペレータによるインシデント処理の優先順位を決定するための指標であるインシデントインパクトを算出するインシデントインパクト算出部を備える。問題管理部は、開発者による問題の処理の優先順位を決定するための指標である問題インパクトを算出する問題インパクト算出部を備える。変更管理部は、運用担当者による変更の処理の優先順位を決定するための指標である変更インパクトを算出する変更インパクト算出部を備える。インシデントインパクトまたは問題インパクトが変更されると、インシデントチケット、問題チケットおよび変更チケットの関連付けに応じて問題インパクトまたは変更インパクトが修正される。
さらに、他の手法としては、どの障害がどの業務に影響を及ぼすかという影響範囲を特定するだけでなく、その業務がどの程度重要な業務であるかをリアルタイムに運用管理者に提示し、熟練しかつビジネスへの理解度の高い運用管理者でなくても、迅速に且つビジネス上の損失を最小限に抑えた分散システムの運用管理を行うための技術も存在している。
特開2005−31893号公報 特開2008−129973号公報
しかしながら、上で述べたような文献には、障害の通知に応じて本来であれば直ぐに実施すべき処置についての優先順位付けについては開示されているが、障害が発生したシステムなどに内在する問題の根本解決及び当該システムの顧客対策の観点でどのように対処すべき顧客又は機種若しくは機器を特定すべきかについては考察されていない。
従って、本技術の目的は、障害が発生したシステムなどに内在する問題の根本解決及び当該システムの顧客対策の観点で対処すべき顧客又は機種若しくは特定の機器を特定するための技術を提供することである。
本障害対処方法は、障害の受け付け時刻又は発生時刻である基準時刻と顧客識別子と対象物識別子と障害状態と障害の影響度とを含む第1のインシデント情報の新規登録を検出するステップと、インシデント情報を格納するインシデント情報格納部を、第1のインシデント情報に含まれる顧客識別子と対象物識別子の少なくとも一部とで検索して、第1のインシデント情報に含まれる顧客識別子と対象物識別子の少なくとも一部と一致する対象物識別子とを含み且つ第1のインシデント情報に含まれる基準時刻から所定期間内に発生又は受け付けたインシデント情報を抽出する抽出ステップと、所定件数以上の件数のインシデント情報が抽出された場合、第1のインシデント情報及び抽出されたインシデント情報の各々について、障害状態の各状態及び影響度の各レベルに対応付けてリスクポイントが登録されているリスクポイントテーブルからインシデント情報に含まれる障害状態及び影響度が該当するリスクポイントを読み出し、当該リスクポイントを合計することにより総合リスクポイントを算出する算出ステップと、総合リスクポイントが所定の閾値を超えた場合には、第1のインシデント情報を特定する情報又は対象物識別子を少なくとも含むアラームを管理コンピュータに出力するステップとを含む。
障害が発生したシステムなどに内在する問題の根本解決及び当該システムの顧客対策の観点で対処すべき顧客又は機種若しくは機器を特定することができるようになる。
図1は、実施の形態におけるシステム概要図である。 図2は、実施の形態のメインフローを示す図である。 図3は、障害情報DBに格納されるデータの一例を示す図である。 図4は、実施の形態のメインフローを示す図である。 図5は、換算テーブルの一例を示す図である。 図6は、重みテーブルの一例を示す図である。 図7は、導入日テーブルの一例を示す図である。 図8は、実施の形態のメインフローを示す図である。 図9は、月別障害件数テーブルの一例を示す図である。 図10は、コンピュータの機能ブロック図である。
図1に、本技術の実施の形態に係るシステムの機能ブロック図を示す。例えば、インターネットや電話回線網などの外部ネットワークには障害受付システム10が接続されている。この障害受付システム10では、以下で述べるインシデント情報をオペレータが生成するか又は自動的に生成する。また、障害受付システム10には、本実施の形態における主要な処理を実施する障害管理システム20が接続されている。さらに、障害管理システム20は、LAN(Local Area Network)30等を介して1又は複数の管理者端末40に接続されている。
障害管理システム20は、障害発生毎に障害受付システム10によって生成されるインシデント情報を格納する障害情報DB21と、障害受付システム10によるインシデント情報の新規登録の際に障害情報DB21を検索して以下で説明する条件を満たすインシデント情報を抽出する処理を実施するインシデント抽出処理部22と、顧客毎の月別障害件数を格納し、インシデント抽出処理部22により参照される月別障害件数テーブル23と、インシデント抽出処理部22による処理結果を格納する抽出インシデント格納部24と、クレームリスクポイントの算出で用いられる重みデータ等を格納する重みデータ格納部26と、クレームリスクポイントの算出及びアラーム出力の判断のために用いられる閾値及び換算テーブルを格納する閾値及び換算テーブル格納部27と、インシデント抽出処理部22からの指示に応じて重みデータ格納部26と閾値及び換算テーブル格納部27と抽出インシデント格納部24とに格納されているデータを用いてクレームリスクポイントの算出及びアラーム出力の判断を実施するクレームリスクポイント算出部25と、クレームリスクポイント算出部25により指示されると抽出インシデント格納部24に格納されているデータを用いて所定の宛先(ここでは管理者端末40宛。又はメールでアラームを出力する場合には管理者端末40の管理者宛で図示しないメールサーバに送信)にアラームを出力するアラーム出力部28と、アラーム出力部28が出力するアラームデータを格納するアラームデータ格納部29とを有する。
管理者端末40は、例えばパーソナルコンピュータであって、アラームがメールで送信される場合には、メールクライアントプログラムを実行しており、アラームが管理者端末40に送信される場合には障害管理システム20と連携する専用のプログラムを実行しているものとする。
次に、図2乃至図9を用いて図1に示したシステムの動作について説明する。最初に、障害受付システム10は、顧客からの電話又は顧客システムからのメールなどによる障害通知を受け付け、オペレータにより又は自動的にインシデント情報を生成し、障害管理システム20の障害情報DB21に登録する。インシデント情報は、インシデント番号、日時(障害の発生時刻又は障害通知の受付時刻)、障害が発生したシステムを使用する顧客の顧客コード、障害が発生した機器の機種を表す機種コードと、障害が発生した機器を特定するための装置番号と、障害の状態(例えば、S:システムダウン、M:マシンダウン、N:ノーダウン(障害が発生したがシステムは動作している状態))と、障害がシステムに対して与える影響度のレベル(例えば、A:全社の基幹システムがダウンし、全社的又は社会的な影響が出ているレベル、B:Aより低いが業務に影響があるレベル、C:業務影響なし)とが含まれる。
障害の状態及び影響度のレベルについては、例えば障害の通知を受け付けたオペレータなどが、通知内容から設定するようにしても良い。また、例えば図示しない顧客毎及び機器毎の契約データを保持しておき、例えば契約データに基づき、障害に係る顧客及び機器の組み合わせが、必要復旧時間が1分未満であれば、影響度のレベルを「A」に設定し、必要復旧時間が1時間以内であるものであれば、影響度のレベルを「B」に設定し、必要復旧時間が1日以内であるものであれば、影響度のレベルを「C」に設定する。
また他の方法としては、メールなどで障害発生時に自動的に障害通知が障害受付システム10に対して行われ、さらに顧客に対してもアラームを出力するようなシステムの場合には、障害通知の受信時刻と顧客からの電話通報との差が例えば10分以内であれば影響度のレベルを「A」に設定し、差が例えば1時間以内であれば影響度のレベルを「B」に設定し、差が例えば1時間より長い又は電話通報無しであれば影響度のレベルを「C」に設定する。
また、障害の状態についても、メールなどで障害発生が通知される場合には、障害受付システム10が、障害発生の通知に含まれるエラーコードと予め定められた対応テーブル等から自動的に判断して設定するようにしても良い。
障害受付システム10による登録処理によって障害情報DB21には例えば図3に示すようなデータが格納される。図3の例では、例えば障害通知の受信順に発行されるインシデント番号と、障害通知の受付日時又は障害の発生日時である日時と、顧客コードと、機種コードと、装置番号と、障害状態と、影響度とを登録するようになっている。例えば、このようなテーブルを顧客毎に用意するようにしても良い。
そして、インシデント抽出処理部22は、障害受付システム10による新規インシデント情報の登録を検出すると(図2:ステップS1)、障害情報DB21を新規インシデント情報に含まれる顧客コードと機種コードと装置番号とで検索し、当該顧客コードと機種コードと装置番号とに一致し且つ新規インシデント情報に含まれる日時(以下基準時刻と呼ぶ)から第1の期間(例えば1月)以内に発生したインシデント情報を抽出する(ステップS3)。そして、インシデント抽出処理部22は、抽出インシデント情報の件数が第1の閾値(例えば2。すなわち新規インシデント情報以外にもう1件登録されている状態を検出。)以上となっているか判断する(ステップS5)。抽出インシデント情報の件数が第1の閾値以上となっていれば、抽出インシデント情報を抽出インシデント格納部24に格納する。
そして、インシデント抽出処理部22は、動作モードを第1モードに設定して(ステップS7)、クレームリスクポイント算出部25に処理開始を指示する。そして、端子Aを介して図4の処理に移行する。図4の説明に移行して、クレームリスクポイント算出部25は、閾値及び換算テーブル格納部27において、動作モードに応じた換算テーブル及び閾値を特定する(ステップS15)。換算テーブルは、例えば図5に示すようなテーブルである。図5の例では、影響度の各レベルと障害状態の各状態との各組み合わせについて、第1のモードについて予め定められたリスクポイント値が登録されている。影響度のレベルは、上から順番に影響度のレベルが下がるように並べられており、障害状態の状態は、左から右に障害状態が軽くなるように並べられているので、左上が最もリスクポイントが高くなり、右下が最もリスクポイントが小さくなるようになっている。また、図5の例の場合、閾値は例えば「50」である。図5の換算テーブルではリスクポイントの最高値は「13」であり、インシデント情報1件だけではそのリスクポイントは閾値を超えることはない。これは、本実施の形態の目的が、発生した障害に個別に対応するのが目的ではなく、障害が発生したシステムなどに内在する問題の根本解決及び当該システムの顧客対策の観点で対処すべき事象であるのかどうかを判断することが目的であるためである。従って、本実施の形態の第1のモードでは、例えば換算テーブルの最高ポイントの2倍以上の値を閾値に設定する。
その後、クレームリスクポイント算出部25は、抽出されたインシデント情報のうち未処理のインシデント情報を1件特定する(ステップS17)。そして、特定されたインシデント情報について換算テーブルから該当ポイントを特定する(ステップS19)。すなわち、インシデント情報に含まれる障害状態及び影響度に対応するリスクポイント値を読み出す。
また、クレームリスクポイント算出部25は、重みデータ格納部26にデータの設定があれば、リスクポイント値の調整を実施する(ステップS21)。例えば、図6のような重みテーブルを用いる。図6の例では、機種コード(機種コードの一部の場合もある)と、対応する重み値とが登録されている。図6の例では、機器の元々の信頼性が高いものについては、障害が発生すること自体が問題なので大きな重み値が設定されており(例えばPCやPCサーバよりUNIX(登録商標)サーバの方が信頼性が高いので大きな重み値が設定され)、機器の信頼性が低いもの(例えばPC)については、障害がある程度発生することが見込まれているので小さな重み値が設定されている。このような、重みテーブルが存在する場合には、ステップS17で特定されたインシデント情報に含まれる機種コードと一致する又は部分一致する重み値が登録されていれば、当該重み値を読み出し、ステップS19で特定されたリスクポイント値に乗ずることによって調整を行う。加算用の重み値(負の値もある)を用意して加算するようにしても良い。
また、図7に示すような機器の導入日(場合によって製造日)データが重みデータ格納部26に格納されている場合には、このデータを用いてリスクポイント値を調整するようにしても良い。図7の例では、機種コードと装置番号とに対応して、導入日(又は製造日)を登録している。本実施の形態では、導入日(又は製造日)から所定期間(例えば6ヶ月)以内に発生した障害は、後々数多くの障害が発生する兆候であったり、大きな障害に繋がったりするので、早めに本格的な対処が必要ということで例えばステップS19で特定されたリスクポイント値を2倍する。具体的には、ステップS17で特定されたインシデント情報に含まれる機種コード及び装置番号とで図7のテーブルを検索して、該当する導入日(又は製造日)と、インシデント情報に含まれる日時とを比較して6ヶ月以内であるかどうかを判断する。6ヶ月以内であれば、ステップS21では、ステップS19で特定されたリスクポイント値を2倍する。所定の値を加算しても良い。
また、クレームリスクポイント算出部25は、ステップS21で調整されたリスクポイント値(ステップS21が実施されない場合にはステップS19で特定された値)を、従前のリスクポイント累積値に加算することにより、リスクポイント値を累積する(ステップS23)。そして、全ての抽出インシデント情報を処理したか判断する(ステップS25)。未処理のインシデント情報が存在する場合にはステップS17に戻る。一方、全ての抽出インシデント情報について処理した場合には、リスクポイント累積値が、動作モードに応じた閾値を超えたか判断する(ステップS27)。リスクポイント累積値が、動作モードに応じた閾値以下である場合には、処理した抽出インシデント情報についてはこれ以降では使用しないので抽出インシデント格納部24から削除する(ステップS31)。そしてステップS33に移行する。
一方、リスクポイント累積値が、動作モードに応じた閾値を超えた場合には、クレームリスクポイント算出部25は、例えば新規インシデント情報のインシデント番号等を含むアラーム出力指示をアラーム出力部28に出力する。アラーム出力部28は、クレームリスクポイント算出部25からの指示に応じて、動作モードに応じたアラームのデータを生成して、アラームデータ格納部29に格納すると共に、例えば管理者端末40に出力する(ステップS29)。
例えば、第1のモードでは、上で述べたように特定の顧客の特定の機器について問題を抽出するようになっているので、アラーム出力部28は、顧客コードと機種コード及び装置番号とを少なくとも含むデータをアラームデータとして生成する。その他抽出されたインシデント情報をそのままアラームデータとして生成するようにしても良い。
ステップS29の後又はステップS31の後に、動作モードが第1モードであれば(ステップS33:Yesルート)、端子Bを介して図2のステップS9に移行する。一方、動作モードが第2モードであれば(ステップS35:Yesルート)、端子Cを介して図8の処理に移行する。また、動作モードが第2モードでなく第3モードであれば(ステップS35:Noルート)、端子Dを介して図8の処理に移行する。
図2の処理フローの説明に戻って、ステップS5で抽出インシデント情報の件数が第1の閾値未満である場合、又は端子Bから遷移した後、インシデント抽出処理部22は、新規インシデント情報に含まれる顧客コードと機種コードで障害情報DB21を検索し、新規インシデント情報に含まれる顧客コード及び機種コードに一致し且つ新規インシデント情報に含まれる基準時刻から第2の期間(例えば1週間)以内に発生したインシデント情報を抽出する(ステップS9)。
ここでは、同一顧客で同一機種について短期間で障害が多発しているという事象を抽出している。このように、同一顧客で同一機種について障害が多発している場合には、当然ながらこの機種については今後も同様に問題を生ずる可能性があるので根本的な対処が望まれる。また、顧客対応としても、特定の顧客に短期間で障害が多発するようであれば、顧客に対する釈明も必要となる。従って、このような障害についてのリスクを計量して、必要であれば対処するものである。
そして、インシデント抽出処理部22は、抽出インシデント情報の件数が第2の閾値(例えば3。すなわち新規インシデント情報以外にもう2件登録されているか。)以上となっているか判断する(ステップS11)。抽出インシデント情報の件数が第2の閾値以上となっていれば、抽出インシデント情報を抽出インシデント格納部24に格納する。
そして、インシデント抽出処理部22は、動作モードを第2モードに設定して(ステップS13)、クレームリスクポイント算出部25に処理開始を指示する。そして、端子Aを介して図4の処理に移行する。図4の処理は上で述べたのと同じであるので詳細な説明は省略する。
但し、閾値及び換算テーブル格納部27から第2モードに応じた閾値及び換算テーブルを読み出すわけであるが、第2モードでは第1モードよりも抽出されるインシデント情報の件数が多いので、アラームを出すべきインシデント情報出現態様に基づき閾値と換算テーブル中の値との関係を調整する。例えば、換算テーブルの最高値の3倍以上に閾値を設定する。但し、同じ換算テーブルを用いて閾値のみを調整する場合もある。
さらに、ステップS29では、第2モードに応じたアラームデータを生成する。第2モードでは、少なくとも新規インシデント情報に含まれる顧客コード及び機種コードを含むアラームデータを生成する。但し、抽出されたインシデント情報をそのままアラームデータとして用いるようにしても良い。
また、第2モードなので図4の処理からは端子Cを介して図8の処理に移行する。また、ステップS11で、抽出インシデント情報の件数が第2の閾値未満である場合には、端子Cを介して図8の処理に移行する。
図8の処理の説明に移行して、インシデント抽出処理部22は、月別障害件数テーブル23において、新規インシデント情報に含まれる顧客コードについての今月の障害件数を1インクリメントする(ステップS41)。月別障害件数テーブル23は、例えば図9のようなテーブルである。図9の例では、月別に、各顧客コードについて、発生した障害の件数が登録されている。
また、インシデント抽出処理部22は、新規インシデント情報に含まれる顧客コードで月別障害件数を検索して、例えば6ヶ月分のデータを抽出する(ステップS43)。そして、予め定められた障害急増の条件を満たしているか判断する(ステップS45)。例えば、今月の障害件数が6ヶ月間における最低障害発生件数月の件数の例えば3倍以上になっているか判断する。但し、極端に少ない件数(例えば0や1など)についてはそのような値を用いずに次に大きな値を用いるように調整する場合もある。このような条件を満たす場合には、障害情報DB21を、新規インシデント情報に含まれる顧客コードで検索し、新規インシデント情報に含まれる顧客コードに一致し且つ今月発生したインシデント情報を抽出し、抽出インシデント格納部24に格納する(ステップS47)。
さらに、インシデント抽出処理部22は、動作モードを第3モードに設定し(ステップS49)、端子Aを介して図4の処理に移行する。図4の処理は上で述べたのと同じであるので詳細な説明は省略する。
但し、閾値及び換算テーブル格納部27から第3モードに応じた閾値及び換算テーブルを読み出すわけであるが、第3モードでは第1モードよりも抽出されるインシデント情報の件数が非常に多いので、アラームを出すべきインシデント情報出現態様を想定してそれに併せて閾値と換算テーブル中の値との関係を調整する。但し、同じ換算テーブルを用いて閾値のみを調整する場合もある。
さらに、ステップS29では、第3モードに応じたアラームデータを生成する。第3モードでは、少なくとも新規インシデント情報に含まれる顧客コードを含むアラームデータを生成する。但し、抽出されたインシデント情報をそのままアラームデータとして用いるようにしても良い。
また、第3モードなので図4の処理からは端子Dを介して図8の処理に移行して処理を終了する。また、ステップS45で、抽出インシデント情報の件数が急増の条件を満たしていないと判断された場合には、処理を終了する。具体的には、次のインシデント情報の新規登録を待つ。
以上述べたような処理を実施することによって、障害通知への即座の対応とは別に、例えば同一機器で連続して障害が発生している場合、同一顧客且つ同一機種で相次いで障害が発生している場合、同一顧客で障害が急増している場合といった、現システムに内在し且つ根本的な対策が必要で、顧客対策としても放置できないようなリスクの高い障害を抽出してアラームを出力できるようになる。
以上本技術の実施の形態を説明したが、本技術はこれに限定されるものではない。例えば、図1の機能ブロック図は、一例であって必ずしも実際のプログラムモジュール構成及びハードウエア構成と一致しない場合もある。さらに、処理フローについても、処理結果が変わらない限りにおいて処理順番を入れ替えたり、並列実行するようにしても良い。
さらに、アラームとして出力するデータについては、必要に応じて変更することも可能である。さらに、管理者端末40から障害情報DB21の検索を指示できるようにしてもよい。
また、インシデント抽出処理部22が抽出すべき事象については、様々なパターンが考えられる。例えば、月別の障害件数の顧客順位が所定の条件を満たしつつ上昇した場合といった条件で事象を抽出しても良い。さらに、例えば2以上の条件を組み合わせて事象を検出する場合もある。例えば、顧客を問わず同一機種で障害が増加しており、且つ同一顧客の同一機器で障害が連続した場合というような条件付けも可能である。また、同一顧客ではなく、全ての顧客についての障害について条件(例えば同一機種)をつけて抽出するようにしても良い。
さらに、換算テーブルは、より多くの状態やレベルについてのテーブルであってもよい。
なお、上で述べた検索装置は、コンピュータ装置であって、図10に示すように、メモリ2501とCPU2503とハードディスク・ドライブ(HDD)2505と表示装置2509に接続される表示制御部2507とリムーバブル・ディスク2511用のドライブ装置2513と入力装置2515とネットワークに接続するための通信制御部2517とがバス2519で接続されている。オペレーティング・システム(OS:Operating System)及び本実施例における処理を実施するためのアプリケーション・プログラムは、HDD2505に格納されており、CPU2503により実行される際にはHDD2505からメモリ2501に読み出される。必要に応じてCPU2503は、表示制御部2507、通信制御部2517、ドライブ装置2513を制御して、必要な動作を行わせる。また、処理途中のデータについては、メモリ2501に格納され、必要があればHDD2505に格納される。本技術の実施例では、上で述べた処理を実施するためのアプリケーション・プログラムはコンピュータ読み取り可能なリムーバブル・ディスク2511に格納されて頒布され、ドライブ装置2513からHDD2505にインストールされる。インターネットなどのネットワーク及び通信制御部2517を経由して、HDD2505にインストールされる場合もある。このようなコンピュータ装置は、上で述べたCPU2503、メモリ2501などのハードウエアとOS及び必要なアプリケーション・プログラムとが有機的に協働することにより、上で述べたような各種機能を実現する。
以上本実施の形態をまとめると以下のようになる。
本障害対処方法は、障害の受け付け時刻又は発生時刻である基準時刻と顧客識別子と対象物識別子と障害状態と障害の影響度とを含む第1のインシデント情報の新規登録を検出するステップと、インシデント情報を格納するインシデント情報格納部を、第1のインシデント情報に含まれる顧客識別子と対象物識別子の少なくとも一部とで検索して、第1のインシデント情報に含まれる顧客識別子と対象物識別子の少なくとも一部と一致する対象物識別子とを含み且つ第1のインシデント情報に含まれる基準時刻から所定期間内に発生又は受け付けたインシデント情報を抽出する抽出ステップと、所定件数以上の件数のインシデント情報が抽出された場合、第1のインシデント情報及び抽出されたインシデント情報の各々について、障害状態の各状態及び影響度の各レベルに対応付けてリスクポイントが登録されているリスクポイントテーブルからインシデント情報に含まれる障害状態及び影響度が該当するリスクポイントを読み出し、当該リスクポイントを合計することにより総合リスクポイントを算出する算出ステップと、総合リスクポイントが所定の閾値を超えた場合には、第1のインシデント情報を特定する情報又は対象物識別子を少なくとも含むアラームを管理コンピュータに出力するステップとを含む。
上で述べたような条件を満たす複数件のインシデント情報が検出された場合には通常実施される対処療法的な処置ではシステムなどに潜在する問題を解決できず、結果的に顧客からのクレームを生じさせる可能性がある。従って、上で述べたような条件を満たす複数件のインシデント情報について設定されているリスクポイントテーブル及び所定の閾値から、顧客からのクレームを生じさせるほどの高いリスクがあるかを判別して、システムなどに潜在する問題の根本からの解決に取りかかるべきか否かのスクリーニングを自動的に行うものである。
なお、複数件のインシデント情報で特定される事象は、例えば同一顧客の同一機器について複数件のインシデント情報が例えば1月以内に検出された第1のケースや、同一顧客の同一機種について複数件のインシデント情報が例えば1週間以内に検出された第2のケースなど、潜在する問題の顕在化の兆候に相当する事象である。
なお、上で述べた対象物識別子が機種識別子及び機器識別子を含むようにしてもよい。その場合には、インシデント情報格納部を、第1のインシデント情報に含まれる顧客識別子と対象物識別子のうち機種識別子とで検索して、第1のインシデント情報に含まれる顧客識別子と対象物識別子の機種識別子が一致する対象物識別子とを含み且つ第1のインシデント情報に含まれる基準時刻から所定期間より短い第2の所定時間内に発生又は受け付けたインシデント情報を抽出するステップと、第2の所定件数以上の件数のインシデント情報が抽出された場合、第1のインシデント情報及び抽出されたインシデント情報の各々について、障害状態の各状態及び影響度の各レベルに対応付けて第2のリスクポイントが登録されている第2のリスクポイントテーブルからインシデント情報に含まれる障害状態及び影響度が該当する第2のリスクポイントを読み出し、当該第2のリスクポイントを合計することにより第2の総合リスクポイントを算出するステップと、第2の総合リスクポイントが第2の所定の閾値を超えた場合には、第1のインシデント情報を特定する情報又は対象物識別子の機種識別子を少なくとも含むアラームを管理コンピュータに出力するステップとをさらに含むようにしても良い。このように例えば上で述べた第1のケースに加え上で述べた第2のケースを検出してリスクを判別するようにしてもよい。
また、本障害対処法は、顧客識別子毎に第3の所定期間毎のインシデント情報の件数を格納するインシデント件数データ格納部から、第1のインシデント情報に含まれる顧客識別子についての、第4の所定期間内における第3の所定期間毎のインシデント情報の件数を抽出するステップと、第4の所定期間内における第3の所定期間毎のインシデント情報の件数が所定の条件を満たすように増加している場合には、インシデント情報格納部から第1のインシデント情報の基準時刻から第3の所定期間内又は基準時刻を含む第3の所定期間内に受け付けた又は発生した、第1のインシデント情報の顧客識別子と同一の顧客識別子を含むインシデント情報を検出するステップと、第1のインシデント情報及び抽出されたインシデント情報の各々について、障害状態の各状態及び影響度の各レベルに対応付けて第3のリスクポイントが登録されている第3のリスクポイントテーブルからインシデント情報に含まれる障害状態及び影響度が該当する第3のリスクポイントを読み出し、当該第3のリスクポイントを合計することにより第3の総合リスクポイントを算出するステップと、第3の総合リスクポイントが第3の所定の閾値を超えた場合には、第1のインシデント情報の顧客識別子を少なくとも含むアラームを管理コンピュータに出力するステップとをさらに含むようにしても良い。このように特定機種や特定機器に関係なく特定の顧客についてのインシデント情報が所定の条件を満たすように増加している場合には、当該特定の顧客からのクレームが発生する蓋然性が高くなるので、包括的な対策を講じるべきであるか否かについてリスクを判断するものである。
また、上で述べた算出ステップが、対象物識別子毎に当該対象物識別子で特定される機器の導入日又は製造日を格納する機器管理データ格納部から、インシデント情報の対象物識別子に対応する導入日又は製造日を抽出し、抽出された導入日又は製造日がインシデント情報の基準時刻(を含む日)から第5の所定期間内であるか判断するステップと、抽出された導入日又は製造日がインシデント情報の基準時刻(を含む日)から第5の所定期間内である場合には、読み出されたリスクポイントに所定値を加算又は乗算するステップとを含むようにしてもよい。製造日又は導入日から早期の段階で障害が報告される場合には今後のリスクが高いことが予見されるので、リスクポイントを増加させるものである。
さらに、上で述べた対象物識別子が、機種識別子及び機器識別子を含むようにしてもよい。その場合、上で述べた算出ステップが、機種識別子に対応付けて重み係数が格納されている機種重みデータ格納部から、インシデント情報に含まれる対象物識別子の機種識別子に対応付けられている重み係数を読み出すステップと、リスクポイントの合計値に重み係数を乗算するステップとを含むようにしてもよい。パーソナルコンピュータよりUNIX(登録商標)などの機器の方がもともとの信頼性が高くなるように製造されているはずである。従って、機種によってリスクポイントを重み付けして合計のリスクポイントを算出するものである。
なお、上で述べたような処理をハードウエアに実施させるためのプログラムを作成することができ、当該プログラムは、例えばフレキシブル・ディスク、CD−ROM、光磁気ディスク、半導体メモリ、ハードディスク等のコンピュータ読み取り可能な記憶媒体又は記憶装置に格納される。なお、処理途中のデータについては、コンピュータのメモリ等の記憶装置に一時保管される。
10 障害受付システム 20 障害管理システム
30 LAN 40 管理者端末
21 障害情報DB 22 インシデント抽出処理部
23 月別障害件数テーブル 24 抽出インシデント格納部
25 クレームリスクポイント算出部 26 重みデータ格納部
27 閾値及び換算テーブル格納部 28 アラーム出力部
29 アラームデータ格納部

Claims (7)

  1. コンピュータが、
    障害の受け付け時刻又は発生時刻である基準時刻と顧客識別子と対象物識別子と障害状態と障害の影響度とを含む第1のインシデント情報の新規登録を検出するステップと、
    前記インシデント情報を格納するインシデント情報格納部を、前記第1のインシデント情報に含まれる前記顧客識別子と前記対象物識別子の少なくとも一部とで検索して、前記第1のインシデント情報に含まれる前記顧客識別子と前記対象物識別子の少なくとも一部と一致する対象物識別子とを含み且つ前記第1のインシデント情報に含まれる前記基準時刻から遡った所定期間内に発生又は受け付けたインシデント情報を抽出する抽出ステップと、
    所定件数以上の件数の前記インシデント情報が抽出された場合、前記第1のインシデント情報及び抽出された前記インシデント情報の各々について、前記障害状態の各状態及び前記影響度の各レベルに対応付けてリスクポイントが登録されているリスクポイントテーブルから前記インシデント情報に含まれる前記障害状態及び前記影響度が該当するリスクポイントを読み出し、当該リスクポイントを合計することにより総合リスクポイントを算出する算出ステップと、
    前記総合リスクポイントが所定の閾値を超えた場合には、前記第1のインシデント情報を特定する情報又は前記対象物識別子を少なくとも含むアラームを管理コンピュータに出力するステップと、
    実行する障害対処方法。
  2. 前記対象物識別子が機種識別子及び機器識別子を含み、
    前記インシデント情報格納部を、前記第1のインシデント情報に含まれる前記顧客識別子と前記対象物識別子のうち前記機種識別子とで検索して、前記第1のインシデント情報に含まれる前記顧客識別子と前記対象物識別子の前記機種識別子が一致する対象物識別子とを含み且つ前記第1のインシデント情報に含まれる前記基準時刻から前記所定期間より短い第2の所定間内に発生又は受け付けたインシデント情報を抽出するステップと、
    第2の所定件数以上の件数の前記インシデント情報が抽出された場合、前記第1のインシデント情報及び抽出された前記インシデント情報の各々について、前記障害状態の各状態及び前記影響度の各レベルに対応付けて第2のリスクポイントが登録されている第2のリスクポイントテーブルから前記インシデント情報に含まれる前記障害状態及び前記影響度が該当する第2のリスクポイントを読み出し、当該第2のリスクポイントを合計することにより第2の総合リスクポイントを算出するステップと、
    前記第2の総合リスクポイントが第2の所定の閾値を超えた場合には、前記第1のインシデント情報を特定する情報又は前記対象物識別子の前記機種識別子を少なくとも含むアラームを前記管理コンピュータに出力するステップと、
    をさらに含む請求項1記載の障害対処方法。
  3. 前記顧客識別子毎に第3の所定期間毎の前記インシデント情報の件数を格納するインシデント件数データ格納部から、前記第1のインシデント情報に含まれる前記顧客識別子についての、第4の所定期間内における前記第3の所定期間毎の前記インシデント情報の件数を抽出するステップと、
    前記第4の所定期間内における前記第3の所定期間毎の前記インシデント情報の件数が所定の条件を満たすように増加している場合には、前記インシデント情報格納部から前記第1のインシデント情報の前記基準時刻を含む前記第3の所定期間内に受け付けた又は発生した、前記第1のインシデント情報の前記顧客識別子と同一の顧客識別子を含む前記インシデント情報を出するステップと、
    前記第1のインシデント情報及び抽出された前記インシデント情報の各々について、前記障害状態の各状態及び前記影響度の各レベルに対応付けて第3のリスクポイントが登録されている第3のリスクポイントテーブルから前記インシデント情報に含まれる前記障害状態及び前記影響度が該当する第3のリスクポイントを読み出し、当該第3のリスクポイントを合計することにより第3の総合リスクポイントを算出するステップと、
    前記第3の総合リスクポイントが第3の所定の閾値を超えた場合には、前記第1のインシデント情報の前記顧客識別子を少なくとも含むアラームを前記管理コンピュータに出力するステップと、
    をさらに含む請求項1又は2記載の障害対処方法。
  4. 前記算出ステップが、
    前記対象物識別子毎に当該対象物識別子で特定される機器の導入日又は製造日を格納する機器管理データ格納部から、前記インシデント情報の前記対象物識別子に対応する前記導入日又は製造日を抽出し、抽出された前記導入日又は製造日が前記インシデント情報の前記基準時刻から第5の所定期間内であるか判断するステップと、
    抽出された前記導入日又は製造日が前記インシデント情報の前記基準時刻から前記第5の所定期間内である場合には、読み出された前記リスクポイントに所定値を加算又は乗算するステップと、
    を含む請求項1乃至3のいずれか1つ記載の障害対処方法。
  5. 前記対象物識別子が、機種識別子及び機器識別子を含み、
    前記算出ステップが、
    前記機種識別子に対応付けて重み係数が格納されている機種重みデータ格納部から、前記インシデント情報に含まれる前記対象物識別子の前記機種識別子に対応付けられている前記重み係数を読み出すステップと、
    読み出された前記リスクポイントに前記重み係数を乗算するステップと、
    を含む請求項1乃至3のいずれか1つ記載の障害対処方法。
  6. 請求項1乃至5のいずれか1つ記載の障害対処方法をコンピュータに実行させるためのプログラム。
  7. 障害の受け付け時刻又は発生時刻である基準時刻と顧客識別子と対象物識別子と障害状態と障害の影響度とを含む第1のインシデント情報の新規登録を検出する手段と、
    前記インシデント情報を格納するインシデント情報格納部を、前記第1のインシデント情報に含まれる前記顧客識別子と前記対象物識別子の少なくとも一部とで検索して、前記第1のインシデント情報に含まれる前記顧客識別子と前記対象物識別子の少なくとも一部と一致する対象物識別子とを含み且つ前記第1のインシデント情報に含まれる前記基準時刻から遡った所定期間内に発生又は受け付けたインシデント情報を抽出する抽出手段と、
    所定件数以上の件数の前記インシデント情報が抽出された場合、前記第1のインシデント情報及び抽出された前記インシデント情報の各々について、前記障害状態の各状態及び前記影響度の各レベルに対応付けてリスクポイントが登録されているリスクポイントテーブルから前記インシデント情報に含まれる前記障害状態及び前記影響度が該当するリスクポイントを読み出し、当該リスクポイントを合計することにより総合リスクポイントを算出する手段と、
    前記総合リスクポイントが所定の閾値を超えた場合には、前記第1のインシデント情報を特定する情報又は前記対象物識別子を少なくとも含むアラームを管理コンピュータに出力する手段と、
    を有する障害対処装置。
JP2009059172A 2009-03-12 2009-03-12 障害対処方法及び装置 Expired - Fee Related JP5271761B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009059172A JP5271761B2 (ja) 2009-03-12 2009-03-12 障害対処方法及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009059172A JP5271761B2 (ja) 2009-03-12 2009-03-12 障害対処方法及び装置

Publications (2)

Publication Number Publication Date
JP2010211674A JP2010211674A (ja) 2010-09-24
JP5271761B2 true JP5271761B2 (ja) 2013-08-21

Family

ID=42971729

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009059172A Expired - Fee Related JP5271761B2 (ja) 2009-03-12 2009-03-12 障害対処方法及び装置

Country Status (1)

Country Link
JP (1) JP5271761B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111542846B (zh) * 2018-01-19 2023-08-29 株式会社日立制作所 故障预测系统和故障预测方法
CN110096406A (zh) * 2018-01-31 2019-08-06 阿里巴巴集团控股有限公司 一种故障事件发现方法和服务器
JP6977650B2 (ja) 2018-03-30 2021-12-08 富士通株式会社 異常検出方法、異常検出プログラム、及び異常検出装置
JP2018152913A (ja) * 2018-06-21 2018-09-27 東芝ライテック株式会社 機器制御システム
JP2021064317A (ja) * 2019-10-17 2021-04-22 Necフィールディング株式会社 機器監視装置、機器監視方法、及び機器監視プログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10187497A (ja) * 1996-10-29 1998-07-21 Tec Corp コンピュータのハードウェア障害予防装置及びその方法並びにハードウェア障害予防プログラムを記録したコンピュータ読取可能な記録媒体
JP2003271557A (ja) * 2002-03-18 2003-09-26 Fujitsu Ltd 障害情報分析方法

Also Published As

Publication number Publication date
JP2010211674A (ja) 2010-09-24

Similar Documents

Publication Publication Date Title
CN109308252B (zh) 一种故障定位处理方法及装置
JP7237110B2 (ja) 故障予測方法、装置、電子設備、記憶媒体、及びプログラム
US11012461B2 (en) Network device vulnerability prediction
WO2019006654A1 (zh) 金融自助设备维修派单生成方法、手持终端及电子设备
CN105095056A (zh) 一种数据仓库数据监控的方法
JP5271761B2 (ja) 障害対処方法及び装置
US10185614B2 (en) Generic alarm correlation by means of normalized alarm codes
GB2478066A (en) Identifying errors in a computer system using the relationships between the sources of log messages
US9176807B2 (en) Random event capturing mechanism for application systems
JP4679314B2 (ja) 障害通報の通知方法およびシステム
JP2014102661A (ja) 適用判定プログラム、障害検出装置および適用判定方法
CN113328885B (zh) 网络健康度评估方法、装置、电子设备、介质和程序产品
CN111913824A (zh) 确定数据链路故障原因的方法及相关设备
JP2008154378A (ja) 潮流計算方法及びその装置
JP2017045079A (ja) クラウド管理方法及びクラウド管理システム
CN113656252B (zh) 故障定位方法、装置、电子设备以及存储介质
JP5949785B2 (ja) 情報処理方法、装置及びプログラム
US9443196B1 (en) Method and apparatus for problem analysis using a causal map
CN110955587A (zh) 一种待更换设备确定方法及装置
JP2013225185A (ja) 損害計算装置、損害計算方法及び損害計算プログラム
CN111062604B (zh) 基于气象灾害的电网业务风险评估方法、装置及设备
CN112015590B (zh) 一种多层级灾备方法、装置及电子设备
JP2019079120A (ja) 情報処理装置、情報処理方法、及びプログラム
JP5302798B2 (ja) 保守管理方法、プログラムおよび保守管理装置
CN111835566A (zh) 一种系统故障管理方法、装置及系统

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7426

Effective date: 20100914

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110922

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130131

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130219

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130412

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130507

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130513

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5271761

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees