JP2013527957A5 - - Google Patents

Download PDF

Info

Publication number
JP2013527957A5
JP2013527957A5 JP2013506163A JP2013506163A JP2013527957A5 JP 2013527957 A5 JP2013527957 A5 JP 2013527957A5 JP 2013506163 A JP2013506163 A JP 2013506163A JP 2013506163 A JP2013506163 A JP 2013506163A JP 2013527957 A5 JP2013527957 A5 JP 2013527957A5
Authority
JP
Japan
Prior art keywords
alert
recovery
action
actions
recovery action
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013506163A
Other languages
English (en)
Other versions
JP2013527957A (ja
JP5882986B2 (ja
Filing date
Publication date
Priority claimed from US12/764,263 external-priority patent/US8823536B2/en
Application filed filed Critical
Publication of JP2013527957A publication Critical patent/JP2013527957A/ja
Publication of JP2013527957A5 publication Critical patent/JP2013527957A5/ja
Application granted granted Critical
Publication of JP5882986B2 publication Critical patent/JP5882986B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Claims (15)

  1. 分散システムにおけるアラートの自動化されたリカバリ及びエスカレーションのためのコンピューティング装置において少なくとも部分的に実行される方法であって、
    監視エンジンから検出された問題に関連付けられているアラートを受信するステップと、
    アクションストアのワイルドカード検索を実行して前記アラートにマッピングされるリカバリアクションを決定するステップと、
    前記アラートに関連付けられる特異性を有するリカバリアクションを適用することによって、前記アラートを前記リカバリアクションのうちの1つにマッピングすることを試行するステップと、
    内蔵又は外付けのスケジューリングシステムのうちの少なくとも1つから、前記アラートに関連付けられる複数の指定先のスケジュールを更新するステップと、
    前記複数のうちから指定先を決定して、該指定先をコールを受けているとして識別する、該指定先の更新されたスケジュールに基づいて前記アラートを送信するステップと、
    前記アラートが前記アクションストアからの前記リカバリアクションにマッピングされるとき、リカバリアクションの所定の優先度に従って前記リカバリアクションを実行するステップと
    そうでなければ、前記アラートを前記指定先にエスカレーションして新しいアクションを実行するステップと、
    前記アラートと前記リカバリアクションとのマッピングに関連付けられた記録を前記新しいアクションで更新し、前記新しいアクションを実行した指定先、前記新しいアクションが実行された時間及び前記新しいアクションが実行された装置又はサーバーのログを保持するステップと
    えたことを特徴とする方法。
  2. 前記検出された問題に関連する診断情報を収集するステップと、
    前記アラートがエスカレーションされるとき、前記収集された診断情報を前記指定先に提供するステップと、
    前記記録を更新する際に前記収集された診断情報を採用するステップと
    をさらにえたことを特徴とする請求項1記載の方法。
  3. 前記収集された診断情報は、装置のメモリの内容、センサーの読み取り値、最後に実行された命令、失敗した命令、及び前記検出された問題に関連付けられている失敗の結果の組からの少なくとも1つを含むことを特徴とする請求項2記載の方法。
  4. 前記アラートをエスカレーションした後に前記指定先からハンドオフ応答を待つステップと、
    ハンドオフ応答が所定の期間内に受信されない場合、前記アラートを別の指定先にエスカレーションするステップと
    をさらにえたことを特徴とする請求項1記載の方法。
  5. 前記指定先は指定及び前記アラートの命名規則の所定のリストの1つから決定され、前記指定先には人とチームの1つが含まれていることを特徴とする請求項1記載の方法。
  6. 前記アラートをエスカレーションするステップは、電子メール、インスタントメッセージ、テキストメッセージ、ページ、及びボイスメールの組からの少なくとも1つによって前記アラートを前記指定先へ送信するステップを含むことを特徴とする請求項1記載の方法。
  7. 装置及びリカバリアクションの実行時に前記検出された問題に関連付けられているプログラムの1つからフィードバックアクションを受信するステップと、
    前記リカバリアクションに関連付けられている成功率記録を更新するステップと
    をさらにえたことを特徴とする請求項1記載の方法。
  8. 分散システムにおけるアラートの自動化されたリカバリ及びエスカレーションためのシステムであって、
    監視エンジン及び自動化エンジンを実行するサーバーを含み、
    前記監視エンジンは、
    複数の異なる地理的領域に関連付けられる別個の領域データベースにおいて分散システムの装置及びソフトウエアアプリケーションの少なくとも1つに関連付けられているプロセス監視し、
    分散システムの異なる地理的領域内の前記少なくとも1つの装置及びソフトウェアアプリケーションに関連付けられる問題を検出し、
    前記検出された問題に基づいてアラートを送信するように構成され、
    前記自動化エンジンは、
    前記アラートを受信し、
    前記検出された問題に関連する診断情報を収集し、
    リカバリアクションデータベースを用いて、前記アラートをリカバリアクションにマッピングすることを試行し、
    カスタマイズされた修復アクションを含む領域トラブルシュートデータベースとインタラクトして、前記リカバリアクションをカスタマイズするために前記アラートを前記カスタマイズされた修復アクションのうちの1つにマッピングし、
    前記アラートがリカバリアクションにマッピングされるとき、リカバリアクションを実行し、そうでなければ
    前記収集された診断情報とともに前記アラートを指定先にエスカレーションし、
    前記リカバリアクションデータベース内の記録を更新して、新しいアクションを実行した指定先、前記新しいアクションが実行された時間及び前記新しいアクションが実行された装置又はサーバーのログを保持し、
    学習アルゴリズムを使用して、前記リカバリアクションデータベース内のリカバリアクションをホストするアクションリストを展開し、前記アクションリスト内の既存のアクションに新しいアラートをマッピングし、新しいアラートを前記新しいアクションにマッピングするように構成されたことを特徴とするシステム。
  9. 複数の監視エンジンを更に含み、前記監視エンジンの各々は分散システム内の各地理的領域のためのシステム規模に基づいて各々の異なる地理的領域を監視し、それぞれの領域で検出された問題に基づいてアラートを送信するように構成され、
    前記自動化エンジンは、
    ッピングされたリカバリアクションを実行すること及び、領域の優先度に基づいて、異なる領域からアラートを前記指定先にエスカレーションすることのうちの1つを行うようにさらに構成されたことを特徴とする請求項8記載のシステム。
  10. 前記領域の優先度は、指定されたサポートチーム、ハードウエアリソース、ソフトウエアリソース、及び通信リソースの組からの少なくとも1つの利用可能性に基づいてさらに決定されることを特徴とする請求項記載のシステム。
  11. 前記アラートが複数のリカバリアクションにマッピングされ、前記リカバリアクションは所定の実行優先度に従って実行されることを特徴とする請求項8記載のシステム。
  12. 前記装置は、デスクトップコンピュータ、ラップトップコンピュータ、ハンドヘルドコンピュータ、サーバー、スマートフォン、モニター、オーディオ機器、テレビ、ビデオキャプチャ装置の1つを含むことを特徴とする請求項8記載のシステム。
  13. 分散システムにおけるアラートの自動化されたリカバリ及びエスカレーションのためコンピューティング装置において実行される方法であって
    視エンジンにおいて、分散システム内の装置及びソフトウエアアプリケーションの少なくとも1つに関連する問題を検出するステップと、
    前記監視エンジンから前記検出された問題に基づいてアラートを送信するステップと、
    各々が異なる領域に割り当てられる複数の自動化エンジンのうちの自動化エンジンにおいて前記アラートを受信するステップと、
    前記検出された問題に関連する診断情報を収集するステップと、
    リカバリアクションデータベースのワイルドカード検索を実行して前記アラートにマッピングされるリカバリアクションを決定するステップと、
    前記アラートに関連付けられる特異性を有するリカバリアクションを適用することによって、前記リカバリアクションデータベースからの前記検出された問題対処する命令のセットを含む1つのリカバリアクションに、前記アラートをマッピングすることを試行するステップと、
    カスタマイズされた修復アクションを含む領域トラブルシュートデータベースとインタラクトして、前記リカバリアクションをカスタマイズするために前記アラートを前記カスタマイズされた修復アクションのうちの1つにマッピングするステップと、
    内蔵又は外付けのスケジューリングシステムのうちの少なくとも1つから、前記アラートに関連付けられる複数の指定先のスケジュールを更新するステップと、
    前記複数のうちから指定先を決定して、該指定先をコールを受けているとして識別する、該指定先の更新されたスケジュールに基づいて前記アラートを送信するステップと、
    前記アラートが単一のリカバリアクションにマッピングされるとき、リカバリアクションを実行するステップと、
    前記アラートが複数のリカバリアクションにマッピングされるとき、所定の実行優先度に従って、前記複数の自動化エンジンのうちの1つにおいて、リカバリアクションを実行するステップであって、前記リカバリアクションの所定の実行優先度は、前記複数の自動化エンジン間のコンセンサスアルゴリズムによって記述される、ステップと、
    前記アラートがリカバリアクションにマッピングされていないとき、前記アラートを前記収集された診断情報とともに前記指定先にエスカレーションするステップと、
    前記指定先からハンドオフ応答を受信するステップと、
    前記収集された診断情報及び実行されたリカバリアクションと関連付けられたフィードバック応答を用いてリカバリアクションデータベース内の記録を更新して、将来の監視及び自動応答の作業に使用するべき、成功率に関連する統計情報によって前記リカバリアクションデータベースを拡張するステップと
    学習アルゴリズムを使用して、前記リカバリアクションデータベース内のリカバリアクションをホストするアクションリストを展開し、前記アクションリスト内の既存のアクションに新しいアラートをマッピングし、新しいアラートを前記新しいアクションにマッピングするステップと
    えたことを特徴とする方法
  14. 前記リカバリアクションは、単一のアラートとアラートのグループのうちの1つにマッピングされることを特徴とする請求項13記載の方法
  15. 前記指定先は、アラートの命名規則及びサポート担当者の利用可能性に基づく回転アルゴリズムのうちの1つから決定されることを特徴とする請求項13記載の方法
JP2013506163A 2010-04-21 2011-03-30 複雑な分散アプリケーションにおける自動化されたリカバリ及びエスカレーション Active JP5882986B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/764,263 2010-04-21
US12/764,263 US8823536B2 (en) 2010-04-21 2010-04-21 Automated recovery and escalation in complex distributed applications
PCT/US2011/030458 WO2011133299A2 (en) 2010-04-21 2011-03-30 Automated recovery and escalation in complex distributed applications

Publications (3)

Publication Number Publication Date
JP2013527957A JP2013527957A (ja) 2013-07-04
JP2013527957A5 true JP2013527957A5 (ja) 2014-04-10
JP5882986B2 JP5882986B2 (ja) 2016-03-09

Family

ID=44815335

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013506163A Active JP5882986B2 (ja) 2010-04-21 2011-03-30 複雑な分散アプリケーションにおける自動化されたリカバリ及びエスカレーション

Country Status (10)

Country Link
US (1) US8823536B2 (ja)
EP (1) EP2561444B1 (ja)
JP (1) JP5882986B2 (ja)
KR (1) KR101824273B1 (ja)
CN (1) CN102859510B (ja)
BR (1) BR112012026917B1 (ja)
ES (1) ES2716029T3 (ja)
HK (1) HK1179724A1 (ja)
RU (1) RU2589357C2 (ja)
WO (1) WO2011133299A2 (ja)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130097272A1 (en) * 2011-10-18 2013-04-18 International Business Machines Corporation Prioritized Alert Delivery In A Distributed Processing System
US9413893B2 (en) 2012-04-05 2016-08-09 Assurant, Inc. System, method, apparatus, and computer program product for providing mobile device support services
US9483344B2 (en) 2012-04-05 2016-11-01 Assurant, Inc. System, method, apparatus, and computer program product for providing mobile device support services
KR101426382B1 (ko) 2013-03-29 2014-08-13 케이티하이텔 주식회사 분산 파일 시스템에서 파이프라인을 이용한 자료 복구 방법
US9292402B2 (en) * 2013-04-15 2016-03-22 Century Link Intellectual Property LLC Autonomous service management
US9361184B2 (en) 2013-05-09 2016-06-07 International Business Machines Corporation Selecting during a system shutdown procedure, a restart incident checkpoint of an incident analyzer in a distributed processing system
US9471474B2 (en) * 2013-08-19 2016-10-18 Microsoft Technology Licensing, Llc Cloud deployment infrastructure validation engine
US9602337B2 (en) 2013-09-11 2017-03-21 International Business Machines Corporation Event and alert analysis in a distributed processing system
US9389943B2 (en) 2014-01-07 2016-07-12 International Business Machines Corporation Determining a number of unique incidents in a plurality of incidents for incident processing in a distributed processing system
CN104915219B (zh) * 2014-03-12 2018-11-27 奇点新源国际技术开发(北京)有限公司 单片机程序升级方法及装置
CN104007996B (zh) * 2014-06-16 2016-07-06 南京融教科技有限公司 一种分布式控制系统的可靠固件升级实现方法
US9436553B2 (en) * 2014-08-04 2016-09-06 Microsoft Technology Licensing, Llc Recovering usability of cloud based service from system failure
US10108414B2 (en) * 2014-10-09 2018-10-23 International Business Machines Corporation Maintaining the integrity of process conventions within an ALM framework
US10303538B2 (en) 2015-03-16 2019-05-28 Microsoft Technology Licensing, Llc Computing system issue detection and resolution
US9667573B2 (en) * 2015-04-28 2017-05-30 Unisys Corporation Identification of automation candidates using automation degree of implementation metrics
US10153992B2 (en) * 2015-04-28 2018-12-11 Unisys Corporation Identification of progress towards complete message system integration using automation degree of implementation metrics
US9686220B2 (en) * 2015-04-28 2017-06-20 Unisys Corporation Debug and verify execution modes for computing systems calculating automation degree of implementation metrics
US10296717B2 (en) * 2015-05-14 2019-05-21 Salesforce.Com, Inc. Automated prescription workflow for device management
US10180869B2 (en) * 2016-02-16 2019-01-15 Microsoft Technology Licensing, Llc Automated ordering of computer system repair
US20170237602A1 (en) * 2016-02-16 2017-08-17 Microsoft Technology Licensing, Llc Computer system monitoring based on entity relationships
US10397125B2 (en) * 2016-03-09 2019-08-27 Alibaba Group Holding Limited Method of cross-regional data transmission and system thereof
CN108038043B (zh) * 2017-12-22 2021-04-23 郑州云海信息技术有限公司 一种分布式存储集群告警方法、系统及设备
US10868711B2 (en) * 2018-04-30 2020-12-15 Splunk Inc. Actionable alert messaging network for automated incident resolution
US10270644B1 (en) * 2018-05-17 2019-04-23 Accenture Global Solutions Limited Framework for intelligent automated operations for network, service and customer experience management
FI129101B (en) * 2018-06-29 2021-07-15 Elisa Oyj Automatic monitoring and control of networks
FI128647B (en) 2018-06-29 2020-09-30 Elisa Oyj Automatic monitoring and control of networks
US20210216389A1 (en) * 2018-10-02 2021-07-15 Hewlett-Packard Development Company, L.P. Automatic repairs via communications with peer devices across multiple networks
CN117093434B (zh) * 2023-10-20 2024-01-30 深圳品网科技有限公司 一种用于笔记本电脑的开关机自检测方法

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SG43902A1 (en) * 1991-12-09 1997-11-14 Yokogawa Electric Corp Distributed control system
JP3449425B2 (ja) * 1993-02-23 2003-09-22 本田技研工業株式会社 コンピュータネットワーク監視支援システム
US5619656A (en) 1994-05-05 1997-04-08 Openservice, Inc. System for uninterruptively displaying only relevant and non-redundant alert message of the highest severity for specific condition associated with group of computers being managed
US6615240B1 (en) 1998-12-18 2003-09-02 Motive Communications, Inc. Technical support chain automation with guided self-help capability and option to escalate to live help
US6918059B1 (en) 1999-04-28 2005-07-12 Universal Music Group Method and system for handling errors in a distributed computer system
US6742141B1 (en) 1999-05-10 2004-05-25 Handsfree Networks, Inc. System for automated problem detection, diagnosis, and resolution in a software driven system
JP2003085003A (ja) * 2001-09-06 2003-03-20 Matsushita Electric Ind Co Ltd 障害復旧援助方法、及び、障害復旧援助システム
US7243124B1 (en) 2002-09-06 2007-07-10 Oracle International Corporation Architecture for general purpose near real-time business intelligence system with client devices and methods therefor
US7376969B1 (en) * 2002-12-02 2008-05-20 Arcsight, Inc. Real time monitoring and analysis of events from multiple network security devices
US7137040B2 (en) 2003-02-12 2006-11-14 International Business Machines Corporation Scalable method of continuous monitoring the remotely accessible resources against the node failures for very large clusters
US7089220B2 (en) * 2003-06-24 2006-08-08 Palo Alto Research Center Incorporated Complexity-directed cooperative problem solving
JP4728565B2 (ja) * 2003-07-16 2011-07-20 日本電気株式会社 障害復旧装置および障害復旧方法ならびにプログラム
US7103874B2 (en) * 2003-10-23 2006-09-05 Microsoft Corporation Model-based management of computer systems and distributed applications
WO2006020094A2 (en) * 2004-07-20 2006-02-23 Softricity, Inc. Method and system for minimizing loss in a computer application
EP1630710B1 (en) 2004-07-21 2019-11-06 Microsoft Technology Licensing, LLC Containment of worms
US20060064481A1 (en) * 2004-09-17 2006-03-23 Anthony Baron Methods for service monitoring and control
JP2006163509A (ja) * 2004-12-02 2006-06-22 Olympus Corp 障害通知システム
US7954090B1 (en) 2004-12-21 2011-05-31 Zenprise, Inc. Systems and methods for detecting behavioral features of software application deployments for automated deployment management
JP2007079896A (ja) * 2005-09-14 2007-03-29 Nomura Research Institute Ltd 監視装置及び監視方法
JP2007141007A (ja) * 2005-11-21 2007-06-07 Hitachi Ltd システム運用監視での障害時のサポートシステム化
CN101039498B (zh) * 2007-05-09 2010-06-16 中兴通讯股份有限公司 带有分布式告警处理的基站系统及其告警处理方法
US20080281607A1 (en) * 2007-05-13 2008-11-13 System Services, Inc. System, Method and Apparatus for Managing a Technology Infrastructure
US8892719B2 (en) * 2007-08-30 2014-11-18 Alpha Technical Corporation Method and apparatus for monitoring network servers
JP2009099135A (ja) * 2007-09-28 2009-05-07 Fujitsu Ltd 支援管理方法、支援管理システム及び情報処理装置
JP2009087136A (ja) * 2007-10-01 2009-04-23 Nec Corp 障害修復システムおよび障害修復方法
JP4872058B2 (ja) * 2008-05-13 2012-02-08 株式会社日立システムズ 自動障害対応システム
US8103909B2 (en) * 2008-09-15 2012-01-24 Juniper Networks, Inc. Automatic hardware-based recovery of a compromised computer
US8074107B2 (en) * 2009-10-26 2011-12-06 Amazon Technologies, Inc. Failover and recovery for replicated data instances

Similar Documents

Publication Publication Date Title
JP2013527957A5 (ja)
JP5882986B2 (ja) 複雑な分散アプリケーションにおける自動化されたリカバリ及びエスカレーション
US11550829B2 (en) Systems and methods for load balancing in a system providing dynamic indexer discovery
EP3120247B1 (en) Framework for user-mode crash reporting
US8667505B2 (en) Message queue management
JP2018067353A (ja) コンピューティング・デバイスについてのシステム性能およびイベント・データを収集、追跡、および記憶するためのシステムおよび方法
CN104615497A (zh) 一种线程挂起的处理方法及装置
CN105760240A (zh) 分布式任务处理方法及装置
US9092329B2 (en) Process integration alerting for business process management
US20130091391A1 (en) User-coordinated resource recovery
TW200910836A (en) Monitoring of computer network resources having service level objectives
US10664335B2 (en) System and method for maintaining the health of a machine
JP2014010756A (ja) 監視プログラム、方法及び装置
JP2009276929A (ja) 自動障害対応システム
JP6531601B2 (ja) 診断プログラム、診断方法および診断装置
CN110535717B (zh) 一种容器检测方法及装置
CN110893616A (zh) 一种远程控制方法、装置、计算机设备和存储介质
JP4918669B2 (ja) リモートメンテナンスシステムと方法およびプログラム
JP2012146049A (ja) バッチジョブ遅延警告自動発報システムおよび自動発報方法、ならびにそのためのプログラム
JP2020197934A (ja) 制御システム、プログラマブルロジックコントローラおよび情報処理方法
JPWO2016098198A1 (ja) 船舶内の復旧作業管理のサーバ装置、プログラム、記録媒体および方法
US11943092B2 (en) System and method for auto-mining of resources, building dependency registry and notifying impacted services
JP6586844B2 (ja) 情報処理装置、情報処理システム、情報処理方法及びプログラム
JP2017076299A (ja) 事象発生通知プログラム、事象発生通知方法、及び、事象発生通知装置
JP2013054425A (ja) 判定装置、判定方法及びプログラム