JP2020027615A - サーバハードウェア障害の分析及びリカバリ - Google Patents

サーバハードウェア障害の分析及びリカバリ Download PDF

Info

Publication number
JP2020027615A
JP2020027615A JP2019128482A JP2019128482A JP2020027615A JP 2020027615 A JP2020027615 A JP 2020027615A JP 2019128482 A JP2019128482 A JP 2019128482A JP 2019128482 A JP2019128482 A JP 2019128482A JP 2020027615 A JP2020027615 A JP 2020027615A
Authority
JP
Japan
Prior art keywords
hardware failure
failure event
hardware
report
server device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019128482A
Other languages
English (en)
Other versions
JP6828096B2 (ja
Inventor
威宇 錢
Wei-Yu Chien
威宇 錢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Quanta Computer Inc
Original Assignee
Quanta Computer Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Quanta Computer Inc filed Critical Quanta Computer Inc
Publication of JP2020027615A publication Critical patent/JP2020027615A/ja
Application granted granted Critical
Publication of JP6828096B2 publication Critical patent/JP6828096B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/008Reliability or availability analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0769Readable error formats, e.g. cross-platform generic formats, human understandable formats
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • G06F11/142Reconfiguring to eliminate the error
    • G06F11/1428Reconfiguring to eliminate the error with loss of hardware functionality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/2028Failover techniques eliminating a faulty processor or activating a spare
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3034Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a storage system, e.g. DASD based or network based
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3051Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3452Performance evaluation by statistical analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/86Event-based monitoring

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Computer Hardware Design (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Debugging And Monitoring (AREA)
  • Computer And Data Communications (AREA)

Abstract

【課題】データセンタシステムで発生する障害イベントを自動的に管理する方法及びシステムを提供する。【解決手段】方法は、ハードウェア障害イベントに対応するハードウェア障害イベント分析を収集する工程を含む。ハードウェア障害イベント分析は、ハードウェア障害イベントを被るサーバデバイスのレポートとして構成されている。また、方法は、サーバデバイスのレポートから受信した統計データを処理する工程を含む。さらに、方法は、評価された統計データに基づいてハードウェアリカバリを実行する工程を含む。【選択図】図3

Description

本発明は、概して、データセンタで発生する障害イベントを管理するための自動管理システム及び方法に関する。
情報ベースの経済の需要の増大に応じて、データセンタ及び情報技術ネットワークが世界中で急増し続けている。この展開は、地理的に異なるコンピューティングリソースを互いにリンクさせる広範囲に分散したコンピュータネットワークや、電力、冷却及びコンピューティングインフラストラクチャを様々なアプリケーションに提供するデータセンタ等のように様々な形態で行われてきた。
一般的なデータセンタは、電力、冷却及び外部通信設備への接続を必要とする複数の機器ラックを有する。現代のデータセンタやネットワークルームでは、これらの設備で用いられるコンピューティング装置の密度の増加により、これらに関連する電力システムに負担がかかる。このコンピューティング装置は動作中に熱を発生するので、これらの設備の冷却システムにも負担がかかる。
よって、効率的なデータセンタ操作及び管理ツールが必要とされている。データセンターを管理するための従来の方法の殆どは、以前の操作記録に依存している。一般的なデータセンタ操作及び管理ツールでは、データセンタの障害は、手動で管理されている。この場合、障害イベントの発生を予測することが困難である。また、以前に発生したことのない新たなタイプの障害イベントに対して予防的な対策及び予測を行うことも困難である。
以下は、本発明の技術の基本的な理解を提供するための1つ以上の実施形態の簡単な概要である。この概要は、本技術の全ての企図された実施形態の広範な概要ではない。全ての例のキー又は重要な要素を特定することも、本発明の技術の何れか又は全ての態様の範囲を表現することも意図していない。この唯一の目的は、以下のより詳細な説明の前置きとして、1つ以上の例のいくつかの概念を簡略化された形式で提示することである。
データセンタシステムで発生する障害イベントを自動的に管理する方法及びシステムを提供する。本方法は、ハードウェア障害イベントに対応するハードウェア障害イベント分析を収集する工程を含む。ハードウェア障害イベント分析は、ハードウェア障害イベントを被るサーバデバイスのレポートとして構成されている。また、本方法は、サーバデバイスのレポートから受信した統計データを処理する工程を含む。さらに、本方法は、評価された統計データに基づいてハードウェアリカバリを実行する工程を含む。
本発明のいくつかの実施形態では、ハードウェア障害イベント分析を収集する工程は、ハードウェア障害イベント検出システムをサーバデバイスのベースボード管理コントローラ(BMC)ファームウェア内に記憶する工程を含む。また、本方法は、ハードウェア障害イベントの原因を識別する工程と、ハードウェア障害イベントが修復可能又は修復不可能なエラーの何れの結果であるかを判別する工程と、を含むことができる。本発明のいくつかの実施形態では、ハードウェア障害イベントの原因は、BIOSサービスルーチンによって決定される。さらに、本方法は、ハードウェア障害イベントを識別する工程を含むことができる。いくつかの実施形態では、ハードウェア障害イベントを識別する工程は、障害位置、障害カテゴリ、障害タイプ、及び/又は、障害重大度(fault severity)のうち少なくとも1つを識別する工程を含むことができる。さらにまた、本方法は、ハードウェア障害イベントの識別の通知をBMCから受信する工程を含むことができる。本発明のいくつかの実施形態では、レポートは、ハードウェア障害イベントレポートと、デバイスレポートと、を含む。本発明のいくつかの実施形態では、レポート内のデータオブジェクトを表現するために、人間が読めるテキストを使用する言語非依存のオープンデータフォーマットを受信することができる。また、本方法は、レポートの分析コンポーネントにおいて、データの中心傾向分析(central tendency analysis)を実行する工程を含むことができる。
いくつかの実施形態では、中心傾向分析は、ハードウェア障害イベントに関連するオペレーティングシステム及びソフトウェアサービスのリスクを分析する工程と、サーバデバイスの保護の方向性を分析する工程と、ハードウェア障害イベントの傾向及びハードウェア障害イベントの影響を予測する工程と、を含む。いくつかの実施形態では、本方法は、ハードウェア障害イベントを測定する工程と、予測性分析プロセスによってリスク評価を生成して、ハードウェア障害イベントの診断証明(certificate of diagnosis)を生成する工程と、をさらに含むことができる。本発明のいくつかの実施形態では、ハードウェアリカバリを実行する工程は、サーバデバイスのリカバリポリシーを検査する工程を含むことができる。また、本方法は、リカバリメカニズムをスケジューリングする工程を含むことができる。いくつかの実施形態では、リカバリメカニズムは、リカバリポリシーに基づいて、即時修復又は遅延修復の何れかにスケジュールされる。さらに、本方法は、サーバデバイスの性能欠陥についてハードウェア障害イベントを監視する工程を含む。
データセンタシステムで発生するハードウェア障害イベントを自動的に管理するシステムも提供される。本システムは、ラックサーバを含み、各ラックサーバは、サーバデバイスを含む。また、システムは、サーバデバイスに接続されたデータセンタ管理システムを含む。データセンタ管理システムは、ハードウェア障害イベントに対応するハードウェア障害イベント分析を収集するように構成されている。ハードウェア障害イベント分析は、ハードウェア障害イベントを被るサーバデバイスのレポートとして構成されている。また、データセンタ管理システムは、サーバデバイスのレポートから受信した統計データを処理し、評価された統計データに基づいてハードウェアリカバリを実行するように構成されている。
本開示のさらなる特徴及び利点は、以下の説明に記載され及びその説明から部分的に明らかになり、又は、本明細書に開示された原理の実施によって理解することができる。本開示の特徴及び利点は、添付の特許請求の範囲において特に指摘された機器や組み合わせによって実現し、得ることができる。本開示のこれら及び他の特徴は、以下の説明及び添付の特許請求の範囲から十分に明らかになり、又は、本明細書に記載された原理の実施によって理解することができる。
本発明によれば、新たなタイプの障害イベントに対して予防的な対策及び予測が可能になる。
上記の開示内容と、その利点及び特徴と、を得ることができる方法を説明するために、添付の図面に示された特定の例を参照することによって、上記の原理のより詳細な説明が与えられるであろう。これらの図面は、本開示の例示的な態様のみを示すものであり、よって、本発明の範囲を限定するものとみなされるべきではない。以下の図面を用いることにより、これらの原理が、さらなる詳細と共に記載及び説明される。
従来のデータセンタシステム100を示す図である。 本発明の一実施形態による、例示的なデータセンタシステム200を示す図である。 本発明の一実施形態による、データセンタシステム200で発生する障害イベントを自動的に管理するプロセス300のフローチャートである。 本発明の一実施形態による、ハードウェア障害イベント分析を収集するプロセス400のフローチャートである。 本発明の一実施形態による、統計データを処理及び評価するプロセス500のフローチャートである。 本発明の一実施形態による、統計データを処理及び評価するプロセス500のフローチャートである。 本発明の一実施形態による、ハードウェアリカバリのプロセス600のフローチャートである。
添付の図面を参照しながら本発明を説明する。図面全体を通して、類似又は同等の要素を示すために同様の符号が用いられている。図面は、一定の縮尺で描かれておらず、単に本発明を説明するために提供されている。本発明のいくつかの態様は、例示的な用途を参照して以下に説明される。本発明の十分な理解を提供するために、多くの特定の詳細、関係及び方法が説明されていることを理解されたい。しかしながら、当業者であれば、本発明が1つ以上の具体的な詳細無しに又は他の方法を用いて実施可能であることを容易に認識するであろう。他の例では、本発明を曖昧にすることを避けるために、周知の構造又は動作を詳細に示していない。いくつかの工程は、異なる順序で及び/又は他の工程若しくはイベントと同時に起こり得るので、本発明は、例示された工程又はイベントの順序によって限定されない。さらに、本発明による方法を実施するために、例示された全ての工程又はイベントが必要とされているわけではない。
上述したように、一般的なデータセンタの操作及び管理ツールでは、データセンタの障害が手動で管理されている。この場合、障害イベントの発生を予測することが困難である。さらに、これまでに発生したことのない新たなタイプの障害イベントについて予防的な対策及び予測を行うことも困難である。本発明は、データセンタで発生する障害イベントを自動的に管理するシステム及び対応する方法を提供する。本発明のシステム及び方法は、サーバハードウェア障害分析を実行し、リカバリメカニズムを提供することができる。リカバリメカニズムは、サーバのダウンタイムを減らし、ソフトウェアが、ハードウェア障害イベントの影響を受けるのを軽減し、交換が不要となるように構成されている。また、リカバリメカニズムは、製造者による修復やリカバリを必要とせずに、サーバハードウェアの障害イベントの根本的な原因の診断をスケジュールすることができる。
図1は、従来のデータセンタシステム100を示す図である。データセンタシステム100は、数千のラックサーバ102を含むことができる。また、データセンタシステム100は、ラックサーバ102から受信したエラーを監視するオンサイト管理者104を含むことができる。特に、管理者104は、データセンタ管理システム113のユーザインタフェースを介して、ラックサーバ102に記憶されている複数の電子部品からエラーを受信することができる。電子部品は、サーバデバイスを含むことができる。例示的なサーバデバイス110が本明細書で示されている。サーバデバイス110に関連するエラーは、ストレージエラー11、CPUエラー13、メモリエラー14、電源エラー12、又は、入力/出力エラー15を含むことができる。これらのエラーは例示を目的としたものであり、網羅的なエラーのリストにすることを意図していない。場合によっては、ラックサーバ102から管理者104への連続的な報告(レポート)において数千ものハードウェアエラーが生成される可能性がある。
データセンタシステム100は、リモート位置に存在する顧客108を含むことができる。顧客108は、ネットワーク106を介してラックサーバ102にアクセスすることができる。ネットワーク106は、顧客108をラックサーバ102に接続するように構成されたLAN(local area network)又はWAN(wide-area network)とすることができる。多くの場合、欠陥のあるハードウェア(例えば、サーバデバイス110)は、ラックサーバ102のパフォーマンスに直接影響を及ぼし得る。その結果、顧客108が体験するラックサーバ102のパフォーマンスが、直接影響を受ける。その結果、管理者104は、ラックサーバ102内のハードウェア障害イベントを可能な限り早く解決する任務を負う。管理者104がサービスできない、又は、サーバデバイス110のハードウェア障害イベントを修復できない場合、サーバデバイス110は、製造者112に送られて修理又は交換される。この目的のために、製造者112は、ラックサーバ102及び管理者104から離れている。製造者112によるサーバデバイス110上のサービスは、通常、数日、数週間又は数か月を要する場合がある。よって、ハードウェア障害イベントを解決するために単に管理者を採用するという従来のアプローチは、理想的な解決手段ではない。
通常、データセンタ管理システム113は、検証段階中に98%のハードウェア障害イベントを検出し、ハードウェア及びファームウェア設計を改善することによって障害を排除することができる。残りの1%のハードウェア障害イベントは、ハードウェアの経年劣化の結果である。よって、このタイプのハードウェア障害イベントは、通常、予測不能であり、検出が困難である。ハードウェア障害イベントは、データセンタ管理システム113の安定した信頼性、可用性及び実用性(RAS)機能を介して検出及び報告可能である。データセンタ管理システム113の信頼性機能は、ハードウェア障害イベントを回避、検出及びリカバリすることができる。データセンタ管理システム113の可用性機能は、ハードウェア障害イベントを軽減し、関連するソフトウェアのダウンタイムを短縮するように構成されている。データセンタ管理システム113の実用性機能は、問題が発生した場合にシステムを診断するように構成されている。
サーバの残り1%のハードウェア障害イベントはそれほど予測可能ではない。実際、これらのハードウェア障害イベントは、通常、新しく、未発見である。その結果、ハードウェア設計者は、ハードウェア障害イベントを考慮してシミュレーションを実行していない。これらの予期できないハードウェア障害イベントは、サーバデバイス110をクラッシュさせ、又は、関連するオペレーティングシステムのインテグリティを損なう可能性がある。結局、ハードウェア障害イベントは、かなりのダウンタイムを必要とし、トラブルシューティング分析リカバリを実行する方法が存在しない場合には、顧客108に深刻な影響を及ぼす可能性がある。
図2は、例示的なデータセンタシステム200を示す図である。データセンタシステム200は、有用な報告(レポート)を管理者に提供し、データセンタにおける障害及び実現可能なリカバリメカニズムを予測することができる。これにより、管理者は、サーバに関連する問題を軽減し、サーバダウンタイムを短縮し、サーバのサービスを維持することができる。データセンタシステム200は、数千のラックサーバ202を含むことができる。また、データセンタシステム200は、ラックサーバ202から受信したエラーを監視するオンサイト管理者204を含むことができる。特に、管理者204は、データセンタ管理システム213のユーザインタフェースを介して、ラックサーバ202に記憶されたいくつかの電子部品からエラーを受信することができる。電子コンポーネントは、サーバデバイスを含むことができる。例示的なサーバデバイス210が本明細書に示されている。サーバデバイス210は、計算サーバ、ストレージサーバ又はネットワークスイッチサーバを含むことができる。サーバデバイス210のハードウェア障害イベントに関連するエラーは、ストレージエラー21、CPUエラー23、メモリエラー24、電源エラー22、又は、入力/出力エラー25を含むことができる。これらのエラーは例示を目的としたものであり、網羅的なエラーのリストにすることを意図していない。場合によっては、ラックサーバ202から管理者への連続的な報告(レポート)において数千ものハードウェアエラーが生成される可能性がある。
また、データセンタシステム200は、リモート位置に存在する顧客208を含むことができる。顧客208は、ネットワーク206を介してラックサーバ202にアクセスすることができる。ネットワーク206は、顧客208をラックサーバ202に接続するように構成されたLAN(local area network)又はWAN(wide-area network)とすることができる。管理者204がサービスできない、又は、サーバデバイス210のハードウェア障害イベントを修復できない場合、ITエンジニア212は、サーバデバイス210にサービスすることができる。
図3は、データセンタシステム200で発生した障害イベントを自動的に管理するプロセス300のフローチャートである。プロセス300の以下の説明は、図2のデータセンタシステム200のコンポーネントを参照して詳細に述べられる。プロセス300は、工程301で開始し、データセンタ管理システム213がハードウェア障害イベント分析を収集する。これは、図4を参照して詳細に説明する。工程302において、データセンタ管理システム213は、ハードウェア障害イベント分析に関連する統計データを処理し、評価する。これは、図5A及び図5Bを参照して詳細に説明する。最後に、工程303において、データセンタ管理システム213は、ハードウェアリカバリを実行する。これは、図6を参照して詳細に説明する。
図4は、ハードウェア障害イベント分析を収集するプロセス400のフローチャートである。プロセス400の以下の説明は、図2のデータセンタシステム200のコンポーネントを参照して詳細に述べられる。プロセス400は、工程401で開始し、ハードウェア障害イベント検出システムが、ベースボード管理コントローラ(BMC)ファームウェアに記憶される。ラックサーバ202内の各サーバデバイス(例えば、サーバデバイス210)は、BMCファームウェアをインストールすることができる。BMCファームウェアは、データセンタ管理システム213と接続するように構成されてもよい。別の実施形態では、ハードウェア障害イベント検出システムは、ユニファイドエクステンシブルファームウェアインタフェース(UEFI)、ベーシックインプット/アウトプットシステム(BIOS)、ラックマネージャ(RM)ソフトウェア、又は、データセンタ管理システム213内にインストールされてもよい。
工程402において、ハードウェア障害イベントの原因が識別される。ハードウェア障害イベントは、修復可能又は修復不可能の何れかであるハードウェアエラーの結果とすることができる。ハードウェアの修復不可能なエラーは、ソフトウェアリカバリ可能エラー又は壊滅的なエラーの2つのカテゴリに分類することができる。ソフトウェアリカバリ可能エラーは、サーバデバイス210内の少なくともいくつかのデータが破損していることを示す。その結果、このデータをリカバリすることができない。しかし、このタイプのエラーが発生しても、オペレーティングシステムはまだ有効であり、システムをリセットしたり、進行中の別のプロセスを妨げることなく、ソフトウェアをリカバリすることができる。一方、壊滅的なエラーは、プロセッサがマイクロ命令を実行することができないことを示す。また、壊滅的エラーは、システムのリセットを必要とし、進行中の別のプロセスを妨げる。これらのエラーは、システムのリセットを必要とするが、修復可能なエラーに分類される。対照的に、修復可能なエラーは、ハードウェアメカニズム(例えば、巡回冗長検査(CRC)等)によって修復可能なエラーデータを意味する。いくつかの実施形態では、修正可能なエラーは、システムリセットを必要としない。
いくつかの実施形態では、ハードウェア障害イベントは、BIOSサービスルーチンによって認識され得る。いくつかの実施形態では、BIOSサービスルーチンは、システム管理割り込み(SMI)信号トリガを実行することができる。工程403において、ハードウェア障害イベントの識別を決定することができる。エラートリガは、ハードウェア信号(例えば、SMI、SCI、NMI、SMBusアラート又はCATERR割り込み等)によって実行することができる。例えば、障害の位置、カテゴリ、障害のタイプ、重大度、識別を記録し、BMCの恒久的なストレージに転送することができる。いくつかの実施形態では、ハードウェア障害イベントの識別は、既存のインタフェース(例えば、システム管理バス(SMBus)、プラットフォーム環境制御インタフェース(PECI)又はJTAG(Joint Test Action Group)等)を介して決定することができる。これらのバス又はインタフェースの各々は、ハードウェアコンポーネントとBMCとの間の通信メカニズムを提供する。工程404において、BMCは、UEFI、BIOS、RMソフトウェア又はデータセンタ管理システム213に通知することができる。
図5A及び図5Bは、統計データを処理及び評価するプロセス500のフローチャートである。プロセス500の以下の説明は、図2のデータセンタシステム200のコンポーネントを参照して詳細に述べられる。ハードウェア障害イベントは、大量の様々なデータを含む場合がある。ハードウェア障害イベントに関連するデータを評価するために、データセンタ管理システム213は、複数の場所からデータを収集し、当該データを処理し、当該データに基づいてサーバデバイス210の処理及びリカバリ段階を開始するように構成されている。プロセス500は、工程502で開始し、ハードウェア障害イベントデータ及びその関連データが収集される。ハードウェア障害イベントデータは、サーバ毎のレポート550として構成されてもよい。図5A及び図5Bに示すように、計算サーバ、ストレージサーバ又はネットワークスイッチサーバ毎の個別のレポート550が存在する。サーバデバイス毎のレポート550は、ハードウェア障害イベントレポート551と、デバイスレポート552と、を含むことができる。デバイスレポート552は、サーバデバイス210に関するものであることから、様々なデータを含むことができる。例えば、デバイスレポート552は、サーバデバイス210のファームウェアバージョン555と、サーバデバイス210のプラットフォーム構成556と、サーバデバイス210のカスタム設定554と、サーバデバイス210の使用モデル553と、を含むことができる。当業者であれば、デバイスレポート552内のデータのリストが一例として提供されており、網羅的であることを意図していないことが理解できるであろう。
プロセスは、工程503において、デバイスレポート552からの関連情報が収集され、集積される。計算サーバ、ストレージサーバ又はネットワークスイッチサーバのレポート550の例は、表1を参照して以下のように示される。
Figure 2020027615
表1に示すように、サーバデバイス210毎の特定の測定基準を提供することができる。表1において、サーバデバイス210は、計算サーバ、ストレージサーバ又はネットワークスイッチサーバを含むことができる。サーバデバイス210毎の例示的な測定基準は、データ収集(Data Collection)と、製品エラーフォーマット(Product Error Format)と、を含むことができる。これは、エラーのカテゴリー(Category)と、時間(Time)と、タイプ(Type)と、重大度(Severity)と、位置(Location)と、識別(Identity)と、を含むことができる。例えば、計算サーバのCPUメモリにエラーが存在する場合がある。本明細書では、CPUメモリエラーの時間と、タイプと、重大度と、位置と、識別と、を提供することができる。各サーバデバイス210の他の測定基準は、ファームウェアバージョンと、構成と、カスタム設定と、使用情報と、を含むことができる。
サーバデバイス210は、BMCを有することができる。サーバデバイス210用のBMCは、ハードウェア障害イベント及びそれに関連する生データの収集のためのストレージを提供することができる。サーバデバイス210のBMCは、管理者204の便宜のために人間が読めるテキストを使用する、言語非依存のオープンデータフォーマットを送ることができる。
レポート550内の統計データは、サーバタイプ毎のデータの統計的評価を生成するために使用することができる。この統計的評価は、評価特徴561と、分析特徴562と、を含むことができる。工程504において、データセンタ管理システム213は、評価特徴561内のデータの統計的評価を呼び出すことができる。評価特徴561は、ハードウェア障害イベントに関連するエンティティ、ハードウェア障害イベントの重大度、層、及び、ハードウェア障害イベントに関連する関係データを含むことができる。また、評価特徴561は、ハードウェア障害分類を含むことができる。ハードウェア障害イベントは、冗長性、方向性、リカバリ可能性、又は、緊急性に分類することができる。最後に、評価特徴561は、ハードウェア障害イベントの量、ハードウェア障害イベントの重大度、ハードウェア障害イベントの位置、ハードウェア障害イベントのカテゴリ、プラットフォーム構成、カスタム設定、使用モデル、及び、ハードウェア障害イベントのタイプスタンプを含むことができる。当業者であれば、評価特徴561に対して多くの属性を提供することができ、本明細書に列挙された属性が例示を目的としており網羅的であることを意図していないことを理解できるであろう。
工程505において、データセンタ管理システム213は、分析特徴562内のデータの中心傾向分析を実行する。中心傾向分析は、修復不可能なエラー(致命的でない(non-fatal))に焦点を当てている。致命的ではない修復不可能なエラーは、ソフトウェアの再起動又はハードウェアの再トランザクションによってリカバリ可能であるが、サーバのパフォーマンスに影響を与える可能性がある。中心傾向分析は、修復不可能なエラーの位置を識別する工程と、接続されたデバイスの数を判別する工程と、を含む。また、中心傾向分析は、ハードウェアコンポーネントからのエラーレポートを識別し、トランザクションが代替のデバイスに再転送され得るかどうかを識別する工程を含む。この時点で、障害のあるハードウェアを交換するために構成された全ての冗長なコンポーネントをリストすることができる。ソフトウェアサービスを代替の仮想マシンに移行することができるか否かを決定する。エラー履歴、比率及び使用モデルが検査される。さらに、ハードウェア障害イベントのエラータイプ、ハードウェア障害イベントのリスト量、及び、このハードウェア障害イベントからの影響が決定される。データセンタ管理システム213は、オペレーティングシステム、及び、ハードウェア障害イベントに関連するソフトウェアサービスのリスクを分析することができる。また、データセンタ管理システム213は、サーバデバイス210の保護の方向性を分析することができる。さらに、データセンタ管理システム213は、障害イベントの傾向、及び、ハードウェア障害イベントの影響を予測することができる。データセンタ管理システム213は、統計的なハードウェア障害イベントデータを関連するデータと共に処理して、ハードウェア障害イベントデータを特有のパターンで理解することができる。さらにまた、データセンタ管理システム213は、ハードウェア障害イベントを測定し、予測性分析プロセスを介してリスク評価を生成するように構成されている。
工程504及び工程505におけるデータセンタ管理システム213による評価に基づいて、工程506において、データセンタ管理システム213は、ハードウェア障害イベントの診断証明を生成することができる。例示的な診断証明を以下の表2に提供する。
Figure 2020027615
表2に示すように、診断証明は、理解(Understanding)コンポーネント、視覚的(Visualizing)コンポーネント、及び、予測性分析(Predictive analytics)コンポーネントを有するソフトウェアサービスを含むことができる。理解コンポーネントは、ハードウェア障害イベントの根本的(Root)な原因を判別することができる。いくつかの実施形態では、ハードウェア障害イベントの根本的な原因は、ハードウェア障害イベントのエンティティ、ハードウェア障害イベントの重大度、ハードウェア障害イベントの原因、ハードウェア障害イベントのシナリオ、及び、ハードウェア障害イベントの関係を含むことができる。また、理解コンポーネントは、ハードウェア障害イベントの属性(Attribute)コンポーネントを含むことができる。属性コンポーネントは、ハードウェア障害イベントコンポーネントの冗長性、ハードウェア障害イベントの方向性、ハードウェア障害イベントのリカバリ可能プロセス、及び、ハードウェア障害イベントの緊急度を含むことができる。これらの測定基準の各々の記述も診断証明に記載されている。
視覚的コンポーネントは、ハードウェア障害イベントの数量測定基準を提供することができる。数量測定基準は、ハードウェア障害イベントの重大度の数量、ハードウェア障害イベントの数量、ハードウェア障害イベントの位置の数量、ハードウェア製品の数量、ハードウェア障害イベント毎のハードウェア障害イベント構成の数量、ハードウェア障害イベント毎のソフトウェア構成の数量、及び、ハードウェア障害イベントの比率と間隔を含むことができる。これらの測定基準の各々の説明も診断証明に記載されている。単純なハードウェア障害イベントは、実際の根本的な原因を示すことができないので、関連する条件を有するエラー履歴の数量が計算される。どのような関係が各コンポーネント間の障害を引き起こしたのかを判別するための決定が行われる。障害が特定のプラットフォーム構成、コンポーネント、ファームウェアバージョン又は使用モードの何れに由来するのかについて識別される。
予測性分析コンポーネントは、リスク評価分析を実行することができる。リスク評価分析は、ハードウェア障害イベントの傾向、保護の方向性、オペレーティングシステムのリスク、ハードウェア障害イベントの問題(affliction)、及び、ハードウェアのペイン(pain)を含むことができる。これらの測定基準の各々の記述も診断証明に記載されている。
図6は、ハードウェアリカバリのプロセス600を説明するフローチャートである。図2のデータセンタシステム200のコンポーネントを参照して、プロセス600を詳細に説明する。データセンタ管理システム213は、数千ものハードウェア障害イベントデータをマイニング及び分析した後に、修復要素(例えば、クラウドサービスリカバリが実行可能かどうか、及び、ハードウェア障害イベントの当面の危険性等)を決定するように構成されている。さらに、データセンタ管理システム213は、予測性分析を用いて潜在的なリスクを予測して、ソフトウェアパフォーマンスに対するハードウェア障害イベントの影響を軽減する。いくつかの実施形態において、サーバデバイス210上のマザーボードのハードウェア設計は、主要なコンポーネントの冗長回路を有することができる。その結果、サーバ210のマザーボードは、サーバが、1つの故障したコンポーネントの操作を正常なコンポーネントに移動させるのを可能にする予備のエンティティを提供することができる。不可避のハードウェア障害イベントが発生した場合、オプションの回路は、サーバの使用規模を縮小することができる。
プロセス600は、工程601で開始し、データセンタ管理システム213は、ハードウェア障害イベントの影響を受けるサーバデバイス210のリカバリポリシーを検査する。リカバリポリシーは、ハードウェア障害イベントのタイプに対して固有のものにすることができる。表3は、例示的なハードウェア障害イベントと、そのリカバリ方法とを示す。
Figure 2020027615
表3に示すように、レポートは、ハードウェア障害イベントの位置、ハードウェア障害イベントのタイプ、リカバリ方法、及び、ハードウェア障害イベントに関連するソフトウェアを含む。データセンタ管理システム213は、サーバデバイス210からハードウェア障害イベントレポートを受信し、統計的なデータ処理及び評価を開始する。プロセス600は、工程602に進み、リカバリメカニズムを直ちに実行すべきか否かを決定する。リカバリメカニズムを直ちに実行しないと決定した場合、プロセス600は、工程603に進む。工程603において、データセンタ管理システム213は、リカバリプロセスのダウンタイムをスケジュールし、リカバリプロセス中に必要なハードウェア及びソフトウェアの交換をリストする。そして、プロセス600は、工程604及び工程605に進み、データセンタ管理システム213は、スケジュールされたダウンタイムをデータセンタサービスエンジニアに通知する。デザインチームのためにレッスンと学習のセッション(lesson-and-learn session)をスケジュールすることができる。技術的なフィードバックは、将来のプラットフォームハードウェア設計を改善し、必要な保護回路を追加し、トラブルシューティングのソフトウェアアルゴリズムを調整することができる。
リカバリメカニズムを直ちに実行すべきであると決定した場合、プロセス600は、工程606に進む。工程606において、データセンタ管理システム213は、サーバデバイス650のリカバリポリシー651を生成する。管理者204(図2に示す)は、個々のリカバリポリシー651を生成し、これを実行して、ハードウェア障害イベントによるクラウドサービス及びパフォーマンスの影響を軽減することができる。例示的なリカバリポリシー651を図6に示す。次に、プロセス600は、工程607に進み、ハードウェア障害イベントが、サーバデバイス650のパフォーマンスにおけるさらなる傾向又は欠陥について監視される。
本発明の特定の実施形態を示し説明してきたが、より広い観点において本発明から逸脱することなく変更及び修正を加えることができることが当業者には明らかであろう。したがって、添付の特許請求の範囲における目的は、本発明の真の趣旨及び範囲に含まれる全ての変更及び修正を網羅することである。上記の説明及び添付の図面に記載された事項は、例示としてのみ提供され、限定するものとして提供されない。本発明の実際の範囲は、先行技術に基づいてこれらの適切な観点から見たときに、添付の特許請求の範囲において定義されていることを意図している。
本明細書で使用される用語は、特定の実施形態を説明することのみを目的としており、本発明を限定することを意図するものではない。本明細書で使用される場合、「一」、「1つの」、「この」等の単数形は、文脈が明らかにそうでないことを示さない限り、複数形も含むことを意図している。さらに、「有する」、「含む」又はこれらの変形は、詳細な説明及び/又は特許請求の範囲において使用される限りにおいて、「備える」という用語と同様の方法で包括的であることを意味している。
別に定義されない限り、本明細書で用いられる全ての用語(技術的及び科学的用語を含む)は、本発明が属する技術分野の当業者によって通常理解されるものと同じ意味を有する。さらに、一般的に使用される辞書で定義されているような用語は、関連技術の文脈におけるそれらの意味と一致する意味を有すると解釈されるべきであり、明確に定義されない限り、理想的又は過度に形式的な意味で解釈されない。
100…従来のデータセンタシステム
102…ラックサーバ
104,204…オンサイト管理者
106,206…ネットワーク
108,208…顧客
110,210…サーバデバイス
112…製造者
113,213…データセンタ管理システム
11,21…ストレージエラー
12,22…電源エラー
13,23…CPUエラー
14,24…メモリエラー
15,25…入力/出力エラー
200…データセンタシステム
202…ラックサーバ
212…ITエンジニア
300,400,500,600…方法

Claims (10)

  1. データセンタシステムで発生するハードウェア障害イベントを自動的に管理する方法であって、
    前記ハードウェア障害イベントに対応するハードウェア障害イベント分析を収集する工程であって、前記ハードウェア障害イベント分析は、前記ハードウェア障害イベントを被るサーバデバイスのレポートとして構成されている、工程と、
    前記サーバデバイスのレポートから受信した統計データを処理する工程と、
    処理された統計データに基づいてハードウェアリカバリを実行する工程と、
    を含むことを特徴とする方法。
  2. 前記ハードウェア障害イベント分析を収集する工程は、ハードウェア障害イベント検出プロセスを、前記サーバデバイスのベースボード管理コントローラ(BMC)ファームウェアに記憶する工程を含み、前記レポートは、ハードウェア障害イベントレポートと、デバイスレポートと、を含む、ことを特徴とする請求項1に記載の方法。
  3. 前記ハードウェア障害イベントの原因を識別する工程と、前記ハードウェア障害イベントが修復可能又は修復不可能なエラーの何れかの結果であるかを判別する工程であって、前記ハードウェア障害イベントの原因がBIOSサービスルーチンによって決定される、工程と、
    前記ハードウェア障害イベントを識別する工程であって、障害位置、障害カテゴリ、障害タイプ、及び、障害重大度のうち少なくとも1つを識別する、工程と、
    前記ハードウェア障害イベントの識別の通知をBMCから受信する工程と、
    前記レポート内のデータオブジェクトを表現するために、人間が読めるテキストを使用する言語非依存のオープンデータフォーマットを受信する工程と、
    を含むことを特徴とする請求項1に記載の方法。
  4. 前記レポートの分析コンポーネントにおいて、データの中心傾向分析を実行する工程を含み、
    前記中心傾向分析は、
    前記ハードウェア障害イベントに関連するオペレーティングシステム及びソフトウェアサービスのリスクを分析する工程と、
    前記サーバデバイスの保護の方向性を分析する工程と、
    前記ハードウェア障害イベントの傾向及び前記ハードウェア障害イベントの影響を予測する工程と、を含む、
    ことを特徴とする請求項1に記載の方法。
  5. 前記ハードウェア障害イベントを測定する工程と、予測性分析プロセスによってリスク評価を生成して、前記ハードウェア障害イベントの診断証明を生成する工程と、を含むことを特徴とする請求項1に記載の方法。
  6. 前記ハードウェアリカバリを実行する工程は、前記サーバデバイスのリカバリポリシーを検査する工程と、リカバリメカニズムをスケジューリングする工程であって、前記リカバリメカニズムは、前記リカバリポリシーに基づいて、即時的な修復又は遅延の修復の何れかにスケジュールされる、工程と、
    前記サーバデバイスの性能欠陥についてハードウェア障害イベントを監視する工程と、
    を含むことを特徴とする請求項1に記載の方法。
  7. データセンタシステムで発生するハードウェア障害イベントを自動的に管理するシステムであって、
    それぞれサーバデバイスを有する複数のラックサーバと、
    前記サーバデバイスに接続されたデータセンタ管理システムと、を備え、
    前記データセンタ管理システムは、
    前記ハードウェア障害イベントに対応するハードウェア障害イベント分析を収集する工程であって、前記ハードウェア障害イベント分析は、前記ハードウェア障害イベントを被る前記サーバデバイスのレポートとして構成されている、工程と、
    前記サーバデバイスのレポートから受信した統計データを処理する工程と、
    評価された統計データに基づいてハードウェアリカバリを実行する工程と、
    を行うように構成されている、
    ことを特徴とするシステム。
  8. 前記ハードウェア障害イベント分析を収集する工程は、ハードウェア障害イベント検出システムを、前記サーバデバイスのベースボード管理コントローラ(BMC)ファームウェアに記憶する工程を含み、前記レポートは、ハードウェア障害イベントレポートと、デバイスレポートと、を含む、ことを特徴とする請求項7に記載のシステム。
  9. 前記データセンタ管理システムは、前記ハードウェア障害イベントの原因を識別する工程と、前記ハードウェア障害イベントが修復可能又は修復不可能なエラーの何れかの結果であるかを判別する工程と、を行うように構成されている、ことを特徴とする請求項7に記載のシステム。
  10. 前記データセンタ管理システムは、
    前記ハードウェア障害を識別する工程であって、障害位置、障害カテゴリ、障害タイプ、及び、障害重大度のうち少なくとも1つを識別する、工程と、
    前記ハードウェア障害イベントの識別の通知をBMCから受信する工程と、
    前記レポート内のデータオブジェクトを表現するために、人間が読めるテキストを使用する言語非依存のオープンデータフォーマットを受信する工程と、
    を行うように構成されている、
    ことを特徴とする請求項7に記載のシステム。
JP2019128482A 2018-08-13 2019-07-10 サーバハードウェア障害の分析及びリカバリ Active JP6828096B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/101,749 2018-08-13
US16/101,749 US10761926B2 (en) 2018-08-13 2018-08-13 Server hardware fault analysis and recovery

Publications (2)

Publication Number Publication Date
JP2020027615A true JP2020027615A (ja) 2020-02-20
JP6828096B2 JP6828096B2 (ja) 2021-02-10

Family

ID=67211531

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019128482A Active JP6828096B2 (ja) 2018-08-13 2019-07-10 サーバハードウェア障害の分析及びリカバリ

Country Status (5)

Country Link
US (1) US10761926B2 (ja)
EP (1) EP3620922A1 (ja)
JP (1) JP6828096B2 (ja)
CN (1) CN110825578A (ja)
TW (1) TWI680369B (ja)

Families Citing this family (58)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10761743B1 (en) 2017-07-17 2020-09-01 EMC IP Holding Company LLC Establishing data reliability groups within a geographically distributed data storage environment
US10880040B1 (en) 2017-10-23 2020-12-29 EMC IP Holding Company LLC Scale-out distributed erasure coding
US10382554B1 (en) 2018-01-04 2019-08-13 Emc Corporation Handling deletes with distributed erasure coding
US10579297B2 (en) 2018-04-27 2020-03-03 EMC IP Holding Company LLC Scaling-in for geographically diverse storage
US11023130B2 (en) 2018-06-15 2021-06-01 EMC IP Holding Company LLC Deleting data in a geographically diverse storage construct
US10936196B2 (en) 2018-06-15 2021-03-02 EMC IP Holding Company LLC Data convolution for geographically diverse storage
US11436203B2 (en) 2018-11-02 2022-09-06 EMC IP Holding Company LLC Scaling out geographically diverse storage
CN109491826B (zh) * 2018-11-27 2021-02-12 英业达科技有限公司 远程硬件诊断系统与诊断方法
US10901635B2 (en) 2018-12-04 2021-01-26 EMC IP Holding Company LLC Mapped redundant array of independent nodes for data storage with high performance using logical columns of the nodes with different widths and different positioning patterns
US10931777B2 (en) 2018-12-20 2021-02-23 EMC IP Holding Company LLC Network efficient geographically diverse data storage system employing degraded chunks
US11119683B2 (en) 2018-12-20 2021-09-14 EMC IP Holding Company LLC Logical compaction of a degraded chunk in a geographically diverse data storage system
US10892782B2 (en) 2018-12-21 2021-01-12 EMC IP Holding Company LLC Flexible system and method for combining erasure-coded protection sets
US11023331B2 (en) 2019-01-04 2021-06-01 EMC IP Holding Company LLC Fast recovery of data in a geographically distributed storage environment
US10942827B2 (en) 2019-01-22 2021-03-09 EMC IP Holding Company LLC Replication of data in a geographically distributed storage environment
US10846003B2 (en) 2019-01-29 2020-11-24 EMC IP Holding Company LLC Doubly mapped redundant array of independent nodes for data storage
US10936239B2 (en) 2019-01-29 2021-03-02 EMC IP Holding Company LLC Cluster contraction of a mapped redundant array of independent nodes
US10942825B2 (en) * 2019-01-29 2021-03-09 EMC IP Holding Company LLC Mitigating real node failure in a mapped redundant array of independent nodes
US10866766B2 (en) 2019-01-29 2020-12-15 EMC IP Holding Company LLC Affinity sensitive data convolution for data storage systems
US10754722B1 (en) * 2019-03-22 2020-08-25 Aic Inc. Method for remotely clearing abnormal status of racks applied in data center
US11029865B2 (en) 2019-04-03 2021-06-08 EMC IP Holding Company LLC Affinity sensitive storage of data corresponding to a mapped redundant array of independent nodes
US10944826B2 (en) 2019-04-03 2021-03-09 EMC IP Holding Company LLC Selective instantiation of a storage service for a mapped redundant array of independent nodes
US11121727B2 (en) 2019-04-30 2021-09-14 EMC IP Holding Company LLC Adaptive data storing for data storage systems employing erasure coding
US11113146B2 (en) 2019-04-30 2021-09-07 EMC IP Holding Company LLC Chunk segment recovery via hierarchical erasure coding in a geographically diverse data storage system
US11119686B2 (en) 2019-04-30 2021-09-14 EMC IP Holding Company LLC Preservation of data during scaling of a geographically diverse data storage system
US11748004B2 (en) 2019-05-03 2023-09-05 EMC IP Holding Company LLC Data replication using active and passive data storage modes
JP7358800B2 (ja) * 2019-06-27 2023-10-11 京セラドキュメントソリューションズ株式会社 電子機器及びその制御プログラム
US11209996B2 (en) 2019-07-15 2021-12-28 EMC IP Holding Company LLC Mapped cluster stretching for increasing workload in a data storage system
US11023145B2 (en) 2019-07-30 2021-06-01 EMC IP Holding Company LLC Hybrid mapped clusters for data storage
US11449399B2 (en) 2019-07-30 2022-09-20 EMC IP Holding Company LLC Mitigating real node failure of a doubly mapped redundant array of independent nodes
US11228322B2 (en) 2019-09-13 2022-01-18 EMC IP Holding Company LLC Rebalancing in a geographically diverse storage system employing erasure coding
US11449248B2 (en) 2019-09-26 2022-09-20 EMC IP Holding Company LLC Mapped redundant array of independent data storage regions
US11119690B2 (en) 2019-10-31 2021-09-14 EMC IP Holding Company LLC Consolidation of protection sets in a geographically diverse data storage environment
US11435910B2 (en) 2019-10-31 2022-09-06 EMC IP Holding Company LLC Heterogeneous mapped redundant array of independent nodes for data storage
US11288139B2 (en) 2019-10-31 2022-03-29 EMC IP Holding Company LLC Two-step recovery employing erasure coding in a geographically diverse data storage system
US11435957B2 (en) 2019-11-27 2022-09-06 EMC IP Holding Company LLC Selective instantiation of a storage service for a doubly mapped redundant array of independent nodes
US11144220B2 (en) 2019-12-24 2021-10-12 EMC IP Holding Company LLC Affinity sensitive storage of data corresponding to a doubly mapped redundant array of independent nodes
US11231860B2 (en) 2020-01-17 2022-01-25 EMC IP Holding Company LLC Doubly mapped redundant array of independent nodes for data storage with high performance
US11507308B2 (en) 2020-03-30 2022-11-22 EMC IP Holding Company LLC Disk access event control for mapped nodes supported by a real cluster storage system
CN113626275A (zh) * 2020-05-07 2021-11-09 捷普科技(上海)有限公司 资讯的建立方法及分析方法
US11288229B2 (en) 2020-05-29 2022-03-29 EMC IP Holding Company LLC Verifiable intra-cluster migration for a chunk storage system
CN111767181B (zh) * 2020-06-29 2021-11-02 深圳小马洛可科技有限公司 一种led显示屏用大规模集群管理系统
US11893644B2 (en) 2020-10-15 2024-02-06 State Farm Mutual Automobile Insurance Company Intelligent user interface monitoring and alert
US11836032B2 (en) 2020-10-15 2023-12-05 State Farm Mutual Automobile Insurance Company Error monitoring and prevention in computing systems based on determined trends and routing a data stream over a second network having less latency
US11693983B2 (en) 2020-10-28 2023-07-04 EMC IP Holding Company LLC Data protection via commutative erasure coding in a geographically diverse data storage system
US11847141B2 (en) 2021-01-19 2023-12-19 EMC IP Holding Company LLC Mapped redundant array of independent nodes employing mapped reliability groups for data storage
US11625174B2 (en) 2021-01-20 2023-04-11 EMC IP Holding Company LLC Parity allocation for a virtual redundant array of independent disks
CN112799917B (zh) * 2021-02-08 2024-01-23 联想(北京)有限公司 一种数据处理方法、装置及设备
CN113238916A (zh) * 2021-05-14 2021-08-10 山东英信计算机技术有限公司 一种服务器资产管理方法、bmc、管理后台、终端
US11449234B1 (en) 2021-05-28 2022-09-20 EMC IP Holding Company LLC Efficient data access operations via a mapping layer instance for a doubly mapped redundant array of independent nodes
US11354191B1 (en) 2021-05-28 2022-06-07 EMC IP Holding Company LLC Erasure coding in a large geographically diverse data storage system
CN113392052B (zh) * 2021-06-11 2023-07-18 深圳市同泰怡信息技术有限公司 一种基于四路服务器的bios系统、方法及计算机可读存储介质
US20210397530A1 (en) * 2021-06-25 2021-12-23 Intel Corporation Methods and apparatus to transmit central processing unit performance information to an operating system
US11841773B2 (en) * 2021-09-14 2023-12-12 Dell Products L.P. Persistence of learned profiles
CN114003416B (zh) * 2021-09-23 2024-01-12 苏州浪潮智能科技有限公司 内存错误动态处理方法、系统、终端及存储介质
TWI815310B (zh) * 2022-02-16 2023-09-11 玉山商業銀行股份有限公司 主動式資料庫風險偵測系統與運作方法
US11886283B2 (en) 2022-03-30 2024-01-30 International Business Machines Corporation Automatic node crash detection and remediation in distributed computing systems
CN115562913B (zh) * 2022-04-21 2023-11-14 荣耀终端有限公司 一种硬件状态分析方法、装置及系统
CN117675505A (zh) * 2022-09-08 2024-03-08 华为技术有限公司 事件处理方法、装置及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11265322A (ja) * 1998-03-18 1999-09-28 Fujitsu Ltd バックアップ機能付オンラインデータベース情報処理システム
JP2004259044A (ja) * 2003-02-26 2004-09-16 Hitachi Ltd 情報処理装置の管理方法およびシステム
JP2012178014A (ja) * 2011-02-25 2012-09-13 Hitachi Ltd 故障予測・対策方法及びクライアントサーバシステム
JP2014146110A (ja) * 2013-01-28 2014-08-14 Nec Corp 情報処理装置、エラー検出機能診断方法およびコンピュータプログラム
JP2016152011A (ja) * 2015-02-19 2016-08-22 ファナック株式会社 制御装置の故障予測システム

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6516429B1 (en) * 1999-11-04 2003-02-04 International Business Machines Corporation Method and apparatus for run-time deconfiguration of a processor in a symmetrical multi-processing system
US7536370B2 (en) 2004-06-24 2009-05-19 Sun Microsystems, Inc. Inferential diagnosing engines for grid-based computing systems
JP4859558B2 (ja) 2006-06-30 2012-01-25 株式会社日立製作所 コンピュータシステムの制御方法及びコンピュータシステム
US20090259890A1 (en) * 2008-04-14 2009-10-15 Turin Networks Method & apparatus for hardware fault management
US8332690B1 (en) 2008-06-27 2012-12-11 Symantec Corporation Method and apparatus for managing failures in a datacenter
US20120221884A1 (en) 2011-02-28 2012-08-30 Carter Nicholas P Error management across hardware and software layers
TW201417536A (zh) 2012-10-24 2014-05-01 Hon Hai Prec Ind Co Ltd 伺服器自動管理方法及系統
US20140122930A1 (en) 2012-10-25 2014-05-01 International Business Machines Corporation Performing diagnostic tests in a data center
WO2015166510A1 (en) * 2014-04-30 2015-11-05 Hewlett-Packard Development Company, L.P. On demand remote diagnostics for hardware component failure and disk drive data recovery using embedded storage media
US9965367B2 (en) 2014-12-17 2018-05-08 Quanta Computer Inc. Automatic hardware recovery system
US10599504B1 (en) * 2015-06-22 2020-03-24 Amazon Technologies, Inc. Dynamic adjustment of refresh rate
US10360114B2 (en) 2016-02-24 2019-07-23 Quanta Computer Inc. Hardware recovery systems
CN107077408A (zh) 2016-12-05 2017-08-18 华为技术有限公司 故障处理的方法、计算机系统、基板管理控制器和系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11265322A (ja) * 1998-03-18 1999-09-28 Fujitsu Ltd バックアップ機能付オンラインデータベース情報処理システム
JP2004259044A (ja) * 2003-02-26 2004-09-16 Hitachi Ltd 情報処理装置の管理方法およびシステム
JP2012178014A (ja) * 2011-02-25 2012-09-13 Hitachi Ltd 故障予測・対策方法及びクライアントサーバシステム
JP2014146110A (ja) * 2013-01-28 2014-08-14 Nec Corp 情報処理装置、エラー検出機能診断方法およびコンピュータプログラム
JP2016152011A (ja) * 2015-02-19 2016-08-22 ファナック株式会社 制御装置の故障予測システム

Also Published As

Publication number Publication date
US10761926B2 (en) 2020-09-01
JP6828096B2 (ja) 2021-02-10
EP3620922A1 (en) 2020-03-11
TWI680369B (zh) 2019-12-21
TW202009705A (zh) 2020-03-01
CN110825578A (zh) 2020-02-21
US20200050510A1 (en) 2020-02-13

Similar Documents

Publication Publication Date Title
JP6828096B2 (ja) サーバハードウェア障害の分析及びリカバリ
Wang et al. What can we learn from four years of data center hardware failures?
Zheng et al. Co-analysis of RAS log and job log on Blue Gene/P
US8839032B2 (en) Managing errors in a data processing system
US8108724B2 (en) Field replaceable unit failure determination
US9262253B2 (en) Middlebox reliability
JP5267736B2 (ja) 障害検出装置、障害検出方法およびプログラム記録媒体
US9292402B2 (en) Autonomous service management
Tang et al. Assessment of the effect of memory page retirement on system RAS against hardware faults
WO2006035931A1 (ja) 情報システムの信頼性評価システム、信頼性評価方法、信頼性評価プログラム
US6567935B1 (en) Performance linking methodologies
Bauer et al. Practical system reliability
Li et al. Fighting the fog of war: Automated incident detection for cloud systems
US20230239194A1 (en) Node health prediction based on failure issues experienced prior to deployment in a cloud computing system
JP4648961B2 (ja) 装置メンテナンスシステム、方法および情報処理装置
Amvrosiadis et al. Getting back up: Understanding how enterprise data backups fail
Di Martino et al. Measuring the resiliency of extreme-scale computing environments
JP2014021577A (ja) 故障予測装置、故障予測システム、故障予測方法、及び、故障予測プログラム
Li et al. Going through the life cycle of faults in clouds: Guidelines on fault handling
US20100251029A1 (en) Implementing self-optimizing ipl diagnostic mode
WO2011051999A1 (ja) 情報処理装置及び情報処理装置の制御方法
JP4575020B2 (ja) 障害解析装置
JP2013206046A (ja) 情報処理装置、起動時診断方法、及びプログラム
Salfner et al. Architecting dependable systems with proactive fault management
Sankar et al. Soft failures in large datacenters

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190710

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200812

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200915

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201207

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210105

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210120

R150 Certificate of patent or registration of utility model

Ref document number: 6828096

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250