JP7158586B2 - ハードディスク故障発生時期の予測方法、装置及び記憶媒体 - Google Patents

ハードディスク故障発生時期の予測方法、装置及び記憶媒体 Download PDF

Info

Publication number
JP7158586B2
JP7158586B2 JP2021531832A JP2021531832A JP7158586B2 JP 7158586 B2 JP7158586 B2 JP 7158586B2 JP 2021531832 A JP2021531832 A JP 2021531832A JP 2021531832 A JP2021531832 A JP 2021531832A JP 7158586 B2 JP7158586 B2 JP 7158586B2
Authority
JP
Japan
Prior art keywords
hard disk
data
failure
training
amount
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021531832A
Other languages
English (en)
Other versions
JP2022508320A (ja
Inventor
洪 章 楊
要 峰 屠
雅 輝 楊
忠 良 李
斌 郭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE Corp
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE Corp filed Critical ZTE Corp
Publication of JP2022508320A publication Critical patent/JP2022508320A/ja
Application granted granted Critical
Publication of JP7158586B2 publication Critical patent/JP7158586B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/36Monitoring, i.e. supervising the progress of recording or reproducing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/08Error detection or correction by redundancy in data representation, e.g. by using checking codes
    • G06F11/10Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's
    • G06F11/1076Parity data used in redundant arrays of independent storages, e.g. in RAID systems
    • G06F11/1092Rebuilding, e.g. when physically replacing a failing disk
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • G06F11/076Error or fault detection not based on redundancy by exceeding limits by exceeding a count or rate limit, e.g. word- or bit count limit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0772Means for error signaling, e.g. using interrupts, exception flags, dedicated error registers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/08Error detection or correction by redundancy in data representation, e.g. by using checking codes
    • G06F11/10Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's
    • G06F11/1008Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's in individual solid state devices
    • G06F11/1048Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's in individual solid state devices using arrangements adapted for a specific error detection or correction feature
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3034Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a storage system, e.g. DASD based or network based
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3452Performance evaluation by statistical analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Computing Systems (AREA)
  • Computer Hardware Design (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Debugging And Monitoring (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)

Description

本開示は、2018年12月05日に提出された、発明の名称が「ハードディスク故障発生時期の予測方法、装置及び記憶媒体」である中国特許出願CN201811484874.3の優先権を主張し、その全内容が引用により本明細書に組み込まれている。
本開示は、コンピュータ技術の分野に関し、特に、ハードディスク故障発生時期の予測方法、装置、及び記憶媒体に関する。
国内外の統計資料によると、ハードディスクは現在のデータセンターで最も主要な故障発生源である。関連報告では、「4,000ノードを備えたデータセンターでは、平均して6時間ごとに1個のハードディスクに故障が発生している」と指摘されている。ハードディスクの故障がそれほど頻繁に発生すると、業務の中断やデータロスなどの重大な結果を招く。ハードディスク故障の発生を事前に予測することができれば、データセンターの運営に大きな利便性をもたらす。現在、関連技術では、ハードディスク故障予測技術は、検出率の向上だけを追求しているため、誤検出率が高くなり、多くの正常なハードディスクが故障ハードディスクと誤判定されてしまう。また、関連するハードディスク故障予測技術は、ハードディスクに故障が発生するか否かのみを予測することができ、故障が発生する可能性のある時期を予測することができないため、予測された故障が実際の故障から長い(短い場合は1~2週間、長い場合は1~2ヶ月)ため、ハードディスクのライフサイクルが無駄になり、ディスク交換を効果的に指示することができない。また、ハードディスクの故障を予測する際には、処理データ量が多いこと、プロセッサの処理能力が限られていることなどの理由により、予測結果を得るのに長い時間(短い場合は十数分、長い場合は数時間)を要し、このため、ハードディスクの故障予測効率が低い。
本開示は、ハードディスク故障発生時期を予測できないという関連技術の問題を解決するために、ハードディスク故障発生時期の予測方法、装置及び記憶媒体を提供する。
本開示の第一の態様によれば、収集したハードディスクの各ステータスデータに基づいて、複数のハードディスクの中から故障寸前のハードディスクを選別するステップと、第1の所定期間内に収集した故障寸前のハードディスクの各ステータスデータのうち、各データの変化量及び離散量を計算して、第1の予測データセットを得るステップと、前記第1の予測データセットを第1の訓練モデルに入力して、今後第2の所定期間内に各ハードディスクに故障が発生する確率を得るステップであって、前記第1の訓練モデルは、第1の人工知能アルゴリズムによって第1の訓練データセットに基づいて訓練して得られ、前記第1の訓練データセットは、正のサンプルデータ及び負のサンプルデータを含み、故障ハードディスクに対応する変化量及び離散量は正のサンプルデータであり、非故障ハードディスクに対応する変化量及び離散量は負のサンプルデータであるステップとを含む、ハードディスク故障発生時期の予測方法を提供する。
本開示の第二の態様によれば、収集したハードディスクの各ステータスデータに基づいて、複数のハードディスクの中から故障寸前のハードディスクを選別するための選別モジュールと、第1の所定期間内に収集した故障寸前のハードディスクの各ステータスデータのうち、各データの変化量及び離散量を計算して、第1の予測データセットを得るための計算モジュールと、前記第1の予測データセットを第1の訓練モデルに入力して、今後第2の所定期間内に各ハードディスクに故障が発生する確率を得るための入力モジュールであって、前記第1の訓練モデルは、第1の人工知能アルゴリズムによって第1の訓練データセットに基づいて訓練して得られ、前記第1の訓練データセットは、正のサンプルデータ及び負のサンプルデータを含み、故障ハードディスクに対応する変化量及び離散量は正のサンプルデータであり、非故障ハードディスクに対応する変化量及び離散量は負のサンプルデータである入力モジュールとを含む、ハードディスク故障発生時期の予測装置を提供する。
本開示の第三の態様によれば、プロセッサと、プロセッサの実行可能命令を記憶するためのメモリとを含み、前記命令はプロセッサによって実行されると、収集したハードディスクの各ステータスデータに基づいて、複数のハードディスクの中から故障寸前のハードディスクを選別する操作と、第1の所定期間内に収集した故障寸前のハードディスクの各ステータスデータのうち、各データの変化量及び離散量を計算して、第1の予測データセットを得る操作と、前記第1の予測データセットを第1の訓練モデルに入力して、今後第2の所定期間内に各ハードディスクに故障が発生する確率を得る操作であって、前記第1の訓練モデルは、第1の人工知能アルゴリズムによって第1の訓練データセットに基づいて訓練して得られ、前記第1の訓練データセットは、正のサンプルデータ及び負のサンプルデータを含み、故障ハードディスクに対応する変化量及び離散量は正のサンプルデータであり、非故障ハードディスクに対応する変化量及び離散量は負のサンプルデータである操作とが実行される、ハードディスク故障発生時期の予測装置を提供する。
本開示の第四の態様によれば、記憶媒体中の命令がプロセッサによって実行されると、本開示の第一の態様に記載の方法をプロセッサに実行させる非一時的なコンピュータ読み取り可能な記憶媒体を提供する。
1つの例示的な実施例に係るハードディスク故障発生時期の予測方法のフローチャートである。 1つの例示的な実施例に係るハードディスク故障発生時期の予測方法のフローチャートである。 1つの例示的な実施例に係るハードディスク故障発生時期の予測方法のフローチャートである。 1つの例示的な実施例に係るハードディスク故障発生時期の予測装置のブロック図である。 1つの例示的な実施例に係るハードディスク故障発生時期の予測装置のブロック図である。
以下に本開示の実施例における図面を組み合わせ、本開示の実施例における技術的解決策を明確且つ完全に説明する。もちろん、記載された実施例は、本開示の実施例の一部であり、すべての実施例ではない。本開示の実施例に基づいて、創造的な作業なしに当業者によって得られた他のすべての実施例は、いずれも本開示の保護範囲に含まれるべきである。
図1は、1つの例示的な実施例に係るハードディスク故障発生時期の予測方法のフローチャートであり、図1に示すように、この方法はステップ101~ステップ103を含む。
ステップ101:収集したハードディスクの各ステータスデータに基づいて、複数のハードディスクの中から故障寸前のハードディスクを選別する。
本開示のハードディスク故障発生時期の予測方法の1つの例示的なシナリオにおいて、この方法は、SATA(Serial Advanced Technology Attachment、シリアルATAインターフェース仕様)インターフェースのハードディスクなど、データセンターの多数のハードディスクの故障予測に適用できる。上記ステップ101において、データセンターのすべてのハードディスクのステータスデータは、一定の時間間隔Nで収集されてもよく、Nの値は3時間であってもよく、ハードディスクのステータスデータを収集する収集ツールは、オープンソースツールキットsmartmontools、命令iostatのうちの1つであってもよい。連続した時期M内に収集したハードディスクのステータスデータは、生データセットとすることができ、Mの値は、たとえば60日間であってもよい。データセンターにg個のハードディスクがあると仮定すると、生データセットは合計g*M/N個のサンプルデータ(以下、サンプルとも呼ばれる)がある。本開示のハードディスク故障発生時期の予測方法では、最新のサンプルを提供するために、各ハードディスクのステータスデータを収集する操作を継続的に行ってもよい。
例を挙げると、データセンターに20,000個のハードディスクがあると仮定すると、一定期間内に収集したこの20,000個のハードディスクの各ステータスデータに基づいて、故障寸前のハードディスクが20個あると判定し、そのため、20,000個のハードディスクの中から、この故障寸前の20個のハードディスクを選別すると、この20個のハードディスクのみの故障時期を予測することができ、すなわち、上記ステップ101を実行した後に、ステップ101で選別された故障寸前のハードディスクに対してのみ、次のステップ102及びステップ103を実行することができ、これにより、故障時期予測を行うハードディスクの数を減らし、処理するデータ量を減らし、ハードディスクの故障時期予測の効率を大幅に向上させる。
1つの実施可能な形態では、ハードディスクのステータスデータは、ハードディスクのSMART(Self-Monitoring Analysis and Reporting Technology、自己監視、分析及び報告技術)情報及び/又はハードディスクのI/O(Input/Output、入力/出力)情報を含むことができる。ここで、前記SMART情報は、ハードディスクの再割り当てされたセクターの数、ハードウェアの修復不可能なエラーの数、ハードウェアECC(Error Correcting Code、エラーチェック・訂正)修復のエラーの数、元の読み取りエラー率、ヘッドシークエラー率、及びヘッドがディスクから離れすぎて書き込みに失敗した回数の少なくとも1つを含み、前記I/O情報は、少なくとも書き込みブロック数(blk_written)を含む。たとえば、ハードディスクのSMART情報は、#5(Reallocated Sector Count、ハードディスクの再割り当てされたセクターの数)、#187(Reported Uncorrectable Errors、ハードウェアの修復不可能なエラーの数)、及び#195(Hardware ECC Recovered、ハードウェアECC修復のエラーの数)の3つのエントリのNORMAL値を少なくとも含む。また、たとえば、ハードディスクのSMART情報は、#1(Raw Read Error Rate、元の読み取りエラー率)、#5(Reallocated Sector Count、ハードディスクの再割り当てされたセクターの数)、#7(Seek Error Rate、ヘッドシークエラー率)、#187(Reported Uncorrectable Errors、ハードウェアの修復不可能なエラーの数)、#189(High Fly Write、ヘッドがディスクから離れすぎて書き込みに失敗した回数)、及び#195(Hardware ECC Recovered、ハードウェアECC修復のエラーの数)の6つのエントリのNORMAL値を含み、また、I/O情報の1つのエントリを加えて、ハードディスクのステータスデータは、合計7つのエントリがある。
ステップ102:第1の所定期間内に収集した故障寸前のハードディスクの各ステータスデータのうち、各データの変化量及び離散量を計算して、第1の予測データセットを得る。
上記第1の所定期間がたとえば7日間である場合、ステップ102において、たとえば、直近7日間に収集したデータセンターの各ハードディスクの各ステータスデータのみが収集されてもよい。
ここで、第1の予測データセットは、ハードディスクの複数のステータスデータ(たとえば、上記7つのエントリに対応する7種類のステータスデータ)を含むことができ、各ステータスデータは、第1の所定期間内の異なる時間に収集した複数のデータをそれぞれ含み、第1の予測データセットは、ハードディスクの1つのステータスデータのみを含んでもよく、この場合、ステップ102において、第1の所定期間内に収集した故障寸前のハードディスクのこのようなステータスデータのうち各データの変化量及び離散量を直接計算してもよい。
上記離散量は、ハードディスクの1つのステータスデータと全体平均値との間の差を反映することができ、この離散量は分散又は標準偏差であってもよく、変化量は、第1の所定期間内におけるハードディスクの1つのステータスデータの変化の程度を反映することができる。
ステップ103:前記第1の予測データセットを第1の訓練モデルに入力して、今後第2の所定期間内に各ハードディスクに故障が発生する確率を得て、前記第1の訓練モデルは、第1の人工知能アルゴリズムによって第1の訓練データセットに基づいて訓練して得られ、前記第1の訓練データセットは、正のサンプルデータ及び負のサンプルデータを含み、故障ハードディスクに対応する変化量及び離散量は正のサンプルデータであり、非故障ハードディスクに対応する変化量及び離散量は負のサンプルデータである。
第1の所定期間は、第2の所定期間よりも大きくてもよく、又は両者は等しくてもよい。
故障が発生する前の一定期間内におけるハードディスクのステータスデータを、故障ハードディスクに対応するデータと判定する。故障が発生する前の一定期間以外のハードディスクのステータスデータを、非故障ハードディスクに対応するデータと判定するか、又はその部分のデータを直接削除する。故障していないハードディスクのステータスデータを、非故障ハードディスクに対応するデータと判定する。
上記第1の人工知能アルゴリズムは、論理回帰アルゴリズム、人工ニューラルネットワークアルゴリズム、ランダムフォレストアルゴリズムのうちの任意のアルゴリズムを含むことができ、たとえば、論理回帰アルゴリズムを用いて第1の訓練データセットを訓練して、第1の訓練モデルを得ることができる。
本開示の実施例によるハードディスク故障発生時期の予測方法は、第1の所定期間内に収集した故障寸前のハードディスクの各ステータスデータに基づいて、各ステータスデータの変化量及び離散量を算出することにより、第1の予測データセットを得て、この第1の予測データセットを第1の訓練モジュールに入力することにより、今後第2の所定期間内に各ハードディスクに故障が発生する確率も測定することができ、それによってハードディスク故障発生時期を予測する目的を達成できる。
一例では、故障寸前のハードディスクが存在する場合、上記ステップ102及びステップ103の実行をトリガーし、故障寸前のハードディスクがh個(h≦g)であると仮定すると、直近7日間(上記第1の所定期間の一例である)のこのh個のハードディスクのサンプルをマージし、それぞれ7つのエントリを有するサンプルをh個得て、各ハードディスクの直近7日間のサンプルの各エントリについて分散(上記離散量の一例)と変化量を求め、各サンプルには14個のエントリがあり、算出したこの分散及び変化量を第1の予測データセットとし、このh個のサンプルに対応する分散及び変化量を事前訓練して得られた第1の訓練モデルに1つずつ入力することで、各ハードディスクに今後7日間に故障が発生する確率を1つずつ得る。
h個の故障寸前のハードディスクについて、故障時期を1つずつ予測する過程には、次のことが含まれる。
{1番目の故障寸前のハードディスクについて、そのハードディスクに対応する分散及び変化量を第1の訓練モデルに入力し、それに今後7日間に故障が発生する確率をp_1として得る。
……(以上と同様に操作するので、これ以上言及しない)
h番目の故障寸前のハードディスクについて、そのハードディスクに対応する分散及び変化量を第1の訓練モデルに入力し、それに今後7日間に故障が発生する確率をp_hとして得る。
上記過程から得られたハードディスクに今後7日間に故障が発生する確率の結果を総合すると、あるハードディスクに今後7日間に故障が発生する確率が、50%~90%の範囲、たとえば、80%であり得る第1の閾値よりも大きい場合、このハードディスクに今後7日間に故障が発生すると考えられ、このハードディスクを交換アラームリストに追加する。保守担当者は、このハードディスク交換アラームリストに基づいてハードディスク交換処理操作を行う。ハードディスク交換処理操作は、たとえば、ハードディスクの故障確率の降順にハードディスク交換を行うなど、1つずつ行うことができる。ハードディスク交換処理操作を行う際に、故障ハードディスクのデータをすべて新たに追加されたハードディスクにコピーして、システムのハードディスクの数を一定に維持することができる。
Figure 0007158586000001
ハードディスクは使用中に徐々に劣化するので、一度に収集した1つのハードディスクのステータスデータのみをサンプルとしてハードディスクの故障を予測すると、ハードディスクの使用中に徐々に劣化する要因を無視することになる。したがって、本開示の実施例の方法は、ある期間(すなわち、上記第1の所定期間)内に収集した複数のサンプルに基づいて、ハードディスク故障発生の時期を予測することができる。たとえば、ハードディスクが徐々に劣化していく過程に、ハードディスク#187が大きく揺れていることがわかると、直近の一定の時間を、たとえば、直近14日間(上記第1の所定期間の一例である)のハードディスク#187のすべてのサンプルを抽出して、1つのサンプルにマージし、このサンプル内のデータの変化の程度(上記変化量及び離散量を含む)を判定し、この変化の程度に基づいて、ハードディスクに今後一定の期間、たとえば、今後5日間(上記第2の所定期間の一例)に故障が発生する確率を予測する。以下、図2を参照しながら、一定の期間内に収集したサンプルに基づいてハードディスク故障発生時期の予測方法を説明し、図2は、1つの例示的な実施例に係るハードディスク故障発生時期の予測方法のフローチャートであり、図2に示すように、該方法は、図1に示される方法に基づいて、ステップ201とステップ202をさらに含んでもよい。
ステップ201:前記第1の予測データセットを第1の訓練モデルに入力する前に、前記第1の所定期間内における前記各ハードディスクのステータスデータを1つのデータにマージし、そのデータ内の各データの離散量及び変化量を計算し、マージされたデータには、第1の所定期間内の異なる時間に収集したデータが含まれてもよい。
ハードディスクの異なる複数種類のステータスデータを毎回収集する場合、ステップ201において、第1の所定期間内に収集した各ハードディスクのステータスデータのうち、同じステータスデータに属するステータスデータを1つのステータスデータとしてマージするようにしてもよい。
ステップ202:前記各ハードディスクのうち、非故障ハードディスクの離散量及び変化量を負のサンプルデータとしてマークし、故障ハードディスクの離散量及び変化量を正のサンプルデータとしてマークし、前記第1の訓練データセットを得る。
ステップ201及びステップ202は、ステップ101及びステップ102の前に実行されてもよく、ステップ101及びステップ102の後に実行されてもよく、図2には、ステップ201がステップ101の前に実行される例示のみが示されている。
この第1の訓練データセットを取得した後、第1の人工知能アルゴリズムに基づいてこのデータセットを訓練すると、上記第1の訓練モデルを得ることができる。
1つの実施可能な形態では、収集したハードディスクの各ステータスデータに基づいて、複数のハードディスクの中から故障寸前のハードディスクを選別するステップは、収集した前記各ハードディスクの各ステータスデータ(以下、第2のテストデータセットともいう)を第2の訓練モデルに入力して、前記各ステータスデータに対応する、故障寸前カテゴリ及び正常カテゴリを含む分類結果を得るステップであって、前記第2の訓練モデルは、第2の人工知能アルゴリズムによって第2の訓練データセットに基づいて訓練して得られ、前記第2の訓練データセットは、正のサンプルデータ及び負のサンプルデータを含み、前記各ハードディスクのうち、非故障ハードディスクに対応するステータスデータは負のサンプルデータであり、故障ハードディスクに対応するステータスデータは正のサンプルデータであるステップと、得られた分類結果のうち、カテゴリが故障寸前である分類結果の総結果に対する割合が、たとえば80%である第2の閾値を超えるハードディスクを故障寸前ハードディスクと判定するステップとを含む。
以下、一例を挙げて、複数のハードディスクの中から故障寸前のハードディスクを選別する処理を説明する。この例では、上記g個のハードディスクによって3日間に各ハードディスクごとに生成された複数のサンプルを第2の予測データセットとして使用することができる。サンプル数が少なすぎると、ハードディスクの劣化ステータを効果的に収集することが困難になり、サンプル数が多すぎると、処理量が増大する。サンプル数は好ましくは20~40個、たとえば24個である。
g個のハードディスクのすべてについて、1つずつ予測する。
{1番目のハードディスクについて、サンプルごとに予測する。
{1番目のサンプルを第2の訓練モデルに入力し、分類結果を得る。
1番目のハードディスクの2番目のサンプルを第2の訓練モジュールに入力し、分類結果を得る。
……(以上と同様に操作するので、これ以上言及しない)
24番目のサンプルについて、第2の訓練モデルに入力し、分類結果を得る。
上記24個の分類結果を総合する。そのハードディスクのt個よりも多い分類結果のタイプが故障寸前である場合、予測結果としてそのハードディスクが故障寸前であると判定する。ここで、tの値の範囲は[12,22]であってもよく、たとえば、tの値は18であってもよい。そのハードディスクの故障寸前の分類結果がt個を超えない場合、そのハードディスクは正常なハードディスクであると判定する。
2番目のハードディスクについて、サンプルごとに予測する。
……(以上と同様に操作するので、これ以上言及しない)
g番目のハードディスクについて、サンプルごとに予測する。
上記例では、故障寸前のハードディスクを投票で判断し、データセンター内のハードディスクのうち故障寸前のハードディスクを選別できる。
上記過程で故障寸前と判断されたハードディスクを、故障寸前ハードディスクのリストに追加する。これにより、故障寸前のハードディスクが成功的に予測される。
第2の訓練データセットを訓練するための上記第2の人工知能アルゴリズムは、たとえば、サポートベクトルマシンアルゴリズム、ベイズアルゴリズム、勾配ブースティングマシンアルゴリズムのいずれかであってもよい。
1つの実施可能な形態では、第2の訓練データセットを取得するステップは、第1の所定周期、たとえば3時間で前記各ハードディスクのステータスデータを収集し、生データセットを得るステップと、前記生データセットの各ステータスデータをマークし、故障が発生する前の第3の所定期間内のハードディスクのステータスデータを正のサンプルデータとしてマークし、故障が発生する前の第3の所定期間以外のハードディスクのステータスデータを負のサンプルデータとしてマークするか、又は故障が発生する前の第3の所定期間以外のハードディスクのステータスデータを削除し、故障していないハードディスクに属するステータスデータを負のサンプルデータとしてマークし、上記第2の訓練データセットを得るステップとを含む。たとえば、生データセットのすべてのサンプルをマークし、つまり、正常なハードディスクの各サンプルを負のサンプルとしてマークし、故障前のK時期以内の故障ハードディスクのサンプルを正のサンプルとしてマークし、故障前のK時期前以外の故障ハードディスクのサンプルを負のサンプルとしてマークするか、廃棄する。Kの値は、たとえば7日間の値であり、最終的に第2の訓練データセットを形成する。
一例では、第1の訓練データセットを取得する過程は、上記生データセットを減少することを含み、各ハードディスクの直近7日間のサンプルのみを保持することができる。各ハードディスクのこの7日間のサンプルをそれぞれマージし、それぞれ7種類のステータスデータを有するサンプルをg個得て、各ステータスデータの離散量及び変化量をそれぞれ求める。最後に、正常なハードディスクの離散量及び変化量を負のサンプルとしてマークし、故障ハードディスクの離散量及び変化量を正のサンプルとしてマークし、第2の訓練データセットを形成する。1つの実施可能な形態では、本開示のハードディスク故障発生時期の予測方法は、新たに収集した各ハードディスクのステータスデータを用いて、前記生データセットの更新対象データを更新するステップであって、前記更新対象データは、前記生データセットのうち最も古い第3の所定期間内に収集した前記ステータスデータであるステップをさらに含む。たとえば、最も直近の前記第2の所定周期内に収集した前記ステータスデータを用いて、前記生データセットのうち最も古い前記第2の所定周期内に収集した前記ステータスデータを、第2の所定周期で周期的に置換し、ここで、第2の所定周期は、たとえば7日間であり、このため、本実施例では、直近7日間に収集したステータスデータを用いて、生データセットのうち最も古い7日間に収集したステータスデータを置換し、生データセットを更新することができる。
以下、データセンターに4,800個のハードディスクがある例を用いて、本開示のハードディスク故障発生時期の予測方法を説明する。この4,800個のハードディスクについて、3時間ごとにSMART情報の収集とIOの収集を行う。各ハードディスクについて収集するごとに1つのサンプルが形成される。60日目に収集が終了した時点で、合計2,304,000個のサンプルが生データセットとして生成される。データ収集中に合計70個の故障ハードディスクが発生したと仮定する。
4,730個の正常なハードディスクの合計2,270,400個のサンプルを負のサンプルとしてマークし、70個の故障ディスクの故障前の7日間の合計3,920個のサンプルを正のサンプルとしてマークし、残りのサンプルを廃棄して、第2の訓練データセットを得る。第2の訓練データセットに対してサポートベクトルマシンアルゴリズムを用いたモデル訓練を行い、第2の訓練モデルを得る。
ハードディスクごとに直近3日間で合計24個のサンプルを第2の訓練モデルに1つずつ入力すると、ハードディスクごとに24個の分類結果が得られる。1つのハードディスクについて故障寸前と判定された分類結果が18個を超える場合は、そのハードディスクが故障寸前とみなされ、故障寸前ハードディスクのリスクに追加され、合計23個のハードディスクがある。
4,800個のハードディスクの直近7日間のサンプルをマージし、各サンプルの各エントリについて7日間の分散と変化量を求める。合計4,800個のサンプルがあり、各サンプルには14個のエントリが含まれている。4,730個の正常なハードディスクのステータスデータを負のサンプルとしてマークし、70個の故障ハードディスクのステータスデータを正のサンプルとしてマークし、第1の訓練データセットを得る。第1の訓練データセットに対して論理回帰アルゴリズムを用いたモデル訓練を行い、第1の訓練モデルを得る。
故障寸前ハードディスクリストにある23個のハードディスクの直近7日間のサンプルをマージし、エントリごとに7日間の分散と変化量を求め、23個のサンプルを得る。23個のサンプルを1つずつ第1の訓練モデルに入力し、各ハードディスクに今後7日間に故障が発生する確率を1つずつ得る。ここで、ハードディスクのこの確率が80%より大きい場合、ハードディスクをハードディスク交換アラームリストに追加し、ハードディスク交換アラームリストに追加されたハードディスクが合計4個であると仮定する。この場合、保守担当者は、この4個のハードディスクについてハードディスク交換操作を行う。直近7日間に収集した各ハードディスクのステータスデータを生データセットに追加し、生データセットのうち最も古い7日間に検出されたステータスデータを置換する。
図3は、1つの例示的な実施例に係るハードディスク故障発生時期の予測装置のブロック図であり、図3に示すように、該装置30は、収集したハードディスクの各ステータスデータに基づいて、複数のハードディスクの中から故障寸前のハードディスクを選別するための選別モジュール31と、第1の所定期間内に収集した故障寸前のハードディスクの各ステータスデータのうち、各データの変化量及び離散量を計算して、第1の予測データセットを得るための計算モジュール32と、前記第1の予測データセットを第1の訓練モデルに入力して、今後第2の所定期間内に各ハードディスクに故障が発生する確率を得るための入力モジュール33であって、前記第1の訓練モデルは、第1の人工知能アルゴリズムによって第1の訓練データセットに基づいて訓練して得られ、前記第1の訓練データセットは、正のサンプルデータ及び負のサンプルデータを含み、故障ハードディスクに対応する変化量及び離散量は正のサンプルデータであり、非故障ハードディスクに対応する変化量及び離散量は負のサンプルデータである入力モジュール33とを含む。
1つの実施可能な形態では、前記選別モジュールは、収集した前記各ハードディスクの各ステータスデータを第2の訓練モデルに入力して、前記各ステータスデータに対応する、故障寸前カテゴリ及び正常カテゴリを含む分類結果を得るための入力ユニットであって、前記第2の訓練モデルは、第2の人工知能アルゴリズムによって第2の訓練データセットに基づいて訓練して得られ、前記第2の訓練データセットは、正のサンプルデータ及び負のサンプルデータを含み、前記各ハードディスクのうち、非故障ハードディスクに対応するステータスデータは負のサンプルデータであり、故障ハードディスクに対応するステータスデータは正のサンプルデータである入力ユニットと、得られた分類結果のうち、カテゴリが故障寸前である分類結果の総結果に対する割合が第2の閾値を超えるハードディスクを故障寸前ハードディスクと判定するための判定ユニットとを含む。
図4は、1つの例示的な実施例に係るハードディスク故障発生時期の予測装置のブロック図であり、図4に示すように、この装置は、図3に示す装置に基づいて、前記第1の予測データセットを第1の訓練モデルに入力する前に、前記第1の所定期間内における前記各ハードディスクのステータスデータを1つのデータにマージし、そのデータ内の各データの離散量及び変化量を計算するためのマージモジュール41と、前記各ハードディスクのうち、非故障ハードディスクの離散量及び変化量を負のサンプルデータとしてマークし、故障ハードディスクの離散量及び変化量を正のサンプルデータとしてマークし、前記第1の訓練データセットを得るための第1のマークモジュール42とをさらに含む。
1つの実施可能な形態では、前記ステータスデータは、ハードディスクのSMART情報及び/又はハードディスクのI/O情報を含むことができる。
1つの実施可能な形態では、前記SMART情報は、ハードディスクの再割り当てされたセクターの数、ハードウェアの修復不可能なエラーの数、ハードウェアのECCの修復のエラーの数、元の読み取りエラー率、ヘッドシークエラー率、及びヘッドがディスクから離れすぎて書き込みに失敗した回数のうちの少なくとも1つを含み、前記I/O情報は、少なくとも書き込みブロック数を含むことができる。
1つの実施可能な形態では、前記装置は、新たに収集した各ハードディスクのステータスデータを用いて、前記生データセットの更新対象データを更新するための更新モジュールであって、前記更新対象データは、前記生データセットのうち最も古い第3の所定期間内に収集した前記ステータスデータである更新モジュールをさらに含むことができる。
Figure 0007158586000002
図5は、1つの例示的な実施例に係るハードディスク故障発生時期の予測装置600のブロック図である。たとえば、装置600は、サーバとして提供されてもよい。図5を参照すると、装置600は、1つ又は複数のプロセッサ622と、プロセッサ622によって実行可能なコンピュータプログラムを記憶するためのメモリ632とを含む。メモリ632に記憶されたコンピュータプログラムは、命令セットにそれぞれ対応する1つ又は複数のモジュールを含むことができる。さらに、プロセッサ622は、上記ハードディスク故障発生時期の予測方法を実行するためにこのコンピュータプログラムを実行するように構成されてもよい。
また、装置600は、装置600の電源管理を実行するように構成される電源部品626と、装置600の通信、たとえば有線又は無線通信を可能にするように構成される通信部品650とを含むことができる。さらに、この装置600は、入力/出力(I/O)インターフェース658をさらに含むことができる。装置600は、メモリ632に記憶されたオペレーティングシステム(たとえば、Windows Server(登録商標)、Mac OS X(登録商標)、Unix(登録商標)、Linux(登録商標)など)に基づいて動作することができる。
別の例示的な実施例では、装置600のプロセッサ622によって実行されて、上記ハードディスク故障発生時期の予測方法を実現するプログラム命令を含むメモリ632など、プログラム命令を含む非一時的なコンピュータ読み取り可能な記憶媒体をさらに提供する。
本開示は、ハードディスク故障発生時期を予測することができる。本開示の有益な効果は以下の通りである。本開示の実施例によるハードディスク故障発生時期の予測方法は、第1の所定期間内に収集した故障寸前のハードディスクの各ステータスデータに基づいて、各ステータスデータの変化量及び離散量を算出することにより、第1の予測データセットを得て、この第1の予測データセットを第1の訓練モジュールに入力することにより、今後第2の所定期間内に各ハードディスクに故障が発生する確率も測定することができ、それによってハードディスク故障発生時期を予測する目的を達成できる。
例示のために、本開示の好ましい実施例を開示したが、当業者にとって、様々な改良、追加や置換も可能であり、したがって、本開示の範囲は上記実施例に限定されるものではない。

Claims (16)

  1. 予測装置によって実行されるハードディスク故障発生時期の予測方法であって、
    収集したハードディスクの各ステータスデータに基づいて、複数のハードディスクの中から故障寸前のハードディスクを選別するステップと、
    第1の所定期間内に収集した故障寸前のハードディスクの各ステータスデータのうち、各データの変化量及び離散量を計算して、第1の予測データセットを得るステップと、
    前記第1の予測データセットを第1の訓練モデルに入力して、今後第2の所定期間内に各ハードディスクに故障が発生する確率を得るステップであって、前記第1の訓練モデルは、第1の人工知能アルゴリズムによって第1の訓練データセットに基づいて訓練して得られ、前記第1の訓練データセットは、正のサンプルデータ及び負のサンプルデータを含み、故障ハードディスクに対応する変化量及び離散量は正のサンプルデータであり、非故障ハードディスクに対応する変化量及び離散量は負のサンプルデータであるステップとを含む、ことを特徴とする方法。
  2. 収集したハードディスクのステータスデータに基づいて、複数のハードディスクの中から故障寸前のハードディスクを選別するステップは、
    収集した前記各ハードディスクの各ステータスデータを第2の訓練モデルに入力して、前記各ステータスデータに対応する、故障寸前カテゴリ及び正常カテゴリを含む分類結果を得るステップであって、前記第2の訓練モデルは、第2の人工知能アルゴリズムによって第2の訓練データセットに基づいて訓練して得られ、前記第2の訓練データセットは、正のサンプルデータ及び負のサンプルデータを含み、前記各ハードディスクのうち、非故障ハードディスクに対応するステータスデータは負のサンプルデータであり、故障ハードディスクに対応するステータスデータは正のサンプルデータであるステップと、
    得られた分類結果のうち、カテゴリが故障寸前である分類結果の総結果に対する割合が第2の閾値を超えるハードディスクを故障寸前ハードディスクと判定するステップとを含む、ことを特徴とする請求項1に記載の方法。
  3. 前記ステータスデータは、ハードディスクのSMART情報及び/又はハードディスクの読み取り/書き込みI/O情報を含む、ことを特徴とする請求項1に記載の方法。
  4. 前記SMART情報は、ハードディスクの再割り当てされたセクターの数、ハードウェアの修復不可能なエラーの数、ハードウェアのエラーチェック・訂正ECCの修復のエラーの数、元の読み取りエラー率、ヘッドシークエラー率、及びヘッドがディスクから離れすぎて書き込みに失敗した回数のうちの少なくとも1つを含み、
    前記I/O情報は、少なくとも書き込みブロック数を含む、ことを特徴とする請求項3に記載の方法。
  5. 前記第1の予測データセットを第1の訓練モデルに入力する前に、前記第1の所定期間内における前記各ハードディスクのステータスデータを1つのデータにマージし、そのデータ内の各データの離散量及び変化量を計算するステップと、
    前記各ハードディスクのうち、非故障ハードディスクの離散量及び変化量を負のサンプルデータとしてマークし、故障ハードディスクの離散量及び変化量を正のサンプルデータとしてマークし、前記第1の訓練データセットを得るステップとをさらに含む、ことを特徴とする請求項1に記載の方法。
  6. 新たに収集した各ハードディスクのステータスデータを用いて、生データセットの更新対象データを更新するステップであって、前記更新対象データは、前記生データセットのうち最も古い第3の所定期間内に収集した前記ステータスデータであるステップをさらに含む、ことを特徴とする請求項1に記載の方法。
  7. 前記変化量は、以下の式のいずれかにより算出される、ことを特徴とする請求項1~6のいずれか1項に記載の方法。
    Figure 0007158586000003
  8. ハードディスク故障発生時期の予測装置であって、
    収集したハードディスクの各ステータスデータに基づいて、複数のハードディスクの中から故障寸前のハードディスクを選別するための選別モジュールと、
    第1の所定期間内に収集した故障寸前のハードディスクの各ステータスデータのうち、各データの変化量及び離散量を計算して、第1の予測データセットを得るための計算モジュールと、
    前記第1の予測データセットを第1の訓練モデルに入力して、今後第2の所定期間内に各ハードディスクに故障が発生する確率を得るための入力モジュールであって、前記第1の訓練モデルは、第1の人工知能アルゴリズムによって第1の訓練データセットに基づいて訓練して得られ、前記第1の訓練データセットは、正のサンプルデータ及び負のサンプルデータを含み、故障ハードディスクに対応する変化量及び離散量は正のサンプルデータであり、非故障ハードディスクに対応する変化量及び離散量は負のサンプルデータである入力モジュールとを含む、ことを特徴とするハードディスク故障発生時期の予測装置。
  9. 前記選別モジュールは、
    収集した前記各ハードディスクの各ステータスデータを第2の訓練モデルに入力して、前記各ステータスデータに対応する、故障寸前カテゴリ及び正常カテゴリを含む分類結果を得るための入力ユニットであって、前記第2の訓練モデルは、第2の人工知能アルゴリズムによって第2の訓練データセットに基づいて訓練して得られ、前記第2の訓練データセットは、正のサンプルデータ及び負のサンプルデータを含み、前記各ハードディスクのうち、非故障ハードディスクに対応するステータスデータは負のサンプルデータであり、故障ハードディスクに対応するステータスデータは正のサンプルデータである入力ユニットと、
    得られた分類結果のうち、カテゴリが故障寸前である分類結果の総結果に対する割合が第2の閾値を超えるハードディスクを故障寸前ハードディスクと判定するための判定ユニットとを含む、ことを特徴とする請求項8に記載の装置。
  10. 前記ステータスデータは、ハードディスクのSMART情報及び/又はハードディスクの読み取り/書き込みI/O情報を含む、ことを特徴とする請求項8に記載の装置。
  11. 前記SMART情報は、ハードディスクの再割り当てされたセクターの数、ハードウェアの修復不可能なエラーの数、ハードウェアのエラーチェック・訂正ECCの修復のエラーの数、元の読み取りエラー率、ヘッドシークエラー率、及びヘッドがディスクから離れすぎて書き込みに失敗した回数のうちの少なくとも1つを含み、
    前記I/O情報は、少なくとも書き込みブロック数を含む、ことを特徴とする請求項10に記載の装置。
  12. 前記第1の予測データセットを第1の訓練モデルに入力する前に、前記第1の所定期間内における前記各ハードディスクのステータスデータを1つのデータにマージし、そのデータ内の各データの離散量及び変化量を計算するためのマージモジュールと、
    前記各ハードディスクのうち、非故障ハードディスクの離散量及び変化量を負のサンプルデータとしてマークし、故障ハードディスクの離散量及び変化量を正のサンプルデータとしてマークし、前記第1の訓練データセットを得るための第1のマークモジュールとをさらに含む、ことを特徴とする請求項8に記載の装置。
  13. 新たに収集した各ハードディスクのステータスデータを用いて、生データセットの更新対象データを更新するための更新モジュールであって、前記更新対象データは、前記生データセットのうち最も古い第3の所定期間内に収集した前記ステータスデータである更新モジュールをさらに含む、ことを特徴とする請求項8に記載の装置。
  14. 前記変化量は、以下の式のいずれかにより算出される、ことを特徴とする請求項8~13のいずれか1項に記載の装置。
    Figure 0007158586000004
  15. プロセッサと、
    プロセッサの実行可能命令を記憶するためのメモリとを含み、
    前記命令はプロセッサによって実行されると、
    収集したハードディスクの各ステータスデータに基づいて、複数のハードディスクの中から故障寸前のハードディスクを選別する操作と、
    第1の所定期間内に収集した故障寸前のハードディスクの各ステータスデータのうち、各データの変化量及び離散量を計算して、第1の予測データセットを得る操作と、
    前記第1の予測データセットを第1の訓練モデルに入力して、今後第2の所定期間内に各ハードディスクに故障が発生する確率を得る操作であって、前記第1の訓練モデルは、第1の人工知能アルゴリズムによって第1の訓練データセットに基づいて訓練して得られ、前記第1の訓練データセットは、正のサンプルデータ及び負のサンプルデータを含み、故障ハードディスクに対応する変化量及び離散量は正のサンプルデータであり、非故障ハードディスクに対応する変化量及び離散量は負のサンプルデータである操作とが実行される、ことを特徴とするハードディスク故障発生時期の予測装置。
  16. 記憶媒体中の命令がプロセッサによって実行されると、請求項1~7のいずれか1項に記載の方法をプロセッサに実行させる非一時的なコンピュータ読み取り可能な記憶媒体。
JP2021531832A 2018-12-05 2019-11-28 ハードディスク故障発生時期の予測方法、装置及び記憶媒体 Active JP7158586B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201811484874.3 2018-12-05
CN201811484874.3A CN109828869B (zh) 2018-12-05 2018-12-05 预测硬盘故障发生时间的方法、装置及存储介质
PCT/CN2019/121647 WO2020114313A1 (zh) 2018-12-05 2019-11-28 预测硬盘故障发生时间的方法、装置及存储介质

Publications (2)

Publication Number Publication Date
JP2022508320A JP2022508320A (ja) 2022-01-19
JP7158586B2 true JP7158586B2 (ja) 2022-10-21

Family

ID=66858675

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021531832A Active JP7158586B2 (ja) 2018-12-05 2019-11-28 ハードディスク故障発生時期の予測方法、装置及び記憶媒体

Country Status (5)

Country Link
US (1) US11656943B2 (ja)
EP (1) EP3879405A4 (ja)
JP (1) JP7158586B2 (ja)
CN (1) CN109828869B (ja)
WO (1) WO2020114313A1 (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109828869B (zh) * 2018-12-05 2020-12-04 南京中兴软件有限责任公司 预测硬盘故障发生时间的方法、装置及存储介质
CN110413227B (zh) * 2019-06-22 2021-06-11 华中科技大学 一种硬盘设备的剩余使用寿命在线预测方法和系统
CN111008119A (zh) * 2019-12-13 2020-04-14 浪潮电子信息产业股份有限公司 一种硬盘预测模型的更新方法、装置、设备及介质
US10733512B1 (en) * 2019-12-17 2020-08-04 SparkCognition, Inc. Cooperative use of a genetic algorithm and an optimization trainer for autoencoder generation
CN111414286B (zh) * 2020-03-06 2021-11-09 同济大学 一种基于深度学习的不平衡硬盘数据的故障诊断方法
CN111858108B (zh) * 2020-06-23 2024-05-10 新华三技术有限公司 一种硬盘故障预测方法、装置、电子设备和存储介质
CN111858283A (zh) * 2020-07-24 2020-10-30 山东海量信息技术研究院 一种边缘数据中心的硬盘故障预处理方法及相关组件
CN114595085A (zh) * 2020-12-03 2022-06-07 中兴通讯股份有限公司 磁盘失效预测方法、预测模型训练方法、电子设备
CN112737834A (zh) * 2020-12-25 2021-04-30 北京浪潮数据技术有限公司 一种云硬盘故障预测方法、装置、设备及存储介质
CN113295635A (zh) * 2021-05-27 2021-08-24 河北先河环保科技股份有限公司 一种基于动态更新数据集的水质污染报警方法
CN113688564B (zh) * 2021-07-30 2024-02-27 济南浪潮数据技术有限公司 一种预测ssd硬盘剩余寿命的方法、装置、终端及存储介质
CN113590406A (zh) * 2021-08-16 2021-11-02 湖南博匠信息科技有限公司 一种基于电变量进行固态硬盘故障检测的方法及系统
CN115687038B (zh) * 2022-08-23 2023-09-26 江苏臻云技术有限公司 一种基于大数据的硬盘故障预测系统及方法
CN116701150B (zh) * 2023-06-19 2024-01-16 深圳市银闪科技有限公司 一种基于物联网的存储数据安全监管系统及方法
CN116610484B (zh) * 2023-07-19 2023-11-03 苏州浪潮智能科技有限公司 一种模型训练方法、故障预测方法、系统、设备以及介质
CN117170998B (zh) * 2023-11-03 2024-03-01 凌雄技术(深圳)有限公司 一种智能化设备生命周期管理系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104503874A (zh) 2014-12-29 2015-04-08 南京大学 一种云计算平台的硬盘故障预测方法
JP2015184823A (ja) 2014-03-20 2015-10-22 株式会社東芝 モデルパラメータ算出装置、モデルパラメータ算出方法およびコンピュータプログラム
US20160232450A1 (en) 2015-02-05 2016-08-11 Wistron Corporation Storage device lifetime monitoring system and storage device lifetime monitoring method thereof
CN108446734A (zh) 2018-03-20 2018-08-24 中科边缘智慧信息科技(苏州)有限公司 基于人工智能的磁盘故障自动预测方法
CN108647136A (zh) 2018-05-10 2018-10-12 南京道熵信息技术有限公司 基于smart信息和深度学习的硬盘损坏预测方法及装置
JP2019053474A (ja) 2017-09-14 2019-04-04 先智雲端數據股▲分▼有限公司ProphetStor Data Services, Inc. クラウドベースサービスのデータ保護方法
CN109828869A (zh) 2018-12-05 2019-05-31 中兴通讯股份有限公司 预测硬盘故障发生时间的方法、装置及存储介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105260279B (zh) * 2015-11-04 2019-01-01 四川效率源信息安全技术股份有限公司 基于smart数据动态诊断硬盘故障的方法和装置
CN107025153B (zh) * 2016-01-29 2021-02-12 阿里巴巴集团控股有限公司 磁盘的故障预测方法和装置
US10191668B1 (en) * 2016-06-27 2019-01-29 EMC IP Holding Company LLC Method for dynamically modeling medium error evolution to predict disk failure
US10310749B2 (en) * 2016-09-16 2019-06-04 Netscout Systems Texas, Llc System and method for predicting disk failure
US10216558B1 (en) * 2016-09-30 2019-02-26 EMC IP Holding Company LLC Predicting drive failures
CN108073486B (zh) * 2017-12-28 2022-05-10 新华三大数据技术有限公司 一种硬盘故障的预测方法和装置
CN108228377B (zh) * 2017-12-29 2020-07-07 华中科技大学 一种面向磁盘故障检测的smart阈值优化方法
CN109491850A (zh) 2018-11-21 2019-03-19 北京北信源软件股份有限公司 一种磁盘故障预测方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015184823A (ja) 2014-03-20 2015-10-22 株式会社東芝 モデルパラメータ算出装置、モデルパラメータ算出方法およびコンピュータプログラム
CN104503874A (zh) 2014-12-29 2015-04-08 南京大学 一种云计算平台的硬盘故障预测方法
US20160232450A1 (en) 2015-02-05 2016-08-11 Wistron Corporation Storage device lifetime monitoring system and storage device lifetime monitoring method thereof
JP2019053474A (ja) 2017-09-14 2019-04-04 先智雲端數據股▲分▼有限公司ProphetStor Data Services, Inc. クラウドベースサービスのデータ保護方法
CN108446734A (zh) 2018-03-20 2018-08-24 中科边缘智慧信息科技(苏州)有限公司 基于人工智能的磁盘故障自动预测方法
CN108647136A (zh) 2018-05-10 2018-10-12 南京道熵信息技术有限公司 基于smart信息和深度学习的硬盘损坏预测方法及装置
CN109828869A (zh) 2018-12-05 2019-05-31 中兴通讯股份有限公司 预测硬盘故障发生时间的方法、装置及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SHEN, Jing et al,Random-forest-based failure prediction for hard disk drives,International journal of Distributed Sensor Networks,SAGE,2018年11月06日,vol. 14, no. 11,pp.1-15

Also Published As

Publication number Publication date
US11656943B2 (en) 2023-05-23
WO2020114313A1 (zh) 2020-06-11
US20220206898A1 (en) 2022-06-30
EP3879405A1 (en) 2021-09-15
CN109828869B (zh) 2020-12-04
CN109828869A (zh) 2019-05-31
EP3879405A4 (en) 2022-01-19
JP2022508320A (ja) 2022-01-19

Similar Documents

Publication Publication Date Title
JP7158586B2 (ja) ハードディスク故障発生時期の予測方法、装置及び記憶媒体
US7814057B2 (en) Page recovery using volume snapshots and logs
US10157105B2 (en) Method for data protection for cloud-based service system
US20200293200A1 (en) Method for operating storage drives, and system thereof
CN110413227B (zh) 一种硬盘设备的剩余使用寿命在线预测方法和系统
Soualhia et al. Infrastructure fault detection and prediction in edge cloud environments
Levy et al. Lessons learned from memory errors observed over the lifetime of Cielo
KR101948634B1 (ko) 스마트 컴퓨팅을 위한 시스템 자원의 장애 예측 방법
US11734103B2 (en) Behavior-driven die management on solid-state drives
Han et al. Toward adaptive disk failure prediction via stream mining
KR20210108874A (ko) 기계 학습을 사용하여 스토리지 장치 장애를 예측하는 시스템 및 장치
Frank et al. Reducing false node failure predictions in HPC
Li et al. From correctable memory errors to uncorrectable memory errors: What error bits tell
CN113778766B (zh) 基于多维特征的硬盘故障预测模型建立方法及其应用
Zhou et al. A disk failure prediction method based on active semi-supervised learning
Taherin et al. Examining failures and repairs on supercomputers with multi-GPU compute nodes
US20180137024A1 (en) Non-intrusive performance monitor and service engine
JP6666489B1 (ja) 障害予兆検知システム
JP7273669B2 (ja) ストレージシステム及びその制御方法
CN113342651A (zh) 一种用于测试用例缺陷与用例模糊关联关系的恢复方法
US8780471B2 (en) Linking errors to particular tapes or particular tape drives
US20210081130A1 (en) Method, device, and product for managing scrubbing operation in storage system
US20240126445A1 (en) Re-allocation of disks based on disk health prior to restore
US20240037014A1 (en) Prediction of an anomaly of a resource for programming a checkpoint
US20230008268A1 (en) Extrapolated usage data

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210603

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20211116

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220301

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220531

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220614

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220831

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220913

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221011

R150 Certificate of patent or registration of utility model

Ref document number: 7158586

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150