JP7158586B2

JP7158586B2 - ハードディスク故障発生時期の予測方法、装置及び記憶媒体

Info

Publication number: JP7158586B2
Application number: JP2021531832A
Authority: JP
Inventors: 洪章楊; 要峰屠; 雅輝楊; 忠良李; 斌郭
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2018-12-05
Filing date: 2019-11-28
Publication date: 2022-10-21
Anticipated expiration: 2039-11-28
Also published as: US11656943B2; WO2020114313A1; US20220206898A1; EP3879405A1; CN109828869B; CN109828869A; EP3879405A4; JP2022508320A

Description

本開示は、２０１８年１２月０５日に提出された、発明の名称が「ハードディスク故障発生時期の予測方法、装置及び記憶媒体」である中国特許出願ＣＮ２０１８１１４８４８７４．３の優先権を主張し、その全内容が引用により本明細書に組み込まれている。

本開示は、コンピュータ技術の分野に関し、特に、ハードディスク故障発生時期の予測方法、装置、及び記憶媒体に関する。

国内外の統計資料によると、ハードディスクは現在のデータセンターで最も主要な故障発生源である。関連報告では、「４,０００ノードを備えたデータセンターでは、平均して６時間ごとに１個のハードディスクに故障が発生している」と指摘されている。ハードディスクの故障がそれほど頻繁に発生すると、業務の中断やデータロスなどの重大な結果を招く。ハードディスク故障の発生を事前に予測することができれば、データセンターの運営に大きな利便性をもたらす。現在、関連技術では、ハードディスク故障予測技術は、検出率の向上だけを追求しているため、誤検出率が高くなり、多くの正常なハードディスクが故障ハードディスクと誤判定されてしまう。また、関連するハードディスク故障予測技術は、ハードディスクに故障が発生するか否かのみを予測することができ、故障が発生する可能性のある時期を予測することができないため、予測された故障が実際の故障から長い（短い場合は１～２週間、長い場合は１～２ヶ月）ため、ハードディスクのライフサイクルが無駄になり、ディスク交換を効果的に指示することができない。また、ハードディスクの故障を予測する際には、処理データ量が多いこと、プロセッサの処理能力が限られていることなどの理由により、予測結果を得るのに長い時間（短い場合は十数分、長い場合は数時間）を要し、このため、ハードディスクの故障予測効率が低い。

本開示は、ハードディスク故障発生時期を予測できないという関連技術の問題を解決するために、ハードディスク故障発生時期の予測方法、装置及び記憶媒体を提供する。

本開示の第一の態様によれば、収集したハードディスクの各ステータスデータに基づいて、複数のハードディスクの中から故障寸前のハードディスクを選別するステップと、第１の所定期間内に収集した故障寸前のハードディスクの各ステータスデータのうち、各データの変化量及び離散量を計算して、第１の予測データセットを得るステップと、前記第１の予測データセットを第１の訓練モデルに入力して、今後第２の所定期間内に各ハードディスクに故障が発生する確率を得るステップであって、前記第１の訓練モデルは、第１の人工知能アルゴリズムによって第１の訓練データセットに基づいて訓練して得られ、前記第１の訓練データセットは、正のサンプルデータ及び負のサンプルデータを含み、故障ハードディスクに対応する変化量及び離散量は正のサンプルデータであり、非故障ハードディスクに対応する変化量及び離散量は負のサンプルデータであるステップとを含む、ハードディスク故障発生時期の予測方法を提供する。

本開示の第二の態様によれば、収集したハードディスクの各ステータスデータに基づいて、複数のハードディスクの中から故障寸前のハードディスクを選別するための選別モジュールと、第１の所定期間内に収集した故障寸前のハードディスクの各ステータスデータのうち、各データの変化量及び離散量を計算して、第１の予測データセットを得るための計算モジュールと、前記第１の予測データセットを第１の訓練モデルに入力して、今後第２の所定期間内に各ハードディスクに故障が発生する確率を得るための入力モジュールであって、前記第１の訓練モデルは、第１の人工知能アルゴリズムによって第１の訓練データセットに基づいて訓練して得られ、前記第１の訓練データセットは、正のサンプルデータ及び負のサンプルデータを含み、故障ハードディスクに対応する変化量及び離散量は正のサンプルデータであり、非故障ハードディスクに対応する変化量及び離散量は負のサンプルデータである入力モジュールとを含む、ハードディスク故障発生時期の予測装置を提供する。

本開示の第三の態様によれば、プロセッサと、プロセッサの実行可能命令を記憶するためのメモリとを含み、前記命令はプロセッサによって実行されると、収集したハードディスクの各ステータスデータに基づいて、複数のハードディスクの中から故障寸前のハードディスクを選別する操作と、第１の所定期間内に収集した故障寸前のハードディスクの各ステータスデータのうち、各データの変化量及び離散量を計算して、第１の予測データセットを得る操作と、前記第１の予測データセットを第１の訓練モデルに入力して、今後第２の所定期間内に各ハードディスクに故障が発生する確率を得る操作であって、前記第１の訓練モデルは、第１の人工知能アルゴリズムによって第１の訓練データセットに基づいて訓練して得られ、前記第１の訓練データセットは、正のサンプルデータ及び負のサンプルデータを含み、故障ハードディスクに対応する変化量及び離散量は正のサンプルデータであり、非故障ハードディスクに対応する変化量及び離散量は負のサンプルデータである操作とが実行される、ハードディスク故障発生時期の予測装置を提供する。

本開示の第四の態様によれば、記憶媒体中の命令がプロセッサによって実行されると、本開示の第一の態様に記載の方法をプロセッサに実行させる非一時的なコンピュータ読み取り可能な記憶媒体を提供する。

１つの例示的な実施例に係るハードディスク故障発生時期の予測方法のフローチャートである。１つの例示的な実施例に係るハードディスク故障発生時期の予測方法のフローチャートである。１つの例示的な実施例に係るハードディスク故障発生時期の予測方法のフローチャートである。１つの例示的な実施例に係るハードディスク故障発生時期の予測装置のブロック図である。１つの例示的な実施例に係るハードディスク故障発生時期の予測装置のブロック図である。

以下に本開示の実施例における図面を組み合わせ、本開示の実施例における技術的解決策を明確且つ完全に説明する。もちろん、記載された実施例は、本開示の実施例の一部であり、すべての実施例ではない。本開示の実施例に基づいて、創造的な作業なしに当業者によって得られた他のすべての実施例は、いずれも本開示の保護範囲に含まれるべきである。

図１は、１つの例示的な実施例に係るハードディスク故障発生時期の予測方法のフローチャートであり、図１に示すように、この方法はステップ１０１～ステップ１０３を含む。

ステップ１０１：収集したハードディスクの各ステータスデータに基づいて、複数のハードディスクの中から故障寸前のハードディスクを選別する。

本開示のハードディスク故障発生時期の予測方法の１つの例示的なシナリオにおいて、この方法は、ＳＡＴＡ（ＳｅｒｉａｌＡｄｖａｎｃｅｄＴｅｃｈｎｏｌｏｇｙＡｔｔａｃｈｍｅｎｔ、シリアルＡＴＡインターフェース仕様）インターフェースのハードディスクなど、データセンターの多数のハードディスクの故障予測に適用できる。上記ステップ１０１において、データセンターのすべてのハードディスクのステータスデータは、一定の時間間隔Ｎで収集されてもよく、Ｎの値は３時間であってもよく、ハードディスクのステータスデータを収集する収集ツールは、オープンソースツールキットｓｍａｒｔｍｏｎｔｏｏｌｓ、命令ｉｏｓｔａｔのうちの１つであってもよい。連続した時期Ｍ内に収集したハードディスクのステータスデータは、生データセットとすることができ、Ｍの値は、たとえば６０日間であってもよい。データセンターにｇ個のハードディスクがあると仮定すると、生データセットは合計ｇ＊Ｍ／Ｎ個のサンプルデータ（以下、サンプルとも呼ばれる）がある。本開示のハードディスク故障発生時期の予測方法では、最新のサンプルを提供するために、各ハードディスクのステータスデータを収集する操作を継続的に行ってもよい。

例を挙げると、データセンターに２０,０００個のハードディスクがあると仮定すると、一定期間内に収集したこの２０,０００個のハードディスクの各ステータスデータに基づいて、故障寸前のハードディスクが２０個あると判定し、そのため、２０,０００個のハードディスクの中から、この故障寸前の２０個のハードディスクを選別すると、この２０個のハードディスクのみの故障時期を予測することができ、すなわち、上記ステップ１０１を実行した後に、ステップ１０１で選別された故障寸前のハードディスクに対してのみ、次のステップ１０２及びステップ１０３を実行することができ、これにより、故障時期予測を行うハードディスクの数を減らし、処理するデータ量を減らし、ハードディスクの故障時期予測の効率を大幅に向上させる。

１つの実施可能な形態では、ハードディスクのステータスデータは、ハードディスクのＳＭＡＲＴ（Ｓｅｌｆ－ＭｏｎｉｔｏｒｉｎｇＡｎａｌｙｓｉｓａｎｄＲｅｐｏｒｔｉｎｇＴｅｃｈｎｏｌｏｇｙ、自己監視、分析及び報告技術）情報及び／又はハードディスクのＩ／Ｏ（Ｉｎｐｕｔ／Ｏｕｔｐｕｔ、入力／出力）情報を含むことができる。ここで、前記ＳＭＡＲＴ情報は、ハードディスクの再割り当てされたセクターの数、ハードウェアの修復不可能なエラーの数、ハードウェアＥＣＣ（ＥｒｒｏｒＣｏｒｒｅｃｔｉｎｇＣｏｄｅ、エラーチェック・訂正）修復のエラーの数、元の読み取りエラー率、ヘッドシークエラー率、及びヘッドがディスクから離れすぎて書き込みに失敗した回数の少なくとも１つを含み、前記Ｉ／Ｏ情報は、少なくとも書き込みブロック数（ｂｌｋ＿ｗｒｉｔｔｅｎ）を含む。たとえば、ハードディスクのＳＭＡＲＴ情報は、＃５（ＲｅａｌｌｏｃａｔｅｄＳｅｃｔｏｒＣｏｕｎｔ、ハードディスクの再割り当てされたセクターの数）、＃１８７（ＲｅｐｏｒｔｅｄＵｎｃｏｒｒｅｃｔａｂｌｅＥｒｒｏｒｓ、ハードウェアの修復不可能なエラーの数）、及び＃１９５（ＨａｒｄｗａｒｅＥＣＣＲｅｃｏｖｅｒｅｄ、ハードウェアＥＣＣ修復のエラーの数）の３つのエントリのＮＯＲＭＡＬ値を少なくとも含む。また、たとえば、ハードディスクのＳＭＡＲＴ情報は、＃１（ＲａｗＲｅａｄＥｒｒｏｒＲａｔｅ、元の読み取りエラー率）、＃５（ＲｅａｌｌｏｃａｔｅｄＳｅｃｔｏｒＣｏｕｎｔ、ハードディスクの再割り当てされたセクターの数）、＃７（ＳｅｅｋＥｒｒｏｒＲａｔｅ、ヘッドシークエラー率）、＃１８７（ＲｅｐｏｒｔｅｄＵｎｃｏｒｒｅｃｔａｂｌｅＥｒｒｏｒｓ、ハードウェアの修復不可能なエラーの数）、＃１８９（ＨｉｇｈＦｌｙＷｒｉｔｅ、ヘッドがディスクから離れすぎて書き込みに失敗した回数）、及び＃１９５（ＨａｒｄｗａｒｅＥＣＣＲｅｃｏｖｅｒｅｄ、ハードウェアＥＣＣ修復のエラーの数）の６つのエントリのＮＯＲＭＡＬ値を含み、また、Ｉ／Ｏ情報の１つのエントリを加えて、ハードディスクのステータスデータは、合計７つのエントリがある。

ステップ１０２：第１の所定期間内に収集した故障寸前のハードディスクの各ステータスデータのうち、各データの変化量及び離散量を計算して、第１の予測データセットを得る。

上記第１の所定期間がたとえば７日間である場合、ステップ１０２において、たとえば、直近７日間に収集したデータセンターの各ハードディスクの各ステータスデータのみが収集されてもよい。

ここで、第１の予測データセットは、ハードディスクの複数のステータスデータ（たとえば、上記７つのエントリに対応する７種類のステータスデータ）を含むことができ、各ステータスデータは、第１の所定期間内の異なる時間に収集した複数のデータをそれぞれ含み、第１の予測データセットは、ハードディスクの１つのステータスデータのみを含んでもよく、この場合、ステップ１０２において、第１の所定期間内に収集した故障寸前のハードディスクのこのようなステータスデータのうち各データの変化量及び離散量を直接計算してもよい。

上記離散量は、ハードディスクの１つのステータスデータと全体平均値との間の差を反映することができ、この離散量は分散又は標準偏差であってもよく、変化量は、第１の所定期間内におけるハードディスクの１つのステータスデータの変化の程度を反映することができる。

ステップ１０３：前記第１の予測データセットを第１の訓練モデルに入力して、今後第２の所定期間内に各ハードディスクに故障が発生する確率を得て、前記第１の訓練モデルは、第１の人工知能アルゴリズムによって第１の訓練データセットに基づいて訓練して得られ、前記第１の訓練データセットは、正のサンプルデータ及び負のサンプルデータを含み、故障ハードディスクに対応する変化量及び離散量は正のサンプルデータであり、非故障ハードディスクに対応する変化量及び離散量は負のサンプルデータである。

第１の所定期間は、第２の所定期間よりも大きくてもよく、又は両者は等しくてもよい。

故障が発生する前の一定期間内におけるハードディスクのステータスデータを、故障ハードディスクに対応するデータと判定する。故障が発生する前の一定期間以外のハードディスクのステータスデータを、非故障ハードディスクに対応するデータと判定するか、又はその部分のデータを直接削除する。故障していないハードディスクのステータスデータを、非故障ハードディスクに対応するデータと判定する。

上記第１の人工知能アルゴリズムは、論理回帰アルゴリズム、人工ニューラルネットワークアルゴリズム、ランダムフォレストアルゴリズムのうちの任意のアルゴリズムを含むことができ、たとえば、論理回帰アルゴリズムを用いて第１の訓練データセットを訓練して、第１の訓練モデルを得ることができる。

本開示の実施例によるハードディスク故障発生時期の予測方法は、第１の所定期間内に収集した故障寸前のハードディスクの各ステータスデータに基づいて、各ステータスデータの変化量及び離散量を算出することにより、第１の予測データセットを得て、この第１の予測データセットを第１の訓練モジュールに入力することにより、今後第２の所定期間内に各ハードディスクに故障が発生する確率も測定することができ、それによってハードディスク故障発生時期を予測する目的を達成できる。

一例では、故障寸前のハードディスクが存在する場合、上記ステップ１０２及びステップ１０３の実行をトリガーし、故障寸前のハードディスクがｈ個（ｈ≦ｇ）であると仮定すると、直近７日間（上記第１の所定期間の一例である）のこのｈ個のハードディスクのサンプルをマージし、それぞれ７つのエントリを有するサンプルをｈ個得て、各ハードディスクの直近７日間のサンプルの各エントリについて分散（上記離散量の一例）と変化量を求め、各サンプルには１４個のエントリがあり、算出したこの分散及び変化量を第１の予測データセットとし、このｈ個のサンプルに対応する分散及び変化量を事前訓練して得られた第１の訓練モデルに１つずつ入力することで、各ハードディスクに今後７日間に故障が発生する確率を１つずつ得る。

ｈ個の故障寸前のハードディスクについて、故障時期を１つずつ予測する過程には、次のことが含まれる。

｛１番目の故障寸前のハードディスクについて、そのハードディスクに対応する分散及び変化量を第１の訓練モデルに入力し、それに今後７日間に故障が発生する確率をｐ＿１として得る。

……（以上と同様に操作するので、これ以上言及しない）
ｈ番目の故障寸前のハードディスクについて、そのハードディスクに対応する分散及び変化量を第１の訓練モデルに入力し、それに今後７日間に故障が発生する確率をｐ＿ｈとして得る。

上記過程から得られたハードディスクに今後７日間に故障が発生する確率の結果を総合すると、あるハードディスクに今後７日間に故障が発生する確率が、５０％～９０％の範囲、たとえば、８０％であり得る第１の閾値よりも大きい場合、このハードディスクに今後７日間に故障が発生すると考えられ、このハードディスクを交換アラームリストに追加する。保守担当者は、このハードディスク交換アラームリストに基づいてハードディスク交換処理操作を行う。ハードディスク交換処理操作は、たとえば、ハードディスクの故障確率の降順にハードディスク交換を行うなど、１つずつ行うことができる。ハードディスク交換処理操作を行う際に、故障ハードディスクのデータをすべて新たに追加されたハードディスクにコピーして、システムのハードディスクの数を一定に維持することができる。

ハードディスクは使用中に徐々に劣化するので、一度に収集した１つのハードディスクのステータスデータのみをサンプルとしてハードディスクの故障を予測すると、ハードディスクの使用中に徐々に劣化する要因を無視することになる。したがって、本開示の実施例の方法は、ある期間（すなわち、上記第１の所定期間）内に収集した複数のサンプルに基づいて、ハードディスク故障発生の時期を予測することができる。たとえば、ハードディスクが徐々に劣化していく過程に、ハードディスク＃１８７が大きく揺れていることがわかると、直近の一定の時間を、たとえば、直近１４日間（上記第１の所定期間の一例である）のハードディスク＃１８７のすべてのサンプルを抽出して、１つのサンプルにマージし、このサンプル内のデータの変化の程度（上記変化量及び離散量を含む）を判定し、この変化の程度に基づいて、ハードディスクに今後一定の期間、たとえば、今後５日間（上記第２の所定期間の一例）に故障が発生する確率を予測する。以下、図２を参照しながら、一定の期間内に収集したサンプルに基づいてハードディスク故障発生時期の予測方法を説明し、図２は、１つの例示的な実施例に係るハードディスク故障発生時期の予測方法のフローチャートであり、図２に示すように、該方法は、図１に示される方法に基づいて、ステップ２０１とステップ２０２をさらに含んでもよい。

ステップ２０１：前記第１の予測データセットを第１の訓練モデルに入力する前に、前記第１の所定期間内における前記各ハードディスクのステータスデータを１つのデータにマージし、そのデータ内の各データの離散量及び変化量を計算し、マージされたデータには、第１の所定期間内の異なる時間に収集したデータが含まれてもよい。

ハードディスクの異なる複数種類のステータスデータを毎回収集する場合、ステップ２０１において、第１の所定期間内に収集した各ハードディスクのステータスデータのうち、同じステータスデータに属するステータスデータを１つのステータスデータとしてマージするようにしてもよい。

ステップ２０２：前記各ハードディスクのうち、非故障ハードディスクの離散量及び変化量を負のサンプルデータとしてマークし、故障ハードディスクの離散量及び変化量を正のサンプルデータとしてマークし、前記第１の訓練データセットを得る。

ステップ２０１及びステップ２０２は、ステップ１０１及びステップ１０２の前に実行されてもよく、ステップ１０１及びステップ１０２の後に実行されてもよく、図２には、ステップ２０１がステップ１０１の前に実行される例示のみが示されている。

この第１の訓練データセットを取得した後、第１の人工知能アルゴリズムに基づいてこのデータセットを訓練すると、上記第１の訓練モデルを得ることができる。

１つの実施可能な形態では、収集したハードディスクの各ステータスデータに基づいて、複数のハードディスクの中から故障寸前のハードディスクを選別するステップは、収集した前記各ハードディスクの各ステータスデータ（以下、第２のテストデータセットともいう）を第２の訓練モデルに入力して、前記各ステータスデータに対応する、故障寸前カテゴリ及び正常カテゴリを含む分類結果を得るステップであって、前記第２の訓練モデルは、第２の人工知能アルゴリズムによって第２の訓練データセットに基づいて訓練して得られ、前記第２の訓練データセットは、正のサンプルデータ及び負のサンプルデータを含み、前記各ハードディスクのうち、非故障ハードディスクに対応するステータスデータは負のサンプルデータであり、故障ハードディスクに対応するステータスデータは正のサンプルデータであるステップと、得られた分類結果のうち、カテゴリが故障寸前である分類結果の総結果に対する割合が、たとえば８０％である第２の閾値を超えるハードディスクを故障寸前ハードディスクと判定するステップとを含む。

以下、一例を挙げて、複数のハードディスクの中から故障寸前のハードディスクを選別する処理を説明する。この例では、上記ｇ個のハードディスクによって３日間に各ハードディスクごとに生成された複数のサンプルを第２の予測データセットとして使用することができる。サンプル数が少なすぎると、ハードディスクの劣化ステータを効果的に収集することが困難になり、サンプル数が多すぎると、処理量が増大する。サンプル数は好ましくは２０～４０個、たとえば２４個である。

ｇ個のハードディスクのすべてについて、１つずつ予測する。
｛１番目のハードディスクについて、サンプルごとに予測する。

｛１番目のサンプルを第２の訓練モデルに入力し、分類結果を得る。
１番目のハードディスクの２番目のサンプルを第２の訓練モジュールに入力し、分類結果を得る。

……（以上と同様に操作するので、これ以上言及しない）
２４番目のサンプルについて、第２の訓練モデルに入力し、分類結果を得る。

上記２４個の分類結果を総合する。そのハードディスクのｔ個よりも多い分類結果のタイプが故障寸前である場合、予測結果としてそのハードディスクが故障寸前であると判定する。ここで、ｔの値の範囲は［１２,２２］であってもよく、たとえば、ｔの値は１８であってもよい。そのハードディスクの故障寸前の分類結果がｔ個を超えない場合、そのハードディスクは正常なハードディスクであると判定する。
｝

２番目のハードディスクについて、サンプルごとに予測する。

……（以上と同様に操作するので、これ以上言及しない）
ｇ番目のハードディスクについて、サンプルごとに予測する。
｝

上記例では、故障寸前のハードディスクを投票で判断し、データセンター内のハードディスクのうち故障寸前のハードディスクを選別できる。

上記過程で故障寸前と判断されたハードディスクを、故障寸前ハードディスクのリストに追加する。これにより、故障寸前のハードディスクが成功的に予測される。

第２の訓練データセットを訓練するための上記第２の人工知能アルゴリズムは、たとえば、サポートベクトルマシンアルゴリズム、ベイズアルゴリズム、勾配ブースティングマシンアルゴリズムのいずれかであってもよい。

１つの実施可能な形態では、第２の訓練データセットを取得するステップは、第１の所定周期、たとえば３時間で前記各ハードディスクのステータスデータを収集し、生データセットを得るステップと、前記生データセットの各ステータスデータをマークし、故障が発生する前の第３の所定期間内のハードディスクのステータスデータを正のサンプルデータとしてマークし、故障が発生する前の第３の所定期間以外のハードディスクのステータスデータを負のサンプルデータとしてマークするか、又は故障が発生する前の第３の所定期間以外のハードディスクのステータスデータを削除し、故障していないハードディスクに属するステータスデータを負のサンプルデータとしてマークし、上記第２の訓練データセットを得るステップとを含む。たとえば、生データセットのすべてのサンプルをマークし、つまり、正常なハードディスクの各サンプルを負のサンプルとしてマークし、故障前のＫ時期以内の故障ハードディスクのサンプルを正のサンプルとしてマークし、故障前のＫ時期前以外の故障ハードディスクのサンプルを負のサンプルとしてマークするか、廃棄する。Ｋの値は、たとえば７日間の値であり、最終的に第２の訓練データセットを形成する。

一例では、第１の訓練データセットを取得する過程は、上記生データセットを減少することを含み、各ハードディスクの直近７日間のサンプルのみを保持することができる。各ハードディスクのこの７日間のサンプルをそれぞれマージし、それぞれ７種類のステータスデータを有するサンプルをｇ個得て、各ステータスデータの離散量及び変化量をそれぞれ求める。最後に、正常なハードディスクの離散量及び変化量を負のサンプルとしてマークし、故障ハードディスクの離散量及び変化量を正のサンプルとしてマークし、第２の訓練データセットを形成する。１つの実施可能な形態では、本開示のハードディスク故障発生時期の予測方法は、新たに収集した各ハードディスクのステータスデータを用いて、前記生データセットの更新対象データを更新するステップであって、前記更新対象データは、前記生データセットのうち最も古い第３の所定期間内に収集した前記ステータスデータであるステップをさらに含む。たとえば、最も直近の前記第２の所定周期内に収集した前記ステータスデータを用いて、前記生データセットのうち最も古い前記第２の所定周期内に収集した前記ステータスデータを、第２の所定周期で周期的に置換し、ここで、第２の所定周期は、たとえば７日間であり、このため、本実施例では、直近７日間に収集したステータスデータを用いて、生データセットのうち最も古い７日間に収集したステータスデータを置換し、生データセットを更新することができる。

以下、データセンターに４,８００個のハードディスクがある例を用いて、本開示のハードディスク故障発生時期の予測方法を説明する。この４,８００個のハードディスクについて、３時間ごとにＳＭＡＲＴ情報の収集とＩＯの収集を行う。各ハードディスクについて収集するごとに１つのサンプルが形成される。６０日目に収集が終了した時点で、合計２,３０４,０００個のサンプルが生データセットとして生成される。データ収集中に合計７０個の故障ハードディスクが発生したと仮定する。

４,７３０個の正常なハードディスクの合計２,２７０,４００個のサンプルを負のサンプルとしてマークし、７０個の故障ディスクの故障前の７日間の合計３,９２０個のサンプルを正のサンプルとしてマークし、残りのサンプルを廃棄して、第２の訓練データセットを得る。第２の訓練データセットに対してサポートベクトルマシンアルゴリズムを用いたモデル訓練を行い、第２の訓練モデルを得る。

ハードディスクごとに直近３日間で合計２４個のサンプルを第２の訓練モデルに１つずつ入力すると、ハードディスクごとに２４個の分類結果が得られる。１つのハードディスクについて故障寸前と判定された分類結果が１８個を超える場合は、そのハードディスクが故障寸前とみなされ、故障寸前ハードディスクのリスクに追加され、合計２３個のハードディスクがある。

４,８００個のハードディスクの直近７日間のサンプルをマージし、各サンプルの各エントリについて７日間の分散と変化量を求める。合計４,８００個のサンプルがあり、各サンプルには１４個のエントリが含まれている。４,７３０個の正常なハードディスクのステータスデータを負のサンプルとしてマークし、７０個の故障ハードディスクのステータスデータを正のサンプルとしてマークし、第１の訓練データセットを得る。第１の訓練データセットに対して論理回帰アルゴリズムを用いたモデル訓練を行い、第１の訓練モデルを得る。

故障寸前ハードディスクリストにある２３個のハードディスクの直近７日間のサンプルをマージし、エントリごとに７日間の分散と変化量を求め、２３個のサンプルを得る。２３個のサンプルを１つずつ第１の訓練モデルに入力し、各ハードディスクに今後７日間に故障が発生する確率を１つずつ得る。ここで、ハードディスクのこの確率が８０％より大きい場合、ハードディスクをハードディスク交換アラームリストに追加し、ハードディスク交換アラームリストに追加されたハードディスクが合計４個であると仮定する。この場合、保守担当者は、この４個のハードディスクについてハードディスク交換操作を行う。直近７日間に収集した各ハードディスクのステータスデータを生データセットに追加し、生データセットのうち最も古い７日間に検出されたステータスデータを置換する。

図３は、１つの例示的な実施例に係るハードディスク故障発生時期の予測装置のブロック図であり、図３に示すように、該装置３０は、収集したハードディスクの各ステータスデータに基づいて、複数のハードディスクの中から故障寸前のハードディスクを選別するための選別モジュール３１と、第１の所定期間内に収集した故障寸前のハードディスクの各ステータスデータのうち、各データの変化量及び離散量を計算して、第１の予測データセットを得るための計算モジュール３２と、前記第１の予測データセットを第１の訓練モデルに入力して、今後第２の所定期間内に各ハードディスクに故障が発生する確率を得るための入力モジュール３３であって、前記第１の訓練モデルは、第１の人工知能アルゴリズムによって第１の訓練データセットに基づいて訓練して得られ、前記第１の訓練データセットは、正のサンプルデータ及び負のサンプルデータを含み、故障ハードディスクに対応する変化量及び離散量は正のサンプルデータであり、非故障ハードディスクに対応する変化量及び離散量は負のサンプルデータである入力モジュール３３とを含む。

１つの実施可能な形態では、前記選別モジュールは、収集した前記各ハードディスクの各ステータスデータを第２の訓練モデルに入力して、前記各ステータスデータに対応する、故障寸前カテゴリ及び正常カテゴリを含む分類結果を得るための入力ユニットであって、前記第２の訓練モデルは、第２の人工知能アルゴリズムによって第２の訓練データセットに基づいて訓練して得られ、前記第２の訓練データセットは、正のサンプルデータ及び負のサンプルデータを含み、前記各ハードディスクのうち、非故障ハードディスクに対応するステータスデータは負のサンプルデータであり、故障ハードディスクに対応するステータスデータは正のサンプルデータである入力ユニットと、得られた分類結果のうち、カテゴリが故障寸前である分類結果の総結果に対する割合が第２の閾値を超えるハードディスクを故障寸前ハードディスクと判定するための判定ユニットとを含む。

図４は、１つの例示的な実施例に係るハードディスク故障発生時期の予測装置のブロック図であり、図４に示すように、この装置は、図３に示す装置に基づいて、前記第１の予測データセットを第１の訓練モデルに入力する前に、前記第１の所定期間内における前記各ハードディスクのステータスデータを１つのデータにマージし、そのデータ内の各データの離散量及び変化量を計算するためのマージモジュール４１と、前記各ハードディスクのうち、非故障ハードディスクの離散量及び変化量を負のサンプルデータとしてマークし、故障ハードディスクの離散量及び変化量を正のサンプルデータとしてマークし、前記第１の訓練データセットを得るための第１のマークモジュール４２とをさらに含む。

１つの実施可能な形態では、前記ステータスデータは、ハードディスクのＳＭＡＲＴ情報及び／又はハードディスクのＩ／Ｏ情報を含むことができる。

１つの実施可能な形態では、前記ＳＭＡＲＴ情報は、ハードディスクの再割り当てされたセクターの数、ハードウェアの修復不可能なエラーの数、ハードウェアのＥＣＣの修復のエラーの数、元の読み取りエラー率、ヘッドシークエラー率、及びヘッドがディスクから離れすぎて書き込みに失敗した回数のうちの少なくとも１つを含み、前記Ｉ／Ｏ情報は、少なくとも書き込みブロック数を含むことができる。

１つの実施可能な形態では、前記装置は、新たに収集した各ハードディスクのステータスデータを用いて、前記生データセットの更新対象データを更新するための更新モジュールであって、前記更新対象データは、前記生データセットのうち最も古い第３の所定期間内に収集した前記ステータスデータである更新モジュールをさらに含むことができる。

図５は、１つの例示的な実施例に係るハードディスク故障発生時期の予測装置６００のブロック図である。たとえば、装置６００は、サーバとして提供されてもよい。図５を参照すると、装置６００は、１つ又は複数のプロセッサ６２２と、プロセッサ６２２によって実行可能なコンピュータプログラムを記憶するためのメモリ６３２とを含む。メモリ６３２に記憶されたコンピュータプログラムは、命令セットにそれぞれ対応する１つ又は複数のモジュールを含むことができる。さらに、プロセッサ６２２は、上記ハードディスク故障発生時期の予測方法を実行するためにこのコンピュータプログラムを実行するように構成されてもよい。

また、装置６００は、装置６００の電源管理を実行するように構成される電源部品６２６と、装置６００の通信、たとえば有線又は無線通信を可能にするように構成される通信部品６５０とを含むことができる。さらに、この装置６００は、入力／出力（Ｉ／Ｏ）インターフェース６５８をさらに含むことができる。装置６００は、メモリ６３２に記憶されたオペレーティングシステム（たとえば、ＷｉｎｄｏｗｓＳｅｒｖｅｒ（登録商標）、ＭａｃＯＳＸ（登録商標）、Ｕｎｉｘ（登録商標）、Ｌｉｎｕｘ（登録商標）など）に基づいて動作することができる。

別の例示的な実施例では、装置６００のプロセッサ６２２によって実行されて、上記ハードディスク故障発生時期の予測方法を実現するプログラム命令を含むメモリ６３２など、プログラム命令を含む非一時的なコンピュータ読み取り可能な記憶媒体をさらに提供する。

本開示は、ハードディスク故障発生時期を予測することができる。本開示の有益な効果は以下の通りである。本開示の実施例によるハードディスク故障発生時期の予測方法は、第１の所定期間内に収集した故障寸前のハードディスクの各ステータスデータに基づいて、各ステータスデータの変化量及び離散量を算出することにより、第１の予測データセットを得て、この第１の予測データセットを第１の訓練モジュールに入力することにより、今後第２の所定期間内に各ハードディスクに故障が発生する確率も測定することができ、それによってハードディスク故障発生時期を予測する目的を達成できる。

例示のために、本開示の好ましい実施例を開示したが、当業者にとって、様々な改良、追加や置換も可能であり、したがって、本開示の範囲は上記実施例に限定されるものではない。

Claims

予測装置によって実行されるハードディスク故障発生時期の予測方法であって、
収集したハードディスクの各ステータスデータに基づいて、複数のハードディスクの中から故障寸前のハードディスクを選別するステップと、
第１の所定期間内に収集した故障寸前のハードディスクの各ステータスデータのうち、各データの変化量及び離散量を計算して、第１の予測データセットを得るステップと、
前記第１の予測データセットを第１の訓練モデルに入力して、今後第２の所定期間内に各ハードディスクに故障が発生する確率を得るステップであって、前記第１の訓練モデルは、第１の人工知能アルゴリズムによって第１の訓練データセットに基づいて訓練して得られ、前記第１の訓練データセットは、正のサンプルデータ及び負のサンプルデータを含み、故障ハードディスクに対応する変化量及び離散量は正のサンプルデータであり、非故障ハードディスクに対応する変化量及び離散量は負のサンプルデータであるステップとを含む、ことを特徴とする方法。
収集したハードディスクのステータスデータに基づいて、複数のハードディスクの中から故障寸前のハードディスクを選別するステップは、
収集した前記各ハードディスクの各ステータスデータを第２の訓練モデルに入力して、前記各ステータスデータに対応する、故障寸前カテゴリ及び正常カテゴリを含む分類結果を得るステップであって、前記第２の訓練モデルは、第２の人工知能アルゴリズムによって第２の訓練データセットに基づいて訓練して得られ、前記第２の訓練データセットは、正のサンプルデータ及び負のサンプルデータを含み、前記各ハードディスクのうち、非故障ハードディスクに対応するステータスデータは負のサンプルデータであり、故障ハードディスクに対応するステータスデータは正のサンプルデータであるステップと、
得られた分類結果のうち、カテゴリが故障寸前である分類結果の総結果に対する割合が第２の閾値を超えるハードディスクを故障寸前ハードディスクと判定するステップとを含む、ことを特徴とする請求項１に記載の方法。
前記ステータスデータは、ハードディスクのＳＭＡＲＴ情報及び／又はハードディスクの読み取り／書き込みＩ／Ｏ情報を含む、ことを特徴とする請求項１に記載の方法。
前記ＳＭＡＲＴ情報は、ハードディスクの再割り当てされたセクターの数、ハードウェアの修復不可能なエラーの数、ハードウェアのエラーチェック・訂正ＥＣＣの修復のエラーの数、元の読み取りエラー率、ヘッドシークエラー率、及びヘッドがディスクから離れすぎて書き込みに失敗した回数のうちの少なくとも１つを含み、
前記Ｉ／Ｏ情報は、少なくとも書き込みブロック数を含む、ことを特徴とする請求項３に記載の方法。
前記第１の予測データセットを第１の訓練モデルに入力する前に、前記第１の所定期間内における前記各ハードディスクのステータスデータを１つのデータにマージし、そのデータ内の各データの離散量及び変化量を計算するステップと、
前記各ハードディスクのうち、非故障ハードディスクの離散量及び変化量を負のサンプルデータとしてマークし、故障ハードディスクの離散量及び変化量を正のサンプルデータとしてマークし、前記第１の訓練データセットを得るステップとをさらに含む、ことを特徴とする請求項１に記載の方法。
新たに収集した各ハードディスクのステータスデータを用いて、生データセットの更新対象データを更新するステップであって、前記更新対象データは、前記生データセットのうち最も古い第３の所定期間内に収集した前記ステータスデータであるステップをさらに含む、ことを特徴とする請求項１に記載の方法。
前記変化量は、以下の式のいずれかにより算出される、ことを特徴とする請求項１～６のいずれか１項に記載の方法。
ハードディスク故障発生時期の予測装置であって、
収集したハードディスクの各ステータスデータに基づいて、複数のハードディスクの中から故障寸前のハードディスクを選別するための選別モジュールと、
第１の所定期間内に収集した故障寸前のハードディスクの各ステータスデータのうち、各データの変化量及び離散量を計算して、第１の予測データセットを得るための計算モジュールと、
前記第１の予測データセットを第１の訓練モデルに入力して、今後第２の所定期間内に各ハードディスクに故障が発生する確率を得るための入力モジュールであって、前記第１の訓練モデルは、第１の人工知能アルゴリズムによって第１の訓練データセットに基づいて訓練して得られ、前記第１の訓練データセットは、正のサンプルデータ及び負のサンプルデータを含み、故障ハードディスクに対応する変化量及び離散量は正のサンプルデータであり、非故障ハードディスクに対応する変化量及び離散量は負のサンプルデータである入力モジュールとを含む、ことを特徴とするハードディスク故障発生時期の予測装置。
前記選別モジュールは、
収集した前記各ハードディスクの各ステータスデータを第２の訓練モデルに入力して、前記各ステータスデータに対応する、故障寸前カテゴリ及び正常カテゴリを含む分類結果を得るための入力ユニットであって、前記第２の訓練モデルは、第２の人工知能アルゴリズムによって第２の訓練データセットに基づいて訓練して得られ、前記第２の訓練データセットは、正のサンプルデータ及び負のサンプルデータを含み、前記各ハードディスクのうち、非故障ハードディスクに対応するステータスデータは負のサンプルデータであり、故障ハードディスクに対応するステータスデータは正のサンプルデータである入力ユニットと、
得られた分類結果のうち、カテゴリが故障寸前である分類結果の総結果に対する割合が第２の閾値を超えるハードディスクを故障寸前ハードディスクと判定するための判定ユニットとを含む、ことを特徴とする請求項８に記載の装置。
前記ステータスデータは、ハードディスクのＳＭＡＲＴ情報及び／又はハードディスクの読み取り／書き込みＩ／Ｏ情報を含む、ことを特徴とする請求項８に記載の装置。
前記ＳＭＡＲＴ情報は、ハードディスクの再割り当てされたセクターの数、ハードウェアの修復不可能なエラーの数、ハードウェアのエラーチェック・訂正ＥＣＣの修復のエラーの数、元の読み取りエラー率、ヘッドシークエラー率、及びヘッドがディスクから離れすぎて書き込みに失敗した回数のうちの少なくとも１つを含み、
前記Ｉ／Ｏ情報は、少なくとも書き込みブロック数を含む、ことを特徴とする請求項１０に記載の装置。
前記第１の予測データセットを第１の訓練モデルに入力する前に、前記第１の所定期間内における前記各ハードディスクのステータスデータを１つのデータにマージし、そのデータ内の各データの離散量及び変化量を計算するためのマージモジュールと、
前記各ハードディスクのうち、非故障ハードディスクの離散量及び変化量を負のサンプルデータとしてマークし、故障ハードディスクの離散量及び変化量を正のサンプルデータとしてマークし、前記第１の訓練データセットを得るための第１のマークモジュールとをさらに含む、ことを特徴とする請求項８に記載の装置。
新たに収集した各ハードディスクのステータスデータを用いて、生データセットの更新対象データを更新するための更新モジュールであって、前記更新対象データは、前記生データセットのうち最も古い第３の所定期間内に収集した前記ステータスデータである更新モジュールをさらに含む、ことを特徴とする請求項８に記載の装置。
前記変化量は、以下の式のいずれかにより算出される、ことを特徴とする請求項８～１３のいずれか１項に記載の装置。
プロセッサと、
プロセッサの実行可能命令を記憶するためのメモリとを含み、
前記命令はプロセッサによって実行されると、
収集したハードディスクの各ステータスデータに基づいて、複数のハードディスクの中から故障寸前のハードディスクを選別する操作と、
第１の所定期間内に収集した故障寸前のハードディスクの各ステータスデータのうち、各データの変化量及び離散量を計算して、第１の予測データセットを得る操作と、
前記第１の予測データセットを第１の訓練モデルに入力して、今後第２の所定期間内に各ハードディスクに故障が発生する確率を得る操作であって、前記第１の訓練モデルは、第１の人工知能アルゴリズムによって第１の訓練データセットに基づいて訓練して得られ、前記第１の訓練データセットは、正のサンプルデータ及び負のサンプルデータを含み、故障ハードディスクに対応する変化量及び離散量は正のサンプルデータであり、非故障ハードディスクに対応する変化量及び離散量は負のサンプルデータである操作とが実行される、ことを特徴とするハードディスク故障発生時期の予測装置。
記憶媒体中の命令がプロセッサによって実行されると、請求項１～７のいずれか１項に記載の方法をプロセッサに実行させる非一時的なコンピュータ読み取り可能な記憶媒体。