JP2015184818A - サーバ、モデル適用可否判定方法およびコンピュータプログラム - Google Patents

サーバ、モデル適用可否判定方法およびコンピュータプログラム Download PDF

Info

Publication number
JP2015184818A
JP2015184818A JP2014059008A JP2014059008A JP2015184818A JP 2015184818 A JP2015184818 A JP 2015184818A JP 2014059008 A JP2014059008 A JP 2014059008A JP 2014059008 A JP2014059008 A JP 2014059008A JP 2015184818 A JP2015184818 A JP 2015184818A
Authority
JP
Japan
Prior art keywords
model
operation data
terminal device
distribution
calculated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2014059008A
Other languages
English (en)
Inventor
実 中津川
Minoru Nakatsugawa
実 中津川
西川 武一郎
Takeichiro Nishikawa
武一郎 西川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2014059008A priority Critical patent/JP2015184818A/ja
Priority to US14/656,949 priority patent/US9720759B2/en
Publication of JP2015184818A publication Critical patent/JP2015184818A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/008Reliability or availability analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3447Performance evaluation by modeling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3452Performance evaluation by statistical analysis

Abstract

【課題】端末装置に精度の低いモデルを適用することを回避する。【解決手段】本発明の実施形態としてのサーバは、第1機種の端末装置に、第2機種の端末装置の稼働データに基づき生成され、前記稼働データから計算される特徴量に基づき前記第2機種の端末装置の故障の発生可能性を予測するモデルを、適用可能か否か決定するためのサーバであって、分布差異計算部と、判定部を備える。前記分布差異計算部は、前記第1機種の端末装置の稼働データから算出される特徴量の第1分布と、前記第1機種と異なる第2機種の端末装置の稼働データから算出される特徴量の第2分布との差異情報を計算する。前記判定部は、前記差異情報に応じて、前記モデルを前記第1機種の端末装置で適用可能かを判定する。【選択図】図2

Description

本発明の実施形態は、サーバ、モデル適用可否判定方法およびコンピュータプログラムに関する。
ハードディスクドライブ(HDD)に保存されたデータの保全を図る上で、HDDの健康状態を把握しておくことは重要である。故障したHDDの稼働履歴データを分析することで、稼働データから、将来の故障発生を検知する故障予兆モデルを構築できる。故障予兆モデルは、例えば所定期間内に故障が発生する確率を計算する。確率が閾値以上であれば、故障予兆ありと判断できる。
ここで、製品世代が変わるとHDDの振る舞いが変化することがあり、過去の稼働データから構築した故障予兆モデルが、想定通りの精度を発揮できなくなるリスクがある。当該モデルの精度を新世代のHDDに対して検証するためには、故障したHDDの稼働履歴データが必要であり、データの蓄積には時間を要する。仮に精度の検証が不十分なまま、当該モデルを新世代のHDDの故障予兆検知に適用した場合、そのモデルの精度が低いと、見逃し・誤報が頻発する問題が発生する。見逃しとは、故障予兆なしの予測結果が得られたにもかかわらず、所定期間内に故障が発生することであり、誤検出は、故障予兆ありとの予測結果が得られたにもかかわらず、所定期間内に故障が発生しなかったことである。
特開2013−73326号公報
本発明の実施形態は、端末装置に精度の低いモデルの適用を回避することを可能にすることを目的とする。
本発明の実施形態としてのサーバは、第1機種の端末装置に、前記第2機種の端末装置の稼働データに基づき生成され、前記稼働データから計算される特徴量に基づき前記第2機種の端末装置の故障の発生可能性を予測するモデルを、適用可能か否か決定するためのサーバであって、分布差異計算部と、判定部を備える。
前記分布差異計算部は、前記第1機種の端末装置の稼働データから算出される特徴量の第1分布と、前記第1機種と異なる第2機種の端末装置の稼働データから算出される特徴量の第2分布との差異情報を計算する。
前記判定部は、前記差異情報に応じて、前記モデルを前記第1機種の端末装置で適用可能か判定する。
本発明の実施形態に係るサーバと、サーバと通信する各端末装置がネットワークを介した接続されたシステムの全体図。 サーバおよび端末の機能ブロックを示す図。 稼働データの例を示す図。 部品型番データの例を示す図。 変数の例を示す図。 型番管理データの例を示す図。 稼働データ記憶部で記憶される稼働データの例を示す図。 稼働データと特徴量の関係を示す図。 過去型番の特徴量分布と、新規型番の特徴量の値出現確率について説明するための図。 2つの確率分布の例を示す図。 判定部の動作フローを示す図。 端末のハードウェア構成例を示す図。 サーバのハードウェア構成例を示す図。 第1の実施形態に係るサーバの処理のフローチャート。 第2の実施形態に係るサーバおよび端末の機能ブロック図。 項目判定部の処理フローを示す図。 第2の実施形態に係るサーバの処理のフローチャート。
以下、図面を参照しながら、本発明の実施形態について説明する。
(第1の実施形態)
図1は、本発明の実施形態に係るサーバと、サーバと通信する各端末装置(以下、端末)を示す図である。
サーバ101と各端末201は、ネットワーク301を介して接続されている。ネットワーク301は、無線ネットワーク、有線ネットワーク、またはこれらのハイブリッドのネットワークである。ネットワーク301は、ローカルエリアネットワークでも、インターネット等の広域エリアネットワークでもよい。
端末201は、PC(Personal Computer)、タブレット、スマートフォン、携帯端末等のユーザ端末である。端末は、CPU、メモリ、外部記憶装置、入力部、表示部、通信部など、一般的なコンピュータが備える要素を備えている。外部記憶装置として、HDD、SDD、SDカードなどがある。各端末201では、自装置の稼働状況を示す稼働データを取得し、内部に記録している。稼働データとして、例えばHDDやCPU等の部品のセンサデータ・ログ等がある。
端末201には、故障予兆モデル(以下、モデルと呼ぶ)が搭載されている。モデルは、所定期間内に故障が発生する可能性を予測するものである。例えば現在から一定期間内に故障が発生する確率を計算する。確率が閾値以上であれば、故障予兆ありと判断できる。端末は、稼働データに基づき、モデルを用いて予測を行い、故障予兆があるかを検知する機能を有する。モデルで故障予兆が検知されれば、例えばユーザに故障予兆があるとのメッセージを通知することで、HDDや端末装置のリプレースを促すことができる。一例として、端末201に搭載されているモデルは、この端末とは異なる機種の端末(ここでは、異なる機種のHDDを搭載した端末)の稼働データから生成されたものである。異なる機種とは、例えば端末201が搭載しているHDDよりも旧機種(過去の機種)である。すなわち、端末が搭載しているHDDの機種は、モデルの生成元となったHDDの機種とは異なる場合が想定される。
サーバ101は、端末に搭載されているモデルを、端末が適用することを許容するか否かを判断する。つまり、端末に搭載されているモデルは、その端末にとって精度が低い可能性があり、仮にそのようなモデルを端末が適用すると、見逃しや誤検出が発生する頻度または可能性が高くなると考えられるためである。見逃しとは、故障予兆なしの予測結果が得られたにもかかわらず、所定期間内に故障が発生することであり、誤検出は、故障予兆ありとの予測結果が得られたにもかかわらず、所定期間内に故障が発生しなかったことである。
サーバ101から適用可の判定結果を通知されれば、端末201は、自装置に搭載のモデルを用いて故障予兆検知を行うことが許容される。一方、端末201は、サーバ101から適用不可の判定結果を通知されれば、このモデルを用いた故障予兆検知は許されない。これにより、端末が精度の低いモデルを適用することを回避でき、見逃しや誤検出の問題を阻止できる。
図2は、サーバ101および端末201の機能ブロックを示す。各装置内のブロック間を結ぶ線は、情報または制御の流れを示す。また、端末およびサーバ間のブロック同士を結ぶ線は、実際の物理的な結線を示すのではなく、ブロック間の情報の入出力関係を表すに過ぎない。
端末201は、稼働データ取得部211、個別稼動データ記憶部212、稼働データ送信部213、部品型番記憶部214、部品型番送信部215、モデル記憶部216、判定結果受信部217、および検知部218を備える。
稼働データ取得部211は、所定の収集プログラムを実行することで、端末の稼動データを取得する。稼働データ取得部211は、個別稼動データ記憶部212に接続されており、取得した稼働データを、個別稼動データ記憶部212に格納する。個別稼働データ記憶部212は、稼働データ取得部211により取得された稼動データの履歴を記憶している。稼動データは、端末の稼働状況を示し、HDDおよびCPU等の部品のセンサ・ログデータを含み、その他、端末装置の製品ID(シリアル番号)、稼働データの取得時刻(観測時刻)を含む。HDDのセンサ・ログデータは、例えばHDDのS.M.A.R.T.などがある。その他の部品として、例えばCPUの温度や、ボタン(入力部)の操作回数などのデータが含まれてもよい。
稼働データの例を図3に示す。図示の稼働データは1回分の取得データであり、このようなデータが、時系列に稼働データ記憶部213に記憶されている。時間の経過に応じて、逐次、データが蓄積されていく。稼働データの取得タイミングは、一定時間毎でもよいし、端末の起動時、終了時のタイミング、特定のイベントが発生したタイミングなど、任意に決めることができる。
稼働データ送信部213は、個別稼働データ記憶部213に接続されており、個別稼働データ記憶部213に記憶されている稼働データをサーバ101へ送信する。稼働データが取得されるごとに送信してもよいし、一定間隔で未送信の稼働データを送信してもよいし、サーバ101からの要求に応じて送信してもよい。
部品型番記憶部214は、部品型番データを記憶している。部品型番データの例を図4に示す。部品型番データは、製品IDと、HDD型番を含む。HDD型番は、端末装置に搭載されているHDDの型番であり、HDDの機種を識別する。製品IDは、端末のID(シリアル番号)である。
部品型番送信部215は、部品型番記憶部214に接続されており、部品型番記憶部214に記憶されている部品型番データを、サーバ101へ送信する。部品型番データの送信は、サーバへのサービス登録時に1回送信してもよいし、サーバ101から要求される都度、送信してもよい。
モデル記憶部216は、故障予兆モデル(モデル)を記憶している。モデルは、所定期間内にHDDが故障する可能性を予測するものである。以下、モデルの例をいくつか示す。
下記の式(1)は、ロジスティック回帰モデルを示す。この式では、モデルパラメータとして、変数x1…xkと、係数a0…ak含む。係数a0は定数項とも呼ばれる。変数には、稼働データに基づき計算される特徴量が、割り当てられる。特徴量の詳細は後述する。係数は任意の実数である。Pは故障確率である。Pは0より大きく1より小さい値を取る。Pは、故障の発生可能性の大きさを表す値である。Pの値が大きいほど、所定期間内に故障の可能性が大きいことを意味する。Pの値が閾値以上のとき、故障予兆あり、閾値未満のとき、故障予兆なしと判定することもできる。所定期間は任意に定めることができるが、例えば現在時刻から一定期間でもよいし、予め定めた次の端末リプレース時期までの期間でもよいし、その他の基準で定めた期間でもよい。
Figure 2015184818
また、故障確率Pの値に応じて、故障予兆ランクを算出してもよい。例えば、P>αの場合、「危険」、α≧P>βの場合、「注意」、P≦βの場合、「正常」とする。
図5に変数の例を示す。変数は9つであり、それぞれ稼働データに基づく特徴量が割り当てられる。図示の各変数が、式(1)の変数x1,x2,x3,x4,x5,x6,x7,x8,x9に対応する。例えば変数x1には、稼働データから計算される「CPU温度の平均値」の特徴量が割り当てられる。各変数の係数(a0,a1,a2,a3,a4,a5,a6,a7,a8,a9)は、事前に算出されている。
ロジスティック回帰モデル以外のモデルの例としては、サポートベクターマシン、または、線形判別モデルなどがある。これらの場合、以下の式(2)でモデルを表すことができる。
Figure 2015184818
変数x1…xkと、係数a0…akは、式(1)と同様、変数および係数である。yの値が、故障の発生可能性の大きさを示す。閾値を設けて、yの値が閾値以上のときは故障予兆あり、閾値未満のときは故障予兆なしと、判定することも可能である。例えば、y≧0のときに故障予兆あり、y<0のときに故障予兆なしとする。
判定結果受信部217は、サーバ101から、モデル記憶部216内のモデルを用いることを許可するか否かの判定結果を受信する。受信された判定結果は、検知部218に渡される。
検知部218は、判定結果受信部217に接続されており、判定結果受信部217からサーバ101の判定結果を受信する。検知部218は、判定結果が許可を示すときは、モデル記憶部216内のモデルを利用して、故障予兆検知を行うことを許容される。判定結果が不可を示すときは、モデル記憶部216内のモデルを用いた故障予兆検知は行わない。検知部218は、モデル利用を許可された場合、故障予兆検知を、所望のタイミングで行う。例えば、稼働データが1つ取得されるごとに行ってもよいし、外部から指示が入力されたときに行ってもよいし、特定のイベントが発生したときに行ってもよい。故障予兆検知は、個別稼働データ記憶部212内の稼働データを用いて特徴量を算出し、算出した特徴量をモデルの変数に割り当てることで行う。
サーバ101は、稼働データ記憶部111、型番管理部112、特徴量計算部113、新規型番特徴量記憶部114、過去型番特徴量記憶部115、分布差異計算部116、判定部117、判定結果送信部118を備える。
型番管理部112は、各端末から部品型番データを受信する。型番管理部112は、受信した部品型番データに基づき、各端末の製品IDとHDD型番の対応をまとめて表した型番管理データを管理する。型番管理データの例を図6に示す。
稼働データ記憶部111は、各端末から送信された稼働データをまとめて記憶する。稼働データ記憶部111で記憶される稼働データの例を、図7に示す。複数の端末の稼働データが記憶されている。ここでは端末ごとに1つの稼働データが記憶されているが、実際には時系列に各々複数個、記憶されてもよい。
特徴量計算部113は、個々の端末ごとに、稼働データから1つまたは複数の特徴量を計算する。特徴量計算部113は、稼働データ記憶部111に接続されており、各端末の稼働データを、稼働データ記憶部111から読み出す。稼働データyと特徴量xの関係を、図8に示す。y1、y、・・・yが、稼働データの各項目の値を表す。x、x、・・・xSが、稼働データから計算される特徴量を表す。例えばxは、稼働データの項目yの値であり、xは、稼働データの項目y、yから計算される値である。このように特徴量は、稼働データから計算される。
特徴量の算出例として、直近の値(最新値)、差分の最大値、平均値を以下に示す。t は時刻を表している。
Figure 2015184818
また、複数の稼働データを用いた特徴量も定義可能である。例えば直近の2つの稼働データで同じ項目の和を特徴量として定義することも可能である。以下は、この例である。
Figure 2015184818
過去型番特徴量記憶部115には、端末201に搭載されたモデルの構築時に使用した稼働データから計算した特徴量のデータセットが記憶されている。例えば特徴量が(x1,x2,x3)の3つ種類であれば、(x1,x2,x3)のデータを多数記憶している。モデルの構築時に使用した稼働データは、過去型番(旧型番)のHDDを搭載した端末の稼働データである。
特徴量計算部113は、特徴量を計算した端末の製品IDが、型番管理部112に登録されているかを判断する。登録されている場合は、計算した特徴量を、新規型番特徴量記憶部114に格納する。例えば、端末の製品IDおよびHDD型番、特徴量を含むエントリを追加する。特徴量計算部113は、端末の製品IDが型番管理部112に登録されていないときは、古い型番のHDDを搭載した端末の稼働データとして、読み込んだ稼働データを廃棄してもよい。あるいは、別の方法として、過去型番特徴量記憶部115に、同じ型番の特徴量が格納されているときは、特徴量を計算して、過去型番特徴量記憶部114に追加してもよい。
分布差異計算部116は、新規型番特徴量記憶部114と過去型番特徴量記憶部115に接続されており、それぞれに記憶されている特徴量のデータを読み出す。そして、新規型番特徴量記憶部114から読み出した特徴量の分布と、過去型番特徴量記憶部115から読み出した特徴量の分布を計算し、これらの差異を表す差異情報を計算する。すなわち、この差異情報は、モデル構築時に使用した稼働データから計算した特徴量の分布と、新規型番のHDDを搭載した端末の稼働データから計算した特徴量の分布の差異を表す。分布差異計算部116は、新規型番特徴量記憶部114から、例えば該当機種に対するすべての特徴量のデータ、または一定数のデータを読み出す。あるいは、特徴量計算部113が、新規型番特徴量記憶部114に特徴量を格納する際、稼働データに含まれる観測時刻を付与し、一定の期間内のデータ、あるいは最新の所定個数のデータを読み出すようにすることも可能である。また、過去型番特徴量記憶部115からすべての特徴量のデータ、または、一定数のデータを読み出してもよい。
分布差異計算部116は、新規型番特徴量記憶部114に、端末の製品IDおよびHDD型番、特徴量を含むエントリが1つ追加されるごとに処理を行ってもよいし、HDD型番毎に所定数のエントリが追加されるごとに処理を行ってもよいし、外部から指示を受けたタイミングで処理を行ってもよい。ここで述べた以外のタイミングで処理を行ってもよい。
以下、過去型番特徴量記憶部115に記憶された特徴量、すなわち、モデル構築時に使用した稼働データから計算された特徴量を“過去型番の特徴量”と呼ぶことがある。また、新規型番特徴量記憶部114に記憶された特徴量、すなわち新規型番のHDD搭載の端末の稼働データから計算された特徴量を、“新規型番の特徴量”と呼ぶことがある。
以下、過去型番の特徴量分布と、新規型番の特徴量分布との差異情報の計算例を示す。
(1)過去型番の特徴量分布における、新規型番の特徴量の値出現確率
図9を用いて,過去型番の特徴量分布と、新規型番の特徴量の値出現確率を説明する。過去型番の特徴量分布は、前述したように、端末に搭載のモデルの構築に使用した稼働データから計算された特徴量の分布であり、例えば、図9に示すヒストグラム401のようにノンパラメトリックな分布、あるいは正規分布のようなパラメトリックな分布関数402をフィッティングさせた分布である。
Figure 2015184818
そして、負の対数尤度を、以下の式で計算する。
Figure 2015184818
特徴量が複数存在するときは、特徴量ごとに、尤度および負の対数尤度を計算すればよい。
(2)確率分布間の距離
過去型番の特徴量の確率分布をP、新規型番の特徴量の確率分布をQとする。分布P、Qの例を図10に示す。このとき、PとQ間の距離を計算する。確率分布間の距離として、一例としてカルバック・ライブラー情報量(カルバック・ライブラー・ダイバージェンス)を計算する。P、Qを離散確率分布とするとき、QのPに対するカルバック・ライブラー情報量DKLは、以下のように計算される。
Figure 2015184818
は、確率分布P、Qにしたがって選ばれた値が、iになる確率である。特徴量が複数存在する場合、特徴量群をベクトルとして扱って、本情報量を計算してもよいし、特徴量ごとに、本情報量を計算してもよい。
Figure 2015184818
一方P、Qが連続確率分布の場合は、カルバック・ライブラー情報量以下のように計算する。
Figure 2015184818
Figure 2015184818
特徴量ごとに、新規型番のHDD搭載端末と、過去型番のHDD搭載端末間で、特徴量の差分の最大値Dmaxおよび最小値Dminを計算する。以下に、最大値Dmaxおよび最小値Dminの計算式を示す。
ここで、kは新規型番のHDDを搭載したk番目の端末、jはモデル構築時に使用した稼働データにおけるj番目の端末を意味する。特徴量が複数存在するときは、特徴量ごとに、DmaxおよびDminを計算すればよい。
Figure 2015184818
Figure 2015184818
ここで、ピアソンの積率相関係数は、次式で計算される。ただしN は端末の台数(サンプル数)である。また、
Figure 2015184818
判定部117は、分布差異計算部116で計算した
Figure 2015184818
に基づき、モデルの適用可否を判定する。ただし、分布差異情報のこれらの項目すべてを計算する必要はなく、少なくともいずれか1つの項目を計算してもよい。また、特徴量が複数存在するとき、特徴量のすべてについて各項目を計算せず、一部の特徴量について、各項目を計算してもよい。この場合、項目ごとに、計算の対象とする特徴量が異なってもよい。
図11に、判定部117の動作フローを示す。判定部117は、分布差異計算部116から分布差異情報を受けると(S101)、分布差異情報の各項目と、各々の閾値を比較する(S102)。いずれか1つが閾値未満の場合に、モデルが適用可能であると判定し(S102のNO、S103)、すべて閾値以上の場合は、適用不可と判定する(S102のYES、S104)。あるいは、任意のH個(Hは2以上5以下)の項目の値が、各々閾値未満の場合に、故障予兆モデルが適用可能であると判定し(S102のNO、S103)、それ以外の場合は(S102のYES、S104)、適用不可と判定してもよい。判定は、HDD型番ごとに行われる。判定結果は、モデルの適用可または適用不可を示す。項目ごとの閾値判定の際、複数の特徴量について項目が計算されているときは、特徴量すべてについて当該項目の値が閾値未満になることを要求してもよいし、任意の所定数の特徴量についてのみ、当該項目の値が閾値以下になることを要求してもよい。当該所定数の値は、項目ごとに異なってもよい。
判定結果送信部118は、判定部117の判定結果を、各端末に送信する。各端末の送信先アドレスは、事前に端末の製品IDと対応づけて管理されているものとする。型番管理部112で、この対応を表によって管理してもよい。
図12は、端末のハードウェア構成例を示す。端末は、CPU401、入力部402、表示部403、通信部404、主記憶部405、外部記憶部406を備え、これらはバス407により相互に通信可能に接続される。
入力部402は、キーボード、マウス等の入力デバイスを備える。表示部403は、LCD(Liquid Crystal Display)、CRT(Cathode Ray Tube)等の表示ディスプレイを含む。通信部404は、無線または有線の通信手段を有し、所定の通信方式で通信を行う。
外部記憶部406は、例えば、HDD、SSD、メモリ装置、CD−R、CD−RW、DVD−RAM、DVD−R等の記憶媒体等を含む。外部記憶部406は、検知部218、稼働データ取得部211、稼働データ送信部213、判定結果受信部217の機能を、CPU401に実行させるためのプログラムを記憶している。また、個別稼働データ記憶部212、部品型番記憶部214、モデル記憶部216も、外部記憶部406に含まれる。故障予兆検知は、一例として、この外部記憶部406を対象として行う。
主記憶部405は、CPU401による制御の下で、外部記憶部406に記憶された制御プログラムを展開し、当該プログラムの実行時に必要なデータ、当該プログラムの実行により生じたデータ等を記憶する。主記憶部405は、例えば不揮発性メモリ等の任意のメモリを含む。
図13は、サーバのハードウェア構成例を示す。サーバは、CPU501、入力部502、表示部503、通信部504、主記憶部505、外部記憶部506を備え、これらはバス507により相互に通信可能に接続される。
入力部502は、キーボード、マウス等の入力デバイスを備える。表示部503は、LCD(Liquid Crystal Display)、CRT(Cathode Ray Tube)等の表示ディスプレイを含む。通信部504は、無線または有線の通信手段を有し、所定の通信方式で通信を行う。
外部記憶部506は、例えば、HDD、SSD、メモリ装置、CD−R、CD−RW、DVD−RAM、DVD−R等の記憶媒体等を含む。外部記憶部506は、特徴量計算部113、型番管理部112、分布差異計算部116、判定部117および判定結果送信部118の処理を、CPU501に実行させるためのプログラムを記憶している。また、稼働データ記憶部111、新規型番特徴量記憶部114、および過去型番特徴量記憶部115も、外部記憶部506に含まれる。
主記憶部505は、CPU501による制御の下で、外部記憶部506に記憶された制御プログラムを展開し、当該プログラムの実行時に必要なデータ、当該プログラムの実行により生じたデータ等を記憶する。主記憶部505は、例えば不揮発性メモリ等の任意のメモリを含む。
図14は、本実施形態に係るサーバの処理のフローチャートである。
特徴量計算部113が、稼働データ記憶部111から稼働データを読み込む(S111)。例えば、過去に読み込んでいないすべての稼働データを読み込む。同じ端末の稼働データについては、異なる時刻の稼働データであればすべて読み込み対象としてもよいし、一定時間以上、取得時刻が開いている稼働データを読み込み対象としてもよい。読み込みのタイミングは、外部から指示を受けた時点でもよいし、一定時間間隔でもよいし、その他のタイミングでもよい。
特徴量計算部113は、型番管理部112に対して、読み込んだ稼働データの端末が搭載するHDDの型番(HDDの機種)を特定する(S112)。
特徴量計算部113は、読み込んだ稼働データから特徴量を計算する(S113)。特徴量は、前述したように、モデルの変数に割り当てられるものであり、モデルに複数の変数が存在すれば、複数の特徴量を計算する。計算した特徴量は、新規型番特徴量記憶部114に、HDD型番、および端末の製品IDと対応づけて格納する。
分布差異計算部116は、過去型番特徴量記憶部115内の特徴量の分布、新規型番特徴量記憶部114内の特徴量の分布の差異情報を計算する(S114)。すなわち、モデル構築時に使用した稼働データ(過去の型番のHDDを搭載した端末の稼働データ)における特徴量の分布と、新規型番のHDDを搭載した端末の稼働データから計算した特徴量の分布の差異情報を計算する。
判定部117は、分布差異計算部116で計算した分布差異情報を閾値と比較し、モデルが適用可能か否かを判定する(S115)。詳細は判定の処理は、前述した図10のフローに従って行う。
判定結果送信部118は、判定部117の判定結果を、判定を行ったHDD型番(HDD機種)のHDDを搭載する端末に送信する(S116)。稼働データを1つ読み込むごとに分布差異情報の計算を行う構成の場合は、送信対象とする端末は、当該稼働データを読み込んだ端末のみとしてもよい。ただし、該当の機種において、判定結果が、前回の送信から変更になる場合は、その他の端末にも送信することが望ましい。
本実施形態では、各端末には同じモデルが搭載されていることを前提としたが、端末によって搭載されているモデルが異なっていてもよい。この場合、サーバでは、端末ごとに、搭載されているモデルを表す情報を管理しておく。過去型番特徴量記憶部115では、モデルの種類ごとに、過去型番の特徴量を分類して記憶しておく。分布差異計算部116は、端末ごとに、搭載されているモデルを特定し、特定したモデル対応する過去型番の特徴量分布を用いて、分布差異情報を計算し、モデルの適用可否を判定すればよい。
なお、本実施形態では、HDD型番が異なればHDDの機種も異なるとしたが、機種の区分を広く考え、複数の型番が同じ機種に属する場合も対象としてもよい。この場合、本実施形態で型番ごとに行っていた処理を、機種ごとに行うようにし、同じ機種に属する型番をすべて同じ処理の対象とすればよい。機種と型番の対応表を事前にサーバに格納しておくことでこれは可能である。
以上、本実施形態によれば、稼働データの特徴量の分布差異情報に基づいてモデル適用可否を判断することで、精度の低いモデルの適用機会を低減し、見逃し・誤報を抑制することができる。すなわち、新規型番のHDDでは、故障したHDDの数も少なく、故障HDDの稼働データのサンプルも少ない。このため、新規型番の普及開始時では、同じ型番の稼働データから生成するモデルの精度検証は困難である。そこで、従前の型番の稼働データから生成したモデルを適用することが考えられるが、型番が異なればHDDの稼働状態の傾向が異なるため、そのモデルが新規型番に適用可能かを判断する必要がある。本実施形態では、新規型番の特徴量の分布と、過去型番の特徴量分布を比較することで、モデルの適用可否を判断する。よって、不適切なモデルの適用を阻止し、見逃し・誤報によるコスト発生を抑制できる。
(第2の実施形態)
図15に、本実施形態に係るサーバおよび端末の機能ブロック図を示す。端末の構成は第1の実施形態と同じであるが、サーバの構成が異なっている。具体的に、本実施形態では、サーバに、項目検出部121、項目判定部122、使用項目記憶部123が追加されている。
項目検出部121は、稼働データ記憶部111に接続されており、稼働データ記憶部111から稼働データを読み出し、稼働データの項目を検出する。例えば、HDDのS.M.A.R.T.データ項目を検出する。
使用項目記憶部123は、モデルの変数に割り当てる特徴量の計算に必要となる稼働データの項目を記憶している。1つの特徴量の計算に1つの項目が必要な場合や、1つの特徴量の計算に、複数の項目が必要になる場合があるが、これらの項目すべてを記憶している。
項目判定部122が、項目検出部121で検出された項目が、使用項目記憶部123で記憶されている項目をすべて含んでいるかを判定し、判定結果を判定部117に出力する。
図16に項目判定部122の処理フローを示す。項目検出部121によって検出された項目をすべて受け取り(S121)、項目検出部121から受け取った項目に、使用項目記憶部123に記憶された項目がすべて含まれるかを判断する。1つでも含まれない項目が存在するときは(S122のNO)、項目欠如判定結果を出力する(S124)。すべての項目が含まれるときは、項目充足判定結果を出力する(S122のYES、S123)。
判定部117は、項目判定部122から項目欠如判定結果が入力されたときは、モデルの適用は不可と判定する。この場合、判定結果送信部118から適用不可の判定結果を送信する。一方、項目判定部122から項目充足判定結果が入力されたときは、第1の実施形態と同様、特徴量の計算、分布差異計算、適用可否判定を行う。
図17は、本実施形態に係るサーバの処理のフローチャートである。第1の実施形態で用いた図14のフローチャートにおいて、ステップS112とステップS113の間に、ステップS117とステップS118が追加されている。
ステップS117では、項目検出部121は、稼働データ記憶部111から稼働データを読み出し、読み出した稼働データの項目を検出する。ステップS118では、項目判定部122が、図16のフローに従って判定を行い、項目欠如判定結果または項目充足判定結果を出力する。判定部117は、項目欠如判定結果が入力された場合は、モデルを適用不可と判定する。この場合、適用不可の判定結果を、判定結果送信部118から送信する。項目充足判定結果が入力された場合は、特徴量計算(S113)に処理を進めるよう制御する。以降は、第1の実施形態と同様である。
図17のフローにおいて、稼働データを1つ読み出すごとに処理を行い、項目充足判定結果が得られたときは特徴量計算に進んでも良い。あるいは、複数の稼働データを読み出し、稼働データごとに
以上、本実施形態によれば、特徴量計算部113で特徴量の計算を行う前に、稼働データの項目が、モデルの特徴量を算出するのに必要な項目を含むかを検査するようにしたことにより、効率的な処理が可能となる。すなわち、本検査を行わない場合、複数の特徴量を順次計算していく過程で、算出に必要な項目が存在しなくて特徴量が算出できないことが判明すると、それまで行った処理が無駄になる可能性がある。しかしながら、事前に特徴量の計算に必要な項目がすべて揃っているかを確認することで、このような無駄な処理が発生するのを阻止できる。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
101:サーバ
111:稼働データ記憶部
112:型番管理部
113:特徴量計算部
114:新規型番特徴量記憶部
115:過去型番特徴量記憶部
116:分布差異計算部
117:判定部
118:判定結果送信部
201:端末
211:稼働データ取得部
212:個別稼動データ記憶部
213:稼働データ送信部
214:部品型番記憶部
215:部品型番送信部
216:モデル記憶部
217:判定結果受信部
218:検知部
301:ネットワーク

Claims (17)

  1. 第1機種の端末装置に、第2機種の端末装置の稼働データに基づき生成され、前記稼働データから計算される特徴量に基づき前記第2機種の端末装置の故障の発生可能性を予測するモデルを、適用可能か否か決定するためのサーバであって、
    前記第1機種の端末装置の稼働データから算出される特徴量の第1分布と、前記第1機種と異なる第2機種の端末装置の稼働データから算出される特徴量の第2分布との差異情報を計算する分布差異計算部と、
    前記差異情報に応じて、前記モデルを前記第1機種の端末装置で適用可能かを判定する判定部と、
    を備えたサーバ。
  2. 前記第2分布は、前記第2機種の端末装置の稼働データから算出される特徴量の確率分布であり、
    前記分布差異計算部は、前記第1機種の端末装置の稼働データから算出される特徴量の出現確率を前記確率分布から求め、前記出現確率の尤度を、前記差異情報として計算する
    請求項1のサーバ。
  3. 前記分布差異計算部は、前記出現確率の尤度から、負の対数尤度を計算する
    請求項2に記載のサーバ。
  4. 前記第1分布は、前記第1機種の端末装置の稼働データから算出される特徴量の確率分布であり、
    前記第2分布は、前記第2機種の端末装置の稼働データから算出される特徴量の確率分布であり、
    前記分布差異計算部は、前記確率分布間の距離を、前記差異情報として計算する
    請求項1ないし3のいずれか一項に記載のサーバ。
  5. 前記確率分布間の距離は、カルバック・ライブラー情報量である
    請求項4に記載のサーバ。
  6. 前記分布差異計算部は、前記第1機種の端末装置の稼働データから算出される特徴量と、前記第2機種の端末装置の稼働データから算出される特徴量との差分の最大値および最小値の少なくとも一方を計算する
    請求項1ないし5のいずれか一項に記載のサーバ。
  7. 前記分布差異計算部は、前記第1機種の端末装置の稼働データから算出される複数の特徴量間の相関係数と、前記第2機種の端末装置の稼働データから算出される複数の特徴量間の相関係数との差分を、前記差異情報として計算する
    請求項1ないし6のいずれか一項に記載のサーバ。
  8. 前記相関係数は、ピアソンの積律相関係数である
    請求項7に記載のサーバ。
  9. 前記分布差異計算部は、前記第1機種の端末装置の稼働データから算出される複数の特徴量間の共分散と、前記第2機種の端末装置の稼働データから算出される複数の特徴量間の共分散との差分を、前記差異情報として計算する
    請求項1ないし6のいずれか一項に記載のサーバ。
  10. 前記判定部の判定結果を、前記第1機種の端末装置に送信する判定結果送信部
    をさらに備えた請求項1ないし9のいずれか一項に記載のサーバ。
  11. 前記稼働データは複数の項目を含んでおり、
    前記特徴量は、前記稼働データの項目のうち所定の項目から算出され、
    前記第1機種の端末装置の稼働データの項目を検出する検出部と、
    前記検出部により検出した項目が、前記所定の項目を含んでいるかを判定する項目判定部と、を備え、
    前記判定部は、前記検出部により検出した項目が、前記所定の項目を含んでいないときは、前記故障予兆モデルの適用は不可であることを決定する
    請求項1ないし10のいずれか一項に記載のサーバ。
  12. 前記第1機種の端末装置は、記憶装置を備え、
    前記モデルは、前記第1機種の端末装置が備える記憶装置の故障の発生可能性を予測するものであり、
    前記稼働データは、前記記憶装置の稼働データを含む
    請求項1ないし11のいずれか一項に記載のサーバ。
  13. 前記第1機種の端末装置が備える記憶装置と、前記第2機種の端末装置が備える記憶装置の機種が互いに異なる
    請求項12に記載のサーバ。
  14. 前記第1機種の端末装置の稼働データを記憶する稼働データ記憶部と、
    前記稼働データ記憶部内の前記稼働データから、前記特徴量を計算する特徴量計算部
    をさらに備えた請求項1ないし13のいずれか一項に記載のサーバ。
  15. 前記モデルは、ロジスティック回帰モデル、サポートベクターマシン、または、線形判別モデルである
    請求項1に記載のサーバ。
  16. 第1機種の端末装置に、第2機種の端末装置の稼働データに基づき生成され、前記稼働データから計算される特徴量に基づき前記第2機種の端末装置の故障の発生可能性を予測するモデルを、適用可能か否か決定するための方法であって、
    前記第1機種の端末装置の稼働データから算出される特徴量の第1分布と、前記第1機種と異なる第2機種の端末装置の稼働データから算出される特徴量の第2分布との差異情報を計算する分布差異計算ステップと、
    前記差異情報に応じて、前記モデルを前記第1機種の端末装置で適用可能かを判定する判定ステップと、
    をコンピュータが実行するモデル適用可否判定方法。
  17. 第1機種の端末装置に、第2機種の端末装置の稼働データに基づき生成され、前記稼働データから計算される特徴量に基づき前記第2機種の端末装置の故障の発生可能性を予測するモデルを、適用可能か否か決定するための処理をコンピュータに実行させるためのコンピュータプログラムであって、
    前記第1機種の端末装置の稼働データから算出される特徴量の第1分布と、前記第1機種と異なる第2機種の端末装置の稼働データから算出される特徴量の第2分布との差異情報を計算する分布差異計算ステップと、
    前記差異情報に応じて、前記モデルを前記第1機種の端末装置で適用可能かを判定する判定ステップと、
    をコンピュータに実行させるためのコンピュータプログラム。
JP2014059008A 2014-03-20 2014-03-20 サーバ、モデル適用可否判定方法およびコンピュータプログラム Pending JP2015184818A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2014059008A JP2015184818A (ja) 2014-03-20 2014-03-20 サーバ、モデル適用可否判定方法およびコンピュータプログラム
US14/656,949 US9720759B2 (en) 2014-03-20 2015-03-13 Server, model applicability/non-applicability determining method and non-transitory computer readable medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014059008A JP2015184818A (ja) 2014-03-20 2014-03-20 サーバ、モデル適用可否判定方法およびコンピュータプログラム

Publications (1)

Publication Number Publication Date
JP2015184818A true JP2015184818A (ja) 2015-10-22

Family

ID=54142217

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014059008A Pending JP2015184818A (ja) 2014-03-20 2014-03-20 サーバ、モデル適用可否判定方法およびコンピュータプログラム

Country Status (2)

Country Link
US (1) US9720759B2 (ja)
JP (1) JP2015184818A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018197922A (ja) * 2017-05-23 2018-12-13 株式会社アイ・オー・データ機器 外部記憶装置
JP2019159730A (ja) * 2018-03-12 2019-09-19 株式会社リコー 保守システム、保守サーバ、保守方法
JP2021060715A (ja) * 2019-10-04 2021-04-15 キヤノンメディカルシステムズ株式会社 医用画像診断装置およびイベント発生予測方法
JP2023504658A (ja) * 2019-12-03 2023-02-06 シーメンス インダストリー ソフトウェア インコーポレイテッド 集積回路チップにおいて観察された異常の原因識別

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6393387B1 (en) * 1998-03-06 2002-05-21 Perot Systems Corporation System and method for model mining complex information technology systems
US6772285B2 (en) * 2000-11-30 2004-08-03 Emc Corporation System and method for identifying busy disk storage units
JP2004253035A (ja) 2003-02-19 2004-09-09 Nec Fielding Ltd ディスクドライブ品質監視システム、方法、プログラム
JP4337461B2 (ja) 2003-07-31 2009-09-30 富士電機ホールディングス株式会社 機器特性パラメータ推定装置及び機器特性パラメータ情報出力装置
GB2408360B (en) * 2003-11-21 2005-12-14 Toshiba Res Europ Ltd Performance analysis
US7031879B1 (en) * 2004-02-10 2006-04-18 Unisys Corporation System and method for determining dependencies between system resource performance characteristics
JP5034916B2 (ja) * 2007-12-10 2012-09-26 富士通セミコンダクター株式会社 性能評価モデル生成方法、システム性能評価方法、及び性能評価モデル生成装置
US7930593B2 (en) * 2008-06-23 2011-04-19 Hewlett-Packard Development Company, L.P. Segment-based technique and system for detecting performance anomalies and changes for a computer-based service
JP2010009160A (ja) * 2008-06-25 2010-01-14 Nec Corp 性能値算出装置
JP5457737B2 (ja) 2009-06-26 2014-04-02 国立大学法人京都大学 プラント制御情報生成装置及び方法、並びにそのためのコンピュータプログラム
US8340945B2 (en) * 2009-08-24 2012-12-25 International Business Machines Corporation Method for joint modeling of mean and dispersion
US8086899B2 (en) * 2010-03-25 2011-12-27 Microsoft Corporation Diagnosis of problem causes using factorization
WO2011128922A1 (en) * 2010-04-15 2011-10-20 Neptuny S.R.L. Automated upgrading method for capacity of it system resources
WO2012093469A1 (ja) * 2011-01-06 2012-07-12 日本電気株式会社 性能評価装置及び性能評価方法
JP5532150B2 (ja) * 2011-01-24 2014-06-25 日本電気株式会社 運用管理装置、運用管理方法、及びプログラム
JP6007906B2 (ja) * 2011-06-16 2016-10-19 日本電気株式会社 システム性能予測方法、情報処理装置およびその制御プログラム
US20130158950A1 (en) * 2011-08-10 2013-06-20 Opnet Technologies, Inc. Application performance analysis that is adaptive to business activity patterns
JP5729238B2 (ja) 2011-09-27 2015-06-03 日本電気株式会社 管理サーバ、異常予測システム、異常予測方法、及び、異常予測プログラム
JP5768796B2 (ja) * 2012-10-23 2015-08-26 日本電気株式会社 運用管理装置、運用管理方法、及び、プログラム
JP6055285B2 (ja) 2012-11-19 2016-12-27 株式会社東芝 データ保全装置およびその方法、システム
US8918583B2 (en) * 2012-12-20 2014-12-23 Virtium Technology, Inc. Adapting behavior of solid-state drive using real usage model
US9582395B2 (en) * 2013-03-14 2017-02-28 Netflix, Inc. Critical systems inspector

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018197922A (ja) * 2017-05-23 2018-12-13 株式会社アイ・オー・データ機器 外部記憶装置
JP2019159730A (ja) * 2018-03-12 2019-09-19 株式会社リコー 保守システム、保守サーバ、保守方法
JP7006396B2 (ja) 2018-03-12 2022-01-24 株式会社リコー 保守システム、保守サーバ、保守方法
JP2021060715A (ja) * 2019-10-04 2021-04-15 キヤノンメディカルシステムズ株式会社 医用画像診断装置およびイベント発生予測方法
JP7398232B2 (ja) 2019-10-04 2023-12-14 キヤノンメディカルシステムズ株式会社 医用画像診断装置およびイベント発生予測方法
JP2023504658A (ja) * 2019-12-03 2023-02-06 シーメンス インダストリー ソフトウェア インコーポレイテッド 集積回路チップにおいて観察された異常の原因識別
US11816016B2 (en) 2019-12-03 2023-11-14 Siemens Industry Software Inc. Identifying causes of anomalies observed in an integrated circuit chip
JP7425871B2 (ja) 2019-12-03 2024-01-31 シーメンス インダストリー ソフトウェア インコーポレイテッド 集積回路チップにおいて観察された異常の原因識別

Also Published As

Publication number Publication date
US9720759B2 (en) 2017-08-01
US20150269014A1 (en) 2015-09-24

Similar Documents

Publication Publication Date Title
US20200358826A1 (en) Methods and apparatus to assess compliance of a virtual computing environment
JP6571914B2 (ja) 情報の複数のドメインを組合せることによる仕事の実施データ内の異常の検知
US11531909B2 (en) Computer system and method for machine learning or inference
US10963807B2 (en) Social collaboration in probabilistic prediction
CN107480028B (zh) 磁盘可使用的剩余时长的获取方法及装置
WO2018157752A1 (en) Approximate random number generator by empirical cumulative distribution function
JP2015184823A (ja) モデルパラメータ算出装置、モデルパラメータ算出方法およびコンピュータプログラム
US20140188778A1 (en) Computer-Implemented System for Detecting Anomaly Conditions in a Fleet of Assets and Method of Using the Same
US20140188777A1 (en) Methods and systems for identifying a precursor to a failure of a component in a physical system
CN112700131B (zh) 基于人工智能的ab测试方法、装置、计算机设备及介质
JP2015184818A (ja) サーバ、モデル適用可否判定方法およびコンピュータプログラム
CN111598338B (zh) 用于更新预测模型的方法、装置、介质和电子设备
WO2021061090A1 (en) Time-series anomaly detection using an inverted index
JP6658507B2 (ja) 負荷推定システム、情報処理装置、負荷推定方法、及び、コンピュータ・プログラム
Wang An imperfect software debugging model considering irregular fluctuation of fault introduction rate
CN111897706A (zh) 服务器性能预测方法、装置、计算机系统和介质
CN110520702A (zh) 监视电子设备的热健康
Almomani et al. Selecting a good stochastic system for the large number of alternatives
WO2018201864A1 (zh) 一种数据库性能诊断方法、装置、设备以及存储介质
CN113296951A (zh) 一种资源配置方案确定方法及设备
CN110008098B (zh) 评估业务流程中的节点的运行状况的方法和装置
CN109344047B (zh) 系统回归测试方法、计算机可读存储介质和终端设备
Shahzad et al. Using wage rate analysis to determine software project scale
US10365893B2 (en) Sample-based multidimensional data cloning
CN113296990A (zh) 时序数据的异常识别方法及装置