JP2008299486A

JP2008299486A - データ削除装置並びにデータ削除のための方法およびプログラム

Info

Publication number: JP2008299486A
Application number: JP2007143118A
Authority: JP
Inventors: Toshiaki Hatano; 寿昭波田野
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2007-05-30
Filing date: 2007-05-30
Publication date: 2008-12-11

Abstract

【課題】少ない記憶容量しか備えていなくても必要に応じて即座に予測モデルの再構築を可能とする。
【解決手段】本発明の一態様としてのデータ削除装置は、２つ以上のセンサー値を含むデータを複数記憶するデータベースと、前記データベース内の各データに基づきあるセンサー値を他のセンサー値から予測する第１予測モデルを構築する第１モデル構築部と、前記データベース内の各データを第１データ群と第２データ群とに分割するデータ分割部と、前記第１データ群を用いて前記あるセンサー値を前記他のセンサー値から予測する第２予測モデルを構築する第２モデル構築部と、前記第１予測モデルと前記第２予測モデルとの間に有意な差があるか否かを検査する検査部と、有意な差がないと判断されたとき、前記第２データ群を前記データベースから削除するデータ削除部と、を備える。
【選択図】図４

Description

本発明は、データ削除装置並びにデータ削除のための方法およびプログラムに関する。

機器を監視するセンサーにより収集した観測データから予測モデルを構築することがよく行われる。予測モデルの構築後に、一部不適切なデータ（例えばセンサーが壊れていたときの値など）が、予測モデルの構築に用いたデータに含まれていたことが判明することが時々発生する。従来、このような場合に対応するためには、(1)予測モデル構築に用いた全データを記録しておき、記録したデータから不適切なデータを除いて予測モデルを再構築するか、逆に(2)予測モデル構築に用いたデータをすべて破棄している場合には予測モデル自体も破棄して新たに収集したデータで予測モデルを再構築する必要がある。(1)の方法はたくさんのデータを記録するための記憶領域が必要になる問題があり、(2)の方法は一つでも不適切なデータが発見されたときに新たな予測モデルの構築まで予測モデルの利用が全く出来ない問題がある。
統計的推測の漸近理論（前園宣彦,九州大学出版,2001(ISBN4-87378-696-7)p.79-p.86）最小２乗法その理論と実際（佐藤郁郎,山海堂,1997(ISBN4-381-09088-8)p.18〜p.20）

本発明は、少ない記憶容量しか備えていなくても必要に応じて即座に予測モデルの再構築を可能としたデータ削除装置並びにデータ削除のための方法およびプログラムを提供する。

本発明の一態様としてのデータ削除装置は、
２つ以上のセンサー値を含むデータを複数記憶するデータベースと、
前記データベース内の各データに基づきあるセンサー値を他のセンサー値から予測する第１予測モデルを構築する第１モデル構築部と、
前記データベース内の各データを第１データ群と第２データ群とに分割するデータ分割部と、
前記第１データ群を用いて前記あるセンサー値を前記他のセンサー値から予測する第２予測モデルを構築する第２モデル構築部と、
前記第１予測モデルと前記第２予測モデルとの間に有意な差があるか否かを検査する検査部と、
有意な差がないと判断されたとき、前記第２データ群を前記データベースから削除するデータ削除部と、
を備える。

本発明の一態様としてのデータ削除方法は、
２つ以上のセンサー値を含むデータを複数記憶するデータベースに基づき、あるセンサー値を他のセンサー値から予測する第１予測モデルを構築する第１モデル構築ステップと、
前記データベース内の各データを第１データ群と第２データ群とに分割するデータ分割ステップと、
前記第１データ群を用いて前記あるセンサー値を前記他のセンサー値から予測する第２予測モデルを構築する第２モデル構築ステップと、
前記第１予測モデルと前記第２予測モデルとの間に有意な差があるか否かを検査する検査ステップと、
有意な差がないと判断されたとき、前記第２データ群を前記データベースから削除するデータ削除ステップと、
を備えたことを特徴とする。

本発明の一態様としてのプログラムは、
２つ以上のセンサー値を含むデータを複数記憶するデータベースに基づき、あるセンサー値を他のセンサー値から予測する第１予測モデルを構築するステップと、
前記データベース内の各データを第１データ群と第２データ群とに分割するステップと、
前記第１データ群を用いて前記あるセンサー値を前記他のセンサー値から予測する第２予測モデルを構築するステップと、
前記第１予測モデルと前記第２予測モデルとの間に有意な差があるか否かを検査するステップと、
有意な差がないと判断されたとき、前記第２データ群を前記データベースから削除するステップと、
をコンピュータに実行させる。

本発明により、少ない記憶容量しか備えていなくても必要に応じて即座に予測モデルを再構築できる。

まず、本発明の実施の形態の特徴について説明すると簡単には以下の通りである。

本実施の形態では、センサーにより収集した観測データ（センサデータ）から予測モデルを構築する際に、観測データの予測モデルへの影響度（寄与度合）を計算し、影響度が低いデータは破棄し、影響度の高いデータは保持する。具体的には、予測モデルを構築した際、構築に用いたデータを、予測モデル（モデルパラメータ）の同定に影響の大きいものとそうでないものに分類し、影響の大きいデータは残し、影響の少ないデータは削除する。予測モデルの構築後に、観測データの一部が不適切であったことが判明した場合（たとえばある時刻のセンサー値を出力したセンサーがそのとき故障していたことが判明した場合）、そのデータが、予測モデル構築に大きな影響を与えるものでないとして既に削除されていれば何もせず（現状の予測モデルをそのまま使用し）、大きな影響を与えるものとして保存されていれば、そのデータを除き保存されているデータを用いて（さらに上記予測モデルの構築後に蓄積したデータを用いてもよい）予測モデルの再構築を行う。このようにすることで、保持するデータを予測モデル構築に影響の大きい一部のデータ集合に限定できるため記憶容量を小さくできるとともに、予測モデル構築後に不適切な観測データがあったことが判明した場合にその観測データが重要ものでなければ（モデルパラメータに支配的なものでなければ）予測モデルの再構築を行わなくてすむ。また、予測モデルの再構築が必要な場合も、記憶領域に保持されている、不適切なデータを除く重要なデータを用いて（さらに予測モデル構築後に蓄積したデータを用いてもよい）、即座に予測モデルを再構築することができる。

以下、添付図面を参照しながら、本発明の実施の形態について詳細に説明する。

図１は、本発明の実施の形態としてのデータ削除方法を実行するデータ削除装置の構成を示すブロック図である。

本データ削除装置は、データベース１０１と、モデル記憶部１０２と、データ分割部１０３と、モデル構築部（第１モデル構築部および第２モデル構築部）１０４と、モデル比較部（検査部）１０５と、データ削除部１０６とを備える。

データベース１０１は、機器（観測対象）を監視する複数のセンサー（センサー１〜センサーｍ：ｍは２以上の整数）により観測されたセンサー値を所定時間間隔で観測時刻とともに記録している。ある観測時刻において得られたセンサー値とその観測時刻との組は１つのデータ（レコード）をなす。データベース１０１の一例を図２内の左に示す。データベースにおける影響度フィールドは後に使用し、ここではまだ記入されていない。

データ分割部１０３は、データベース１０１内のデータ集合Dを、１つ以上のデータからなるデータ集合D1（第２データ群）と、データ集合Dからデータ集合D1を除いたデータ集合D2（第１データ群）とに分割する。分割では、複数の分割パターンでデータ分割を行っても良い。たとえば、時刻ｔ１のデータからなるデータ集合D1と、時刻ｔ１と異なる時刻ｔ２〜ｔ４からなるデータ集合D2とに分割する第１分割パターンと、時刻ｔ２のデータからなるデータ集合D1と、時刻ｔ２と異なる時刻ｔ１、ｔ３、ｔ４からなるデータ集合D2とに分割する第２分割パターンと、時刻ｔ３のデータからなるデータ集合D1と、時刻ｔ３と異なる時刻ｔ１、ｔ２、ｔ４からなるデータ集合D2とに分割する第３分割パターンと、時刻ｔ４のデータからなるデータ集合D1と、時刻ｔ４と異なる時刻ｔ１〜ｔ３からなるデータ集合D2とに分割する第４分割パターンとの４つの分割パターンでデータ分割を行っても良い。ただし、複数の分割パターンでデータ分割を行う場合、各分割パターンのデータ集合D1に含まれるデータは、１つたりとも共通しないものとする。

モデル構築部１０４は、データ集合Dを用いて、あるセンサーの値を他のセンサーの値から予測する予測モデルＡ（第１予測モデル）を構築する。予測モデルAは、たとえば機器にいつ故障が生じるか等の予測するために用いられる。予測モデルを用いた故障時期の予測等は当業者にとって周知であるためこれの詳細な説明は省略する。また、モデル構築部１０４は、分割パターンごとのデータ集合D2を用いて、上記あるセンサーの値を他のセンサーの値から予測する予測モデルＢ（第２予測モデル）を構築する。すなわち分割パターンの数と同数だけの予測モデルＢを構築する。予測モデルの構築は、たとえばあらかじめ与えられた、ある型をもつモデルのパラメータを求めるものである。

モデル記憶部１０２は、モデル構築部１０４によって構築された予測モデルAおよび予測モデルBを記録する。

モデル比較部１０５は、データ集合Dから構築された予測モデルＡと、データ集合D2から構築された分割パターンごとの予測モデルＢとの間に有意な差があるか否か（乖離の大きさ）を検査する。そして、有意な差があると判定した予測モデルＢについて、その予測モデルＢの構築の際に用いられなかったデータ集合D1はモデル構築のために重要であったとみなし、該データ集合D1に含まれるデータの影響度フィールドにフラグ「１」を記述する（図２の右上のデータベース１０１を参照）。図２の例では、第１分割パターンに基づき生成された予測モデルＢの構築の際に使用されなかった時刻ｔ１のデータと、第３分割パターンに基づき生成された予測モデルＢの構築の際に使用されなかった時刻３のデータはモデル構築に重要であったとみなされ影響度フィールドにフラグ「１」が記述されている。

データ削除部１０６は、モデル比較部１０５により有意な差がない（乖離が小さい）と判定された予測モデルＢの構築に用いられなかったデータ集合D1はモデル構築のために重要でなかったとみなし、該データ集合D1に含まれるデータをデータベース１０１から削除する。すなわち、データベース１０１の影響度フィールドにフラグ「１」が立っていないデータ（影響度フィールドが空白のデータ）をデータベース１０１から削除する（図２の右下のデータベース１０１を参照）。削除後に残ったデータの影響度フィールドは図示のようにクリアしてもよい。

ここで上記予測モデルAを構築する際に用いたある時刻のデータが後に不適切であることが判明したとする。このとき、本データ削除装置は、このデータがデータベース１０１に存在していれば、このデータが予測モデルAの構築に重要な影響を与えていると判断し、データベース１０１からこのデータを除いて再度、予測モデルを構築する。予測モデルの再構築の際には、たとえば、上記予測モデルAの構築後に新たにデータを蓄積していればこれらの蓄積されたデータと、上記予測モデルAを構築する際に用いたデータのうち不適切なデータを除いたものとを用いてもよい。あるいは、データベース１０１から上記不適切なデータを除いたもののみを用いて暫定的に予測モデルを構築し、後にデータを新たに収集し、収集したデータと、暫定的な予測モデルを構築する際に用いたデータとから、予測モデルを本格的に再構築してもよい。一方、不適切であるとされたデータがデータベース１０１に存在していなければ、このデータはモデルの構築に重要な影響を与えるものではないと判断し、予測モデルの再構築を行うことなく現状の予測モデルAをそのまま使用する。

なお、背景技術の欄での説明において公知文献として掲示した非特許文献１はいわゆるジャックナイフ法について説明したものである。ジャックナイフ法はN個あるデータからi番目のデータを除いたN-1個のデータ集合Siを作り、S1〜SNそれぞれについてモデルパラメータを同定することを行う。こうして求められたN個のモデルパラメータから真のモデルパラメータの推定を行う。本実施の形態のようにデータに重み付けを行うものではなく、したがってジャックナイフ法は本願発明とは無関係である。

また、非特許文献２は重み付き最小自乗法について説明したものである。重み付き最小自乗法は外れ値に小さな重みをつけることで、外れ値が混ざったデータから作られたモデルが外れ値に左右されにくくすることを目的とするものである。これも、本実施の形態のようにデータに重み付けを行うものではなく、したがって本願発明とは無関係である。

以下、本発明の実施例について説明する。

＜実施例１＞
本実施例では、複数のセンサー（センサーｘとセンサーｙとする）により収集したデータ（センサー値および観測時刻）を直線により近似する例を示す。すなわち予測モデルとして１次直線を用いる例を示す。まず本実施例の概要について説明すると以下の通りである。

図３に示すようにデータベース内のデータ集合D（たとえば全データ）を用いてｘからｙを求める直線Mを計算し、データ集合Dからあるデータ（データ１とする）を除いたデータ集合を用いてｘからｙを求める直線Ｍ１を計算し、データ集合Dから別のデータ（データ２とする）を除いたデータ集合を用いてｘからｙを求める直線Ｍ２を計算する。直線Ｍと直線Ｍ２との乖離は小さいが、直線Ｍと直線Ｍ１との乖離は大きいことが分かる。この場合、全データを用いて得られた直線Ｍとの乖離が大きい直線Ｍ１を計算するときに除かれたデータ１は重要であるとみなして保持し、直線Ｍとの乖離が大きい直線Ｍ２を計算するときに除かれたデータ２は重要でないとみなして削除する。このようにして保持すべきデータを一部のデータに限定することで記憶領域を節約する。以下、本実施例についてさらに詳細に説明する。

図４は、本実施例の動作の全体の流れを示すフローチャートである。

データベース１０１には図５に示すように時刻ｔ１〜ｔ１０におけるセンサーｘおよびセンサーｙの値が記憶されているとする。データベース１０１には逐次、データが追加されてもよいが、本実施例では時刻ｔ１〜ｔ１０までのデータを処理の対象とする。「ａ推定値」「ｂ推定値」「影響度」のフィールドは現時点では空白であるとする。

ステップＳ１において、モデル構築部１０４は、データベース１０１内の全データ（時刻ｔ１〜ｔ１０のデータ）を用いて、予測モデルＭを構築し、モデル記憶部１０２に記録する。予測モデルの構築は以下のモデル構築ルーチンに従う。

モデル構築ルーチン
ステップＡ１: 予測モデル構築に用いるデータを(xi,yi) (i=1,...,ｍ)とする。
ステップＡ２: 以下の量を計算する。

ステップＡ３：直線y=a x + bの係数を次式で算出する。

次に、ステップＳ２において、データiを含まないデータ集合Diを、i=1〜N（Nは総データ数）のN通り作成する（データ分割ルーチン）。すなわち、Ｎ通りの分割パターンでデータ分割を行う。図５のデータベース１０１の例では１０個のデータが含まれるため、１０個のデータ集合D1〜D10を作成する。各データ集合D1〜D10の内容は以下の通りとなる。

データ集合D1は時刻ｔ２〜ｔ１０のデータを含み、
データ集合D2は時刻ｔ１、ｔ３〜ｔ１０のデータを含み、
データ集合D3は時刻ｔ１、ｔ２、ｔ４〜ｔ１０のデータを含み、
データ集合D4は時刻ｔ１〜ｔ３、ｔ５〜ｔ１０のデータを含み、
データ集合D5は時刻ｔ１〜ｔ４、ｔ６〜ｔ１０のデータを含み、
データ集合D6は時刻ｔ１〜ｔ５、ｔ７〜ｔ１０のデータを含み、
データ集合D7は時刻ｔ１〜ｔ６、ｔ８〜ｔ１０のデータを含み、
データ集合D8は時刻ｔ１〜ｔ７、ｔ９、ｔ１０のデータを含み、
データ集合D9は時刻ｔ１〜ｔ８、ｔ１０のデータを含み、
データ集合D10は時刻ｔ１〜ｔ９のデータを含む。

次に、iに初期値である１を入力し（ステップＳ３）、iはＮを超えていないため（ステップＳ４のＮＯ）、データ集合Di（データ集合からデータi（時刻tiのデータ）を除いたもの）を用いて、上記モデル構築ルーチンにしたがい、予測モデルＭiを構築し、構築した予測モデルＭiをモデル記憶部１０２に記録する（ステップＳ５）。そしてiを１つインクリメントする（ステップＳ６）。iが１〜N(=10)の間、ステップＳ４〜Ｓ６を繰り返し、この結果、モデル記憶部１０２にはデータ集合D1〜D10から生成された予測モデルＭ１〜Ｍ１０が記録される。また、本実施例では予測モデルＭ１〜Ｍ１０のモデルパラメータを記録するフィールドが「a推定値」「b推定値」としてデータベース１０１に設けられており、これらのフィールドに各予測モデルＭ１〜Ｍ１０のパラメータa,bを図５に示すように記録する。i行目のa推定値、ｂ推定値は、i番目のデータを用いずに算出した予測モデル（y=a x + b）のモデルパラメータである。

iがN（=10）を超えたら（ステップＳ４のＹＥＳ）、以下に示すモデル比較ルーチンに従い、各予測モデルM1〜M10について、予測モデルMとの間に有意な差があるかどうかを検査する（ステップＳ７）。そして、有意な差があると判定された予測モデルの構築に使用されなかったデータはモデル構築に重要であるとみなして、該データの影響度フィールドにフラグ「１」を記述する。

モデル比較ルーチン
全データを用いて直線式を求めた際の係数a,bの分散

を次式で求める。ｍは直線（予測モデル）の構築に使用するデータ数である。

ただし

データ集合Diを用いて算出した直線の係数をa_i,b_iとしたときに、

［1］a-σ_a≦a_i≦a+σ_a
［2］b-σ_b≦b_i≦b+σ_b

の両方が満たされているならばデータ集合Diに含まれないデータ（データ集合D−データ集合Di）は、予測モデル構築に対する影響度が低いと判定し、そのデータに対応する影響度フィールドには何も記述しない。一方、上記[1][2]の少なくとも一方が満たされなければデータ集合Diに含まれないデータ（データ集合D−データ集合Di）の影響度は高いと判定し、そのデータに対応する影響度フィールドにフラグ「１」を立てる。

図５のデータベース１０１の例では、全データを用いて求めた係数a,bの推定値はa=2.14,b=0.65となる。また、各係数a,bの標準偏差（分散の平方根）は上記式（２）に基づきσ_a=0.09,σ_b=0.33と求められる。なお、データベース１０１内の各データのa_i,b_iをもとに、a,bの標準偏差を求めてもよい。標準偏差または分散はばらつきの一例である。

全データを使って求めた係数の推定値±標準偏差の間にa_i,b_i両方の推定値が収まっているものは（上記[1][2]の両方を満たすものは）データ２，３，５〜７，９である。したがって、これらのデータはモデル構築に対する影響度が低く、それ以外のデータ１，４，８，１０はモデル構築に対する影響度が高いと見なし、図５に示すように、データ１，４，８，１０の影響度フィールドにフラグ「１」をたてる。

この後、ステップＳ８において、データベース１０１から、フラグ「１」の立っていないデータ２，３，５〜７，９を削除し、それ以外のデータ１，４，８，１０をそのまま保持する。

＜実施例２＞
実施例１のデータ分割ルーチン（ステップＳ２）では個々のデータiに対し、それを含まないデータ集合（データ集合D−データi）を生成したが、本実施例におけるデータ分割ルーチンでは、データ集合Dを、モデル構築に用いない２つ以上のデータからなるデータ群Dｍと、それ以外のデータ群D-Dｍとに分割するパターンを複数用意し、各パターンでデータ分割を行う。すなわち実施例１ではモデル構築に用いないデータは常に１つであったが、本実施例では、モデル構築に使用しないデータは常に複数（２つ以上）である。各分割パターンにおいては、先に少し述べたように、共通するデータが各データ群Dｍに含まれないものとする。たとえば、図５のデータベース例において、３つの分割パターンでデータ分割を行うとき、１つ目の分割パターンにおけるデータ群D1（ｍ＝１）をデータ１〜３、２つ目の分割パターンにおけるデータ群D2（ｍ＝２）をデータ４〜６、３つ目の分割パターンにおけるデータ群D3（ｍ＝３）をデータ７〜１０とする。各データ群D1〜D3には同一のデータは含まれない。

データ分割は、事前にデータをクラスタリングし、クラスタ単位で行ってもよい。たとえばデータ集合Dをｋ個のクラスタC1,C2,...,Ckに分け、クラスタm（m=1〜k）に含まれるデータ群をDmとし、クラスタｍに含まれるデータ群を除いたデータ集合をD-Dmとすることもできる。クラスタリングはK-Means法などにより行っても良い。またクラスタリングは、図５のデータベース例では、ｘ、ｙの両方を用いて行ってもよいし、ｘだけを用いて行ってもよい。

＜実施例３＞
実施例１では予測モデルとして１次直線を用いたが、ｎ次曲線を採用しても良い。ｎ次曲線の数式は

となり、最小自乗法で係数a₀〜a_nを決めることができる。

実施例１のように、全データを用いて算出される係数値と、各々の係数の標準偏差とから、各係数について影響度が低いとみなす範囲を求めても良いし、n+1次元空間上でのマハラノビス距離を用いて標準値からの係数の外れ具合を求め、外れている係数を算出した際に除かれていたデータ群を影響度「大」と判断しても良い。

なお、本データ削除装置は、例えば、汎用のコンピュータ装置を基本ハードウェアとして用いることでも実現することが可能である。すなわち、データ分割部１０３と、モデル構築部（第１モデル構築部および第２モデル構築部）１０４と、モデル比較部（検査部）１０５と、データ削除部１０６は、上記のコンピュータ装置に搭載されたプロセッサにプログラムを実行させることにより実現することができる。このとき、本データ削除装置は、上記のプログラムをコンピュータ装置にあらかじめインストールすることで実現してもよいし、ＣＤ−ＲＯＭなどの記憶媒体に記憶して、あるいはネットワークを介して上記のプログラムを配布して、このプログラムをコンピュータ装置に適宜インストールすることで実現してもよい。また、データベース１０１と、モデル記憶部１０２とは、上記のコンピュータ装置に内蔵あるいは外付けされたメモリ、ハードディスクもしくはＣＤ−Ｒ、ＣＤ−ＲＷ、ＤＶＤ−ＲＡＭ、ＤＶＤ−Ｒなどの記憶媒体などを適宜利用して実現することができる。

本発明の一実施の形態としてのデータ削除装置の構成を示すブロック図データベースの例を示す図実施例１の概要を説明する図実施例１の動作の全体の流れを示すフローチャート実施例１で用いるデータベースの例を示す図

符号の説明

１０１：データベース
１０２：モデル記憶部
１０３：データ分割部
１０４：モデル構築部（第１モデル構築部、第２モデル構築部）
１０５：モデル比較部（検査部）
１０６：データ削除部

Claims

２つ以上のセンサー値を含むデータを複数記憶するデータベースと、
前記データベース内の各データに基づきあるセンサー値を他のセンサー値から予測する第１予測モデルを構築する第１モデル構築部と、
前記データベース内の各データを第１データ群と第２データ群とに分割するデータ分割部と、
前記第１データ群を用いて前記あるセンサー値を前記他のセンサー値から予測する第２予測モデルを構築する第２モデル構築部と、
前記第１予測モデルと前記第２予測モデルとの間に有意な差があるか否かを検査する検査部と、
有意な差がないと判断されたとき、前記第２データ群を前記データベースから削除するデータ削除部と、
を備えたデータ削除装置。
前記データ分割部は、各々の第２データ群に含まれるデータが重複しないように複数の分割パターンでデータ分割を行い、
前記第２モデル構築部は、前記分割パターンごとに前記第２予測モデルを構築し、
前記検査部は、各前記第２予測モデルと、前記第１予測モデルとの間に有意な差があるか否かを検査し、
前記データ削除部は、有意な差がないと判断された第２予測モデルに対応する第２データ群を前記データベースから削除することを特徴とする請求項１に記載のデータ削除装置。
前記データ分割部は、前記第２データ群に含まれるデータ数が１つになるように、前記データベース内の前記各データの個数の分割パターンで前記データ分割を行うことを特徴とする請求項２に記載のデータ削除装置。
前記データ分割部は、前記データベース内の各データをクラスタリングによってｋ個のクラスタに分割し、それぞれ異なるクラスタが前記第２データ群に含まれるようにｋ個の分割パターンで前記データ分割を行うことを特徴とする請求項２に記載のデータ削除装置。
前記検査部は、各前記第２予測モデルのモデルパラメータのばらつきを計算し、
前記データ削除部は、前記第１予測モデルのモデルパラメータに対し前記ばらつきの範囲に前記第２予測モデルのモデルパラメータが含まれるとき、前記第１予測モデルと前記第２予測モデルとの間に有意な差がないと判断することを特徴とする請求項２に記載のデータ削除装置。
２つ以上のセンサー値を含むデータを複数記憶するデータベースに基づき、あるセンサー値を他のセンサー値から予測する第１予測モデルを構築する第１モデル構築ステップと、
前記データベース内の各データを第１データ群と第２データ群とに分割するデータ分割ステップと、
前記第１データ群を用いて前記あるセンサー値を前記他のセンサー値から予測する第２予測モデルを構築する第２モデル構築ステップと、
前記第１予測モデルと前記第２予測モデルとの間に有意な差があるか否かを検査する検査ステップと、
有意な差がないと判断されたとき、前記第２データ群を前記データベースから削除するデータ削除ステップと、
を備えたデータ削除方法。
前記データ分割ステップは、各々の第２データ群に含まれるデータが重複しないように複数の分割パターンでデータ分割を行い、
前記第２モデル構築ステップは、前記分割パターンごとに前記第２予測モデルを構築し、
前記検査ステップは、各前記第２予測モデルと、前記第１予測モデルとの間に有意な差があるか否かを検査し、
前記データ削除ステップは、有意な差がないと判断された第２予測モデルに対応する第２データ群を前記データベースから削除することを特徴とする請求項６に記載のデータ削除方法。
前記データ分割ステップは、前記第２データ群に含まれるデータ数が１つになるように、前記データベース内の前記各データの個数の分割パターンで前記データ分割を行うことを特徴とする請求項７に記載のデータ削除方法。
前記データ分割ステップは、前記データベース内の各データをクラスタリングによってｋ個のクラスタに分割し、それぞれ異なるクラスタが前記第２データ群に含まれるようにｋ個の分割パターンで前記データ分割を行うことを特徴とする請求項７に記載のデータ削除方法。
前記検査ステップは、各前記第２予測モデルのモデルパラメータのばらつきを計算し、
前記データ削除ステップは、前記第１予測モデルのモデルパラメータに対し前記ばらつきの範囲に前記第２予測モデルのモデルパラメータが含まれるとき、前記第１予測モデルと前記第２予測モデルとの間に有意な差がないと判断することを特徴とする請求項７に記載のデータ削除方法。
２つ以上のセンサー値を含むデータを複数記憶するデータベースに基づき、あるセンサー値を他のセンサー値から予測する第１予測モデルを構築するステップと、
前記データベース内の各データを第１データ群と第２データ群とに分割するステップと、
前記第１データ群を用いて前記あるセンサー値を前記他のセンサー値から予測する第２予測モデルを構築するステップと、
前記第１予測モデルと前記第２予測モデルとの間に有意な差があるか否かを検査するステップと、
有意な差がないと判断されたとき、前記第２データ群を前記データベースから削除するステップと、
をコンピュータに実行させるためのプログラム。