JP2008299486A - データ削除装置並びにデータ削除のための方法およびプログラム - Google Patents
データ削除装置並びにデータ削除のための方法およびプログラム Download PDFInfo
- Publication number
- JP2008299486A JP2008299486A JP2007143118A JP2007143118A JP2008299486A JP 2008299486 A JP2008299486 A JP 2008299486A JP 2007143118 A JP2007143118 A JP 2007143118A JP 2007143118 A JP2007143118 A JP 2007143118A JP 2008299486 A JP2008299486 A JP 2008299486A
- Authority
- JP
- Japan
- Prior art keywords
- data
- prediction model
- database
- model
- division
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012217 deletion Methods 0.000 title claims abstract description 38
- 230000037430 deletion Effects 0.000 title claims abstract description 38
- 238000000034 method Methods 0.000 title claims description 19
- 238000010276 construction Methods 0.000 claims abstract description 49
- 238000007689 inspection Methods 0.000 claims abstract description 11
- 238000010586 diagram Methods 0.000 description 3
- 230000000717 retained effect Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 1
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
【課題】少ない記憶容量しか備えていなくても必要に応じて即座に予測モデルの再構築を可能とする。
【解決手段】本発明の一態様としてのデータ削除装置は、2つ以上のセンサー値を含むデータを複数記憶するデータベースと、前記データベース内の各データに基づきあるセンサー値を他のセンサー値から予測する第1予測モデルを構築する第1モデル構築部と、前記データベース内の各データを第1データ群と第2データ群とに分割するデータ分割部と、前記第1データ群を用いて前記あるセンサー値を前記他のセンサー値から予測する第2予測モデルを構築する第2モデル構築部と、前記第1予測モデルと前記第2予測モデルとの間に有意な差があるか否かを検査する検査部と、有意な差がないと判断されたとき、前記第2データ群を前記データベースから削除するデータ削除部と、を備える。
【選択図】図4
【解決手段】本発明の一態様としてのデータ削除装置は、2つ以上のセンサー値を含むデータを複数記憶するデータベースと、前記データベース内の各データに基づきあるセンサー値を他のセンサー値から予測する第1予測モデルを構築する第1モデル構築部と、前記データベース内の各データを第1データ群と第2データ群とに分割するデータ分割部と、前記第1データ群を用いて前記あるセンサー値を前記他のセンサー値から予測する第2予測モデルを構築する第2モデル構築部と、前記第1予測モデルと前記第2予測モデルとの間に有意な差があるか否かを検査する検査部と、有意な差がないと判断されたとき、前記第2データ群を前記データベースから削除するデータ削除部と、を備える。
【選択図】図4
Description
本発明は、データ削除装置並びにデータ削除のための方法およびプログラムに関する。
機器を監視するセンサーにより収集した観測データから予測モデルを構築することがよく行われる。予測モデルの構築後に、一部不適切なデータ(例えばセンサーが壊れていたときの値など)が、予測モデルの構築に用いたデータに含まれていたことが判明することが時々発生する。従来、このような場合に対応するためには、(1)予測モデル構築に用いた全データを記録しておき、記録したデータから不適切なデータを除いて予測モデルを再構築するか、逆に(2)予測モデル構築に用いたデータをすべて破棄している場合には予測モデル自体も破棄して新たに収集したデータで予測モデルを再構築する必要がある。(1)の方法はたくさんのデータを記録するための記憶領域が必要になる問題があり、(2)の方法は一つでも不適切なデータが発見されたときに新たな予測モデルの構築まで予測モデルの利用が全く出来ない問題がある。
統計的推測の漸近理論(前園宣彦,九州大学出版,2001(ISBN4-87378-696-7)p.79-p.86) 最小2乗法その理論と実際(佐藤郁郎,山海堂,1997(ISBN4-381-09088-8)p.18〜p.20)
統計的推測の漸近理論(前園宣彦,九州大学出版,2001(ISBN4-87378-696-7)p.79-p.86) 最小2乗法その理論と実際(佐藤郁郎,山海堂,1997(ISBN4-381-09088-8)p.18〜p.20)
本発明は、少ない記憶容量しか備えていなくても必要に応じて即座に予測モデルの再構築を可能としたデータ削除装置並びにデータ削除のための方法およびプログラムを提供する。
本発明の一態様としてのデータ削除装置は、
2つ以上のセンサー値を含むデータを複数記憶するデータベースと、
前記データベース内の各データに基づきあるセンサー値を他のセンサー値から予測する第1予測モデルを構築する第1モデル構築部と、
前記データベース内の各データを第1データ群と第2データ群とに分割するデータ分割部と、
前記第1データ群を用いて前記あるセンサー値を前記他のセンサー値から予測する第2予測モデルを構築する第2モデル構築部と、
前記第1予測モデルと前記第2予測モデルとの間に有意な差があるか否かを検査する検査部と、
有意な差がないと判断されたとき、前記第2データ群を前記データベースから削除するデータ削除部と、
を備える。
2つ以上のセンサー値を含むデータを複数記憶するデータベースと、
前記データベース内の各データに基づきあるセンサー値を他のセンサー値から予測する第1予測モデルを構築する第1モデル構築部と、
前記データベース内の各データを第1データ群と第2データ群とに分割するデータ分割部と、
前記第1データ群を用いて前記あるセンサー値を前記他のセンサー値から予測する第2予測モデルを構築する第2モデル構築部と、
前記第1予測モデルと前記第2予測モデルとの間に有意な差があるか否かを検査する検査部と、
有意な差がないと判断されたとき、前記第2データ群を前記データベースから削除するデータ削除部と、
を備える。
本発明の一態様としてのデータ削除方法は、
2つ以上のセンサー値を含むデータを複数記憶するデータベースに基づき、あるセンサー値を他のセンサー値から予測する第1予測モデルを構築する第1モデル構築ステップと、
前記データベース内の各データを第1データ群と第2データ群とに分割するデータ分割ステップと、
前記第1データ群を用いて前記あるセンサー値を前記他のセンサー値から予測する第2予測モデルを構築する第2モデル構築ステップと、
前記第1予測モデルと前記第2予測モデルとの間に有意な差があるか否かを検査する検査ステップと、
有意な差がないと判断されたとき、前記第2データ群を前記データベースから削除するデータ削除ステップと、
を備えたことを特徴とする。
2つ以上のセンサー値を含むデータを複数記憶するデータベースに基づき、あるセンサー値を他のセンサー値から予測する第1予測モデルを構築する第1モデル構築ステップと、
前記データベース内の各データを第1データ群と第2データ群とに分割するデータ分割ステップと、
前記第1データ群を用いて前記あるセンサー値を前記他のセンサー値から予測する第2予測モデルを構築する第2モデル構築ステップと、
前記第1予測モデルと前記第2予測モデルとの間に有意な差があるか否かを検査する検査ステップと、
有意な差がないと判断されたとき、前記第2データ群を前記データベースから削除するデータ削除ステップと、
を備えたことを特徴とする。
本発明の一態様としてのプログラムは、
2つ以上のセンサー値を含むデータを複数記憶するデータベースに基づき、あるセンサー値を他のセンサー値から予測する第1予測モデルを構築するステップと、
前記データベース内の各データを第1データ群と第2データ群とに分割するステップと、
前記第1データ群を用いて前記あるセンサー値を前記他のセンサー値から予測する第2予測モデルを構築するステップと、
前記第1予測モデルと前記第2予測モデルとの間に有意な差があるか否かを検査するステップと、
有意な差がないと判断されたとき、前記第2データ群を前記データベースから削除するステップと、
をコンピュータに実行させる。
2つ以上のセンサー値を含むデータを複数記憶するデータベースに基づき、あるセンサー値を他のセンサー値から予測する第1予測モデルを構築するステップと、
前記データベース内の各データを第1データ群と第2データ群とに分割するステップと、
前記第1データ群を用いて前記あるセンサー値を前記他のセンサー値から予測する第2予測モデルを構築するステップと、
前記第1予測モデルと前記第2予測モデルとの間に有意な差があるか否かを検査するステップと、
有意な差がないと判断されたとき、前記第2データ群を前記データベースから削除するステップと、
をコンピュータに実行させる。
本発明により、少ない記憶容量しか備えていなくても必要に応じて即座に予測モデルを再構築できる。
まず、本発明の実施の形態の特徴について説明すると簡単には以下の通りである。
本実施の形態では、センサーにより収集した観測データ(センサデータ)から予測モデルを構築する際に、観測データの予測モデルへの影響度(寄与度合)を計算し、影響度が低いデータは破棄し、影響度の高いデータは保持する。具体的には、予測モデルを構築した際、構築に用いたデータを、予測モデル(モデルパラメータ)の同定に影響の大きいものとそうでないものに分類し、影響の大きいデータは残し、影響の少ないデータは削除する。予測モデルの構築後に、観測データの一部が不適切であったことが判明した場合(たとえばある時刻のセンサー値を出力したセンサーがそのとき故障していたことが判明した場合)、そのデータが、予測モデル構築に大きな影響を与えるものでないとして既に削除されていれば何もせず(現状の予測モデルをそのまま使用し)、大きな影響を与えるものとして保存されていれば、そのデータを除き保存されているデータを用いて(さらに上記予測モデルの構築後に蓄積したデータを用いてもよい)予測モデルの再構築を行う。このようにすることで、保持するデータを予測モデル構築に影響の大きい一部のデータ集合に限定できるため記憶容量を小さくできるとともに、予測モデル構築後に不適切な観測データがあったことが判明した場合にその観測データが重要ものでなければ(モデルパラメータに支配的なものでなければ)予測モデルの再構築を行わなくてすむ。また、予測モデルの再構築が必要な場合も、記憶領域に保持されている、不適切なデータを除く重要なデータを用いて(さらに予測モデル構築後に蓄積したデータを用いてもよい)、即座に予測モデルを再構築することができる。
以下、添付図面を参照しながら、本発明の実施の形態について詳細に説明する。
図1は、本発明の実施の形態としてのデータ削除方法を実行するデータ削除装置の構成を示すブロック図である。
本データ削除装置は、データベース101と、モデル記憶部102と、データ分割部103と、モデル構築部(第1モデル構築部および第2モデル構築部)104と、モデル比較部(検査部)105と、データ削除部106とを備える。
データベース101は、機器(観測対象)を監視する複数のセンサー(センサー1〜センサーm:mは2以上の整数)により観測されたセンサー値を所定時間間隔で観測時刻とともに記録している。ある観測時刻において得られたセンサー値とその観測時刻との組は1つのデータ(レコード)をなす。データベース101の一例を図2内の左に示す。データベースにおける影響度フィールドは後に使用し、ここではまだ記入されていない。
データ分割部103は、データベース101内のデータ集合Dを、1つ以上のデータからなるデータ集合D1(第2データ群)と、データ集合Dからデータ集合D1を除いたデータ集合D2(第1データ群)とに分割する。分割では、複数の分割パターンでデータ分割を行っても良い。たとえば、時刻t1のデータからなるデータ集合D1と、時刻t1と異なる時刻t2〜t4からなるデータ集合D2とに分割する第1分割パターンと、時刻t2のデータからなるデータ集合D1と、時刻t2と異なる時刻t1、t3、t4からなるデータ集合D2とに分割する第2分割パターンと、時刻t3のデータからなるデータ集合D1と、時刻t3と異なる時刻t1、t2、t4からなるデータ集合D2とに分割する第3分割パターンと、時刻t4のデータからなるデータ集合D1と、時刻t4と異なる時刻t1〜t3からなるデータ集合D2とに分割する第4分割パターンとの4つの分割パターンでデータ分割を行っても良い。ただし、複数の分割パターンでデータ分割を行う場合、各分割パターンのデータ集合D1に含まれるデータは、1つたりとも共通しないものとする。
モデル構築部104は、データ集合Dを用いて、あるセンサーの値を他のセンサーの値から予測する予測モデルA(第1予測モデル)を構築する。予測モデルAは、たとえば機器にいつ故障が生じるか等の予測するために用いられる。予測モデルを用いた故障時期の予測等は当業者にとって周知であるためこれの詳細な説明は省略する。また、モデル構築部104は、分割パターンごとのデータ集合D2を用いて、上記あるセンサーの値を他のセンサーの値から予測する予測モデルB(第2予測モデル)を構築する。すなわち分割パターンの数と同数だけの予測モデルBを構築する。予測モデルの構築は、たとえばあらかじめ与えられた、ある型をもつモデルのパラメータを求めるものである。
モデル記憶部102は、モデル構築部104によって構築された予測モデルAおよび予測モデルBを記録する。
モデル比較部105は、データ集合Dから構築された予測モデルAと、データ集合D2から構築された分割パターンごとの予測モデルBとの間に有意な差があるか否か(乖離の大きさ)を検査する。そして、有意な差があると判定した予測モデルBについて、その予測モデルBの構築の際に用いられなかったデータ集合D1はモデル構築のために重要であったとみなし、該データ集合D1に含まれるデータの影響度フィールドにフラグ「1」を記述する(図2の右上のデータベース101を参照)。図2の例では、第1分割パターンに基づき生成された予測モデルBの構築の際に使用されなかった時刻t1のデータと、第3分割パターンに基づき生成された予測モデルBの構築の際に使用されなかった時刻3のデータはモデル構築に重要であったとみなされ影響度フィールドにフラグ「1」が記述されている。
データ削除部106は、モデル比較部105により有意な差がない(乖離が小さい)と判定された予測モデルBの構築に用いられなかったデータ集合D1はモデル構築のために重要でなかったとみなし、該データ集合D1に含まれるデータをデータベース101から削除する。すなわち、データベース101の影響度フィールドにフラグ「1」が立っていないデータ(影響度フィールドが空白のデータ)をデータベース101から削除する(図2の右下のデータベース101を参照)。削除後に残ったデータの影響度フィールドは図示のようにクリアしてもよい。
ここで上記予測モデルAを構築する際に用いたある時刻のデータが後に不適切であることが判明したとする。このとき、本データ削除装置は、このデータがデータベース101に存在していれば、このデータが予測モデルAの構築に重要な影響を与えていると判断し、データベース101からこのデータを除いて再度、予測モデルを構築する。予測モデルの再構築の際には、たとえば、上記予測モデルAの構築後に新たにデータを蓄積していればこれらの蓄積されたデータと、上記予測モデルAを構築する際に用いたデータのうち不適切なデータを除いたものとを用いてもよい。あるいは、データベース101から上記不適切なデータを除いたもののみを用いて暫定的に予測モデルを構築し、後にデータを新たに収集し、収集したデータと、暫定的な予測モデルを構築する際に用いたデータとから、予測モデルを本格的に再構築してもよい。一方、不適切であるとされたデータがデータベース101に存在していなければ、このデータはモデルの構築に重要な影響を与えるものではないと判断し、予測モデルの再構築を行うことなく現状の予測モデルAをそのまま使用する。
なお、背景技術の欄での説明において公知文献として掲示した非特許文献1はいわゆるジャックナイフ法について説明したものである。ジャックナイフ法はN個あるデータからi番目のデータを除いたN-1個のデータ集合Siを作り、S1〜SNそれぞれについてモデルパラメータを同定することを行う。こうして求められたN個のモデルパラメータから真のモデルパラメータの推定を行う。本実施の形態のようにデータに重み付けを行うものではなく、したがってジャックナイフ法は本願発明とは無関係である。
また、非特許文献2は重み付き最小自乗法について説明したものである。重み付き最小自乗法は外れ値に小さな重みをつけることで、外れ値が混ざったデータから作られたモデルが外れ値に左右されにくくすることを目的とするものである。これも、本実施の形態のようにデータに重み付けを行うものではなく、したがって本願発明とは無関係である。
以下、本発明の実施例について説明する。
<実施例1>
本実施例では、複数のセンサー(センサーxとセンサーyとする)により収集したデータ(センサー値および観測時刻)を直線により近似する例を示す。すなわち予測モデルとして1次直線を用いる例を示す。まず本実施例の概要について説明すると以下の通りである。
本実施例では、複数のセンサー(センサーxとセンサーyとする)により収集したデータ(センサー値および観測時刻)を直線により近似する例を示す。すなわち予測モデルとして1次直線を用いる例を示す。まず本実施例の概要について説明すると以下の通りである。
図3に示すようにデータベース内のデータ集合D(たとえば全データ)を用いてxからyを求める直線Mを計算し、データ集合Dからあるデータ(データ1とする)を除いたデータ集合を用いてxからyを求める直線M1を計算し、データ集合Dから別のデータ(データ2とする)を除いたデータ集合を用いてxからyを求める直線M2を計算する。直線Mと直線M2との乖離は小さいが、直線Mと直線M1との乖離は大きいことが分かる。この場合、全データを用いて得られた直線Mとの乖離が大きい直線M1を計算するときに除かれたデータ1は重要であるとみなして保持し、直線Mとの乖離が大きい直線M2を計算するときに除かれたデータ2は重要でないとみなして削除する。このようにして保持すべきデータを一部のデータに限定することで記憶領域を節約する。以下、本実施例についてさらに詳細に説明する。
図4は、本実施例の動作の全体の流れを示すフローチャートである。
データベース101には図5に示すように時刻t1〜t10におけるセンサーxおよびセンサーyの値が記憶されているとする。データベース101には逐次、データが追加されてもよいが、本実施例では時刻t1〜t10までのデータを処理の対象とする。「a推定値」「b推定値」「影響度」のフィールドは現時点では空白であるとする。
ステップS1において、モデル構築部104は、データベース101内の全データ(時刻t1〜t10のデータ)を用いて、予測モデルMを構築し、モデル記憶部102に記録する。予測モデルの構築は以下のモデル構築ルーチンに従う。
モデル構築ルーチン
ステップA1: 予測モデル構築に用いるデータを(xi,yi) (i=1,...,m)とする。
ステップA2: 以下の量を計算する。
ステップA3:直線y=a x + bの係数を次式で算出する。
ステップA1: 予測モデル構築に用いるデータを(xi,yi) (i=1,...,m)とする。
ステップA2: 以下の量を計算する。
次に、ステップS2において、データiを含まないデータ集合Diを、i=1〜N(Nは総データ数)のN通り作成する(データ分割ルーチン)。すなわち、N通りの分割パターンでデータ分割を行う。図5のデータベース101の例では10個のデータが含まれるため、10個のデータ集合D1〜D10を作成する。各データ集合D1〜D10の内容は以下の通りとなる。
データ集合D1は時刻t2〜t10のデータを含み、
データ集合D2は時刻t1、t3〜t10のデータを含み、
データ集合D3は時刻t1、t2、t4〜t10のデータを含み、
データ集合D4は時刻t1〜t3、t5〜t10のデータを含み、
データ集合D5は時刻t1〜t4、t6〜t10のデータを含み、
データ集合D6は時刻t1〜t5、t7〜t10のデータを含み、
データ集合D7は時刻t1〜t6、t8〜t10のデータを含み、
データ集合D8は時刻t1〜t7、t9、t10のデータを含み、
データ集合D9は時刻t1〜t8、t10のデータを含み、
データ集合D10は時刻t1〜t9のデータを含む。
データ集合D1は時刻t2〜t10のデータを含み、
データ集合D2は時刻t1、t3〜t10のデータを含み、
データ集合D3は時刻t1、t2、t4〜t10のデータを含み、
データ集合D4は時刻t1〜t3、t5〜t10のデータを含み、
データ集合D5は時刻t1〜t4、t6〜t10のデータを含み、
データ集合D6は時刻t1〜t5、t7〜t10のデータを含み、
データ集合D7は時刻t1〜t6、t8〜t10のデータを含み、
データ集合D8は時刻t1〜t7、t9、t10のデータを含み、
データ集合D9は時刻t1〜t8、t10のデータを含み、
データ集合D10は時刻t1〜t9のデータを含む。
次に、iに初期値である1を入力し(ステップS3)、iはNを超えていないため(ステップS4のNO)、データ集合Di(データ集合からデータi(時刻tiのデータ)を除いたもの)を用いて、上記モデル構築ルーチンにしたがい、予測モデルMiを構築し、構築した予測モデルMiをモデル記憶部102に記録する(ステップS5)。そしてiを1つインクリメントする(ステップS6)。iが1〜N(=10)の間、ステップS4〜S6を繰り返し、この結果、モデル記憶部102にはデータ集合D1〜D10から生成された予測モデルM1〜M10が記録される。また、本実施例では予測モデルM1〜M10のモデルパラメータを記録するフィールドが「a推定値」「b推定値」としてデータベース101に設けられており、これらのフィールドに各予測モデルM1〜M10のパラメータa,bを図5に示すように記録する。i行目のa推定値、b推定値は、i番目のデータを用いずに算出した予測モデル(y=a x + b)のモデルパラメータである。
iがN(=10)を超えたら(ステップS4のYES)、以下に示すモデル比較ルーチンに従い、各予測モデルM1〜M10について、予測モデルMとの間に有意な差があるかどうかを検査する(ステップS7)。そして、有意な差があると判定された予測モデルの構築に使用されなかったデータはモデル構築に重要であるとみなして、該データの影響度フィールドにフラグ「1」を記述する。
データ集合Diを用いて算出した直線の係数をai,biとしたときに、
[1]a-σa≦ai≦a+σa
[2]b-σb≦bi≦b+σb
の両方が満たされているならばデータ集合Diに含まれないデータ(データ集合D−データ集合Di)は、予測モデル構築に対する影響度が低いと判定し、そのデータに対応する影響度フィールドには何も記述しない。一方、上記[1][2]の少なくとも一方が満たされなければデータ集合Diに含まれないデータ(データ集合D−データ集合Di)の影響度は高いと判定し、そのデータに対応する影響度フィールドにフラグ「1」を立てる。
[1]a-σa≦ai≦a+σa
[2]b-σb≦bi≦b+σb
の両方が満たされているならばデータ集合Diに含まれないデータ(データ集合D−データ集合Di)は、予測モデル構築に対する影響度が低いと判定し、そのデータに対応する影響度フィールドには何も記述しない。一方、上記[1][2]の少なくとも一方が満たされなければデータ集合Diに含まれないデータ(データ集合D−データ集合Di)の影響度は高いと判定し、そのデータに対応する影響度フィールドにフラグ「1」を立てる。
図5のデータベース101の例では、全データを用いて求めた係数a,bの推定値はa=2.14,b=0.65となる。また、各係数a,bの標準偏差(分散の平方根)は上記式(2)に基づきσa=0.09,σb=0.33と求められる。なお、データベース101内の各データのai,biをもとに、a,bの標準偏差を求めてもよい。標準偏差または分散はばらつきの一例である。
全データを使って求めた係数の推定値±標準偏差の間にai,bi両方の推定値が収まっているものは(上記[1][2]の両方を満たすものは)データ2,3,5〜7,9である。したがって、これらのデータはモデル構築に対する影響度が低く、それ以外のデータ1,4,8,10はモデル構築に対する影響度が高いと見なし、図5に示すように、データ1,4,8,10の影響度フィールドにフラグ「1」をたてる。
この後、ステップS8において、データベース101から、フラグ「1」の立っていないデータ2,3,5〜7,9を削除し、それ以外のデータ1,4,8,10をそのまま保持する。
<実施例2>
実施例1のデータ分割ルーチン(ステップS2)では個々のデータiに対し、それを含まないデータ集合(データ集合D−データi)を生成したが、本実施例におけるデータ分割ルーチンでは、データ集合Dを、モデル構築に用いない2つ以上のデータからなるデータ群Dmと、それ以外のデータ群D-Dmとに分割するパターンを複数用意し、各パターンでデータ分割を行う。すなわち実施例1ではモデル構築に用いないデータは常に1つであったが、本実施例では、モデル構築に使用しないデータは常に複数(2つ以上)である。各分割パターンにおいては、先に少し述べたように、共通するデータが各データ群Dmに含まれないものとする。たとえば、図5のデータベース例において、3つの分割パターンでデータ分割を行うとき、1つ目の分割パターンにおけるデータ群D1(m=1)をデータ1〜3、2つ目の分割パターンにおけるデータ群D2(m=2)をデータ4〜6、3つ目の分割パターンにおけるデータ群D3(m=3)をデータ7〜10とする。各データ群D1〜D3には同一のデータは含まれない。
実施例1のデータ分割ルーチン(ステップS2)では個々のデータiに対し、それを含まないデータ集合(データ集合D−データi)を生成したが、本実施例におけるデータ分割ルーチンでは、データ集合Dを、モデル構築に用いない2つ以上のデータからなるデータ群Dmと、それ以外のデータ群D-Dmとに分割するパターンを複数用意し、各パターンでデータ分割を行う。すなわち実施例1ではモデル構築に用いないデータは常に1つであったが、本実施例では、モデル構築に使用しないデータは常に複数(2つ以上)である。各分割パターンにおいては、先に少し述べたように、共通するデータが各データ群Dmに含まれないものとする。たとえば、図5のデータベース例において、3つの分割パターンでデータ分割を行うとき、1つ目の分割パターンにおけるデータ群D1(m=1)をデータ1〜3、2つ目の分割パターンにおけるデータ群D2(m=2)をデータ4〜6、3つ目の分割パターンにおけるデータ群D3(m=3)をデータ7〜10とする。各データ群D1〜D3には同一のデータは含まれない。
データ分割は、事前にデータをクラスタリングし、クラスタ単位で行ってもよい。たとえばデータ集合Dをk個のクラスタC1,C2,...,Ckに分け、クラスタm(m=1〜k)に含まれるデータ群をDmとし、クラスタmに含まれるデータ群を除いたデータ集合をD-Dmとすることもできる。クラスタリングはK-Means法などにより行っても良い。またクラスタリングは、図5のデータベース例では、x、yの両方を用いて行ってもよいし、xだけを用いて行ってもよい。
実施例1のように、全データを用いて算出される係数値と、各々の係数の標準偏差とから、各係数について影響度が低いとみなす範囲を求めても良いし、n+1次元空間上でのマハラノビス距離を用いて標準値からの係数の外れ具合を求め、外れている係数を算出した際に除かれていたデータ群を影響度「大」と判断しても良い。
なお、本データ削除装置は、例えば、汎用のコンピュータ装置を基本ハードウェアとして用いることでも実現することが可能である。すなわち、データ分割部103と、モデル構築部(第1モデル構築部および第2モデル構築部)104と、モデル比較部(検査部)105と、データ削除部106は、上記のコンピュータ装置に搭載されたプロセッサにプログラムを実行させることにより実現することができる。このとき、本データ削除装置は、上記のプログラムをコンピュータ装置にあらかじめインストールすることで実現してもよいし、CD−ROMなどの記憶媒体に記憶して、あるいはネットワークを介して上記のプログラムを配布して、このプログラムをコンピュータ装置に適宜インストールすることで実現してもよい。また、データベース101と、モデル記憶部102とは、上記のコンピュータ装置に内蔵あるいは外付けされたメモリ、ハードディスクもしくはCD−R、CD−RW、DVD−RAM、DVD−Rなどの記憶媒体などを適宜利用して実現することができる。
101:データベース
102:モデル記憶部
103:データ分割部
104:モデル構築部(第1モデル構築部、第2モデル構築部)
105:モデル比較部(検査部)
106:データ削除部
102:モデル記憶部
103:データ分割部
104:モデル構築部(第1モデル構築部、第2モデル構築部)
105:モデル比較部(検査部)
106:データ削除部
Claims (11)
- 2つ以上のセンサー値を含むデータを複数記憶するデータベースと、
前記データベース内の各データに基づきあるセンサー値を他のセンサー値から予測する第1予測モデルを構築する第1モデル構築部と、
前記データベース内の各データを第1データ群と第2データ群とに分割するデータ分割部と、
前記第1データ群を用いて前記あるセンサー値を前記他のセンサー値から予測する第2予測モデルを構築する第2モデル構築部と、
前記第1予測モデルと前記第2予測モデルとの間に有意な差があるか否かを検査する検査部と、
有意な差がないと判断されたとき、前記第2データ群を前記データベースから削除するデータ削除部と、
を備えたデータ削除装置。 - 前記データ分割部は、各々の第2データ群に含まれるデータが重複しないように複数の分割パターンでデータ分割を行い、
前記第2モデル構築部は、前記分割パターンごとに前記第2予測モデルを構築し、
前記検査部は、各前記第2予測モデルと、前記第1予測モデルとの間に有意な差があるか否かを検査し、
前記データ削除部は、有意な差がないと判断された第2予測モデルに対応する第2データ群を前記データベースから削除することを特徴とする請求項1に記載のデータ削除装置。 - 前記データ分割部は、前記第2データ群に含まれるデータ数が1つになるように、前記データベース内の前記各データの個数の分割パターンで前記データ分割を行うことを特徴とする請求項2に記載のデータ削除装置。
- 前記データ分割部は、前記データベース内の各データをクラスタリングによってk個のクラスタに分割し、それぞれ異なるクラスタが前記第2データ群に含まれるようにk個の分割パターンで前記データ分割を行うことを特徴とする請求項2に記載のデータ削除装置。
- 前記検査部は、各前記第2予測モデルのモデルパラメータのばらつきを計算し、
前記データ削除部は、前記第1予測モデルのモデルパラメータに対し前記ばらつきの範囲に前記第2予測モデルのモデルパラメータが含まれるとき、前記第1予測モデルと前記第2予測モデルとの間に有意な差がないと判断することを特徴とする請求項2に記載のデータ削除装置。 - 2つ以上のセンサー値を含むデータを複数記憶するデータベースに基づき、あるセンサー値を他のセンサー値から予測する第1予測モデルを構築する第1モデル構築ステップと、
前記データベース内の各データを第1データ群と第2データ群とに分割するデータ分割ステップと、
前記第1データ群を用いて前記あるセンサー値を前記他のセンサー値から予測する第2予測モデルを構築する第2モデル構築ステップと、
前記第1予測モデルと前記第2予測モデルとの間に有意な差があるか否かを検査する検査ステップと、
有意な差がないと判断されたとき、前記第2データ群を前記データベースから削除するデータ削除ステップと、
を備えたデータ削除方法。 - 前記データ分割ステップは、各々の第2データ群に含まれるデータが重複しないように複数の分割パターンでデータ分割を行い、
前記第2モデル構築ステップは、前記分割パターンごとに前記第2予測モデルを構築し、
前記検査ステップは、各前記第2予測モデルと、前記第1予測モデルとの間に有意な差があるか否かを検査し、
前記データ削除ステップは、有意な差がないと判断された第2予測モデルに対応する第2データ群を前記データベースから削除することを特徴とする請求項6に記載のデータ削除方法。 - 前記データ分割ステップは、前記第2データ群に含まれるデータ数が1つになるように、前記データベース内の前記各データの個数の分割パターンで前記データ分割を行うことを特徴とする請求項7に記載のデータ削除方法。
- 前記データ分割ステップは、前記データベース内の各データをクラスタリングによってk個のクラスタに分割し、それぞれ異なるクラスタが前記第2データ群に含まれるようにk個の分割パターンで前記データ分割を行うことを特徴とする請求項7に記載のデータ削除方法。
- 前記検査ステップは、各前記第2予測モデルのモデルパラメータのばらつきを計算し、
前記データ削除ステップは、前記第1予測モデルのモデルパラメータに対し前記ばらつきの範囲に前記第2予測モデルのモデルパラメータが含まれるとき、前記第1予測モデルと前記第2予測モデルとの間に有意な差がないと判断することを特徴とする請求項7に記載のデータ削除方法。 - 2つ以上のセンサー値を含むデータを複数記憶するデータベースに基づき、あるセンサー値を他のセンサー値から予測する第1予測モデルを構築するステップと、
前記データベース内の各データを第1データ群と第2データ群とに分割するステップと、
前記第1データ群を用いて前記あるセンサー値を前記他のセンサー値から予測する第2予測モデルを構築するステップと、
前記第1予測モデルと前記第2予測モデルとの間に有意な差があるか否かを検査するステップと、
有意な差がないと判断されたとき、前記第2データ群を前記データベースから削除するステップと、
をコンピュータに実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007143118A JP2008299486A (ja) | 2007-05-30 | 2007-05-30 | データ削除装置並びにデータ削除のための方法およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007143118A JP2008299486A (ja) | 2007-05-30 | 2007-05-30 | データ削除装置並びにデータ削除のための方法およびプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008299486A true JP2008299486A (ja) | 2008-12-11 |
Family
ID=40172979
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007143118A Pending JP2008299486A (ja) | 2007-05-30 | 2007-05-30 | データ削除装置並びにデータ削除のための方法およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008299486A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015036962A (ja) * | 2013-08-16 | 2015-02-23 | 富士ゼロックス株式会社 | 処置判定装置、処置判定システム、処置判定プログラム及び処置判定方法 |
WO2021176753A1 (ja) * | 2020-03-03 | 2021-09-10 | 株式会社日立製作所 | データ価値定義方法、データ収集促進方法、データ価値定義システム並びにデータ収集促進システム |
CN113805796A (zh) * | 2020-06-17 | 2021-12-17 | 横河电机株式会社 | 数据管理系统、数据管理方法及记录有数据管理程序的记录介质 |
-
2007
- 2007-05-30 JP JP2007143118A patent/JP2008299486A/ja active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015036962A (ja) * | 2013-08-16 | 2015-02-23 | 富士ゼロックス株式会社 | 処置判定装置、処置判定システム、処置判定プログラム及び処置判定方法 |
WO2021176753A1 (ja) * | 2020-03-03 | 2021-09-10 | 株式会社日立製作所 | データ価値定義方法、データ収集促進方法、データ価値定義システム並びにデータ収集促進システム |
CN113805796A (zh) * | 2020-06-17 | 2021-12-17 | 横河电机株式会社 | 数据管理系统、数据管理方法及记录有数据管理程序的记录介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5871193B2 (ja) | 監視データ分析装置、監視データ分析方法および監視データ分析プログラム | |
JP2008146591A (ja) | 異常兆候検出装置および方法 | |
JP4890806B2 (ja) | 予測プログラムおよび予測装置 | |
JP6525002B2 (ja) | メンテナンス時期決定装置、劣化予測システム、劣化予測方法および記録媒体 | |
CN107292751B (zh) | 一种时序网络中节点重要性的挖掘方法和装置 | |
CN110674865B (zh) | 面向软件缺陷类分布不平衡的规则学习分类器集成方法 | |
JP2008165352A (ja) | 定期点検データ分析装置およびその方法 | |
WO2012086443A1 (ja) | 監視データ分析装置、監視データ分析方法および監視データ分析プログラム | |
JP2012164314A (ja) | 現象における変数の影響を決定する方法 | |
JP2020046891A (ja) | 予測プログラム、予測方法および学習装置 | |
JP5966836B2 (ja) | 評価支援方法、情報処理装置、及びプログラム | |
CN115905990A (zh) | 一种基于密度聚集算法的变压器油温异常监测方法 | |
JP5889759B2 (ja) | 欠損値予測装置、欠損値予測方法、欠損値予測プログラム | |
JP2008299486A (ja) | データ削除装置並びにデータ削除のための方法およびプログラム | |
WO2021214833A1 (ja) | 学習装置、異常検知装置、学習方法及び異常検知方法 | |
CN110825707B (zh) | 数据压缩方法 | |
JP2013168020A (ja) | プロセスの状態予測方法 | |
JP2006318013A (ja) | 評価装置及びそのコンピュータプログラム | |
CN114781473A (zh) | 轨道交通设备状态预测方法、装置、设备及存储介质 | |
JP2009514078A (ja) | 欠陥パラメータの推定を伴うエラー訂正能力のモデリング | |
JP4230890B2 (ja) | モデル同定装置,モデル同定プログラム及びモデル同定装置の動作方法 | |
TW202105106A (zh) | 資料處理裝置、方法、及半導體製造裝置 | |
JP2022086803A (ja) | 要因推定方法、予測方法、属性値推定方法、要因推定装置、予測装置、属性値推定装置およびプログラム | |
JP7154468B2 (ja) | 情報処理装置、情報処理方法及び情報処理プログラム | |
JP2005032117A (ja) | データ分析装置およびデータ分析方法並びにデータ分析プログラム |