JP2016099888A - センサデータ分類装置、方法およびプログラム - Google Patents
センサデータ分類装置、方法およびプログラム Download PDFInfo
- Publication number
- JP2016099888A JP2016099888A JP2014238085A JP2014238085A JP2016099888A JP 2016099888 A JP2016099888 A JP 2016099888A JP 2014238085 A JP2014238085 A JP 2014238085A JP 2014238085 A JP2014238085 A JP 2014238085A JP 2016099888 A JP2016099888 A JP 2016099888A
- Authority
- JP
- Japan
- Prior art keywords
- sensor
- data
- calculated
- sensor data
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
【課題】ノイズが存在しかつそのノイズを分離して測定できない環境下でも、多数のセンサから時系列に収集したセンサデータのみを用いて、各センサデータを適切に分類できるようにする。【解決手段】複数のセンサからそれぞれセンサデータの集合を収集してセンサ識別子と関連付けて記憶し、この記憶されたセンサデータの集合を所定時間区間ごとに分割して、当該分割データの集合を分割区間識別子と関連付けて記憶する。そして、センサごとに、上記記憶された分割データの集合に含まれるデータからその特徴量を表す複数種の特徴パラメータを算出し、当該算出された複数種の特徴パラメータ間の相関係数を算出して、当該算出された相関係数の値と、上記算出された特徴パラメータの値とに基づいて、上記収集したセンサデータの集合をセンサ単位で分類する。【選択図】図2
Description
この発明は、多数のセンサにより得られるセンサデータをその特徴に応じて分類するセンサデータ分類装置、方法およびプログラムに関する。
センサ及びネットワーク技術の進展に伴い、多数のセンサから時系列のデータを自動的に収集するシステムが実用化されている。しかし、この種のシステムでは、センサ数が数千の単位となると、たとえそれぞれのセンサのデータを時系列グラフ化したとしても、センサ群全体のデータを個別に閲覧して評価することは困難である。このため、先ず各センサにより得られた時系列データを分類し、興味深い領域のセンサデータを抽出した上で、このセンサデータをさらに精査する必要が生じる。
この分類のために、測定期間内において各センサが出力した測定値の範囲を用いてセンサを分類することが考えられる。一般にセンサデータはノイズの影響を受けていて、ノイズのレベルに近い測定値の領域でのセンサの分類は特に重要である。しかし、ノイズに関する具体的な知識がなければこのような分類は困難である。
また、分類に用いるセンサの時系列データを特徴付ける量を計算する技術として、重回帰分析などのデータに影響を与える他の諸量との関係に基づく手法や、時系列データ上の変化点を抽出する手法(例えば、非特許文献1を参照)が知られている。
"データマイニングによる異常検知"、山西健司、共立出版、第4章、2009年5月25日発行。
ところが、前記従来の分類手法には以下のような解決すべき課題があった。
このうち、先ず重回帰分析を用いる手法は、データに影響を与える量が同時に測定可能ならば非常に強力な手法であり、広く用いられている。しかしながら、多数のセンサデータを分類する場合、これらのセンサデータの量が同時に測定可能であるとは限らず、実際に得られるのは単一の測定データとなる場合がある。また、そもそも影響を与える他のセンサデータの量が分かっていない場合もあり得る。このような場合には、先ず得られるセンサの時系列データのみを用いてセンサデータを分類しなければならず、重回帰分析のように付随する他のデータを使用する方法は使用できない。
このうち、先ず重回帰分析を用いる手法は、データに影響を与える量が同時に測定可能ならば非常に強力な手法であり、広く用いられている。しかしながら、多数のセンサデータを分類する場合、これらのセンサデータの量が同時に測定可能であるとは限らず、実際に得られるのは単一の測定データとなる場合がある。また、そもそも影響を与える他のセンサデータの量が分かっていない場合もあり得る。このような場合には、先ず得られるセンサの時系列データのみを用いてセンサデータを分類しなければならず、重回帰分析のように付随する他のデータを使用する方法は使用できない。
一方、時系列データ上の変化点を抽出する手法は、時系列データのみを用い過去のデータの変化から急激な外れが生じた場合のデータを抽出するものである。このようなデータ分析方法は、センサ量の急激な変化を抽出する事には有効であり、かつこのようなデータ変化がセンサの特徴量になりうる場合もある。しかし、このデータ変化点抽出技術はセンサのデータの性質が時系列上で変化する場合に有効であるが、測定開始時点から性質がそれほど変化していなければセンサの特徴を示す量としてあまり有効ではない。また、センサデータが外来性のノイズの影響を受ける場合には、センサデータよりもノイズの性質を表す量となってしまう場合もあり、多数のセンサに対して同時に適用してセンサの特徴を得るためには不向きな面がある。
この発明は上記事情に着目してなされたもので、その目的とするところは、ノイズが存在しかつそのノイズを分離して測定できない環境下においても、多数のセンサから時系列に収集したセンサデータのみを用いて、各センサデータを適切に分類できるようにしたセンサデータ分類装置、方法およびプログラムを提供することにある。
上記目的を達成するためにこの発明の一つの観点は、以下のような各種態様を備えている。
第1の態様は、複数のセンサからそれぞれ時系列に出力されるセンサデータの集合を収集してセンサ識別子と関連付けて記憶し、この記憶されたセンサデータの集合を予め設定した時間区間ごとに分割して、当該分割データの集合を分割区間識別子と関連付けて記憶する。そして、センサごとに、上記記憶された分割データの集合に含まれるデータからその特徴量を表す複数種の特徴パラメータを算出し、当該算出された複数種の特徴パラメータ間の相関係数を算出して、当該算出された相関係数の値と、上記算出された特徴パラメータの値とに基づいて、上記収集したセンサデータの集合をセンサ単位で分類する。
また、上記特徴パラメータを算出する際に、上記センサ識別子をp、分割区間識別子をiで表すとき、上記記憶された分割データの集合に含まれるデータから、その最大値Dmax(p,i)と、標準偏差Dsd(p,i)と、平均値Davg(p,i)または中間値Dmedian(p,i)をそれぞれ算出する。そして、分類する際に、上記センサごとに、Dmax(p,i) と Dsd(p,i)/Davg(p,i)との間、またはDmax(p,i) と Dsd(p,i)/Dmedian(p,i)との間の相関係数Cor(p)を算出し、当該算出された相関係数Cor(p)と、上記算出された平均値Davg(p,i)または中間値Dmedian(p,i)とにより分類しきい値を決定して、当該分類しきい値に基づいて上記収集したセンサデータの集合をセンサごとに分類するようにしたものである。
また、上記特徴パラメータを算出する際に、上記センサ識別子をp、分割区間識別子をiで表すとき、上記記憶された分割データの集合に含まれるデータから、その最大値Dmax(p,i)と、標準偏差Dsd(p,i)と、平均値Davg(p,i)または中間値Dmedian(p,i)をそれぞれ算出する。そして、分類する際に、上記センサごとに、Dmax(p,i) と Dsd(p,i)/Davg(p,i)との間、またはDmax(p,i) と Dsd(p,i)/Dmedian(p,i)との間の相関係数Cor(p)を算出し、当該算出された相関係数Cor(p)と、上記算出された平均値Davg(p,i)または中間値Dmedian(p,i)とにより分類しきい値を決定して、当該分類しきい値に基づいて上記収集したセンサデータの集合をセンサごとに分類するようにしたものである。
第2の態様は、上記特徴パラメータを算出する際に、上記センサ識別子をp、分割区間識別子をiで表すとき、上記記憶された分割データの集合に含まれるデータから、その最大値Dmax(p,i)と、標準偏差Dsd(p,i)と、平均値Davg(p,i)または中間値Dmedian(p,i)をそれぞれ算出する。そして、分類する際に、上記センサごとに、Dmax(p,i) と log(Dsd(p,i)/Davg(p,i))との間、またはDmax(p,i) と log(Dsd(p,i)/Dmedian(p,i))との間の相関係数Cor(p)を算出し、当該算出された相関係数Cor(p)と、上記算出された平均値Davg(p,i)または中間値Dmedian(p,i)とにより分類しきい値を決定して、当該分類しきい値に基づいて、上記収集したセンサデータの集合をセンサ単位で分類するようにしたものである。
この発明の第1の態様によれば、センサごとに、分割データの集合に含まれるデータからその特徴量を表す複数の異なる特徴パラメータが算出され、当該算出された複数の特徴パラメータ間の相関係数の値と、上記算出された特徴パラメータの値とに基づいて、複数のセンサから収集したセンサデータの集合が分類される。
具体的には、特徴パラメータとして、分割データ集合に含まれるデータの最大値Dmax(p,i)と、標準偏差Dsd(p,i)と、平均値Davg(p,i)または中間値Dmedian(p,i)がそれぞれ算出され、この算出されたDmax(p,i) と Dsd(p,i)/Davg(p,i)との間、またはDmax(p,i) と Dsd(p,i)/Dmedian(p,i)との間の相関係数Cor(p)が算出されて、当該算出された相関係数Cor(p)と、上記算出された平均値Davg(p,i)または中間値Dmedian(p,i)とにより決定される分類しきい値に基づいて、複数のセンサデータ集合が分類される。
また、第2の態様のように、分割データの集合に含まれるデータから、その最大値Dmax(p,i)と、標準偏差Dsd(p,i)と、平均値Davg(p,i)または中間値Dmedian(p,i)がそれぞれ算出され、この算出されたDmax(p,i) と log(Dsd(p,i)/Davg(p,i))との間、またはDmax(p,i) と log(Dsd(p,i)/Dmedian(p,i))との間の相関係数Cor(p)が算出され、当該算出された相関係数Cor(p)と、上記算出された平均値Davg(p,i)または中間値Dmedian(p,i)とにより決定される分類しきい値に基づいて、複数のセンサデータの集合が分類される。
したがって、特徴パラメータを適宜選択してその相関係数を算出することで、例えばノイズを高い割合で含むセンサデータとノイズが少なく真のデータの割合が多いセンサデータとを効果的に分類することが可能となる。この結果、外来性のノイズの影響を受け易いセンサとそうでないセンサが混在する場合でも、また測定開始時点から性質がそれほど変化しない場合でも、さらには付随する他のデータが存在しない場合でも、重回帰分析などのデータに影響を与える他の諸量との関係に基づく手法や、時系列データ上の変化点を抽出する手法に比べ、センサデータを適切に分類することが可能となる。
すなわちこの発明によれば、ノイズが存在しかつそのノイズを分離して測定できない環境下においても、多数のセンサから時系列に収集したセンサデータのみを用いて、各センサデータを適切に分類できるようにしたセンサデータ分類装置、方法およびプログラムを提供することができる。
以下、図面を参照してこの発明に係わる実施形態を説明する。
[一実施形態]
(構成)
図1は、この発明の一実施形態に係るセンサデータ分類装置の機能構成を示すブロック図である。
この実施形態に係るセンサデータ分類装置TXは、例えばWebまたはクラウド上に設置されたサーバコンピュータ、又はパーソナルコンピュータからなり、処理ユニット1と、記憶ユニット2と、通信インタフェースユニット3と、入出力インタフェースユニット4を備えている。
[一実施形態]
(構成)
図1は、この発明の一実施形態に係るセンサデータ分類装置の機能構成を示すブロック図である。
この実施形態に係るセンサデータ分類装置TXは、例えばWebまたはクラウド上に設置されたサーバコンピュータ、又はパーソナルコンピュータからなり、処理ユニット1と、記憶ユニット2と、通信インタフェースユニット3と、入出力インタフェースユニット4を備えている。
通信インタフェースユニット3は、処理ユニット1の制御の下、通信ネットワークを介して図示しない複数のセンサとの間でセンサデータを受信する機能を有する。入出力インタフェースユニット4には、入力部5および表示部が接続される。入出力インタフェースユニット4は、入力部5において入力された操作情報を制御ユニット1へ転送すると共に、制御ユニット1から出力された表示データを表示部6に表示させる機能を有する。
記憶ユニット2は、記憶媒体としてHDD(Hard Disk Drive)やSSD(Solid State Drive)などの書き込み読み出しが可能な不揮発性メモリを有し、この実施形態を実施するために必要な記憶領域として、センサデータ記憶部21と、分割データ記憶部22と、特徴パラメータ記憶部23と、分類結果記憶部24を備えている。センサデータ記憶部21は、複数のセンサから収集されたセンサデータの集合を記憶するために使用される。分割データ記憶部22は、上記センサデータの集合を所定の時間区間ごとに分割して得られる分割データの集合を記憶するために用いられる。特徴パラメータ記憶部23は、上記分割データの集合から算出される特徴パラメータを記憶するために用いられる。分類結果記憶部24は、上記センサデータの分類結果を表す情報を記憶するために用いられる。
処理ユニット1は、プロセッサとしてCPU(Central Processing Unit)とバッファおよび作業用のメモリを有し、この実施形態を実施するために必要な機能として、センサデータ収集制御部11と、時間分割処理部12と、特徴パラメータ算出部13と、Cor(p)・E(p)算出部14と、分類しきい値決定部15と、分類処理部16を備えている。なお、これらの処理機能は、いずれも図示しないプログラムメモリに格納されたプログラムを上記CPUに実行させることにより実現される。
センサデータ収集制御部11は、散在配置されている複数のセンサからそれぞれ送信された時系列データからなるセンサデータの集合を、通信インタフェースユニット3を介して受信する。そして、当該受信されたセンサデータの集合をセンサ識別子と関連付けてセンサデータ記憶部21に格納する処理を行う。
時間分割処理部12は、上記センサデータ記憶部21に記憶されたセンサデータの集合をセンサ識別子ごとに読み出し、当該読み出されたセンサデータの集合を予め設定した時間区間ごとに分割する。そして、この分割されたセンサデータの集合(分割データの集合)をセンサ識別子および分割区間識別子と関連付けて分割データ記憶部22に格納する処理を行う。
特徴パラメータ算出部13は、上記分割データの集合をセンサ識別子および分割区間識別子ごとに読み出し、この読み出した分割データの集合に含まれるデータからその複数種の特徴パラメータを算出する。そして、この算出された複数種の特徴パラメータをセンサ識別子および分割区間識別子と関連付けて分割データ記憶部22に格納する処理を行う。算出する特徴パラメータは、センサ識別子をp、分割区間識別子をiとそれぞれ表すとき、データの最大値Dmax(p,i)と、標準偏差Dsd(p,i)と、平均値Davg(p,i)または中間値Dmedian(p,i)の3種類である。
Cor(p)・E(p)算出部14は、上記算出された複数種の特徴パラメータ間の相関係数を算出する処理を行う。具体的には、最大値Dmax(p,i) と標準偏差/平均値(Log(Dsd(p,i)/Davg(p,i)))との間の相関係数、または最大値Dmax(p,i) と標準偏差/中間値(Log(Dsd(p,i)/Dmedian(p,i)))との間の相関係数を、Cor(p)として算出する。
分類しきい値決定部15は、すべてのセンサについてそれぞれ算出された相関係数Cor(p)、および平均値Davg(p,i)または中間値Dmedian(p,i)を参照して、それぞれ分類しきい値CおよびE0 ,E1 を決定する処理を行う。
分類処理部16は、上記センサごとに上記センサデータ記憶部21に記憶されたセンサデータの集合Ωall(p)を、上記決定された分類しきい値CおよびE0,E1に基づいて、相関係数Cor(p)と平均値Davg(p,i)または中間値Dmedian(p,i)とで表される二次元空間に設定された6個の領域に分類する。そして、この分類結果を表す情報をセンサ識別子と関連付けて分類結果記憶部24に格納すると共に、当該分割結果を表す情報に基づいて表示データを生成し、入出力インタフェースユニット4を介して表示部6に表示させる処理を行う。
(動作)
次に、以上のように構成された装置の動作を説明する。図2はその動作手順と動作内容を示すフローチャートである。
先ずステップS1においてセンサデータ収集制御部11が起動し、このセンサデータ収集制御部11の制御の下、複数のセンサからそれぞれ送信されるセンサデータの集合Ωall(p)が通信インタフェースユニット3を介してそれぞれ受信され、この受信された各センサデータの集合Ωall(p)が送信元となるセンサの識別子pと関連付けられてセンサデータ記憶部21に格納される。
次に、以上のように構成された装置の動作を説明する。図2はその動作手順と動作内容を示すフローチャートである。
先ずステップS1においてセンサデータ収集制御部11が起動し、このセンサデータ収集制御部11の制御の下、複数のセンサからそれぞれ送信されるセンサデータの集合Ωall(p)が通信インタフェースユニット3を介してそれぞれ受信され、この受信された各センサデータの集合Ωall(p)が送信元となるセンサの識別子pと関連付けられてセンサデータ記憶部21に格納される。
続いてステップS2により時間分割処理部12が起動し、この時間分割処理部12の制御の下、センサ識別子pが一つ選択されるごとに上記センサデータ記憶部21から対応するセンサデータの集合Ωall(p)が読み出し、当該センサデータの集合Ωall(p)が所定の時間区間ごとに分割される。そして、この分割されたセンサデータの集合(分割データの集合)Ωsub(p,i)は、センサ識別子pおよび分割区間識別子iと関連付けられて分割データ記憶部22に格納される。
次にステップS3において特徴パラメータ算出部13が起動し、この特徴パラメータ算出部13の制御の下、上記分割データ記憶部22に記憶されたすべての分割データの集合Ωsub(p,i)について、当該分割データの集合Ωsub(p,i)に含まれるデータからその特徴パラメータが算出される。例えば、分割データの集合Ωsub(p,i)に含まれるデータの最大値Dmax(p,i)と、標準偏差Dsd(p,i)と、中間値Dmedian(p,i)が算出される。なお、中間値Dmedian(p,i)の代わりに平均値Davg(p,i)を算出してもよい。上記算出された各特徴パラメータは、センサ識別子pおよび分割区間識別子iと関連付けられて特徴パラメータ記憶部23に格納される。
続いてCor(p)・E(p)算出部14が起動し、このCor(p)・E(p)算出部14の制御の下、ステップS4によりセンサ識別子pが1つ選択されるごとに、ステップS5において上記特徴パラメータ間の相関係数Cor(p)を算出する処理が行われる。
例えば、最大値Dmax(p,i) と標準偏差/中間値(Log(Dsd(p,i)/Dmedian(p,i)))との間の相関係数が算出される。なお、最大値Dmax(p,i) と標準偏差/中間値(Log(Dsd(p,i)/Dmedian(p,i)))との間の相関係数の代わりに、最大値Dmax(p,i) と標準偏差/平均値(Log(Dsd(p,i)/Davg(p,i)))との間の相関係数を算出するようにしてもよい。またそれと共に、上記算出された中間値Dmedian(p,i)、またはその代わりに算出された平均値Davg(p,i)が、E(p)として後述する分類しきい値決定部15に渡される。
次にステップS6により分類しきい値決定部15が起動され、この分類しきい値決定部15の制御の下、上記相関係数Cor(p)、E(p)に基づいて分類しきい値C、E0 ,E1 が決定される。
例えば、図3に示すようにE(p)をX軸、cor(p)をY軸とする2次元空間において、cor(p)の値のうち0.3,−0.3,0,−0.7,0.7のいずれかの値がcor(p)の分類しきい値C として選択される。その際、相関係数cor(p)とセンサ数とのヒストグラムや、これらのデータをk−Means法による教師なし学習により分類したものを参考にして、上記分類しきい値C を決定するようにしてもよい。
またそれと共に、図3に示す2次元空間において、cor(p)=C の近傍におけるE(p) (×印で示したセンサデータのプロット)の分布範囲の最大値と最小値から、E0,E1(E0<E1)の2つのしきい値が決定される。なお、この場合も上記しきい値C の場合と同様に、E(p)のヒストグラムやk−Means法による教師なし学習による分類等を参考に上記しきい値E0,E1を設定するようにしてもよい。
この結果、E(p)とcor(p)とにより表される2次元空間には、図3に示すように6個の領域、すなわち
領域1; E(p) ≦ E0, cor(p) ≦ C
領域2; E0 < E(p) ≦ E1, cor(p) ≦ C
領域3; E1 < E(p), cor(p) ≦ C
領域4; E(p) ≦ E0, cor(p) > C
領域5; E0 < E(p) ≦ E1, cor(p) > C
領域6; E1 < E(p), cor(p) > C
が設定される。
領域1; E(p) ≦ E0, cor(p) ≦ C
領域2; E0 < E(p) ≦ E1, cor(p) ≦ C
領域3; E1 < E(p), cor(p) ≦ C
領域4; E(p) ≦ E0, cor(p) > C
領域5; E0 < E(p) ≦ E1, cor(p) > C
領域6; E1 < E(p), cor(p) > C
が設定される。
最後にステップS7により分類処理部16が起動され、この分類処理部16の制御の下、上記センサごとに上記センサデータ記憶部21に記憶されたセンサデータの集合Ωall(p)が、上記決定された分類しきい値CおよびE0,E1に基づいて、E(p)とcor(p)とにより表される2次元空間に設定された6個の領域のいずれかに分類される。そして、この分類結果を表す情報がセンサ識別子と関連付けられて分類結果記憶部24に格納される。この分類結果記憶部24に格納された分割結果を表す情報は、オペレータの操作指示に応じて表示データに変換され、入出力インタフェースユニット4を介して表示部6に表示される。なお、上記表示データは、通信インタフェースユニット3から通信ネットワークを介して要求元のユーザ端末へ送信し、表示するようにしてもよい。
(作用効果)
本実施形態では、センサにより得られるセンサデータ(測定値)に含まれるノイズおよび真の値について以下のように仮定している。
(仮定1)加算性;ノイズと真の値は加算されてセンサデータ(測定値)として出力される。
(仮定2)経時的変化性の相違;ノイズと真の値のセンサデータ(測定値)に対する変化の仕方は異なる。
(仮定3)ノイズ性質の類似性;ノイズの測定時間を通じた統計的性質は全てのセンサにおいて類似している。
本実施形態では、センサにより得られるセンサデータ(測定値)に含まれるノイズおよび真の値について以下のように仮定している。
(仮定1)加算性;ノイズと真の値は加算されてセンサデータ(測定値)として出力される。
(仮定2)経時的変化性の相違;ノイズと真の値のセンサデータ(測定値)に対する変化の仕方は異なる。
(仮定3)ノイズ性質の類似性;ノイズの測定時間を通じた統計的性質は全てのセンサにおいて類似している。
したがって、ノイズが主たる成分のセンサデータと真の値が主たる成分のセンサデータは、標準偏差Dsd(p)と中間値Dmedian(p)との関係性を示す相関係数cor(p)が異なる。本実施形態はこの点に着目してセンサデータの分類を行う。このとき、加算性の仮定1から、センサpの分割区間iにおける標準偏差Dsd(p,i)に最も大きな影響を与えるのは、この測定区間における最大値Dmax(p,i)であるとする。
また、しきい値Cが適切に設定されていて、ノイズが主たる成分のセンサデータから、真の信号が主たる成分のセンサデータまで分布しているならば、
領域1及び領域4;ノイズが主成分のセンサデータを送信したセンサが分布する領域。
領域2および領域5;ノイズと真の信号の大きさが同程度のセンサデータを送信したセンサが分布する領域。
領域3及び領域6;真の信号が主成分のセンサデータを送信したセンサが分布する領域。
であるとそれぞれ推定される。
領域1及び領域4;ノイズが主成分のセンサデータを送信したセンサが分布する領域。
領域2および領域5;ノイズと真の信号の大きさが同程度のセンサデータを送信したセンサが分布する領域。
領域3及び領域6;真の信号が主成分のセンサデータを送信したセンサが分布する領域。
であるとそれぞれ推定される。
相関係数cor(p)は元来それほど厳密な比較をするのに適した値ではなく、実際の使用では、計算された相関係数cor(p)が0.7以上、0.3以上、0.3から−0.3,−0.3以下、−0.7以下で区切り、それぞれ強い正の相関、弱い正の相関、相関なし、弱い負の相関、強い負の相関と分類する。
本実施形態では、これに従い、相関係数cor(p)の0.7、0.3、−0.3、−0.7の4つの値の中から、実際のセンサデータの分布を参照して、しきい値C を選択する。この場合、しきい値Cは図3に示すように1個(C=0.3)のみ選択してもよいが、複数個を同時に選択するようにしてもよい。しきい値C の選択数が増えるほどセンサデータの分類領域は多くなる。
以上のように分類することで、ノイズを高い割合で含むセンサデータとノイズが少なく真のデータの割合が多いセンサデータとを効果的に分類することが可能となる。この結果、外来性のノイズの影響を受け易いセンサとそうでないセンサが混在する場合でも、また測定開始時点から性質がそれほど変化しない場合でも、さらには付随する他のデータが存在しない場合でも、重回帰分析などのデータに影響を与える他の諸量との関係に基づく手法や、時系列データ上の変化点を抽出する手法に比べ、センサデータを適切に分類することが可能となる。
[実施例]
以下に本発明の実施例を示す。
この実施例で用いたセンサは、原子力規制委員会が福島県を中心に全国に配置している環境放射線センサである。2012年3月より運用が開始され、各センサにより計測された時系列のセンサデータを10分ごとにサーバにより収集して蓄積し、この蓄積されたデータをWebページを介して公開している。なお、この点については、「放射線モニタリング情報」、原子力規制委員会、<URL: http://radioactivity.nsr.go.jp/ja/>に詳しく記載されている。
以下に本発明の実施例を示す。
この実施例で用いたセンサは、原子力規制委員会が福島県を中心に全国に配置している環境放射線センサである。2012年3月より運用が開始され、各センサにより計測された時系列のセンサデータを10分ごとにサーバにより収集して蓄積し、この蓄積されたデータをWebページを介して公開している。なお、この点については、「放射線モニタリング情報」、原子力規制委員会、<URL: http://radioactivity.nsr.go.jp/ja/>に詳しく記載されている。
データが公開されているセンサ数は4369台である。本発明者はこのページを介してセンサデータを収集し、この発明によるセンサデータ分類方法を用いてセンサデータ、言い換えれば当該センサデータを計測したセンサの分類を行った。このとき、センサの特徴量を表す相関係数cor(p)としては、Log10(Dsd(p,i)/Dmedian(p,i))とDmax(p,i)との相関係数を用いた。また、センサのセンサデータの集合Ωall(p)を1日毎に分割して分割データの集合Ωsub(p,i)を生成した。
実際に分類した結果の一例を図4に示す。図4は、この発明における分類効果を強調するため、平均放射線量が0.3μSv/h以下の領域を図示している。また、この図4中の分類しきい値C及びE0,E1を決定するにあたり、図5に示すように図4のデータをk−means法を用いて16個に分類した結果を参考にし、分類しきい値C=0.3、E0=0.05μSv/h、E1=0.1μSv/hに設定した。なお、k−means法については、文献(Lloyd, S. P. (1982). "Least squares quantization in PCM". IEEE Transactions on Information Theory 28 (2): 129-137)に詳しく記載されている。
福島第一原発の事故により放出された半減期の短い核種による放射線強度を真の値とし、それ以前から存在する大地からの放射線及び宇宙線をノイズとして考える。このとき、位置的に福島第一原発事故で放出された核種が存在しておらず、測定値がほぼノイズと推定される。
沖縄県石垣島のLog10(Dsd(p,i)/Dmedian(p,i))とDmax(p,i)との関係を図6に、福島第一原発に近く、測定値の大部分が真の値であると推定される福島県福島市新浜公園におけるLog10(Dsd(p,i)/Dmedian(p,i))とDmax(p,i)との関係を図7にそれぞれ示す。これらの図6および図7から、真の値とノイズとの間で関係の違いがあることが分かる。
図4は、上記図7の関係を用いてセンサデータ、つまりセンサの分類を行ったものである。図6および図7を参考に考えるならば、図4の領域1、4は主にノイズが測定されている領域、領域3は真の値の方が大きな領域、領域2、5はノイズと真の値が拮抗している領域で、領域5はノイズの方が若干大きく、領域2は真の値の方が若干大きい領域であるとそれぞれ推定できる。
ここで、センサデータの分類の妥当性を示すために、測定期間を通じた放射線強度の減衰量との比較により、この発明の分類方法の確からしさを評価する。半減期が短い核種による放射線強度は測定期間の間減衰している。したがって、汚染量が多い、すなわち真の値が大きい場合には、放射線強度の減衰量は増大すると推定される。この場合、図4に示した領域2、3において減衰量が大きく観測できるはずである。
これを検証するため、センサデータの初期の測定期間30日および末期の測定期間30日における平均放射線強度の差が0.005μSv/h以上と未満とにおいてそれぞれセンサデータ、つまりセンサを分類し、相関係数Cor(p)と放射線平均強度E(p)とにより表される2次元空間にプロットした図を図8に示す。同図において、領域2、3にはそれ以外の領域よりも放射線強度の減衰が大きいセンサデータが多く含まれる。これにより、図8の分類と平均放射線強度差の分布がほぼ一致していることが分かる。
また、図8の領域2に存在する会津地方のセンサ群のデータを調べることにより、測定初期に雪による放射線の減少を示していたため当初の方法では測定期間を通じた放射線量の減少が見られないことが判明した。その例を図9に示す。同図において、この雪の影響を補正するために、測定初期120日と測定末期120日のうち、それぞれの放射線強度の値の上位30日分の平均の差に改めたものを図10に示す。これは、この発明の分類方法を用いてすべてのセンサのセンサデータを見ることなしに領域2に分類されたセンサのみを検証して得られた結果であり、この発明の有効性を示すものである。また、半減期の差異による測定期間中の放射線量減衰のみを用いる分類方法ではセンサの分類が難しいことを示している。
さらに、図10に示したセンサ分類の県別の分布を図11に示す。同図では、領域1〜6の各欄とも、左列に初期−周期が0.005μSv/h未満のセンサの県別内訳数を、また右列に初期−周期が0.005μSv/h以上のセンサの県別内訳数をそれぞれ示している。図11から、領域2、3に福島県ならびにその周囲の県に設置されたセンサの多いことが明らかであり、事故現場からの距離による放射線物質分布の推測から妥当な分類であることが示されている。
参考までに、2011年6月に福島県周囲の放射性物質量の分布を航空機による放射線強度の測定から推定したデータと、上記図10及び図11に示した本発明による分類結果とを比較したところ、両者はよく合致していることが確認された。なお、上記福島県周囲における放射性物質量分布の推定データは、文部科学省報道発表、「(1) 第6次航空機モニタリングの測定結果、及び(2) 福島第一原子力発電所から80km圏外の航空機モニタリングの測定結果について」、平成25年3月1日、<URL; http://radioactivity.nsr.go.jp/ja/contents/7000/6749/24/191_258_0301_18.pdf>に記載されている。
前述した検証から、時系列データのみを用い、図4、図8、図10、図11のような妥当な分類が、センサデータの時系列変化のグラフを実験者が直接視認することなく、かつ正解のデータ自体が存在していない状況下で行われたことが示された。これはこの発明の有効性を示すものに外ならない。
[他の実施形態]
なお、この発明は上記実施形態に限定されるものではない。例えば、前記実施形態では、各センサデータの集合を1日ごとに分割したが、この分割区間の値は時間単位でも、また週単位や月単位でもよく、その値は限定されるものではない。
なお、この発明は上記実施形態に限定されるものではない。例えば、前記実施形態では、各センサデータの集合を1日ごとに分割したが、この分割区間の値は時間単位でも、また週単位や月単位でもよく、その値は限定されるものではない。
その他、センサデータ分類装置の構成、センサデータ分類方法の手順とその内容、取り扱うセンサデータの種類等についても、この発明の要旨を逸脱しない範囲で種々変形して実施可能である。
要するにこの発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態に亘る構成要素を適宜組み合せてもよい。
TX…センサデータ分類装置、1…処理ユニット、2…記憶ユニット、3…通信インタフェースユニット、4…入出力インタフェースユニット、5…入力部、6…表示部、11…センサデータ収集制御部、12…時間分割処理部、13…特徴パラメータ算出部、14…Cor(p)・E(p)算出部、15…分類しきい値決定部、16…分類処理部、21…センサデータ記憶部、22…分割データ記憶部、23…特徴パラメータ記憶部。
Claims (5)
- 複数のセンサからそれぞれ時系列に出力されるセンサデータの集合を収集してセンサ識別子と関連付けて記憶するデータ収集手段と、
前記記憶されたセンサデータの集合を予め設定した時間区間ごとに分割して、当該分割データの集合を分割区間識別子と関連付けて記憶するデータ分割手段と、
前記センサごとに、前記記憶された分割データの集合に含まれるデータからその特徴量を表す複数種の特徴パラメータを算出する特徴パラメータ算出手段と、
前記算出された複数種の特徴パラメータ間の相関係数を算出し、当該算出された相関係数の値と前記算出された特徴パラメータの値とに基づいて、前記収集したセンサデータの集合をセンサ単位で分類する分類手段と
を具備し、
前記特徴パラメータ算出手段は、前記センサ識別子をp、分割区間識別子をiで表すとき、前記記憶された分割データの集合に含まれるデータから、その最大値Dmax(p,i)と、標準偏差Dsd(p,i)と、平均値Davg(p,i)または中間値Dmedian(p,i)をそれぞれ算出し、
前記分類手段は、前記センサごとに、
Dmax(p,i) と Dsd(p,i)/Davg(p,i)との間
または
Dmax(p,i) と Dsd(p,i)/Dmedian(p,i)との間
の相関係数Cor(p)を算出し、当該算出された相関係数Cor(p)と、前記算出された平均値Davg(p,i)または中間値Dmedian(p,i)とにより分類しきい値を決定して、当該分類しきい値に基づいて前記収集したセンサデータの集合をセンサ単位で分類する
ことを特徴とするセンサデータ分類装置。 - 複数のセンサからそれぞれ時系列に出力されるセンサデータの集合を収集してセンサ識別子と関連付けて記憶するデータ収集手段と、
前記記憶されたセンサデータの集合を予め設定した時間区間ごとに分割して、当該分割データの集合を分割区間識別子と関連付けて記憶するデータ分割手段と、
前記センサごとに、前記記憶された分割データの集合に含まれるデータからその特徴量を表す複数種の特徴パラメータを算出する特徴パラメータ算出手段と、
前記算出された複数種の特徴パラメータ間の相関係数を算出し、当該算出された相関係数の値と前記算出された特徴パラメータの値とに基づいて、前記収集したセンサデータの集合をセンサ単位で分類する分類手段と
を具備し、
前記特徴パラメータ算出手段は、前記センサ識別子をp、分割区間識別子をiで表すとき、前記記憶された分割データの集合に含まれるデータから、その最大値Dmax(p,i)と、標準偏差Dsd(p,i)と、平均値Davg(p,i)または中間値Dmedian(p,i)をそれぞれ算出し、
前記分類手段は、前記センサごとに、
Dmax(p,i) と log(Dsd(p,i)/Davg(p,i))との間
または
Dmax(p,i) と log(Dsd(p,i)/Dmedian(p,i))との間
の相関係数Cor(p)を算出し、当該算出された相関係数Cor(p)と、前記算出された平均値Davg(p,i)または中間値Dmedian(p,i)とにより分類しきい値を決定して、当該分類しきい値に基づいて、前記収集したセンサデータの集合をセンサ単位で分類する
ことを特徴とするセンサデータ分類装置。 - プロセッサおよび記憶部を有するセンサデータ分類装置が実行するセンサデータ分類方法であって、
複数のセンサからそれぞれ時系列に出力されるセンサデータの集合を収集し、センサ識別子と関連付けて前記記憶部に記憶するデータ収集過程と、
前記記憶されたセンサデータの集合を予め設定した時間区間ごとに分割し、当該分割データの集合を分割区間識別子と関連付けて前記記憶部に記憶するデータ分割過程と、
前記センサごとに、前記記憶された分割データの集合に含まれるデータからその特徴量を表す複数種の特徴パラメータを算出する特徴パラメータ算出過程と、
前記センサごとに、前記算出された複数種の特徴パラメータ間の相関係数を算出し、当該算出された相関係数の値と前記算出された特徴パラメータの値とに基づいて、前記収集したセンサデータの集合をセンサ単位で分類する分類過程と
を具備し、
前記特徴パラメータ算出過程は、前記センサ識別子をp、分割区間識別子をiでそれぞれ表すとき、前記記憶された分割データの集合に含まれるデータから、その最大値Dmax(p,i)と、標準偏差Dsd(p,i)と、平均値Davg(p,i)または中間値Dmedian(p,i)をそれぞれ算出し、
前記分類過程は、前記センサごとに、
Dmax(p,i) と Dsd(p,i)/Davg(p,i)との間
または
Dmax(p,i) と Dsd(p,i)/Dmedian(p,i)との間
の相関係数Cor(p)を算出し、当該算出された相関係数Cor(p)と、前記算出された平均値Davg(p,i)または中間値Dmedian(p,i)とにより分類しきい値を決定して、当該分割境界値に基づいて前記収集したセンサデータの集合をセンサ単位で分類する
ことを特徴とするセンサデータ分類方法。 - プロセッサおよび記憶部を有するセンサデータ分類装置が実行するセンサデータ分類方法であって、
複数のセンサからそれぞれ時系列に出力されるセンサデータの集合を収集し、センサ識別子と関連付けて前記記憶部に記憶するデータ収集過程と、
前記記憶されたセンサデータの集合を予め設定した時間区間ごとに分割し、当該分割データの集合を分割区間識別子と関連付けて前記記憶部に記憶するデータ分割過程と、
前記センサごとに、前記記憶された分割データの集合に含まれるデータからその特徴量を表す複数種の特徴パラメータを算出する特徴パラメータ算出過程と、
前記センサごとに、前記算出された複数種の特徴パラメータ間の相関係数を算出し、当該算出された相関係数の値と前記算出された特徴パラメータの値とに基づいて、前記収集したセンサデータの集合をセンサ単位で分類する分類過程と
を具備し、
前記特徴パラメータ算出過程は、前記センサ識別子をp、分割区間識別子をiで表すとき、前記記憶された分割データの集合に含まれるデータから、その最大値Dmax(p,i)と、標準偏差Dsd(p,i)と、平均値Davg(p,i)または中間値Dmedian(p,i)をそれぞれ算出し、
前記分類過程は、前記センサごとに、
Dmax(p,i) と log(Dsd(p,i)/Davg(p,i))との間
または
Dmax(p,i) と log(Dsd(p,i)/Dmedian(p,i))との間
の相関係数Cor(p)を算出し、当該算出された相関係数Cor(p)と、前記算出された平均値Davg(p,i)または中間値Dmedian(p,i)とにより分類しきい値を決定して、当該分類しきい値に基づいて前記収集したセンサデータの集合をセンサ単位で分類する
ことを特徴とするセンサデータ分類方法。 - 請求項1または2に記載のセンサデータ分類装置が具備する各手段による処理を、前記センサデータ分類装置が備えるプロセッサに実行させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014238085A JP2016099888A (ja) | 2014-11-25 | 2014-11-25 | センサデータ分類装置、方法およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014238085A JP2016099888A (ja) | 2014-11-25 | 2014-11-25 | センサデータ分類装置、方法およびプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2016099888A true JP2016099888A (ja) | 2016-05-30 |
Family
ID=56077223
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014238085A Pending JP2016099888A (ja) | 2014-11-25 | 2014-11-25 | センサデータ分類装置、方法およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2016099888A (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110832557A (zh) * | 2017-08-02 | 2020-02-21 | 欧姆龙株式会社 | 传感器装置、背景噪声数据发送方法和背景噪声数据发送程序 |
CN110944065A (zh) * | 2019-12-13 | 2020-03-31 | 李炳勇 | 一种基于物联网的传感器数据传输方法及系统 |
CN112564179A (zh) * | 2020-11-23 | 2021-03-26 | 国网山东省电力公司惠民县供电公司 | 一种提升优化配电网的方法、系统、装置及介质 |
WO2021177073A1 (ja) * | 2020-03-05 | 2021-09-10 | ソニーグループ株式会社 | 情報処理装置及び情報処理方法 |
JP2022540195A (ja) * | 2019-07-12 | 2022-09-14 | ディープ バイオ インク | 自動閾値化を用いたデータ処理方法及びシステム |
WO2024079899A1 (ja) * | 2022-10-14 | 2024-04-18 | 日本電信電話株式会社 | 統計値推定装置、統計値推定システム、統計値推定方法、及びプログラム |
-
2014
- 2014-11-25 JP JP2014238085A patent/JP2016099888A/ja active Pending
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110832557A (zh) * | 2017-08-02 | 2020-02-21 | 欧姆龙株式会社 | 传感器装置、背景噪声数据发送方法和背景噪声数据发送程序 |
CN110832557B (zh) * | 2017-08-02 | 2022-04-19 | 欧姆龙株式会社 | 传感器装置、背景噪声数据发送方法和存储介质 |
JP2022540195A (ja) * | 2019-07-12 | 2022-09-14 | ディープ バイオ インク | 自動閾値化を用いたデータ処理方法及びシステム |
JP7345811B2 (ja) | 2019-07-12 | 2023-09-19 | ディープ バイオ インク | 自動閾値化を用いたデータ処理方法及びシステム |
CN110944065A (zh) * | 2019-12-13 | 2020-03-31 | 李炳勇 | 一种基于物联网的传感器数据传输方法及系统 |
CN110944065B (zh) * | 2019-12-13 | 2023-03-24 | 湖南半岛医疗科技有限公司 | 一种基于物联网的传感器数据传输方法及系统 |
WO2021177073A1 (ja) * | 2020-03-05 | 2021-09-10 | ソニーグループ株式会社 | 情報処理装置及び情報処理方法 |
CN112564179A (zh) * | 2020-11-23 | 2021-03-26 | 国网山东省电力公司惠民县供电公司 | 一种提升优化配电网的方法、系统、装置及介质 |
CN112564179B (zh) * | 2020-11-23 | 2022-12-09 | 国网山东省电力公司惠民县供电公司 | 一种提升优化配电网的方法、系统、装置及介质 |
WO2024079899A1 (ja) * | 2022-10-14 | 2024-04-18 | 日本電信電話株式会社 | 統計値推定装置、統計値推定システム、統計値推定方法、及びプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2016099888A (ja) | センサデータ分類装置、方法およびプログラム | |
US11551036B2 (en) | Methods and apparatuses for building data identification models | |
DeVries et al. | Characterizing forest change using community-based monitoring data and Landsat time series | |
Pearson et al. | Predicting species distributions from small numbers of occurrence records: a test case using cryptic geckos in Madagascar | |
US11221904B2 (en) | Log analysis system, log analysis method, and log analysis program | |
CN104216349B (zh) | 利用制造设备的传感器数据的成品率分析系统及方法 | |
Eklundh et al. | TIMESAT for processing time-series data from satellite sensors for land surface monitoring | |
US9906476B2 (en) | Filter rule generation apparatus and filter rule generation method | |
Liang et al. | Rapid nuclide identification algorithm based on convolutional neural network | |
Kang et al. | Consensus on climate trends in western North Pacific tropical cyclones | |
KR101804170B1 (ko) | 비관심 아이템을 활용한 아이템 추천 방법 및 장치 | |
CN109101615B (zh) | 地震勘探数据处理方法及装置 | |
CN107908744A (zh) | 一种用于大数据清洗的异常检测和消除的方法 | |
CN103853654B (zh) | 网页测试路径的选择方法和装置 | |
Meng et al. | Analysis of ecological resilience to evaluate the inherent maintenance capacity of a forest ecosystem using a dense Landsat time series | |
US20140095934A1 (en) | Test case production utilizing problem reports | |
Lan et al. | Automatic identification of Spread F using decision trees | |
US11500112B2 (en) | Gamma-ray spectrum classification | |
Pinto et al. | Combining multiple data sets to unravel the spatiotemporal dynamics of a data-limited fish stock | |
US9177215B2 (en) | Sparse representation for dynamic sensor networks | |
Wesarat et al. | Mediating effect of job satisfaction on the relationship between work-life balance and job performance among academics: Data screening | |
US9626433B2 (en) | Supporting acquisition of information | |
Shi et al. | Globe230k: A Benchmark Dense-Pixel Annotation Dataset for Global Land Cover Mapping | |
Dayman et al. | Characterization of used nuclear fuel with multivariate analysis for process monitoring | |
KR102247179B1 (ko) | 이상행위탐지모델의 비지도 학습을 위한 xai 기반 정상학습데이터 생성방법 및 장치 |