JP6178218B2 - 欠損値推定装置及び欠損値推定方法 - Google Patents

欠損値推定装置及び欠損値推定方法 Download PDF

Info

Publication number
JP6178218B2
JP6178218B2 JP2013236889A JP2013236889A JP6178218B2 JP 6178218 B2 JP6178218 B2 JP 6178218B2 JP 2013236889 A JP2013236889 A JP 2013236889A JP 2013236889 A JP2013236889 A JP 2013236889A JP 6178218 B2 JP6178218 B2 JP 6178218B2
Authority
JP
Japan
Prior art keywords
record
variable
value
record group
explanatory
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2013236889A
Other languages
English (en)
Other versions
JP2015097019A (ja
Inventor
央 倉沢
央 倉沢
山本 淳
淳 山本
仁史 川崎
仁史 川崎
浩史 佐藤
浩史 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2013236889A priority Critical patent/JP6178218B2/ja
Publication of JP2015097019A publication Critical patent/JP2015097019A/ja
Application granted granted Critical
Publication of JP6178218B2 publication Critical patent/JP6178218B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Complex Calculations (AREA)

Description

本発明は、不完全センサデータの欠損値を推定する、欠損値推定装置及び欠損値推定方法に関する。
何らかの都合で観測できなかったり、観測した値を失ったりして、センサで観測された値がデータ化されたセンサデータの一部を欠損してしまうことはたびたび起こりうる。このような欠損を含むセンサデータを不完全センサデータとよぶ。例えば、センサの搭載された移動型センサノードにより観測されたセンシングデータを共有して活用する、ユーザ参加型のセンシング環境では、いつどこで観測されるかは各移動型センサノードの移動や行動に依存するため、すべての時空間のセンサ値を確実に得ることは難しい。さらに、移動型センサノードの仕様が一様でない場合は、すべての種類のセンサ値を得ることも難しい。それゆえ、ユーザ参加型のセンシング環境で集めたセンサデータは、時空間で整理すると、各移動型センサノードの不確実なセンシング行為に起因して、時空間やセンサの種類の欠損を含んでしまう。欠損値推定技術は、このようなユーザ参加型のセンシング環境において欠損してしまったセンサ値を推定する際に使われる。
欠損値推定技術が対象とする不完全データの形式として、2つ以上の変数の値から構成されたレコードの群において、一部もしくはすべてのレコードでそれぞれ1つ以上の変数値が欠けているものがある。例えば、「時刻」や「緯度」、「経度」、「温度」、「湿度」、「降水量」、「紫外線」の7つの変数から構成されたレコード群において、「時刻」と「緯度」、「経度」の3つの変数値しか含まないレコードや、「時刻」と「温度」、「湿度」、「降水量」の4つの変数値を含むレコードなどが混在している、各レコードが必ずしもすべての変数値を含まないデータである。
従来の欠損値推定技術は、欠損が生じた時刻や位置で観測できたセンサの値を説明変数、欠損したセンサの値を目的変数として、回帰推定していた(例えば、非特許文献1参照。)。つまり、欠損しているセンサと相関性の高いセンサを選別することに注力していて、装着方法や装着場所が多様なセンサノードから集めたデータを扱うことはそもそも想定されていなかった。回帰推定では、同じ時刻や位置で観測されたセンサの値から構成されるレコードを独立したものと見て、レコード群を学習データとしてそのまま利用していた。
また、センサ端末を持つユーザの行動推定(例えば、座る、歩く、走るといった動作の推定)技術は、センサノードの装着場所(例えば、ズボンのポケット、胸ポケット、鞄の中)を推定することで、行動推定精度を向上していた(例えば、非特許文献2や非特許文献3参照。)。これらの技術では、装着場所を識別することを目的としていて、装着場所を特徴づける統計値を事前に選別しておき、推定時にはその選別結果を利用していた。具体的には、時間的に連続した加速度センサの観測値の統計値を特徴量として利用し、事前に学習した識別器(例えば、決定木やサポートベクターマシン)で行動をラベル付け(例えば、「歩く」、「走る」)していた。
倉沢央、佐藤浩史、山本淳、川崎仁史、中村元紀、松村一、「不完全センサデータの重回帰における変数選択手法」、信学技報、USN2012−54、112(242)、pp.149−154、2012 倉沢央、川原圭博、森川博之、青山友紀、「センサ装着場所を考慮した3軸加速度センサを用いた姿勢推定手法」、情処研報2006−UBI−11−3、pp.15−22、2006 藤波香織、「携帯機器の帯同場所のセンシング−このデータはどこから来たのか?−」、情報処理、Vol.54、No.6、pp.582−585、2013 H.Akaike,"A new look at the statistical model identification",IEEE Transactions on Automatic Control,Vol.18,Issue 6,pp.716−723,1974 G.Schwarz,"Estimating the Dimension of a Model",Annals of Statistics,Vol.6,No.2,pp.461−464,1978
複数センサ搭載の移動型センサノードで収集した不完全なセンサデータの欠損値を推定するにあたって、装着方法や装着場所が異なる移動型センサノードで観測されたセンサの値が混在しているとき、欠損値推定精度が低くなってしまう。例えば、装着方法に関しては、ズボンのポケットに装着した移動型センサノードと鞄の中に装着した移動型センサノードとでは、ズボンのポケットに装着した移動型センサノードの方が人の発汗の影響を受けて湿度が高いため、湿度センサの値が大きくなりやすくなる。また、装着場所に関しては、地面に近いところに装着された移動型センサノードと人の目の高さと同じくらいの位置に装着された移動型センサノードとでは、地面に近い方が日中のアスファルトの道路からの照り返しの影響が地面に近いほど大きくなるため、温度センサの値が大きくなりやすくなる。このように、装着方法や装着場所によってセンサの値の傾向が変わってしまうため、移動型センサノードがどうやってどこに装着されているかを区別することが望ましい。
従来の欠損値推定技術は、観測されたセンサの値のみを回帰推定に使っているため、時間的または空間的なセンサ値の変化によって特徴づけられるような装着方法や装着場所の区別が難しい。
一方、従来の行動推定技術では、推定に用いるセンサの種類を限定したうえで、事前にユーザがセンサ端末を装着する方法や場所のすべての候補を学習して識別器を準備する必要があり、移動型センサノードのようにセンサの種類や、装着方法、装着場所の自由度が高く、ユーザが身につけるものとも限らないものに対してすべての装着方法や装着場所の候補に備えることは難しい。また、欠損を含むセンサデータでは、識別器で使う統計値を常に算出できるとも限らないため、そもそも欠損推定に適用することができない。
さらに、行動推定技術では同一端末で時間的に連続したセンサの観測値の統計値は使っているが、同一端末で空間的に近いエリアで観測された値の統計値は用いていないため、地域的な統計値が装着方法や装着場所の特徴として表されるようなものへの対応が難しい。
この発明は上記事情に着目してなされたもので、その目的とするところは、移動型センサノードの装着方法や装着場所を考慮して欠損値を推定できる欠損値推定装置及び欠損値推定方法を提供することにある。
本発明は、センサデータの欠損値を精度高く推定するために、センサの値だけでなくこの統計値も説明変数として回帰推定に用いる。
具体的には、本発明の欠損値推定装置は、
複数の変数を含むセンサデータのレコード群と当該レコード群における欠損値のうちの推定したい目的変数を受け付ける要求受付部と、
目的変数を有するレコードの変数のうち、欠損しておらず値を有する変数を第1の説明変数に設定し、前記レコード群のなかから前記第1の説明変数の揃ったレコードを解析対象レコード群として集約する集約部と、
前記集約部において集約された解析対象レコード群のレコードそれぞれについて、当該レコードと同一のオブジェクトから生成されたレコード群の前記第1の説明変数の統計値を算出して、当該レコードにおける前記第1の説明変数とは異なる第2の説明変数として追加する区間統計部と、
前記第2の説明変数が追加された解析対象レコード群について、前記第1及び第2の説明変数を用いた変数選択型の重回帰分析を行うことによって変数の係数の値を計算して当該値の絶対値が小さい変数を説明変数から除く変数選択型回帰分析部と、
重回帰分析の結果をもとに、目的変数を含むレコードの各説明変数の値及び係数から目的変数の値を計算する推定部と、
を備える。
この構成によれば、統計値を説明変数に用い、相関性の低い変数を説明変数から除くため、センサデータの欠損値の推定精度を高めることができる。具体的な装着方法や装着場所を識別せずに、装着方法や装着場所を多少なりとも特徴づけうる統計値を説明変数として追加し、それらを変数選択型回帰分析で選別すれば、多様で曖昧な装着方法や装着場所を許容した欠損値推定ができる。つまり、欠損したセンサの値にほぼ同じ影響を及ぼす装着方法や装着場所は区別せずに扱うといったことができる。例えば、リュックサックに装着した場合と斜めがけバッグに装着した場合とで湿度センサの値への影響が区別できない程度の差だった場合、敢えて2つの装着方法を識別しないで欠損推定しても同じ推定精度が見込めるうえに、事前に識別のために「リュックサック」や「斜めがけバッグ」といった装着方法のラベルを準備しなくても良い。
また、本発明の欠損値推定装置は、前記レコード群が、レコードを構成するセンサデータの観測時刻をレコードの生成時刻として含み、前記区間統計部は、前記解析対象レコード群のうちの目的変数を有するレコードの生成時刻から一定期間内を設定範囲とし、当該設定範囲で生成された近傍レコード群について、同一のオブジェクトから生成されたレコード群の前記第1の説明変数の統計値を算出してもよい。
この構成によれば、観測されたセンサの値だけでなく、移動型センサノードのセンサの値の時間的な変化をもとにした統計値を説明変数に加えることができる。これら統計値によって装着方法や装着場所を特徴づけることができる。例えば、ズボンのポケットに装着した移動型センサノードと鞄の中に装着した移動型センサノードとでは、加速度センサの値に注目すると、ある時刻における値の大きさで比較しても装着方法を区別するのが難しい。しかし、10秒間の値の変化の分散値で比較すると、ズボンのポケットに装着している場合の方が大きくなり、装着方法を特徴づける統計値としてこの分散値を利用できる。
また、本発明の欠損値推定装置は、前記センサデータが、移動型センサノードにより観測されたデータであり、前記レコード群が、レコードを構成するセンサデータの観測位置をレコードの生成位置として含み、前記区間統計部は、前記解析対象レコード群のうちの目的変数を有するレコードの生成位置から一定距離内を設定範囲とし、当該設定範囲で生成された近傍レコード群について、同一のオブジェクトから生成されたレコード群の前記第1の説明変数の統計値を算出してもよい。
この構成によれば、移動型センサノードの装着方法や装着場所を特徴付ける統計量がセンサの値の空間的な変化をもとにしたものであっても対処できる。例えば、地面に近いところに装着された移動型センサノードと人の目の高さと同じくらいの位置に装着された移動型センサノードとでは、ダストセンサの値に注目すると、ある時刻における値の大きさや時間的な変化で比較しても装着場所を区別するのが難しい。砂利道やアスファルトといった路面環境によってダストが舞う度合いが変化しているような状況では、センサの値は時間よりも位置に依存して変化するためである。しかし、測定位置から10メートルの近傍で観測された値の平均値で比較すると、地面に近いところに装着している場合の方が大きくなり、装着場所を特徴づける統計値としてこの平均値を利用できる。
また、本発明の欠損値推定装置は、前記区間統計部は、前記解析対象レコード群のレコードそれぞれについて、当該レコードと同一のオブジェクトから生成されたレコード群のうち、前記近傍レコード群に含まれるレコード前記第1の説明変数の統計値を複数の異なる設定範囲の前記近傍レコード群について算出してもよい。
この構成によれば、短期的なセンサの値の変化で表現できるものから長期的なセンサの値の変化で表現できるものまで、多様な装着方法や装着場所に対処することができる。
具体的には、本発明の欠損値推定方法は、
複数の変数を含むセンサデータのレコード群と当該レコード群における欠損値のうちの推定したい目的変数を受け付けると、目的変数を有するレコードの変数のうち、欠損しておらず値を有する変数を第1の説明変数に設定し、前記レコード群のなかから前記第1の説明変数の揃ったレコードを解析対象レコード群として集約する集約手順と、
前記集約手順において集約された解析対象レコード群のレコードそれぞれについて、当該レコードと同一のオブジェクトから生成されたレコード群の前記第1の説明変数の統計値を算出して、当該レコードにおける前記第1の説明変数とは異なる第2の説明変数として追加する区間統計手順と、
前記第2の説明変数が追加された解析対象レコード群について、前記第1及び第2の説明変数を用いた変数選択型の重回帰分析を行うことによって変数の係数の値を計算して当該値の絶対値が小さい変数を説明変数から除く変数選択型回帰分析手順と、
重回帰分析の結果をもとに、目的変数を含むレコードの各説明変数の値及び係数から目的変数の値を計算する推定手順と、
を有する。
本発明は、統計値を説明変数に用い、相関性の低い変数を説明変数から除くため、センサデータの欠損値の推定精度を高めることができる。
本発明の欠損値推定方法では、前記レコード群が、レコードを構成するセンサデータの観測時刻をレコードの生成時刻として含み、前記区間統計手順において、前記解析対象レコード群のうちの目的変数を有するレコードの生成時刻から一定期間内を設定範囲とし、当該設定範囲で生成された近傍レコード群について、同一のオブジェクトから生成されたレコード群の前記第1の説明変数の統計値を算出してもよい。
本発明の欠損値推定方法では、前記センサデータが、移動型センサノードにより観測されたデータであり、前記レコード群が、レコードを構成するセンサデータの観測位置をレコードの生成位置として含み、前記区間統計手順において、前記解析対象レコード群のうちの目的変数を有するレコードの生成位置から一定距離内を設定範囲とし、当該設定範囲で生成された近傍レコード群について、同一のオブジェクトから生成されたレコード群の前記第1の説明変数の統計値を算出してもよい。
本発明の欠損値推定方法では、前記区間統計手順において、前記解析対象レコード群のレコードそれぞれについて、当該レコードと同一のオブジェクトから生成されたレコード群のうち、前記近傍レコード群に含まれるレコード前記第1の説明変数の統計値を複数の異なる設定範囲の前記近傍レコード群について算出してもよい。
本発明によれば、統計値を説明変数に加え、相関性の低い変数を説明変数から除くことで、搭載するセンサの種類や装着の仕方が不確実な移動型センサノードで集めたセンサデータから所望の欠損したセンサ値を推定する精度が向上する。これによれば、スマートフォンのような装着方法や装着場所をある程度限定できるデバイスだけでなく、人や動物の体や車などのどこにでも貼り付けられる小型センサノードを使って多様な状況で集めたセンサデータからの欠損値推定を本発明では実現できる。
本実施形態に係る欠損値推定装置の一例を示す構成図である。 オリジナルレコード群の一例を示す。 欠損値推定方法の一例を示すフローチャートである。 解析対象レコード群の一例を示す。 端末ID=1についての直近5,10分のレコードの一例を示す。 端末ID=1についての近傍100mのレコードの一例を示す。 端末ID=1についての直近5,10分の統計値の一例を示す。 端末ID=1についての近傍100mの統計値の一例を示す。 端末ID=3についての直近5,10分のレコードの一例を示す。 端末ID=3についての近傍100mのレコードの一例を示す。 端末ID=3についての直近5,10分の統計値の一例を示す。 端末ID=3についての近傍100mの統計値の一例を示す。 統計値を追加した解析対象レコード群の一例を示す。
以下、本発明の実施形態について、図面を参照しながら詳細に説明する。なお、本発明は、以下に示す実施形態に限定されるものではない。これらの実施の例は例示に過ぎず、本発明は当業者の知識に基づいて種々の変更、改良を施した形態で実施することができる。なお、本明細書及び図面において符号が同じ構成要素は、相互に同一のものを示すものとする。
本発明の欠損値推定方法は、レコードごとに観測時刻から一定期間内に同一の移動型センサノードで観測されたセンサの値、または、観測位置から一定距離内に同一の移動型センサノードで観測されたセンサの値をもとに装着方法や装着場所を表す統計値を、レコードごとに算出する。そして、欠損が生じた時刻や位置で観測できたセンサの値だけでなくこの統計値も説明変数として変数選択型回帰で推定に使い、欠損値を推定する。
図1に本発明の欠損値推定装置10の構成を示す。欠損値推定装置は、要求受付部13、集約部14、区間統計部15、変数選択型回帰分析部16、推定部17、結果応答部18の各処理部と、第1メモリ11、第2メモリ12の各記憶部を備える。
図2に本発明の欠損値推定装置に入力されるレコードの例を示す。各レコードは、レコードID、端末ID、時刻、緯度、経度、ダスト、加速度、温度、湿度、騒音の変数値から構成されている。「NUL」は欠損を意味し、「?」は欠損かつ推定したい値を意味する。移動型センサノードの装着方法や装着場所はレコードに記録されていないが、端末IDのような個々の移動型センサノードを区別する変数が記録されているものとする。例えば、IDが13のレコードは、移動型センサノードの端末IDが1、観測時刻が13:26、緯度35.4145、経度139.4516、ダスト9.40、加速度6.01、湿度37.73、騒音62.04で、温度の値が欠損かつ推定したい値であることを示している。この場合、温度の値が目的変数となる。
以降では、欠損値推定の要求を受け付けて推定値を応答するまでを、図3のフローチャートと各処理部や各記憶部を参照しながら説明する。本実施形態に係る欠損値推定方法は、集約手順と、区間統計手順と、変数選択型回帰分析手順と、推定手順と、を順に有する。集約手順では、ステップS1〜S3を実行する。区間統計手順では、ステップS4を実行する。変数選択型回帰分析手順では、ステップS5〜S6を実行する。推定手順では、ステップS7〜S8を実行する。本発明の特徴である装着方法や装着場所の区別のための手順はステップS4で実行する。
ステップS1について説明する。要求受付部13は、欠損を含むレコード群と推定したい値の要求を受ける。これをオリジナルレコード群として第1メモリ11に書き込む。
ステップS2について説明する。集約部14は、推定対象である変数の値を求めるべきレコードを「クエリ」、推定したい変数を「目的変数」、欠損していない変数を「説明変数」とする。図2の例では、クエリはIDが13のレコード、目的変数は温度、説明変数は時刻、緯度、経度、ダスト、加速度、湿度、騒音となる。レコードID=13のうちの「速度」が「NUL」である場合は、「速度」は説明変数から除かれる。
ステップS3について説明する。集約部14は、第1メモリ11のオリジナルレコード群のうち、目的変数と説明変数が揃ったレコードを集約し、解析対象レコード群として第1メモリ11に書き込む。解析対象レコード群は、学習データである。図4に解析対象レコード群の例を示す。
本実施形態では、図4の例では、クエリのID=13のレコードに加えて、目的変数の温度センサの値と説明変数の時刻、緯度、経度、ダスト、加速度、温度、湿度、騒音の値が「NUL」ではないレコードが集約される。例えば、図2に示すレコードIDが1から12は温度の値が「NUL」となっているため、解析対象レコード群からは除外される。また、レコードIDが14から16はダストと湿度の値が「NUL」となっているため、同様に除外される。図2に示すレコードID=27、28、805、3109については目的変数と説明変数が揃っているため、解析対象レコードとなる。
ステップS4について説明する。区間統計部15は、解析対象レコード群のうちの同一のオブジェクトから生成されたレコード群ごとに統計値を算出し、各レコードの説明変数に追加する。同一のオブジェクトから生成されたレコード群は、例えば端末IDを有するレコード群である。統計値は、端末ID、時刻、位置(緯度と経度)及び目的変数を除いた1つ又は複数種類のセンサの値を用いるものとする。このとき、期間又は距離の近傍レコード群を集約し、集約した近傍レコードについてのみ統計値を算出することが好ましい。
本実施形態では、レコードID=13のレコードは端末ID=1であるため、端末ID=1の期間又は距離の近傍レコードを集約する。期間の近傍レコードは、例えば、時刻の値が、レコードID=13の時刻「13:26」から一定期間内のレコードである。ここでの一定時間は、5分以内、10分以内のように、指数間隔で集約する。距離の近傍レコードは、例えば、位置の値が、レコードID=13の緯度「35.4145」、経度「139.4516」で特定される位置から一定距離内に位置するレコードである。ここでの一定距離は、100m以内のように、指数間隔で集約する。
期間については、図5に示すように、レコードID=13の時刻から直近5分以内に測定されたレコードID=11,12,13と直近10分以内に測定されたレコードID=8,9,10の2区画を集約する。距離については、図6に示すように、レコードID=13の観測地から100m以内で観測されたレコードID=7〜13の1区画を集約する。また統計値は分散値と平均値とする。
図7は、図5に示す期間について集約したレコード群の統計値である。図8は、図6に示す距離について集約したレコード群の統計値である。図7及び図8に示すレコードが、レコードID=13のレコードに説明変数として追加される。
ステップS4では、端末ID=1と同様に、解析対象レコード群に含まれる端末ID=3、28、227についても、期間又は距離の近傍レコード群を集約し、統計値を算出する。図9に、端末ID=3についての期間の近傍レコード群の一例を示す。図10に、端末ID=3についての距離の近傍レコード群の一例を示す。図11に、図9に示す期間について集約したレコード群の統計値を示す。図12に、図10に示す距離について集約したレコード群の統計値を示す。
ここで、例えば、カバンに装着されたときに、直近5分と直近10分の加速度の分散値といったように区切る幅を変えることで、カバンの中を探るときの振動のような詳細な特徴と、カバンを持って歩きまわるときの振動のような大局的な特徴の両方を後の変数選択型回帰分析のときに選別対象にできる。
なお、本発明のいう統計値は上記特徴を満たす様々な算出方法がその対象になるものであって、分散値や平均値に限られない。具体的に一例を挙げると、最大値や最小値、中間値、周波数スペクトルのような統計値であっても良い。
図13に、ステップS4で統計値を追加したレコード群の一例を示す。図13では、解析対象レコード群の各レコードについて、同様に近傍レコード群の分散値や平均値を算出した結果の例を示す。後のステップの説明のため、端末IDが重複しているものはこの例では省いて示している。また、後のステップの説明のため、端末ID=1は「車」に、端末ID=3は「バギー」に、端末ID=28,54,58は「斜めがけバッグ」に、端末ID=97,183,227は「ハンドバッグ」に、端末ID=312は「人のズボンのポケット」に装着したものとする。
ステップS5について説明する。変数選択型回帰分析部16は、変数選択型の重回帰分析をして、結果を第2メモリ12に書き込む。変数選択型の重回帰分析は以下の式で算出される。
Figure 0006178218
ただし、Rは対象レコード群、RはレコードIDがiのレコード、R(v)はRの変数vの値、W(R)はRの重み、qは目的変数、θは説明変数の係数、θ(v)は変数vの係数の値、μ(v)は変数vの値の平均値、σ(v)は変数vの値の標準偏差、λはL1正則化のパラメータを表す。
なお、本発明のいう変数選択型の重回帰分析は、様々な変数選択方法がその対象になるものであって、L1正則化による計算に限られない。具体的に一例を挙げると、変数ごとに回帰係数を計算して係数の絶対値の小さいものを削減する方法や、Akaike Information Criterion(AIC)(例えば、非特許文献4参照。)やSchwarz’s Bayesian InformationCriterion(BIC)(例えば、非特許文献5参照。)といったモデル選択基準をもとにしたものであってもよい。さらに、欠損が多く含まれる場合は、欠損推定に用いる変数を絞り込みつつ解析対象レコード群を更新していく変数選択型重回帰分析(例えば、非特許文献1参照)であってもよい。
ステップS6について説明する。変数選択型回帰分析部16は、重回帰分析の結果をもとに、相関性の低い変数を説明変数から除く。ここでいう相関性の低い変数とは、ステップS5で算出された変数の係数がほぼ0の値となるものを指す。相関性の低い変数は、例えば、0.01以下とする。本実施形態では、時刻、直近10分の加速度の分散値、近傍100mの騒音の平均値が、相関の高い説明変数として選ばれ、他の説明変数は除かれるとする。
ステップS7について説明する。推定部17は、重回帰分析の結果をもとに、クエリの各変数から推定したい値を計算する。目的変数qの推定値Q(q)は(数式2)にもとづいて算出される。
Figure 0006178218
ただし、θ(v)は変数vの係数の値、Q(v)は変数vの値である。
本実施形態では、ステップS5における変数選択型回帰分析部16によって各説明変数の係数の値が算出され、当該係数に基づいて相関の低い説明変数が除かれている。本ステップで残されている説明変数は、時刻、直近10分の加速度の分散値、近傍100mの騒音の平均値である。そして、各説明変数の係数が、0.2、0.3、0.1の場合、推定部17において算出される推定式は、(数式2)より次式のようになる。
(数3)
(温度)=0.2*(時刻)+0.3*(直近10分の加速度の分散値)+0.1*(近傍100mの騒音の平均値)+(定数)
ステップS8について説明する。結果応答部18はステップS7で計算された推定値を出力する。
以上の手順で、欠損値推定装置10は不完全データの欠損した値を推定することができる。
以上説明したように、本発明は、図2に示すオリジナルレコード群に含まれているそのままの変数を説明変数に用いて重回帰分析で求めたとしても、各変数の相関性は低い。これに対して、本実施形態に係る発明では、説明変数にダスト、加速度、湿度、騒音の統計値を加えている。本実施形態に係る発明は、これらの統計値を用いて、目的変数とより相関性の高い変数である、直近10分の加速度の分散値と近傍100mの騒音の平均値の2つの説明変数を温度センサの値の推定式に加えることができた。これにより、本実施形態に係る発明は、センサデータの欠損値を精度高く推定することができる。
従来の行動推定技術で本実施形態の課題に取り組んだ場合は、事前に「車」、「斜めがけバッグ」、「ハンドバッグ」、「人の胸ポケット」、そして「人のズボンのポケット」といった装着方法や装着場所の候補と識別に有効な統計値を決めておき、直近の連続したセンサの値の統計値から、それら5つの候補に識別することになる。例えば、近傍100mの騒音の平均値が大きいものは「車」に識別する、といった処理であった。これに対して、本実施形態に係る発明では、直近10分の加速度の分散値と近傍100mの騒音の平均値の2つの統計値を説明変数として欠損推定にそのまま利用して、装着方法や装着場所が欠損したセンサ値に与える影響を反映させた推定式が得られた。本実施形態では、「車」のような騒音の平均値の大きいものが温度を高くする傾向や、「ズボンのポケット」のような加速度の分散値の大きいものが同様に温度を高くする傾向を推定式に反映できた。また、「斜めがけバッグ」と「ハンドバッグ」のように温度の値に与える影響がほぼ同じようなものは区別なく扱えた。
なお、本発明の装置はコンピュータとプログラムによっても実現でき、プログラムを記録媒体に記録することも、ネットワークを通して提供することも可能である。
本発明は情報通信産業に適用することができる。
10:欠損値予測装置
11:第1メモリ
12:第2メモリ
13:要求受付部
14:集約部
15:区間統計部
16:変数選択型回帰分析部
17:推定部
18:結果応答部

Claims (8)

  1. 複数の変数を含むセンサデータのレコード群と当該レコード群における欠損値のうちの推定したい目的変数を受け付ける要求受付部と、
    目的変数を有するレコードの変数のうち、欠損しておらず値を有する変数を第1の説明変数に設定し、前記レコード群のなかから前記第1の説明変数の揃ったレコードを解析対象レコード群として集約する集約部と、
    前記集約部において集約された解析対象レコード群のレコードそれぞれについて、当該レコードと同一のオブジェクトから生成されたレコード群の前記第1の説明変数の統計値を算出して、当該レコードにおける前記第1の説明変数とは異なる第2の説明変数として追加する区間統計部と、
    前記第2の説明変数が追加された解析対象レコード群について、前記第1及び第2の説明変数を用いた変数選択型の重回帰分析を行うことによって変数の係数の値を計算して当該値の絶対値が小さい変数を説明変数から除く変数選択型回帰分析部と、
    重回帰分析の結果をもとに、目的変数を含むレコードの各説明変数の値及び係数から目的変数の値を計算する推定部と、
    を備えることを特徴とする欠損値推定装置。
  2. 前記レコード群は、レコードを構成するセンサデータの観測時刻をレコードの生成時刻として含み、
    前記区間統計部は、前記解析対象レコード群のうちの目的変数を有するレコードの生成時刻から一定期間内を設定範囲とし、当該設定範囲で生成された近傍レコード群について、同一のオブジェクトから生成されたレコード群の前記第1の説明変数の統計値を算出することを特徴とする請求項1に記載の欠損値推定装置。
  3. 前記センサデータは、移動型センサノードにより観測されたデータであり、
    前記レコード群は、レコードを構成するセンサデータの観測位置をレコードの生成位置として含み、
    前記区間統計部は、前記解析対象レコード群のうちの目的変数を有するレコードの生成位置から一定距離内を設定範囲とし、当該設定範囲で生成された近傍レコード群について、同一のオブジェクトから生成されたレコード群の前記第1の説明変数の統計値を算出することを特徴とする請求項1又は2に記載の欠損値推定装置。
  4. 前記区間統計部は、前記解析対象レコード群のレコードそれぞれについて、当該レコードと同一のオブジェクトから生成されたレコード群のうち、前記近傍レコード群に含まれるレコード前記第1の説明変数の統計値を複数の異なる設定範囲の前記近傍レコード群について算出することを特徴とする請求項2又は3に記載の欠損値推定装置。
  5. 複数の変数を含むセンサデータのレコード群と当該レコード群における欠損値のうちの推定したい目的変数を受け付けると、目的変数を有するレコードの変数のうち、欠損しておらず値を有する変数を第1の説明変数に設定し、前記レコード群のなかから前記第1の説明変数の揃ったレコードを解析対象レコード群として集約する集約手順と、
    前記集約手順において集約された解析対象レコード群のレコードそれぞれについて、当該レコードと同一のオブジェクトから生成されたレコード群の前記第1の説明変数の統計値を算出して、当該レコードにおける前記第1の説明変数とは異なる第2の説明変数として追加する区間統計手順と、
    前記第2の説明変数が追加された解析対象レコード群について、前記第1及び第2の説明変数を用いた変数選択型の重回帰分析を行うことによって変数の係数の値を計算して当該値の絶対値が小さい変数を説明変数から除く変数選択型回帰分析手順と、
    重回帰分析の結果をもとに、目的変数を含むレコードの各説明変数の値及び係数から目的変数の値を計算する推定手順と、
    を有することを特徴とする欠損値推定方法。
  6. 前記レコード群は、レコードを構成するセンサデータの観測時刻をレコードの生成時刻として含み、
    前記区間統計手順において、前記解析対象レコード群のうちの目的変数を有するレコードの生成時刻から一定期間内を設定範囲とし、当該設定範囲で生成された近傍レコード群について、同一のオブジェクトから生成されたレコード群の前記第1の説明変数の統計値を算出することを特徴とする請求項5に記載の欠損値推定方法。
  7. 前記センサデータは、移動型センサノードにより観測されたデータであり、
    前記レコード群は、レコードを構成するセンサデータの観測位置をレコードの生成位置として含み、
    前記区間統計手順において、前記解析対象レコード群のうちの目的変数を有するレコードの生成位置から一定距離内を設定範囲とし、当該設定範囲で生成された近傍レコード群について、同一のオブジェクトから生成されたレコード群の前記第1の説明変数の統計値を算出することを特徴とする請求項5又は6に記載の欠損値推定方法。
  8. 前記区間統計手順において、前記解析対象レコード群のレコードそれぞれについて、当該レコードと同一のオブジェクトから生成されたレコード群のうち、前記近傍レコード群に含まれるレコード前記第1の説明変数の統計値を複数の異なる設定範囲の前記近傍レコード群について算出することを特徴とする請求項6又は7に記載の欠損値推定方法。
JP2013236889A 2013-11-15 2013-11-15 欠損値推定装置及び欠損値推定方法 Expired - Fee Related JP6178218B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013236889A JP6178218B2 (ja) 2013-11-15 2013-11-15 欠損値推定装置及び欠損値推定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013236889A JP6178218B2 (ja) 2013-11-15 2013-11-15 欠損値推定装置及び欠損値推定方法

Publications (2)

Publication Number Publication Date
JP2015097019A JP2015097019A (ja) 2015-05-21
JP6178218B2 true JP6178218B2 (ja) 2017-08-09

Family

ID=53374286

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013236889A Expired - Fee Related JP6178218B2 (ja) 2013-11-15 2013-11-15 欠損値推定装置及び欠損値推定方法

Country Status (1)

Country Link
JP (1) JP6178218B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109254550A (zh) * 2018-09-03 2019-01-22 深圳市智物联网络有限公司 一种数据处理方法及处理设备

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7265872B2 (ja) * 2019-01-25 2023-04-27 富士通株式会社 解析プログラム、解析装置、及び解析方法
JP7359009B2 (ja) * 2020-02-04 2023-10-11 沖電気工業株式会社 データ分析装置、プログラム及び方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005078277A (ja) * 2003-08-29 2005-03-24 Kirin Beverage Corp 出荷量予測システム
JP2007279887A (ja) * 2006-04-04 2007-10-25 Nippon Telegr & Teleph Corp <Ntt> 特異パターン検出システム、モデル学習装置、特異パターン検出装置、特異パターン検出方法、及び、コンピュータプログラム
US20080279434A1 (en) * 2007-05-11 2008-11-13 William Cassill Method and system for automated modeling
JP5889759B2 (ja) * 2012-09-24 2016-03-22 日本電信電話株式会社 欠損値予測装置、欠損値予測方法、欠損値予測プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109254550A (zh) * 2018-09-03 2019-01-22 深圳市智物联网络有限公司 一种数据处理方法及处理设备

Also Published As

Publication number Publication date
JP2015097019A (ja) 2015-05-21

Similar Documents

Publication Publication Date Title
US9224104B2 (en) Generating data from imbalanced training data sets
US9361702B2 (en) Image detection method and device
US10643073B2 (en) System, method, program for display on wearable terminal
US20190079821A1 (en) Technique for Processing Fault Event of IT System
JP5949560B2 (ja) 動線検出処理データ分散システム、動線検出処理データ分散方法およびプログラム
TW201812339A (zh) 震央距離推定裝置、震央距離推定方法及電腦可讀取之記錄媒體
JP6178218B2 (ja) 欠損値推定装置及び欠損値推定方法
US20170091573A1 (en) Visual attention detector and visual attention detection method
JP2019212291A (ja) コンピュータビジョンと結合される地磁気信号に基づいた室内位置決めシステム及び方法
JP2013036887A (ja) 観測値信頼度評価装置、観測値信頼度評価方法及び観測値信頼度評価プログラム
Bermingham et al. A probabilistic stop and move classifier for noisy GPS trajectories
CN110335313A (zh) 音频采集设备定位方法及装置、说话人识别方法及系统
US11782496B2 (en) Smart context subsampling on-device system
JP2018045302A (ja) 情報処理装置、情報処理方法及びプログラム
JP5915989B2 (ja) 情報提供装置
CN109740091B (zh) 一种基于行为认知的用户网络行为的预测系统及方法
JP2014160420A (ja) 活動状況処理装置及び活動状況処理方法
JP5791555B2 (ja) 状態追跡装置、方法、及びプログラム
Goethals et al. Reliable spurious mode rejection using self learning algorithms
JP2023161956A (ja) 物体追跡装置、物体追跡方法、及びプログラム
JPWO2018047855A1 (ja) 歩数計数装置、歩数計数方法、およびプログラム
Heidari et al. Forest roads damage detection based on objected detection deep learning algorithms
CN117992834B (zh) 一种数据分析方法以及相关装置
JP5944271B2 (ja) 地上移動体経路導出装置
US11922330B2 (en) Apparatus and method for estimating a physical state of a movable object

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160217

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20161130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161227

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170223

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170711

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170713

R150 Certificate of patent or registration of utility model

Ref document number: 6178218

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees