JP6047476B2 - SAMPLE DATA PROCESSING DEVICE, METHOD, AND PROGRAM - Google Patents
SAMPLE DATA PROCESSING DEVICE, METHOD, AND PROGRAM Download PDFInfo
- Publication number
- JP6047476B2 JP6047476B2 JP2013235436A JP2013235436A JP6047476B2 JP 6047476 B2 JP6047476 B2 JP 6047476B2 JP 2013235436 A JP2013235436 A JP 2013235436A JP 2013235436 A JP2013235436 A JP 2013235436A JP 6047476 B2 JP6047476 B2 JP 6047476B2
- Authority
- JP
- Japan
- Prior art keywords
- population
- characteristic value
- sample data
- estimated
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Complex Calculations (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
この発明は、例えばユーザの移動過程において、ユーザが携帯するセンサにより時空間の一部でサンプリングされた標本データをもとに時空間全体の母集団特性値を推定する標本データ処理装置、方法及びプログラムに関する。 The present invention relates to a sample data processing apparatus, method, and method for estimating population characteristic values of the entire spatio-temporal based on sample data sampled in a part of the spatio-temporal by a sensor carried by the user, for example, during the movement of the user Regarding the program.
ユーザの移動過程において、当該ユーザが携帯するセンサによりサンプリングされた時空間データ、つまり標本データを収集して利用する、ユーザ参加型の環境センシングが注目されている(例えば、非特許文献1を参照)。ユーザ参加型の環境センシングでは、センサを携帯して移動するユーザの軌跡に沿った時空間データしかサンプリングされない。このため、時空間全体の特性値を得るためには、上記ユーザの軌跡に沿ってサンプリングされた一部の時空間データ(標本データ)から、時空間全体のデータ特性値(母集団特性値)を推定する必要がある。 In the course of a user's movement, user-participation-type environmental sensing that collects and uses spatio-temporal data sampled by a sensor carried by the user, that is, sample data, has attracted attention (for example, see Non-Patent Document 1). ). In user-participation-type environmental sensing, only spatio-temporal data is sampled along the trajectory of a user moving with a sensor. For this reason, in order to obtain the characteristic value of the entire spatio-temporal, the data characteristic value of the entire spatio-temporal (population characteristic value) from a part of the spatio-temporal data (sample data) sampled along the user's trajectory. Need to be estimated.
サンプリングされた標本データから母集団特性値を推定する方法としては、標本調査法が知られている(例えば、非特許文献2を参照)。標本調査法は、母集団を構成する要素が標本に含まれる確率を事前に設定し、この設定した確率に従ったサンプリングにより実際に得られた標本データと上記事前に設定された確率の逆数とを用いて母集団特性値を推定するもので、時空間全体の特性値を偏りなく推定することができる。なお、母集団特性値の推定結果に偏りがないことは、事前に設定した確率通りに実際のサンプリングが行われることが前提となっている。 As a method for estimating a population characteristic value from sampled sample data, a sample survey method is known (see, for example, Non-Patent Document 2). In the sampling survey method, the probability that the elements constituting the population are included in the sample is set in advance, the sample data actually obtained by sampling according to the set probability, and the reciprocal of the preset probability, Is used to estimate the population characteristic value, and the characteristic value of the entire spatio-temporal can be estimated without bias. It should be noted that there is no bias in the estimation results of population characteristic values based on the premise that actual sampling is performed according to preset probability.
ところが、ユーザ参加型の環境センシングでは、センサを携帯して移動するユーザ次第で、時空間全体のうちのサンプリングされる部分が変化する。このため、ユーザ参加型の環境センシングに標本調査法を適用する場合、事前に設定した確率通りに実際のサンプリングが行われるとは限らず、事前に設定した確率の逆数と実際にサンプリングされた標本データとを用いた母集団特性値の推定結果に偏りが生じるという問題がある。 However, in user-participation-type environmental sensing, the sampled portion of the entire space-time changes depending on the user carrying the sensor and moving. For this reason, when the sample survey method is applied to user-participation-type environmental sensing, actual sampling is not always performed according to the preset probability, but the inverse of the preset probability and the actually sampled sample. There is a problem that the estimation results of population characteristic values using data are biased.
例えば、ある場所の一日の平均気温を推定する場合、どの時間帯も等確率にデータがサンプリングされると事前に想定したとしても、実際には気温の高い昼間に偏ってデータがサンプリングされた場合には、平均気温が過大に評価されることになる。また、反対に気温の低い夜間に偏ってデータがサンプリングされた場合には、平均気温が過小に評価されることになる。 For example, when estimating the average daily temperature at a certain place, even if it was assumed in advance that the data would be sampled with equal probability in any time zone, the data was actually sampled in the daytime when the temperature was high In some cases, the average temperature will be overestimated. On the other hand, when data is sampled biased at night when the temperature is low, the average temperature is underestimated.
この発明は上記事情に着目してなされたもので、その目的とするところは、時空間の一部においてサンプリングされた標本データから、時空間全体の母集団特性値を偏りなく推定できるようにした標本データ処理装置、方法及びプログラムを提供することにある。 The present invention has been made paying attention to the above circumstances, and the object of the present invention is to make it possible to estimate the population characteristic value of the entire spatio-temporal from the sample data sampled in a part of the spatio-temporal. A sample data processing apparatus, method, and program are provided.
上記目的を達成するためにこの発明は、以下のような態様を備えることを特徴とする。
(1)蓄積された標本データから母集団特性値を推定する標本データ処理装置にあって、前記特性値の推定対象となる母集団を定義するための時空間範囲と、当該母集団を構成する要素を定義するための時空間単位と、推定対象のセンサ種別と、推定する特性値の種別の指定を受け付ける手段と、前記指定された時空間範囲を、前記指定された時空間単位の母集団の要素に分割すると共に、当該分割された母集団の要素ごとに、前記蓄積された標本データから前記指定されたセンサ種別に対応する標本データを検索して保存する手段と、前記母集団の要素ごとに保存された標本データから、当該母集団の要素が標本データに含まれる確率を事後に推定すると共に、当該事後に推定された確率の逆数と前記指定されたセンサ種別に対応する標本データとをもとに前記指定された特性値種別に対応する母集団特性値を推定する手段と、前記推定された母集団特性値の推定値を出力する手段とを具備するようにしたものである。
In order to achieve the above object, the present invention comprises the following aspects.
(1) In a sample data processing apparatus for estimating a population characteristic value from accumulated sample data, a spatio-temporal range for defining a population for which the characteristic value is to be estimated, and the population Means for accepting designation of a spatio-temporal unit for defining an element, a sensor type to be estimated, and a type of characteristic value to be estimated; and the designated spatio-temporal range as a population of the designated spatio-temporal unit Means for retrieving and storing sample data corresponding to the specified sensor type from the accumulated sample data for each element of the divided population, and elements of the population A sample corresponding to the specified sensor type and the reciprocal of the probabilities estimated after the posterior estimation of the probability that the element of the population is included in the sample data from the sample data stored for each And a means for estimating a population characteristic value corresponding to the specified characteristic value type based on the data, and a means for outputting an estimated value of the estimated population characteristic value. It is.
(2)(1)に記載された態様において、前記母集団特性値の正解値が判明している、前記指定されたセンサ種別以外の標本データを補助データとして取得する手段をさらに具備する。そして、前記母集団特性値を推定する手段は、前記母集団の要素ごとに保存された標本データから、当該母集団の要素が標本データに含まれる確率を事後に推定する手段と、前記事後に推定された確率の逆数を前記取得された補助データをもとに補正する手段と、前記補正された確率の逆数と、前記指定されたセンサ種別に対応する標本データとをもとに、前記指定された特性値種別に対応する母集団特性値を推定する手段とを備えるようにしたものである。 (2) The aspect described in (1) further includes means for acquiring, as auxiliary data, sample data other than the designated sensor type, in which the correct value of the population characteristic value is known. The means for estimating the population characteristic value includes, after the posterior estimation means, from the sample data stored for each element of the population, the probability that the element of the population is included in the sample data; The means for correcting the reciprocal of the estimated probability based on the acquired auxiliary data, the reciprocal of the corrected probability, and the sample data corresponding to the specified sensor type, Means for estimating a population characteristic value corresponding to the specified characteristic value type.
(3)(1)又は(2)に記載された態様において、前記母集団特性値を推定する手段は、回帰モデルを用いて、母集団の要素が標本データに含まれる確率を事後に推定するようにしたものである。 (3) In the aspect described in (1) or (2), the means for estimating the population characteristic value uses a regression model to estimate the probability that the elements of the population are included in the sample data. It is what I did.
(1)実際にサンプリングされた標本データから母集団を構成する要素が標本に含まれる確率が事後に推定され、この事後に推定された確率の逆数と実際にサンプリングされた標本データとを用いて母集団特性値が推定される。このため、ユーザ参加型の環境センシングのように、時空間全体のどの部分のデータがサンプリングされるかを必ずしも統制できない場合であっても、サンプリングされた一部の時空間の標本データから時空間全体のデータ特性値、つまり母集団特性値を、偏りなく或いは小さい誤差で推定することが可能となる。 (1) The probability that the elements constituting the population are included in the sample is estimated after the actual sampled sample data, and the reciprocal of the estimated probability and the actually sampled sample data are used. Population characteristic values are estimated. For this reason, even if it is not always possible to control which part of the entire space-time data is sampled, such as user-participated environmental sensing, the spatio-temporal from the sampled data of a part of the space-time sampled. It is possible to estimate the entire data characteristic value, that is, the population characteristic value without deviation or with a small error.
(2)事後に推定された確率の逆数が、母集団特性値の正解値が判明している補助データをもとに補正される。このため、母集団特性値の推定誤差をさらに小さくすることができる。 (2) The reciprocal of the probability estimated after the fact is corrected based on auxiliary data for which the correct value of the population characteristic value is known. For this reason, the estimation error of the population characteristic value can be further reduced.
(3)母集団の要素が標本データに含まれる確率の推定が、回帰モデルを利用して効率良く行われる。 (3) The estimation of the probability that the elements of the population are included in the sample data is efficiently performed using the regression model.
すなわちこの発明の各態様によれば、時空間の一部においてサンプリングされた標本データから、時空間全体の母集団特性値を偏りなく推定できるようにした標本データ処理装置、方法及びプログラムを提供することができる。 That is, according to each aspect of the present invention, there is provided a sample data processing apparatus, method, and program that can estimate the population characteristic value of the entire spatiotemporal from the sample data sampled in a part of the spatiotemporal without any deviation. be able to.
以下、図面を参照してこの発明に係わる実施形態を説明する。
[第1の実施形態]
図1は、この発明に係る標本データ処理装置の第1の実施形態である母集団特性値推定装置を含む環境センシングシステムの構成を示すブロック図である。
このシステムは、標本データ処理装置としての母集団特性値推定装置1と、この母集団特性値推定装置1に対し図示しないネットワークを介して接続可能なアプリケーション実行装置2及びセンサデータベース装置3とを備えている。
Embodiments according to the present invention will be described below with reference to the drawings.
[First Embodiment]
FIG. 1 is a block diagram showing a configuration of an environment sensing system including a population characteristic value estimation device which is a first embodiment of a sample data processing device according to the present invention.
This system includes a population characteristic
センサデータベース装置3は、例えばデータベースサーバ上に設けられ、ユーザごとに当該ユーザが携帯するセンサにより時系列でサンプリングされたセンサデータを蓄積する。図2は、当該センサデータの一例を示すもので、各レコードは日時データと、緯度及び経度により表される位置データと、センサ種別を表すデータと、当該センサの計測データとから構成される。例えば、1行目のレコードは、日時「2013-08-20 09:15:00」に、位置(緯度「35.738157」、経度「139.565407」)において、センサ種別「温度」の計測データ「26.0」がサンプリングされたことを意味する。
The
アプリケーション実行装置2は、例えばサービス事業者が使用するパーソナルコンピュータからなり、母集団特性値推定装置1に対し推定要求を与え、この要求に対する母集団特性値推定装置1による推定結果を受信するために使用される。推定要求には、パラメータとして、時空間範囲、時空間単位、センサ種別および特性値種別が挿入される。
The
母集団特性値推定装置1は、例えばクラウドシステムに設けられるサーバコンピュータからなり、CPU(Central Processing Unit)を有する処理ユニット11と、バッファ部12を有する記憶ユニットと、上記センサデータベース装置3及びアプリケーション実行装置2との間でデータ伝送を行う通信インタフェースユニット(図示せず)を備えている。
The population characteristic
処理ユニット11は、この発明の第1の実施形態を実施するために必要な処理機能として、要求受付部111と特性値推定部112と、推定結果応答部113と、時空間分割部114を備えている。尚、これらの処理部111〜114は、図示しないプログラムメモリに格納されたプログラムを上記CPUに実行させることにより実現される。
The
要求受付部111は、上記アプリケーション実行装置2から送信される推定要求を受信し、この受信された推定要求に挿入されているパラメータのうち時空間範囲、時空間単位及びセンサ種別をそれぞれ表すデータを時空間分割部114に、また特性値種別を特性値推定部112にそれぞれ与える処理を行う。
The request reception unit 111 receives the estimation request transmitted from the
時空間分割部114は、上記要求受付部111から与えられた時空間範囲、時空間単位及びセンサ種別に基づいて、先ず上記時空間範囲を、上記時空間単位の要素に分割した時空間データ配列をバッファ部12上に作成する。次に、上記分割された時空間要素ごとに、上記入力されたセンサ種別に該当するレコードをセンサデータベース装置3から検索し、検索結果のレコードに含まれる計測データをバッファ部12の時空間データ配列に格納する処理を行う。尚、検索結果のレコードが複数ある場合には、それらの計測データの代表値(例えば、平均値や中央値など)を格納し、検索結果のレコードが一つもない場合はNAを格納する。
The spatio-
特性値推定部112は、上記要求受付部111から与えられた特性種別と、上記バッファ部12に保存されている時空間データ配列とに基づいて、上記バッファ部12に保持されている時空間データ配列から時空間二値配列を作成する処理と、上記作成された時空間二値配列から時空間確率配列を作成する処理と、上記作成された時空間確率配列から時空間重み配列を作成する処理と、上記作成された時空間重み配列と上記時空間データ配列とから特性値を推定する処理を実行する。
The
推定結果応答部113は、上記特性値推定部112により作成された特性値を表す情報を、要求元のアプリケーション実行装置2へ返送する処理を行う。
The estimation result
(動作)
次に、以上のように構成された母集団特性値推定装置1の動作を説明する。
(1)標本データの収集
ユーザはGPS(Global Positioning System)センサ及び温度センサを搭載した携帯端末を所持して移動しており、この移動過程において上記携帯端末は上記GPSセンサ及び温度センサによりそれぞれ計測された位置データ及び温度データを予め設定した周期でセンサデータベース装置3へ送信する。センサデータベース装置3は、ユーザごとにその携帯端末から送信された各センサデータを受信してデータベースに格納する。図2はデータベースに格納されたセンサデータの一例を示すもので、各レコードは日時、緯度及び経度により表れる位置データ、センサ種別及び計測データにより構成される。この例では、携帯端末から15分周期で送信されたセンサデータを記憶した場合を示している。
(Operation)
Next, the operation of the population characteristic
(1) Collection of sample data A user is carrying a portable terminal equipped with a GPS (Global Positioning System) sensor and a temperature sensor, and the portable terminal measures the GPS sensor and the temperature sensor in this movement process. The obtained position data and temperature data are transmitted to the
(2)時空間全体における母集団特性値の推定
(2−1)推定のためのパラメータの指定
母集団特性値推定装置1に対し時空間全体における母集団特性値の推定処理を要求する場合、オペレータはアプリケーション実行装置2において、推定対象となる時空間範囲、時空間単位、センサ種別及び特性値種別をパラメータとして指定入力する。そうするとアプリケーション実行装置2から、上記指定入力された時空間範囲、時空間単位、センサ種別及び特性値種別を含む推定要求が母集団特性値推定装置1へ送信される。
(2) Estimation of population characteristic values in the entire space-time (2-1) Specification of parameters for estimation When requesting the population characteristic
図3及び図4にそれぞれ時空間範囲及び時空間単位の例を示す。この例は、日時「2013-08-20 08:00:00」〜「2013-08-20 12:00:00」、位置(緯度「35.722000」〜「35.738000」、経度「139.560000」〜「139.566000」)で定義される時空間範囲を特性値を推定する母集団とし、日時の間隔「01:00:00」と位置(緯度)の間隔「0.004」により定義される時空間単位を、母集団を構成する要素とすることを意味している。なお、後述するが、時空間分割部114により、図3に示した時空間範囲が図4に示した時空間単位の要素に分割される。
FIGS. 3 and 4 show examples of spatiotemporal ranges and spatiotemporal units, respectively. This example shows the date and time “2013-08-20 08:00:00” to “2013-08-20 12:00:00”, location (latitude “35.722000” to “35.738000”, longitude “139.560000” to “139.566000” ) Is defined as the population for estimating the characteristic value, and the space-time unit defined by the date and time interval "01:00:00" and the position (latitude) interval "0.004" It means to make it a constituent element. As will be described later, the spatio-
また、図5及び図6にそれぞれセンサ種別及び特性値種別の例を示す。この例は、推定対象のセンサ種別を「温度」とし、推定する特性値種別を「平均」とすることを意味している。 5 and 6 show examples of sensor types and characteristic value types, respectively. This example means that the sensor type to be estimated is “temperature” and the characteristic value type to be estimated is “average”.
(2−2)推定要求の受信処理
母集団特性値推定装置1では、上記アプリケーション実行装置2から推定要求が送られると、要求受付部111により上記推定要求からパラメータが抽出され、このパラメータのうち時空間範囲、時空間単位及びセンサ種別が時空間分割部114に、また特性値種別が特性値推定部112にそれぞれ与えられる。
(2-2) Receiving process of estimation request In the population characteristic
(2−3)時空間分割処理
時空間分割部114では、上記要求受付部111から与えられた時空間範囲、時空間単位及びセンサ種別に基づいて、先ず上記指定された時空間範囲を、上記指定された時空間単位の要素に分割した時空間データ配列がバッファ部12上に作成される。次に、上記分割された時空間要素ごとに、上記入力されたセンサ種別に該当するレコードがセンサデータベース装置3から読み出され、この読み出されたレコードに含まれる計測データがバッファ部12の時空間データ配列に格納される。なお、上記読み出されたレコードが複数ある場合にはそれらのデータの代表値、例えば平均値又は中央値が格納され、読み出されたレコードが一つもない場合にはNAが格納される。
(2-3) Spatio-temporal division processing In the spatio-
図7は、時空間データ配列の一例を示すもので、図3に示した時空間範囲、図4に示した時空間単位及び図5に示したセンサ種別に応じて時空間データ配列を作成した場合を示したものである。すなわち、図3に示した日時の開始「2013-08-20 08:00:00」から日時の終了「2013-08-20 12:00:00」までが図4に示した日時の間隔「01:00:00」で4分割され、図3に示した位置(緯度)の開始「35.722000」から位置(緯度)の終了「35.738000」までが図4に示した位置(緯度)の間隔「0.004」で4分割される。また、その分割された時空間要素ごとに、図5に示したセンサ種別「温度」のデータが格納されている。 FIG. 7 shows an example of a spatio-temporal data array. A spatio-temporal data array was created according to the spatio-temporal range shown in FIG. 3, the spatio-temporal unit shown in FIG. 4, and the sensor type shown in FIG. The case is shown. That is, the date and time interval “01” shown in FIG. 4 is from the start date “2013-08-20 08:00:00” to the end date “2013-08-20 12:00:00” shown in FIG. 00:00 ”is divided into four, and the position (latitude) interval“ 0.004 ”shown in FIG. 4 from the start (35.722000) of the position (latitude) shown in FIG. 3 to the end“ 35.738000 ”of the position (latitude) shown in FIG. Is divided into four. Further, the sensor type “temperature” data shown in FIG. 5 is stored for each of the divided space-time elements.
ここで、特性値を推定する母集団Uは、分割された時空間要素の全体集合であり、U={(j,k)|j=1,2,3,4, k=1,2,3,4}である。また、センサ種別「温度」のデータがサンプリングされている標本sは、母集団Uの部分集合であり、s={(1,2),(2,2),(2,3),(3,2)}である。なお、後述するが、特性値推定部112により、時空間データ配列に格納された標本sの要素iのデータy_i(i∈s⊆U)をもとに、母集団Uの要素iのデータy_i(i∈U)を要約した特性値が推定される。
なお、図7では、時間軸が1次元でかつ空間軸が1次元からなる2次元配列となっているが、図4において位置(経度)の間隔も併せて指定した場合には、時間軸が1次元でかつ空間軸が2次元の3次元配列になる。
Here, the population U for estimating the characteristic value is a whole set of divided space-time elements, and U = {(j, k) | j = 1,2,3,4, k = 1,2, 3,4}. The sample s from which data of the sensor type “temperature” is sampled is a subset of the population U, and s = {(1,2), (2,2), (2,3), (3 , 2)}. As will be described later, the characteristic
In FIG. 7, the time axis is a one-dimensional and the spatial axis is a two-dimensional array. However, when the position (longitude) interval is also specified in FIG. It becomes a three-dimensional array with one dimension and a two-dimensional space axis.
(2−4)特性値推定処理
特性値推定部112では、上記要求受付部111から与えられた特性種別と、上記バッファ部12に保持されている時空間データ配列に基づいて、以下のように時空間特性値の推定処理が行われる。図8はその処理手順と処理内容を示すフローチャートである。
(2-4) Characteristic Value Estimation Processing The characteristic
特性値推定部112では、先ずステップS1において、上記バッファ部12から時空間データ配列が読み出され、この時空間データ配列から時空間二値配列を作成する処理が次のように行われる。すなわち、時空間データ配列を(y_i)とすると、
図9は時空間二値配列の一例を示すもので、この例では時空間データ配列が図7に示すようになっている場合を示している。母集団U={(j,k)|j=1,2,3,4, k=1,2,3,4}の要素のうち、標本s={(1,2),(2,2),(2,3),(3,2)}に含まれる要素だけが1となり、それ以外の要素は0となっている。 FIG. 9 shows an example of a spatiotemporal binary array. In this example, the spatiotemporal data array is as shown in FIG. Among the elements of the population U = {(j, k) | j = 1,2,3,4, k = 1,2,3,4}, the sample s = {(1,2), (2,2 ), (2,3), (3,2)} are only 1 and other elements are 0.
特性値推定部112では、続いてステップS2において、上記ステップS1で作成された時空間二値配列から時空間確率配列を作成する処理が以下のように行われる。すなわち、バッファ部12に保存されている時空間二値配列を(z_i)とすると、先ず
次に、
図10は、以上のように作成された時空間確率配列(π^_i)の一例を示すもので、時空間二値配列が図9に示した場合に得られるものである。
next,
FIG. 10 shows an example of the spatiotemporal probability array (π ^ _i) created as described above, and is obtained when the spatiotemporal binary array is shown in FIG.
なお、上記例では、母集団を構成する要素が標本に含まれる確率を事後に推定するために、ロジスティック回帰モデルを用いる場合を説明した。しかし、その他の回帰モデル、例えばプロビット回帰モデルやカーネル回帰モデルを用いることも可能である。また、説明変数のベクトルとして日時と位置(緯度)を用いる場合を例示したが、母集団を構成する要素が標本に含まれる確率を説明する上で利用可能なその他の変数があれば、上記日時と位置(緯度)に代えて、或いは加えて当該他の変数を用いてもよい。 In the above example, the case where the logistic regression model is used to estimate the probability that the elements constituting the population are included in the sample is described. However, other regression models such as a probit regression model and a kernel regression model can also be used. Moreover, the case where date and time and position (latitude) are used as the explanatory variable vector is illustrated, but if there are other variables that can be used to explain the probability that the elements constituting the population are included in the sample, the date and time described above Other variables may be used instead of or in addition to the position (latitude).
特性値推定部112では、次にステップS3において、上記ステップS2により作成された時空間確率配列から時空間重み配列を作成する処理が次のように行われる。すなわち、バッファ部12に保持されている時空間確率配列を先に述べたように(π^_i)とすると、
図11にこのようにして作成された時空間重み配列(w_i)の一例を示す。この例は、時空間確率配列(π^_i)が図10に示した場合に対応するものである。
Next, in step S3, the characteristic
FIG. 11 shows an example of the spatiotemporal weight array (w_i) created in this way. This example corresponds to the case where the spatiotemporal probability array (π ^ _i) is shown in FIG.
特性値推定部112では、次にステップS4において、上記ステップS3により作成された時空間重み配列(w_i)と、先に時空間分割部114により作成されてバッファ部12に保存されている時空間データ配列(y_i)とに基づいて、時空間の特性値を推定する処理が以下のように行われる。
Next, in step S4, the characteristic
すなわち、推定要求により指定された特性値種別が図6に示したように「平均」となっていたとすれば、
(2.5*30.1+3.3*33.0+3.3*31.7+5.0*35.7)/16=29.2
となる。
That is, if the characteristic value type specified by the estimation request is “average” as shown in FIG.
(2.5 * 30.1 + 3.3 * 33.0 + 3.3 * 31.7 + 5.0 * 35.7) /16=29.2
It becomes.
なお、上記例では、推定する特性値種別が「平均」の場合について説明したが、その他の特性値種別、例えば割合や分散についても、「平均(や平均が基本とする総計)」が基本になるため、時空間重み配列と時空間データ配列とを用いて推定することができる。 In the above example, the case where the characteristic value type to be estimated is “average” has been described. However, for other characteristic value types, such as ratio and variance, “average (or the total based on the average)” is basically used. Therefore, it can be estimated using a spatiotemporal weight array and a spatiotemporal data array.
(2−5)推定結果の出力処理
特性値推定部112から母集団特性値推定が完了したことを通知されると、推定結果応答部113は上記特性値の推定結果を表す情報をバッファ部12から読み出し、この読み出された特性値の推定値を母集団特性値推定の結果としてアプリケーション実行装置2に送信する。
(2-5) Estimation Result Output Processing When the characteristic
(第1の実施形態の効果)
以上詳述したように第1の実施形態では、実際にサンプリングされたセンサデータの各レコード(標本データ)から母集団を構成する要素が標本に含まれる確率をロジスティック回帰モデルを用いて推定し、この事後に推定された確率の逆数と実際にサンプリングされた標本データとを用いて母集団特性値を推定するようにしている。
(Effects of the first embodiment)
As described in detail above, in the first embodiment, the probability that the elements constituting the population are included in the sample from each record (sample data) of the actually sampled sensor data is estimated using the logistic regression model, The population characteristic value is estimated using the reciprocal of the probability estimated after this fact and the sample data actually sampled.
したがって、ユーザ参加型の環境センシングのように、時空間全体のどの部分のデータがサンプリングされるかを必ずしも統制できない場合であっても、サンプリングされた一部の時空間の標本データから時空間全体のデータ特性値、つまり母集団特性値を、偏りなく或いは小さい誤差で推定することが可能となる。 Therefore, even if it is not always possible to control which part of the whole space-time is sampled, such as user-participated environmental sensing, the entire space-time can be obtained from the sampled data of a part of the space-time. It is possible to estimate the data characteristic value of the above, that is, the population characteristic value without deviation or with a small error.
[第2の実施形態]
この発明の第2の実施形態は、母集団特性値の正解値がわかるデータ、つまり母集団の全要素をサンプリングした推定対象外のセンサ種別のデータが利用可能な場合に、当該データを補助データとして利用して時空間重み配列を補正し、この補正された時空間重み配列を用いて、もともとの推定対象であったセンサ種別の母集団特性値を推定するようにしたものである。
[Second Embodiment]
In the second embodiment of the present invention, when data for which the correct value of a population characteristic value is known, that is, when data of a sensor type that is not an estimation target obtained by sampling all elements of a population is available, the data is used as auxiliary data. Is used to correct the spatio-temporal weight array, and the corrected spatio-temporal weight array is used to estimate the population characteristic value of the sensor type that was originally the estimation target.
図12は、この発明に係る標本データ処理装置の第2の実施形態である母集団特性値推定装置の特性値推定部における推定処理手順と処理内容を示すフローチャートである。尚、同図において前記図8と同一部分には同一符号を付して詳しい説明は省略する。
また、ここでは推定対象のセンサ種別以外の補助データも、推定対象のセンサ種別のデータと同様に、時空間データ配列(y’_i)としてバッファ部12に格納されていることを想定して説明を行う。
FIG. 12 is a flowchart showing an estimation processing procedure and processing contents in the characteristic value estimation unit of the population characteristic value estimation apparatus which is the second embodiment of the sample data processing apparatus according to the present invention. In the figure, the same parts as those in FIG.
Further, here, it is assumed that auxiliary data other than the sensor type to be estimated is stored in the
特性値推定部112では、ステップS3による時空間重み配列(w_i)の作成処理が終了すると、続いてステップS5に移行し、ここで上記時空間重み配列(w_i)を、補助データとしての他のセンサ種別による時空間データ配列(y’_i)をもとに補正する処理が行われる。
In the characteristic
具体的には、
例えば、いま時空間重み配列(w_i)が図11に示したようになっており、補助データとしての時空間データ配列(y’_i)が図13に示したようになっていたとする。この場合には、補助データy’_iの総計の正解値と推定値の比は
(75.3+70.7+…+64.2+62.2)/(2.5*70.7+3.3*71.5+3.3*65.4+5.0*70.8)=1.1
となる。このため、時空間重み配列(w_i)は1.1倍に補正され、この補正された時空間重み配列(w’_i)がバッファ部12に保存される。図14はこのようにして補正された時空間重み配列(w’_i)の一例を示すものである。
For example, assume that the spatiotemporal weight array (w_i) is as shown in FIG. 11 and the spatiotemporal data array (y′_i) as auxiliary data is as shown in FIG. In this case, the ratio between the correct value and the estimated value of the sum of the auxiliary data y'_i is
(75.3 + 70.7 +… + 64.2 + 62.2) / (2.5 * 70.7 + 3.3 * 71.5 + 3.3 * 65.4 + 5.0 * 70.8) = 1.1
It becomes. For this reason, the spatiotemporal weight array (w_i) is corrected to 1.1 times, and the corrected spatiotemporal weight array (w′_i) is stored in the
特性値推定部112では、続いてステップS4において、上記ステップS5により作成された補正後の時空間重み配列(w’_i)と、先に時空間分割部114により作成されてバッファ部12に保存されている時空間データ配列(y_i)とに基づいて、時空間の特性値を推定する処理が以下のように行われる。
Subsequently, in step S4, the characteristic
すなわち、推定要求により指定された特性値種別が、図6に示したように「平均」となっていたとすれば、
例えば、補正された時空間重み配列(w’_i)が図14に示したようになっており、推定対象のセンサ種別の時空間データ配列(y_i)が図7に示したようになっていたとすると、平均の推定値μ^’は
(2.8*30.1+3.6*33.0+3.6*31.7+5.5*35.7)/16=32.1
となる。
For example, the corrected spatiotemporal weight array (w′_i) is as shown in FIG. 14, and the spatiotemporal data array (y_i) of the sensor type to be estimated is as shown in FIG. Then the average estimate μ ^ '
(2.8 * 30.1 + 3.6 * 33.0 + 3.6 * 31.7 + 5.5 * 35.7) /16=32.1
It becomes.
なお、時空間重み配列を補正するために利用可能な推定対象のセンサ種別以外の補助データが複数ある場合には、推定対象のセンサ種別のデータとの間の相関が最も高い補助データを利用する。 When there are a plurality of auxiliary data other than the estimation target sensor type that can be used to correct the spatiotemporal weight array, the auxiliary data having the highest correlation with the estimation target sensor type data is used. .
以上述べたように第2の実施形態によれば、母集団特性値の推定に用いる時空間重み配列(w_i)を、母集団特性値の正解値が事前にわかっている推定対象外のセンサ種別の時空間データ配列を補助データとして利用して補正することによって、母集団特性値の推定誤差をさらに小さくすることができる。 As described above, according to the second embodiment, the spatio-temporal weight array (w_i) used for estimating the population characteristic value is determined based on the sensor type other than the estimation target for which the correct value of the population characteristic value is known in advance. By correcting the spatio-temporal data array as auxiliary data, the estimation error of the population characteristic value can be further reduced.
[その他の実施形態]
なお、この発明は上記各実施形態に限定されるものではない。例えば、前記一実施形態では母集団特性値推定装置1をアプリケーション実行装置2及びセンサデータベース装置3とは別の装置として構成した場合を例にとって説明した。しかし、それに限らず、母集団特性値推定装置1の機能をアプリケーション実行装置2又はセンサデータベース装置3の一方に設けるようにしてもよく、又は母集団特性値推定装置1の機能と、アプリケーション実行装置2の機能と、センサデータベース装置3の機能をと同一装置内に設けるようにしてもよい。
[Other Embodiments]
The present invention is not limited to the above embodiments. For example, in the embodiment, the case where the population characteristic
その他、母集団特性値推定装置の構成、推定対象とするセンタ種別、標本データの種類やその構成、特性値推定処理の手順とその処理内容等についても、この発明の要旨を逸脱しない範囲で種々変形して実施可能である。 In addition, the configuration of the population characteristic value estimation apparatus, the center type to be estimated, the type and configuration of sample data, the procedure of the characteristic value estimation process and the contents of the process, and the like are variously within the scope of the present invention. It can be implemented with modifications.
要するにこの発明は、上記各実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記各実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態に亘る構成要素を適宜組み合せてもよい。 In short, the present invention is not limited to the above-described embodiments as they are, and can be embodied by modifying the components without departing from the scope of the invention in the implementation stage. Moreover, various inventions can be formed by appropriately combining a plurality of constituent elements disclosed in the above embodiments. For example, some components may be deleted from all the components shown in the embodiment. Furthermore, you may combine suitably the component covering different embodiment.
1…母集団特性値推定装置、2…アプリ実行装置、3…センサデータベース装置、11…処理ユニット、12…バッファ部、111…要求受付部、112…特性値推定部、113…推定結果応答部、114…時空間分割部。
DESCRIPTION OF
Claims (7)
前記特性値の推定対象となる母集団を定義するための時空間範囲と、当該母集団を構成する要素を定義するための時空間単位と、推定対象のセンサ種別と、推定する特性値の種別の指定を受け付ける手段と、
前記指定された時空間範囲を、前記指定された時空間単位の母集団の要素に分割すると共に、当該分割された母集団の要素ごとに、前記蓄積された標本データから前記指定されたセンサ種別に対応する標本データを検索して保存する手段と、
前記母集団の要素ごとに保存された標本データから、当該母集団の要素が標本データに含まれる確率を事後に推定すると共に、当該事後に推定された確率の逆数と前記指定されたセンサ種別に対応する標本データとをもとに前記指定された特性値種別に対応する母集団特性値を推定する手段と、
前記推定された母集団特性値の推定値を出力する手段と
を具備することを特徴とする標本データ処理装置。 A sample data processing device that estimates population characteristic values from accumulated sample data,
The spatio-temporal range for defining the population from which the characteristic value is to be estimated, the spatio-temporal unit for defining the elements constituting the population, the sensor type to be estimated, and the type of characteristic value to be estimated Means to accept the designation of,
The designated spatio-temporal range is divided into population elements of the designated spatio-temporal unit, and the designated sensor type is determined from the accumulated sample data for each of the divided population elements. Means for retrieving and storing sample data corresponding to
From the sample data stored for each element of the population, the probability that the element of the population is included in the sample data is estimated after the fact, and the reciprocal of the probability estimated after the fact and the specified sensor type Means for estimating a population characteristic value corresponding to the specified characteristic value type based on corresponding sample data;
A sample data processing apparatus comprising: means for outputting an estimated value of the estimated population characteristic value.
前記母集団特性値を推定する手段は、
前記母集団の要素ごとに保存された標本データから、当該母集団の要素が標本データに含まれる確率を事後に推定する手段と、
前記事後に推定された確率の逆数を前記取得された補助データをもとに補正する手段と、
前記補正された確率の逆数と、前記指定されたセンサ種別に対応する標本データとをもとに、前記指定された特性値種別に対応する母集団特性値を推定する手段と
を備えることを特徴とする請求項1記載の標本データ処理装置。 The correct value of the population characteristic value is known, further comprising means for acquiring sample data other than the designated sensor type as auxiliary data,
The means for estimating the population characteristic value is:
Means for posteriorly estimating the probability that an element of the population is included in the sample data from the sample data stored for each element of the population;
Means for correcting the inverse of the probability estimated after the fact based on the acquired auxiliary data;
Means for estimating a population characteristic value corresponding to the specified characteristic value type based on the reciprocal of the corrected probability and the sample data corresponding to the specified sensor type. The specimen data processing apparatus according to claim 1.
前記コンピュータが、前記特性値の推定対象となる母集団を定義するための時空間範囲と、当該母集団を構成する要素を定義するための時空間単位と、推定対象のセンサ種別と、推定する特性値の種別の指定を受け付ける過程と、
前記コンピュータが、前記指定された時空間範囲を、前記指定された時空間単位の母集団の要素に分割すると共に、当該分割された母集団の要素ごとに、前記蓄積された標本データから前記指定されたセンサ種別に対応する標本データを検索して前記記憶媒体に保存する過程と、
前記コンピュータが、前記母集団の要素ごとに保存された標本データから、当該母集団の要素が標本データに含まれる確率を事後に推定すると共に、当該事後に推定された確率の逆数と前記指定されたセンサ種別に対応する標本データとをもとに前記指定された特性値種別に対応する母集団特性値を推定する過程と、
前記コンピュータが、前記推定された母集団特性値の推定値を出力する過程と
を具備することを特徴とする標本データ処理方法。 A population characteristic value estimation apparatus comprising a computer and a storage medium is a sample data processing method for executing a process of estimating a population characteristic value from accumulated sample data,
The computer estimates a spatio-temporal range for defining a population for which the characteristic value is to be estimated, a spatio-temporal unit for defining elements constituting the population, and a sensor type to be estimated A process of accepting specification of a characteristic value type;
The computer divides the designated spatio-temporal range into elements of a population of the designated spatio-temporal unit, and for each divided element of the population, the designation is made from the accumulated sample data. Retrieving sample data corresponding to the sensor type and storing it in the storage medium;
From the sample data stored for each element of the population, the computer estimates the probability that the element of the population is included in the sample data after the fact, and is designated as the reciprocal of the probability estimated after the fact. Estimating a population characteristic value corresponding to the specified characteristic value type based on sample data corresponding to the sensor type,
A sample data processing method comprising: a step of outputting an estimated value of the estimated population characteristic value by the computer.
前記母集団特性値を推定する過程は、
前記母集団の要素ごとに保存された標本データから、当該母集団の要素が標本データに含まれる確率を事後に推定する過程と、
前記事後に推定された確率の逆数を前記取得された補助データをもとに補正する過程と、
前記補正された確率の逆数と、前記指定されたセンサ種別に対応する標本データとをもとに、前記指定された特性値種別に対応する母集団特性値を推定する過程と
を備えることを特徴とする請求項4記載の標本データ処理方法。 The computer further comprises a step of obtaining sample data other than the specified sensor type as auxiliary data, in which the correct value of the population characteristic value is known,
The process of estimating the population characteristic value includes:
From the sample data stored for each element of the population, a process for estimating the probability that the element of the population is included in the sample data after the fact;
Correcting the reciprocal of the probability estimated after the fact based on the acquired auxiliary data;
A step of estimating a population characteristic value corresponding to the specified characteristic value type based on the reciprocal of the corrected probability and the sample data corresponding to the specified sensor type. The sample data processing method according to claim 4.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013235436A JP6047476B2 (en) | 2013-11-13 | 2013-11-13 | SAMPLE DATA PROCESSING DEVICE, METHOD, AND PROGRAM |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013235436A JP6047476B2 (en) | 2013-11-13 | 2013-11-13 | SAMPLE DATA PROCESSING DEVICE, METHOD, AND PROGRAM |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015095184A JP2015095184A (en) | 2015-05-18 |
JP6047476B2 true JP6047476B2 (en) | 2016-12-21 |
Family
ID=53197523
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013235436A Active JP6047476B2 (en) | 2013-11-13 | 2013-11-13 | SAMPLE DATA PROCESSING DEVICE, METHOD, AND PROGRAM |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6047476B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7253351B2 (en) * | 2018-10-09 | 2023-04-06 | 持田 信治 | How to register environmental information in chronological order |
CN116522958A (en) * | 2023-07-04 | 2023-08-01 | 京东科技信息技术有限公司 | Session sample generation method, model training method, emotion recognition method and device |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07230449A (en) * | 1994-02-17 | 1995-08-29 | Nippon Telegr & Teleph Corp <Ntt> | Data prediction device |
JPH0991273A (en) * | 1995-09-28 | 1997-04-04 | Nippon Telegr & Teleph Corp <Ntt> | Data prediction device |
JP5461224B2 (en) * | 2010-02-23 | 2014-04-02 | 日本電信電話株式会社 | Interpolation apparatus, interpolation method and program |
JP5437328B2 (en) * | 2011-08-09 | 2014-03-12 | 日本電信電話株式会社 | Observation value reliability evaluation apparatus, observation value reliability evaluation method, and observation value reliability evaluation program |
EP2615801B1 (en) * | 2012-01-13 | 2018-08-15 | AGT International GmbH | Identification of sensors in sensor networks to participate in measurement campaigns |
-
2013
- 2013-11-13 JP JP2013235436A patent/JP6047476B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2015095184A (en) | 2015-05-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7295906B2 (en) | Scene understanding and generation using neural networks | |
CN108804619B (en) | Interest preference prediction method, device, computer equipment and storage medium | |
CN110083334B (en) | Method and device for model online | |
US11403303B2 (en) | Method and device for generating ranking model | |
US8953890B2 (en) | Usage of visual reader as an input provider in portals | |
US10453165B1 (en) | Computer vision machine learning model execution service | |
WO2015050567A1 (en) | System and method for performing set operations with defined sketch accuracy distribution | |
KR102361112B1 (en) | Extracting similar group elements | |
US20230015068A1 (en) | Unified data model and interface for databases storing disparate types of data | |
US8639559B2 (en) | Brand analysis using interactions with search result items | |
US10397311B2 (en) | Data collection and estimation using an internet of things | |
CN110704418A (en) | Block chain information query method, device and equipment | |
US10430802B2 (en) | Screen-image based classification | |
US7933919B2 (en) | One-pass sampling of hierarchically organized sensors | |
JP6047476B2 (en) | SAMPLE DATA PROCESSING DEVICE, METHOD, AND PROGRAM | |
Sik et al. | Implementation of a geographic information system with big data environment on common data model | |
JP2013200683A (en) | State tracker, state tracking method, and program | |
WO2023244407A1 (en) | Sampling technique for data clustering | |
WO2021139480A1 (en) | Gis service aggregation method and apparatus, and computer device and storage medium | |
JP6433876B2 (en) | Parameter estimation apparatus, prediction apparatus, method, and program | |
CN111158812B (en) | Interface display method and device based on interface prediction model and computer equipment | |
US20140325378A1 (en) | Method and apparatus for generating a personalized page | |
CN109164977B (en) | Data storage system and method, and storage medium | |
JP5801242B2 (en) | Estimated interest score database generation apparatus, method, and program | |
KR20190130395A (en) | Apparatus and method for analyzing heterogeneous data based on web |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160216 |
|
TRDD | Decision of grant or rejection written | ||
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20161111 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20161115 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20161121 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6047476 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |