JP5175515B2 - Model construction apparatus, model construction method and program - Google Patents
Model construction apparatus, model construction method and program Download PDFInfo
- Publication number
- JP5175515B2 JP5175515B2 JP2007258918A JP2007258918A JP5175515B2 JP 5175515 B2 JP5175515 B2 JP 5175515B2 JP 2007258918 A JP2007258918 A JP 2007258918A JP 2007258918 A JP2007258918 A JP 2007258918A JP 5175515 B2 JP5175515 B2 JP 5175515B2
- Authority
- JP
- Japan
- Prior art keywords
- model
- probability
- information
- parameter
- geospatial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
本発明は、たとえばモデルパラメータ数の多い場合に用いて好適なモデル構築装置、モデル構築方法およびモデル構築プログラムに関する。 The present invention relates to a model construction apparatus, a model construction method, and a model construction program suitable for use when, for example, the number of model parameters is large.
分析対象物の何らかの性質が数値として表すことができ、その性質が確率的な振る舞いをするとき、数値化された性質は確率変数と呼ばれる。いくつかのモデルパラメータθを用いて1つ以上の確率変数の振る舞いを簡潔に表すためにさまざまな確率モデルが提案されている。 When a certain property of an analysis object can be expressed as a numerical value and the property behaves stochastically, the numerical property is called a random variable. Various stochastic models have been proposed to concisely represent the behavior of one or more random variables using several model parameters θ.
例えば、下記の式(1)の正規分布モデルは平均(μ)と標準偏差(σ)という2つのモデルパラメータ(θ={μ, σ})を用いて確率変数Xが値xをとりうる確率を記述することが可能な確率モデルである。
確率モデルには大きく分けて2つの種類が存在する。1つは生成モデルと呼ばれ、もう一つは予測モデルと呼ばれる。前者の生成モデルは、対象の性質に関する1つ以上の確率変数である属性変数Xがあるとき、Xが特定の値xをとる確率(Pr(X=x))を記述するための確率モデルである。一方、後者の予測モデルは、属性変数Xの他に対象の性質に関する1つ以上の確率変数である目的変数Yを用意し、Xが特定の値xをとるときにYが特定の値yをとる確率(Pr(Y=y|X=x))を記述するための確率モデルである。例えば、式(1)の一次元正規分布モデルや多次元正規分布モデルは生成モデルであり、線形重回帰モデルや一般化線形モデルなどは予測モデルに分類される。 There are two types of probability models. One is called a generation model and the other is called a prediction model. The former generation model is a probability model for describing the probability (Pr (X = x)) that X takes a specific value x when there is an attribute variable X that is one or more random variables related to the properties of the object. is there. On the other hand, in the latter prediction model, in addition to the attribute variable X, an objective variable Y that is one or more random variables related to the target property is prepared, and when X takes a specific value x, Y has a specific value y. This is a probability model for describing the probability (Pr (Y = y | X = x)). For example, the one-dimensional normal distribution model and multi-dimensional normal distribution model of Equation (1) are generation models, and linear multiple regression models, generalized linear models, and the like are classified as prediction models.
確率モデルのパラメータは、モデル化したい性質について数値化した情報を複数の対象物について収集した学習データから決定(学習)することができる。確率モデル構築装置は読み込んだ学習データを用いて最適な確率モデルのパラメータを決定するための装置である。 The parameters of the probabilistic model can be determined (learned) from learning data collected from a plurality of objects of information obtained by quantifying the property to be modeled. The probabilistic model construction device is a device for determining optimal probabilistic model parameters using read learning data.
正規分布やポアソン分布などの単純な確率分布を用いて複雑な確率的現象をモデル化するために、単純な確率分布を2つ以上組み合わせた混合モデルと呼ばれる確率モデルが用いられる。混合モデルにおいて、各事例の振る舞いは複数存在する単純な確率分布のいずれか(あるいは組み合わせ)によって説明できればよい。混合モデルのモデルパラメータは学習データを用いてEMアルゴリズムなどによって決定することができる(非特許文献1)。 In order to model a complex probabilistic phenomenon using a simple probability distribution such as a normal distribution or a Poisson distribution, a probability model called a mixed model in which two or more simple probability distributions are combined is used. In the mixed model, the behavior of each case may be explained by any one (or combination) of a plurality of simple probability distributions. The model parameters of the mixed model can be determined by EM algorithm or the like using learning data (Non-patent Document 1).
店舗の売り上げや地価、人口動態などの地表上で生じる現象に関する確率変数について確率モデルによって振る舞いを正確に表現できれば、対象地域における店舗の売り上げや地価の予測、人口動態の構造解析など様々な応用を行うことができる。そのためには、そのような地理空間的な現象のための確率モデルである地理空間モデルを、地理空間情報を含む学習データである地理空間データから決定することが必要になる。 If the behavior of the random variables related to phenomena on the ground surface such as store sales, land prices, and demographics can be accurately expressed by a probabilistic model, various applications such as store sales, land price prediction, and demographic structural analysis in the target area will be possible. It can be carried out. For that purpose, it is necessary to determine a geospatial model that is a probabilistic model for such a geospatial phenomenon from geospatial data that is learning data including geospatial information.
複雑な地理空間的現象をモデル化するためには混合モデルを用いることが有効であるが、地理空間的現象には空間依存性が存在する場合がある。例えば、対象エリアの各地点における機器の故障発生について数値化した故障指数という確率変数が(単純な正規分布では表現しきれないといった)複雑な振る舞いを示すため、混合モデルを用いてモデル化する場合を考える。故障指数の分布が単純な正規分布にならないのは、塩害という隠れた空間的要因が存在するためであり、海に近いエリアと海から遠いエリアとでは故障指数の確率分布が異なるからだとする。そのような場合、ある地点が塩害エリアに含まれるとき隣の地点も塩害エリアに含まれる可能性は高いという点を考慮してモデルパラメータθの学習を行わなければならない。空間依存性が存在する地理空間的現象を扱うためには、このような地点と地点との位置的な関係を考慮した混合モデルである地理空間混合モデルを構築することが必要になるが、通常のEMアルゴリズムなどでは空間依存性を考慮したパラメータ学習を行うことができない。 In order to model complex geospatial phenomena, it is effective to use a mixed model, but geospatial phenomena may have spatial dependence. For example, when using a mixed model to model a failure variable that is a numerical value of the failure index of equipment at each point in the target area, indicating a complex behavior (such as cannot be expressed with a simple normal distribution) think of. The reason why the failure index distribution does not become a simple normal distribution is that there is a hidden spatial factor called salt damage, and that the probability distribution of the failure index differs between an area close to the sea and an area far from the sea. In such a case, it is necessary to learn the model parameter θ in consideration of the fact that when a certain point is included in the salt damage area, there is a high possibility that the adjacent point is also included in the salt damage area. In order to handle geospatial phenomena with spatial dependence, it is necessary to build a geospatial mixed model that is a mixed model that considers the positional relationship between such points. The EM algorithm cannot perform parameter learning considering spatial dependence.
空間依存性を考慮した確率モデルとしては、画像処理などに応用されているマルコフ確率場(Markov Random Fields, 以下MRF)が存在する(非特許文献2)。MRFでは空間依存性パラメータλ(以下MRFパラメータ)を用いることによって隣接する地点間の依存関係を考慮している。MRFパラメータは画像サンプルデータから決定することができる。一般に画像処理の学習データにはどのピクセルとどのピクセルが異なるラベルになるかに関する情報が含まれているが、地理空間データを用いて混合モデルを構築する際にはそのような領域の境界情報が得られない点が地理空間混合モデル構築の困難さのひとつである。 As a probabilistic model that takes into account spatial dependence, there is a Markov Random Field (hereinafter referred to as MRF) that is applied to image processing and the like (Non-Patent Document 2). In MRF, the dependence between adjacent points is taken into account by using a spatial dependence parameter λ (hereinafter referred to as MRF parameter). MRF parameters can be determined from image sample data. In general, the learning data for image processing includes information on which pixels and which pixels have different labels, but when building a mixed model using geospatial data, boundary information of such regions is included. This is one of the difficulties in building a geospatial mixed model.
MRFによって空間依存性を考慮した地理空間混合モデル構築方法として非特許文献3に提案された方法がある。非特許文献3の方法ではn次元連続値ベクトルであるモデルパラメータθのすべての組み合わせについてMRFパラメータλを導入し、準ニュートン法とマルコフ連鎖モンテカルロ法(以下MCMC法)によってθとλの推定を行っている。
MRFを用いた地理空間混合モデル構築によって地理的な空間依存性を考慮しつつ混合モデルを構築することが可能になるが、既存手法ではモデルパラメータθの個数nに対してn×n個のMRFパラメータλが必要であった。そして、準ニュートン法とMCMC法によって厳密な最適パラメータを求めているため、個数nが多い確率モデルを用いた混合モデルでは多くの学習データと計算時間が必要になってしまうという問題点があった。 Although it is possible to build a mixed model by considering geospatial dependence by building a mixed geospatial model using MRF, the existing method uses n × n MRFs for the number n of model parameters θ. The parameter λ was required. In addition, since the exact optimal parameters are obtained by the quasi-Newton method and the MCMC method, there is a problem that a mixed model using a stochastic model with a large number n requires a lot of learning data and calculation time. .
本発明は以上のような問題を解決するためになされたものであり、その目的は、モデルパラメータの多い場合にも効率的に地理空間混合モデルを構築可能なモデル構築装置、モデル構築方法およびモデル構築プログラムを提供することにある。 The present invention has been made to solve the above-described problems, and an object of the present invention is to provide a model construction apparatus, a model construction method, and a model that can efficiently construct a geospatial mixed model even when there are many model parameters. To provide a construction program.
本発明の一態様としてのモデル構築装置は、
評価対象の性質を数値によって表した少なくとも1つの変数と、地理空間における位置を示す位置データとを含む複数の事例を有する地理空間データを記憶する地理空間データ記憶手段と、
前記変数の確率分布をモデル化した複数の各確率モデルのパラメータを表すパラメータ情報を記憶するパラメータ記憶手段と、
前記地理空間における前記位置毎に適用するべき前記確率モデルを表した適用モデル情報を記憶する適用モデル情報記憶手段と、
前記地理空間内の各前記位置に適用されるべき確率モデルと、前記地理空間内の各前記位置に対してあらかじめ定義した近傍範囲に含まれる1つ以上の近傍位置に適用される確率モデルとの関係に基づいて、同一または異なる2つの前記確率モデルからなる各組について前記2つの確率モデル間の依存性を数値によって表したモデル依存性情報を算出するモデル依存性算出手段と、
前記モデル依存性算出手段によって算出された前記モデル依存性情報を記憶するモデル依存性情報記憶手段と、
前記パラメータ情報と前記モデル依存性情報との組に対する前記地理空間データの尤度が高くなるように、前記地理空間における位置毎に適用するべき前記確率モデルを前記複数の確率モデルの中から選択し、前記位置毎に選択した前記確率モデルを示すように前記適用モデル情報を更新する確率モデル選択手段と、
前記更新された適用モデル情報に基づき、前記地理空間データを、同一の確率モデルが適用される複数のグループに分割し、あらかじめ与えられたモデル規範を最大化するように、前記複数のグループの各々に対応する前記確率モデルのパラメータを学習し、各前記確率モデルの学習されたパラメータを示すように前記パラメータ情報を更新するパラメータ学習手段と、
を備える。
The model construction apparatus as one aspect of the present invention is:
Geospatial data storage means for storing geospatial data having a plurality of cases including at least one variable representing the property of the evaluation object by numerical value and position data indicating a position in geospatial space;
Parameter storage means for storing parameter information representing parameters of a plurality of probability models obtained by modeling the probability distribution of the variables;
Application model information storage means for storing application model information representing the probability model to be applied for each position in the geographic space;
A probability model to be applied to each position in the geospace, and a probability model applied to one or more neighboring positions included in a predefined neighborhood range for each position in the geospace. Model dependence calculation means for calculating model dependence information in which a dependence between the two probability models is numerically expressed for each set of the same or different two probability models based on a relationship;
Model dependence information storage means for storing the model dependence information calculated by the model dependence calculation means;
The probability model to be applied for each position in the geospatial is selected from the plurality of probability models so that the likelihood of the geospatial data with respect to the set of the parameter information and the model dependency information is high. A probability model selection means for updating the applied model information to indicate the probability model selected for each position;
Based on the updated application model information, each of the plurality of groups is configured to divide the geospatial data into a plurality of groups to which the same probability model is applied, and to maximize a predetermined model criterion. Parameter learning means for learning parameters of the probability model corresponding to and updating the parameter information to indicate the learned parameters of each probability model;
Is provided.
本発明の一態様としてのモデル構築方法は、
評価対象の性質を数値によって表した少なくとも1つの変数と、地理空間における位置を示す位置データとを含む複数の事例を有する地理空間データを記憶する地理空間データ記憶手段と、
前記変数の確率分布をモデル化した複数の各確率モデルのパラメータを表すパラメータ情報を記憶するパラメータ記憶手段と、
前記地理空間における前記位置毎に適用するべき前記確率モデルを表した適用モデル情報を記憶する適用モデル情報記憶手段と、
を準備する準備ステップと、
前記地理空間内の各前記位置に適用されるべき確率モデルと、前記地理空間内の各前記位置に対してあらかじめ定義した近傍範囲に含まれる1つ以上の近傍位置に適用される確率モデルとの関係に基づいて、同一または異なる2つの前記確率モデルからなる各組について前記2つの確率モデル間の依存性を数値によって表したモデル依存性情報を算出するモデル依存性情報算出ステップと、
前記モデル依存性情報をモデル依存性情報記憶手段に記憶するステップと、
前記パラメータ情報と前記モデル依存性情報との組に対する前記地理空間データの尤度が高くなるように、前記地理空間における位置毎に適用するべき前記確率モデルを前記複数の確率モデルの中から選択し、前記位置毎に選択した前記確率モデルを示すように前記適用モデル情報を更新する確率モデル選択ステップと、
前記更新された適用モデル情報に基づき、前記地理空間データを、同一の確率モデルが適用される複数のグループに分割し、あらかじめ与えられたモデル規範を最大化するように、前記複数のグループの各々に対応する前記確率モデルのパラメータを学習し、各前記確率モデルの学習されたパラメータを示すように前記パラメータ情報を更新するパラメータ学習ステップと、
を備える。
A model construction method as one aspect of the present invention includes:
Geospatial data storage means for storing geospatial data having a plurality of cases including at least one variable representing the property of the evaluation object by numerical value and position data indicating a position in geospatial space;
Parameter storage means for storing parameter information representing parameters of a plurality of probability models obtained by modeling the probability distribution of the variables;
Application model information storage means for storing application model information representing the probability model to be applied for each position in the geographic space;
Preparation steps, and
A probability model to be applied to each position in the geospace, and a probability model applied to one or more neighboring positions included in a predefined neighborhood range for each position in the geospace. A model dependency information calculating step for calculating model dependency information that represents numerically the dependency between the two probability models for each set of the same or different two probability models based on the relationship;
Storing the model dependency information in a model dependency information storage means;
The probability model to be applied for each position in the geospatial is selected from the plurality of probability models so that the likelihood of the geospatial data with respect to the set of the parameter information and the model dependency information is high. A probability model selection step of updating the applied model information to indicate the probability model selected for each position;
Based on the updated application model information, each of the plurality of groups is configured to divide the geospatial data into a plurality of groups to which the same probability model is applied, and to maximize a predetermined model criterion. Learning a parameter of the probability model corresponding to and updating the parameter information to indicate the learned parameter of each probability model; and
Is provided.
本発明の一態様としてのモデル構築プログラムは、
評価対象の性質を数値によって表した少なくとも1つの変数と、地理空間における位置を示す位置データとを含む複数の事例を有する地理空間データを記憶する地理空間データ記憶手段にアクセスするステップと、
前記変数の確率分布をモデル化した複数の各確率モデルのパラメータを表すパラメータ情報を記憶するパラメータ記憶手段にアクセスするステップと、
前記地理空間における前記位置毎に適用するべき前記確率モデルを表した適用モデル情報を記憶する適用モデル情報記憶手段にアクセスするステップと、
前記地理空間内の各前記位置に適用されるべき確率モデルと、前記地理空間内の各前記位置に対してあらかじめ定義した近傍範囲に含まれる1つ以上の近傍位置に適用される確率モデルとの関係に基づいて、同一または異なる2つの前記確率モデルからなる各組について前記2つの確率モデル間の依存性を数値によって表したモデル依存性情報を算出するモデル依存性算出ステップと、
前記モデル依存性情報をモデル依存性情報記憶手段に記憶するステップと、
前記パラメータ情報と前記モデル依存性情報との組に対する前記地理空間データの尤度が高くなるように、前記地理空間における位置毎に適用するべき前記確率モデルを前記複数の確率モデルの中から選択し、前記位置毎に選択した前記確率モデルを示すように前記適用モデル情報を更新する確率モデル選択ステップと、
前記更新された適用モデル情報に基づき、前記地理空間データを、同一の確率モデルが適用される複数のグループに分割し、あらかじめ与えられたモデル規範を最大化するように、前記複数のグループの各々に対応する前記確率モデルのパラメータを学習し、各前記確率モデルの学習されたパラメータを示すように前記パラメータ情報を更新するパラメータ学習ステップと、
を備える。
The model construction program as one aspect of the present invention is:
Accessing geospatial data storage means for storing geospatial data having a plurality of cases including at least one variable representing the property to be evaluated numerically and position data indicating a position in geospatial;
Accessing parameter storage means for storing parameter information representing a parameter of each of a plurality of probability models modeling the probability distribution of the variable;
Accessing application model information storage means for storing application model information representing the probability model to be applied for each position in the geographic space;
A probability model to be applied to each position in the geospace, and a probability model applied to one or more neighboring positions included in a predefined neighborhood range for each position in the geospace. A model dependency calculating step for calculating model dependency information that represents numerically the dependency between the two probability models for each set of the same or different two probability models based on the relationship;
Storing the model dependency information in a model dependency information storage means;
The probability model to be applied for each position in the geospatial is selected from the plurality of probability models so that the likelihood of the geospatial data with respect to the set of the parameter information and the model dependency information is high. A probability model selection step of updating the applied model information to indicate the probability model selected for each position;
Based on the updated application model information, each of the plurality of groups is configured to divide the geospatial data into a plurality of groups to which the same probability model is applied, and to maximize a predetermined model criterion. Learning a parameter of the probability model corresponding to and updating the parameter information to indicate the learned parameter of each probability model; and
Is provided.
本発明により、モデルパラメータの多い場合にも効率的に混合モデルを構築できる。 According to the present invention, a mixed model can be efficiently constructed even when there are many model parameters.
以下、図面に基づいて、本発明の実施の形態について説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings.
図2は、本発明に関わる地理空間混合モデル構築装置の一実施の形態を示した構成図である。図2に示されるように、この本発明に関わる地理空間混合モデル構築装置は、地理空間データ記憶手段(地理空間データ記憶手段)201、混合モデル学習手段(パラメータ学習手段)202、混合モデルパラメータ記憶手段(パラメータ記憶手段)203、地点状態最尤推定手段(確率モデル選択手段)204、地点状態記憶手段(適用モデル情報記憶手段)205、地点状態MRFパラメータ推定手段(モデル依存性算出手段)206、地点状態MRFパラメータ記憶手段(モデル依存性情報記憶手段)207を備えている。 FIG. 2 is a configuration diagram showing an embodiment of a mixed geospatial model construction apparatus according to the present invention. As shown in FIG. 2, the geospatial mixed model construction apparatus according to the present invention includes a geospatial data storage unit (geospatial data storage unit) 201, a mixed model learning unit (parameter learning unit) 202, and a mixed model parameter storage. Means (parameter storage means) 203, point state maximum likelihood estimation means (probability model selection means) 204, point state storage means (applied model information storage means) 205, point state MRF parameter estimation means (model dependence calculation means) 206, A point state MRF parameter storage means (model dependence information storage means) 207 is provided.
各手段はたとえばプログラムモジュールとして実現することができ、この場合、各プログラムモジュールを含むプログラムを図1に示すコンピュータシステムおいて実行することで各手段による機能を実現することができる。このコンピュータシステムには、プログラム命令を実行するCPU102、メモリ等の主記憶装置103、ハードディスク、磁気ディスク装置または光磁気ディスク装置等の外部記憶装置104、ユーザによるデータ入力を行う入力装置105、ユーザにデータ表示を行う表示装置106およびこれらを互いに接続するバス101が備わっている。
Each means can be realized, for example, as a program module. In this case, the function of each means can be realized by executing a program including each program module in the computer system shown in FIG. This computer system includes a
図2において、地理空間データ記憶手段201には、モデル化対象の地理空間的な現象に関連する様々な性質を数値化した確率変数である対象変数データと、地理上の位置を表す位置データとを含む地理空間データが記憶される。地理空間データには複数の事例が格納されている。
In FIG. 2, the geospatial
生成モデルを構築したい場合には対象変数データにはひとつ以上の属性変数Xが含まれ、予測モデルを構築したい場合には対象変数データにはひとつ以上の属性変数Xとひとつ以上の目的変数Yが含まれなければならない。 If you want to build a generation model, the target variable data contains one or more attribute variables X. If you want to build a prediction model, the target variable data contains one or more attribute variables X and one or more target variables Y. Must be included.
背景技術の欄で説明したように、生成モデルは、対象の性質に関する1つ以上の確率変数である属性変数Xがあるとき、Xが特定の値xをとる確率(Pr(X=x))を記述するための確率モデルである。一方、予測モデルは、属性変数Xの他に対象の性質に関する1つ以上の確率変数である目的変数Yを用意し、Xが特定の値xをとるときにYが特定の値yをとる確率(Pr(Y=y|X=x))を記述するための確率モデルである。例えば、一次元正規分布モデルや多次元正規分布モデルは生成モデルであり、線形重回帰モデルや一般化線形モデルなどは予測モデルに分類される。ここで予測モデルにおいて属性変数Xと目的変数Yとの集合は、たとえばL個の変数に相当し、予測モデル(確率モデル)は、L−S(Sは1以上の整数)個の変数が与えられたときの残りのS個の変数の確率分布をモデル化したものといえる。 As explained in the background art section, when there is an attribute variable X that is one or more random variables related to the target property, the generation model has a probability that X takes a specific value x (Pr (X = x)) Is a stochastic model for describing On the other hand, in addition to the attribute variable X, the prediction model prepares an objective variable Y that is one or more random variables related to the target property, and the probability that Y takes a specific value y when X takes a specific value x This is a probabilistic model for describing (Pr (Y = y | X = x)). For example, a one-dimensional normal distribution model or a multidimensional normal distribution model is a generation model, and a linear multiple regression model, a generalized linear model, or the like is classified as a prediction model. Here, the set of the attribute variable X and the objective variable Y in the prediction model corresponds to, for example, L variables, and the prediction model (probability model) is given by LS (S is an integer of 1 or more) variables. It can be said that the probability distribution of the remaining S variables is modeled.
位置データは対象変数データの各事例の位置に関する情報を集めたものであり、例えば、空間を格子状に区切っていた場合には格子位置のインデックスなどが含まれる。その他、対象物の緯度経度やポリゴン情報などが含まれていてもよい。 The position data is a collection of information on the positions of the respective cases of the target variable data. For example, when the space is divided into a grid, an index of the grid position is included. In addition, the latitude and longitude of the object, polygon information, and the like may be included.
図4(A)は地理空間データの例を示し、格子位置のインデックスという位置データであるPos属性(位置属性)、各格子における機器の故障発生指数(たとえば故障発生件数)を表すX属性、および、事例番号に相当するID属性が含まれている。図4(B)はPos(位置)に従ってIDを格子状に並べたものを表し、図4(C)はPos(位置)に従ってXを格子状に並べたものを表す。この例では、5×5=25個の格子が存在する。 FIG. 4 (A) shows an example of geospatial data, Pos attribute (position attribute) which is position data called a grid position index, an X attribute representing a failure occurrence index (for example, the number of failure occurrences) of equipment in each lattice, and The ID attribute corresponding to the case number is included. FIG. 4B shows an ID arranged in a grid according to Pos (position), and FIG. 4C shows an X arranged in a grid according to Pos (position). In this example, there are 5 × 5 = 25 lattices.
混合モデルパラメータ記憶手段203には、混合モデルを構成するあらかじめ定められた確率モデルの個数k(kは2以上の整数)に従って、各確率モデルのパラメータ{θ1, …, θk}が混合モデルパラメータθとして記憶される。 In the mixed model parameter storage means 203, the parameters {θ1,..., Θk} of each probability model are stored in the mixed model parameter θ according to a predetermined number k of probability models constituting the mixed model (k is an integer of 2 or more). Is remembered as
図5はk=3の混合モデルパラメータの例を示す。モデルパラメータθは、{a,b,c}へラベル付けされた、3つの確率モデルのモデルパラメータ{θa, θb, θc}を含む。各確率モデルのパラメータは下記の式(1)の1次元正規分布の平均μと標準偏差σから構成されており、モデルパラメータ数n=2ということになる。よって、この例では混合モデルパラメータの総数n×k=6となる。
地点状態記憶手段205には、各地点(Pos)において混合モデルに含まれる確率モデルのうちどれを用いるかを識別するための離散値情報が地点状態S(適用モデル情報)として格納される。図6(B)は図4の地理空間データと図5の混合モデルパラメータとを用いたときの地点状態の例であり、25個の各格子に対して{a,b,c}のいずれかの識別ラベルが付与されている。 In the point state storage means 205, discrete value information for identifying which of the probability models included in the mixed model is used at each point (Pos) is stored as a point state S (applied model information). FIG. 6B is an example of a point state when the geospatial data of FIG. 4 and the mixed model parameters of FIG. 5 are used, and one of {a, b, c} for each of 25 grids. The identification label is given.
地点状態MRFパラメータ記憶手段207には、地点状態Sに関するマルコフ確率場の空間依存性パラメータλ(モデル依存性情報)が格納される。地点状態Sの空間依存関係をマルコフ確率場でモデル化すると、例えば、ある地点Siがラベルaとなる確率は式(2)のように表すことができる(非特許文献2)。
以降の説明では2次元空間(平面)内において上下左右に隣り合う位置群を“近傍”(近傍範囲)と定義する。ただし、近傍の定義は、モデル構築の目的に応じて、異なってもよい。たとえばある位置からみて左隣の位置のみを近傍とし、上隣、右隣、上隣の各位置は、近傍に含めない場合も考えられる。またある位置からみて上下左右にそれぞれ2つ先の位置を近傍と定義する場合も考えられる。また、空間データが3次元の位置情報を有する場合は、3次元空間で近傍が定義されてもよい。 In the following description, a group of positions adjacent to each other vertically and horizontally in a two-dimensional space (plane) is defined as “neighbor” (neighbor range). However, the definition of the neighborhood may be different depending on the purpose of model construction. For example, it can be considered that only the position on the left side when viewed from a certain position is set as the vicinity, and the positions on the upper side, the right side, and the upper side are not included in the vicinity. In addition, there may be a case where two positions ahead, down, left, and right as viewed from a certain position are defined as neighborhoods. In addition, when the spatial data has three-dimensional position information, the neighborhood may be defined in the three-dimensional space.
図10(B)は2次の近傍を採用した場合の地点状態MRFパラメータの例を示している。ここで、(a,a)=1は、地点Siがaとなる確率は近傍にラベルaが存在すると高くなるという依存関係を表し、(a,c)=-1は、地点Siがaとなる確率は近傍にラベルcが存在すると低くなるという依存関係を表し、(a,b)=1は、地点Siがaとなる確率は近傍にラベルbが存在しても影響ないことを表す(非特許文献2参照)。 FIG. 10B shows an example of the point state MRF parameter when the second-order neighborhood is adopted. Here, (a, a) = 1 represents a dependency relationship that the probability that the point Si is a becomes higher when the label a exists in the vicinity, and (a, c) =-1 indicates that the point Si is a (A, b) = 1 indicates that the probability that the point Si is a has no effect even if there is a label b in the vicinity ((a, b) = 1) Non-patent document 2).
混合モデル学習手段202では、地理空間データ記憶手段201に記憶された地理空間データと地点状態記憶手段205に記憶された地点状態を用いて混合モデルパラメータを学習し、学習した混合モデルパラメータを混合モデルパラメータ記憶手段203に格納する。
The mixed
図3は、本発明に関わる混合モデル学習手段の一実施の形態を示した構成図である。図3に示されるように、この本発明に関わる混合モデルパラメータ学習手段は、初期混合モデル学習手段301、地理空間データ分割手段302、分割地理空間データ記憶手段303、モデル学習手段304、を備えている。
FIG. 3 is a block diagram showing an embodiment of the mixed model learning means according to the present invention. As shown in FIG. 3, the mixed model parameter learning unit according to the present invention includes an initial mixed
初期混合モデル学習手段301では、各地点に対し地点状態の値(図6(B))が定まっていない場合に各事例に空間的依存性が存在しないと仮定して、各事例に基づき混合モデルパラメータを算出し、算出した混合モデルパラメータを混合モデルパラメータ記憶手段203に格納する。この際、確率モデルの個数と、確率モデルの型とはあらかじめユーザにより指定しておく。空間的依存性を無視する場合、EMアルゴリズムなどの一般的な方法によって混合モデルのモデルパラメータを得ることが可能である(非特許文献1)。なおユーザにより混合モデルのモデルパラメータを指定してもよい。
The initial mixed model learning means 301 assumes that there is no spatial dependence in each case when the value of the point state (FIG. 6B) is not fixed for each point, and the mixed model based on each case. The parameter is calculated, and the calculated mixed model parameter is stored in the mixed model
地理空間データ分割手段302では、各地点に対する地点状態の値が定まっている場合に、地理空間データ(図4(A))の各事例を地点状態値によって排他的に分割する。すなわち、地理空間データDを地点状態Sの値({1,..k})に従って{D1,…,Dk}に分割する。{D1,…,Dk}はそれぞれ分割地理空間データ(グループ)に相当する。地理空間データ分割手段302は、各分割地理空間データを分割地理空間データ記憶手段303に格納する。
The geospatial
モデル学習手段304では、分割地理空間データのそれぞれ(Di)を用いてモデル学習を行うことによりモデルパラメータ(θi)を決定し、各分割地理空間データから得られたモデルパラメータの集合を混合モデルパラメータとして混合モデルパラメータ記憶手段203に格納する。つまり、モデル学習手段304は、各分割地理空間データ(グループ)に対して、モデル学習アルゴリズムに応じた規範(あらかじめ与えられたモデル規範)を最大化するように、各分割地理空間データに対応する確率モデルのモデルパラメータを学習(最適化)する。このモデル学習では空間依存性を考慮する必要はない。
The model learning means 304 determines model parameters (θi) by performing model learning using each (Di) of the divided geospatial data, and sets a set of model parameters obtained from each divided geospatial data as mixed model parameters. Is stored in the mixed model parameter storage means 203. That is, the
本実施形態では確率モデルとして正規分布モデルを用いているため、モデル学習アルゴリズムとしてはたとえば最尤推定またはベイズ推定などを用いることができる。最尤推定の場合は、モデル規範を最大化することは、学習データ(分割地理空間データ)に対して、正規分布モデル(正規分布関数)に基づいた尤度関数の値(尤度)を最大化することに相当する。 In this embodiment, since a normal distribution model is used as the probability model, for example, maximum likelihood estimation or Bayesian estimation can be used as the model learning algorithm. In the case of maximum likelihood estimation, maximizing the model criterion is to maximize the value (likelihood) of the likelihood function based on the normal distribution model (normal distribution function) for the training data (divided geospatial data). This is equivalent to
確率モデルとしては、正規分布モデルの他にも、線形回帰分析、決定木、ベイジアンネットを利用した確率モデルも可能である。線形回帰分析では、モデル規範を最大化することは、学習データ(分割地理空間データ)と、線形回帰モデルの出力との自乗誤差を最小にすることに相当する。決定木では、モデル規範を最大化することは、学習データに対して情報量またはGini値などの値を最大にすることに相当する。ベイジアンネットでは、モデル規範を最大化することは、学習データに対して事後分布を最大化すること(尤度の最大化)に相当する。 As the probability model, in addition to the normal distribution model, a probability model using linear regression analysis, a decision tree, and a Bayesian network is also possible. In linear regression analysis, maximizing the model criterion corresponds to minimizing the square error between the learning data (divided geospatial data) and the output of the linear regression model. In a decision tree, maximizing a model criterion is equivalent to maximizing a value such as an information amount or a Gini value for learning data. In the Bayesian network, maximizing the model criterion corresponds to maximizing the posterior distribution (maximizing likelihood) for the learning data.
地点状態最尤推定手段204では、混合モデルパラメータθと地点状態MRFパラメータλ、および、地理空間データDを用いて、混合モデルパラメータと地点状態MRFパラメータが与えられたときの地理空間データの尤度がなるべく高くなるような地点状態S*を推定する。すなわち、
地点状態MRFパラメータ推定手段206では、地点状態記憶手段205内の地点状態Sを用いて地点状態MRFパラメータλを推定し、推定した地点状態MRFパラメータλを地点状態MRFパラメータ記憶手段207に格納する。
The point state MRF
図7は、本発明に関わる地点状態MRFパラメータ推定手段の一実施の形態を示した構成図である。図7に示されるように、この本発明に関わる地点状態MRFパラメータ推定手段は、1次頻度算出手段701、2次頻度算出手段702、および、空間依存パラメータ算出手段703を備えている。
FIG. 7 is a block diagram showing an embodiment of the point state MRF parameter estimation means according to the present invention. As shown in FIG. 7, the spot state MRF parameter estimation unit according to the present invention includes a primary
1次頻度算出手段701は地点状態から各離散値(a, b, c)の頻度を算出し、2次頻度算出手段702は、同一または異なる離散値の組の頻度を算出する。そして、空間依存パラメータ算出手段703は、算出された1次頻度と2次頻度から地点状態MRFパラメータ(依存性情報)を算出し、地点状態MRFパラメータ記憶手段207に格納する。地点状態MRFパラメータ推定手段の詳細な動作説明は後述する。 The primary frequency calculation means 701 calculates the frequency of each discrete value (a, b, c) from the point state, and the secondary frequency calculation means 702 calculates the frequency of the same or different set of discrete values. Then, the space-dependent parameter calculation means 703 calculates a spot state MRF parameter (dependency information) from the calculated primary frequency and secondary frequency, and stores it in the spot state MRF parameter storage means 207. Detailed operation description of the point state MRF parameter estimation means will be described later.
図8は、図2の地理空間混合モデル構築装置により行われる処理の実行手順を示したフローチャートである。図8に示されるように、この地理空間混合モデル構築装置の実行手順は、初期混合モデル学習ステップ801、地点状態最尤推定ステップ802、混合モデル学習ステップ803、地点状態MRFパラメータ推定ステップ804、終了判定ステップ805を備えている。以下では、図4の地理空間データを用いて、図8のフローチャートの実行過程を詳しく述べる。
FIG. 8 is a flowchart showing an execution procedure of processing performed by the geospatial mixed model construction device of FIG. As shown in FIG. 8, the execution procedure of this geospatial mixed model construction apparatus includes an initial mixed
ステップ801では、混合モデル学習手段202における初期混合モデル学習手段301によって、各事例に空間的依存性が存在しないと仮定して混合モデルパラメータを算出する。図5はステップ801によって算出された混合モデルパラメータの一例を示す。ラベル{a,b,c}が付けられた3つの正規分布モデル({Ma,Mb,Mc}と表す)のモデルパラメータ{θa, θb, θc}が示される。
In
ステップ802では、地点状態最尤推定手段204によって、上述した式(3)によって表される地点状態Sの最尤推定値(現実的には近似最適値)が算出される。
In
より詳しくは、まず、すべての地点について、属性変数値xと{Ma,Mb,Mc}との乖離値を計算する。例えば、正規分布モデルにおける乖離値としては、式(1)のlogをとったものに-1を掛けた式(4)などを用いることができる。なお、属性変数値xが平均値のとき、乖離値は最小である。
すべての事例について{Ma,Mb,Mc}とX(各事例のxの集合)との乖離値を計算した結果を図6(A)の表における{Ma,Mb,Mc}にそれぞれ示す。また、最も乖離値が小さいモデルの識別値を図6(A)の表におけるBestに示す。 The result of calculating the divergence value between {Ma, Mb, Mc} and X (the set of x in each case) is shown in {Ma, Mb, Mc} in the table of FIG. Further, the identification value of the model having the smallest deviation value is shown as “Best” in the table of FIG.
次に、得られた乖離値と地点状態MRFパラメータλとを用いて最適な地点状態推定値を決定する。現時点では、ステップ802の1回目であり、λは定まっていないので、λ=0とみなされる。その場合、各地点についてBestの値が、最適な地点状態値として推定される。図6(B)はそのようにして得られた地点状態を示している。また、図6(C)は、図6(B)の地点状態値を空間的にプロットしたものを示し、図6(D)は、図6(B)の各地点状態値を、ラベルa, b, cごとに塗りつぶしパターンを変えてプロットしたものを示す。
Next, an optimum point state estimated value is determined using the obtained divergence value and the point state MRF parameter λ. At this time, it is the first time in
ステップ803では、得られた地点状態Sと地理空間データDとを用いてモデルパラメータθの学習を行う。上記ステップ802の一回目における地点状態Sの算出ではλ=0とみなしたため、ステップ803の一回目では、ステップ801で得られた初期混合モデルと同じモデルパラメータθが得られる(よって、ステップ803の1回目はスキップしてよい。ここではスキップしたと仮定する)。
In
ステップ804では、ステップ802で得られた地点状態Sから地点状態MRFパラメータ推定手段206によって、地点状態に関する空間依存性のパラメータλ(依存性情報)が推定される。例えば、図6(B)〜図6(D)の地点状態が得られた場合、まず、地点状態MRFパラメータ推定手段206における1次頻度算出手段701によって、各格子における各ラベル(a〜c)の頻度π1(1次頻度)が算出される。次に、2次頻度算出手段702によって、各格子と隣接する格子とのペアについて、重複を避けてラベルペアの頻度π2(2次頻度)が算出される。図9(A)と図9(B)に、1次頻度π1の例と2次頻度π2の例をそれぞれ示す。この例では図9(B)から、40個のラベルペアが存在するこがわかる。
In
得られた1次頻度π1と2次頻度π2を用いて、地点状態MRFパラメータ推定手段206における空間依存パラメータ算出手段703によって、例えば以下のような手順に従って地点状態に関する空間依存性のパラメータλを推定する。
By using the obtained
まず、ラベルペアの頻度π2と、ラベルの頻度π1から計算されるラベルペアの期待値との差をλ’として算出する。
First, the difference between the label
例えば、図9(A)から、ラベルaの生じる確率は12/25であり、したがってラベルペアa-aが生じる確率は(12/25)2である。一方、実際のラベルペアa-aの発生確率は図9(B)から10/40である。そこで、これらの確率の比のlogをとると、λ’(a,a)=log((10/40)/(12/25)2)≒0.035となる。λ’が正の値をとるということは1次頻度π1から算出された2次頻度の期待値よりも、実際の2次頻度π2のほうが大きいということなので、aのとなりはaになりやすいという正の自己相関が働いていると推定できる。 For example, from FIG. 9A, the probability of occurrence of label a is 12/25, and therefore the probability of occurrence of label pair aa is (12/25) 2 . On the other hand, the actual occurrence probability of the label pair aa is 10/40 from FIG. 9B. Therefore, taking the log of the ratio of these probabilities, λ ′ (a, a) = log ((10/40) / (12/25) 2 ) ≈0.035. The fact that λ ′ takes a positive value means that the actual secondary frequency π2 is larger than the expected value of the secondary frequency calculated from the primary frequency π1, so that the next to a is likely to be a. It can be estimated that positive autocorrelation is working.
また、ラベルペアa-cが生じる確率は図9(A)から2*(12/25)*(4/25)となるので、λ’(a,c)≒-0.311となる。λ’が負の値をとるということは1次頻度π1から算出された2次頻度の期待値よりも、実際の2次頻度π2のほうが小さいということなので、aのとなりはcになりにくいという負の相互相関が働いていると推定できる。 Further, since the probability that the label pair a-c occurs is 2 * (12/25) * (4/25) from FIG. 9A, λ ′ (a, c) ≈−0.311. The fact that λ ′ takes a negative value means that the actual secondary frequency π2 is smaller than the expected value of the secondary frequency calculated from the primary frequency π1, so that the next to a is less likely to be c. It can be estimated that negative cross-correlation is working.
他のラベルペアについても同様にしてλ’を算出し、算出した全てのλ’をまとめたものを図10(A)に示す。 Λ ′ is calculated in the same manner for other label pairs, and all the calculated λ ′ are summarized in FIG.
ここで、自己相関に関してはλ’>0となるものは+1、そうでないものは0とし、相互相関に関してはλ’<0となるものは-1、そうでないものは0とする。すなわち自己相関に関しては負の相関は考慮せず、正の相関が働くか否かのみを考慮し、相互相関に関しては正の相関は考慮せず、負の相関が働くか否かのみを考慮する。このようにしてλ’の値を変更すると、図10(B)に示すように各ラベルペアについて空間依存性のパラメータλが得られる。 Here, regarding the autocorrelation, λ ′> 0 is +1, otherwise is 0, and λ ′ <0 is −1, and otherwise is 0. In other words, autocorrelation does not consider negative correlations, only considers whether positive correlations work, and does not consider positive correlations for cross-correlation, only considers whether negative correlations work . When the value of λ ′ is changed in this way, a space-dependent parameter λ is obtained for each label pair as shown in FIG.
λ’およびλの算出方法は様々なバリエーションが考えられる。例えば、λ’=λとしたり、λが{0, +1, -1}以外の値をとり得るようにしたり、ユーザーパラメータαなどを導入して{0, +α, -α}の値をとるようにしたりすることができる。 Various variations of the calculation method of λ ′ and λ can be considered. For example, λ '= λ, λ can take a value other than {0, +1, -1}, or the value of {0, + α, -α} Or take it.
ステップ805では、終了条件が満たされるか否かの判定が行われ終了条件が満たされる場合は処理を終了し、満たされない場合はステップ802に戻る。終了条件としては、図8のフローのループ回数が所定回数に達したことや、θまたはλの変化がなくなったことなどが考えられる。今回の場合(1度目のループの場合)、全てのラベルペアについてλ=0ならば終了するが、1つのラベルペアでもλ≠0であれば継続する(終了条件を満たさない)と仮定する。したがって、図10(B)に示すようにλ≠0のペアが存在するため、ステップ802に戻ることにする。
In
ステップ802の2回目では、まず、最新のモデルパラメータθを用いて各モデルとデータXとの乖離値が算出される。ステップ803の1回目はスキップされているので、算出される乖離値は、ステップ802の1回目に算出した(図6(A)に示す)乖離値と同じである。ただし、今回は、1回目のステップ804でλが求まっているため、空間依存性も考慮して最適な地点状態Sを探索しなければならない。ここでは、近似探索手法として知られるICM(非特許文献2)を用いた例を示す。ICMではランダムに選択した地点においてある状態値(ラベル)をとった場合のペナルティを計算し、最もペナルティの低いラベルに置き換えていくという処理を繰り返す。ペナルティとしては、モデルとデータとの乖離値、または、λに負の符号を掛け合わせたものなどが考えられる。
In the second time of
図6(A)の乖離値と図10(B)のλとを用いたとき、例えば、地点20(ID=20)のラベル値をaにすることを考える。このとき乖離値は(2.9-0.4=)2.5増加する。またa-bのペアは3つ減りa-aのペアが3つ増えるので、空間依存性に関するペナルティ(空間全体における依存性の変化量)は-3だけ減少する。従って合計で-0.5のペナルティ減少になる。そこで、地点20のラベルはbからaに変更になる。すなわち合計値(演算値)が閾値(ここではゼロ)より小さいため、ラベルは変更になる。なお、地点20(ID=20)のラベル値をラベルcに変更する場合についても同様にしてペナルティの減少を計算し、ペナルティの減少がより大きい方のラベルへ変更するようにしてもよい。
When the divergence value in FIG. 6A and λ in FIG. 10B are used, for example, consider that the label value of the point 20 (ID = 20) is a. At this time, the deviation value increases by (2.9-0.4 =) 2.5. Also, since the number of a-b pairs is reduced by three and the number of a-a pairs is increased by three, the penalty related to spatial dependence (change in dependence in the whole space) is reduced by -3. Therefore, the penalty is reduced by -0.5. Therefore, the label of the
以上のような処理を他の地点(事例)についてもいくつか選択して行う。すなわち、処理効率の観点から全ての事例でなくいくつかの事例について行う。このようにして、地点状態Sを探索した結果を図11(A)〜図11(C)に一例として示す。 The above processing is performed by selecting some other points (examples). That is, some cases are performed instead of all cases from the viewpoint of processing efficiency. The results of searching for the spot state S in this way are shown as an example in FIGS. 11 (A) to 11 (C).
ステップ803の2回目では、得られた地点状態Sと地理空間データDを用いてモデルパラメータθの学習を行う。まず、混合モデル学習手段202における地理空間データ分割手段302によって、地点状態の離散値(ラベル値)に応じて地理学習データDを分割する。図11(A)の地点状態を用いたときにおける、モデルMa用の学習データDaを図12に示す。この学習データを用いて混合モデル学習手段202におけるモデル学習手段304によってモデルパラメータθaが学習される。具体的には図12の学習データDaからXの平均と標準偏差とを計算する。なおこの計算は、最尤推定法において、尤度関数におけるパラメータの最尤推定値(尤度関数を最大にするパラメータの値)を求めていることと等化である。モデルMa, Mb用の学習データDb, Dcについても同様にしてXの平均と標準偏差とを計算する。そのようにして得られたモデルパラメータθを図13に示す。
In
ステップ804の2回目では、図11(B)の地点状態を用いて、1回目と同様に地点状態MRFパラメータλの推定を行う。図14に2ループ目の地点状態MRFパラメータλの算出結果を示す。
In the second time of
ステップ805の2回目では、終了条件が満たされずに、ステップ802に戻ったとする。
In the second time of
ステップ802の3回目では、図13のモデルパラメータと図14の地点状態MRFパラメータとを用いて最適な地点状態Sの算出を行う。まず、最新のモデルパラメータθを用いてモデルとデータXとの乖離値を各地点について算出する。各地点について算出した乖離値のうち、地点3と地点22のみに関する乖離値を図15に示す。次に、最適な地点状態Sを探索する。たとえば地点3のラベル値をbにすることを考える。このとき乖離値は2.4増加する。またa-bのペアが3つ減りb-bのペアが3つ増えるので空間依存性に関するペナルティは-3減少する。従って合計で-0.6のペナルティ減少になる。そこで、地点3のラベルがaからbに変更になる。同様に地点22もラベル値をaにすることで空間依存性が3減少するので、ラベルがbからaに変更になる。3ループ目で得られた地点状態Sを図16に示す。
In the third time of
ステップ803の3回目の計算結果を図17(A)、ステップ804の3回目の計算結果を図17(B)に示す。3ループ目でループが終了する終了条件を用いると仮定すると、図17(A)および図17(B)が最終的に得られた地理空間混合モデルのパラメータθとλに相当する。
FIG. 17A shows the third calculation result in
最終的に、本例では、図16からも分かるように、大きく、1つのaエリア、2つのbエリア、2つのcエリアに空間が分かれ、故障指数Xの確率分布は、エリアごとに同じモデルパラメータをとる混合モデルによって表される。そこで、同一のエリアについて注意深く調べることにより、故障指数に影響を与えている隠れた要因を発見することが可能になると期待できる。 Finally, in this example, as can be seen from FIG. 16, the space is divided into one a area, two b areas, and two c areas, and the probability distribution of the failure index X is the same model for each area. Represented by a mixed model that takes parameters. Therefore, it can be expected that by investigating carefully the same area, it will be possible to discover hidden factors affecting the failure index.
本実施形態では、モデルパラメータθに関するMRFではなく、離散値の地点状態Sに関するMRFを用いた地理空間混合モデルを採用しており、上記のような手順に従うことで、準ニュートン法などの計算コストの必要な手法を使うことなく地理空間混合モデルを構築できる。 In this embodiment, a geospatial mixed model using MRF related to the discrete point state S instead of MRF related to the model parameter θ is adopted, and the calculation cost of the quasi-Newton method or the like is obtained by following the above procedure. It is possible to construct a mixed geospatial model without using the necessary methods.
また、本実施形態ではXが1次元であるため正規分布パラメータはn=2(μとσの2つ)であったが、例えばXが4次元連続値ベクトルの場合、多次元正規分布パラメータは最大n=4+4*4=20必要である。このとき、本実施形態では、確率モデルの個数kの増加 に対して、パラメータλの個数は2乗で増加するもののモデルパラメータ数nは線形にしか増加しないので、本実施形態は、モデルパラメータ数の多い場合に用いて効率的である。 In this embodiment, since X is one-dimensional, the normal distribution parameter is n = 2 (two of μ and σ). However, when X is a four-dimensional continuous value vector, for example, the multi-dimensional normal distribution parameter is Maximum n = 4 + 4 * 4 = 20 is required. At this time, in the present embodiment, the number of parameters λ increases in a square while the number of model parameters n increases only in a linear manner, while the number of parameters λ increases in a square. It is efficient when used in many cases.
Claims (7)
前記変数の確率分布をモデル化した複数の各確率モデルのパラメータを表すパラメータ情報を記憶するパラメータ記憶手段と、
前記地理空間における前記位置毎に適用するべき前記確率モデルを表した適用モデル情報を記憶する適用モデル情報記憶手段と、
前記地理空間内の各前記位置に適用されるべき確率モデルと、前記地理空間内の各前記位置に対してあらかじめ定義した近傍範囲に含まれる1つ以上の近傍位置に適用される確率モデルとの関係に基づいて、同一または異なる2つの前記確率モデルからなる各組について前記2つの確率モデル間の依存性を数値によって表したモデル依存性情報を算出するモデル依存性算出手段と、
前記モデル依存性算出手段によって算出された前記モデル依存性情報を記憶するモデル依存性情報記憶手段と、
前記パラメータ情報と前記モデル依存性情報との組に対する前記地理空間データの尤度が高くなるように、前記地理空間における位置毎に適用するべき前記確率モデルを前記複数の確率モデルの中から選択し、前記位置毎に選択した前記確率モデルを示すように前記適用モデル情報を更新する確率モデル選択手段と、
前記更新された適用モデル情報に基づき、前記地理空間データを、同一の確率モデルが適用される複数のグループに分割し、あらかじめ与えられたモデル規範を最大化するように、前記複数のグループの各々に対応する前記確率モデルのパラメータを学習し、各前記確率モデルの学習されたパラメータを示すように前記パラメータ情報を更新するパラメータ学習手段と、
を備えたモデル構築装置。 Geospatial data storage means for storing geospatial data having a plurality of cases including at least one variable representing the property of the evaluation object by numerical value and position data indicating a position in geospatial space;
Parameter storage means for storing parameter information representing parameters of a plurality of probability models obtained by modeling the probability distribution of the variables;
Application model information storage means for storing application model information representing the probability model to be applied for each position in the geographic space;
A probability model to be applied to each position in the geospace, and a probability model applied to one or more neighboring positions included in a predefined neighborhood range for each position in the geospace. Model dependence calculation means for calculating model dependence information in which a dependence between the two probability models is numerically expressed for each set of the same or different two probability models based on a relationship;
Model dependence information storage means for storing the model dependence information calculated by the model dependence calculation means;
The probability model to be applied for each position in the geospatial is selected from the plurality of probability models so that the likelihood of the geospatial data with respect to the set of the parameter information and the model dependency information is high. A probability model selection means for updating the applied model information to indicate the probability model selected for each position;
Based on the updated application model information, each of the plurality of groups is configured to divide the geospatial data into a plurality of groups to which the same probability model is applied, and to maximize a predetermined model criterion. Parameter learning means for learning parameters of the probability model corresponding to and updating the parameter information to indicate the learned parameters of each probability model;
Model building device with
前記確率モデル選択手段は、更新されたパラメータ情報と、更新されたモデル依存性情報との組に対する前記地理空間データの尤度が高くなるように、前記地理空間における位置毎に適用するべき前記確率モデルを選択する、
ことを特徴とする請求項1に記載のモデル構築装置。 The model dependence calculation means further calculates the model dependence information based on the updated applied model information, and indicates the model dependence information in the model dependence information storage means to indicate the calculated model dependence information. Update dependency information,
The probability model selection unit is configured to apply the probability to be applied for each position in the geospatial so that the likelihood of the geospatial data with respect to a set of updated parameter information and updated model dependency information is high. Select a model,
The model construction apparatus according to claim 1.
前記確率モデルは、L−S(Sは1以上の整数)個の前記変数が与えられたときの残りのS個の前記変数の確率分布をモデル化したものである、
ことを特徴とする請求項1または2に記載のモデル構築装置。 The at least one variable includes L (L is an integer of 2 or more) variables,
The probability model models a probability distribution of the remaining S variables when LS (S is an integer of 1 or more) number of the variables is given.
The model construction apparatus according to claim 1, wherein the model construction apparatus is a model construction apparatus.
前記適用モデル情報から各前記確率モデルの頻度を1次頻度情報として算出し、
前記地理空間における各前記位置の確率モデルと、各前記位置の前記近傍範囲に含まれる前記近傍位置の前記確率モデルとの組を求めることにより、前記同一または異なる前記2つの確率モデルの各組の頻度を2次頻度情報として算出し、
前記1次頻度情報と前記2次頻度情報とを用いて、前記モデル依存性情報を算出する、 ことを特徴とする請求項1ないし3のいずれか一項に記載のモデル構築装置。 The model dependence calculation means includes
Calculating the frequency of each probability model from the applied model information as primary frequency information;
By obtaining a set of a probability model of each position in the geospace and the probability model of the vicinity position included in the vicinity range of each position, each set of the two probability models of the same or different Calculate the frequency as secondary frequency information,
The model construction apparatus according to any one of claims 1 to 3, wherein the model dependence information is calculated using the primary frequency information and the secondary frequency information.
前記1次頻度情報から、前記同一または異なる前記2つの確率モデルからなる各組の頻度の期待値を算出し、
各前記組の頻度の期待値と、前記2次頻度情報に示される各前記組の頻度との差に基づいて、前記モデル依存性情報を算出する、
ことを特徴とする請求項4に記載のモデル構築装置。 The model dependence calculation means includes
From the primary frequency information, calculate an expected value of the frequency of each set of the two probability models that are the same or different,
Calculating the model dependency information based on the difference between the expected value of the frequency of each set and the frequency of each set indicated in the secondary frequency information;
The model construction device according to claim 4 characterized by things.
前記変数の確率分布をモデル化した複数の各確率モデルのパラメータを表すパラメータ情報を記憶するパラメータ記憶手段と、
前記地理空間における前記位置毎に適用するべき前記確率モデルを表した適用モデル情報を記憶する適用モデル情報記憶手段と、
を準備する準備ステップと、
前記地理空間内の各前記位置に適用されるべき確率モデルと、前記地理空間内の各前記位置に対してあらかじめ定義した近傍範囲に含まれる1つ以上の近傍位置に適用される確率モデルとの関係に基づいて、同一または異なる2つの前記確率モデルからなる各組について前記2つの確率モデル間の依存性を数値によって表したモデル依存性情報を算出するモデル依存性情報算出ステップと、
前記モデル依存性情報をモデル依存性情報記憶手段に記憶するステップと、
前記パラメータ情報と前記モデル依存性情報との組に対する前記地理空間データの尤度が高くなるように、前記地理空間における位置毎に適用するべき前記確率モデルを前記複数の確率モデルの中から選択し、前記位置毎に選択した前記確率モデルを示すように前記適用モデル情報を更新する確率モデル選択ステップと、
前記更新された適用モデル情報に基づき、前記地理空間データを、同一の確率モデルが適用される複数のグループに分割し、あらかじめ与えられたモデル規範を最大化するように、前記複数のグループの各々に対応する前記確率モデルのパラメータを学習し、各前記確率モデルの学習されたパラメータを示すように前記パラメータ情報を更新するパラメータ学習ステップと、
を備えたモデル構築方法。 Geospatial data storage means for storing geospatial data having a plurality of cases including at least one variable representing the property of the evaluation object by numerical value and position data indicating a position in geospatial space;
Parameter storage means for storing parameter information representing parameters of a plurality of probability models obtained by modeling the probability distribution of the variables;
Application model information storage means for storing application model information representing the probability model to be applied for each position in the geographic space;
Preparation steps, and
A probability model to be applied to each position in the geospace, and a probability model applied to one or more neighboring positions included in a predefined neighborhood range for each position in the geospace. A model dependency information calculating step for calculating model dependency information that represents numerically the dependency between the two probability models for each set of the same or different two probability models based on the relationship;
Storing the model dependency information in a model dependency information storage means;
The probability model to be applied for each position in the geospatial is selected from the plurality of probability models so that the likelihood of the geospatial data with respect to the set of the parameter information and the model dependency information is high. A probability model selection step of updating the applied model information to indicate the probability model selected for each position;
Based on the updated application model information, each of the plurality of groups is configured to divide the geospatial data into a plurality of groups to which the same probability model is applied, and to maximize a predetermined model criterion. Learning a parameter of the probability model corresponding to and updating the parameter information to indicate the learned parameter of each probability model; and
Model building method with
前記変数の確率分布をモデル化した複数の各確率モデルのパラメータを表すパラメータ情報を記憶するパラメータ記憶手段にアクセスするステップと、
前記地理空間における前記位置毎に適用するべき前記確率モデルを表した適用モデル情報を記憶する適用モデル情報記憶手段にアクセスするステップと、
前記地理空間内の各前記位置に適用されるべき確率モデルと、前記地理空間内の各前記位置に対してあらかじめ定義した近傍範囲に含まれる1つ以上の近傍位置に適用される確率モデルとの関係に基づいて、同一または異なる2つの前記確率モデルからなる各組について前記2つの確率モデル間の依存性を数値によって表したモデル依存性情報を算出するモデル依存性算出ステップと、
前記モデル依存性情報をモデル依存性情報記憶手段に記憶するステップと、
前記パラメータ情報と前記モデル依存性情報との組に対する前記地理空間データの尤度が高くなるように、前記地理空間における位置毎に適用するべき前記確率モデルを前記複数の確率モデルの中から選択し、前記位置毎に選択した前記確率モデルを示すように前記適用モデル情報を更新する確率モデル選択ステップと、
前記更新された適用モデル情報に基づき、前記地理空間データを、同一の確率モデルが適用される複数のグループに分割し、あらかじめ与えられたモデル規範を最大化するように、前記複数のグループの各々に対応する前記確率モデルのパラメータを学習し、各前記確率モデルの学習されたパラメータを示すように前記パラメータ情報を更新するパラメータ学習ステップと、
を備えたモデル構築プログラム。 Accessing geospatial data storage means for storing geospatial data having a plurality of cases including at least one variable representing the property to be evaluated numerically and position data indicating a position in geospatial;
Accessing parameter storage means for storing parameter information representing a parameter of each of a plurality of probability models modeling the probability distribution of the variable;
Accessing application model information storage means for storing application model information representing the probability model to be applied for each position in the geographic space;
A probability model to be applied to each position in the geospace, and a probability model applied to one or more neighboring positions included in a predefined neighborhood range for each position in the geospace. A model dependency calculating step for calculating model dependency information that represents numerically the dependency between the two probability models for each set of the same or different two probability models based on the relationship;
Storing the model dependency information in a model dependency information storage means;
The probability model to be applied for each position in the geospatial is selected from the plurality of probability models so that the likelihood of the geospatial data with respect to the set of the parameter information and the model dependency information is high. A probability model selection step of updating the applied model information to indicate the probability model selected for each position;
Based on the updated application model information, each of the plurality of groups is configured to divide the geospatial data into a plurality of groups to which the same probability model is applied, and to maximize a predetermined model criterion. Learning a parameter of the probability model corresponding to and updating the parameter information to indicate the learned parameter of each probability model; and
Model building program with
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007258918A JP5175515B2 (en) | 2007-10-02 | 2007-10-02 | Model construction apparatus, model construction method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007258918A JP5175515B2 (en) | 2007-10-02 | 2007-10-02 | Model construction apparatus, model construction method and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009087235A JP2009087235A (en) | 2009-04-23 |
JP5175515B2 true JP5175515B2 (en) | 2013-04-03 |
Family
ID=40660546
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007258918A Expired - Fee Related JP5175515B2 (en) | 2007-10-02 | 2007-10-02 | Model construction apparatus, model construction method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5175515B2 (en) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5660436B2 (en) * | 2010-09-01 | 2015-01-28 | 独立行政法人情報通信研究機構 | Periodic information extraction method |
JP5932603B2 (en) * | 2012-10-23 | 2016-06-08 | 株式会社日立製作所 | Extracting regional trends in life prediction |
JP6558765B2 (en) | 2014-12-18 | 2019-08-14 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | Processing device, processing method, estimation device, estimation method, and program |
JP6257545B2 (en) * | 2015-03-03 | 2018-01-10 | 三菱電機株式会社 | Approach detection device and approach detection method |
JP7375915B2 (en) | 2020-03-31 | 2023-11-08 | 日本電気株式会社 | Analytical equipment, analytical methods and programs |
EP4325313A1 (en) * | 2021-04-14 | 2024-02-21 | Hitachi Construction Machinery Co., Ltd. | Malfunction prediction system |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4463516B2 (en) * | 2003-09-17 | 2010-05-19 | 株式会社パスコ | Similarity search method |
-
2007
- 2007-10-02 JP JP2007258918A patent/JP5175515B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2009087235A (en) | 2009-04-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Mersmann et al. | A novel feature-based approach to characterize algorithm performance for the traveling salesperson problem | |
Deb et al. | A taxonomy for metamodeling frameworks for evolutionary multiobjective optimization | |
US10916333B1 (en) | Artificial intelligence system for enhancing data sets used for training machine learning-based classifiers | |
Konishi et al. | Information criteria and statistical modeling | |
JP5175515B2 (en) | Model construction apparatus, model construction method and program | |
Chen et al. | Uncertainty-aware multidimensional ensemble data visualization and exploration | |
CN109194707B (en) | Distributed graph embedding method and device | |
Palar et al. | On efficient global optimization via universal Kriging surrogate models | |
CA2750093A1 (en) | Method for computing and storing voronoi diagrams, and uses therefor | |
CN109063041B (en) | Method and device for embedding relational network graph | |
JP6299759B2 (en) | Prediction function creation device, prediction function creation method, and program | |
Petelin et al. | Optimization of Gaussian process models with evolutionary algorithms | |
CN107092812B (en) | Method for identifying key protein based on genetic algorithm in PPI network | |
CN112187554A (en) | Operation and maintenance system fault positioning method and system based on Monte Carlo tree search | |
CN115409896A (en) | Pose prediction method, pose prediction device, electronic device and medium | |
US10049479B2 (en) | Density based graphical mapping | |
Horn et al. | Surrogates for hierarchical search spaces: The wedge-kernel and an automated analysis | |
CN117236656A (en) | Informationized management method and system for engineering project | |
JP6995717B2 (en) | Measure search device, method and program | |
Bauckhage | A Purely Geometric Approach to Non-Negative Matrix Factorization. | |
WO2019181313A1 (en) | Combination search system, information processing device, method, and program | |
Giannakopoulos et al. | A decision tree based approach towards adaptive modeling of big data applications | |
Yoo et al. | Finding N-most prevalent colocated event sets | |
Chiu et al. | Automatic complexity reduction in reinforcement learning | |
Taghribi et al. | LAAT: Locally Aligned Ant Technique for discovering multiple faint low dimensional structures of varying density |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20101001 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120925 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121126 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121214 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130107 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 5175515 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160111 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |