JP2014041566A - Device, method, and program for linear regression model estimation - Google Patents

Device, method, and program for linear regression model estimation Download PDF

Info

Publication number
JP2014041566A
JP2014041566A JP2012184608A JP2012184608A JP2014041566A JP 2014041566 A JP2014041566 A JP 2014041566A JP 2012184608 A JP2012184608 A JP 2012184608A JP 2012184608 A JP2012184608 A JP 2012184608A JP 2014041566 A JP2014041566 A JP 2014041566A
Authority
JP
Japan
Prior art keywords
regression
linear regression
model
linear
regression model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012184608A
Other languages
Japanese (ja)
Inventor
Shinya Murata
眞哉 村田
Noriko Takaya
典子 高屋
Masashi Uchiyama
匡 内山
Kunio Kashino
邦夫 柏野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2012184608A priority Critical patent/JP2014041566A/en
Publication of JP2014041566A publication Critical patent/JP2014041566A/en
Pending legal-status Critical Current

Links

Images

Abstract

PROBLEM TO BE SOLVED: To estimate more reliable linear regression model.SOLUTION: A linear regression modeling unit 31 models a linear regression model which represents an observation value y by an explanatory variable x and a linear sum of regression coefficients β for the explanatory variable, a regression coefficient estimation unit 32 estimates a regression coefficient β for each of parameters (λ, λ) designating magnitudes of a penalty term by minimization of a cost function in which a penalty term of which the magnitude is larger for a smaller norm of the explanatory variable x is added to a residual between the linear regression model and the observation value, and a model identification unit 33 selects a regression coefficient which maximizes a contribution rate when used, to identify the linear regression model.

Description

本発明は、線形回帰モデル推定装置、方法、及びプログラムに関する。   The present invention relates to a linear regression model estimation apparatus, method, and program.

線形回帰モデルは、現実に観測されるデータの変動を説明変数の線形和で捉える。最小二乗法に代表されるモデリングアルゴリズムは実装が簡単であり、推定される回帰係数は観測データと説明変数との間の偏相関を表し、解釈も容易であることから多くの解析者に使われている。しかし、現実の解析では説明変数の数が多くなり、最小二乗法では上手くモデリングできなくなる。そのため回帰係数の大きさに罰則項を付け、データにソフトフィッティングした回帰モデルを推定する罰則項付きのモデリング手法が提案されている。   The linear regression model captures actual observed data fluctuations as a linear sum of explanatory variables. Modeling algorithms represented by the least square method are easy to implement, and the estimated regression coefficients represent partial correlations between observed data and explanatory variables, and are easy to interpret. ing. However, in actual analysis, the number of explanatory variables increases, and modeling with the least square method becomes impossible. For this reason, a modeling method with a penalty term has been proposed in which a penalty term is attached to the magnitude of the regression coefficient and a regression model soft-fitted to the data is estimated.

例えば、線形回帰モデルの推定において、観測データとの二乗誤差に加えて回帰係数のL1、L2ノルムも考慮したコスト関数を用いて、観測データとの相関が高い説明変数のみを使用してデータにソフトフィッティングさせる変数選択の回帰モデリングが提案されている(例えば、非特許文献1参照)。この手法は、Elastic Net Regressionと呼ばれ、回帰係数の推定においては、LARS(Least Angle Regression)と呼ばれる有効なアルゴリズムがよく用いられている。   For example, in the estimation of the linear regression model, the cost function considering the L1 and L2 norms of the regression coefficient in addition to the square error with the observation data is used, and only the explanatory variables having a high correlation with the observation data are used for the data. Regression modeling of variable selection for soft fitting has been proposed (see, for example, Non-Patent Document 1). This method is called Elastic Net Regression, and an effective algorithm called LARS (Least Angle Regression) is often used for estimating regression coefficients.

Hui Zou and Trevor Hastie, "Regularization and Variable Selection via the Elastic Net", J.R. Statist. Soc. B, pp0301-320, 2005.Hui Zou and Trevor Hastie, "Regularization and Variable Selection via the Elastic Net", J.R.Statist.Soc.B, pp0301-320, 2005.

本発明は、より信頼性の高い線形回帰モデルを推定することができる線形回帰モデル推定装置、方法、及びプログラムを提供することを目的とする。   An object of the present invention is to provide a linear regression model estimation apparatus, method, and program capable of estimating a more reliable linear regression model.

上記目的を達成するために、本発明の線形回帰モデル推定装置は、説明変数及び該説明変数に対する回帰係数の線形和で観測値を表す線形回帰モデルにおいて、前記線形回帰モデルと前記観測値との残差に、前記説明変数のノルムが小さいほど大きくなる罰則項を付けたコスト関数の最小化により、前記回帰係数を推定する回帰係数推定手段と、前記罰則項の大きさを指定するパラメータ毎に前記回帰係数推定手段により推定された回帰係数から、各回帰係数を用いた場合の説明率が最も大きくなる回帰係数を選択することにより、前記線形回帰モデルを同定するモデル同定手段と、を含んで構成することができる。   In order to achieve the above object, a linear regression model estimation apparatus according to the present invention includes an explanatory variable and a linear regression model that represents an observed value by a linear sum of regression coefficients for the explanatory variable. Regression coefficient estimation means for estimating the regression coefficient by minimizing a cost function with a penalty term that increases as the norm of the explanatory variable increases in the residual, and for each parameter that specifies the size of the penalty term Model identifying means for identifying the linear regression model by selecting a regression coefficient that provides the largest explanation rate when using each regression coefficient from the regression coefficients estimated by the regression coefficient estimation means, Can be configured.

本発明の線形回帰モデル推定装置によれば、まず、説明変数及び説明変数に対する回帰係数の線形和で観測値を表す線形回帰モデルを定義する。そして、回帰係数推定手段が、線形回帰モデルと観測値との残差に、説明変数のノルムが小さいほど大きくなる罰則項を付けたコスト関数の最小化により、回帰係数を推定し、モデル同定手段が、罰則項の大きさを指定するパラメータ毎に回帰係数推定手段により推定された回帰係数から、各回帰係数を用いた場合の説明率が最も大きくなる回帰係数を選択することにより、線形回帰モデルを同定する。   According to the linear regression model estimation apparatus of the present invention, first, a linear regression model that represents an observation value by a linear sum of an explanatory variable and a regression coefficient with respect to the explanatory variable is defined. The regression coefficient estimation means estimates the regression coefficient by minimizing the cost function with a penalty term that increases as the norm of the explanatory variable decreases to the residual between the linear regression model and the observed value. The linear regression model is selected by selecting the regression coefficient that provides the highest explanation rate when using each regression coefficient from the regression coefficients estimated by the regression coefficient estimation means for each parameter that specifies the size of the penalty term. Is identified.

このように、データとしての信頼性に直結する説明変数のノルムが小さいほど大きくなる罰則項を付けたコスト関数の最小化により回帰係数を推定するため、信頼性の高い線形回帰モデルを推定することができる。   In this way, to estimate the regression coefficient by minimizing the cost function with a penalty term that increases as the norm of the explanatory variable directly related to the reliability as data becomes smaller, a highly reliable linear regression model must be estimated. Can do.

また、本発明の線形回帰モデル推定方法は、回帰係数推定手段と、モデル同定手段とを含む線形回帰モデル推定装置における線形回帰モデル推定方法であって、前記回帰係数推定手段が、説明変数及び該説明変数に対する回帰係数の線形和で観測値を表す線形回帰モデルにおいて、前記線形回帰モデルと前記観測値との残差に、前記説明変数のノルムが小さいほど大きくなる罰則項を付けたコスト関数の最小化により、前記回帰係数を推定し、前記モデル同定手段が、前記罰則項の大きさを指定するパラメータ毎に前記回帰係数推定手段により推定された回帰係数から、各回帰係数を用いた場合の説明率が最も大きくなる回帰係数を選択することにより、前記線形回帰モデルを同定する方法である。   The linear regression model estimation method of the present invention is a linear regression model estimation method in a linear regression model estimation device including a regression coefficient estimation means and a model identification means, wherein the regression coefficient estimation means includes an explanatory variable and the In a linear regression model that represents an observation value as a linear sum of regression coefficients with respect to an explanatory variable, a cost function with a penalty term attached to the residual between the linear regression model and the observation value that increases as the norm of the explanatory variable decreases. The regression coefficient is estimated by minimization, and the model identification unit uses each regression coefficient from the regression coefficient estimated by the regression coefficient estimation unit for each parameter that specifies the size of the penalty term. In this method, the linear regression model is identified by selecting a regression coefficient that maximizes the explanation rate.

また、本発明の線形回帰モデル推定プログラムは、コンピュータを、上記の線形回帰モデル推定装置を構成する各手段として機能させるためのプログラムである。   The linear regression model estimation program of the present invention is a program for causing a computer to function as each means constituting the linear regression model estimation apparatus.

以上説明したように、本発明の線形回帰モデル推定装置、方法、及びプログラムによれば、データとしての信頼性に直結する説明変数のノルムが小さいほど大きくなる罰則項を付けたコスト関数の最小化により回帰係数を推定するため、信頼性の高い線形回帰モデルを推定することができる、という効果が得られる。   As described above, according to the linear regression model estimation apparatus, method, and program of the present invention, the cost function with a penalty term that becomes larger as the norm of the explanatory variable directly related to the reliability as data becomes smaller is minimized. Thus, since the regression coefficient is estimated, an effect that a highly reliable linear regression model can be estimated is obtained.

本実施の形態に係る線形回帰モデル推定装置の構成を示す概略図である。It is the schematic which shows the structure of the linear regression model estimation apparatus which concerns on this Embodiment. 観測値の時系列データのデータ構造の一例を示す図である。It is a figure which shows an example of the data structure of the time series data of an observation value. 本実施の形態における線形回帰モデル推定処理ルーチンの内容を示すフローチャートである。It is a flowchart which shows the content of the linear regression model estimation process routine in this Embodiment. 実験に用いた観測データを示すグラフである。It is a graph which shows the observation data used for experiment. 実験に用いた説明変数(x)を示すグラフである。Is a graph showing explanatory variables (x 1) used in the experiment. 実験に用いた説明変数(x)を示すグラフである。Is a graph showing the explanatory variable (x 4) used in the experiment. 実験に用いた説明変数(x)を示すグラフである。Is a graph showing explanatory variables (x 7) used in the experiment. 回帰係数の推定結果を示す表である。It is a table | surface which shows the estimation result of a regression coefficient.

以下、図面を参照して本発明の実施の形態を詳細に説明する。   Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.

<本実施の形態の概要>
本実施の形態に係る線形回帰モデル推定装置では、まず、観測値の変動を説明する線形回帰モデルを想定し用意する。ここで、観測値は平均0に、説明変数は平均0、分散1に標準化されているものとする。次に、Elastic Net Regressionにおいて、説明変数の大きさ(スケール)に罰則を付けたコスト関数を用意する。本実施の形態では、この手法を、Scale Penalized Elastic Net Regression(SPEN)と呼ぶ。そして、観測値を取り込むことで、このコスト関数を最小化させる回帰係数の推定値を求める。回帰係数の推定においてはElastic Net Regressionの推定と同様に、LARSの変形を用いることができる。そして、最後に回帰モデルの説明率(決定係数)によりモデルを同定し、線形回帰モデルのパラメータの推定値を出力する。
<Outline of the present embodiment>
In the linear regression model estimation apparatus according to the present embodiment, first, a linear regression model that explains fluctuations in observed values is assumed and prepared. Here, it is assumed that the observed value is standardized to mean 0, the explanatory variable is standardized to mean 0, and variance 1. Next, in Elastic Net Regression, prepare a cost function that penalizes the size (scale) of the explanatory variable. In the present embodiment, this technique is called Scale Penalized Elastic Net Regression (SPEN). Then, an estimated value of the regression coefficient that minimizes the cost function is obtained by taking in the observed value. In the estimation of the regression coefficient, a modification of LARS can be used similarly to the estimation of Elastic Net Regression. Finally, the model is identified by the explanation rate (determination coefficient) of the regression model, and the estimated values of the parameters of the linear regression model are output.

<システム構成>
本実施の形態に係る線形回帰モデル推定装置10は、CPUと、RAMと、後述する線形回帰モデル推定処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成されている。このコンピュータは、機能的には、図1に示すように、入力部20と、演算部30と、出力部40とを含んだ構成で表すことができる。
<System configuration>
The linear regression model estimation apparatus 10 according to the present embodiment is configured by a computer including a CPU, a RAM, and a ROM that stores a program for executing a linear regression model estimation processing routine described later. As shown in FIG. 1, this computer can be functionally represented by a configuration including an input unit 20, a calculation unit 30, and an output unit 40.

入力部20は、入力された観測値の時系列データを受け付ける。観測値は、スカラー値であり、すなわち、時系列データは、1次元時系列である。観測値は、例えば、図2に示すように、時刻tと観測値yと説明変数xi,jとの組(i=1,・・・,n、j=1,・・・,p)からなる時系列データである。 The input unit 20 receives time-series data of input observation values. The observed value is a scalar value, that is, the time series data is a one-dimensional time series. For example, as shown in FIG. 2, the observed value is a set of time t i , observed value y i, and explanatory variable x i, j (i = 1,..., N, j = 1,. p) is time-series data.

演算部30は、線形回帰モデリング部31と、回帰係数推定部32と、モデル同定部33とを含んだ構成で表すことができる。   The calculation unit 30 can be expressed by a configuration including a linear regression modeling unit 31, a regression coefficient estimation unit 32, and a model identification unit 33.

線形回帰モデリング部31は、オペレータにより入力部20から入力された設定値を受け付けて、下記(1)式及び(2)式に示す線形回帰モデルを定義する。   The linear regression modeling unit 31 receives the set value input from the input unit 20 by the operator, and defines the linear regression models shown in the following equations (1) and (2).

Figure 2014041566
Figure 2014041566

ただし、yはn×1の観測値のベクトル、Xはn×pの説明変数の行列、βはp×1の回帰係数のベクトルである。xi,i=1,・・・pはp個の説明変数で、それぞれn×1のベクトルである。この線形回帰式を標準化すると、下記(3)式及び(4)式となる。 Where y is a vector of n × 1 observation values, X is a matrix of n × p explanatory variables, and β is a vector of p × 1 regression coefficients. x i, i = 1,... p are p explanatory variables, each of which is an n × 1 vector. When this linear regression equation is standardized, the following equations (3) and (4) are obtained.

Figure 2014041566
Figure 2014041566

ここで、||Xi,i=1,・・・p||は各説明変数のLノルムであり、 ̄A(数式中では、記号A上に“ ̄”)はAの平均である。(4)式は、観測値の平均が0で、各説明変数の平均も0、Lノルムも1になっていることから、この形式を標準化された線形回帰モデルと呼ぶ。本実施の形態では、(4)式の回帰係数β’を観測値の時系列データから推定することを目的とする。 Here, || X i, i = 1,... P || is the L 2 norm of each explanatory variable, and  ̄A (“ ̄” on symbol A in the equation) is the average of A. . (4) has an average of the observed values 0, since it has an average be 0, L 2 norm even 1 for each explanatory variable, called the standardized linear regression model with this format. The purpose of this embodiment is to estimate the regression coefficient β ′ of the equation (4) from time series data of observed values.

回帰係数推定部32は、下記(5)式に示すScale Penalized Elastic Net Regression(SPEN)のコスト関数を最小化するパラメータβ’を、下記(6)式に示す最適化により推定する。   The regression coefficient estimation unit 32 estimates the parameter β ′ that minimizes the cost function of Scale Penalized Elastic Net Regression (SPEN) shown in the following formula (5) by optimization shown in the following formula (6).

Figure 2014041566
Figure 2014041566

(5)式右辺の第2項はL罰則項、第3項はL罰則項であり、λ及びλはL罰則項及びL罰則項の大きさを指定するパラメータである。Wは、下記(7)式に示すような、説明変数の大きさ(スケール)の関数を対角成分に持つ対角行列である。 The second term on the right side of equation (5) is the L 1 penalty term, the third term is the L 2 penalty term, and λ 1 and λ 2 are parameters that specify the size of the L 1 penalty term and the L 2 penalty term. . W is a diagonal matrix having a function of the size (scale) of the explanatory variable as a diagonal component as shown in the following equation (7).

Figure 2014041566
Figure 2014041566

ただし、w(||x||)はxのLノルムの関数であり、ノルムが大きいと1に近付き(つまり罰則無し)、ノルムが小さいと大きくなる(罰則が大きい)関数として定義する。例えば、w(||x||)を下記(8)式に示す形で想定することができ、γ=50、m=3とすることができる。 However, w (|| x p ||) is a function of the L 2 norm of x p and is defined as a function that approaches 1 (that is, there is no penalty) when the norm is large and becomes large when the norm is small (the penalty is large). To do. For example, w (|| x p ||) can be assumed in the form shown in the following equation (8), and γ = 50 and m = 3.

Figure 2014041566
Figure 2014041566

上記(5)式のコスト関数は、下記(9)式の形に変形される。   The cost function of the above equation (5) is transformed into the following equation (9).

Figure 2014041566
Figure 2014041566

ここで、β”=G-1β’であり、Gは下記(10)式となる。 Here, β ″ = G −1 β ′, and G is represented by the following equation (10).

Figure 2014041566
Figure 2014041566

また、y”及びx”はy’及びx’の拡大であり、それぞれ下記(11)式となる。   Further, y ″ and x ″ are enlargements of y ′ and x ′, and are respectively expressed by the following formula (11).

Figure 2014041566
Figure 2014041566

ここで注意が必要なのは、β’=Gβ”であり、これを(5)式のL罰則項に代入すると|f(W)Gβ”|となり、f(W)G=Iとして(9)式のL罰則項を|β”|にした点である。つまり、(5)式のf(W)は、下記(12)式となる。 Be careful, however, "a, which (5) of the L 1 are substituted into penalty term | f (W) Gβ" | β '= Gβ next, as f (W) G = I ( 9) formula L 1 penalties term | beta "|. lies in that the words, equation (5) f (W) becomes the following equation (12).

Figure 2014041566
Figure 2014041566

(9)式のコスト関数の形は、L罰則項のみのLasso(Least Absolute Shrinkage and Selection Operator)の形と同型であり、LARSの変形を使用したβ”の推定が可能となる。観測値の時系列データを取り込んでβ”を推定し、β”→β’→βと変換していくことで、(1)式の線形回帰モデルの回帰係数を推定する。また、(9)式のコスト関数の最小化として下記(13)式を考えたとき、推定される回帰係数を全て0以上にすることができる。このコスト関数の最小化もLARSの変形により可能であり、回帰係数が0より大きくなる説明変数のみを用いてLARSの反復計算を実行することに相当する。 (9) the form of the cost function is in the form of the same type Lasso only L 1 penalty term (Least Absolute Shrinkage and Selection Operator) , it is possible to estimate the beta "using the deformation of LARS. Observations The time series data is taken in, β ″ is estimated, and β ″ → β ′ → β is converted to estimate the regression coefficient of the linear regression model in equation (1). Also, in equation (9) When the following equation (13) is considered as the cost function minimization, the estimated regression coefficients can all be set to 0 or more: The cost function can be minimized by the modification of LARS, and the regression coefficient is 0. This is equivalent to performing an iterative calculation of LARS using only the explanatory variables that become larger.

Figure 2014041566
Figure 2014041566

モデル同定部33は、(5)式のλ及びλを振り、回帰モデルの説明率(決定係数)が最も大きくなったモデルを選択する。説明率は、例えば下記(14)で定義される自由度調整済み説明率(adjusted R)を用いることができる。 The model identification unit 33 assigns λ 1 and λ 2 in the equation (5), and selects the model having the highest explanation rate (determination coefficient) of the regression model. For example, the explanation rate (adjusted R 2 ) defined by the following (14) can be used as the explanation rate.

Figure 2014041566
Figure 2014041566

(14)式の2項目の分子は線形回帰モデルの残差の二乗和で、分母は観測値の平均からのずれの二乗和である。nは観測値の個数、pはモデルの説明変数の個数である。自由度調整済みの説明率は、回帰モデルの観測値へのフィッティングの良し悪しを自由度で調整した尺度である。   The numerator of the two items of the equation (14) is the sum of squares of the residuals of the linear regression model, and the denominator is the sum of squares of deviations from the average of the observed values. n is the number of observation values, and p is the number of explanatory variables of the model. The explanation rate adjusted for the degree of freedom is a scale obtained by adjusting the degree of fitting of the regression model to the observed value by the degree of freedom.

<線形回帰モデル推定装置の作用>
次に、本実施の形態に係る線形回帰モデル推定装置10の作用について説明する。まず、オペレータにより、時刻t〜tの観測値からなる時系列データが、線形回帰モデル推定装置10に入力されると、線形回帰モデル推定装置10によって、入力された時系列データが、メモリ(図示省略)へ格納される。そして、線形回帰モデル推定装置10によって、図3に示す線形回帰モデル推定処理ルーチンが実行される。
<Operation of linear regression model estimation device>
Next, the operation of the linear regression model estimation apparatus 10 according to the present embodiment will be described. First, when time series data including observation values at times t 1 to t N is input to the linear regression model estimation apparatus 10 by the operator, the input time series data is stored in the memory by the linear regression model estimation apparatus 10. (Not shown). Then, the linear regression model estimation apparatus 10 executes the linear regression model estimation processing routine shown in FIG.

まず、ステップ100で、メモリに格納された観測値の時系列データを取得する。そして、ステップ102で、線形回帰モデリング部31が、時系列データに含まれる説明変数を用いて、上記(1)式及び(2)式に示す線形回帰モデルを定義し、これを標準化して、(4)式に示す標準化された線形回帰モデルを定義する。   First, in step 100, time series data of observation values stored in the memory is acquired. In step 102, the linear regression modeling unit 31 uses the explanatory variables included in the time series data to define the linear regression models shown in the above formulas (1) and (2), standardizes them, (4) Define a standardized linear regression model as shown in equation (4).

次に、ステップ104で、回帰係数推定部32が、説明変数の大きさ(スケール)を考慮した罰則項を付けたSPENのコスト関数(5)式内のL罰則項及びL罰則項の大きさを指定するパラメータ(λ,λ)を設定し、次のステップ106で、(5)式のコスト関数を(6)式により最小化することにより、パラメータβ’を推定する。 Next, at step 104, a regression coefficient estimator 32, the explanatory variable size (scale) of the cost function SPEN which gave a penalty term that takes into account (5) the expression of L 1 penalties section and L 2 penalties term Parameters (λ 1 , λ 2 ) for specifying the magnitudes are set, and in the next step 106, the parameter β ′ is estimated by minimizing the cost function of equation (5) using equation (6).

次に、ステップ108で、モデル同定部33が、上記ステップ106で推定されたパラメータβ’を用いた線形回帰モデルに基づいて、例えば(14)式に示す説明率(決定係数)を算出して、パラメータβ’と共に一旦所定の記憶領域に記憶しておく。   Next, in step 108, the model identification unit 33 calculates an explanation rate (determination coefficient) shown in, for example, the equation (14) based on the linear regression model using the parameter β ′ estimated in step 106. , The parameter β ′ is once stored in a predetermined storage area.

次に、ステップ110で、回帰係数推定部32が、パラメータ(λ,λ)の全ての組み合わせについてパラメータβ’を推定したか否かを判定する。未処理の(λ,λ)が存在する場合には、ステップ104へ戻って、次の(λ,λ)を設定し、ステップ106及び108の処理を繰り返す。 Next, in step 110, the regression coefficient estimation unit 32 determines whether the parameter β ′ has been estimated for all combinations of the parameters (λ 1 , λ 2 ). If there is an unprocessed (λ 1 , λ 2 ), the process returns to step 104, the next (λ 1 , λ 2 ) is set, and the processes of steps 106 and 108 are repeated.

全ての(λ,λ)について処理が終了した場合には、ステップ112へ移行し、上記ステップ108で算出した説明率が最も大きくなったときのパラメータβ’を選択することにより、(4)式の標準化された線形回帰モデルを同定する。また、選択されたパラメータβ’をβに変換する。 When the processing is completed for all (λ 1 , λ 2 ), the process proceeds to step 112, and the parameter β ′ when the explanation rate calculated in step 108 is the largest is selected (4 ) Identify a standardized linear regression model of the equation. Also, the selected parameter β ′ is converted into β.

次に、ステップ114で、出力部40が、上記ステップ112で得られたパラメータβを、(1)式の線形回帰モデルのパラメータ推定値として出力し、線形回帰モデル推定処理ルーチンを終了する。   Next, in step 114, the output unit 40 outputs the parameter β obtained in step 112 as a parameter estimated value of the linear regression model of equation (1), and the linear regression model estimation processing routine is terminated.

<実験結果>
ここで、下記(15)式で生成された人工観測データを使用した、本実施の形態に係る手法であるSPENの実験結果について説明する。
<Experimental result>
Here, an experimental result of SPEN, which is a technique according to the present embodiment, using artificial observation data generated by the following equation (15) will be described.

Figure 2014041566
Figure 2014041566

この観測データを生成した4個の説明変数は独立である。さらに下記(16)式〜(21)式に示す6個の説明変数の候補を用意する。   The four explanatory variables that generated this observation data are independent. Furthermore, six explanatory variable candidates shown in the following equations (16) to (21) are prepared.

Figure 2014041566
Figure 2014041566

これら全部で10個の説明変数の大きさ(スケール)はそれぞれ下記(22)式及び(23)式になる。   In total, the magnitudes (scales) of the ten explanatory variables are the following formulas (22) and (23), respectively.

Figure 2014041566
Figure 2014041566

この説明変数の集合は、説明変数同士が強く相関しており、多重共線性があるデータになっている。またx、x、xはその大きさ(スケール)が他の説明変数と比べて小さくなっており、データとしての信頼性が低い説明変数である。観測値y及び説明変数x、x、xのプロット図を図4〜7に示す。 In this set of explanatory variables, the explanatory variables are strongly correlated with each other and are data having multicollinearity. In addition, x 4 , x 7 , and x 8 are explanatory variables that are smaller in size (scale) than other explanatory variables and have low reliability as data. Plots of the observed value y and the explanatory variables x 1 , x 4 , x 7 are shown in FIGS.

このデータを本実施の形態の手法であるSPENでモデリングした結果を図8に示す。(5)式のλ及びλの値は上述のモデル同定部33の処理により決定し、λ=0.1651、λ=0.0131であった。比較手法はRidge及びElastic Net(EN)である。Ridgeは回帰係数のL罰則項のみの回帰で、観測データにソフトフィッティングさせる手法である。SPENのλを0にとり、W=Iとしたときに一致する。ENはSPENのW=Iとしたときの手法であり、説明変数のスケールによる罰則は考慮していない。Ridgeは多重共線性が存在する場合も安定的に回帰係数を推定できるが、誤推定が多いことがわかる。ENは回帰係数をよく推定できているが、説明変数x及びxに対する回帰係数を誤推定している。 FIG. 8 shows the result of modeling this data with SPEN which is the method of the present embodiment. The values of λ 1 and λ 2 in the equation (5) are determined by the processing of the model identification unit 33 described above, and are λ 1 = 0.1651 and λ 2 = 0.0131. The comparison method is Ridge and Elastic Net (EN). Ridge the regression only L 2 penalties term of the regression coefficients is a technique for soft-fitted to the observed data. It matches when λ 1 of SPEN is 0 and W = I. EN is a technique when SPEN W = I, and does not consider penalties due to the scale of the explanatory variables. Ridge can stably estimate the regression coefficient even when multicollinearity exists, but it can be seen that there are many false estimations. EN is made up estimated regression coefficients may have been estimated regression coefficients erroneous for explanatory variable x 7 and x 8.

一方、本実施の形態の手法であるSPENでは、スケールが小さい説明変数はデータとしての信頼性が低いとみなすため、説明変数x、x、xに対する回帰係数を0に推定している。いずれの手法でも説明率はほぼ同じであるが、SPENにより推定した線形回帰モデルが真なるモデルに最も近く、かつ本実施の形態の効能である説明変数のスケールに対する罰則も良好に働いていることがわかる。 On the other hand, in SPEN which is the method of the present embodiment, since the explanatory variable with a small scale is regarded as having low reliability as data, the regression coefficients for the explanatory variables x 4 , x 7 , and x 8 are estimated to be 0. . The explanation rate is almost the same in either method, but the linear regression model estimated by SPEN is closest to the true model, and the penalties for the scale of the explanatory variable, which is the effect of this embodiment, are working well. I understand.

以上説明したように、本実施の形態に係る線形回帰モデル推定装置によれば、データとしての信頼性に直結する説明変数の大きさ(スケール)を考慮した罰則項を付けたSPENのコスト関数を最小化することにより回帰係数を推定するため、信頼性の高い線形回帰モデルを推定することができる。   As described above, according to the linear regression model estimation apparatus according to the present embodiment, the SPEN cost function with a penalty term considering the size (scale) of the explanatory variable directly related to the reliability as data is obtained. Since the regression coefficient is estimated by minimization, a highly reliable linear regression model can be estimated.

線形回帰モデルは数学的にシンプルで解釈を与えやすく、かつ強力な推定アルゴリズムに支えられて多くの解析者に使われている。しかし現実のデータは変動が複雑で、回帰に用いる説明変数の個数も多くなり適切なモデリングができなくなる。そのため観測データにソフトフィッティングさせることを目的とした、回帰係数の罰則項付きモデリング手法が提案されてきた。本実施の形態ではさらに説明変数の大きさ(スケール)に罰則を付ける線形回帰モデリング手法を提案した。これにより説明変数として十分な大きさ(スケール)を持った説明変数、つまりデータとしての信頼性が高い説明変数のみを使用したモデリングが可能になり、複雑なデータセットからの頑健な回帰式の推定を行うことができるようになる。   Linear regression models are mathematically simple and easy to interpret, and are used by many analysts, supported by powerful estimation algorithms. However, the actual data has complicated fluctuations, and the number of explanatory variables used for regression increases, making appropriate modeling impossible. Therefore, modeling methods with penalties for regression coefficients have been proposed for the purpose of soft fitting to observation data. In the present embodiment, a linear regression modeling method for penalizing the size (scale) of explanatory variables has been proposed. This allows modeling using only explanatory variables with sufficient size (scale) as explanatory variables, that is, highly reliable explanatory variables as data, and estimation of robust regression equations from complex data sets. Will be able to do.

なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。   Note that the present invention is not limited to the above-described embodiment, and various modifications and applications are possible without departing from the gist of the present invention.

また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。   In the present specification, the embodiment has been described in which the program is installed in advance. However, the program can be provided by being stored in a computer-readable recording medium.

10 線形回帰モデル推定装置
20 入力部
30 演算部
31 線形回帰モデリング部
32 回帰係数推定部
33 モデル同定部
40 出力部
DESCRIPTION OF SYMBOLS 10 Linear regression model estimation apparatus 20 Input part 30 Operation part 31 Linear regression modeling part 32 Regression coefficient estimation part 33 Model identification part 40 Output part

Claims (3)

説明変数及び該説明変数に対する回帰係数の線形和で観測値を表す線形回帰モデルにおいて、前記線形回帰モデルと前記観測値との残差に、前記説明変数のノルムが小さいほど大きくなる罰則項を付けたコスト関数の最小化により、前記回帰係数を推定する回帰係数推定手段と、
前記罰則項の大きさを指定するパラメータ毎に前記回帰係数推定手段により推定された回帰係数から、各回帰係数を用いた場合の説明率が最も大きくなる回帰係数を選択することにより、前記線形回帰モデルを同定するモデル同定手段と、
を含む線形回帰モデル推定装置。
In a linear regression model that represents an observed value by a linear sum of an explanatory variable and a regression coefficient for the explanatory variable, a penalty term that increases as the norm of the explanatory variable decreases is added to the residual between the linear regression model and the observed value. A regression coefficient estimating means for estimating the regression coefficient by minimizing the cost function;
The linear regression is selected by selecting a regression coefficient having the highest explanation rate when using each regression coefficient from the regression coefficients estimated by the regression coefficient estimation means for each parameter that specifies the size of the penalty term. A model identification means for identifying the model;
An apparatus for estimating a linear regression model.
回帰係数推定手段と、モデル同定手段とを含む線形回帰モデル推定装置における線形回帰モデル推定方法であって、
前記回帰係数推定手段が、説明変数及び該説明変数に対する回帰係数の線形和で観測値を表す線形回帰モデルにおいて、前記線形回帰モデルと前記観測値との残差に、前記説明変数のノルムが小さいほど大きくなる罰則項を付けたコスト関数の最小化により、前記回帰係数を推定し、
前記モデル同定手段が、前記罰則項の大きさを指定するパラメータ毎に前記回帰係数推定手段により推定された回帰係数から、各回帰係数を用いた場合の説明率が最も大きくなる回帰係数を選択することにより、前記線形回帰モデルを同定する
線形回帰モデル推定方法。
A linear regression model estimation method in a linear regression model estimation apparatus including a regression coefficient estimation unit and a model identification unit,
In the linear regression model in which the regression coefficient estimation means represents an observation value as an explanatory variable and a linear sum of the regression coefficients for the explanatory variable, a norm of the explanatory variable is small in a residual between the linear regression model and the observation value Estimate the regression coefficient by minimizing the cost function with a penal term that increases
The model identification unit selects a regression coefficient that provides the highest explanation rate when each regression coefficient is used from the regression coefficients estimated by the regression coefficient estimation unit for each parameter that specifies the size of the penalty term. A linear regression model estimation method for identifying the linear regression model.
コンピュータを、請求項1記載の線形回帰モデル推定装置を構成する各手段として機能させるための線形回帰モデル推定プログラム。   The linear regression model estimation program for functioning a computer as each means which comprises the linear regression model estimation apparatus of Claim 1.
JP2012184608A 2012-08-23 2012-08-23 Device, method, and program for linear regression model estimation Pending JP2014041566A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012184608A JP2014041566A (en) 2012-08-23 2012-08-23 Device, method, and program for linear regression model estimation

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012184608A JP2014041566A (en) 2012-08-23 2012-08-23 Device, method, and program for linear regression model estimation

Publications (1)

Publication Number Publication Date
JP2014041566A true JP2014041566A (en) 2014-03-06

Family

ID=50393754

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012184608A Pending JP2014041566A (en) 2012-08-23 2012-08-23 Device, method, and program for linear regression model estimation

Country Status (1)

Country Link
JP (1) JP2014041566A (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016224566A (en) * 2015-05-27 2016-12-28 一般財団法人電力中央研究所 Prediction device, prediction method, and prediction program
CN109583008A (en) * 2018-10-18 2019-04-05 天津大学 Water cooler energy efficiency model universal modeling method based on successive Regression
CN111222915A (en) * 2019-12-31 2020-06-02 上海昌投网络科技有限公司 Public number ROI (region of interest) estimation method and device based on linear regression model
CN111639815A (en) * 2020-06-02 2020-09-08 贵州电网有限责任公司 Method and system for predicting power grid defect materials through multi-model fusion

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007328744A (en) * 2006-06-09 2007-12-20 Canon Inc Regression analyzing method and device therefor
US20110320391A1 (en) * 2010-06-29 2011-12-29 Nec Laboratories America, Inc. Method and Apparatus for Predicting Application Performance Across Machines with Different Hardware Configurations
JP2012094056A (en) * 2010-10-28 2012-05-17 Ntt Comware Corp User state estimation system, user state estimation method and user state estimation program

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007328744A (en) * 2006-06-09 2007-12-20 Canon Inc Regression analyzing method and device therefor
US20110320391A1 (en) * 2010-06-29 2011-12-29 Nec Laboratories America, Inc. Method and Apparatus for Predicting Application Performance Across Machines with Different Hardware Configurations
JP2012094056A (en) * 2010-10-28 2012-05-17 Ntt Comware Corp User state estimation system, user state estimation method and user state estimation program

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JPN6015024356; 倉持  佳生 外2名: '"観測雑音を考慮したARモデルによるベイズ最適な予測法"' 電子情報通信学会技術研究報告 第100巻 第174号, 20000707, pp.19-24, 社団法人電子情報通信学会 *
JPN6015024358; 亀岡  弘和 外3名: '"予測誤差のGolomb-Rice符号量を最小化する線形予測分析"' 電子情報通信学会論文誌 第J91-A巻  第11号, 20081101, pp.1017-1025, 社団法人電子情報通信学会 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016224566A (en) * 2015-05-27 2016-12-28 一般財団法人電力中央研究所 Prediction device, prediction method, and prediction program
CN109583008A (en) * 2018-10-18 2019-04-05 天津大学 Water cooler energy efficiency model universal modeling method based on successive Regression
CN109583008B (en) * 2018-10-18 2023-09-15 天津大学 General modeling method for water chiller energy efficiency model based on stepwise regression
CN111222915A (en) * 2019-12-31 2020-06-02 上海昌投网络科技有限公司 Public number ROI (region of interest) estimation method and device based on linear regression model
CN111639815A (en) * 2020-06-02 2020-09-08 贵州电网有限责任公司 Method and system for predicting power grid defect materials through multi-model fusion
CN111639815B (en) * 2020-06-02 2023-09-05 贵州电网有限责任公司 Method and system for predicting power grid defect materials through multi-model fusion

Similar Documents

Publication Publication Date Title
JP6584629B2 (en) Method for face alignment
US11216741B2 (en) Analysis apparatus, analysis method, and non-transitory computer readable medium
US8898040B2 (en) Method and system for empirical modeling of time-varying, parameter-varying, and nonlinear systems via iterative linear subspace computation
JPWO2005119507A1 (en) High-speed and high-precision singular value decomposition method, program and apparatus for matrix
JP5845630B2 (en) Information processing apparatus, information processing method, and program
KR20160041856A (en) Systems and methods for performing bayesian optimization
Samson et al. A contrast estimator for completely or partially observed hypoelliptic diffusion
JP2014041566A (en) Device, method, and program for linear regression model estimation
JP6283112B2 (en) Method and apparatus for defining a functional model based on data
JP2017146888A (en) Design support device and method and program
Subbotina et al. On the solution of inverse problems of dynamics of linearly controlled systems by the negative discrepancy method
Lange et al. Efficient message passing for 0–1 ILPs with binary decision diagrams
JP6331756B2 (en) Test case generation program, test case generation method, and test case generation apparatus
JP2014041565A (en) Device, method, and program for time-series data analysis
JP6201556B2 (en) Prediction model learning device, prediction model learning method, and computer program
JP4815391B2 (en) Model parameter estimation calculation apparatus and method, model parameter estimation calculation processing program, and recording medium recording the same
JP2014041547A (en) Time series data analysis device, method and program
JP5738778B2 (en) Optimal model estimation apparatus, method, and program
JP5816387B1 (en) Nonlinear optimal solution search system
JP2022148420A (en) Learning method of prediction model, prediction model and learning device
JP6738087B2 (en) Formula processing method
JP2019061623A (en) Parameter estimation device, method, and program
Startz Bayesian heteroskedasticity-Robust standard errors
JP7198474B2 (en) modeling system
JP2017207987A (en) Objective variable prediction device, method and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140815

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150515

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150623

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20160126