JP5017941B2 - Model creation device and identification device - Google Patents

Model creation device and identification device Download PDF

Info

Publication number
JP5017941B2
JP5017941B2 JP2006177102A JP2006177102A JP5017941B2 JP 5017941 B2 JP5017941 B2 JP 5017941B2 JP 2006177102 A JP2006177102 A JP 2006177102A JP 2006177102 A JP2006177102 A JP 2006177102A JP 5017941 B2 JP5017941 B2 JP 5017941B2
Authority
JP
Japan
Prior art keywords
model
weighting
data
parameter
learning data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006177102A
Other languages
Japanese (ja)
Other versions
JP2008009548A (en
Inventor
勇 馬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Omron Corp
Original Assignee
Omron Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Omron Corp filed Critical Omron Corp
Priority to JP2006177102A priority Critical patent/JP5017941B2/en
Publication of JP2008009548A publication Critical patent/JP2008009548A/en
Application granted granted Critical
Publication of JP5017941B2 publication Critical patent/JP5017941B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、データモデルを作成する技術および作成されたモデルを用いてデータを識別する技術に関する。   The present invention relates to a technique for creating a data model and a technique for identifying data using the created model.

データのモデル化および解析は、与えられた学習用データから決定関数および未知の分布を学習することを目的とする。そして、得られた決定関数または分布は、未知のサンプルを識別(分類)するために用いられる。   Data modeling and analysis aims to learn a decision function and an unknown distribution from given learning data. The obtained decision function or distribution is used to identify (classify) unknown samples.

一般に、モデル化問題においては、入力ベクトルx(i=1〜N)および対応するクラス(ターゲット、ラベルとも呼ばれる)t(i=1〜N)を含む、数1で表される学習用データセットが与えられる。 In general, in the modeling problem, for learning represented by Equation 1, which includes an input vector x i (i = 1 to N) and a corresponding class (also called a target or a label) t i (i = 1 to N). A data set is given.

Figure 0005017941
Figure 0005017941

この学習用データから、モデルp(t|x)の推論が行われる。そして、未知のサンプルxが与えられたときに、得られたモデルを用いてこのサンプルのクラスを推定することができる。 The model p (t | x) is inferred from the learning data. Then, given an unknown sample x * , the class of this sample can be estimated using the obtained model.

このようにして得られたデータモデルの性能は、問題そのものの複雑さ、学習用データのサンプル数、学習用データ内の誤りの数、識別器の複雑さなど、いくつかの要因によって定まる。一般に、情報検索や人間とコンピュータのやりとりなどのデータ解析問題の多くは複雑である。したがって、これらのデータ解析問題においては、カーネル・トリックなどの複雑な方法を使用しなければならない。一方、これらの用途においては、メモリ容量の小さなランタイムライブラリである必要があり、また、高速な評価速度も必要である。従来のモデル化手法では、上記のような複雑な問題を小サイズのランタイムライブラリで高速に評価することは困難であった。   The performance of the data model thus obtained is determined by several factors such as the complexity of the problem itself, the number of samples of learning data, the number of errors in the learning data, and the complexity of the classifier. In general, many data analysis problems such as information retrieval and human-computer interaction are complex. Therefore, in these data analysis problems, complex methods such as kernel tricks must be used. On the other hand, in these applications, it is necessary that the runtime library has a small memory capacity, and a high evaluation speed is also required. In the conventional modeling method, it has been difficult to quickly evaluate the above complicated problem with a small-size runtime library.

良好な性能を得るために、サポート・ベクトル・マシン(Support Vector Machine。以下、SVMと表記。特許文献1)や、レリバント・ベクトル・マシン(Relevant Vector Machine。以下、RVMと表記。特許文献2)では、数2で表される判別関数に基づいて
識別を行っている。
In order to obtain good performance, a support vector machine (hereinafter referred to as SVM. Patent Document 1) and a relevant vector machine (hereinafter referred to as RVM. Patent Document 2). Then, identification is performed based on the discriminant function expressed by Formula 2.

Figure 0005017941
ここで、w(i=0〜N)は重み付け係数であり、K(x,x)はカーネル関数である。
Figure 0005017941
Here, w i (i = 0 to N) is a weighting coefficient, and K (x, x i ) is a kernel function.

SVMにおいては、ターゲット関数の最適化は、学習セットについての分類エラーを最小にしつつ、同時にトレードオフ・パラメータでカーネルによって暗黙裏に定められる特徴空間における2つの分類の間のマージンを最大化することによって行われる。このようにして行われる最適化によると、重み付けの多くがゼロとなり、非ゼロの重み付けがマージン上/マージン内あるいはマージンの誤り側に位置するxのみに組み合わされるスパ
ース(疎)なカーネル分離器を得ることができる。非ゼロの重み付けが与えられたxはサポートベクトルと呼ばれる。決定関数はこれらのサポートベクトルのみによって決定されるため、モデルの複雑さが簡略化される。SVMにおいては、一般に、学習サンプルのうちの1/10〜1/5がサポートベクトルとなる。
In SVM, target function optimization maximizes the margin between two classifications in the feature space implicitly defined by the kernel with trade-off parameters while minimizing classification errors for the training set. Is done by. According to the optimization performed in this way, a sparse kernel separator in which much of the weighting is zero and non-zero weighting is combined only with x i located on / in the margin or on the error side of the margin Can be obtained. X i given a non-zero weight is called a support vector. Since the decision function is determined only by these support vectors, the complexity of the model is simplified. In SVM, generally, 1/10 to 1/5 of learning samples is a support vector.

RVMはSVMよりもさらにスパースな学習方法である。RVMでは、数2における重み付け係数wに、数3で表される独立なハイパーパラメータαによって制御される平均ゼロのガウス事前分布を導入する。 RVM is a more sparse learning method than SVM. In RVM, the weighting coefficient w i in Equation 2 is introduced with a Gaussian prior distribution with a mean zero controlled by the independent hyperparameter α expressed by Equation 3.

Figure 0005017941
Figure 0005017941

そして、学習サンプルに基づいて、周辺尤度が最大になるように、重み付け係数およびハイパーパラメータを決定する。   Then, based on the learning sample, the weighting coefficient and the hyper parameter are determined so that the marginal likelihood is maximized.

RVMはSVMよりもスパースであるが、特徴選択などのいくつかの用途については依然として十分にスパースではない。また、重み付け係数が数2で表されるように線形な形式であるという点も、現実の用途において柔軟性に欠ける。
米国特許第5649068号明細書 米国特許第6633857号明細書
RVM is sparser than SVM, but is still not sparse enough for some applications such as feature selection. In addition, the fact that the weighting coefficient is in a linear form as expressed by Equation 2 also lacks flexibility in actual applications.
US Pat. No. 5,649,068 US Pat. No. 6,633,857

本発明は上記実情に鑑みてなされたものであって、その目的とするところは、スパースなモデルを作成するための技術を提供することにある。   The present invention has been made in view of the above circumstances, and an object thereof is to provide a technique for creating a sparse model.

上記目的を達成するために本発明では、以下の手段または処理によって学習用データからモデルの作成を行う。すなわち、本発明は、学習用データからモデルを作成するモデル作成装置であって、モデルを表すパラメータの事前分布としてラプラス分布を仮定し、この事前分布と学習用データから算出されるモデルの尤もらしさ(事後確率)が最大となるように、パラメータを決定することによってモデルを作成する。   In order to achieve the above object, in the present invention, a model is created from learning data by the following means or processing. That is, the present invention is a model creation device that creates a model from learning data, and assumes a Laplace distribution as a prior distribution of parameters representing the model, and the likelihood of the model calculated from the prior distribution and the learning data. A model is created by determining parameters so that (posterior probability) is maximized.

より具体的には、本発明は学習用データからモデルを作成するモデル作成装置であって、学習用データを入力する入力手段と、複数の基底関数の重み付け和として表されるモデルを作成するモデル作成手段とを備える。ここで、モデル作成手段は、基底関数の重み付けを制御する重み付けパラメータの事前分布を、ハイパーパラメータによって制御されるラプラス分布として決定する事前分布決定手段と、重み付けパラメータを決定する重み付けパラメータ決定手段と、を有し、重み付けパラメータおよびハイパーパラメータは、事前分布に基づいて算出される学習用データが与えられたときのモデルの尤もらしさを表すモデルの事後確率が最大となるように決定される。   More specifically, the present invention is a model creation device that creates a model from learning data, and a model that creates an input means for inputting learning data and a model represented as a weighted sum of a plurality of basis functions Creating means. Here, the model creating means includes a prior distribution determining means for determining the prior distribution of the weighting parameter for controlling the weighting of the basis function as a Laplace distribution controlled by the hyperparameter, a weighting parameter determining means for determining the weighting parameter, The weighting parameter and the hyper parameter are determined so that the posterior probability of the model representing the likelihood of the model when learning data calculated based on the prior distribution is given is maximized.

このように、重み付けパラメータの事前分布としてラプラス分布を設定することによって、重み付けパラメータは0を取る確率が高くなる。すなわち、事後確率を最大化することによって得られる重み付けパラメータの多くは0となる。したがって、モデルを決定するために記憶する必要のある学習データの数が少ないモデル、つまり、スパースなモデルを得ることが可能となる。   In this way, by setting the Laplace distribution as the prior distribution of the weighting parameter, the probability that the weighting parameter takes 0 increases. That is, many of the weighting parameters obtained by maximizing the posterior probability are zero. Therefore, it is possible to obtain a model with a small number of learning data that needs to be stored in order to determine a model, that is, a sparse model.

事後確率を最大化するように重み付けパラメータおよびハイパーパラメータを決定する処理は、期待値最大化法によって行われることが好ましい。つまり、重み付けパラメータおよびハイパーパラメータの推定値を決定し、この推定値に基づいて条件付き期待値を算出して、条件付き期待値が最適化されるように重み付けパラメータおよびハイパーパラメータを修正する。そして、修正後の重み付けパラメータおよびハイパーパラメータに基づいて、上記の処理を繰り返し適用する。この繰り返し処理は、所定の収束条件を満たすまで行われることが好ましい。   The process of determining the weighting parameter and the hyper parameter so as to maximize the posterior probability is preferably performed by an expected value maximization method. That is, the estimated values of the weighting parameter and the hyper parameter are determined, the conditional expected value is calculated based on the estimated value, and the weighting parameter and the hyper parameter are corrected so that the conditional expected value is optimized. Then, the above processing is repeatedly applied based on the corrected weighting parameter and hyperparameter. This iterative process is preferably performed until a predetermined convergence condition is satisfied.

また、基底関数の重み付け係数は、重み付けパラメータを変数とする重み付けマッピング関数によって決定されることが好ましい。この際、重み付けマッピング関数は重み付けパラメータに対して、線形であっても非線型であっても良い。特に、本発明に係るモデル作成装置では、非線形な重み付けマッピング関数を用いることができ、したがって柔軟なモデルを作成することが可能となる。なお、非線形な重み付けマッピング関数としては、ステップ関数を用いることも好ましい。   Moreover, it is preferable that the weighting coefficient of the basis function is determined by a weighting mapping function having a weighting parameter as a variable. At this time, the weighting mapping function may be linear or non-linear with respect to the weighting parameter. In particular, the model creation apparatus according to the present invention can use a non-linear weighted mapping function, and thus can create a flexible model. Note that it is also preferable to use a step function as the non-linear weighted mapping function.

なお、本発明の別の態様は、上記のモデル作成装置によって作成されたモデルを用いた識別装置である。すなわち、入力されたデータを識別する識別装置であって、データを入力するデータ入力手段と、上記のモデル作成装置によって作成されたモデルを記憶する記憶手段と、入力されたデータをこのモデルによって識別する識別手段とを有する。   Another aspect of the present invention is an identification device using a model created by the model creation device. That is, an identification device for identifying input data, wherein data input means for inputting data, storage means for storing a model created by the model creation device, and input data are identified by this model Identification means.

上記のモデル作成装置によって作成されるモデルはスパースなモデルであるため、識別装置に必要とされるメモリ容量が少なくて済み、また、識別処理を高速に行うことが可能である。   Since the model created by the model creation device is a sparse model, the memory capacity required for the identification device is small, and the identification process can be performed at high speed.

また、本発明は、上記処理の少なくとも一部を含むモデル作成方法や識別方法、または、かかる方法を実現するためのプログラムとして捉えることもできる。上記手段および処理の各々は可能な限り互いに組み合わせて本発明を構成することができる。   The present invention can also be understood as a model creation method and identification method including at least a part of the above processing, or a program for realizing the method. Each of the above means and processes can be combined with each other as much as possible to constitute the present invention.

本発明によれば、スパースなモデルを作成することが可能となる。   According to the present invention, it is possible to create a sparse model.

以下に図面を参照して、この発明の好適な実施の形態を例示的に詳しく説明する。   Exemplary embodiments of the present invention will be described in detail below with reference to the drawings.

本実施形態は、入力されたデータを識別(分類)する識別装置である。識別装置では、あらかじめ学習によって得られた識別器に、データを入力することでそのデータを識別する。   The present embodiment is an identification device that identifies (classifies) input data. In the identification device, data is identified by inputting the data to a classifier obtained by learning in advance.

以下で説明するモデルは、どのような識別処理に対しても有効である。識別処理としては、例えば、顔画像から男性か女性かを判別する2クラス分類問題、顔画像から年齢層を判別したり、複数の登録者のうちどの顔と合致するか判断(顔認証)したりという多クラス分類問題、顔画像から顔の向きを角度(連続値)で推定する回帰分析があるが、このいずれにも適用可能である。なお、ここでは入力データとして顔画像を例に説明したが、その他の画像データや音声データ、あるいはその他どのようなデータを識別するモデルであっても構わない。   The model described below is effective for any identification process. As the identification processing, for example, a two-class classification problem for determining whether a face image is male or female, an age group is determined from a face image, and which face of a plurality of registrants is matched (face authentication) There is a multi-class classification problem, and regression analysis that estimates the orientation of a face from a face image by an angle (continuous value) is applicable to both. Although a face image has been described as an example of input data here, other image data, audio data, or any other model for identifying data may be used.

以下では、まず識別器の学習方法について説明し、次に学習によって得られた識別器を用いて識別を行う方法について説明する。   Below, the learning method of a discriminator is demonstrated first, and the method of discriminating using the discriminator obtained by learning is demonstrated.

なお、以下で説明する学習処理および識別処理は、汎用のコンピュータ(情報処理装置
)が、プログラムを実行することによって行われる。典型的なコンピュータのハードウェア構成は図1に示す通りである。コンピュータは、入力装置101,メモリ102,CPU(中央演算処理装置)103,出力装置104を備える。また、以下の学習処理および識別処理は分散型のコンピュータや他のどのような形式のコンピュータによって実行されても構わない。
Note that the learning process and the identification process described below are performed by a general-purpose computer (information processing apparatus) executing a program. A typical computer hardware configuration is as shown in FIG. The computer includes an input device 101, a memory 102, a CPU (Central Processing Unit) 103, and an output device 104. The following learning process and identification process may be executed by a distributed computer or any other type of computer.

<学習処理>
[概要]
まず初めに、一般化予測モデルの概要について説明する。図2は、予測モデルの概要を示す図である。モデル202は、入力データ201を受け付けて、この入力データがどのクラスに属するかを示す離散値または連続値の識別結果203を出力する線形な予測モデルであって良い。したがって、モデル202の作成は、モデル作成装置に入力される学習用データセットに基づいて、モデルについて事前分布を生成することによって行われる必要がある。なお、モデル作成装置(学習装置)は、汎用のコンピュータ上においてCPUがプログラムを実行することで、以下の処理を行う。
<Learning process>
[Overview]
First, an outline of the generalized prediction model will be described. FIG. 2 is a diagram showing an outline of the prediction model. The model 202 may be a linear prediction model that receives the input data 201 and outputs a discrete value or continuous value identification result 203 indicating to which class the input data belongs. Therefore, the creation of the model 202 needs to be performed by generating a prior distribution for the model based on the learning data set input to the model creation device. Note that the model creation device (learning device) performs the following processing when the CPU executes a program on a general-purpose computer.

図3は、モデル作成装置の概要を示す図である。前述したように、モデル作成装置302は、数4で示される学習用データセット301を受け取る。

Figure 0005017941
ここで、xはパターンベクトルであり、tは対応するスカラー・ターゲットである。 FIG. 3 is a diagram showing an outline of the model creation device. As described above, the model creation apparatus 302 receives the learning data set 301 expressed by Equation 4.
Figure 0005017941
Where x i is the pattern vector and t i is the corresponding scalar target.

モデル作成装置302は、数5で表されるモデル303を最終的に出力する。なお、モデル作成装置302のより詳細な機能ブロック図を図4に示す。モデル作成装置302は、学習用データの入力を受け付ける学習データ入力部34と、学習用データからモデルを作成するモデル作成部30とから構成される。モデル作成部30は、重み付けパラメータの事前分布を決定する事前分布決定部32と、重み付けパラメータを決定する重み付けパラメータ決定部33と、決定された事前分布・重み付けパラメータ・入力された学習用データに基づいてモデルの事後確率を求める事後確率算出部31とを備える。事前分布決定部32と重み付けパラメータ決定部33は、モデルの事後確率が最大となるように、事前分布および重み付けパラメータを決定する。以下、各処理の詳細について説明する。

Figure 0005017941
The model creation device 302 finally outputs the model 303 expressed by Equation 5. A more detailed functional block diagram of the model creation device 302 is shown in FIG. The model creation apparatus 302 includes a learning data input unit 34 that receives input of learning data, and a model creation unit 30 that creates a model from the learning data. The model creation unit 30 is based on the prior distribution determination unit 32 that determines the prior distribution of the weighting parameter, the weighting parameter determination unit 33 that determines the weighting parameter, the determined prior distribution, the weighting parameter, and the input learning data. And a posterior probability calculating unit 31 for determining the posterior probability of the model. The prior distribution determination unit 32 and the weighting parameter determination unit 33 determine the prior distribution and the weighting parameter so that the posterior probability of the model is maximized. Details of each process will be described below.
Figure 0005017941

[一般化予測モデル]
一般化線形予測モデルにおいては、学習装置の出力は、数6で示すようにいくつかの基底関数K(x,x)の線形重み付け和として表現することができる。

Figure 0005017941
[Generalized prediction model]
In the generalized linear prediction model, the output of the learning device can be expressed as a linear weighted sum of several basis functions K (x i , x) as shown in Equation 6.
Figure 0005017941

s(w)は、基底関数K(x,x)に関連付けられ、重み付けパラメータw(i
=0〜N)によって制御される重み付けマッピング関数であり、さまざまな形態を持つことが可能であるが、最も一般的な形として以下のような2種類の形態がある。

Figure 0005017941
Figure 0005017941
s (w i ) is associated with the basis function K (x i , x) and the weighting parameter w i (i
= 0 to N), and can have various forms. The most common forms include the following two forms.
Figure 0005017941
Figure 0005017941

また、εは、平均値0および偏差σを有する雑音である。   Further, ε is noise having an average value of 0 and a deviation σ.

モデルの学習処理においては、学習用データセットが与えられたときのモデルの尤もらしさが最大となるようにモデルパラメータを決定する。条件付き分布

Figure 0005017941
が、ガウシアンまたは正規形式
Figure 0005017941
であるとする。この場合、学習用データセットの尤度は、次のように表される。
Figure 0005017941
In the model learning process, model parameters are determined so that the likelihood of the model when the learning data set is given is maximized. Conditional distribution
Figure 0005017941
Is Gaussian or canonical form
Figure 0005017941
Suppose that In this case, the likelihood of the learning data set is expressed as follows.
Figure 0005017941

なお、Φは、N×(N+1)の設計マトリクスであり、次の数12で表される内部学習セット・カーネル値から成る。

Figure 0005017941
Note that Φ is an N × (N + 1) design matrix, and includes an internal learning set kernel value expressed by the following equation (12).
Figure 0005017941

wおよびσの最尤推定によると、一般に過学習が生じ、学習データに過剰に依存することになる。そこで、重み付けパラメータに対して次の数13で表される平均が0のラプラス分布を事前分布として定義する。

Figure 0005017941
ここで、||w||1は、
Figure 0005017941
であり、また、αは一様分布のもとで分布したスカラー・ハイパーパラメータである。図5にラプラス分布の例を示した。図5に示す実線のグラフがラプラス分布であり、点線はRVMにおいて事前分布として利用される正規分布(ガウス分布)である。 According to the maximum likelihood estimation of w and σ, overlearning generally occurs and depends excessively on the learning data. Therefore, a Laplace distribution with an average of 0 expressed by the following equation 13 is defined as a prior distribution with respect to the weighting parameter.
Figure 0005017941
Where || w || 1 is
Figure 0005017941
And α is a scalar hyperparameter distributed under a uniform distribution. FIG. 5 shows an example of a Laplace distribution. The solid line graph shown in FIG. 5 is a Laplace distribution, and the dotted line is a normal distribution (Gaussian distribution) used as a prior distribution in the RVM.

事後確率最大化法によれば、最適なパラメータは以下の式によって求められる。

Figure 0005017941
According to the posterior probability maximization method, the optimum parameter is obtained by the following equation.
Figure 0005017941

しかしながら、これらのパラメータは直接数式から求めることはできないので、αを隠れ変数と考えてEMアルゴリズムを用いることによりp(w,σ|t)を最大化する。αを考慮することにより、最大化すべき事後確率は、

Figure 0005017941
となる。これは、ベイズ推定則によって以下のように変形できる。
Figure 0005017941
However, since these parameters cannot be obtained directly from mathematical expressions, p (w, σ 2 | t) is maximized by using EM algorithm with α as a hidden variable. By considering α, the posterior probability to be maximized is
Figure 0005017941
It becomes. This can be modified as follows according to the Bayesian estimation rule.
Figure 0005017941

これを最大化するEMアルゴリズムは、以下のEステップとMステップの2つから構成され、これらのステップを繰り返し適用することで事後確率を最大化する。   The EM algorithm for maximizing this is composed of the following two E steps and M steps, and the posterior probability is maximized by repeatedly applying these steps.

Eステップ:

Figure 0005017941
E step:
Figure 0005017941

Mステップ:

Figure 0005017941
M step:
Figure 0005017941

Eステップは、以下のように計算できる。

Figure 0005017941
The E step can be calculated as follows.
Figure 0005017941

Mステップでは、以下の手続によって、σ(k+1),w(k+1)を求め、Qを最大化する。σ(k+1)は、以下の式によって得ることができる。

Figure 0005017941
In the M step, σ 2 (k + 1) and w (k + 1) are obtained by the following procedure, and Q is maximized. σ 2 (k + 1) can be obtained by the following equation.
Figure 0005017941

w(k+1)は、以下の条件が成立するwを求めることにより推定する。これには共役勾配法などの手法を用いることができる。

Figure 0005017941
w (k + 1) is estimated by obtaining w satisfying the following condition. For this, a technique such as a conjugate gradient method can be used.
Figure 0005017941

異なる重み付けマッピング関数S(w)について、EMアルゴリズムは異なる具体的な形態を有する。ここでは、S(w)=wの場合における、重み付けパラメータwおよび雑音偏差σの最適化の具体的な方法について、以下で図6のフローチャートに基づいて説明する。なお、S(w)=w以外の場合も同様にwおよびσの最適化を行うことができる。   For different weighting mapping functions S (w), the EM algorithm has different specific forms. Here, a specific method for optimizing the weighting parameter w and the noise deviation σ when S (w) = w will be described with reference to the flowchart of FIG. It should be noted that w and σ can be similarly optimized when S (w) = w.

[S0.初期化]
まず、k=0における、パラメータの初期値w(0)およびσ(0)を定める。この初期値は、任意の値を取ることができるが、経験的に妥当な値が分かっている場合にはその値を用いることが好ましい。
[S0. Initialization]
First, initial values w (0) and σ (0) of parameters at k = 0 are determined. Although this initial value can take any value, it is preferable to use this value when a reasonable value is known empirically.

[S1.小さな重み付けパラメータを省略]
次に、重み付けパラメータのうち十分に小さいならば、それらに対応するサンプルを学習セットから削除することができる。すなわち、重み付けパラメータのうち所定の閾値よりも小さい場合には、それに対応するサンプルを学習セットから取り除き、残った学習セットに対応する重み付けパラメータだけからwを再構成する。たとえば、今、m番目の重みwが十分に小さかったとすると、再構成されるwは、以下のようになる。

Figure 0005017941
[S1. Omit small weighting parameters]
Then, if the weighting parameters are sufficiently small, the samples corresponding to them can be deleted from the training set. That is, when the weighting parameter is smaller than a predetermined threshold, the corresponding sample is removed from the learning set, and w is reconstructed from only the weighting parameter corresponding to the remaining learning set. For example, if the m-th weight w m is now sufficiently small, the reconstructed w is as follows.
Figure 0005017941

[S2.モデルパラメータの更新]
S(w)=wの場合には、雑音偏差σは、次式の方法で更新することができる。ここで、Φは、上記のS1において省略したwに対応する列を取り除いて再構成したものである。

Figure 0005017941
[S2. Update model parameters]
When S (w) = w, the noise deviation σ can be updated by the following method. Here, Φ is reconfigured by removing the column corresponding to w omitted in S1.
Figure 0005017941

また、重み付けパラメータwは、以下の式にしたがって更新することができる。

Figure 0005017941
The weighting parameter w can be updated according to the following formula.
Figure 0005017941

[S3.対数事後確率の計算]
次に、上記のようにして更新されたw(k+1)、σ(k+1)に基づいて、Q(k+1)を以下の式にしたがって計算することができる。

Figure 0005017941
[S3. Calculation of log posterior probability]
Next, based on w (k + 1) and σ (k + 1) updated as described above, Q (k + 1) can be calculated according to the following equation.
Figure 0005017941

[S4.収束判定]
事後確率が収束するか否かを判定する。すなわち、|Q(k+1)−Q(k)|が所定の閾値以下であるか否かを判定する。事後確率が収束する場合には、最適化処理を終了し、収束しない場合にはS1へと戻る。
[S4. Convergence judgment]
Determine whether the posterior probability converges. That is, it is determined whether or not | Q (k + 1) −Q (k) | If the posterior probability converges, the optimization process is terminated, and if not converged, the process returns to S1.

このようにして、重み付けパラメータwと雑音偏差σが定められ、したがって、モデルp(t|x)が決定される。なお、重み付けパラメータwはラプラス分布にしたがっているため、wのうちの多くはゼロとなる。すなわち、モデルp(t|x)の決定のために記憶する必要のある基底関数の数が少なくなり、本実施形態に係る学習モデルはスパースである。 In this way, the weighting parameter w and the noise deviation σ are determined, and therefore the model p (t | x) is determined. Since the weighting parameter w i follows a Laplace distribution, many of w i are zero. That is, the number of basis functions that need to be stored for determining the model p (t | x) is reduced, and the learning model according to the present embodiment is sparse.

図7は、本実施形態に係るモデル作成装置によって作成されるモデルのスパースさを説明する図である。図において、各点は学習データを表し、丸で囲まれたものは対応する重み付けパラメータが非ゼロの学習データである。図7(a)はSVMによって作成されたモデルであり、重み付けパラメータが非ゼロの学習データ(SVMにおいてはサポートベクトルと呼ばれる)は88個である。図7(b)はRVMによって作成されたモデルであり、重み付けパラメータが非ゼロの学習データ(RVMにおいてはレリバント・ベクトルと呼ばれる)は4個であり、SVMよりもスパースである。図7(c)は本実施形態に係るモデル作成装置によって作成されたモデルであり、重み付けパラメータが非ゼロの学習データは3個であり、RVMよりもさらにスパースなモデルを作成することができる。なお、SVM,RVM、本実施形態とも使用した学習データは同じものでありその数は300個である。   FIG. 7 is a diagram for explaining the sparseness of a model created by the model creation device according to the present embodiment. In the figure, each point represents learning data, and the circled data is learning data whose corresponding weighting parameter is non-zero. FIG. 7A shows a model created by SVM, and there are 88 learning data with non-zero weighting parameters (called support vectors in SVM). FIG. 7B shows a model created by the RVM. The number of learning data having non-zero weighting parameters (referred to as a relevant vector in the RVM) is four, which is sparser than the SVM. FIG. 7C shows a model created by the model creation apparatus according to the present embodiment. There are three learning data with non-zero weighting parameters, and a model that is sparser than RVM can be created. Note that the learning data used in the SVM, RVM, and this embodiment is the same, and the number thereof is 300.

スパースなモデルを作成することの利点は以下の通りである。まず、重み付けが0である学習データは記憶する必要がないので、モデルを小サイズのランタイム・ライブラリとすることが可能であり、メモリ容量に対する制限の厳しい小型の装置(携帯電話機やPDAなど)にも搭載することが可能となる。また、モデルを用いた識別処理において、計算量が少なくてすむため、高速な識別処理が可能となる。さらに、スパースであればあるほど、学習モデルに対する依存度が低くなることが知られており、未知のサンプルに対する汎化性能が高いモデルとなる。   The advantages of creating a sparse model are: First, since it is not necessary to store learning data with a weight of 0, the model can be made into a small-sized runtime library, and it can be used for small devices (such as mobile phones and PDAs) that have severe restrictions on memory capacity. Can also be installed. Further, in the identification process using the model, the calculation amount is small, so that a high-speed identification process is possible. Furthermore, it is known that the more sparse, the lower the dependence on the learning model, and the model has a higher generalization performance for unknown samples.

上記の説明においては、重み付けマッピング関数としてS(w)=wの線形の重み付けマッピング関数を仮定したが、本実施形態では非線形の重み付けマッピング関数を用いることができる。この場合も、モデルパラメータはEMアルゴリズムによって決定することができる。非線形の重み付けマッピング関数を用いることによって、様々な特徴を有するモデルに対応することができる。また、重み付けマッピング関数として、次式で示されるステップ関数を用いることも好ましい。

Figure 0005017941
In the above description, a linear weighted mapping function of S (w) = w is assumed as the weighted mapping function. However, in this embodiment, a non-linear weighted mapping function can be used. Again, the model parameters can be determined by the EM algorithm. By using a non-linear weighted mapping function, a model having various features can be handled. It is also preferable to use a step function expressed by the following equation as the weighted mapping function.
Figure 0005017941

このようなステップ関数を用いることで、重み付け係数は離散値(例えば、−1,0,+1)となる。重み付け係数を整数に限定することで、重み付け係数が実数を取りうる場合に比較して、コンピュータ上における識別処理を高速に行うことが可能である。   By using such a step function, the weighting coefficient becomes a discrete value (for example, -1, 0, +1). By limiting the weighting coefficient to an integer, it is possible to perform identification processing on a computer at a higher speed than when the weighting coefficient can take a real number.

<識別処理>
識別装置は、モデル作成装置と同様に、図1に示すような汎用のコンピュータによって構成される。識別装置は、入力装置101からデータの入力を受け付け、メモリ102に格納されたモデルに基づいて識別処理を行い、識別結果を出力装置104に出力する。メモリ102に格納されたモデルは、上記で説明した学習処理によって作成されるモデルである。この識別処理は、CPU103が、プログラムを実行することによって実現される。
<Identification process>
The identification device is constituted by a general-purpose computer as shown in FIG. The identification device accepts data input from the input device 101, performs identification processing based on the model stored in the memory 102, and outputs the identification result to the output device 104. The model stored in the memory 102 is a model created by the learning process described above. This identification process is realized by the CPU 103 executing a program.

入力装置101は、例えば、ハードディスク装置などの記録媒体からデータを読み込むための装置であったり、ネットワークを介してデータを取得するためのネットワークインタフェースであったりする。   The input device 101 is, for example, a device for reading data from a recording medium such as a hard disk device, or a network interface for acquiring data via a network.

本実施形態において、モデルの識別結果は連続値として出力されるため、回帰分析を行うことも可能であり、適切な閾値を設定することで2クラス分類や他クラス分類の分類処理を行うことも可能である。   In the present embodiment, the model identification result is output as a continuous value, so it is possible to perform a regression analysis, and it is possible to perform classification processing of two class classification and other class classification by setting an appropriate threshold value. Is possible.

本実施形態に係るモデル作成装置および識別装置のハードウェア構成を示す図である。It is a figure which shows the hardware constitutions of the model creation apparatus and identification apparatus which concern on this embodiment. 本実施形態において作成されるモデルの概要を示す図である。It is a figure which shows the outline | summary of the model produced in this embodiment. 本実施形態に係るモデル作成装置の概要を示す図である。It is a figure which shows the outline | summary of the model production apparatus which concerns on this embodiment. 本実施形態に係るモデル作成装置の機能ブロックを示す図である。It is a figure which shows the functional block of the model production apparatus which concerns on this embodiment. 本実施形態および従来例において使用される事前分布を示す図である。It is a figure which shows the prior distribution used in this embodiment and a prior art example. 本実施形態におけるモデルパラメータを決定する処理の流れを示すフローチャートである。It is a flowchart which shows the flow of the process which determines the model parameter in this embodiment. 本実施形態および従来例において作成されるモデルのスパースさを説明する図である。It is a figure explaining the sparsity of the model created in this embodiment and a prior art example.

符号の説明Explanation of symbols

302 モデル作成装置
30 モデル作成部
31 事後確率算出部
32 事前分布決定部
33 重み付けパラメータ決定部
34 学習データ入力部
302 Model creation device 30 Model creation unit 31 A posteriori probability calculation unit 32 Prior distribution determination unit 33 Weighting parameter determination unit 34 Learning data input unit

Claims (7)

学習用データからモデルを作成するモデル作成装置であって、
学習用データを入力する入力手段と、
複数の基底関数の重み付け和として表されるモデルを作成するモデル作成手段と、
を備え、
前記モデル作成手段は、
前記複数の基底関数の重み付けを制御する重み付けパラメータの事前分布を、ハイパーパラメータによって制御されるラプラス分布として決定する事前分布決定手段と、
前記重み付けパラメータを決定する重み付けパラメータ決定手段と、
を有し、
前記重み付けパラメータおよび前記ハイパーパラメータは、前記事前分布と前記学習用データから算出されるモデルの尤もらしさを表すモデルの事後確率が最大となるように決定され
前記基底関数の重み付け係数は、前記重み付けパラメータを変数とするステップ関数によって決定される、
ことを特徴とするモデル作成装置。
A model creation device for creating a model from learning data,
An input means for inputting learning data;
A model creation means for creating a model expressed as a weighted sum of a plurality of basis functions;
With
The model creation means includes
A prior distribution determining means for determining a prior distribution of weighting parameters for controlling the weighting of the plurality of basis functions as a Laplace distribution controlled by a hyperparameter;
Weighting parameter determining means for determining the weighting parameter;
Have
The weighting parameter and the hyper parameter are determined so that the posterior probability of the model representing the likelihood of the model calculated from the prior distribution and the learning data is maximized ,
The weighting coefficient of the basis function is determined by a step function having the weighting parameter as a variable.
A model creation device characterized by that.
前記重み付けパラメータおよび前記ハイパーパラメータの決定は、期待値最大化法によって行われることを特徴とする請求項に記載のモデル作成装置。 The model creation apparatus according to claim 1 , wherein the weighting parameter and the hyper parameter are determined by an expected value maximization method. 入力されたデータを識別する識別装置であって、
データを入力するデータ入力手段と、
請求項1または2に記載のモデル作成装置によって作成されたモデルを記憶する記憶手段と、
入力されたデータを前記モデルによって識別する識別手段と、
を備える識別装置。
An identification device for identifying input data,
Data input means for inputting data;
Storage means for storing a model created by the model creation apparatus according to claim 1 or 2,
Identifying means for identifying input data by the model;
An identification device comprising:
学習用データからモデルを作成するモデル作成方法であって、
情報処理装置が、
学習用データを取得するステップと、
複数の基底関数の重み付け和として表されるモデルを作成するステップと、
を含み、
前記モデルを作成するステップは、
前記複数の基底関数の重み付けを制御する重み付けパラメータの事前分布を、ハイパーパラメータによって制御されるラプラス分布として決定するステップと、
前記重み付けパラメータを決定するステップと、
を含み、
前記重み付けパラメータおよび前記ハイパーパラメータは、前記事前分布と前記学習用データから算出されるモデルの尤もらしさを表すモデルの事後確率が最大となるように決定され
前記基底関数の重み付け係数は、前記重み付けパラメータを変数とするステップ関数によって決定される、
ことを特徴とするモデル作成方法。
A model creation method for creating a model from learning data,
Information processing device
Acquiring learning data; and
Creating a model represented as a weighted sum of a plurality of basis functions;
Including
The step of creating the model includes
Determining a prior distribution of weighting parameters that control the weighting of the plurality of basis functions as a Laplace distribution controlled by hyperparameters;
Determining the weighting parameters;
Including
The weighting parameter and the hyper parameter are determined so that the posterior probability of the model representing the likelihood of the model calculated from the prior distribution and the learning data is maximized ,
The weighting coefficient of the basis function is determined by a step function having the weighting parameter as a variable.
A model creation method characterized by this.
データを識別する識別方法であって、
請求項に記載のモデル作成方法によって作成されたモデルを有する情報処理装置が、
データを取得するステップと、
前記モデルに基づいて、前記データを識別するステップと、
前記データの識別結果を出力ステップと、
を含む識別方法。
An identification method for identifying data,
An information processing apparatus having a model created by the model creation method according to claim 4 ,
Obtaining data, and
Identifying the data based on the model;
Outputting the identification result of the data;
Identification method including:
学習用データからモデルを作成するためのプログラムであって、
情報処理装置に、
学習用データを取得するステップと、
複数の基底関数の重み付け和として表されるモデルを作成するステップと、
を実行させ、
前記モデルを作成するステップは、
前記複数の基底関数の重み付けを制御する重み付けパラメータの事前分布を、ハイパーパラメータによって制御されるラプラス分布として決定するステップと、
前記重み付けパラメータを決定するステップと、
を含み、
前記重み付けパラメータおよび前記ハイパーパラメータは、前記事前分布と前記学習用データから算出されるモデルの尤もらしさを表すモデルの事後確率が最大となるように決定され
前記基底関数の重み付け係数は、前記重み付けパラメータを変数とするステップ関数によって決定される、
ことを特徴とするプログラム。
A program for creating a model from learning data,
In the information processing device,
Acquiring learning data; and
Creating a model represented as a weighted sum of a plurality of basis functions;
And execute
The step of creating the model includes
Determining a prior distribution of weighting parameters that control the weighting of the plurality of basis functions as a Laplace distribution controlled by hyperparameters;
Determining the weighting parameters;
Including
The weighting parameter and the hyper parameter are determined so that the posterior probability of the model representing the likelihood of the model calculated from the prior distribution and the learning data is maximized ,
The weighting coefficient of the basis function is determined by a step function having the weighting parameter as a variable.
A program characterized by that.
データを識別するためのプログラムであって、
請求項に記載のプログラムによって作成されたモデルを有する情報処理
装置に、
データを取得するステップと、
前記モデルに基づいて、前記データを識別するステップと、
前記データの識別結果を出力ステップと、
を実行させるプログラム。
A program for identifying data,
An information processing apparatus having a model created by the program according to claim 6 ,
Obtaining data, and
Identifying the data based on the model;
Outputting the identification result of the data;
A program that executes
JP2006177102A 2006-06-27 2006-06-27 Model creation device and identification device Expired - Fee Related JP5017941B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006177102A JP5017941B2 (en) 2006-06-27 2006-06-27 Model creation device and identification device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006177102A JP5017941B2 (en) 2006-06-27 2006-06-27 Model creation device and identification device

Publications (2)

Publication Number Publication Date
JP2008009548A JP2008009548A (en) 2008-01-17
JP5017941B2 true JP5017941B2 (en) 2012-09-05

Family

ID=39067737

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006177102A Expired - Fee Related JP5017941B2 (en) 2006-06-27 2006-06-27 Model creation device and identification device

Country Status (1)

Country Link
JP (1) JP5017941B2 (en)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5157848B2 (en) * 2008-11-26 2013-03-06 株式会社リコー Image processing apparatus, image processing method, computer program, and information recording medium
JP5025776B2 (en) * 2010-09-28 2012-09-12 株式会社東芝 Abnormality diagnosis filter generator
JPWO2013187295A1 (en) * 2012-06-13 2016-02-04 ソニー株式会社 Information processing apparatus, information processing method, and program
JP6940184B2 (en) * 2017-10-13 2021-09-22 Necソリューションイノベータ株式会社 Skill estimation device, learning support device, skill estimation method and program
US20210232738A1 (en) * 2018-06-07 2021-07-29 Nec Corporation Analysis device, analysis method, and recording medium
JP7017712B2 (en) 2018-06-07 2022-02-09 日本電気株式会社 Relationship analyzers, relationship analysis methods and programs
JP7451378B2 (en) 2020-11-06 2024-03-18 株式会社東芝 information processing equipment

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07114641A (en) * 1993-10-18 1995-05-02 Fuji Xerox Co Ltd Pattern recognition device
JP2000200256A (en) * 1999-01-06 2000-07-18 Nippon Telegr & Teleph Corp <Ntt> Learning method for recursive neutral network and recording medium where learning program for recursive neural network is recorded
US6633857B1 (en) * 1999-09-04 2003-10-14 Microsoft Corporation Relevance vector machine
JP2001312712A (en) * 2000-04-28 2001-11-09 Japan Science & Technology Corp Non-linear time series prediction method and recording medium with non-linear time series prediction program recorded thereon

Also Published As

Publication number Publication date
JP2008009548A (en) 2008-01-17

Similar Documents

Publication Publication Date Title
Cervantes et al. A comprehensive survey on support vector machine classification: Applications, challenges and trends
Bianco et al. Machine learning in acoustics: Theory and applications
Gönen et al. Multiple kernel learning algorithms
Baştanlar et al. Introduction to machine learning
Sun et al. Local-learning-based feature selection for high-dimensional data analysis
Guyon et al. An introduction to feature extraction
Basak et al. Support vector regression
US20220108157A1 (en) Hardware architecture for introducing activation sparsity in neural network
US7542953B1 (en) Data classification by kernel density shape interpolation of clusters
Chen et al. Laplacian embedded regression for scalable manifold regularization
JP5017941B2 (en) Model creation device and identification device
US8266083B2 (en) Large scale manifold transduction that predicts class labels with a neural network and uses a mean of the class labels
Bi et al. High-dimensional supervised feature selection via optimized kernel mutual information
Gupta et al. Machine learning for healthcare: Introduction
JP5704692B2 (en) Pattern classification device learning device and computer program therefor
Shi et al. Resampling algorithms based on sample concatenation for imbalance learning
US20220108156A1 (en) Hardware architecture for processing data in sparse neural network
Lampert et al. Structured prediction by joint kernel support estimation
JP3868344B2 (en) Text multiple topics extraction method and apparatus, text multiple topics extraction program, and recording medium recording the program
CN111860556A (en) Model processing method and device and storage medium
Camastra et al. Clustering methods
Lai et al. Ensemble quantile classifier
Probst Generative adversarial networks in estimation of distribution algorithms for combinatorial optimization
US20240281649A1 (en) Distillation of deep ensembles
Braga-Neto et al. Classification

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090407

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120214

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120411

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120515

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120528

R150 Certificate of patent or registration of utility model

Ref document number: 5017941

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150622

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees