JP6402607B2 - Information processing apparatus, information processing method, and information processing program - Google Patents

Information processing apparatus, information processing method, and information processing program Download PDF

Info

Publication number
JP6402607B2
JP6402607B2 JP2014241717A JP2014241717A JP6402607B2 JP 6402607 B2 JP6402607 B2 JP 6402607B2 JP 2014241717 A JP2014241717 A JP 2014241717A JP 2014241717 A JP2014241717 A JP 2014241717A JP 6402607 B2 JP6402607 B2 JP 6402607B2
Authority
JP
Japan
Prior art keywords
learning
classification result
case
learning case
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2014241717A
Other languages
Japanese (ja)
Other versions
JP2016103192A (en
Inventor
友哉 岩倉
友哉 岩倉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2014241717A priority Critical patent/JP6402607B2/en
Publication of JP2016103192A publication Critical patent/JP2016103192A/en
Application granted granted Critical
Publication of JP6402607B2 publication Critical patent/JP6402607B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、学習器を用いてモデルを学習する技術に関する。   The present invention relates to a technique for learning a model using a learning device.

ある文献には、繰り返されるラウンド毎に、各学習事例に対する重みを更新して2値で表現される分類結果を出力する弱仮説を複数学習し、これらを統合させたモデル(結合モデル)を学習するブースティング技術が開示されている。この技術によれば、各ラウンドにおいて学習された弱仮説に対する確信度が算出される。最終のモデルは各弱仮説の確信度を基に結合された形で表現される。   In a certain document, for each repeated round, learn multiple weak hypotheses that update the weights for each learning case and output a binary classification result, and learn a model that combines them (combined model) A boosting technique is disclosed. According to this technique, the certainty factor for the weak hypothesis learned in each round is calculated. The final model is expressed in a combined form based on the certainty of each weak hypothesis.

このように、弱仮説が2値で表現される分類結果を出力する分類器を用いて実現される場合には、解析的に確信度を計算することができるので、確信度算出に係る処理負荷は比較的に小さい。   In this way, when the weak hypothesis is realized using a classifier that outputs a classification result expressed in binary, since the certainty factor can be calculated analytically, the processing load related to the certainty factor calculation Is relatively small.

Quinlan, J.R.: C4.5: Programs for Machine Learning. Morgan Kaufmann (1993)Quinlan, J.R .: C4.5: Programs for Machine Learning. Morgan Kaufmann (1993) Rosenblatt, F.: The perceptron: A probabilistic model for information storage and organization in the brain. 65(6) (1958) 386-408Rosenblatt, F .: The perceptron: A probabilistic model for information storage and organization in the brain. 65 (6) (1958) 386-408 Freund, Y., Schapire, R.E.: A decision-theoretic generalization of on-line learning and an application to boosting. Journal of computer and system sciences 55(1) (1997)Freund, Y., Schapire, R.E .: A decision-theoretic generalization of on-line learning and an application to boosting.Journal of computer and system sciences 55 (1) (1997) Schapire, R.E., Singer, Y.: Improved boosting algorithms using confidence-rated predictions. Machine Learning 37(3) (1999) 297-336Schapire, R.E., Singer, Y .: Improved boosting algorithms using confidence-rated predictions. Machine Learning 37 (3) (1999) 297-336

本発明の目的は、一側面では、複数値を含む分類結果を出力する仮説モデルの確信度を算出する処理の負荷を軽減することである。   In one aspect, an object of the present invention is to reduce a processing load for calculating a certainty factor of a hypothesis model that outputs a classification result including a plurality of values.

一態様に係る情報処理装置は、(A)学習事例と当該学習事例に対する、所定の2値のうちのいずれかを示すラベルとを含む複数のセットと、各学習事例に対する係数値とに基づいて、仮説モデルを学習する学習部と、(B)(b1)仮説モデルと各学習事例とに基づき、学習事例毎に上記2値のいずれかに対応する傾向及び当該傾向の程度を示す分類結果を求め、(b2)学習事例のうち、分類結果における上記傾向が、対応するラベルに対応する学習事例を特定し、特定した各学習事例について、対応する係数値と、分類結果における上記程度との積を求め、当該積の第1合計を算出し、(b3)学習事例のうち、分類結果における上記傾向が、対応するラベルに対応しない学習事例を特定し、特定した各学習事例について、対応する係数値と、分類結果における上記程度との積を求め、当該積の第2合計を算出し、(b4)第2合計に対する第1合計の比の対数を、各分類結果における上記程度の絶対値のうちの最大値の2倍の値で除することによって、仮説モデルの確信度を算出する算出部とを含む。   An information processing apparatus according to an aspect is based on (A) a plurality of sets including a learning case and a label indicating one of predetermined two values for the learning case, and a coefficient value for each learning case. Based on the learning unit that learns the hypothesis model, and (B) (b1) the hypothesis model and each learning case, a classification result indicating the tendency corresponding to one of the above two values and the degree of the tendency for each learning case (B2) Among the learning cases, the tendency in the classification result identifies the learning case corresponding to the corresponding label, and for each identified learning case, the product of the corresponding coefficient value and the above degree in the classification result (B3) Among the learning cases, the above-mentioned tendency in the classification result identifies a learning case that does not correspond to the corresponding label, and for each identified learning case, the corresponding relation The product of the value and the above-mentioned degree in the classification result is calculated, and the second sum of the product is calculated. And a calculation unit that calculates the certainty factor of the hypothesis model by dividing by a value that is twice the maximum value.

一側面としては、複数値を含む分類結果を出力する仮説モデルの確信度を算出する処理の負荷を軽減できる。   As one aspect, it is possible to reduce the processing load for calculating the certainty factor of a hypothesis model that outputs a classification result including a plurality of values.

図1は、AdaBoostのメイン処理フローを示す図である。FIG. 1 is a diagram showing a main processing flow of AdaBoost. 図2は、モデル学習装置の機能ブロックを示す図である。FIG. 2 is a diagram illustrating functional blocks of the model learning device. 図3は、モデル学習部の構成を示す図である。FIG. 3 is a diagram illustrating a configuration of the model learning unit. 図4は、モデル学習装置及びモデル適用装置の機能ブロックを示す図である。FIG. 4 is a diagram illustrating functional blocks of the model learning device and the model application device. 図5は、本実施の形態におけるモデル学習処理フローを示す図である。FIG. 5 is a diagram showing a model learning process flow in the present embodiment. 図6は、学習事例データの例を示す図である。FIG. 6 is a diagram illustrating an example of learning case data. 図7は、ラベルデータの例を示す図である。FIG. 7 is a diagram illustrating an example of label data. 図8は、初期状態の結合モデルデータの例を示す図である。FIG. 8 is a diagram illustrating an example of the coupled model data in the initial state. 図9は、第1ラウンドにおける重みデータを示す図である。FIG. 9 is a diagram showing weight data in the first round. 図10は、第1ラウンドにおける弱学習処理の概要を示す図である。FIG. 10 is a diagram showing an overview of weak learning processing in the first round. 図11は、確信度算出処理フローを示す図である。FIG. 11 is a diagram illustrating a certainty factor calculation processing flow. 図12は、第1弱仮説による分類の概要を示す図である。FIG. 12 is a diagram showing an outline of classification based on the first weak hypothesis. 図13は、第1ラウンドにおける確信度算出の概要を示す図である。FIG. 13 is a diagram showing an outline of the certainty factor calculation in the first round. 図14は、第1ラウンドにおける結合モデルの更新の概要を示す図である。FIG. 14 is a diagram showing an outline of the update of the combined model in the first round. 図15は、重み更新処理フローを示す図である。FIG. 15 is a diagram showing a weight update processing flow. 図16は、第1ラウンドにおける重み更新の概要を示す図である。FIG. 16 is a diagram showing an outline of weight update in the first round. 図17は、第2ラウンドにおける弱学習処理の概要を示す図である。FIG. 17 is a diagram showing an outline of weak learning processing in the second round. 図18は、第2弱仮説による分類の概要を示す図である。FIG. 18 is a diagram showing an outline of classification based on the second weak hypothesis. 図19は、第2ラウンドにおける確信度算出の概要を示す図である。FIG. 19 is a diagram showing an outline of certainty calculation in the second round. 図20は、第2ラウンドにおける結合モデルの更新の概要を示す図である。FIG. 20 is a diagram illustrating an outline of the update of the combined model in the second round. 図21は、モデル適用処理フローを示す図である。FIG. 21 is a diagram showing a model application processing flow. 図22は、第1ラウンドにおける結合モデルデータを用いたモデル適用の例を示す図である。FIG. 22 is a diagram illustrating an example of model application using the combined model data in the first round. 図23は、第2ラウンドにおける結合モデルデータを用いたモデル適用の例を示す図である。FIG. 23 is a diagram illustrating an example of model application using the combined model data in the second round. 図24は、コンピュータの機能ブロックを示す図である。FIG. 24 is a diagram illustrating functional blocks of a computer.

まず、ブースティング手法の例として、AdaBoost(非特許文献1,2)について説明する。学習の目的は、与えられた学習事例Xからラベル集合YへのマッピングF:X−>Yを導出することである。この例で、ラベルは{−1,+1}の2値のいずれかを示すものとする。   First, AdaBoost (Non-Patent Documents 1 and 2) will be described as an example of a boosting technique. The purpose of learning is to derive a mapping F: X-> Y from a given learning case X to a label set Y. In this example, it is assumed that the label indicates one of binary values of {−1, +1}.

図1に、AdaBoostのメイン処理フローを示す。学習システムは、学習データSと、ブースティングについての繰り返し回数Tとを受け付ける(S1)。学習データSは、学習事例とラベルとのセットをm個含み、{(x1,y1),...(xm,ym)}と表される。 FIG. 1 shows a main processing flow of AdaBoost. The learning system receives the learning data S and the number of repetitions T for boosting (S1). The learning data S includes m sets of learning examples and labels, and {(x 1 , y 1 ),. . . (X m , y m )}.

i∈Xは、i番目のセットに係る学習事例を表し、yi∈Yは、i番目のセットに係るラベルを表している。繰り返し回数Tは、ブースティングを繰り返す回数である。 x i εX represents a learning case related to the i-th set, and y i εY represents a label related to the i-th set. The number of repetitions T is the number of times boosting is repeated.

学習システムは、学習事例の重み(w1,1,...w1,m)を初期化する(S3)。学習事例の重みw1,iは、学習事例xiの重みである。各学習事例の重みw1,i(1≦i≦m)に、初期値1/mが設定される。つまり、各学習事例の初期重みは、均等とする。 The learning system initializes the weights (w 1,1 ,... W 1, m ) of the learning cases (S3). The learning case weight w 1, i is the weight of the learning case x i . An initial value 1 / m is set to the weight w 1, i (1 ≦ i ≦ m) of each learning case. That is, the initial weight of each learning case is assumed to be equal.

そして、カウンタtに1を設定する(S5)。   Then, 1 is set to the counter t (S5).

学習システムは、弱学習器に弱仮説htを求めさせる(S7)。弱学習器は、上述の学習データSと学習事例の重み(w1,1,...w1,m)を用いて弱仮説htを学習する。例えば決定木学習器(非特許文献1)やパーセプトロン(非特許文献2)などの分類器が、弱学習器として利用される。htは、t回目のラウンドで求めた弱仮説を表している。 Learning system causes seeking weak hypothesis h t the weak learners (S7). Weak learner learns the weak hypothesis h t using the weight of the learning data S and training example described above (w 1,1, ... w 1, m). For example, a classifier such as a decision tree learner (Non-Patent Document 1) or a perceptron (Non-Patent Document 2) is used as a weak learner. h t represents the weak hypothesis obtained in the t-th round.

次に、学習システムは、求めた弱仮説htに対する確信度αtを算出する(S9)。 Next, the learning system calculates a certainty factor α t for the obtained weak hypothesis h t (S9).

更に、学習システムは、次の式に従って、学習事例の重みを更新する(S11)。

Figure 0006402607
Further, the learning system updates the weight of the learning case according to the following formula (S11).
Figure 0006402607

式(1)に含まれるht(xi)は、学習事例xiに対するhによる分類結果であり、eは、ネイピア数である。また、(1)式の分母は、以下のように表される。

Figure 0006402607
そして、(2)式は、以下のような正規化を行うための係数である。
Figure 0006402607
H t included in the formula (1) (x i) is the classification result by h t for training example x i, e is Napier's constant. Further, the denominator of the formula (1) is expressed as follows.
Figure 0006402607
Equation (2) is a coefficient for performing normalization as follows.
Figure 0006402607

学習システムは、カウンタtに1を加え(S13)、カウンタtが繰り返し回数Tを超えたか否かを判定する(S15)。カウンタtが繰り返し回数Tを超えていないと判定した場合には、学習システムは、S7に戻り、上述した一連の処理を繰り返す。   The learning system adds 1 to the counter t (S13), and determines whether the counter t has exceeded the number of repetitions T (S15). If it is determined that the counter t does not exceed the number of repetitions T, the learning system returns to S7 and repeats the series of processes described above.

カウンタtが繰り返し回数Tを超えたと判定した場合には、学習システムは、最終仮説Fを求める(S17)。学習システムは、上述のループ処理により求めたT種類の弱仮説を、以下の式に従って結合することによって、最終仮説Fを求める。

Figure 0006402607
When it is determined that the counter t has exceeded the number of repetitions T, the learning system obtains a final hypothesis F (S17). The learning system obtains the final hypothesis F by combining the T types of weak hypotheses obtained by the loop processing described above according to the following equation.
Figure 0006402607

式中のsignは、入力値が正の場合には+1を返し、それ以外の場合には−1を返す関数である。   Sign in the expression is a function that returns +1 if the input value is positive, and -1 otherwise.

図1では、繰り返し処理を終えた後に弱仮説をまとめて統合する最終仮説Fを算出する手順の例を示したが、図5を用いて後述するように、繰り返し処理においてその都度弱仮説を結合モデルに統合することによって、最終仮説Fを求めるようにしてもよい。   FIG. 1 shows an example of a procedure for calculating a final hypothesis F that integrates weak hypotheses after completing the iterative processing. However, as will be described later with reference to FIG. The final hypothesis F may be obtained by integrating the model.

尚、AdaBoostでは、以下の式に示すように、T種類の弱仮説からなる最終仮説Fにおいて、学習エラーの数に関する上限値が存在することが証明されている。

Figure 0006402607
[[π]] は、ある命題πが成り立つ場合に1となり、ある命題πが成り立たない場合に0となることを意味している。 Note that AdaBoost has proved that there is an upper limit on the number of learning errors in the final hypothesis F consisting of T types of weak hypotheses, as shown in the following equation.
Figure 0006402607
[[π]] means 1 when a proposition π holds, and 0 when a proposition π does not hold.

各ラウンドtにおける弱仮説htに関して以下の式の条件を満たす確信度αtが得られれば、AdaBoostによる学習は収束することが、式(5)によって導かれる。
t(αt)<1 (6)
As long obtained satisfies confidence alpha t the following equation with respect to the weak hypothesis h t in each round t, that learning by AdaBoost converges, guided by the formula (5).
Z tt ) <1 (6)

但し、係数Zt(αt)=1となるラウンドがあったとしても、当該ラウンドは上述した上限値に対して影響を与えない。 However, even if there is a round in which the coefficient Z tt ) = 1, the round does not affect the above-described upper limit value.

続いて、確信度αtを算出する方法について説明する。まず、2値で示される分類結果を出力する分類器(例えば、決定木学習器)を弱学習器として利用する場合における確信度αtの算出方法について説明する。 Next, a method for calculating the certainty factor α t will be described. First, a method for calculating the certainty factor α t when a classifier (for example, a decision tree learner) that outputs a binary classification result is used as a weak learner will be described.

非特許文献4によれば、2値で示される分類結果を出力する分類器を弱学習器として利用する場合には、確信度αtが解析的に算出される。 According to Non-Patent Document 4, when a classifier that outputs a binary classification result is used as a weak learner, the certainty factor α t is analytically calculated.

式(2)に示したZt(αt)のαtによる微分は、以下のように求められる。

Figure 0006402607
The differentiation of Z tt ) shown in Equation (2) by α t is obtained as follows.
Figure 0006402607

そして、Zt(αt)のαtによる微分を0とした場合のαtは以下の式によって求められる。

Figure 0006402607
Then, alpha t in the case of a zero derivative with alpha t the Z t (α t) is determined by the following equation.
Figure 0006402607

尚、対数の底は、eである。

Figure 0006402607
これは、t 番目の弱仮説によって正しい分類が行われた各学習事例xOtに対する重みの合計である。
Figure 0006402607
これは、t 番目の弱仮説によって誤った分類が行われた各学習事例xNtに対する重みの合計である。 The base of the logarithm is e.
Figure 0006402607
This is the sum of the weights for each learning case x Ot correctly classified by the t th weak hypothesis.
Figure 0006402607
This is the sum of the weights for each learning case x Nt that has been incorrectly classified by the t th weak hypothesis.

尚、以下の式に示すように、Otは、学習事例を識別するための1からmまでのIDのうち、t 番目の弱仮説によって正しい分類が行われた学習事例のIDに相当する。

Figure 0006402607
As shown in the following formula, Ot corresponds to the ID of a learning case that is correctly classified by the t-th weak hypothesis among IDs 1 to m for identifying a learning case.
Figure 0006402607

以下の式に示すように、Ntは、学習事例を識別するための1からmまでのIDのうち、t 番目の弱仮説によって誤った分類が行われた学習事例のIDに相当する。

Figure 0006402607
As shown in the following equation, Nt corresponds to the ID of a learning case that is erroneously classified by the t-th weak hypothesis among IDs 1 to m for identifying a learning case.
Figure 0006402607

次に、多値で示される分類結果を出力する分類器(例えば、パーセプトロン)を弱学習器として利用する場合における確信度αtの算出方法について説明する。 Next, a method of calculating the certainty factor α t when a classifier (for example, a perceptron) that outputs a multilevel classification result is used as a weak learner will be described.

上記の非特許文献4の式(11)の計算方法では、多値の実数値で示される分類結果を出力する分類器を利用することを想定していない。   In the calculation method of Equation (11) in Non-Patent Document 4 described above, it is not assumed that a classifier that outputs a classification result represented by a multivalued real value is used.

多値の実数値で示される分類結果を出力する分類器を弱学習器として利用する場合に、式(8)によって確信度αtを求めることは適当でない。仮に式(8)を用いれば、多値が正しく確信度αtに反映されないことになるからである。 When a classifier that outputs a classification result represented by a multi-valued real value is used as a weak learner, it is not appropriate to obtain the certainty factor α t using the equation (8). This is because if the equation (8) is used, the multivalue is not correctly reflected in the certainty factor α t .

解析的算出に代わる次善の方法として、確信度αtを二分法によって求めることが考えられる。二分法によれば、2点で特定される区間に相当する探索範囲を絞り込むことによって解を導く。二分法は既知の技術であるので、二分法による確信度αt算出については簡単な説明に留める。 As a suboptimal method instead of analytical calculation, it is conceivable to obtain the certainty factor α t by the bisection method. According to the bisection method, a solution is derived by narrowing down a search range corresponding to a section specified by two points. Since the bisection method is a known technique, the calculation of the certainty factor α t by the bisection method will be simply described.

非特許文献4において示されている通り、Ztに対する確信度αtによる2階微分は正である。つまり、Zt(αt)のグラフは、下向きに凸型を示す。この例における二分法は、Ztの最小値を試行的に探索することに相当する。 As shown in Non-Patent Document 4, the second-order differentiation by the certainty factor α t with respect to Z t is positive. That is, the graph of Z tt ) shows a downward convex shape. Dichotomy in this example is equivalent to searching a minimum value of Z t trial basis.

しかし、二分法によって確信度αtを求める場合には、処理負荷が大きくなりやすい。 However, when the certainty factor α t is obtained by the bisection method, the processing load tends to increase.

本実施の形態では、処理負荷をより少なくするために、近似的に確信度αtを算出する。以下、式(6)に示した条件を満たす確信度αtを求める近似式について説明する。 In the present embodiment, the certainty factor α t is approximately calculated in order to reduce the processing load. Hereinafter, an approximate expression for obtaining the certainty factor α t that satisfies the condition shown in Expression (6) will be described.

まず、式(2)は、以下のように変換することができる。

Figure 0006402607
First, equation (2) can be converted as follows.
Figure 0006402607

式(11)における第1項は、以下の式に示すように、t番目の弱仮説による分類結果が0となった学習事例の重みの合計である。

Figure 0006402607
The first term in Equation (11) is the total weight of the learning cases in which the classification result based on the t-th weak hypothesis is 0, as shown in the following equation.
Figure 0006402607

式(11)における第2項に含まれるOtは、式(9)を用いて上述した通り、t 番目の弱仮説によって正しい分類が行われた学習事例のIDに相当する。つまり、式(11)における第2項は、t 番目の弱仮説によって正しい分類が行われた学習事例に関する。   Ot included in the second term in Equation (11) corresponds to the ID of the learning case that has been correctly classified by the t-th weak hypothesis, as described above using Equation (9). That is, the second term in Equation (11) relates to a learning case in which correct classification is performed by the t-th weak hypothesis.

また、式(11)における第3項に含まれるNtは、式(10)を用いて上述した通り、t 番目の弱仮説によって誤った分類が行われた学習事例のIDに相当する。つまり、式(11)における第3項は、t 番目の弱仮説によって誤った分類が行われた学習事例に関する。   In addition, Nt included in the third term in Expression (11) corresponds to the ID of the learning case in which classification is erroneously performed by the t-th weak hypothesis, as described above using Expression (10). That is, the third term in Equation (11) relates to a learning case in which an incorrect classification is performed by the t-th weak hypothesis.

尚、式(11)における第2項及び第3項に含まれるUtは、以下の式に示すように、t 番目の弱仮説による各学習事例に対する分類結果の絶対値のうち、最大の値を意味する。

Figure 0006402607
Note that U t included in the second term and the third term in Equation (11) is the maximum value among the absolute values of the classification results for each learning case based on the t-th weak hypothesis, as shown in the following equation. Means.
Figure 0006402607

そして、式(11)における第2項及び第3項に、以下に示すベルヌーイの不等式を適用する。0<xであるならば、0<r≦1である任意のrに関して、以下の不等式が成立することが知られている。
r≦r(x−1)+1
And the Bernoulli inequality shown below is applied to the second term and the third term in the equation (11). It is known that if 0 <x, the following inequality holds for any r where 0 <r ≦ 1.
x r ≦ r (x−1) +1

従って、式(11)における第2項について、以下の不等式が成立する。

Figure 0006402607
Therefore, the following inequality holds for the second term in equation (11).
Figure 0006402607

同様に、式(11)における第3項について、以下の不等式が成立する。

Figure 0006402607
Similarly, the following inequality holds for the third term in equation (11).
Figure 0006402607

式(11)における第2項及び第3項を上述した不等式の右辺に置き換えたZ~ t(αt)(~は、Zの上のハットを意味する。)とZt(αt)との間には、以下の式が成立する。
t(αt)≦Z~ t(αt) (12)
Z ~ tt ) ( ~ means a hat on Z), Z tt ), where the second and third terms in equation (11) are replaced with the right side of the above inequality. The following formula is established between:
Z tt ) ≦ Z ~ tt ) (12)

~ t(αt)は、以下の式で表される。

Figure 0006402607
Z ~ tt ) is expressed by the following equation.
Figure 0006402607

一方、式(3)に示したように、t番目の弱仮説による各学習事例の重みの合計は1であるので、以下の式が成り立つ。

Figure 0006402607
従って、上述したZ~ t(αt)は、以下のように書き換えられる。
Figure 0006402607
On the other hand, as shown in Expression (3), since the total weight of each learning case based on the t-th weak hypothesis is 1, the following expression is established.
Figure 0006402607
Accordingly, the above-described Z ~ tt ) can be rewritten as follows.
Figure 0006402607

そして、Z~ tに対するαtによる微分は、以下の式で表される。

Figure 0006402607
Then, the differentiation by α t with respect to Z ~ t is expressed by the following equation.
Figure 0006402607

よって、Z~ t(αt)に対するαtによる微分が0であるときのαt、つまりZt(αt)が最小値であるときのαtは、以下の式で表せる。

Figure 0006402607
本実施の形態では、この式に従って確信度αtを算出する。 Thus, alpha t the time derivative with alpha t for Z ~ t (α t) is 0, the alpha t of words when Z t (α t) is the minimum value, represented by the following equation.
Figure 0006402607
In the present embodiment, the certainty factor α t is calculated according to this equation.

尚、この式によって確信度αtを算出するようにしても、最終仮説を算出する式(4)は変わらない。 Note that even if the certainty factor α t is calculated using this equation, the equation (4) for calculating the final hypothesis does not change.

次に、各ラウンドtで、式(13)を満たす確信度αtを求めれば、AdaBoostによる学習が収束することを示す。 Next, it is shown that learning by AdaBoost converges if the certainty factor α t satisfying Expression (13) is obtained in each round t.

式(13)で示されたαtをZ~ tに代入することによって、以下の式が求められる。

Figure 0006402607
By substituting α t shown in Expression (13) into Z to t , the following expression is obtained.
Figure 0006402607

この式から、Z~ t(αt)≦1となることがわかる。そして、式(12)を考慮すると、以下のようになる。
t(αt)≦Z~ t(αt)≦1
From this equation, it can be seen that Z ~ tt ) ≦ 1. Then, considering equation (12), the following is obtained.
Z tt ) ≦ Z ~ tt ) ≦ 1

従って、式(13)によって算出される確信度αtは、式(6)に示したZt(αt)<1の条件を満たすか、あるいはZt(αt)=1の条件を満たす。つまり、学習エラーの上限値が低下するか、あるいは維持されるので、少なくともブースティングによって学習エラーの上限値が上昇することはない。 Therefore, the certainty factor α t calculated by the equation (13) satisfies the condition of Z tt ) <1 shown in the equation (6) or the condition of Z tt ) = 1. . In other words, since the upper limit value of the learning error is reduced or maintained, the upper limit value of the learning error is not increased at least by boosting.

以下では、具体的な装置の構成及び動作について説明する。図2に、モデル学習装置の機能ブロックを示す。モデル学習装置は、学習データ(ラベルデータ及び結合モデルデータを含む)などの入力を行うための学習データ入力部101と、学習データ入力部101によって入力された学習データなどを格納する学習データ格納部103と、学習データ格納部103に格納されているデータを用いてモデル学習を行うモデル学習部105とを有する。   Hereinafter, a specific configuration and operation of the apparatus will be described. FIG. 2 shows functional blocks of the model learning device. The model learning device includes a learning data input unit 101 for inputting learning data (including label data and combined model data), and a learning data storage unit for storing learning data input by the learning data input unit 101 103, and a model learning unit 105 that performs model learning using data stored in the learning data storage unit 103.

更に、モデル学習装置は、モデル学習部105における処理に用いられるパラメータを記憶するパラメータ記憶部106と、モデル学習部105で算出する重みデータを格納する重みデータ格納部107と、モデル学習部105で算出する確信度データを格納する確信度格納部108と、モデル学習部105の処理結果であるモデルデータ(例えば、弱仮説データ及び結合モデルデータ)を格納するモデルデータ格納部109とを有する。   Further, the model learning apparatus includes a parameter storage unit 106 that stores parameters used for processing in the model learning unit 105, a weight data storage unit 107 that stores weight data calculated by the model learning unit 105, and a model learning unit 105. A certainty factor storage unit 108 that stores the certainty factor data to be calculated, and a model data storage unit 109 that stores model data (for example, weak hypothesis data and combined model data) that is a processing result of the model learning unit 105 are included.

更に、モデル学習装置は、生成されたモデルデータを適用して分類を行う対象を特定する処理対象データを入力するための対象データ入力部111と、対象データ入力部111によって入力された処理対象データを格納する対象データ格納部113と、モデルデータ格納部109に格納されているモデルデータを、対象データ格納部113に格納されている処理対象データに適用して、分類を行うモデル適用部115と、モデル適用部115の分類結果を格納する分類結果格納部117と、分類結果格納部117に格納されている分類結果を出力する出力部119とを有する。   Further, the model learning device includes a target data input unit 111 for inputting processing target data for specifying a target to be classified by applying the generated model data, and processing target data input by the target data input unit 111. A target data storage unit 113 for storing the model data, and a model application unit 115 for performing classification by applying the model data stored in the model data storage unit 109 to the processing target data stored in the target data storage unit 113. A classification result storage unit 117 that stores the classification result of the model application unit 115, and an output unit 119 that outputs the classification result stored in the classification result storage unit 117.

図3に、モデル学習部の構成を示す。モデル学習部105は、ブースティング部201と弱学習部203とを有する。ブースティング部201は、ブースティング処理を行う。弱学習部203は、弱学習処理を実行する。この例における弱学習部203は、分類結果として多値のスコアを出力するパーセプトロンを分類器として用いる。この例におけるパーセプトロンは、正又は負の実数値をスコアとして出力する。但し、弱学習部203が、他の分類器を用いるようにしてもよい。   FIG. 3 shows the configuration of the model learning unit. The model learning unit 105 includes a boosting unit 201 and a weak learning unit 203. The boosting unit 201 performs a boosting process. The weak learning unit 203 executes weak learning processing. The weak learning unit 203 in this example uses a perceptron that outputs a multi-valued score as a classification result as a classifier. The perceptron in this example outputs a positive or negative real value as a score. However, the weak learning unit 203 may use another classifier.

ブースティング部201は、初期化部205、確信度算出部207、結合モデル更新部209及び重み更新部211を有する。初期化部205は、データの初期化を行う。確信度算出部207は、弱仮説に対する確信度を算出する。結合モデル更新部209は、結合モデルを更新する。重み更新部211は、学習事例の重みを更新する。   The boosting unit 201 includes an initialization unit 205, a certainty factor calculation unit 207, a combined model update unit 209, and a weight update unit 211. The initialization unit 205 initializes data. The certainty factor calculation unit 207 calculates the certainty factor for the weak hypothesis. The combined model update unit 209 updates the combined model. The weight update unit 211 updates the weight of the learning case.

図2に示したモデル学習装置は、モデル学習の処理及びモデル適用の処理を行う。但し、モデル適用の処理を、モデル学習の処理を行った装置とは別の装置によって行うようにしてもよい。   The model learning apparatus shown in FIG. 2 performs model learning processing and model application processing. However, the model application process may be performed by an apparatus different from the apparatus that performed the model learning process.

図4に、モデル学習装置とは別に、モデル適用装置を設ける例を示す。モデル学習装置は、図2に示したモデルデータ格納部109と同様のモデルデータ格納部109aを有する。更に、モデルデータ格納部109aに格納されているモデルデータ(例えば、最終的な結合モデルデータ)を出力する出力部119aを有している。   FIG. 4 shows an example in which a model application device is provided separately from the model learning device. The model learning device has a model data storage unit 109a similar to the model data storage unit 109 shown in FIG. Further, an output unit 119a that outputs model data (for example, final combined model data) stored in the model data storage unit 109a is provided.

一方、モデル適用装置は、モデル学習装置から出力されたモデルデータを受け付ける受付部121を有している。モデル適用装置は、更に受付部121において受け付けたモデルデータを格納するためのモデルデータ格納部109bを有している。モデル適用装置が有する対象データ入力部111乃至分類結果格納部117は、図2におけるモデル学習装置の場合と同様である。また、モデル適用装置は、更に図2におけるモデル学習装置における出力部119と同様の出力部119bを有する。   On the other hand, the model application device includes a reception unit 121 that receives model data output from the model learning device. The model application apparatus further includes a model data storage unit 109b for storing the model data received by the reception unit 121. The target data input unit 111 to the classification result storage unit 117 included in the model application device are the same as those of the model learning device in FIG. The model application apparatus further includes an output unit 119b similar to the output unit 119 in the model learning apparatus in FIG.

上述した学習データ入力部101、モデル学習部105、対象データ入力部111、モデル適用部115、出力部119、ブースティング部201、弱学習部203、初期化部205、確信度算出部207、結合モデル更新部209及び重み更新部211は、ハードウエア資源(例えば、図24)と、以下で述べる処理をプロセッサに実行させるプログラムとを用いて実現される。   Learning data input unit 101, model learning unit 105, target data input unit 111, model application unit 115, output unit 119, boosting unit 201, weak learning unit 203, initialization unit 205, certainty factor calculation unit 207, combination The model update unit 209 and the weight update unit 211 are realized using hardware resources (for example, FIG. 24) and a program that causes a processor to execute the processing described below.

上述した学習データ格納部103、パラメータ記憶部106、重みデータ格納部107、確信度格納部108、モデルデータ格納部109、対象データ格納部113及び分類結果格納部117は、ハードウエア資源(例えば、図24)を用いて実現される。   The learning data storage unit 103, the parameter storage unit 106, the weight data storage unit 107, the certainty degree storage unit 108, the model data storage unit 109, the target data storage unit 113, and the classification result storage unit 117 described above are hardware resources (for example, 24).

次に、図5乃至図20を用いて、本実施の形態におけるモデル学習部105等の処理内容について説明する。   Next, processing contents of the model learning unit 105 and the like in the present embodiment will be described with reference to FIGS.

図5に、本実施の形態におけるモデル学習処理フローを示す。上述したように本実施の形態における確信度算出処理は、従来技術と異なる。   FIG. 5 shows a model learning process flow in the present embodiment. As described above, the certainty factor calculation process in the present embodiment is different from the conventional technique.

まず、学習データ入力部101は、例えばユーザからの指示に従って、学習データSと、繰り返し回数Tとについての入力を受け付ける(S101)。学習データSには、学習事例データ及びラベルデータが含まれる。   First, the learning data input unit 101 accepts input regarding the learning data S and the number of repetitions T, for example, in accordance with an instruction from the user (S101). The learning data S includes learning case data and label data.

図6に、学習事例データ601の例を示す。学習事例データ601は、学習事例IDに対応する素性を含んでいる。この例で、x1で識別される学習事例は、素性a、素性b及び素性cから構成される。同様に、x2で識別される学習事例は、素性a、素性b及び素性dから構成される。x3で識別される学習事例は、素性a及び素性bから構成される。この例における学習事例の数mは、3である。 FIG. 6 shows an example of learning case data 601. The learning case data 601 includes a feature corresponding to the learning case ID. In this example, the learning case identified by x 1 is composed of a feature a, a feature b, and a feature c. Similarly, training example identified by x 2 is composed of a feature a, feature b and feature d. training example identified by x 3 is composed of feature a and feature b. The number m of learning examples in this example is 3.

図7に、ラベルデータ701の例を示す。ラベルIDは、学習事例IDに対応する。y1は、x1に対応する。y2は、x2に対応する。更に、y3は、x3に対応する。そして、ラベルデータ701は、ラベルIDに対応するラベルを含んでいる。この例で、y1で識別されるラベルは、「+1」である。同様に、y2で識別されるラベルは、「−1」である。更に、y3で識別されるラベルは、「+1」である。 FIG. 7 shows an example of label data 701. The label ID corresponds to the learning case ID. y 1 corresponds to x 1 . y 2 corresponds to x 2 . Furthermore, y 3 corresponds to x 3 . The label data 701 includes a label corresponding to the label ID. In this example, the label identified by y 1 is “+1”. Similarly, the label identified by y 2 is “−1”. Furthermore, the label identified by y 3 is “+1”.

学習事例とラベルとをまとめた学習データを用いるようにしてもよい。   You may make it use the learning data which put together the learning example and the label.

初期化部205は、モデルデータ格納部109に初期の結合モデルを設定する(S103)。図8に、初期状態の結合モデルデータ801aの例を示す。結合モデルデータ801は、各素性に対する第3スコアを含んでいる。尚、この例では、3種類のスコアを用いる。第1スコアは、弱仮説データに含まれる。第2スコアは、分類結果データに含まれる。第1スコア及び第2スコアについては、後述する。初期化部205は、各素性に対応する第3スコアに0を設定する。この例では、素性a乃至素性dのそれぞれに対応する第3スコアに0が設定される。   The initialization unit 205 sets an initial combined model in the model data storage unit 109 (S103). FIG. 8 shows an example of the coupled model data 801a in the initial state. The combined model data 801 includes a third score for each feature. In this example, three types of scores are used. The first score is included in the weak hypothesis data. The second score is included in the classification result data. The first score and the second score will be described later. The initialization unit 205 sets 0 to the third score corresponding to each feature. In this example, 0 is set to the third score corresponding to each of the features a to d.

次に、初期化部205は、重みデータ格納部107に格納されている学習事例の重み(w1,1,...w1,m)を初期化する(S105)。具体的には、各重みに、等しく1/mの値が設定される。 Next, the initialization unit 205 initializes the weights (w 1,1 ,... W 1, m ) of the learning cases stored in the weight data storage unit 107 (S105). Specifically, a value of 1 / m is set to each weight equally.

図9に、第1ラウンドにおける重みデータ901aを示す。重みIDは、学習事例IDに対応する。w1,1は、x1に対応する。w1,2は、x2に対応する。更に、w1,3は、x3に対応する。そして、重みデータ901は、重みIDに対応する重みを含んでいる。この例で、w1で識別される重み、w2で識別される重み及びw3で識別される重みには、いずれも「0.33333」が設定されている。 FIG. 9 shows the weight data 901a in the first round. The weight ID corresponds to the learning case ID. w 1,1 corresponds to x 1 . w 1,2 corresponds to x 2 . Furthermore, w 1,3 corresponds to x 3 . The weight data 901 includes a weight corresponding to the weight ID. In this example, “0.33333” is set for each of the weight identified by w 1 , the weight identified by w 2 , and the weight identified by w 3 .

ブースティング部201は、パラメータtに1を設定する(S107)。パラメータtは、S109からS117までのルーチンの実行回数を計数するための変数であり、tによってラウンドを特定する。   The boosting unit 201 sets 1 to the parameter t (S107). The parameter t is a variable for counting the number of executions of the routine from S109 to S117, and the round is specified by t.

そして、弱学習部203は、弱学習処理を実行する(S109)。この例における弱学習処理では、分類器としてパーセプトロンを用いる。この例では、パーセプトロンの学習は、1度だけの繰り返しとする。   The weak learning unit 203 executes weak learning processing (S109). In the weak learning process in this example, a perceptron is used as a classifier. In this example, perceptron learning is repeated only once.

図10に、第1ラウンドにおける弱学習処理の概要を示す。図10は、上述した学習事例データ601、ラベルデータ701及び第1ラウンドにおける重みデータ901aを用いて弱学習処理を行った結果、弱仮説データ1001aが生成された様子を示している。   FIG. 10 shows an overview of weak learning processing in the first round. FIG. 10 shows how weak hypothesis data 1001a is generated as a result of performing weak learning processing using the above-described learning case data 601, label data 701, and weight data 901a in the first round.

第1ラウンドで生成された弱仮説を、第1弱仮説という。弱仮説データ1001aは、第1弱仮説のデータである。弱仮説データ1001は、各素性に対する第1スコアを含んでいる。正の値である第1スコアは、当該素性を含む学習事例のラベルが「+1」である傾向があることを示している。負の値である第1スコアは、当該素性を含む学習事例のラベルが「−1」である傾向があることを示している。   The weak hypothesis generated in the first round is referred to as the first weak hypothesis. The weak hypothesis data 1001a is data of the first weak hypothesis. The weak hypothesis data 1001 includes a first score for each feature. The first score that is a positive value indicates that the label of the learning case including the feature tends to be “+1”. The first score which is a negative value indicates that the label of the learning case including the feature tends to be “−1”.

事例の重みを用いたモデル更新部分以外は、従来技術と同様であるので、パーセプトロンを用いた弱学習処理の詳細については省略する。   The details other than the model update portion using the case weights are the same as those in the prior art, and the details of the weak learning processing using the perceptron will be omitted.

確信度算出部207は、確信度算出処理を実行する(S111)。確信度算出処理において、確信度算出部207は、上述した式(13)に従って確信度αtを算出する。 The certainty factor calculation unit 207 executes a certainty factor calculation process (S111). In the certainty factor calculation process, the certainty factor calculation unit 207 calculates the certainty factor α t according to the above-described equation (13).

図11に、確信度算出処理フローを示す。確信度算出部207は、まず、S109において求めた弱仮説による分類処理を実行する(S201)。   FIG. 11 shows a certainty factor calculation processing flow. The certainty factor calculation unit 207 first executes classification processing based on the weak hypothesis obtained in S109 (S201).

図12に、第1弱仮説による分類の概要を示す。学習事例データ601に含まれる各学習事例について第1弱仮説に係る弱仮説データ1001aを適用した分類が行われ、分類結果が得られる。分類結果データ1201aは、第1弱仮説による分類結果を示している。この例では、分類結果に対する評価が付されている。分類結果とラベルとの正負が一致する場合に、「正しい」と評価される。他方、分類結果とラベルとの正負が一致しない場合に、「誤り」と評価される。つまり、分類結果がラベルと合致する傾向を示す場合に「正しい」と評価され、分類結果がラベルと合致しない傾向を示す場合に「誤り」と評価される。   FIG. 12 shows an overview of classification based on the first weak hypothesis. For each learning case included in the learning case data 601, classification is performed by applying the weak hypothesis data 1001a related to the first weak hypothesis, and a classification result is obtained. The classification result data 1201a indicates the classification result based on the first weak hypothesis. In this example, the classification result is evaluated. When the classification result and the label have the same sign, it is evaluated as “correct”. On the other hand, if the classification result and the label do not coincide with each other, it is evaluated as “error”. That is, it is evaluated as “correct” when the classification result shows a tendency to match the label, and is evaluated as “error” when the classification result shows a tendency not to match the label.

各学習事例に対する分類結果は、第2スコアとして得られる。この例で、学習事例x1に対して第1弱仮説を適用した分類結果である第2スコアh1(x1)は、「1」であり、その評価は「正しい」である。同様に、学習事例x2に対して第1弱仮説を適用した分類結果である第2スコアh1(x2)は、「0.33333」であり、その評価は「誤り」である。更に、学習事例x3に対して第1弱仮説を適用した分類結果である第2スコアh1(x3)は、「0.66667」であり、その評価は「正しい」である。 The classification result for each learning case is obtained as the second score. In this example, the second score h 1 (x 1 ), which is the classification result obtained by applying the first weak hypothesis to the learning example x 1 , is “1”, and the evaluation is “correct”. Similarly, the second score h 1 (x 2 ), which is a classification result obtained by applying the first weak hypothesis to the learning case x 2 , is “0.33333”, and the evaluation is “error”. Furthermore, the second score h 1 (x 3 ), which is the classification result obtained by applying the first weak hypothesis to the learning case x 3 , is “0.66667”, and the evaluation is “correct”.

この例では、説明に資するために評価を分類結果に付したが、評価は省略するようにしてもよい。   In this example, evaluation is given to the classification result for the purpose of explanation, but the evaluation may be omitted.

確信度算出部207は、分類結果である第2スコアの絶対値のうち最大の値Utを求める(S203)。図12に示した分類結果データ1201aの例では、第2スコアh1(x3)の絶対値「1」が、最大値Utに相当する。 Confidence factor computing unit 207 obtains the maximum value U t of the absolute value of the second score is a classification result (S203). In the example of the classification result data 1201a illustrated in FIG. 12, the absolute value “1” of the second score h 1 (x 3 ) corresponds to the maximum value U t .

確信度算出部207は、パラメータiに1を設定する(S205)。パラメータiは、S207からS215までのルーチンの実行回数を計数するための変数であり、iによって学習事例を特定する。   The certainty factor calculation unit 207 sets the parameter i to 1 (S205). The parameter i is a variable for counting the number of executions of the routine from S207 to S215, and the learning case is specified by i.

確信度算出部207は、パラメータiによって特定されるラベルyiに分類結果ht(xi)を乗じた値が正であるか否かを判定する(S207)。当該値が正であることは、分類結果ht(xi)の評価が「正しい」であることに相当する。 The certainty factor calculation unit 207 determines whether the value obtained by multiplying the label y i specified by the parameter i by the classification result h t (x i ) is positive (S207). The positive value corresponds to the evaluation of the classification result h t (x i ) being “correct”.

ラベルyiに分類結果ht(xi)を乗じた値が正であると判定した場合には、パラメータt及びパラメータiによって特定される重みwt,iに分類結果ht(xi)の絶対値を乗じた値を、正に関する総和を算出するためのパラメータに加算する(S209)。そして、S215の処理に移る。 Label y i to the classification result when the value obtained by multiplying h t (x i) is determined to be positive, the parameter t and weights w t specified by the parameter i, the classification result to the i h t (x i) A value obtained by multiplying the absolute value of is added to the parameter for calculating the sum of positive values (S209). Then, the process proceeds to S215.

一方、ラベルyiに分類結果ht(xi)を乗じた値が正ではないと判定した場合には、確信度算出部207は、当該値が負であるか否かを判定する(S211)。当該値が負であることは、分類結果ht(xi)の評価が「誤り」であることに相当する。 On the other hand, when it is determined that the value obtained by multiplying the label y i by the classification result h t (x i ) is not positive, the certainty factor calculation unit 207 determines whether or not the value is negative (S211). ). The negative value corresponds to the evaluation of the classification result h t (x i ) being “error”.

ラベルyiに分類結果ht(xi)を乗じた値が負であると判定した場合には、パラメータt及びパラメータiによって特定される重みwt,iに分類結果ht(xi)の絶対値を乗じた値を、負に関する総和を算出するためのパラメータに加算する(S213)。そして、S215の処理に移る。 Label y i to the classification result when the value obtained by multiplying h t (x i) is determined to be negative, the parameter t and weights w t specified by the parameter i, the classification result to the i h t (x i) A value obtained by multiplying the absolute value of is added to the parameter for calculating the total sum relating to negative (S213). Then, the process proceeds to S215.

一方、ラベルyiに分類結果ht(xi)を乗じた値が負ではないと判定した場合、つまり当該値が0である場合には、そのままS215の処理に移る。 On the other hand, if it is determined that the value obtained by multiplying the label y i by the classification result h t (x i ) is not negative, that is, if the value is 0, the process proceeds to S215 as it is.

確信度算出部207は、パラメータiに1を加え(S215)、パラメータiが学習事例の数mを超えたか否かを判定する(S217)。パラメータiが学習事例の数mを超えていないと判定した場合には、S207へ戻り一連の処理を繰り返す。   The certainty factor calculation unit 207 adds 1 to the parameter i (S215), and determines whether the parameter i exceeds the number m of learning cases (S217). If it is determined that the parameter i does not exceed the number m of learning cases, the process returns to S207 and a series of processing is repeated.

パラメータiが学習事例の数mを超えたと判定した場合には、確信度算出部207は、(正に関する総和/負に関する総和)の対数を求める(S219)。そして、確信度算出部207は、求めた対数に1/(2×Ut)を乗ずる(S221)。その結果、第t仮説に対する確信度αtが得られる。第t仮説に対する確信度αtは、確信度格納部108に格納される。 When it is determined that the parameter i has exceeded the number m of learning examples, the certainty factor calculation unit 207 obtains the logarithm of (total for positive / total for negative) (S219). Then, the certainty factor calculation unit 207 multiplies the obtained logarithm by 1 / (2 × U t ) (S221). As a result, a certainty factor α t for the t-th hypothesis is obtained. The certainty factor α t for the t-th hypothesis is stored in the certainty factor storage unit 108.

図13に、第1ラウンドにおける確信度算出の概要を示す。この例で、正に関する総和は、0.33333×1+0.33333×0.66667である。また、負に関する総和は、0.33333×0.33333である。そして、第1弱仮説に対する確信度α1が、「0.80472」となる。 FIG. 13 shows an outline of the certainty factor calculation in the first round. In this example, the sum for positive is 0.33333 × 1 + 0.33333 × 0.666667. Moreover, the sum total regarding negative is 0.33333 * 0.33333. The certainty factor α 1 for the first weak hypothesis is “0.80472”.

確信度算出処理を終えると、図5に示したS113の処理に戻る。結合モデル更新部209は、前回のラウンドにおける結合モデルデータ801、今回のラウンドで求めた弱仮説データ1001及び確信度αtに基づいて、今回のラウンドにおける結合モデルデータ801を算出する(S113)。具体的には、各素性について、今回の弱仮説データ1001の第1スコアに確信度αtを乗じた値を、前回のラウンドにおける結合モデルデータ801の第3スコアに加える。そして、求められた和を今回のラウンドにおける結合モデルの第3スコアに設定する。 When the certainty calculation process is completed, the process returns to the process of S113 shown in FIG. The combined model update unit 209 calculates the combined model data 801 in the current round based on the combined model data 801 in the previous round, the weak hypothesis data 1001 obtained in the current round, and the certainty factor α t (S113). Specifically, for each feature, a value obtained by multiplying the first score of the current weak hypothesis data 1001 by the certainty factor α t is added to the third score of the combined model data 801 in the previous round. Then, the obtained sum is set as the third score of the combined model in the current round.

図14に、第1ラウンドにおける結合モデルの更新の概要を示す。第1ラウンドにおける結合モデルデータ801bの素性aに対する第3スコア「0.26824」は、0.80472×0.33333+0によって求められる。同様に、素性bに対する第3スコア「0.26824」は、0.80472×0.33333+0によって求められる。同様に、素性cに対する第3スコア「0.26824」は、0.80472×0.33333+0によって求められる。更に、素性dに対する第3スコア「−0.26824」は、0.80472×(−0.33333)+0によって求められる。   FIG. 14 shows an outline of the update of the combined model in the first round. The third score “0.26824” for the feature a of the combined model data 801b in the first round is obtained by 0.80472 × 0.333333 + 0. Similarly, the third score “0.26824” for the feature b is obtained by 0.80472 × 0.33333 + 0. Similarly, the third score “0.26824” for the feature c is obtained by 0.80472 × 0.33333 + 0. Further, the third score “−0.26824” for the feature d is obtained by 0.80472 × (−0.33333) +0.

続いて、重み更新部211は、重み更新処理を実行する(S115)。重み更新処理において、重み更新部211は、重みデータ格納部107に格納されている重みデータ901を更新する。   Subsequently, the weight update unit 211 executes a weight update process (S115). In the weight update process, the weight update unit 211 updates the weight data 901 stored in the weight data storage unit 107.

図15に、重み更新処理フローを示す。重み更新部211は、上述した式(2)に従って、正規化のための係数Zt(αt)を算出する(S301)。重み更新部211は、パラメータiに1を設定する(S303)。パラメータiは、S305及びS307までのルーチンの実行回数を計数するための変数であり、iによって学習事例を特定する。 FIG. 15 shows a weight update processing flow. The weight update unit 211 calculates a coefficient Z tt ) for normalization according to the above-described equation (2) (S301). The weight update unit 211 sets 1 to the parameter i (S303). The parameter i is a variable for counting the number of executions of the routines up to S305 and S307, and the learning case is specified by i.

重み更新部211は、上述した式(1)に従って、次の重みwt+1,iを算出する(S305)。 The weight update unit 211 calculates the next weight w t + 1, i according to the above-described equation (1) (S305).

重み更新部211は、パラメータiに1を加え(S307)、パラメータiが学習事例の数mを超えたか否かを判定する(S309)。パラメータiが学習事例の数mを超えていないと判定した場合には、S305へ戻り上述した処理を繰り返す。   The weight updating unit 211 adds 1 to the parameter i (S307), and determines whether the parameter i exceeds the number m of learning cases (S309). If it is determined that the parameter i does not exceed the number m of learning cases, the process returns to S305 and the above-described processing is repeated.

パラメータiが学習事例の数mを超えたと判定した場合には、重み更新処理を終え、図5に示したS117の処理に戻る。   If it is determined that the parameter i has exceeded the number m of learning cases, the weight update process is terminated, and the process returns to S117 shown in FIG.

図16に、第1ラウンドにおける重み更新の概要を示す。図16は、第1弱仮説による分類結果データ1201aと、ラベルデータ701と、第1ラウンドにおける重みデータ901aと、第1弱仮説に対する確信度α1とに基づいて、第2ラウンドにおける重みデータ901bが生成される様子を示している。 FIG. 16 shows an outline of weight update in the first round. 16, the classification result data 1201a according to the first weak hypothesis, a label data 701, the weight data 901a in the first round, based on the confidence alpha 1 for the first weak hypothesis, weight data 901b in the second round Is shown.

「正しい」の評価を得た学習事例x1に対応する重みは、「0.33333」から「0.19114」へ減っている。同様に、学習事例x3に対応する重みも、「0.33333」から「0.24995」へ減っている。一方、「誤り」の評価を得た学習事例x2に対応する重みは、「0.33333」から「0.55891」へ増えている。このように「正しい」の評価を得た学習事例に対する重みを減らし、「誤り」の評価を得た学習事例に対する重みを増やすことによって、次の弱学習処理において修正された弱仮説が得られるようになる。 The weight corresponding to the learning example x 1 that has obtained the “correct” evaluation is reduced from “0.33333” to “0.19114”. Similarly, the weight corresponding to the learning example x 3 is also decreased from “0.33333” to “0.24995”. On the other hand, the weight corresponding to the learning example x 2 that has been evaluated as “error” has increased from “0.33333” to “0.55891”. In this way, by reducing the weight for learning cases that have obtained a “correct” evaluation and increasing the weight for learning cases that have received an “error” evaluation, it is possible to obtain a weak hypothesis that is corrected in the next weak learning process. become.

図5の説明に戻る。ブースティング部201は、パラメータtに1を加える(S117)。そして、ブースティング部201は、パラメータtが繰り返し回数Tを超えたか否かを判定する(S119)。パラメータtが繰り返し回数Tを超えていないと判定した場合には、S109に戻って一連の処理を繰り返す。パラメータtが繰り返し回数Tを超えたと判定した場合には、図4に示したモデル適用装置の出力部119bは、最後的な結合モデルデータ801を出力する(S121)。図2に示したモデル学習装置の場合には、S121の処理を省くようにしてもよい。   Returning to the description of FIG. The boosting unit 201 adds 1 to the parameter t (S117). Then, the boosting unit 201 determines whether or not the parameter t has exceeded the number of repetitions T (S119). If it is determined that the parameter t does not exceed the number of repetitions T, the process returns to S109 and a series of processing is repeated. When it is determined that the parameter t exceeds the number of repetitions T, the output unit 119b of the model application apparatus illustrated in FIG. 4 outputs the final combined model data 801 (S121). In the case of the model learning apparatus shown in FIG. 2, the process of S121 may be omitted.

図17乃至図21に、第2ラウンドにおける処理の概要を示す。まず、図17に、第2ラウンドにおける弱学習処理の概要を示す。第2ラウンドでは、第1ラウンドで更新された重みデータ901bに基づいて、弱学習処理が行われる。   17 to 21 show an outline of processing in the second round. First, FIG. 17 shows an outline of weak learning processing in the second round. In the second round, weak learning processing is performed based on the weight data 901b updated in the first round.

第1ラウンドで生成された弱仮説を、第2弱仮説という。弱仮説データ1001bは、第2弱仮説のデータである。   The weak hypothesis generated in the first round is referred to as the second weak hypothesis. The weak hypothesis data 1001b is data of the second weak hypothesis.

図18に、第2弱仮説による分類の概要を示す。第2ラウンドでは、第2弱仮説に係る弱仮説データ1001bを適用した分類が行われ、分類結果が得られる。分類結果データ1201bは、第2弱仮説による分類結果を示している。第2ラウンドでは、学習事例x2に対する評価が「正しい」に変わっている。 FIG. 18 shows an overview of classification based on the second weak hypothesis. In the second round, classification using the weak hypothesis data 1001b related to the second weak hypothesis is performed, and a classification result is obtained. The classification result data 1201b indicates the classification result based on the second weak hypothesis. In the second round, the evaluation for the learning example x 2 is changed to “correct”.

図19に、第2ラウンドにおける確信度算出の概要を示す。第2弱仮説に対するα2は「1.18647」であり、第1弱仮説に対する確信度α1よりも大きい。 FIG. 19 shows an outline of the certainty factor calculation in the second round. Α 2 for the second weak hypothesis is “1.18647”, which is larger than the certainty factor α 1 for the first weak hypothesis.

図20に、第2ラウンドにおける結合モデルの更新の概要を示す。図20は、第2弱仮説に係る弱仮説データ1001bと、第2弱仮説に対するα2と基づいて、第1ラウンドにおける結合モデルデータ801bが第2ラウンドにおける結合モデルデータ801cに更新される様子を示している。 FIG. 20 shows an outline of the update of the combined model in the second round. FIG. 20 shows how the combined model data 801b in the first round is updated to the combined model data 801c in the second round based on the weak hypothesis data 1001b related to the second weak hypothesis and α 2 for the second weak hypothesis. Show.

最後に、モデル適用部115におけるモデル適用処理について説明する。図21に、モデル適用処理フローを示す。   Finally, the model application process in the model application unit 115 will be described. FIG. 21 shows a model application processing flow.

対象データ入力部111は、処理対象データを入力する(S401)。処理対象データは、対象データ格納部113に格納される。処理対象データは、学習事例データ601と同様に素性の組み合わせを含む。学習事例データ601に含まれる学習事例における素性の組み合わせ以外の未知の組み合わせを処理対象としてもよい。   The target data input unit 111 inputs processing target data (S401). The processing target data is stored in the target data storage unit 113. The processing target data includes a combination of features as in the learning case data 601. An unknown combination other than the combination of features in the learning case included in the learning case data 601 may be processed.

モデル適用部115は、結合モデルによる分類処理を実行する(S403)。つまり、モデル学習によって生成された結合モデルデータ801を用いて分類器による分類が行われる。分類結果は、分類結果格納部117に格納される。そして、出力部119は、分類結果格納部117に格納されている分類結果を出力する(S405)。   The model application unit 115 executes classification processing based on the combined model (S403). That is, classification by the classifier is performed using the combined model data 801 generated by model learning. The classification result is stored in the classification result storage unit 117. Then, the output unit 119 outputs the classification result stored in the classification result storage unit 117 (S405).

多くの場合には、最終的に生成された結合モデルデータ801が用いられる。但し、以下では、上述した第1ラウンドにおける結合モデルデータ801bと第2ラウンドにおける結合モデルデータ801cとの適性を比較するために、これらの結合モデルデータ801b及び801cを用いたモデル適用の例を示す。   In many cases, the finally generated combined model data 801 is used. However, in the following, in order to compare the suitability of the combined model data 801b in the first round and the combined model data 801c in the second round, an example of model application using the combined model data 801b and 801c is shown. .

また、多くの場合には、学習事例における素性の組み合わせ以外の未知の組み合わせを処理対象とするが、以下では、改善の様子を説明しやすくするために、学習事例における組み合わせと同じ組み合わせを処理対象とする。   In many cases, unknown combinations other than the combination of features in the learning case are processed, but in the following, the same combination as the combination in the learning case is processed to make it easier to explain the improvement. And

図22に、第1ラウンドにおける結合モデルデータ801bを用いたモデル適用の例を示す。処理対象データ2201に含まれる処理対象x11における素性の組み合わせは、学習事例x1に係る素性の組み合わせと同様である。従って、処理対象x11は、ラベル「+1」に分類されるべきである。同じく処理対象x12における素性の組み合わせは、学習事例x2に係る素性の組み合わせと同様である。従って、処理対象x12は、ラベル「−1」に分類されるべきである。更に、処理対象x13における素性の組み合わせは、学習事例x3に係る素性の組み合わせと同様である。従って、処理対象x13は、ラベル「+1」に分類されるべきである。 FIG. 22 shows an example of model application using the combined model data 801b in the first round. The combination of features in the processing target x 11 included in the processing target data 2201 is the same as the combination of features related to the learning example x 1 . Therefore, the processing target x 11 should be classified into the label “+1”. Similarly, the combination of features in the processing target x 12 is the same as the combination of features related to the learning example x 2 . Therefore, the processing target x 12 should be classified into the label “−1”. Further, the combination of features in the processing target x 13 is the same as the combination of features related to the learning example x 3 . Therefore, the processing target x 13 should be classified into the label “+1”.

処理対象x11に対する分類結果である第2スコアH1(x11)は、分類されるべきラベルと同様に正である。従って、評価は「正しい」である。また、処理対象x13に対する分類結果である第2スコアH1(x13)も、分類されるべきラベルと同様に正である。従って、評価は「正しい」である。一方、処理対象x12に対する分類結果である第2スコアH1(x12)は、期待される負の値になっていない。従って、評価は「誤り」である。つまり、処理対象うち1つは正しく分類されていない。 The second score H 1 (x 11 ), which is the classification result for the processing target x 11 , is positive as is the label to be classified. Therefore, the evaluation is “correct”. Further, the second score H 1 (x 13 ), which is the classification result for the processing target x 13 , is also positive like the label to be classified. Therefore, the evaluation is “correct”. On the other hand, the second score H 1 (x 12 ), which is the classification result for the processing target x 12, is not an expected negative value. Therefore, the evaluation is “error”. That is, one of the processing targets is not correctly classified.

図23に、第2ラウンドにおける結合モデルデータ801cを用いたモデル適用の例を示す。処理対象データ2201は、図22の場合と同様である。第2ラウンドにおける結合モデルデータ801cを用いた場合には、処理対象x11乃至処理対象x13に対する分類結果に対する評価が「正しい」である。つまり、処理対象が残らず正しく分類されている。この例は、ラウンドが増すと結合モデルの適性が高まることを示している。 FIG. 23 shows an example of model application using the combined model data 801c in the second round. The processing target data 2201 is the same as in the case of FIG. When using a binding model data 801c in the second round, evaluation of the classification results for the processed x 11 to be processed x 13 is "correct". In other words, all the processing objects remain and are correctly classified. This example shows that the suitability of the combined model increases with increasing rounds.

本実施の形態によれば、ラベルが示す所定の2値のいずれかに合致する傾向(この例では、第2スコアにおける正又は負の別)とその傾向の程度(この例では、第2スコアの絶対値)を示す分類結果(この例では、第2スコア)を求める弱仮説の確信度を算出する処理の負荷を軽減できる。   According to the present embodiment, the tendency (in this example, positive or negative in the second score) that matches one of the predetermined two values indicated by the label and the degree of the tendency (in this example, the second score) ) (The absolute value of the second hypothesis) can be reduced.

更に、ラベルが示す所定の2値のいずれかに合致する傾向とその傾向の程度を示す分類結果を求める弱仮説を結合させるブースティングにおける学習の収束性を担保できる。   Furthermore, it is possible to secure the convergence of learning in boosting in which a tendency that matches one of the predetermined two values indicated by the label and a weak hypothesis for obtaining a classification result indicating the degree of the tendency are combined.

以上本発明の一実施の形態を説明したが、本発明はこれに限定されるものではない。例えば、上述の機能ブロック構成はプログラムモジュール構成に一致しない場合もある。   Although one embodiment of the present invention has been described above, the present invention is not limited to this. For example, the functional block configuration described above may not match the program module configuration.

また、上で説明した各記憶領域の構成は一例であって、上記のような構成でなければならないわけではない。さらに、処理フローにおいても、処理結果が変わらなければ、処理の順番を入れ替えることや複数の処理を並列に実行させるようにしても良い。   Further, the configuration of each storage area described above is an example, and the above configuration is not necessarily required. Further, in the processing flow, if the processing result does not change, the processing order may be changed or a plurality of processes may be executed in parallel.

なお、上で述べたモデル学習装置は、コンピュータ装置であって、図24に示すように、メモリ2501とCPU(Central Processing Unit)2503とハードディスク・ドライブ(HDD:Hard Disk Drive)2505と表示装置2509に接続される表示制御部2507とリムーバブル・ディスク2511用のドライブ装置2513と入力装置2515とネットワークに接続するための通信制御部2517とがバス2519で接続されている。オペレーティング・システム(OS:Operating System)及び本実施例における処理を実施するためのアプリケーション・プログラムは、HDD2505に格納されており、CPU2503により実行される際にはHDD2505からメモリ2501に読み出される。CPU2503は、アプリケーション・プログラムの処理内容に応じて表示制御部2507、通信制御部2517、ドライブ装置2513を制御して、所定の動作を行わせる。また、処理途中のデータについては、主としてメモリ2501に格納されるが、HDD2505に格納されるようにしてもよい。本発明の実施例では、上で述べた処理を実施するためのアプリケーション・プログラムはコンピュータ読み取り可能なリムーバブル・ディスク2511に格納されて頒布され、ドライブ装置2513からHDD2505にインストールされる。インターネットなどのネットワーク及び通信制御部2517を経由して、HDD2505にインストールされる場合もある。このようなコンピュータ装置は、上で述べたCPU2503、メモリ2501などのハードウエアとOS及びアプリケーション・プログラムなどのプログラムとが有機的に協働することにより、上で述べたような各種機能を実現する。   The model learning device described above is a computer device, and as shown in FIG. 24, a memory 2501, a CPU (Central Processing Unit) 2503, a hard disk drive (HDD: Hard Disk Drive) 2505, and a display device 2509. A display control unit 2507 connected to the computer, a drive device 2513 for a removable disk 2511, an input device 2515, and a communication control unit 2517 for connecting to a network are connected by a bus 2519. An operating system (OS) and an application program for executing the processing in this embodiment are stored in the HDD 2505, and are read from the HDD 2505 to the memory 2501 when executed by the CPU 2503. The CPU 2503 controls the display control unit 2507, the communication control unit 2517, and the drive device 2513 according to the processing content of the application program, and performs a predetermined operation. Further, data in the middle of processing is mainly stored in the memory 2501, but may be stored in the HDD 2505. In the embodiment of the present invention, an application program for performing the above-described processing is stored in a computer-readable removable disk 2511 and distributed, and installed in the HDD 2505 from the drive device 2513. In some cases, the HDD 2505 may be installed via a network such as the Internet and the communication control unit 2517. Such a computer apparatus realizes various functions as described above by organically cooperating hardware such as the CPU 2503 and the memory 2501 described above and programs such as the OS and application programs. .

以上述べた本発明の実施の形態をまとめると、以下のようになる。   The embodiment of the present invention described above is summarized as follows.

本実施の形態に係る情報処理装置は、(A)学習事例と当該学習事例に対する、所定の2値のうちのいずれかを示すラベルとを含む複数のセットと、各学習事例に対する係数値とに基づいて、仮説モデルを学習する学習部と、(B)(b1)仮説モデルと各学習事例とに基づき、学習事例毎に上記2値のいずれかに対応する傾向及び当該傾向の程度を示す分類結果を求め、(b2)学習事例のうち、分類結果における上記傾向が、対応するラベルに対応する学習事例を特定し、特定した各学習事例について、対応する係数値と、分類結果における上記程度との積を求め、当該積の第1合計を算出し、(b3)学習事例のうち、分類結果における上記傾向が、対応するラベルに対応しない学習事例を特定し、特定した各学習事例について、対応する係数値と、分類結果における上記程度との積を求め、当該積の第2合計を算出し、(b4)第2合計に対する第1合計の比の対数を、各分類結果における上記程度の絶対値のうちの最大値の2倍の値で除することによって、仮説モデルの確信度を算出する算出部とを含む。   The information processing apparatus according to the present embodiment includes (A) a plurality of sets including a learning case and a label indicating one of predetermined two values for the learning case, and a coefficient value for each learning case. Based on the learning unit that learns the hypothesis model, and (B) (b1) the classification indicating the tendency corresponding to one of the above two values and the degree of the tendency for each learning case based on the hypothesis model and each learning case (B2) Among the learning cases, the trend in the classification result identifies the learning case corresponding to the corresponding label, and for each identified learning case, the corresponding coefficient value and the above degree in the classification result (B3) Among the learning cases, the above-mentioned tendency in the classification result identifies a learning case that does not correspond to the corresponding label, and corresponds to each identified learning case. (B4) The logarithm of the ratio of the first sum to the second sum is calculated as the absolute value of the above degree in each classification result. A calculation unit that calculates the certainty factor of the hypothesis model by dividing by a value that is twice the maximum value among the values.

このようにすれば、ラベルが示す所定の2値のいずれかに対応する傾向とその傾向の程度を示す分類結果を求める仮説モデルの確信度を算出する処理の負荷を軽減できる。   In this way, it is possible to reduce the processing load for calculating the certainty factor of the hypothesis model for obtaining the classification result indicating the tendency corresponding to one of the predetermined two values indicated by the label and the degree of the tendency.

更に、上記算出部は、複数回繰り返す各ラウンドにおいて、当該ラウンドにおける各学習事例に対する係数値を用いて、当該ラウンドにおける仮説モデル及び当該仮説モデルの確信度を算出するようにしてもよい。また、各ラウンドにおける確信度に基づいて、当該ラウンドにおける仮説モデルを結合させることによって学習モデルを更新する第1更新部を含むようにしてもよい。また、確信度に基づいて、各学習事例に対する係数値を次のラウンドのための係数値に更新する第2更新部を含むようにしてもよい。   Further, the calculation unit may calculate a hypothesis model and a certainty factor of the hypothesis model in each round using a coefficient value for each learning case in the round in each round repeated a plurality of times. Moreover, you may make it include the 1st update part which updates a learning model by combining the hypothesis model in the said round based on the certainty in each round. Moreover, you may make it include the 2nd update part which updates the coefficient value with respect to each learning example to the coefficient value for the next round based on reliability.

このようにすれば、ラベルが示す所定の2値のいずれかに対応する傾向とその傾向の程度を示す分類結果を求める仮説モデルを結合させるブースティングにおける学習の収束性を担保できる。   In this way, it is possible to guarantee the convergence of learning in boosting that combines a tendency corresponding to one of the predetermined two values indicated by the label and a hypothesis model for obtaining a classification result indicating the degree of the tendency.

なお、上で述べた情報処理装置における処理をコンピュータに行わせるためのプログラムを作成することができ、当該プログラムは、例えばフレキシブルディスク、CD−ROM、光磁気ディスク、半導体メモリ、ハードディスク等のコンピュータ読み取り可能な記憶媒体又は記憶装置に格納されるようにしてもよい。尚、中間的な処理結果は、一般的にメインメモリ等の記憶装置に一時保管される。   A program for causing a computer to perform the processing in the information processing apparatus described above can be created. The program can be read by a computer such as a flexible disk, a CD-ROM, a magneto-optical disk, a semiconductor memory, and a hard disk It may be stored in a possible storage medium or storage device. Note that intermediate processing results are generally temporarily stored in a storage device such as a main memory.

以上の実施例を含む実施形態に関し、さらに以下の付記を開示する。   The following supplementary notes are further disclosed with respect to the embodiments including the above examples.

(付記1)
学習事例と当該学習事例に対する、所定の2値のうちのいずれかを示すラベルとを含む複数のセットと、各学習事例に対する係数値とに基づいて、仮説モデルを学習する学習部と、
前記仮説モデルと前記各学習事例とに基づき、前記学習事例毎に前記2値のいずれかに対応する傾向及び当該傾向の程度を示す分類結果を求め、
前記学習事例のうち、前記分類結果における前記傾向が、対応する前記ラベルに対応する学習事例を特定し、特定した各学習事例について、対応する前記係数値と、前記分類結果における前記程度との積を求め、当該積の第1合計を算出し、
前記学習事例のうち、前記分類結果における前記傾向が、対応する前記ラベルに対応しない学習事例を特定し、特定した各学習事例について、対応する前記係数値と、前記分類結果における前記程度との積を求め、当該積の第2合計を算出し、
前記第2合計に対する前記第1合計の比の対数を、前記各分類結果における前記程度の絶対値のうちの最大値の2倍の値で除することによって、前記仮説モデルの確信度を算出する算出部と
を含む情報処理装置。
(Appendix 1)
A learning unit for learning a hypothesis model based on a plurality of sets including a learning case and a label indicating any one of predetermined two values for the learning case, and a coefficient value for each learning case;
Based on the hypothesis model and each learning case, obtain a classification result indicating the tendency corresponding to any of the two values and the degree of the tendency for each learning case,
Among the learning cases, the tendency in the classification result identifies a learning case corresponding to the corresponding label, and for each learning case specified, the product of the corresponding coefficient value and the degree in the classification result And calculate the first sum of the products,
Among the learning cases, the tendency in the classification result identifies a learning case that does not correspond to the corresponding label, and for each learning case specified, the product of the corresponding coefficient value and the degree in the classification result And calculate the second sum of the products,
The confidence of the hypothesis model is calculated by dividing the logarithm of the ratio of the first sum to the second sum by a value twice the maximum of the absolute values of the degree in each classification result. An information processing apparatus including a calculation unit.

(付記2)
前記算出部は、複数回繰り返す各ラウンドにおいて、当該ラウンドにおける前記各学習事例に対する係数値を用いて、当該ラウンドにおける仮説モデル及び当該仮説モデルの確信度を算出し、
前記各ラウンドにおける前記確信度に基づいて、当該ラウンドにおける前記仮説モデルを結合させることによって学習モデルを更新する第1更新部と、
前記確信度に基づいて、各学習事例に対する係数値を次のラウンドのための係数値に更新する第2更新部と
を含む付記1記載の情報処理装置。
(Appendix 2)
The calculation unit calculates a hypothesis model and a certainty factor of the hypothesis model in the round using a coefficient value for each learning case in the round in each round repeated a plurality of times,
A first update unit that updates the learning model by combining the hypothesis model in the round based on the certainty factor in each round;
The information processing apparatus according to appendix 1, further comprising: a second updating unit that updates a coefficient value for each learning case to a coefficient value for the next round based on the certainty factor.

(付記3)
学習事例と当該学習事例に対する、所定の2値のうちのいずれかを示すラベルとを含む複数のセットと、各学習事例に対する係数値とに基づいて、仮説モデルを学習する第1ステップと、
前記仮説モデルと前記各学習事例とに基づき、前記学習事例毎に前記2値のいずれかに対応する傾向及び当該傾向の程度を示す分類結果を求める第2ステップと、
前記学習事例のうち、前記分類結果における前記傾向が、対応する前記ラベルに対応する学習事例を特定し、特定した各学習事例について、対応する前記係数値と、前記分類結果における前記程度との積を求め、当該積の第1合計を算出する第3ステップと、
前記学習事例のうち、前記分類結果における前記傾向が、対応する前記ラベルに対応しない学習事例を特定し、特定した各学習事例について、対応する前記係数値と、前記分類結果における前記程度との積を求め、当該積の第2合計を算出する第4ステップと、
前記第2合計に対する前記第1合計の比の対数を、前記各分類結果における前記程度の絶対値のうちの最大値の2倍の値で除することによって、前記仮説モデルの確信度を算出する第5ステップと
を含み、コンピュータにより実行される情報処理方法。
(Appendix 3)
A first step of learning a hypothesis model based on a plurality of sets including a learning case and a label indicating one of predetermined two values for the learning case, and a coefficient value for each learning case;
A second step of obtaining a classification result indicating a tendency corresponding to one of the two values and a degree of the tendency for each learning case based on the hypothesis model and each learning case;
Among the learning cases, the tendency in the classification result identifies a learning case corresponding to the corresponding label, and for each learning case specified, the product of the corresponding coefficient value and the degree in the classification result And calculating a first sum of the products,
Among the learning cases, the tendency in the classification result identifies a learning case that does not correspond to the corresponding label, and for each learning case specified, the product of the corresponding coefficient value and the degree in the classification result And calculating a second sum of the products,
The confidence of the hypothesis model is calculated by dividing the logarithm of the ratio of the first sum to the second sum by a value twice the maximum of the absolute values of the degree in each classification result. An information processing method including a fifth step and executed by a computer.

(付記4)
前記第1ステップ乃至前記第5ステップを繰り返す各ラウンドにおいて、当該ラウンドにおける前記各学習事例に対する係数値を用いて、当該ラウンドにおける仮説モデル及び当該仮説モデルの確信度を算出し、
更に、
前記各ラウンドにおける前記確信度に基づいて、当該ラウンドにおける前記仮説モデルを結合させることによって学習モデルを更新する第6ステップと、
前記確信度に基づいて、各学習事例に対する係数値を次のラウンドのための係数値に更新する第7ステップと
を含む付記3記載の情報処理方法。
(Appendix 4)
In each round of repeating the first step to the fifth step, using the coefficient value for each learning case in the round, calculate the hypothesis model in the round and the certainty of the hypothesis model,
Furthermore,
A sixth step of updating the learning model by combining the hypothesis model in the round based on the certainty factor in each round;
The information processing method according to supplementary note 3, including a seventh step of updating a coefficient value for each learning case to a coefficient value for the next round based on the certainty factor.

(付記5)
学習事例と当該学習事例に対する、所定の2値のうちのいずれかを示すラベルとを含む複数のセットと、各学習事例に対する係数値とに基づいて、仮説モデルを学習する第1ステップと、
前記仮説モデルと前記各学習事例とに基づき、前記学習事例毎に前記2値のいずれかに対応する傾向及び当該傾向の程度を示す分類結果を求める第2ステップと、
前記学習事例のうち、前記分類結果における前記傾向が、対応する前記ラベルに対応する学習事例を特定し、特定した各学習事例について、対応する前記係数値と、前記分類結果における前記程度との積を求め、当該積の第1合計を算出する第3ステップと、
前記学習事例のうち、前記分類結果における前記傾向が、対応する前記ラベルに対応しない学習事例を特定し、特定した各学習事例について、対応する前記係数値と、前記分類結果における前記程度との積を求め、当該積の第2合計を算出する第4ステップと、
前記第2合計に対する前記第1合計の比の対数を、前記各分類結果における前記程度の絶対値のうちの最大値の2倍の値で除することによって、前記仮説モデルの確信度を算出する第5ステップと
をコンピュータに実行させる情報処理プログラム。
(Appendix 5)
A first step of learning a hypothesis model based on a plurality of sets including a learning case and a label indicating one of predetermined two values for the learning case, and a coefficient value for each learning case;
A second step of obtaining a classification result indicating a tendency corresponding to one of the two values and a degree of the tendency for each learning case based on the hypothesis model and each learning case;
Among the learning cases, the tendency in the classification result identifies a learning case corresponding to the corresponding label, and for each learning case specified, the product of the corresponding coefficient value and the degree in the classification result And calculating a first sum of the products,
Among the learning cases, the tendency in the classification result identifies a learning case that does not correspond to the corresponding label, and for each learning case specified, the product of the corresponding coefficient value and the degree in the classification result And calculating a second sum of the products,
The confidence of the hypothesis model is calculated by dividing the logarithm of the ratio of the first sum to the second sum by a value twice the maximum of the absolute values of the degree in each classification result. An information processing program for causing a computer to execute the fifth step.

101 学習データ入力部 103 学習データ格納部
105 モデル学習部 106 パラメータ記憶部
107 重みデータ格納部 108 確信度格納部
109 モデルデータ格納部 111 対象データ入力部
113 対象データ格納部 115 モデル適用部
117 分類結果格納部 119 出力部
121 受付部 201 ブースティング部
203 弱学習部 205 初期化部
207 確信度算出部 209 結合モデル更新部
211 重み更新部 601 学習事例データ
701 ラベルデータ 801 結合モデルデータ
901 重みデータ 1001 弱仮説データ
1201 分類結果データ 2201 処理対象データ
DESCRIPTION OF SYMBOLS 101 Learning data input part 103 Learning data storage part 105 Model learning part 106 Parameter storage part 107 Weight data storage part 108 Certainty degree storage part 109 Model data storage part 111 Target data input part 113 Target data storage part 115 Model application part 117 Classification result Storage unit 119 Output unit 121 Reception unit 201 Boosting unit 203 Weak learning unit 205 Initialization unit 207 Certainty factor calculation unit 209 Combined model update unit 211 Weight update unit 601 Learning example data 701 Label data 801 Combined model data 901 Weight data 1001 Weak Hypothesis data 1201 Classification result data 2201 Processing target data

Claims (4)

学習事例と当該学習事例に対する、所定の2値のうちのいずれかを示すラベルとを含む複数のセットと、各学習事例に対する係数値とに基づいて、仮説モデルを学習する学習部と、
前記仮説モデルと前記各学習事例とに基づき、前記学習事例毎に前記2値のいずれかに対応する傾向及び当該傾向の程度を示す分類結果を求め、
前記学習事例のうち、前記分類結果における前記傾向が、対応する前記ラベルに対応する学習事例を特定し、特定した各学習事例について、対応する前記係数値と、前記分類結果における前記程度との積を求め、当該積の第1合計を算出し、
前記学習事例のうち、前記分類結果における前記傾向が、対応する前記ラベルに対応しない学習事例を特定し、特定した各学習事例について、対応する前記係数値と、前記分類結果における前記程度との積を求め、当該積の第2合計を算出し、
前記第2合計に対する前記第1合計の比の対数を、前記各分類結果における前記程度の絶対値のうちの最大値の2倍の値で除することによって、前記仮説モデルの確信度を算出する算出部と
を含む情報処理装置。
A learning unit for learning a hypothesis model based on a plurality of sets including a learning case and a label indicating any one of predetermined two values for the learning case, and a coefficient value for each learning case;
Based on the hypothesis model and each learning case, obtain a classification result indicating the tendency corresponding to any of the two values and the degree of the tendency for each learning case,
Among the learning cases, the tendency in the classification result identifies a learning case corresponding to the corresponding label, and for each learning case specified, the product of the corresponding coefficient value and the degree in the classification result And calculate the first sum of the products,
Among the learning cases, the tendency in the classification result identifies a learning case that does not correspond to the corresponding label, and for each learning case specified, the product of the corresponding coefficient value and the degree in the classification result And calculate the second sum of the products,
The confidence of the hypothesis model is calculated by dividing the logarithm of the ratio of the first sum to the second sum by a value twice the maximum of the absolute values of the degree in each classification result. An information processing apparatus including a calculation unit.
前記算出部は、複数回繰り返す各ラウンドにおいて、当該ラウンドにおける前記各学習事例に対する係数値を用いて、当該ラウンドにおける仮説モデル及び当該仮説モデルの確信度を算出し、
前記各ラウンドにおける前記確信度に基づいて、当該ラウンドにおける前記仮説モデルを結合させることによって学習モデルを更新する第1更新部と、
前記確信度に基づいて、各学習事例に対する係数値を次のラウンドのための係数値に更新する第2更新部と
を含む請求項1記載の情報処理装置。
The calculation unit calculates a hypothesis model and a certainty factor of the hypothesis model in the round using a coefficient value for each learning case in the round in each round repeated a plurality of times,
A first update unit that updates the learning model by combining the hypothesis model in the round based on the certainty factor in each round;
The information processing apparatus according to claim 1, further comprising: a second updating unit that updates a coefficient value for each learning case to a coefficient value for the next round based on the certainty factor.
学習事例と当該学習事例に対する、所定の2値のうちのいずれかを示すラベルとを含む複数のセットと、各学習事例に対する係数値とに基づいて、仮説モデルを学習する第1ステップと、
前記仮説モデルと前記各学習事例とに基づき、前記学習事例毎に前記2値のいずれかに対応する傾向及び当該傾向の程度を示す分類結果を求める第2ステップと、
前記学習事例のうち、前記分類結果における前記傾向が、対応する前記ラベルに対応する学習事例を特定し、特定した各学習事例について、対応する前記係数値と、前記分類結果における前記程度との積を求め、当該積の第1合計を算出する第3ステップと、
前記学習事例のうち、前記分類結果における前記傾向が、対応する前記ラベルに対応しない学習事例を特定し、特定した各学習事例について、対応する前記係数値と、前記分類結果における前記程度との積を求め、当該積の第2合計を算出する第4ステップと、
前記第2合計に対する前記第1合計の比の対数を、前記各分類結果における前記程度の絶対値のうちの最大値の2倍の値で除することによって、前記仮説モデルの確信度を算出する第5ステップと
を含み、コンピュータにより実行される情報処理方法。
A first step of learning a hypothesis model based on a plurality of sets including a learning case and a label indicating one of predetermined two values for the learning case, and a coefficient value for each learning case;
A second step of obtaining a classification result indicating a tendency corresponding to one of the two values and a degree of the tendency for each learning case based on the hypothesis model and each learning case;
Among the learning cases, the tendency in the classification result identifies a learning case corresponding to the corresponding label, and for each learning case specified, the product of the corresponding coefficient value and the degree in the classification result And calculating a first sum of the products,
Among the learning cases, the tendency in the classification result identifies a learning case that does not correspond to the corresponding label, and for each learning case specified, the product of the corresponding coefficient value and the degree in the classification result And calculating a second sum of the products,
The confidence of the hypothesis model is calculated by dividing the logarithm of the ratio of the first sum to the second sum by a value twice the maximum of the absolute values of the degree in each classification result. An information processing method including a fifth step and executed by a computer.
学習事例と当該学習事例に対する、所定の2値のうちのいずれかを示すラベルとを含む複数のセットと、各学習事例に対する係数値とに基づいて、仮説モデルを学習する第1ステップと、
前記仮説モデルと前記各学習事例とに基づき、前記学習事例毎に前記2値のいずれかに対応する傾向及び当該傾向の程度を示す分類結果を求める第2ステップと、
前記学習事例のうち、前記分類結果における前記傾向が、対応する前記ラベルに対応する学習事例を特定し、特定した各学習事例について、対応する前記係数値と、前記分類結果における前記程度との積を求め、当該積の第1合計を算出する第3ステップと、
前記学習事例のうち、前記分類結果における前記傾向が、対応する前記ラベルに対応しない学習事例を特定し、特定した各学習事例について、対応する前記係数値と、前記分類結果における前記程度との積を求め、当該積の第2合計を算出する第4ステップと、
前記第2合計に対する前記第1合計の比の対数を、前記各分類結果における前記程度の絶対値のうちの最大値の2倍の値で除することによって、前記仮説モデルの確信度を算出する第5ステップと
をコンピュータに実行させる情報処理プログラム。
A first step of learning a hypothesis model based on a plurality of sets including a learning case and a label indicating one of predetermined two values for the learning case, and a coefficient value for each learning case;
A second step of obtaining a classification result indicating a tendency corresponding to one of the two values and a degree of the tendency for each learning case based on the hypothesis model and each learning case;
Among the learning cases, the tendency in the classification result identifies a learning case corresponding to the corresponding label, and for each learning case specified, the product of the corresponding coefficient value and the degree in the classification result And calculating a first sum of the products,
Among the learning cases, the tendency in the classification result identifies a learning case that does not correspond to the corresponding label, and for each learning case specified, the product of the corresponding coefficient value and the degree in the classification result And calculating a second sum of the products,
The confidence of the hypothesis model is calculated by dividing the logarithm of the ratio of the first sum to the second sum by a value twice the maximum of the absolute values of the degree in each classification result. An information processing program for causing a computer to execute the fifth step.
JP2014241717A 2014-11-28 2014-11-28 Information processing apparatus, information processing method, and information processing program Expired - Fee Related JP6402607B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014241717A JP6402607B2 (en) 2014-11-28 2014-11-28 Information processing apparatus, information processing method, and information processing program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014241717A JP6402607B2 (en) 2014-11-28 2014-11-28 Information processing apparatus, information processing method, and information processing program

Publications (2)

Publication Number Publication Date
JP2016103192A JP2016103192A (en) 2016-06-02
JP6402607B2 true JP6402607B2 (en) 2018-10-10

Family

ID=56088996

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014241717A Expired - Fee Related JP6402607B2 (en) 2014-11-28 2014-11-28 Information processing apparatus, information processing method, and information processing program

Country Status (1)

Country Link
JP (1) JP6402607B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6781950B2 (en) * 2016-10-12 2020-11-11 オムロン株式会社 Identification information assignment system, identification information assignment method, and its program
JP7347198B2 (en) * 2019-12-20 2023-09-20 富士通株式会社 Inference method, inference program and information processing device

Also Published As

Publication number Publication date
JP2016103192A (en) 2016-06-02

Similar Documents

Publication Publication Date Title
Zhang et al. Flexmatch: Boosting semi-supervised learning with curriculum pseudo labeling
CN111373417B (en) Apparatus and method relating to data classification based on metric learning
US10460230B2 (en) Reducing computations in a neural network
US11461295B2 (en) Data migration system
JP5454827B1 (en) Document evaluation apparatus, document evaluation method, and program
US9607246B2 (en) High accuracy learning by boosting weak learners
CN110135582B (en) Neural network training method, neural network training device, image processing method, image processing device and storage medium
Sokolov et al. Stochastic structured prediction under bandit feedback
US20200320440A1 (en) System and Method for Use in Training Machine Learning Utilities
WO2020009881A1 (en) Analyzing and correcting vulnerabillites in neural networks
JP6402607B2 (en) Information processing apparatus, information processing method, and information processing program
EP4091170A1 (en) Application of pathogenicity model and training thereof
CN110991494A (en) Method for constructing prediction model based on improved moth optimization algorithm
US9348810B2 (en) Model learning method
CN113568820A (en) Method, apparatus, electronic device and medium for monitoring model
Akbar et al. Optimizing Software Defect Prediction Models: Integrating Hybrid Grey Wolf and Particle Swarm Optimization for Enhanced Feature Selection with Popular Gradient Boosting Algorithm
Adel et al. A probabilistic covariate shift assumption for domain adaptation
CN113656669B (en) Label updating method and device
WO2023177666A1 (en) Deep learning systems and methods to disambiguate false positives in natural language processing analytics
WO2020144736A1 (en) Semantic relation learning device, semantic relation learning method, and semantic relation learning program
JP6233432B2 (en) Method and apparatus for selecting mixed model
CN114912549A (en) Training method of risk transaction identification model, and risk transaction identification method and device
JP5206196B2 (en) Rule learning method, program and apparatus
US20220222544A1 (en) Analysis device, analysis method, and analysis program
WO2019057529A1 (en) Evaluating input data using a deep learning algorithm

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170804

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180730

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180814

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180827

R150 Certificate of patent or registration of utility model

Ref document number: 6402607

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees