JP6402607B2 - Information processing apparatus, information processing method, and information processing program - Google Patents
Information processing apparatus, information processing method, and information processing program Download PDFInfo
- Publication number
- JP6402607B2 JP6402607B2 JP2014241717A JP2014241717A JP6402607B2 JP 6402607 B2 JP6402607 B2 JP 6402607B2 JP 2014241717 A JP2014241717 A JP 2014241717A JP 2014241717 A JP2014241717 A JP 2014241717A JP 6402607 B2 JP6402607 B2 JP 6402607B2
- Authority
- JP
- Japan
- Prior art keywords
- learning
- classification result
- case
- learning case
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000010365 information processing Effects 0.000 title claims description 15
- 238000003672 processing method Methods 0.000 title claims description 4
- 238000004364 calculation method Methods 0.000 claims description 34
- 238000012545 processing Methods 0.000 description 67
- 238000000034 method Methods 0.000 description 42
- 230000008569 process Effects 0.000 description 27
- 238000010586 diagram Methods 0.000 description 24
- 238000013500 data storage Methods 0.000 description 23
- 238000011156 evaluation Methods 0.000 description 15
- 238000012549 training Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000004069 differentiation Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、学習器を用いてモデルを学習する技術に関する。 The present invention relates to a technique for learning a model using a learning device.
ある文献には、繰り返されるラウンド毎に、各学習事例に対する重みを更新して2値で表現される分類結果を出力する弱仮説を複数学習し、これらを統合させたモデル(結合モデル)を学習するブースティング技術が開示されている。この技術によれば、各ラウンドにおいて学習された弱仮説に対する確信度が算出される。最終のモデルは各弱仮説の確信度を基に結合された形で表現される。 In a certain document, for each repeated round, learn multiple weak hypotheses that update the weights for each learning case and output a binary classification result, and learn a model that combines them (combined model) A boosting technique is disclosed. According to this technique, the certainty factor for the weak hypothesis learned in each round is calculated. The final model is expressed in a combined form based on the certainty of each weak hypothesis.
このように、弱仮説が2値で表現される分類結果を出力する分類器を用いて実現される場合には、解析的に確信度を計算することができるので、確信度算出に係る処理負荷は比較的に小さい。 In this way, when the weak hypothesis is realized using a classifier that outputs a classification result expressed in binary, since the certainty factor can be calculated analytically, the processing load related to the certainty factor calculation Is relatively small.
本発明の目的は、一側面では、複数値を含む分類結果を出力する仮説モデルの確信度を算出する処理の負荷を軽減することである。 In one aspect, an object of the present invention is to reduce a processing load for calculating a certainty factor of a hypothesis model that outputs a classification result including a plurality of values.
一態様に係る情報処理装置は、(A)学習事例と当該学習事例に対する、所定の2値のうちのいずれかを示すラベルとを含む複数のセットと、各学習事例に対する係数値とに基づいて、仮説モデルを学習する学習部と、(B)(b1)仮説モデルと各学習事例とに基づき、学習事例毎に上記2値のいずれかに対応する傾向及び当該傾向の程度を示す分類結果を求め、(b2)学習事例のうち、分類結果における上記傾向が、対応するラベルに対応する学習事例を特定し、特定した各学習事例について、対応する係数値と、分類結果における上記程度との積を求め、当該積の第1合計を算出し、(b3)学習事例のうち、分類結果における上記傾向が、対応するラベルに対応しない学習事例を特定し、特定した各学習事例について、対応する係数値と、分類結果における上記程度との積を求め、当該積の第2合計を算出し、(b4)第2合計に対する第1合計の比の対数を、各分類結果における上記程度の絶対値のうちの最大値の2倍の値で除することによって、仮説モデルの確信度を算出する算出部とを含む。 An information processing apparatus according to an aspect is based on (A) a plurality of sets including a learning case and a label indicating one of predetermined two values for the learning case, and a coefficient value for each learning case. Based on the learning unit that learns the hypothesis model, and (B) (b1) the hypothesis model and each learning case, a classification result indicating the tendency corresponding to one of the above two values and the degree of the tendency for each learning case (B2) Among the learning cases, the tendency in the classification result identifies the learning case corresponding to the corresponding label, and for each identified learning case, the product of the corresponding coefficient value and the above degree in the classification result (B3) Among the learning cases, the above-mentioned tendency in the classification result identifies a learning case that does not correspond to the corresponding label, and for each identified learning case, the corresponding relation The product of the value and the above-mentioned degree in the classification result is calculated, and the second sum of the product is calculated. And a calculation unit that calculates the certainty factor of the hypothesis model by dividing by a value that is twice the maximum value.
一側面としては、複数値を含む分類結果を出力する仮説モデルの確信度を算出する処理の負荷を軽減できる。 As one aspect, it is possible to reduce the processing load for calculating the certainty factor of a hypothesis model that outputs a classification result including a plurality of values.
まず、ブースティング手法の例として、AdaBoost(非特許文献1,2)について説明する。学習の目的は、与えられた学習事例Xからラベル集合YへのマッピングF:X−>Yを導出することである。この例で、ラベルは{−1,+1}の2値のいずれかを示すものとする。
First, AdaBoost (
図1に、AdaBoostのメイン処理フローを示す。学習システムは、学習データSと、ブースティングについての繰り返し回数Tとを受け付ける(S1)。学習データSは、学習事例とラベルとのセットをm個含み、{(x1,y1),...(xm,ym)}と表される。 FIG. 1 shows a main processing flow of AdaBoost. The learning system receives the learning data S and the number of repetitions T for boosting (S1). The learning data S includes m sets of learning examples and labels, and {(x 1 , y 1 ),. . . (X m , y m )}.
xi∈Xは、i番目のセットに係る学習事例を表し、yi∈Yは、i番目のセットに係るラベルを表している。繰り返し回数Tは、ブースティングを繰り返す回数である。 x i εX represents a learning case related to the i-th set, and y i εY represents a label related to the i-th set. The number of repetitions T is the number of times boosting is repeated.
学習システムは、学習事例の重み(w1,1,...w1,m)を初期化する(S3)。学習事例の重みw1,iは、学習事例xiの重みである。各学習事例の重みw1,i(1≦i≦m)に、初期値1/mが設定される。つまり、各学習事例の初期重みは、均等とする。
The learning system initializes the weights (w 1,1 ,... W 1, m ) of the learning cases (S3). The learning case weight w 1, i is the weight of the learning case x i . An
そして、カウンタtに1を設定する(S5)。 Then, 1 is set to the counter t (S5).
学習システムは、弱学習器に弱仮説htを求めさせる(S7)。弱学習器は、上述の学習データSと学習事例の重み(w1,1,...w1,m)を用いて弱仮説htを学習する。例えば決定木学習器(非特許文献1)やパーセプトロン(非特許文献2)などの分類器が、弱学習器として利用される。htは、t回目のラウンドで求めた弱仮説を表している。 Learning system causes seeking weak hypothesis h t the weak learners (S7). Weak learner learns the weak hypothesis h t using the weight of the learning data S and training example described above (w 1,1, ... w 1, m). For example, a classifier such as a decision tree learner (Non-Patent Document 1) or a perceptron (Non-Patent Document 2) is used as a weak learner. h t represents the weak hypothesis obtained in the t-th round.
次に、学習システムは、求めた弱仮説htに対する確信度αtを算出する(S9)。 Next, the learning system calculates a certainty factor α t for the obtained weak hypothesis h t (S9).
更に、学習システムは、次の式に従って、学習事例の重みを更新する(S11)。
式(1)に含まれるht(xi)は、学習事例xiに対するhtによる分類結果であり、eは、ネイピア数である。また、(1)式の分母は、以下のように表される。
学習システムは、カウンタtに1を加え(S13)、カウンタtが繰り返し回数Tを超えたか否かを判定する(S15)。カウンタtが繰り返し回数Tを超えていないと判定した場合には、学習システムは、S7に戻り、上述した一連の処理を繰り返す。 The learning system adds 1 to the counter t (S13), and determines whether the counter t has exceeded the number of repetitions T (S15). If it is determined that the counter t does not exceed the number of repetitions T, the learning system returns to S7 and repeats the series of processes described above.
カウンタtが繰り返し回数Tを超えたと判定した場合には、学習システムは、最終仮説Fを求める(S17)。学習システムは、上述のループ処理により求めたT種類の弱仮説を、以下の式に従って結合することによって、最終仮説Fを求める。
式中のsignは、入力値が正の場合には+1を返し、それ以外の場合には−1を返す関数である。 Sign in the expression is a function that returns +1 if the input value is positive, and -1 otherwise.
図1では、繰り返し処理を終えた後に弱仮説をまとめて統合する最終仮説Fを算出する手順の例を示したが、図5を用いて後述するように、繰り返し処理においてその都度弱仮説を結合モデルに統合することによって、最終仮説Fを求めるようにしてもよい。 FIG. 1 shows an example of a procedure for calculating a final hypothesis F that integrates weak hypotheses after completing the iterative processing. However, as will be described later with reference to FIG. The final hypothesis F may be obtained by integrating the model.
尚、AdaBoostでは、以下の式に示すように、T種類の弱仮説からなる最終仮説Fにおいて、学習エラーの数に関する上限値が存在することが証明されている。
各ラウンドtにおける弱仮説htに関して以下の式の条件を満たす確信度αtが得られれば、AdaBoostによる学習は収束することが、式(5)によって導かれる。
Zt(αt)<1 (6)
As long obtained satisfies confidence alpha t the following equation with respect to the weak hypothesis h t in each round t, that learning by AdaBoost converges, guided by the formula (5).
Z t (α t ) <1 (6)
但し、係数Zt(αt)=1となるラウンドがあったとしても、当該ラウンドは上述した上限値に対して影響を与えない。 However, even if there is a round in which the coefficient Z t (α t ) = 1, the round does not affect the above-described upper limit value.
続いて、確信度αtを算出する方法について説明する。まず、2値で示される分類結果を出力する分類器(例えば、決定木学習器)を弱学習器として利用する場合における確信度αtの算出方法について説明する。 Next, a method for calculating the certainty factor α t will be described. First, a method for calculating the certainty factor α t when a classifier (for example, a decision tree learner) that outputs a binary classification result is used as a weak learner will be described.
非特許文献4によれば、2値で示される分類結果を出力する分類器を弱学習器として利用する場合には、確信度αtが解析的に算出される。 According to Non-Patent Document 4, when a classifier that outputs a binary classification result is used as a weak learner, the certainty factor α t is analytically calculated.
式(2)に示したZt(αt)のαtによる微分は、以下のように求められる。
そして、Zt(αt)のαtによる微分を0とした場合のαtは以下の式によって求められる。
尚、対数の底は、eである。
尚、以下の式に示すように、Otは、学習事例を識別するための1からmまでのIDのうち、t 番目の弱仮説によって正しい分類が行われた学習事例のIDに相当する。
以下の式に示すように、Ntは、学習事例を識別するための1からmまでのIDのうち、t 番目の弱仮説によって誤った分類が行われた学習事例のIDに相当する。
次に、多値で示される分類結果を出力する分類器(例えば、パーセプトロン)を弱学習器として利用する場合における確信度αtの算出方法について説明する。 Next, a method of calculating the certainty factor α t when a classifier (for example, a perceptron) that outputs a multilevel classification result is used as a weak learner will be described.
上記の非特許文献4の式(11)の計算方法では、多値の実数値で示される分類結果を出力する分類器を利用することを想定していない。 In the calculation method of Equation (11) in Non-Patent Document 4 described above, it is not assumed that a classifier that outputs a classification result represented by a multivalued real value is used.
多値の実数値で示される分類結果を出力する分類器を弱学習器として利用する場合に、式(8)によって確信度αtを求めることは適当でない。仮に式(8)を用いれば、多値が正しく確信度αtに反映されないことになるからである。 When a classifier that outputs a classification result represented by a multi-valued real value is used as a weak learner, it is not appropriate to obtain the certainty factor α t using the equation (8). This is because if the equation (8) is used, the multivalue is not correctly reflected in the certainty factor α t .
解析的算出に代わる次善の方法として、確信度αtを二分法によって求めることが考えられる。二分法によれば、2点で特定される区間に相当する探索範囲を絞り込むことによって解を導く。二分法は既知の技術であるので、二分法による確信度αt算出については簡単な説明に留める。 As a suboptimal method instead of analytical calculation, it is conceivable to obtain the certainty factor α t by the bisection method. According to the bisection method, a solution is derived by narrowing down a search range corresponding to a section specified by two points. Since the bisection method is a known technique, the calculation of the certainty factor α t by the bisection method will be simply described.
非特許文献4において示されている通り、Ztに対する確信度αtによる2階微分は正である。つまり、Zt(αt)のグラフは、下向きに凸型を示す。この例における二分法は、Ztの最小値を試行的に探索することに相当する。 As shown in Non-Patent Document 4, the second-order differentiation by the certainty factor α t with respect to Z t is positive. That is, the graph of Z t (α t ) shows a downward convex shape. Dichotomy in this example is equivalent to searching a minimum value of Z t trial basis.
しかし、二分法によって確信度αtを求める場合には、処理負荷が大きくなりやすい。 However, when the certainty factor α t is obtained by the bisection method, the processing load tends to increase.
本実施の形態では、処理負荷をより少なくするために、近似的に確信度αtを算出する。以下、式(6)に示した条件を満たす確信度αtを求める近似式について説明する。 In the present embodiment, the certainty factor α t is approximately calculated in order to reduce the processing load. Hereinafter, an approximate expression for obtaining the certainty factor α t that satisfies the condition shown in Expression (6) will be described.
まず、式(2)は、以下のように変換することができる。
式(11)における第1項は、以下の式に示すように、t番目の弱仮説による分類結果が0となった学習事例の重みの合計である。
式(11)における第2項に含まれるOtは、式(9)を用いて上述した通り、t 番目の弱仮説によって正しい分類が行われた学習事例のIDに相当する。つまり、式(11)における第2項は、t 番目の弱仮説によって正しい分類が行われた学習事例に関する。 Ot included in the second term in Equation (11) corresponds to the ID of the learning case that has been correctly classified by the t-th weak hypothesis, as described above using Equation (9). That is, the second term in Equation (11) relates to a learning case in which correct classification is performed by the t-th weak hypothesis.
また、式(11)における第3項に含まれるNtは、式(10)を用いて上述した通り、t 番目の弱仮説によって誤った分類が行われた学習事例のIDに相当する。つまり、式(11)における第3項は、t 番目の弱仮説によって誤った分類が行われた学習事例に関する。 In addition, Nt included in the third term in Expression (11) corresponds to the ID of the learning case in which classification is erroneously performed by the t-th weak hypothesis, as described above using Expression (10). That is, the third term in Equation (11) relates to a learning case in which an incorrect classification is performed by the t-th weak hypothesis.
尚、式(11)における第2項及び第3項に含まれるUtは、以下の式に示すように、t 番目の弱仮説による各学習事例に対する分類結果の絶対値のうち、最大の値を意味する。
そして、式(11)における第2項及び第3項に、以下に示すベルヌーイの不等式を適用する。0<xであるならば、0<r≦1である任意のrに関して、以下の不等式が成立することが知られている。
xr≦r(x−1)+1
And the Bernoulli inequality shown below is applied to the second term and the third term in the equation (11). It is known that if 0 <x, the following inequality holds for any r where 0 <r ≦ 1.
x r ≦ r (x−1) +1
従って、式(11)における第2項について、以下の不等式が成立する。
同様に、式(11)における第3項について、以下の不等式が成立する。
式(11)における第2項及び第3項を上述した不等式の右辺に置き換えたZ~ t(αt)(~は、Zの上のハットを意味する。)とZt(αt)との間には、以下の式が成立する。
Zt(αt)≦Z~ t(αt) (12)
Z ~ t (α t ) ( ~ means a hat on Z), Z t (α t ), where the second and third terms in equation (11) are replaced with the right side of the above inequality. The following formula is established between:
Z t (α t ) ≦ Z ~ t (α t ) (12)
Z~ t(αt)は、以下の式で表される。
一方、式(3)に示したように、t番目の弱仮説による各学習事例の重みの合計は1であるので、以下の式が成り立つ。
そして、Z~ tに対するαtによる微分は、以下の式で表される。
よって、Z~ t(αt)に対するαtによる微分が0であるときのαt、つまりZt(αt)が最小値であるときのαtは、以下の式で表せる。
尚、この式によって確信度αtを算出するようにしても、最終仮説を算出する式(4)は変わらない。 Note that even if the certainty factor α t is calculated using this equation, the equation (4) for calculating the final hypothesis does not change.
次に、各ラウンドtで、式(13)を満たす確信度αtを求めれば、AdaBoostによる学習が収束することを示す。 Next, it is shown that learning by AdaBoost converges if the certainty factor α t satisfying Expression (13) is obtained in each round t.
式(13)で示されたαtをZ~ tに代入することによって、以下の式が求められる。
この式から、Z~ t(αt)≦1となることがわかる。そして、式(12)を考慮すると、以下のようになる。
Zt(αt)≦Z~ t(αt)≦1
From this equation, it can be seen that Z ~ t (α t ) ≦ 1. Then, considering equation (12), the following is obtained.
Z t (α t ) ≦ Z ~ t (α t ) ≦ 1
従って、式(13)によって算出される確信度αtは、式(6)に示したZt(αt)<1の条件を満たすか、あるいはZt(αt)=1の条件を満たす。つまり、学習エラーの上限値が低下するか、あるいは維持されるので、少なくともブースティングによって学習エラーの上限値が上昇することはない。 Therefore, the certainty factor α t calculated by the equation (13) satisfies the condition of Z t (α t ) <1 shown in the equation (6) or the condition of Z t (α t ) = 1. . In other words, since the upper limit value of the learning error is reduced or maintained, the upper limit value of the learning error is not increased at least by boosting.
以下では、具体的な装置の構成及び動作について説明する。図2に、モデル学習装置の機能ブロックを示す。モデル学習装置は、学習データ(ラベルデータ及び結合モデルデータを含む)などの入力を行うための学習データ入力部101と、学習データ入力部101によって入力された学習データなどを格納する学習データ格納部103と、学習データ格納部103に格納されているデータを用いてモデル学習を行うモデル学習部105とを有する。
Hereinafter, a specific configuration and operation of the apparatus will be described. FIG. 2 shows functional blocks of the model learning device. The model learning device includes a learning
更に、モデル学習装置は、モデル学習部105における処理に用いられるパラメータを記憶するパラメータ記憶部106と、モデル学習部105で算出する重みデータを格納する重みデータ格納部107と、モデル学習部105で算出する確信度データを格納する確信度格納部108と、モデル学習部105の処理結果であるモデルデータ(例えば、弱仮説データ及び結合モデルデータ)を格納するモデルデータ格納部109とを有する。
Further, the model learning apparatus includes a
更に、モデル学習装置は、生成されたモデルデータを適用して分類を行う対象を特定する処理対象データを入力するための対象データ入力部111と、対象データ入力部111によって入力された処理対象データを格納する対象データ格納部113と、モデルデータ格納部109に格納されているモデルデータを、対象データ格納部113に格納されている処理対象データに適用して、分類を行うモデル適用部115と、モデル適用部115の分類結果を格納する分類結果格納部117と、分類結果格納部117に格納されている分類結果を出力する出力部119とを有する。
Further, the model learning device includes a target
図3に、モデル学習部の構成を示す。モデル学習部105は、ブースティング部201と弱学習部203とを有する。ブースティング部201は、ブースティング処理を行う。弱学習部203は、弱学習処理を実行する。この例における弱学習部203は、分類結果として多値のスコアを出力するパーセプトロンを分類器として用いる。この例におけるパーセプトロンは、正又は負の実数値をスコアとして出力する。但し、弱学習部203が、他の分類器を用いるようにしてもよい。
FIG. 3 shows the configuration of the model learning unit. The
ブースティング部201は、初期化部205、確信度算出部207、結合モデル更新部209及び重み更新部211を有する。初期化部205は、データの初期化を行う。確信度算出部207は、弱仮説に対する確信度を算出する。結合モデル更新部209は、結合モデルを更新する。重み更新部211は、学習事例の重みを更新する。
The boosting
図2に示したモデル学習装置は、モデル学習の処理及びモデル適用の処理を行う。但し、モデル適用の処理を、モデル学習の処理を行った装置とは別の装置によって行うようにしてもよい。 The model learning apparatus shown in FIG. 2 performs model learning processing and model application processing. However, the model application process may be performed by an apparatus different from the apparatus that performed the model learning process.
図4に、モデル学習装置とは別に、モデル適用装置を設ける例を示す。モデル学習装置は、図2に示したモデルデータ格納部109と同様のモデルデータ格納部109aを有する。更に、モデルデータ格納部109aに格納されているモデルデータ(例えば、最終的な結合モデルデータ)を出力する出力部119aを有している。
FIG. 4 shows an example in which a model application device is provided separately from the model learning device. The model learning device has a model data storage unit 109a similar to the model
一方、モデル適用装置は、モデル学習装置から出力されたモデルデータを受け付ける受付部121を有している。モデル適用装置は、更に受付部121において受け付けたモデルデータを格納するためのモデルデータ格納部109bを有している。モデル適用装置が有する対象データ入力部111乃至分類結果格納部117は、図2におけるモデル学習装置の場合と同様である。また、モデル適用装置は、更に図2におけるモデル学習装置における出力部119と同様の出力部119bを有する。
On the other hand, the model application device includes a
上述した学習データ入力部101、モデル学習部105、対象データ入力部111、モデル適用部115、出力部119、ブースティング部201、弱学習部203、初期化部205、確信度算出部207、結合モデル更新部209及び重み更新部211は、ハードウエア資源(例えば、図24)と、以下で述べる処理をプロセッサに実行させるプログラムとを用いて実現される。
Learning
上述した学習データ格納部103、パラメータ記憶部106、重みデータ格納部107、確信度格納部108、モデルデータ格納部109、対象データ格納部113及び分類結果格納部117は、ハードウエア資源(例えば、図24)を用いて実現される。
The learning
次に、図5乃至図20を用いて、本実施の形態におけるモデル学習部105等の処理内容について説明する。
Next, processing contents of the
図5に、本実施の形態におけるモデル学習処理フローを示す。上述したように本実施の形態における確信度算出処理は、従来技術と異なる。 FIG. 5 shows a model learning process flow in the present embodiment. As described above, the certainty factor calculation process in the present embodiment is different from the conventional technique.
まず、学習データ入力部101は、例えばユーザからの指示に従って、学習データSと、繰り返し回数Tとについての入力を受け付ける(S101)。学習データSには、学習事例データ及びラベルデータが含まれる。
First, the learning
図6に、学習事例データ601の例を示す。学習事例データ601は、学習事例IDに対応する素性を含んでいる。この例で、x1で識別される学習事例は、素性a、素性b及び素性cから構成される。同様に、x2で識別される学習事例は、素性a、素性b及び素性dから構成される。x3で識別される学習事例は、素性a及び素性bから構成される。この例における学習事例の数mは、3である。
FIG. 6 shows an example of learning
図7に、ラベルデータ701の例を示す。ラベルIDは、学習事例IDに対応する。y1は、x1に対応する。y2は、x2に対応する。更に、y3は、x3に対応する。そして、ラベルデータ701は、ラベルIDに対応するラベルを含んでいる。この例で、y1で識別されるラベルは、「+1」である。同様に、y2で識別されるラベルは、「−1」である。更に、y3で識別されるラベルは、「+1」である。
FIG. 7 shows an example of
学習事例とラベルとをまとめた学習データを用いるようにしてもよい。 You may make it use the learning data which put together the learning example and the label.
初期化部205は、モデルデータ格納部109に初期の結合モデルを設定する(S103)。図8に、初期状態の結合モデルデータ801aの例を示す。結合モデルデータ801は、各素性に対する第3スコアを含んでいる。尚、この例では、3種類のスコアを用いる。第1スコアは、弱仮説データに含まれる。第2スコアは、分類結果データに含まれる。第1スコア及び第2スコアについては、後述する。初期化部205は、各素性に対応する第3スコアに0を設定する。この例では、素性a乃至素性dのそれぞれに対応する第3スコアに0が設定される。
The
次に、初期化部205は、重みデータ格納部107に格納されている学習事例の重み(w1,1,...w1,m)を初期化する(S105)。具体的には、各重みに、等しく1/mの値が設定される。
Next, the
図9に、第1ラウンドにおける重みデータ901aを示す。重みIDは、学習事例IDに対応する。w1,1は、x1に対応する。w1,2は、x2に対応する。更に、w1,3は、x3に対応する。そして、重みデータ901は、重みIDに対応する重みを含んでいる。この例で、w1で識別される重み、w2で識別される重み及びw3で識別される重みには、いずれも「0.33333」が設定されている。
FIG. 9 shows the
ブースティング部201は、パラメータtに1を設定する(S107)。パラメータtは、S109からS117までのルーチンの実行回数を計数するための変数であり、tによってラウンドを特定する。
The boosting
そして、弱学習部203は、弱学習処理を実行する(S109)。この例における弱学習処理では、分類器としてパーセプトロンを用いる。この例では、パーセプトロンの学習は、1度だけの繰り返しとする。
The
図10に、第1ラウンドにおける弱学習処理の概要を示す。図10は、上述した学習事例データ601、ラベルデータ701及び第1ラウンドにおける重みデータ901aを用いて弱学習処理を行った結果、弱仮説データ1001aが生成された様子を示している。
FIG. 10 shows an overview of weak learning processing in the first round. FIG. 10 shows how
第1ラウンドで生成された弱仮説を、第1弱仮説という。弱仮説データ1001aは、第1弱仮説のデータである。弱仮説データ1001は、各素性に対する第1スコアを含んでいる。正の値である第1スコアは、当該素性を含む学習事例のラベルが「+1」である傾向があることを示している。負の値である第1スコアは、当該素性を含む学習事例のラベルが「−1」である傾向があることを示している。
The weak hypothesis generated in the first round is referred to as the first weak hypothesis. The
事例の重みを用いたモデル更新部分以外は、従来技術と同様であるので、パーセプトロンを用いた弱学習処理の詳細については省略する。 The details other than the model update portion using the case weights are the same as those in the prior art, and the details of the weak learning processing using the perceptron will be omitted.
確信度算出部207は、確信度算出処理を実行する(S111)。確信度算出処理において、確信度算出部207は、上述した式(13)に従って確信度αtを算出する。
The certainty
図11に、確信度算出処理フローを示す。確信度算出部207は、まず、S109において求めた弱仮説による分類処理を実行する(S201)。
FIG. 11 shows a certainty factor calculation processing flow. The certainty
図12に、第1弱仮説による分類の概要を示す。学習事例データ601に含まれる各学習事例について第1弱仮説に係る弱仮説データ1001aを適用した分類が行われ、分類結果が得られる。分類結果データ1201aは、第1弱仮説による分類結果を示している。この例では、分類結果に対する評価が付されている。分類結果とラベルとの正負が一致する場合に、「正しい」と評価される。他方、分類結果とラベルとの正負が一致しない場合に、「誤り」と評価される。つまり、分類結果がラベルと合致する傾向を示す場合に「正しい」と評価され、分類結果がラベルと合致しない傾向を示す場合に「誤り」と評価される。
FIG. 12 shows an overview of classification based on the first weak hypothesis. For each learning case included in the
各学習事例に対する分類結果は、第2スコアとして得られる。この例で、学習事例x1に対して第1弱仮説を適用した分類結果である第2スコアh1(x1)は、「1」であり、その評価は「正しい」である。同様に、学習事例x2に対して第1弱仮説を適用した分類結果である第2スコアh1(x2)は、「0.33333」であり、その評価は「誤り」である。更に、学習事例x3に対して第1弱仮説を適用した分類結果である第2スコアh1(x3)は、「0.66667」であり、その評価は「正しい」である。 The classification result for each learning case is obtained as the second score. In this example, the second score h 1 (x 1 ), which is the classification result obtained by applying the first weak hypothesis to the learning example x 1 , is “1”, and the evaluation is “correct”. Similarly, the second score h 1 (x 2 ), which is a classification result obtained by applying the first weak hypothesis to the learning case x 2 , is “0.33333”, and the evaluation is “error”. Furthermore, the second score h 1 (x 3 ), which is the classification result obtained by applying the first weak hypothesis to the learning case x 3 , is “0.66667”, and the evaluation is “correct”.
この例では、説明に資するために評価を分類結果に付したが、評価は省略するようにしてもよい。 In this example, evaluation is given to the classification result for the purpose of explanation, but the evaluation may be omitted.
確信度算出部207は、分類結果である第2スコアの絶対値のうち最大の値Utを求める(S203)。図12に示した分類結果データ1201aの例では、第2スコアh1(x3)の絶対値「1」が、最大値Utに相当する。
Confidence
確信度算出部207は、パラメータiに1を設定する(S205)。パラメータiは、S207からS215までのルーチンの実行回数を計数するための変数であり、iによって学習事例を特定する。
The certainty
確信度算出部207は、パラメータiによって特定されるラベルyiに分類結果ht(xi)を乗じた値が正であるか否かを判定する(S207)。当該値が正であることは、分類結果ht(xi)の評価が「正しい」であることに相当する。
The certainty
ラベルyiに分類結果ht(xi)を乗じた値が正であると判定した場合には、パラメータt及びパラメータiによって特定される重みwt,iに分類結果ht(xi)の絶対値を乗じた値を、正に関する総和を算出するためのパラメータに加算する(S209)。そして、S215の処理に移る。 Label y i to the classification result when the value obtained by multiplying h t (x i) is determined to be positive, the parameter t and weights w t specified by the parameter i, the classification result to the i h t (x i) A value obtained by multiplying the absolute value of is added to the parameter for calculating the sum of positive values (S209). Then, the process proceeds to S215.
一方、ラベルyiに分類結果ht(xi)を乗じた値が正ではないと判定した場合には、確信度算出部207は、当該値が負であるか否かを判定する(S211)。当該値が負であることは、分類結果ht(xi)の評価が「誤り」であることに相当する。
On the other hand, when it is determined that the value obtained by multiplying the label y i by the classification result h t (x i ) is not positive, the certainty
ラベルyiに分類結果ht(xi)を乗じた値が負であると判定した場合には、パラメータt及びパラメータiによって特定される重みwt,iに分類結果ht(xi)の絶対値を乗じた値を、負に関する総和を算出するためのパラメータに加算する(S213)。そして、S215の処理に移る。 Label y i to the classification result when the value obtained by multiplying h t (x i) is determined to be negative, the parameter t and weights w t specified by the parameter i, the classification result to the i h t (x i) A value obtained by multiplying the absolute value of is added to the parameter for calculating the total sum relating to negative (S213). Then, the process proceeds to S215.
一方、ラベルyiに分類結果ht(xi)を乗じた値が負ではないと判定した場合、つまり当該値が0である場合には、そのままS215の処理に移る。 On the other hand, if it is determined that the value obtained by multiplying the label y i by the classification result h t (x i ) is not negative, that is, if the value is 0, the process proceeds to S215 as it is.
確信度算出部207は、パラメータiに1を加え(S215)、パラメータiが学習事例の数mを超えたか否かを判定する(S217)。パラメータiが学習事例の数mを超えていないと判定した場合には、S207へ戻り一連の処理を繰り返す。
The certainty
パラメータiが学習事例の数mを超えたと判定した場合には、確信度算出部207は、(正に関する総和/負に関する総和)の対数を求める(S219)。そして、確信度算出部207は、求めた対数に1/(2×Ut)を乗ずる(S221)。その結果、第t仮説に対する確信度αtが得られる。第t仮説に対する確信度αtは、確信度格納部108に格納される。
When it is determined that the parameter i has exceeded the number m of learning examples, the certainty
図13に、第1ラウンドにおける確信度算出の概要を示す。この例で、正に関する総和は、0.33333×1+0.33333×0.66667である。また、負に関する総和は、0.33333×0.33333である。そして、第1弱仮説に対する確信度α1が、「0.80472」となる。 FIG. 13 shows an outline of the certainty factor calculation in the first round. In this example, the sum for positive is 0.33333 × 1 + 0.33333 × 0.666667. Moreover, the sum total regarding negative is 0.33333 * 0.33333. The certainty factor α 1 for the first weak hypothesis is “0.80472”.
確信度算出処理を終えると、図5に示したS113の処理に戻る。結合モデル更新部209は、前回のラウンドにおける結合モデルデータ801、今回のラウンドで求めた弱仮説データ1001及び確信度αtに基づいて、今回のラウンドにおける結合モデルデータ801を算出する(S113)。具体的には、各素性について、今回の弱仮説データ1001の第1スコアに確信度αtを乗じた値を、前回のラウンドにおける結合モデルデータ801の第3スコアに加える。そして、求められた和を今回のラウンドにおける結合モデルの第3スコアに設定する。
When the certainty calculation process is completed, the process returns to the process of S113 shown in FIG. The combined
図14に、第1ラウンドにおける結合モデルの更新の概要を示す。第1ラウンドにおける結合モデルデータ801bの素性aに対する第3スコア「0.26824」は、0.80472×0.33333+0によって求められる。同様に、素性bに対する第3スコア「0.26824」は、0.80472×0.33333+0によって求められる。同様に、素性cに対する第3スコア「0.26824」は、0.80472×0.33333+0によって求められる。更に、素性dに対する第3スコア「−0.26824」は、0.80472×(−0.33333)+0によって求められる。
FIG. 14 shows an outline of the update of the combined model in the first round. The third score “0.26824” for the feature a of the combined
続いて、重み更新部211は、重み更新処理を実行する(S115)。重み更新処理において、重み更新部211は、重みデータ格納部107に格納されている重みデータ901を更新する。
Subsequently, the
図15に、重み更新処理フローを示す。重み更新部211は、上述した式(2)に従って、正規化のための係数Zt(αt)を算出する(S301)。重み更新部211は、パラメータiに1を設定する(S303)。パラメータiは、S305及びS307までのルーチンの実行回数を計数するための変数であり、iによって学習事例を特定する。
FIG. 15 shows a weight update processing flow. The
重み更新部211は、上述した式(1)に従って、次の重みwt+1,iを算出する(S305)。
The
重み更新部211は、パラメータiに1を加え(S307)、パラメータiが学習事例の数mを超えたか否かを判定する(S309)。パラメータiが学習事例の数mを超えていないと判定した場合には、S305へ戻り上述した処理を繰り返す。
The
パラメータiが学習事例の数mを超えたと判定した場合には、重み更新処理を終え、図5に示したS117の処理に戻る。 If it is determined that the parameter i has exceeded the number m of learning cases, the weight update process is terminated, and the process returns to S117 shown in FIG.
図16に、第1ラウンドにおける重み更新の概要を示す。図16は、第1弱仮説による分類結果データ1201aと、ラベルデータ701と、第1ラウンドにおける重みデータ901aと、第1弱仮説に対する確信度α1とに基づいて、第2ラウンドにおける重みデータ901bが生成される様子を示している。
FIG. 16 shows an outline of weight update in the first round. 16, the
「正しい」の評価を得た学習事例x1に対応する重みは、「0.33333」から「0.19114」へ減っている。同様に、学習事例x3に対応する重みも、「0.33333」から「0.24995」へ減っている。一方、「誤り」の評価を得た学習事例x2に対応する重みは、「0.33333」から「0.55891」へ増えている。このように「正しい」の評価を得た学習事例に対する重みを減らし、「誤り」の評価を得た学習事例に対する重みを増やすことによって、次の弱学習処理において修正された弱仮説が得られるようになる。 The weight corresponding to the learning example x 1 that has obtained the “correct” evaluation is reduced from “0.33333” to “0.19114”. Similarly, the weight corresponding to the learning example x 3 is also decreased from “0.33333” to “0.24995”. On the other hand, the weight corresponding to the learning example x 2 that has been evaluated as “error” has increased from “0.33333” to “0.55891”. In this way, by reducing the weight for learning cases that have obtained a “correct” evaluation and increasing the weight for learning cases that have received an “error” evaluation, it is possible to obtain a weak hypothesis that is corrected in the next weak learning process. become.
図5の説明に戻る。ブースティング部201は、パラメータtに1を加える(S117)。そして、ブースティング部201は、パラメータtが繰り返し回数Tを超えたか否かを判定する(S119)。パラメータtが繰り返し回数Tを超えていないと判定した場合には、S109に戻って一連の処理を繰り返す。パラメータtが繰り返し回数Tを超えたと判定した場合には、図4に示したモデル適用装置の出力部119bは、最後的な結合モデルデータ801を出力する(S121)。図2に示したモデル学習装置の場合には、S121の処理を省くようにしてもよい。
Returning to the description of FIG. The boosting
図17乃至図21に、第2ラウンドにおける処理の概要を示す。まず、図17に、第2ラウンドにおける弱学習処理の概要を示す。第2ラウンドでは、第1ラウンドで更新された重みデータ901bに基づいて、弱学習処理が行われる。
17 to 21 show an outline of processing in the second round. First, FIG. 17 shows an outline of weak learning processing in the second round. In the second round, weak learning processing is performed based on the
第1ラウンドで生成された弱仮説を、第2弱仮説という。弱仮説データ1001bは、第2弱仮説のデータである。
The weak hypothesis generated in the first round is referred to as the second weak hypothesis. The
図18に、第2弱仮説による分類の概要を示す。第2ラウンドでは、第2弱仮説に係る弱仮説データ1001bを適用した分類が行われ、分類結果が得られる。分類結果データ1201bは、第2弱仮説による分類結果を示している。第2ラウンドでは、学習事例x2に対する評価が「正しい」に変わっている。
FIG. 18 shows an overview of classification based on the second weak hypothesis. In the second round, classification using the
図19に、第2ラウンドにおける確信度算出の概要を示す。第2弱仮説に対するα2は「1.18647」であり、第1弱仮説に対する確信度α1よりも大きい。 FIG. 19 shows an outline of the certainty factor calculation in the second round. Α 2 for the second weak hypothesis is “1.18647”, which is larger than the certainty factor α 1 for the first weak hypothesis.
図20に、第2ラウンドにおける結合モデルの更新の概要を示す。図20は、第2弱仮説に係る弱仮説データ1001bと、第2弱仮説に対するα2と基づいて、第1ラウンドにおける結合モデルデータ801bが第2ラウンドにおける結合モデルデータ801cに更新される様子を示している。
FIG. 20 shows an outline of the update of the combined model in the second round. FIG. 20 shows how the combined
最後に、モデル適用部115におけるモデル適用処理について説明する。図21に、モデル適用処理フローを示す。
Finally, the model application process in the
対象データ入力部111は、処理対象データを入力する(S401)。処理対象データは、対象データ格納部113に格納される。処理対象データは、学習事例データ601と同様に素性の組み合わせを含む。学習事例データ601に含まれる学習事例における素性の組み合わせ以外の未知の組み合わせを処理対象としてもよい。
The target
モデル適用部115は、結合モデルによる分類処理を実行する(S403)。つまり、モデル学習によって生成された結合モデルデータ801を用いて分類器による分類が行われる。分類結果は、分類結果格納部117に格納される。そして、出力部119は、分類結果格納部117に格納されている分類結果を出力する(S405)。
The
多くの場合には、最終的に生成された結合モデルデータ801が用いられる。但し、以下では、上述した第1ラウンドにおける結合モデルデータ801bと第2ラウンドにおける結合モデルデータ801cとの適性を比較するために、これらの結合モデルデータ801b及び801cを用いたモデル適用の例を示す。
In many cases, the finally generated combined model data 801 is used. However, in the following, in order to compare the suitability of the combined
また、多くの場合には、学習事例における素性の組み合わせ以外の未知の組み合わせを処理対象とするが、以下では、改善の様子を説明しやすくするために、学習事例における組み合わせと同じ組み合わせを処理対象とする。 In many cases, unknown combinations other than the combination of features in the learning case are processed, but in the following, the same combination as the combination in the learning case is processed to make it easier to explain the improvement. And
図22に、第1ラウンドにおける結合モデルデータ801bを用いたモデル適用の例を示す。処理対象データ2201に含まれる処理対象x11における素性の組み合わせは、学習事例x1に係る素性の組み合わせと同様である。従って、処理対象x11は、ラベル「+1」に分類されるべきである。同じく処理対象x12における素性の組み合わせは、学習事例x2に係る素性の組み合わせと同様である。従って、処理対象x12は、ラベル「−1」に分類されるべきである。更に、処理対象x13における素性の組み合わせは、学習事例x3に係る素性の組み合わせと同様である。従って、処理対象x13は、ラベル「+1」に分類されるべきである。
FIG. 22 shows an example of model application using the combined
処理対象x11に対する分類結果である第2スコアH1(x11)は、分類されるべきラベルと同様に正である。従って、評価は「正しい」である。また、処理対象x13に対する分類結果である第2スコアH1(x13)も、分類されるべきラベルと同様に正である。従って、評価は「正しい」である。一方、処理対象x12に対する分類結果である第2スコアH1(x12)は、期待される負の値になっていない。従って、評価は「誤り」である。つまり、処理対象うち1つは正しく分類されていない。 The second score H 1 (x 11 ), which is the classification result for the processing target x 11 , is positive as is the label to be classified. Therefore, the evaluation is “correct”. Further, the second score H 1 (x 13 ), which is the classification result for the processing target x 13 , is also positive like the label to be classified. Therefore, the evaluation is “correct”. On the other hand, the second score H 1 (x 12 ), which is the classification result for the processing target x 12, is not an expected negative value. Therefore, the evaluation is “error”. That is, one of the processing targets is not correctly classified.
図23に、第2ラウンドにおける結合モデルデータ801cを用いたモデル適用の例を示す。処理対象データ2201は、図22の場合と同様である。第2ラウンドにおける結合モデルデータ801cを用いた場合には、処理対象x11乃至処理対象x13に対する分類結果に対する評価が「正しい」である。つまり、処理対象が残らず正しく分類されている。この例は、ラウンドが増すと結合モデルの適性が高まることを示している。
FIG. 23 shows an example of model application using the combined
本実施の形態によれば、ラベルが示す所定の2値のいずれかに合致する傾向(この例では、第2スコアにおける正又は負の別)とその傾向の程度(この例では、第2スコアの絶対値)を示す分類結果(この例では、第2スコア)を求める弱仮説の確信度を算出する処理の負荷を軽減できる。 According to the present embodiment, the tendency (in this example, positive or negative in the second score) that matches one of the predetermined two values indicated by the label and the degree of the tendency (in this example, the second score) ) (The absolute value of the second hypothesis) can be reduced.
更に、ラベルが示す所定の2値のいずれかに合致する傾向とその傾向の程度を示す分類結果を求める弱仮説を結合させるブースティングにおける学習の収束性を担保できる。 Furthermore, it is possible to secure the convergence of learning in boosting in which a tendency that matches one of the predetermined two values indicated by the label and a weak hypothesis for obtaining a classification result indicating the degree of the tendency are combined.
以上本発明の一実施の形態を説明したが、本発明はこれに限定されるものではない。例えば、上述の機能ブロック構成はプログラムモジュール構成に一致しない場合もある。 Although one embodiment of the present invention has been described above, the present invention is not limited to this. For example, the functional block configuration described above may not match the program module configuration.
また、上で説明した各記憶領域の構成は一例であって、上記のような構成でなければならないわけではない。さらに、処理フローにおいても、処理結果が変わらなければ、処理の順番を入れ替えることや複数の処理を並列に実行させるようにしても良い。 Further, the configuration of each storage area described above is an example, and the above configuration is not necessarily required. Further, in the processing flow, if the processing result does not change, the processing order may be changed or a plurality of processes may be executed in parallel.
なお、上で述べたモデル学習装置は、コンピュータ装置であって、図24に示すように、メモリ2501とCPU(Central Processing Unit)2503とハードディスク・ドライブ(HDD:Hard Disk Drive)2505と表示装置2509に接続される表示制御部2507とリムーバブル・ディスク2511用のドライブ装置2513と入力装置2515とネットワークに接続するための通信制御部2517とがバス2519で接続されている。オペレーティング・システム(OS:Operating System)及び本実施例における処理を実施するためのアプリケーション・プログラムは、HDD2505に格納されており、CPU2503により実行される際にはHDD2505からメモリ2501に読み出される。CPU2503は、アプリケーション・プログラムの処理内容に応じて表示制御部2507、通信制御部2517、ドライブ装置2513を制御して、所定の動作を行わせる。また、処理途中のデータについては、主としてメモリ2501に格納されるが、HDD2505に格納されるようにしてもよい。本発明の実施例では、上で述べた処理を実施するためのアプリケーション・プログラムはコンピュータ読み取り可能なリムーバブル・ディスク2511に格納されて頒布され、ドライブ装置2513からHDD2505にインストールされる。インターネットなどのネットワーク及び通信制御部2517を経由して、HDD2505にインストールされる場合もある。このようなコンピュータ装置は、上で述べたCPU2503、メモリ2501などのハードウエアとOS及びアプリケーション・プログラムなどのプログラムとが有機的に協働することにより、上で述べたような各種機能を実現する。
The model learning device described above is a computer device, and as shown in FIG. 24, a
以上述べた本発明の実施の形態をまとめると、以下のようになる。 The embodiment of the present invention described above is summarized as follows.
本実施の形態に係る情報処理装置は、(A)学習事例と当該学習事例に対する、所定の2値のうちのいずれかを示すラベルとを含む複数のセットと、各学習事例に対する係数値とに基づいて、仮説モデルを学習する学習部と、(B)(b1)仮説モデルと各学習事例とに基づき、学習事例毎に上記2値のいずれかに対応する傾向及び当該傾向の程度を示す分類結果を求め、(b2)学習事例のうち、分類結果における上記傾向が、対応するラベルに対応する学習事例を特定し、特定した各学習事例について、対応する係数値と、分類結果における上記程度との積を求め、当該積の第1合計を算出し、(b3)学習事例のうち、分類結果における上記傾向が、対応するラベルに対応しない学習事例を特定し、特定した各学習事例について、対応する係数値と、分類結果における上記程度との積を求め、当該積の第2合計を算出し、(b4)第2合計に対する第1合計の比の対数を、各分類結果における上記程度の絶対値のうちの最大値の2倍の値で除することによって、仮説モデルの確信度を算出する算出部とを含む。 The information processing apparatus according to the present embodiment includes (A) a plurality of sets including a learning case and a label indicating one of predetermined two values for the learning case, and a coefficient value for each learning case. Based on the learning unit that learns the hypothesis model, and (B) (b1) the classification indicating the tendency corresponding to one of the above two values and the degree of the tendency for each learning case based on the hypothesis model and each learning case (B2) Among the learning cases, the trend in the classification result identifies the learning case corresponding to the corresponding label, and for each identified learning case, the corresponding coefficient value and the above degree in the classification result (B3) Among the learning cases, the above-mentioned tendency in the classification result identifies a learning case that does not correspond to the corresponding label, and corresponds to each identified learning case. (B4) The logarithm of the ratio of the first sum to the second sum is calculated as the absolute value of the above degree in each classification result. A calculation unit that calculates the certainty factor of the hypothesis model by dividing by a value that is twice the maximum value among the values.
このようにすれば、ラベルが示す所定の2値のいずれかに対応する傾向とその傾向の程度を示す分類結果を求める仮説モデルの確信度を算出する処理の負荷を軽減できる。 In this way, it is possible to reduce the processing load for calculating the certainty factor of the hypothesis model for obtaining the classification result indicating the tendency corresponding to one of the predetermined two values indicated by the label and the degree of the tendency.
更に、上記算出部は、複数回繰り返す各ラウンドにおいて、当該ラウンドにおける各学習事例に対する係数値を用いて、当該ラウンドにおける仮説モデル及び当該仮説モデルの確信度を算出するようにしてもよい。また、各ラウンドにおける確信度に基づいて、当該ラウンドにおける仮説モデルを結合させることによって学習モデルを更新する第1更新部を含むようにしてもよい。また、確信度に基づいて、各学習事例に対する係数値を次のラウンドのための係数値に更新する第2更新部を含むようにしてもよい。 Further, the calculation unit may calculate a hypothesis model and a certainty factor of the hypothesis model in each round using a coefficient value for each learning case in the round in each round repeated a plurality of times. Moreover, you may make it include the 1st update part which updates a learning model by combining the hypothesis model in the said round based on the certainty in each round. Moreover, you may make it include the 2nd update part which updates the coefficient value with respect to each learning example to the coefficient value for the next round based on reliability.
このようにすれば、ラベルが示す所定の2値のいずれかに対応する傾向とその傾向の程度を示す分類結果を求める仮説モデルを結合させるブースティングにおける学習の収束性を担保できる。 In this way, it is possible to guarantee the convergence of learning in boosting that combines a tendency corresponding to one of the predetermined two values indicated by the label and a hypothesis model for obtaining a classification result indicating the degree of the tendency.
なお、上で述べた情報処理装置における処理をコンピュータに行わせるためのプログラムを作成することができ、当該プログラムは、例えばフレキシブルディスク、CD−ROM、光磁気ディスク、半導体メモリ、ハードディスク等のコンピュータ読み取り可能な記憶媒体又は記憶装置に格納されるようにしてもよい。尚、中間的な処理結果は、一般的にメインメモリ等の記憶装置に一時保管される。 A program for causing a computer to perform the processing in the information processing apparatus described above can be created. The program can be read by a computer such as a flexible disk, a CD-ROM, a magneto-optical disk, a semiconductor memory, and a hard disk It may be stored in a possible storage medium or storage device. Note that intermediate processing results are generally temporarily stored in a storage device such as a main memory.
以上の実施例を含む実施形態に関し、さらに以下の付記を開示する。 The following supplementary notes are further disclosed with respect to the embodiments including the above examples.
(付記1)
学習事例と当該学習事例に対する、所定の2値のうちのいずれかを示すラベルとを含む複数のセットと、各学習事例に対する係数値とに基づいて、仮説モデルを学習する学習部と、
前記仮説モデルと前記各学習事例とに基づき、前記学習事例毎に前記2値のいずれかに対応する傾向及び当該傾向の程度を示す分類結果を求め、
前記学習事例のうち、前記分類結果における前記傾向が、対応する前記ラベルに対応する学習事例を特定し、特定した各学習事例について、対応する前記係数値と、前記分類結果における前記程度との積を求め、当該積の第1合計を算出し、
前記学習事例のうち、前記分類結果における前記傾向が、対応する前記ラベルに対応しない学習事例を特定し、特定した各学習事例について、対応する前記係数値と、前記分類結果における前記程度との積を求め、当該積の第2合計を算出し、
前記第2合計に対する前記第1合計の比の対数を、前記各分類結果における前記程度の絶対値のうちの最大値の2倍の値で除することによって、前記仮説モデルの確信度を算出する算出部と
を含む情報処理装置。
(Appendix 1)
A learning unit for learning a hypothesis model based on a plurality of sets including a learning case and a label indicating any one of predetermined two values for the learning case, and a coefficient value for each learning case;
Based on the hypothesis model and each learning case, obtain a classification result indicating the tendency corresponding to any of the two values and the degree of the tendency for each learning case,
Among the learning cases, the tendency in the classification result identifies a learning case corresponding to the corresponding label, and for each learning case specified, the product of the corresponding coefficient value and the degree in the classification result And calculate the first sum of the products,
Among the learning cases, the tendency in the classification result identifies a learning case that does not correspond to the corresponding label, and for each learning case specified, the product of the corresponding coefficient value and the degree in the classification result And calculate the second sum of the products,
The confidence of the hypothesis model is calculated by dividing the logarithm of the ratio of the first sum to the second sum by a value twice the maximum of the absolute values of the degree in each classification result. An information processing apparatus including a calculation unit.
(付記2)
前記算出部は、複数回繰り返す各ラウンドにおいて、当該ラウンドにおける前記各学習事例に対する係数値を用いて、当該ラウンドにおける仮説モデル及び当該仮説モデルの確信度を算出し、
前記各ラウンドにおける前記確信度に基づいて、当該ラウンドにおける前記仮説モデルを結合させることによって学習モデルを更新する第1更新部と、
前記確信度に基づいて、各学習事例に対する係数値を次のラウンドのための係数値に更新する第2更新部と
を含む付記1記載の情報処理装置。
(Appendix 2)
The calculation unit calculates a hypothesis model and a certainty factor of the hypothesis model in the round using a coefficient value for each learning case in the round in each round repeated a plurality of times,
A first update unit that updates the learning model by combining the hypothesis model in the round based on the certainty factor in each round;
The information processing apparatus according to
(付記3)
学習事例と当該学習事例に対する、所定の2値のうちのいずれかを示すラベルとを含む複数のセットと、各学習事例に対する係数値とに基づいて、仮説モデルを学習する第1ステップと、
前記仮説モデルと前記各学習事例とに基づき、前記学習事例毎に前記2値のいずれかに対応する傾向及び当該傾向の程度を示す分類結果を求める第2ステップと、
前記学習事例のうち、前記分類結果における前記傾向が、対応する前記ラベルに対応する学習事例を特定し、特定した各学習事例について、対応する前記係数値と、前記分類結果における前記程度との積を求め、当該積の第1合計を算出する第3ステップと、
前記学習事例のうち、前記分類結果における前記傾向が、対応する前記ラベルに対応しない学習事例を特定し、特定した各学習事例について、対応する前記係数値と、前記分類結果における前記程度との積を求め、当該積の第2合計を算出する第4ステップと、
前記第2合計に対する前記第1合計の比の対数を、前記各分類結果における前記程度の絶対値のうちの最大値の2倍の値で除することによって、前記仮説モデルの確信度を算出する第5ステップと
を含み、コンピュータにより実行される情報処理方法。
(Appendix 3)
A first step of learning a hypothesis model based on a plurality of sets including a learning case and a label indicating one of predetermined two values for the learning case, and a coefficient value for each learning case;
A second step of obtaining a classification result indicating a tendency corresponding to one of the two values and a degree of the tendency for each learning case based on the hypothesis model and each learning case;
Among the learning cases, the tendency in the classification result identifies a learning case corresponding to the corresponding label, and for each learning case specified, the product of the corresponding coefficient value and the degree in the classification result And calculating a first sum of the products,
Among the learning cases, the tendency in the classification result identifies a learning case that does not correspond to the corresponding label, and for each learning case specified, the product of the corresponding coefficient value and the degree in the classification result And calculating a second sum of the products,
The confidence of the hypothesis model is calculated by dividing the logarithm of the ratio of the first sum to the second sum by a value twice the maximum of the absolute values of the degree in each classification result. An information processing method including a fifth step and executed by a computer.
(付記4)
前記第1ステップ乃至前記第5ステップを繰り返す各ラウンドにおいて、当該ラウンドにおける前記各学習事例に対する係数値を用いて、当該ラウンドにおける仮説モデル及び当該仮説モデルの確信度を算出し、
更に、
前記各ラウンドにおける前記確信度に基づいて、当該ラウンドにおける前記仮説モデルを結合させることによって学習モデルを更新する第6ステップと、
前記確信度に基づいて、各学習事例に対する係数値を次のラウンドのための係数値に更新する第7ステップと
を含む付記3記載の情報処理方法。
(Appendix 4)
In each round of repeating the first step to the fifth step, using the coefficient value for each learning case in the round, calculate the hypothesis model in the round and the certainty of the hypothesis model,
Furthermore,
A sixth step of updating the learning model by combining the hypothesis model in the round based on the certainty factor in each round;
The information processing method according to supplementary note 3, including a seventh step of updating a coefficient value for each learning case to a coefficient value for the next round based on the certainty factor.
(付記5)
学習事例と当該学習事例に対する、所定の2値のうちのいずれかを示すラベルとを含む複数のセットと、各学習事例に対する係数値とに基づいて、仮説モデルを学習する第1ステップと、
前記仮説モデルと前記各学習事例とに基づき、前記学習事例毎に前記2値のいずれかに対応する傾向及び当該傾向の程度を示す分類結果を求める第2ステップと、
前記学習事例のうち、前記分類結果における前記傾向が、対応する前記ラベルに対応する学習事例を特定し、特定した各学習事例について、対応する前記係数値と、前記分類結果における前記程度との積を求め、当該積の第1合計を算出する第3ステップと、
前記学習事例のうち、前記分類結果における前記傾向が、対応する前記ラベルに対応しない学習事例を特定し、特定した各学習事例について、対応する前記係数値と、前記分類結果における前記程度との積を求め、当該積の第2合計を算出する第4ステップと、
前記第2合計に対する前記第1合計の比の対数を、前記各分類結果における前記程度の絶対値のうちの最大値の2倍の値で除することによって、前記仮説モデルの確信度を算出する第5ステップと
をコンピュータに実行させる情報処理プログラム。
(Appendix 5)
A first step of learning a hypothesis model based on a plurality of sets including a learning case and a label indicating one of predetermined two values for the learning case, and a coefficient value for each learning case;
A second step of obtaining a classification result indicating a tendency corresponding to one of the two values and a degree of the tendency for each learning case based on the hypothesis model and each learning case;
Among the learning cases, the tendency in the classification result identifies a learning case corresponding to the corresponding label, and for each learning case specified, the product of the corresponding coefficient value and the degree in the classification result And calculating a first sum of the products,
Among the learning cases, the tendency in the classification result identifies a learning case that does not correspond to the corresponding label, and for each learning case specified, the product of the corresponding coefficient value and the degree in the classification result And calculating a second sum of the products,
The confidence of the hypothesis model is calculated by dividing the logarithm of the ratio of the first sum to the second sum by a value twice the maximum of the absolute values of the degree in each classification result. An information processing program for causing a computer to execute the fifth step.
101 学習データ入力部 103 学習データ格納部
105 モデル学習部 106 パラメータ記憶部
107 重みデータ格納部 108 確信度格納部
109 モデルデータ格納部 111 対象データ入力部
113 対象データ格納部 115 モデル適用部
117 分類結果格納部 119 出力部
121 受付部 201 ブースティング部
203 弱学習部 205 初期化部
207 確信度算出部 209 結合モデル更新部
211 重み更新部 601 学習事例データ
701 ラベルデータ 801 結合モデルデータ
901 重みデータ 1001 弱仮説データ
1201 分類結果データ 2201 処理対象データ
DESCRIPTION OF
Claims (4)
前記仮説モデルと前記各学習事例とに基づき、前記学習事例毎に前記2値のいずれかに対応する傾向及び当該傾向の程度を示す分類結果を求め、
前記学習事例のうち、前記分類結果における前記傾向が、対応する前記ラベルに対応する学習事例を特定し、特定した各学習事例について、対応する前記係数値と、前記分類結果における前記程度との積を求め、当該積の第1合計を算出し、
前記学習事例のうち、前記分類結果における前記傾向が、対応する前記ラベルに対応しない学習事例を特定し、特定した各学習事例について、対応する前記係数値と、前記分類結果における前記程度との積を求め、当該積の第2合計を算出し、
前記第2合計に対する前記第1合計の比の対数を、前記各分類結果における前記程度の絶対値のうちの最大値の2倍の値で除することによって、前記仮説モデルの確信度を算出する算出部と
を含む情報処理装置。 A learning unit for learning a hypothesis model based on a plurality of sets including a learning case and a label indicating any one of predetermined two values for the learning case, and a coefficient value for each learning case;
Based on the hypothesis model and each learning case, obtain a classification result indicating the tendency corresponding to any of the two values and the degree of the tendency for each learning case,
Among the learning cases, the tendency in the classification result identifies a learning case corresponding to the corresponding label, and for each learning case specified, the product of the corresponding coefficient value and the degree in the classification result And calculate the first sum of the products,
Among the learning cases, the tendency in the classification result identifies a learning case that does not correspond to the corresponding label, and for each learning case specified, the product of the corresponding coefficient value and the degree in the classification result And calculate the second sum of the products,
The confidence of the hypothesis model is calculated by dividing the logarithm of the ratio of the first sum to the second sum by a value twice the maximum of the absolute values of the degree in each classification result. An information processing apparatus including a calculation unit.
前記各ラウンドにおける前記確信度に基づいて、当該ラウンドにおける前記仮説モデルを結合させることによって学習モデルを更新する第1更新部と、
前記確信度に基づいて、各学習事例に対する係数値を次のラウンドのための係数値に更新する第2更新部と
を含む請求項1記載の情報処理装置。 The calculation unit calculates a hypothesis model and a certainty factor of the hypothesis model in the round using a coefficient value for each learning case in the round in each round repeated a plurality of times,
A first update unit that updates the learning model by combining the hypothesis model in the round based on the certainty factor in each round;
The information processing apparatus according to claim 1, further comprising: a second updating unit that updates a coefficient value for each learning case to a coefficient value for the next round based on the certainty factor.
前記仮説モデルと前記各学習事例とに基づき、前記学習事例毎に前記2値のいずれかに対応する傾向及び当該傾向の程度を示す分類結果を求める第2ステップと、
前記学習事例のうち、前記分類結果における前記傾向が、対応する前記ラベルに対応する学習事例を特定し、特定した各学習事例について、対応する前記係数値と、前記分類結果における前記程度との積を求め、当該積の第1合計を算出する第3ステップと、
前記学習事例のうち、前記分類結果における前記傾向が、対応する前記ラベルに対応しない学習事例を特定し、特定した各学習事例について、対応する前記係数値と、前記分類結果における前記程度との積を求め、当該積の第2合計を算出する第4ステップと、
前記第2合計に対する前記第1合計の比の対数を、前記各分類結果における前記程度の絶対値のうちの最大値の2倍の値で除することによって、前記仮説モデルの確信度を算出する第5ステップと
を含み、コンピュータにより実行される情報処理方法。 A first step of learning a hypothesis model based on a plurality of sets including a learning case and a label indicating one of predetermined two values for the learning case, and a coefficient value for each learning case;
A second step of obtaining a classification result indicating a tendency corresponding to one of the two values and a degree of the tendency for each learning case based on the hypothesis model and each learning case;
Among the learning cases, the tendency in the classification result identifies a learning case corresponding to the corresponding label, and for each learning case specified, the product of the corresponding coefficient value and the degree in the classification result And calculating a first sum of the products,
Among the learning cases, the tendency in the classification result identifies a learning case that does not correspond to the corresponding label, and for each learning case specified, the product of the corresponding coefficient value and the degree in the classification result And calculating a second sum of the products,
The confidence of the hypothesis model is calculated by dividing the logarithm of the ratio of the first sum to the second sum by a value twice the maximum of the absolute values of the degree in each classification result. An information processing method including a fifth step and executed by a computer.
前記仮説モデルと前記各学習事例とに基づき、前記学習事例毎に前記2値のいずれかに対応する傾向及び当該傾向の程度を示す分類結果を求める第2ステップと、
前記学習事例のうち、前記分類結果における前記傾向が、対応する前記ラベルに対応する学習事例を特定し、特定した各学習事例について、対応する前記係数値と、前記分類結果における前記程度との積を求め、当該積の第1合計を算出する第3ステップと、
前記学習事例のうち、前記分類結果における前記傾向が、対応する前記ラベルに対応しない学習事例を特定し、特定した各学習事例について、対応する前記係数値と、前記分類結果における前記程度との積を求め、当該積の第2合計を算出する第4ステップと、
前記第2合計に対する前記第1合計の比の対数を、前記各分類結果における前記程度の絶対値のうちの最大値の2倍の値で除することによって、前記仮説モデルの確信度を算出する第5ステップと
をコンピュータに実行させる情報処理プログラム。 A first step of learning a hypothesis model based on a plurality of sets including a learning case and a label indicating one of predetermined two values for the learning case, and a coefficient value for each learning case;
A second step of obtaining a classification result indicating a tendency corresponding to one of the two values and a degree of the tendency for each learning case based on the hypothesis model and each learning case;
Among the learning cases, the tendency in the classification result identifies a learning case corresponding to the corresponding label, and for each learning case specified, the product of the corresponding coefficient value and the degree in the classification result And calculating a first sum of the products,
Among the learning cases, the tendency in the classification result identifies a learning case that does not correspond to the corresponding label, and for each learning case specified, the product of the corresponding coefficient value and the degree in the classification result And calculating a second sum of the products,
The confidence of the hypothesis model is calculated by dividing the logarithm of the ratio of the first sum to the second sum by a value twice the maximum of the absolute values of the degree in each classification result. An information processing program for causing a computer to execute the fifth step.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014241717A JP6402607B2 (en) | 2014-11-28 | 2014-11-28 | Information processing apparatus, information processing method, and information processing program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014241717A JP6402607B2 (en) | 2014-11-28 | 2014-11-28 | Information processing apparatus, information processing method, and information processing program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016103192A JP2016103192A (en) | 2016-06-02 |
JP6402607B2 true JP6402607B2 (en) | 2018-10-10 |
Family
ID=56088996
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014241717A Expired - Fee Related JP6402607B2 (en) | 2014-11-28 | 2014-11-28 | Information processing apparatus, information processing method, and information processing program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6402607B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6781950B2 (en) * | 2016-10-12 | 2020-11-11 | オムロン株式会社 | Identification information assignment system, identification information assignment method, and its program |
JP7347198B2 (en) * | 2019-12-20 | 2023-09-20 | 富士通株式会社 | Inference method, inference program and information processing device |
-
2014
- 2014-11-28 JP JP2014241717A patent/JP6402607B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2016103192A (en) | 2016-06-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | Flexmatch: Boosting semi-supervised learning with curriculum pseudo labeling | |
CN111373417B (en) | Apparatus and method relating to data classification based on metric learning | |
US10460230B2 (en) | Reducing computations in a neural network | |
US11461295B2 (en) | Data migration system | |
JP5454827B1 (en) | Document evaluation apparatus, document evaluation method, and program | |
US9607246B2 (en) | High accuracy learning by boosting weak learners | |
CN110135582B (en) | Neural network training method, neural network training device, image processing method, image processing device and storage medium | |
Sokolov et al. | Stochastic structured prediction under bandit feedback | |
US20200320440A1 (en) | System and Method for Use in Training Machine Learning Utilities | |
WO2020009881A1 (en) | Analyzing and correcting vulnerabillites in neural networks | |
JP6402607B2 (en) | Information processing apparatus, information processing method, and information processing program | |
EP4091170A1 (en) | Application of pathogenicity model and training thereof | |
CN110991494A (en) | Method for constructing prediction model based on improved moth optimization algorithm | |
US9348810B2 (en) | Model learning method | |
CN113568820A (en) | Method, apparatus, electronic device and medium for monitoring model | |
Akbar et al. | Optimizing Software Defect Prediction Models: Integrating Hybrid Grey Wolf and Particle Swarm Optimization for Enhanced Feature Selection with Popular Gradient Boosting Algorithm | |
Adel et al. | A probabilistic covariate shift assumption for domain adaptation | |
CN113656669B (en) | Label updating method and device | |
WO2023177666A1 (en) | Deep learning systems and methods to disambiguate false positives in natural language processing analytics | |
WO2020144736A1 (en) | Semantic relation learning device, semantic relation learning method, and semantic relation learning program | |
JP6233432B2 (en) | Method and apparatus for selecting mixed model | |
CN114912549A (en) | Training method of risk transaction identification model, and risk transaction identification method and device | |
JP5206196B2 (en) | Rule learning method, program and apparatus | |
US20220222544A1 (en) | Analysis device, analysis method, and analysis program | |
WO2019057529A1 (en) | Evaluating input data using a deep learning algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170804 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180730 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180814 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180827 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6402607 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |