JP2012173793A - Predictor selection device, predictor selection method, and predictor selection program - Google Patents
Predictor selection device, predictor selection method, and predictor selection program Download PDFInfo
- Publication number
- JP2012173793A JP2012173793A JP2011032316A JP2011032316A JP2012173793A JP 2012173793 A JP2012173793 A JP 2012173793A JP 2011032316 A JP2011032316 A JP 2011032316A JP 2011032316 A JP2011032316 A JP 2011032316A JP 2012173793 A JP2012173793 A JP 2012173793A
- Authority
- JP
- Japan
- Prior art keywords
- cluster
- predictor
- training
- similarity
- database
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、テキストや画像などの高次元のベクトルで表現できる情報を用いて予測(例えば分類やランキングなど)を行う技術に関する。 The present invention relates to a technique for performing prediction (for example, classification or ranking) using information that can be expressed by a high-dimensional vector such as text or an image.
周知のようにテキストや画像などのデータを高次元ベクトルで表現し、クラスを予測するにあたってはクラスタ毎に生成した予測器(モデル)が利用されている。その際には、同じ特性を持った訓練データをひとつのクラスタ(訓練クラスタ)にまとめることで訓練データを複数のクラスタに分割し、それぞれのクラスタに含まれる訓練データを用いて予測器を生成し、入力されたテストデータ群(テストクラスタ)に対して適切な予測器を選択的に利用する予測方式が有効である。 As is well known, a predictor (model) generated for each cluster is used to express data such as text and images as a high-dimensional vector and predict a class. In that case, the training data having the same characteristics are grouped into one cluster (training cluster) to divide the training data into multiple clusters, and a predictor is generated using the training data contained in each cluster. A prediction method that selectively uses an appropriate predictor for the input test data group (test cluster) is effective.
この方式において、予測器を生成したクラスタの選択方式としては、図4および図5に示すように、テストクラスタに対しては各モデルの性能を評価できないためテストクラスタに対する類似度が最大の訓練クラスタを選択し、選択された訓練クラスタの生成したモデルをテストクラスタに適用する方法が知られている。 In this method, as a method of selecting a cluster that has generated a predictor, as shown in FIGS. 4 and 5, the performance of each model cannot be evaluated for the test cluster, so the training cluster having the maximum similarity to the test cluster is used. Is selected, and a model generated by the selected training cluster is applied to the test cluster.
そして、従来は、非特許文献1に示すように、訓練データを用いてテクストクラスタに対して最良の性能を示すモデルを生成するクラスタの類似度を最大化するような特徴空間に変換するための変換行列を生成し、訓練クラスタの選択精度を向上させている。 Conventionally, as shown in Non-Patent Document 1, the training data is used to convert a feature space that maximizes the similarity of the cluster that generates a model that shows the best performance for the text cluster. A transformation matrix is generated to improve training cluster selection accuracy.
しかしながら、最適な予測器は、与えられたクラスタに含まれるデータに対する予測器の性能によって評価されることから、図6に示すように、テストクラスタCDの最適な予測を行う予測器MBを生成する訓練クラスタMBに対して、テストクラスタCDから生成された予測器MDが最適であるとは限らない。このような場合の予測器選択にあってはクラスタ間の類似度は対称ではない。 However, since the optimal predictor is evaluated by the performance of the predictor with respect to data included in a given cluster, a predictor MB that performs optimal prediction of the test cluster CD is generated as shown in FIG. The predictor MD generated from the test cluster CD is not always optimal for the training cluster MB. In the predictor selection in such a case, the similarity between clusters is not symmetric.
ところが、従来は、特許文献1のようにクラスタ間の類似度として対称な類似度の距離尺度を用いているため、非対称な類似関係に対してクラスタ間の類似度を最適化することができず、テストクラスタに対して最適な予測器を選択できないおそれがある。 However, conventionally, since a symmetric similarity distance measure is used as the similarity between clusters as in Patent Document 1, the similarity between clusters cannot be optimized for an asymmetric similarity. The optimal predictor may not be selected for the test cluster.
本発明は、上述のような従来技術の問題点を解決するためになされたものであり、非対称な類似関係に対して最適な予測器を選択可能とする技術の提供を解決課題としている。 The present invention has been made in order to solve the above-described problems of the prior art, and an object of the present invention is to provide a technique capable of selecting an optimal predictor for an asymmetric similarity relationship.
そこで、本発明は、事前に訓練データに基づき非対称な類似度を最大とする変換行列を生成し、生成された変換行列を利用して入力されたテストクラスタの予測器を選択する。 Therefore, the present invention generates a transformation matrix that maximizes the asymmetric similarity based on the training data in advance, and selects a predictor of the input test cluster using the generated transformation matrix.
本発明に係る予測器選択装置の一態様は、訓練クラスタの特徴表現を保存するクラスタ表現データベースと、訓練クラスタ間の非対称な類似度を最大化する変換行列を保存する変換行列データベースと、テストクラスタの特徴表現を変換行列データベースに保存された変換行列にて変換し、変換されたテストクラスタの特徴表現とクラスタ表現データベースに保存された各特徴表現との類似度を算出し、算出された類似度が最大の訓練クラスタをテストクラスタに最適な予測器を生成するクラスタと特定する類似度計算手段と、類似度計算手段にて特定されたクラスタから生成された予測器を選択し、選択された予測器を出力する予測器選択手段と、を備える。 One aspect of a predictor selection device according to the present invention includes a cluster expression database that stores feature expressions of training clusters, a transformation matrix database that stores transformation matrices that maximize asymmetric similarity between training clusters, and a test cluster. The feature expression is converted using the transformation matrix stored in the transformation matrix database, and the similarity between the converted feature representation of the test cluster and each feature representation saved in the cluster representation database is calculated, and the calculated similarity The similarity calculation means that identifies the training cluster with the largest training cluster as the test cluster and the predictor generated from the cluster specified by the similarity calculation means is selected, and the selected prediction is selected. Predictor selection means for outputting the output.
本発明に係る予測器選択装置の他の態様は、訓練クラスタの特徴表現を保存するクラスタ表現データベースと、訓練クラスタ毎に最適な予測器を生成する訓練クラスタをクラスタ組として保存する最適情報データベースと、最適情報データベースのクラスタ組の特徴表現をクラスタ表現データベースから取得し、一方の訓練クラスタの特徴表現を変換後にクラスタ組の非対称の類似度を最大化する変換行列を生成する変換行列生成手段と、変換行列生成手段の生成した変換行列にてテストクラスタの特徴表現を変換し、変換されたテストクラスタの特徴表現とクラスタ表現データベースに保存された各特徴表現との類似度を算出し、算出された類似度が最大の訓練クラスタをテストクラスタに最適な予測器を生成するクラスタと特定する類似度計算手段と、類似度計算手段にて特定されたクラスタから生成された予測器を選択し、選択された予測器を出力する予測器選択手段と、を備える。 Another aspect of the predictor selection apparatus according to the present invention includes a cluster expression database that stores a feature expression of a training cluster, an optimal information database that stores a training cluster that generates an optimal predictor for each training cluster as a cluster set, and A transformation matrix generating means for obtaining a feature representation of the cluster set of the optimal information database from the cluster representation database, and generating a transformation matrix that maximizes the asymmetric similarity of the cluster set after transforming the feature representation of one training cluster; The feature expression of the test cluster is converted by the conversion matrix generated by the conversion matrix generation means, and the similarity between the converted feature expression of the test cluster and each feature expression stored in the cluster expression database is calculated and calculated. Similarity that identifies the training cluster with the highest similarity to the cluster that produces the best predictor for the test cluster Comprising computing means, to select a predictor which is generated from the identified clusters by similarity calculation means, a predictor selecting means for outputting the selected predictor, the.
本発明に係る予測器選択方法の一態様は、テストクラスタの特徴表現を、変換行列データベースに保存された訓練クラスタ間の非対称な類似度を最大化する変換行列にて変換し、変換されたテストクラスタの特徴表現とクラスタ表現データベースに保存された各特徴表現との前記類似度を算出し、前記類似度が最大の訓練クラスタをテストクラスタに最適な予測器を生成するクラスタと特定する類似度計算ステップと、該特定されたクラスタから生成された予測器を選択し、選択された予測器を出力する予測器選択ステップと、を有する。 According to one aspect of the predictor selection method of the present invention, a feature expression of a test cluster is transformed with a transformation matrix that maximizes asymmetric similarity between training clusters stored in a transformation matrix database, and a transformed test is performed. The similarity calculation between the feature expression of the cluster and each feature expression stored in the cluster expression database is calculated, and the training cluster having the maximum similarity is identified as the cluster that generates the best predictor for the test cluster. And a predictor selection step of selecting a predictor generated from the identified cluster and outputting the selected predictor.
本発明に係る予測器選択方法の他の態様は、訓練クラスタ毎に最適な予測器を生成する訓練クラスタをクラスタ組として保存する最適情報データベースのクラスタ組の特徴表現を、訓練クラスタの特徴表現を保存するクラスタ表現データベースから取得し、一方の訓練クラスタの特徴表現を変換後にクラスタ組の非対称の類似度を最大化する変換行列を生成する変換行列生成ステップと、該生成された変換行列にてテストクラスタの特徴表現を変換し、変換されたテストクラスタの特徴表現とクラスタ表現データベースに保存された各特徴表現との類似度を算出し、算出された類似度が最大の訓練クラスタをテストクラスタに最適な予測器を生成するクラスタと特定する類似度計算ステップと、該特定されたクラスタから生成された予測器を選択し、選択された予測器を出力する予測器選択ステップと、を有する。 In another aspect of the predictor selection method according to the present invention, the feature information of the cluster set of the optimal information database that stores the training cluster that generates the optimal predictor for each training cluster is stored as the cluster set, and the feature expression of the training cluster. A transformation matrix generation step that generates a transformation matrix that maximizes the asymmetric similarity of a cluster set after transforming the feature representation of one training cluster obtained from the saved cluster representation database, and testing with the generated transformation matrix The cluster feature representation is converted, and the similarity between the converted test cluster feature representation and each feature representation stored in the cluster representation database is calculated, and the training cluster with the largest calculated similarity is optimal for the test cluster. A similarity calculation step for identifying a cluster for generating a predictor, and a predictor generated from the identified cluster. And-option, having a predictor selecting step of outputting the selected predictor.
前記予測器の選択にあたっては、各訓練クラスタから生成された予測器を保存する予測器データベースから選択することもできる。なお、本発明は、前記各装置としてコンピュータを機能させるプログラムの態様としてもよい。このプログラムは、ネットワークや記録媒体などを通じて提供することができる。 In selecting the predictor, the predictor can be selected from a predictor database that stores the predictors generated from each training cluster. In addition, this invention is good also as an aspect of the program which makes a computer function as said each apparatus. This program can be provided through a network or a recording medium.
本発明によれば、非対称な類似関係に対して最適な予測器を選択することができる。 According to the present invention, an optimal predictor can be selected for an asymmetric similarity relationship.
図1および図2に基づき本発明の実施形態に係る予測器選択装置を説明する。この選択装置1は、非対称な類似度(Asymmetric Similarity)に対して該類似度を最大とする変換行列を生成する変換行列生成装置2を備え、クラスの予測にあたって変換行列生成装置2で生成された変換行列を利用して入力されたテストクラスタの最適な予測器を選択する。
A predictor selection apparatus according to an embodiment of the present invention will be described with reference to FIGS. 1 and 2. The selection device 1 includes a transformation
具体的には、前記選択装置1は、コンピュータにより構成され、通常のコンピュータのハードウェアリソース、例えばCPU.メモリ(RAM).ハードディスクドライブ装置などを備える。このハードウェアリソースとソフトウェアリソース(OS.アプリケーションなど)との協働の結果、前記選択装置1は、図1および図2に示すように、クラスタ表現DB10,最適予測器情報DB20,変換行列生成部(変換行列生成装置2に相当する。)30,変換行列DB40,類似度計算部50,予測器DB60,予測器選択部70を実装する。
Specifically, the selection device 1 is configured by a computer, and hardware resources of a normal computer such as a CPU. Memory (RAM). Includes a hard disk drive device. As a result of the cooperation between the hardware resource and the software resource (OS. Application, etc.), the selection device 1 has a
ここでは各DB10.20.40.60は、メモリ(RAM)やハードディスクドライブ装置などの記憶装置に構築されているものとする。この各部10〜70によれば、事前に作成された前記変換行列を保存する変換行列作成ステージと、保存された前記変換行列にて入力されたテクストクラスタの前記類似度を最大とする予測器を選択する予測器選択ステージとが実行される。
Here, it is assumed that each DB 10.20.40.60 is constructed in a storage device such as a memory (RAM) or a hard disk drive device. According to each of the
すなわち、クラスタ表現DB10には訓練クラスタの特徴表現(特徴ベクトル)が保存され、最適予測器情報DB20には訓練クラスタ組、即ち訓練クラスタ毎に最適な予測器を生成するクラスタがペアで保存されている。このとき変換行列作成ステージでは、変換行列生成部30が、図2に示すように、前記DB20のクラスタ組のクラスタ表現データベースに保存された特徴表現を取得し、一方の特徴変換後に前記クラスタ組の非対称の類似度を最大化する変換行列を生成する。生成した変換行列を変換行列DB40に保存する。
That is, the
また、予測器選択ステージでは、類似度計算部50が、図1に示すように、入力されたテストクラスタの特徴表現を前記DB40の変換行列にて変換する。変換されたテストクラスタの特徴表現と、前記DB10に保存された各特徴表現との前記類似度を算出する。算出された類似度が最大の訓練クラスタをテストクラスタにとって最適な予測器を生成するクラスタと特定する。
Further, in the predictor selection stage, the
予測器選択部70は、各訓練クラスタから生成された予測器のパラメータを保存する前記DB60から予測器を選択する。すなわち、前記DB60を参照して類似度計算部50にて特定されたクラスタから生成された予測器を選択し、選択された予測器を出力する。以下、各ステージの詳細を説明する。
The
≪変換行列生成ステージ≫
変換行列生成部30は、前記DB10.20を参照してその保存データを入力として受け取る。表1は、前記DB10のデータ構造例を示している。ここでは「c1,c2,...,cN」が訓練クラスタのクラスタIDを示し、各行がそれぞれの訓練クラスタの特徴表現を示している。なお、表1のデータ構造例では、訓練各クラスタの特徴がM次元の特徴ベクトル「x1,x2,...,xM」で表現され、i行j列目の値は訓練クラスタciのj番目の特徴値を示している。
≪Transformation matrix generation stage≫
The transformation
表2は、前記DB20のデータ構造例を示し、テストクラスタIDはテストクラスタに擬制された訓練クラスタのIDを示している。すなわち、ある訓練クラスタをテストクラスタと擬制し、その他の訓練クラスタのうち最良の予測性能を示した予測器を生成する訓練クラスタが最適予測器生成クラスタとして選択されている。ここで選択された訓練クラスタのIDが、テストクラスタに擬制された訓練クラスタのクラスタID毎に記述されている。
Table 2 shows an example of the data structure of the
ここで変換行列生成部30は、表1.2のような前記DB10.20の保存データを入力として受け取ると、前記DB20に保存されたクラスタ組「テストクラスタ(ID):最適予測器生成クラスタ(ID)」の特徴表現を前記DB10の保存データから取得する。ここで取得されたテストクラスタの特徴表現の変換後にクラスタ組「テストクラスタ(ID):最適予測器生成クラスタ(ID)」の類似度を最大化するような変換行列を生成し、生成された変換行列を前記DB40に保存する(変換行列生成ステップ)。
Here, when receiving the storage data of the DB 10.20 as shown in Table 1.2 as an input, the transformation
この類似度は、図6に示すような非対称の類似度を意味し、例えば一般化カルバックライブラーダイバージェンス「Generalized Kullback−Leibler divergence(gkld)」を用いることができる。この一般化カルバックライブラーダイバージェンスは式(1)で与えられる。 This similarity means an asymmetric similarity as shown in FIG. 6, and for example, generalized Kullback library divergence “Generalized Kullback-Leibler divergence (gkld)” can be used. This generalized Kullback library divergence is given by equation (1).
ここで「0≧p,q」が必要であるため、訓練クラスタの特徴表現xに対するテストクラスタ(テストクラスタに擬制された訓練クラスタ)の特徴表現yを、「p=exp(x),q=exp(y)」とすることにより、あらゆる実数値を扱うことができる。この際に訓練クラスタの特徴表現xに対するテストクラスタの特徴表現yは式(2)にしたがって算出できる。 Here, since “0 ≧ p, q” is necessary, the feature expression y of the test cluster (training cluster simulated by the test cluster) with respect to the feature expression x of the training cluster is expressed as “p = exp (x), q = By setting “exp (y)”, any real value can be handled. At this time, the feature expression y of the test cluster with respect to the feature expression x of the training cluster can be calculated according to the equation (2).
この式(2)を、変換行列Wを用いてテストクラスタの特徴表現を特徴変換「y→yTwi」した後の類似度は式(3)で計算することができる。ここで「G(x,y)」の二乗を損失関数とすると「wi」の推定値は式(4)にしたがって求めることができる。 The similarity after the expression (2) is subjected to the characteristic conversion “y → y T w i ” of the feature expression of the test cluster using the conversion matrix W can be calculated by the expression (3). Here, assuming that the square of “G (x, y)” is a loss function, an estimated value of “w i ” can be obtained according to Equation (4).
この推定値の計算には、損失関数の勾配情報を用いて最急降下法、ニュートン法、BFGS「Broyden−Fletcher−Goldfarb−Shanno」法などの非線形最適化手法などを用いるとことができる。なお、式(1)〜(4)はプログラムなどに定義されているものとする。 For the calculation of the estimated value, a non-linear optimization method such as a steepest descent method, a Newton method, or a BFGS “Broyden-Fletcher-Goldfarb-Shanno” method can be used using the gradient information of the loss function. Expressions (1) to (4) are defined in a program or the like.
≪予測器選択ステージ≫
(1)類似度計算部50
類似度計算部50は、入力されたテクストクラスタと前記DB10.40の保存データを入力として受け取る。ここでは前記DB40の変換行列を用いて入力されたテストクラスタの特徴表現を変換し、前記DB10の訓練クラスタ特徴との前記類似度を計算する。この類似度が最大の訓練クラスタを前記DB10中から探索し、探索された訓練クラスタを最適な予測器を生成するクラスタとしてクラスタIDを出力する。
≪Predictor selection stage≫
(1)
The
図3に基づき処理内容を詳述すれば、テストクラスタが図示省略の入力部に入力されると類似度計算部50の処理が開始される。処理が開始されると、まず、メモリ(RAM)に記憶された「最大類似度smax」・「最適クラスタcbest」を初期化する(S01)。この初期化は「smax←0」および「cbest←NONE」に書き換えることで実行される。
The processing contents will be described in detail with reference to FIG. 3. When a test cluster is input to an input unit (not shown), the processing of the
つぎに前記DB40から変換行列wiを取得し、入力されたテストクラスタctestの特徴表現を特徴変換「y→yTwi」する(S02)。この変換後に前記DB10の保存データ中にS05以下を未処理のクラスタckが存在するか否かを確認する(S03)。
Next, the transformation matrix w i is obtained from the
この確認の結果、未処理のクラスタckが存在すれば、入力テストクラスタctestのクラスタckに対する類似度skを算出する(S06)。類似度skの算出には式(3)を用いればよい。ここで算出された類似度skが最大値「smax」よりも大きいか否か、即ち「sk>smax」が成立するか否かが確認され(S06)、成立しなければS03に戻る一方、成立すればS07に進む。S07では、メモリ(RAM)に記憶された「最大類似度smax」・「最適クラスタcbest」を書き換える。ここでは「最大類似度smax」をS06で算出された類似度skに更新「smax←sk」し、最適な予測器を生成するクラスタとして当該クラスタckを記憶「cbest←ck」する。 If there is an unprocessed cluster c k as a result of this confirmation, the similarity s k with respect to the cluster c k of the input test cluster c test is calculated (S06). Equation (3) may be used to calculate the similarity s k . It is confirmed whether or not the similarity s k calculated here is larger than the maximum value “s max ”, that is, whether or not “s k > s max ” is satisfied (S06). On the other hand, if established, the process proceeds to S07. In S07, “maximum similarity s max ” and “optimum cluster c best ” stored in the memory (RAM) are rewritten. Here, the “maximum similarity s max ” is updated to the similarity s k calculated in S06 “s max ← s k ”, and the cluster ck is stored as a cluster for generating an optimal predictor “c best ← c k ".
このS07の処理後にS03に戻って前記DB10の保存データ中に未処理のクラスタckが存在しなくなるまでS05〜S07が繰り返され、該クラスタckが無くなればメモリ(RAM)に記憶された「最適クラスタcbest」のクラスタIDを予測器選択部70に出力し、処理を終了する。
After the process of S07, the process returns to S03, and S05 to S07 are repeated until there is no unprocessed cluster ck in the stored data of the
(2)予測器選択部70
予測器選択部70は、類似度計算部50から「最適クラスタcbest」のクラスタIDを受け取ると、前記DB60を参照して最適予測器を図示省略の出力部を通じてモニタなどに出力する。
(2)
When the
表3は、前記DB60のデータ構造例を示し、各訓練クラスタから生成された予測器のパラメータが格納されている。ここでは線形モデル予測器におけるパラメータのデータ構造が示されているが、これに限定されずにあらゆる学習アルゴリズムを用いて生成された予測器の情報を前記DB60に保存することができる。具体的には、表3のデータ構造例中、「c1,c2,...,cN」が訓練クラスタのクラスタIDを示し、各行がそれぞれの訓練クラスタの特徴表現に対する重みを示し、i行j番目の値は訓練クラスタciのj番目の特徴に対する重みの値を示している。
Table 3 shows an example of the data structure of the
そして、予測器選択部70は、類似度計算部50から出力されたクラスタIDの予測器を前記DB60の保存データから選択し、選択された予測器を出力する。出力された予測器は、例えばテキストや画像とった高次元ベクトルで表現できる情報の予測(分類やランキング)に利用される。
And the
このように前記選択装置1によれば、非対称な類似度指標(例えば一般カルバックライブラーダイバージェンス)に基づいてクラスタに対して最適な予測器を生成するクラスタの類似度を最大化する変換行列を生成して前記DB40に保存される。この保存データに基づき入力テストクラスタと前記DB10の訓練クラスタとの類似度を計算し、該類似度が最大の訓練クラスタのクラスタIDが予測器選択部70に出力されることから、入力テストクラスタに対する予測器選択の精度が向上する。これにより入力テストクラスタに含まれるデータの予測制度を向上させることができる。
As described above, according to the selection device 1, a transformation matrix that maximizes the similarity of a cluster that generates an optimal predictor for the cluster is generated based on an asymmetric similarity index (for example, general Cullback library divergence). And stored in the
なお、本発明は、上記実施形態に限定されるものではなく、装置構成などは各請求項に記載された範囲内で変形することができる。例えば変換行列生成装置2(変換行列生成部30)は、必ずしも予測器選択装置1内に組み込まれている必要はなく、別個の装置として構成してもよい。この場合には前記DB20.40は、それぞれの装置1.2にて共有して備えればよい。 In addition, this invention is not limited to the said embodiment, A device structure etc. can be deform | transformed within the range described in each claim. For example, the transformation matrix generation device 2 (transformation matrix generation unit 30) is not necessarily incorporated in the predictor selection device 1, and may be configured as a separate device. In this case, the DB 20.40 may be shared by each device 1.2.
≪プログラムなど≫
本発明は、予測器選択装置1(変換行列生成装置2を含む。)の各部10.20.30.40.50.60.70の一部もしくは全部として、コンピュータを機能させる文書検索プログラムとして構成することもできる。このプログラムによれば、前記各ステージの一部あるいは全部の処理をコンピュータに実行させることが可能となる。
≪Programs≫
The present invention is configured as a document search program that causes a computer to function as a part or all of each section 10.20.30.40.50.60.70 of the predictor selection apparatus 1 (including the transformation matrix generation apparatus 2). You can also According to this program, it is possible to cause a computer to execute part or all of the processing of each stage.
前記プログラムは、Webサイトや電子メールなどネットワークを通じて提供することができる。また、前記プログラムは、CD−ROM,DVD−ROM,CD−R,CD−RW,DVD−R,DVD−RW,MO,HDD,BD−ROM,BD−R,BD−REなどの記録媒体に記録して、保存・配布することも可能である。この記録媒体は、記録媒体駆動装置を利用して読み出され、そのプログラムコード自体が前記実施形態の処理を実現するので、該記録媒体も本発明を構成する。 The program can be provided through a network such as a website or e-mail. The program is stored in a recording medium such as a CD-ROM, DVD-ROM, CD-R, CD-RW, DVD-R, DVD-RW, MO, HDD, BD-ROM, BD-R, or BD-RE. It is also possible to record, save and distribute. This recording medium is read using a recording medium driving device, and the program code itself realizes the processing of the above embodiment, so that the recording medium also constitutes the present invention.
1…予測器選択装置
2…変換行列生成装置
10…クラスタ表現DB(クラスタ表現データベース)
20…最適予測器情報DB(クラスタ表現データベース)
30…変換行列生成部(変換行列生成手段)
40…変換行列DB(変換行列データベース)
50…類似度計算部(類似度計算手段)
60…予測器DB(予測器データベース)
70…予測器選択部(予測器選択手段)
DESCRIPTION OF SYMBOLS 1 ...
20 ... Optimal predictor information DB (cluster expression database)
30: Conversion matrix generation unit (conversion matrix generation means)
40 ... Transformation matrix DB (transformation matrix database)
50. Similarity calculation unit (similarity calculation means)
60 ... Predictor DB (Predictor database)
70: Predictor selection unit (predictor selection means)
Claims (7)
訓練クラスタの特徴表現を保存するクラスタ表現データベースと、
訓練クラスタ間の非対称な類似度を最大化する変換行列を保存する変換行列データベースと、
テストクラスタの特徴表現を変換行列データベースに保存された変換行列にて変換し、変換されたテストクラスタの特徴表現とクラスタ表現データベースに保存された各特徴表現との類似度を算出し、算出された類似度が最大の訓練クラスタをテストクラスタに最適な予測器を生成するクラスタと特定する類似度計算手段と、
類似度計算手段にて特定されたクラスタから生成された予測器を選択し、選択された予測器を出力する予測器選択手段と、
を備えることを特徴とする予測器選択装置。 When predicting a class of information that can be represented by a high-dimensional vector, this is a predictor selection device that generates predictors by dividing training data into training clusters and selects an appropriate predictor for the input test cluster. And
A cluster representation database that stores training cluster feature representations;
A transformation matrix database that stores transformation matrices that maximize asymmetric similarity between training clusters;
The feature expression of the test cluster is converted by the conversion matrix stored in the conversion matrix database, and the similarity between the converted feature expression of the test cluster and each feature expression stored in the cluster expression database is calculated and calculated. A similarity calculation means for identifying a training cluster having the maximum similarity as a cluster that generates an optimal predictor for the test cluster;
A predictor selection unit that selects a predictor generated from the cluster specified by the similarity calculation unit, and outputs the selected predictor;
A predictor selection device comprising:
訓練クラスタの特徴表現を保存するクラスタ表現データベースと、
訓練クラスタ毎に最適な予測器を生成する訓練クラスタをクラスタ組として保存する最適情報データベースと、
最適情報データベースのクラスタ組の特徴表現をクラスタ表現データベースから取得し、一方の訓練クラスタの特徴表現を変換後にクラスタ組の非対称の類似度を最大化する変換行列を生成する変換行列生成手段と、
変換行列生成手段の生成した変換行列にてテストクラスタの特徴表現を変換し、変換されたテストクラスタの特徴表現とクラスタ表現データベースに保存された各特徴表現との類似度を算出し、算出された類似度が最大の訓練クラスタをテストクラスタに最適な予測器を生成するクラスタと特定する類似度計算手段と、
類似度計算手段にて特定されたクラスタから生成された予測器を選択し、選択された予測器を出力する予測器選択手段と、
を備えることを特徴とする予測器選択装置。 When predicting a class of information that can be represented by a high-dimensional vector, this is a predictor selection device that generates predictors by dividing training data into training clusters and selects an appropriate predictor for the input test cluster. And
A cluster representation database that stores training cluster feature representations;
An optimal information database that stores training clusters as cluster sets that generate optimal predictors for each training cluster;
A transformation matrix generating means for obtaining a feature representation of the cluster set of the optimal information database from the cluster representation database, and generating a transformation matrix that maximizes the asymmetric similarity of the cluster set after transforming the feature representation of one training cluster;
The feature expression of the test cluster is converted by the conversion matrix generated by the conversion matrix generation means, and the similarity between the converted feature expression of the test cluster and each feature expression stored in the cluster expression database is calculated and calculated. A similarity calculation means for identifying a training cluster having the maximum similarity as a cluster that generates an optimal predictor for the test cluster;
A predictor selection unit that selects a predictor generated from the cluster specified by the similarity calculation unit, and outputs the selected predictor;
A predictor selection device comprising:
予測器選択手段は、類似度計算手段にて特定されたクラスタから生成された予測器を予測器データベースから選択する
ことを特徴とする請求項1または2のいずれか1項に記載の予測器選択装置。 A predictor database for storing predictors generated from each training cluster;
3. The predictor selection unit according to claim 1, wherein the predictor selection unit selects, from the predictor database, a predictor generated from the cluster specified by the similarity calculation unit. apparatus.
テストクラスタの特徴表現を、変換行列データベースに保存された訓練クラスタ間の非対称な類似度を最大化する変換行列にて変換し、変換されたテストクラスタの特徴表現とクラスタ表現データベースに保存された各特徴表現との前記類似度を算出し、前記類似度が最大の訓練クラスタをテストクラスタに最適な予測器を生成するクラスタと特定する類似度計算ステップと、
該特定されたクラスタから生成された予測器を選択し、選択された予測器を出力する予測器選択ステップと、
を有することを特徴とする予測器選択方法。 When predicting a class of information that can be represented by a high-dimensional vector, a predictor is executed by a device that generates a predictor by dividing training data into training clusters and selects an appropriate predictor for the input test cluster. A selection method,
The test cluster feature representation is transformed with a transformation matrix that maximizes the asymmetric similarity between the training clusters stored in the transformation matrix database, and the transformed test cluster feature representation and each saved in the cluster representation database Calculating the degree of similarity with a feature representation and identifying the training cluster with the largest degree of similarity as the cluster that generates the best predictor for the test cluster;
A predictor selection step of selecting a predictor generated from the identified cluster and outputting the selected predictor;
A predictor selection method characterized by comprising:
訓練クラスタ毎に最適な予測器を生成する訓練クラスタをクラスタ組として保存する最適情報データベースのクラスタ組の特徴表現を、訓練クラスタの特徴表現を保存するクラスタ表現データベースから取得し、一方の訓練クラスタの特徴表現を変換後にクラスタ組の非対称の類似度を最大化する変換行列を生成する変換行列生成ステップと、
該生成された変換行列にてテストクラスタの特徴表現を変換し、変換されたテストクラスタの特徴表現とクラスタ表現データベースに保存された各特徴表現との類似度を算出し、算出された類似度が最大の訓練クラスタをテストクラスタに最適な予測器を生成するクラスタと特定する類似度計算ステップと、
該特定されたクラスタから生成された予測器を選択し、選択された予測器を出力する予測器選択ステップと、
を有することを特徴とする予測器選択方法。 When predicting a class of information that can be represented by a high-dimensional vector, a predictor is executed by a device that generates a predictor by dividing training data into training clusters and selects an appropriate predictor for the input test cluster. A selection method,
The feature information of the cluster set of the optimal information database that stores the training cluster that generates the optimal predictor for each training cluster as the cluster set is obtained from the cluster expression database that stores the feature representation of the training cluster, A transformation matrix generating step that generates a transformation matrix that maximizes the asymmetric similarity of the cluster set after transforming the feature representation;
The feature expression of the test cluster is converted by the generated conversion matrix, the similarity between the converted feature expression of the test cluster and each feature expression stored in the cluster expression database is calculated, and the calculated similarity is A similarity calculation step that identifies the largest training cluster as the cluster that produces the best predictor for the test cluster;
A predictor selection step of selecting a predictor generated from the identified cluster and outputting the selected predictor;
A predictor selection method characterized by comprising:
ことを特徴とする請求項4または5のいずれか1項に記載の予測器選択方法。 The predictor selection step selects a predictor generated from the cluster specified in the similarity calculation step from a predictor database storing a predictor generated from each training cluster. 6. The predictor selection method according to any one of 5 above.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011032316A JP5432935B2 (en) | 2011-02-17 | 2011-02-17 | Predictor selection device, predictor selection method, predictor selection program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011032316A JP5432935B2 (en) | 2011-02-17 | 2011-02-17 | Predictor selection device, predictor selection method, predictor selection program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012173793A true JP2012173793A (en) | 2012-09-10 |
JP5432935B2 JP5432935B2 (en) | 2014-03-05 |
Family
ID=46976677
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011032316A Expired - Fee Related JP5432935B2 (en) | 2011-02-17 | 2011-02-17 | Predictor selection device, predictor selection method, predictor selection program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5432935B2 (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10121085B2 (en) | 2016-03-10 | 2018-11-06 | Fujitsu Limited | Information processing apparatus and method of searching for similar data |
CN110210731A (en) * | 2019-05-20 | 2019-09-06 | 深圳壹账通智能科技有限公司 | Reminding task distribution method, device, computer equipment and storage medium |
CN113392208A (en) * | 2020-03-12 | 2021-09-14 | 中国移动通信集团云南有限公司 | Method, device and storage medium for IT operation and maintenance fault processing experience accumulation |
JP7477744B2 (en) | 2019-10-31 | 2024-05-02 | キヤノンマーケティングジャパン株式会社 | Information processing device, control method, and program |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7080793B2 (en) | 2018-10-22 | 2022-06-06 | 大和製衡株式会社 | Weighing device |
-
2011
- 2011-02-17 JP JP2011032316A patent/JP5432935B2/en not_active Expired - Fee Related
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10121085B2 (en) | 2016-03-10 | 2018-11-06 | Fujitsu Limited | Information processing apparatus and method of searching for similar data |
CN110210731A (en) * | 2019-05-20 | 2019-09-06 | 深圳壹账通智能科技有限公司 | Reminding task distribution method, device, computer equipment and storage medium |
JP7477744B2 (en) | 2019-10-31 | 2024-05-02 | キヤノンマーケティングジャパン株式会社 | Information processing device, control method, and program |
CN113392208A (en) * | 2020-03-12 | 2021-09-14 | 中国移动通信集团云南有限公司 | Method, device and storage medium for IT operation and maintenance fault processing experience accumulation |
Also Published As
Publication number | Publication date |
---|---|
JP5432935B2 (en) | 2014-03-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109657805B (en) | Hyper-parameter determination method, device, electronic equipment and computer readable medium | |
US20160253596A1 (en) | Geometry-directed active question selection for question answering systems | |
JP2019200551A5 (en) | ||
US20200012733A1 (en) | Multi-dimensional knowledge index and application thereof | |
JP5432935B2 (en) | Predictor selection device, predictor selection method, predictor selection program | |
JP2019028839A (en) | Classifier, method for learning of classifier, and method for classification by classifier | |
US8775338B2 (en) | Computer-implemented systems and methods for constructing a reduced input space utilizing the rejected variable space | |
JP2016091166A (en) | Machine learning apparatus, machine learning method, classification apparatus, classification method, and program | |
JP7171471B2 (en) | LEARNING MODEL GENERATION SUPPORT DEVICE AND LEARNING MODEL GENERATION SUPPORT METHOD | |
JP6456667B2 (en) | Novel substance search system and search method thereof | |
US11373117B1 (en) | Artificial intelligence service for scalable classification using features of unlabeled data and class descriptors | |
KR20160084453A (en) | Generation of weights in machine learning | |
JP5833817B2 (en) | A method for approximating user task representation by document usage clustering | |
JPWO2014199920A1 (en) | Prediction function creation device, prediction function creation method, and program | |
US20190354533A1 (en) | Information processing device, information processing method, and non-transitory computer-readable recording medium | |
JP2009157442A (en) | Data retrieval device and method | |
JP2013097723A (en) | Text summarization apparatus, method and program | |
US20230196109A1 (en) | Non-transitory computer-readable recording medium for storing model generation program, model generation method, and model generation device | |
JP6038857B2 (en) | Moving means estimation model generation apparatus, moving means estimation model generation method, moving means estimation model generation program | |
JP5491430B2 (en) | Class classification device, class classification method, and class classification program | |
Wang et al. | A novel trace clustering technique based on constrained trace alignment | |
JPWO2016132683A1 (en) | Clustering system, method and program | |
JP5486569B2 (en) | Pattern identification method, pattern identification apparatus, and program | |
Wang et al. | State recognition method for machining process of a large spot welder based on improved genetic algorithm and hidden Markov model | |
Han et al. | An adaptive hybrid differential evolutionary algorithm for the parameter identification of rotating machinery |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130208 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131122 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131203 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131206 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5432935 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |