JP6161581B2 - モデルパラメータ推定装置、方法、及びプログラム - Google Patents

モデルパラメータ推定装置、方法、及びプログラム Download PDF

Info

Publication number
JP6161581B2
JP6161581B2 JP2014146172A JP2014146172A JP6161581B2 JP 6161581 B2 JP6161581 B2 JP 6161581B2 JP 2014146172 A JP2014146172 A JP 2014146172A JP 2014146172 A JP2014146172 A JP 2014146172A JP 6161581 B2 JP6161581 B2 JP 6161581B2
Authority
JP
Japan
Prior art keywords
category
vector
parameter
pair
model parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014146172A
Other languages
English (en)
Other versions
JP2016024502A (ja
Inventor
ブロンデル マチュー
ブロンデル マチュー
昭典 藤野
昭典 藤野
上田 修功
修功 上田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2014146172A priority Critical patent/JP6161581B2/ja
Publication of JP2016024502A publication Critical patent/JP2016024502A/ja
Application granted granted Critical
Publication of JP6161581B2 publication Critical patent/JP6161581B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Description

本発明は、モデルパラメータ推定装置、方法、及びプログラムに係り、特に、自動分類に用いるパラメータを推定するモデルパラメータ推定装置、方法、及びプログラムに関する。
統計的手法に基づくコンテンツの自動分類技術では、コンテンツとカテゴリの依存関係の強さを表す識別関数を特徴ベクトルとモデルパラメータの関数として与え、最も強い依存関係のあるカテゴリを識別関数をもとに推定することでコンテンツの自動分類を行う。モデルパラメータの値は、一般的に、カテゴリが判明しているコンテンツを用いて求める。多カテゴリ分類を行うための識別関数の例として下記(1)式の関数がある。
ここでyはモデルパラメータベクトルにより予測されたカテゴリを表し、x^はコンテンツの特徴ベクトルを表す。w^はx^と同じ次元性を持つm番目のカテゴリのモデルパラメータベクトルを表し、kはカテゴリ数を表す。また、Τはベクトル転置を示す。
従来、多カテゴリサポートベクトルマシン(以下、MCSVM)のモデルパラメータを効率的に計算する手法が提案されており(非特許文献1)、w^を下記(2)式のように定義している。なお、記号に付された「^」は、当該記号が行列、多次元配列、又はベクトルであることを表している。また、記号の前に付された「」は、当該記号が推定された値であることを表している。
ここで、x^はカテゴリが判明しているi番目のコンテンツの特徴ベクトル、α はm番目のカテゴリに対するi番目のコンテンツの双対変数、nはカテゴリが判明しているコンテンツの数である。反復計算を行うことにより双対変数の値を推定する(非特許文献1)。各反復において、i番目のコンテンツをランダムで選択し、α ,...,α のみを推定するための下位問題を解く。双対変数のランダム選択と下位問題の計算を繰り返すことで、すべての双対変数の推定値を求め、上記(2)式を用いてモデルパラメータを得る。下位問題の解法として、様々な手法が提案されており、例えば、下位問題をfixed point法で解く方法(非特許文献1)、下位問題をソートによる手法で解く方法(非特許文献2)、下位問題をactive set法で解く方法(非特許文献3)、下位問題をSequential Minimal Optimization(SMO)法で解く方法(非特許文献4)、下位問題をFrank−Wolfe法で解く方法(非特許文献5)が知られている。
K. Crammer and Y. Singer (2002), On the algorithmic implementation of multiclass kernel-based vector machines, Journal of Machine Learning Research, vol. 2, pp. 265-292. K. Crammer and Y. Singer (2002), On the learnability and design of output codes for multiclass problems, Machine Learning, vol.47, no. 2-3, pp. 201-233. S. S. Keerthi, S. Sundararajan, K.-W. Chang, C.-J. Hsieh, and C.-J. Lin (2008), A sequential dual method for large scale multi-class linear SVMs, Proceedings of KDD conference 2008, pp. 408-416. A. Bordes, L. Bottou, P. Gallinari, and J. Weston (2007),Solving multiclass support vector machines with LaRank, Proceedings of ICML conference 2007, pp. 89-96. S. Lacoste-Julien, M. Jaggi, M. Schmidt, and P. Pletscher,Block- coordinate frank-wolfe optimization for structural SVMs, Proceedings of ICML conference 2013.
MCSVMでは、下位問題を少ない計算量で厳密に解ければ、高い分類精度を与えるモデルパラメータ値を短い計算時間で得ることが期待できる。非特許文献1、4、及び5によるfixed point法、SMO法、Frank−Wolfe法は、下位問題を解くのに必要な計算量のオーダーはO(k)であり、短い時間の計算によりパラメータ値を得ることができるが、下位問題を近似的に解くため、正しい双対変数の推定値を得られる保証がないという問題がある。このため、高い分類精度を与えるモデルパラメータ値を得るために、下位問題の反復計算を多数回行う必要が生じる。
一方、非特許文献2及び3によるソート法とactive set法は、下位問題を厳密に解くが、計算量のオーダーはO(klogk)であり、また、すべてのn個のコンテンツに対して下位問題を解かなければならないため、nとkが大きければ大きいほど、モデルパラメータの推定に必要な計算量が多くなるという問題がある。
本発明では、上記問題を解決するために成されたものであり、下位問題を少ない計算量で厳密に解いてモデルパラメータを推定することができるモデルパラメータ推定装置、方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、第1の発明に係るモデルパラメータ推定装置は、コンテンツと前記コンテンツが所属するカテゴリとの複数のペアからなる正解データに含まれる前記ペアを選択する選択部と、前記選択されたi番目のペアに基づいて、コンテンツが所属するカテゴリを分類するための各カテゴリmに対するモデルパラメータを学習する際に用いる、各カテゴリmに対するi番目のペアのコンテンツの双対変数α mからなるベクトルα^iを推定するための下位問題が置換される、シンプレックス射影問題を解くために、ベクトルμ^及びパラメータzを計算し、前記計算されたベクトルμ^及びパラメータzに基づいて、前記シンプレックス射影問題を解くことにより、ベクトルβ^を計算し、前記計算されたベクトルβ^に基づいて、各カテゴリmに対するパラメータδ mからなるベクトルδ^を計算し、前記計算されたベクトルδ^に基づいて、各カテゴリmに対する前記双対変数α mからなるベクトルα^i及び各カテゴリmに対する前記モデルパラメータを更新するパラメータ更新部と、前記選択部による前記ペアの選択と、前記パラメータ更新部による更新と、を予め定められた収束条件を満たすまで繰り返す繰り返し判定部と、を含んで構成されている。
第2の発明に係るモデルパラメータ推定方法は、選択部と、パラメータ更新部と、繰り返し判定部と、を含むモデルパラメータ推定装置における、モデルパラメータ推定方法であって、前記選択部は、コンテンツと前記コンテンツが所属するカテゴリとの複数のペアからなる正解データに含まれる前記ペアを選択し、前記パラメータ更新部は、前記選択されたi番目のペアに基づいて、コンテンツが所属するカテゴリを分類するための各カテゴリmに対するモデルパラメータを学習する際に用いる、各カテゴリmに対するi番目のペアのコンテンツの双対変数α mからなるベクトルα^iを推定するための下位問題が置換される、シンプレックス射影問題を解くために、ベクトルμ^及びパラメータzを計算し、前記計算されたベクトルμ^及びパラメータzに基づいて、前記シンプレックス射影問題を解くことにより、ベクトルβ^を計算し、前記計算されたベクトルβ^に基づいて、各カテゴリmに対するパラメータδ mからなるベクトルδ^を計算し、前記計算されたベクトルδ^に基づいて、各カテゴリmに対する前記双対変数α mからなるベクトルα^i及び各カテゴリmに対する前記モデルパラメータを更新し、前記繰り返し判定部は、前記選択部による前記ペアの選択と、前記パラメータ更新部による更新と、を予め定められた収束条件を満たすまで繰り返す。
第1及び第2の発明によれば、選択部により、コンテンツとコンテンツが所属するカテゴリとの複数のペアからなる正解データに含まれるペアを選択し、パラメータ更新部により、選択されたi番目のペアに基づいて、コンテンツが所属するカテゴリを分類するための各カテゴリmに対するモデルパラメータを学習する際に用いる、各カテゴリmに対するi番目のペアのコンテンツの双対変数α mからなるベクトルα^iを推定するための下位問題が置換される、シンプレックス射影問題を解くために、ベクトルμ^及びパラメータzを計算し、計算されたベクトルμ^及びパラメータzに基づいて、シンプレックス射影問題を解くことにより、ベクトルβ^を計算し、計算されたベクトルβ^に基づいて、各カテゴリmに対するパラメータδ mからなるベクトルδ^を計算し、計算されたベクトルδ^に基づいて、各カテゴリmに対する双対変数α mからなるベクトルα^i及び各カテゴリmに対するモデルパラメータを更新し、繰り返し判定部により、選択部によるペアの選択と、パラメータ更新部による更新と、を予め定められた収束条件を満たすまで繰り返す。
このように、正解データに含まれるペアを選択し、選択されたi番目のペアに基づいて、各カテゴリmに対するi番目のペアのコンテンツの双対変数α mからなるベクトルα^iを推定するための下位問題が置換される、シンプレックス射影問題を解くために、ベクトルμ^及びパラメータzを計算し、計算されたベクトルμ^及びパラメータzに基づいて、シンプレックス射影問題を解くことにより、ベクトルβ^を計算し、計算されたベクトルβ^に基づいて、各カテゴリmに対するパラメータδ mからなるベクトルδ^を計算し、計算されたベクトルδ^に基づいて、各カテゴリmに対する双対変数α mからなるベクトルα^i及び各カテゴリmに対するモデルパラメータを更新し、ペアの選択と、更新と、を予め定められた収束条件を満たすまで繰り返すことにより、下位問題を少ない計算量で厳密に解くことができるモデルパラメータを推定することができる。
また、第1及び第2の発明において、前記パラメータ更新部は、関数φ(θ)についてφ(θ)=0を満たすθを求める求根アルゴリズム、各カテゴリmに対応するパラメータμを降順に並べ替えて、パラメータμの部分和を求めるSort法、又は各カテゴリmに対応するパラメータμの並べ替えを行わずに各カテゴリmに対応するパラメータμの分割する位置を決定する値を選択し、前記パラメータμの各々の和を繰り返し計算するPivot法を用いて、前記シンプレックス射影問題を解いてもよい。
また、本発明のプログラムは、コンピュータを、上記のモデルパラメータ推定装置を構成する各部として機能させるためのプログラムである。
以上説明したように、本発明のモデルパラメータ推定装置、方法、及びプログラムによれば、正解データに含まれるペアを選択し、選択されたi番目のペアに基づいて、下位問題が置換される、シンプレックス射影問題を解くために、ベクトルμ^及びパラメータzを計算し、計算されたベクトルμ^及びパラメータzに基づいて、シンプレックス射影問題を解くことにより、ベクトルβ^を計算し、計算されたベクトルβ^に基づいて、各カテゴリmに対するパラメータδ mからなるベクトルδ^を計算し、計算されたベクトルδ^に基づいて、各カテゴリmに対する双対変数α mからなるベクトルα^i及び各カテゴリmに対するモデルパラメータを更新することを、予め定められた収束条件を満たすまで繰り返すことにより、下位問題を少ない計算量で厳密に解いてモデルパラメータを推定することができる。
モデルパラメータ推定装置の構成の例について示す図である。 本実施の形態において用いるアルゴリズムの例を示す図である。 Bisectiоn法の詳細を示す図である。 Sort法の詳細を示す図である。 Pivot法の詳細を示す図である。 本発明の第1の実施の形態に係るモデルパラメータ推定装置の機能的構成を示すブロック図である。 本発明の第1の実施の形態に係るモデルパラメータ推定装置のパラメータ推定部の機能的構成を示すブロック図である。 本実施の第1の形態に係るモデルパラメータ推定装置におけるモデルパラメータ推定処理ルーチンを示すフローチャート図である。 本実施の第1の形態に係るモデルパラメータ推定装置におけるカテゴリ分類処理ルーチンを示すフローチャート図である。 実験例の結果を示す図である。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
<本実施の形態の原理>
まず、本実施の形態における原理について説明する。本実施の形態においては、下位問題をシンプレックスへの射影問題に置き換え、射影問題を解き、双対変数、及びモデルパラメータを更新する。図1に示すように、本実施の形態に係るモデルパラメータ推定装置による処理は、「モデルパラメータの推定」と「新規のコンテンツに対するカテゴリ予測」との2つにより構成されている。
次に、本実施の形態における、「モデルパラメータの推定」について説明すると、モデルパラメータの推定では、所属するカテゴリが判明しているコンテンツの特徴ベクトル(x^,y),...,(x^,y)から、モデルパラメータベクトルw^,...,w^を推定する。ここで、nはカテゴリが判明しているコンテンツの数を表し、kはカテゴリの数を表し、x^は、i番目のコンテンツの特徴ベクトルを表す。また、yは、i番目のコンテンツの正解カテゴリであり、カテゴリ1からカテゴリkまでの間の何れかの値である。また、w^,...,w^は、各カテゴリのモデルパラメータベクトルを表し、各コンテンツの特徴ベクトルx^と同じ次元数である。
また、本実施の形態における、「新規のコンテンツに対するカテゴリ予測」について説明すると、新規のコンテンツに対するカテゴリ予測では、カテゴリが判明していないコンテンツの特徴ベクトルx^とモデルパラメータベクトルw^,...,w^を用いて、上記(1)式に従って、当該コンテンツxのカテゴリを予測する。
次に、モデルパラメータを推定する際に用いる双対変数からなる行列α^の求め方について説明する。非特許文献1〜非特許文献5の方法を用いる場合、MCSVMの双対変数からなる行列α^の推定値を、下記(3)式に示す二次計画問題を解くことで得ることができる。
ここで、nはカテゴリが判明しているコンテンツの数であり、kはカテゴリの総数、fは目的関数、α^は双対変数をまとめたn×kの行列、α はm番目のカテゴリに対するi番目のコンテンツの双対変数である。また、m=yのとき、C =C、Δ =0、それ以外のとき、C =0、Δ =1と定義する。Cはユーザの任意に設定した正則化のパラメータ(C>0)である。行列α^の推定値を計算した後に、上記(2)式に従って、モデルパラメータベクトルw^,...,w^の推定値を得る。
上記(3)式の二次計画問題を解くために、下位問題の反復計算を行う。各反復計算では、コンテンツの特徴ベクトルとカテゴリのi番目のペア(x^,y)をランダムで選択し、選択したi番目のペア(x^,y)について、下記(4)式の下位問題を解く。
ここで、α^=[α ,...,α Τ、C^=[C ,...,C Τ、g^=[g ,...,g Τと定義する。g はfのα についての偏微分であり、g =w^ Τ+x^+Δ で計算する。上記(4)式を最小化するベクトルδ^は、ベクトルα^をα^←α^+δ^で更新した場合に、上記(3)式を最小化するベクトルδ^となる。
本実施の形態においては、上記(4)式の下位問題を、下記(5)式に示すシンプレックス射影問題に置き換えて解く。
ここで、ベクトルμ^とパラメータzを下記(6)式のように定義する。
また、上記(4)式による最適な解のベクトルδ^と、上記(5)式による最適な解のベクトルβ^には、下記(7)式に示す関係がある。
本実施の形態においては、まず、上記(5)式の問題を解き、次に、上記(7)式に従って、ベクトルδ^を取得する。そして、ベクトルδ^を取得したら、ベクトルα^とモデルパラメータベクトルw^,...,w^とを下記(8)式に従って更新する。
ここで、δ は、ベクトルδ^のm番目の要素である。すなわち、δ^=[δ ,...,δ ]となる。そして、上記(5)式の問題を解き、上記(7)式に従ってベクトルδ^を取得し、上記(8)式に従って、ベクトルα^及びモデルパラメータベクトルw^,...,w^を更新する処理を、アルゴリズムが収束するまで繰り返す。なお、アルゴリズムが収束したか否かの判定は、例えば、更新されたベクトルα^に基づいて、最小化問題の最適条件であるKarush−Kuhn−Tucker(KKT)条件を一定基準の下で満たしているか否かにより判定する。また、本実施の形態で用いるアルゴリズムの詳細を図2に示す。
上記(5)式を解く方法について説明する。本実施の形態においては、求根アルゴリズムの1つであるBisectiоn法、Sort法、又はPivot法の何れか1つを用いて上記(5)式を解く。
まず、求根アルゴリズムについて説明する。本実施の形態における求根アルゴリズムは、任意の求根アルゴリズムを用いて、下記(9)式に示す関数の根を求める。すなわち、下記(9)式の、φ(θ)=0を満たすθを求める。図3に、本実施の形態において用いる求根アルゴリズムの一つであるBisectiоn法の詳細を示す。なお、Bisectiоn法は、近似的な解をO(k)時間で得ることができる。また、Bisection法で用いる、パラメータτは、任意の正の値が予め定められているものとする。
ここで、パラメータμは、ベクトルμ^の要素であり、上記(9)式によりθを取得した後、下記(10)式に従って、ベクトルβ^を計算する。
次に、Sort法(非特許文献6:J. Duchi, S. Shalev-Shwartz, Y. Singer, and T. Chandra(2008), Efficient projections onto the l1-ball for learning in high dimensions,Proceedings of the ICML conference 2008, pp. 272-279.)について説明する。本実施の形態において用いるSort法の詳細を図4に示す。Sort法は、カテゴリjに対応する入力パラメータμを大きい順(降順)に並べ替えて、上位m個の入力パラメータの部分和
を求めることで、カテゴリ数kに対してO(klоgk)のオーダーの計算量でシンプレックスへの射影問題を厳密に解く。
次に、Pivot法(非特許文献6)について説明する。本実施の形態において用いるPivot法の詳細を図5に示す。Pivot法は、各カテゴリjに対応するパラメータμを分割する位置を決定するPivot値を選択してパラメータの部分和を繰り返し計算することで、パラメータの並べ替えをせずに、Sort法で求めるパラメータの部分和
を計算する。このPivot法を用いることにより、カテゴリ数kに対してO(k)のオーダーの計算量でシンプレックスへの射影問題を厳密に解くことができる。
<本発明の第1の実施の形態に係るモデルパラメータ推定装置の構成>
次に、本発明の第1の実施の形態に係るモデルパラメータ推定装置の構成について説明する。図6に示すように、本発明の第1の実施の形態に係るモデルパラメータ推定装置100は、入力部10と、演算部20と、出力部90と、を含んで構成されている。
入力部10は、所属するカテゴリが判明しているコンテンツに関する特徴ベクトルとカテゴリとの複数のペア(x^,y),...,(x^,y)からなる正解データを受け付け、正解データ記憶部32に記憶する。また、入力部10は、分類対象となるコンテンツの特徴ベクトルx^を受け付ける。
演算部20は、モデルパラメータ推定部30と、カテゴリ予測部60とを含んで構成されている。
モデルパラメータ推定部30は、入力部10において受け付けた正解データから、各カテゴリのモデルパラメータベクトルw^,...w^を推定する。また、モデルパラメータ推定部30は、正解データ記憶部32と、初期化部34と、パラメータ推定部36と、モデルパラメータ記憶部50とを含んで構成されている。
正解データ記憶部32には、入力部10において受け付けた正解データが記憶されている。
初期化部34は、行列α^とモデルパラメータベクトルw^の各々とを0に初期化する。
パラメータ推定部36は、正解データ記憶部32に記憶されている正解データと、初期化部34において初期化された各カテゴリmの双対変数α 及びモデルパラメータベクトルw^又は、前回更新された各カテゴリmの双対変数α 及びモデルパラメータベクトルw^とに基づいて、上記(5)式〜(10)式に従って、各カテゴリmのモデルパラメータベクトルw^を推定(学習)し、推定されたモデルパラメータを、モデルパラメータ記憶部50に記憶する。また、パラメータ推定部36は、図7に示すように、選択部40と、パラメータ更新部42と、繰り返し判定部44とを備えている。
選択部40は、正解データ記憶部32に記憶されている正解データに含まれるコンテンツとカテゴリとのペアから、ランダムに1つのペアを選択する。
パラメータ更新部42は、まず、選択部40において選択されたi番目のペアについて、選択されたペアのコンテンツの特徴ベクトルx^及びカテゴリyと、予め任意の正の値が設定された正則化パラメータCと、初期化された各カテゴリmの双対変数α 及びモデルパラメータベクトルw^又は、前回更新された各カテゴリmの双対変数α 及びモデルパラメータベクトルw^とに基づいて、上記(6)式に従って、ベクトルμ^及びパラメータzを取得する。次に、取得されたベクトルμ^及びパラメータzと、予め任意の正の値が設定されたパラメータτとに基づいて、上記(5)式で示されるシンプレックス射影問題を、求根アルゴリズムであるBisection法を用いて解き、ベクトルβ^を取得する。次に、選択部40において選択されたペアのコンテンツの特徴ベクトルx^及びカテゴリyと、予め任意の正の値が設定された正則化パラメータCと、初期化された各カテゴリmの双対変数α 又は、前回更新された各カテゴリmの双対変数α と、取得されたベクトルβ^とに基づいて、上記(7)式に従って、ベクトルδ^を取得する。そして、取得されたベクトルδ^と、初期化された各カテゴリmの双対変数α 及びモデルパラメータベクトルw^又は、前回更新された各カテゴリmの双対変数α 及びモデルパラメータベクトルw^とに基づいて、上記(8)式に従って、各カテゴリmの双対変数α 及びモデルパラメータベクトルw^を更新する。
繰り返し判定部44は、パラメータ更新部42において更新された各カテゴリmの双対変数α に基づいて、最小化問題の最適条件であるKarush−Kuhn−Tucker(KKT)条件を一定基準の下で満たしているか否かを判定し、満たしている場合には、双対変数からなる行列α^及びモデルパラメータベクトルw^の各々を確定し、各カテゴリmのモデルパラメータベクトルw^を、モデルパラメータ記憶部50に記憶する。満たしていない場合には、選択部40におけるペアの選択、パラメータ更新部42におけるパラメータの更新、繰り返し判定部44による判定の処理を繰り返す。
モデルパラメータ記憶部50には、パラメータ更新部42において更新された各カテゴリmのモデルパラメータベクトルw^が記憶されている。
カテゴリ予測部60は、入力部10において受け付けたコンテンツの特徴ベクトルx^と、モデルパラメータ記憶部50に記憶されている各カテゴリmのモデルパラメータベクトルw^とに基づいて、上記(1)に従って、カテゴリを予測し、予測したカテゴリを分類結果として出力部90に出力する。
<本発明の第1の実施の形態に係るモデルパラメータ推定装置のモデルパラメータ推定の作用>
次に、本発明の第1の実施の形態に係るモデルパラメータ推定装置100の作用について説明する。まず、正解データを受け付け、正解データ記憶部32に記憶する。そして、正解データ記憶部32から正解データを読み出すと、モデルパラメータ推定装置100は、図8に示すモデルパラメータ推定処理ルーチンを実行する。また、モデルパラメータ推定処理ルーチンが終了すると、モデルパラメータ推定装置100は、入力部10から分類対象となるコンテンツの特徴ベクトルx^を受け付け、図9に示すカテゴリ分類処理ルーチンを実行する。
まず、図8に示すモデルパラメータ推定処理ルーチンについて説明する。
ステップS100では、行列α^とモデルパラメータベクトルw^の各々との初期値を0に設定する。
次に、ステップS102では、読み込んだ正解データに含まれるコンテンツの特徴ベクトルとカテゴリとのペア(x^、y)をランダムに選択する。
次に、ステップS104では、上記ステップS102で選択されたi番目のペアについて、ステップS100において取得した各カテゴリmの双対変数α 及びモデルパラメータベクトルw^、又は、ステップS108において前回更新された各カテゴリmの双対変数α 及びモデルパラメータベクトルw^と、ステップS102において取得したペアのコンテンツの特徴ベクトルx^及びカテゴリyと、予め設定されているパラメータCと、に基づいて、上記(6)式に従って、ベクトルμ^及びパラメータzを計算する。
次に、ステップS106では、ステップS104において取得したベクトルμ^及びパラメータzと、予め設定されているパラメータτと、に基づいて、上記(5)式に示すシンプレックス射影問題を、求根アルゴリズムであるBisection法を用いて解き、ベクトルβ^を取得する。
次に、ステップS108では、ステップS100において取得した各カテゴリmの双対変数α 及びモデルパラメータベクトルw^、又は、ステップS108において前回更新された各カテゴリmの双対変数α 及びモデルパラメータベクトルw^と、ステップS102において取得したペアのコンテンツの特徴ベクトルx^及びカテゴリyと、ステップS106において取得したベクトルβ^と、予め設定されているパラメータCとに基づいて、上記(7)式に従って、ベクトルδ^を計算し、取得したベクトルδ^に基づいて、上記(8)式に従って、各カテゴリmの双対変数α 及びモデルパラメータベクトルw^を更新する。
ステップS110では、ステップS108において取得した各カテゴリmの双対変数α に基づいて、予め定められた収束条件を満たしているか否かを判定する。収束条件を満たしている場合には、ステップS112へ移行し、収束条件を満たしていない場合には、ステップS102へ移行し、ステップS102〜ステップS110の処理を繰り返す。
ステップS112では、ステップS108において取得した各カテゴリmのモデルパラメータベクトルw^を、モデルパラメータ記憶部50に記憶して、モデルパラメータ推定処理ルーチンを終了する。
次に、図9に示すカテゴリ分類処理ルーチンについて説明する。
まず、ステップS200では、モデルパラメータ記憶部50に記憶されている各カテゴリmのモデルパラメータベクトルw^を読み込む。
次に、ステップS202では、入力部10において受け付けた分類対象となるコンテンツの特徴ベクトルx^と、ステップS200において取得した各カテゴリmのモデルパラメータベクトルw^とに基づいて、上記(1)に従って、当該コンテンツのカテゴリを取得し、出力部90に取得したカテゴリを出力して、カテゴリ分類処理ルーチンを終了する。
以上説明したように、本発明の第1の実施の形態に係るモデルパラメータ推定装置によれば、正解データに含まれるペアを選択し、選択されたi番目のペアに基づいて、下位問題が置換される、シンプレックス射影問題を解くために、ベクトルμ^及びパラメータzを計算し、計算されたベクトルμ^及びパラメータzに基づいて、求根アルゴリズムに従って、シンプレックス射影問題を解くことにより、ベクトルβ^を計算し、計算されたベクトルβ^に基づいて、各カテゴリmに対するパラメータδ mからなるベクトルδ^を計算し、計算されたベクトルδ^に基づいて、各カテゴリmに対する双対変数α mからなるベクトルα^i及び各カテゴリmに対するモデルパラメータを更新することを、予め定められた収束条件を満たすまで繰り返すことにより、下位問題を少ない計算量で厳密に解いてモデルパラメータを推定することができる。
また、カテゴリ数kに対して下位問題を厳密にO(k)の計算量で解くことができる。下位問題を厳密に解くことで、双対変数の推定値の収束に要する反復計算の回数が少なく、従来手法より短い計算時間で高い分類精度を与えるモデルパラメータ値を得ることが期待できる。特に、カテゴリが判明しているコンテンツ数とカテゴリ数とが大きい大規模データに対して効果がある。
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、本実施の形態においては、アルゴリズムの収束条件を満たしているか否かを判定するために、KKT条件を一定基準の下で満たしているか否かにより判定する場合について説明したが、これに限定されるものではなく、全てのα^が更新された場合であって、かつ、行列α^と前回更新された各カテゴリmの双対変数α の値を反映した行列α^との差分が、予め定められた一定の以下になる場合に、アルゴリズムの収束条件を満たしていると判定してもよい。
また、本実施の形態においては、入力される正解データはコンテンツの特徴ベクトルx^を含む場合を例に説明したがこれに限定されるものではない。例えば、入力される正解データは、コンテンツのデータを含み、モデルパラメータ推定装置100において当該コンテンツの特徴ベクトルを抽出するようにしてもよい。
次に、第2の実施の形態に係るモデルパラメータ推定装置について説明する。
第2の実施の形態においては、モデルパラメータ推定装置100の、パラメータ推定部36のパラメータ更新部42において、上記(5)式に示すシンプレックス射影問題を、Sort法を用いて解いている点が第1の実施の形態と異なる。なお、第1の実施の形態に係るモデルパラメータ推定装置100と同様の構成及び作用については、同一の符号を付して説明を省略する。
パラメータ更新部42は、まず、選択部40において選択されたi番目のペアについて、選択されたペアのコンテンツの特徴ベクトルx^及びカテゴリyと、予め任意の正の値が設定された正則化パラメータCと、初期化された各カテゴリmの双対変数α 及びモデルパラメータベクトルw^又は、前回更新された各カテゴリmの双対変数α 及びモデルパラメータベクトルw^とに基づいて、上記(6)式に従って、ベクトルμ^及びパラメータzを取得する。次に、取得されたベクトルμ^及びパラメータzと、に基づいて、上記(5)式に示すシンプレックス射影問題を、Sort法を用いて解き、ベクトルβ^を取得する。次に、上記(7)式に従って、δ^を取得する。そして、上記(8)式に従って、各カテゴリmの双対変数α 及びモデルパラメータベクトルw^を更新する。
なお、第2の実施の形態に係るモデルパラメータ推定装置の他の構成及び作用については、第1の実施の形態と同様であるため、説明を省略する。
以上説明したように、本発明の第2の実施の形態に係るモデルパラメータ推定装置によれば、正解データに含まれるペアを選択し、選択されたi番目のペアに基づいて、下位問題が置換される、シンプレックス射影問題を解くために、ベクトルμ^及びパラメータzを計算し、計算されたベクトルμ^及びパラメータzに基づいて、Sort法に従って、シンプレックス射影問題を解くことにより、ベクトルβ^を計算し、計算されたベクトルβ^に基づいて、各カテゴリmに対するパラメータδ mからなるベクトルδ^を計算し、計算されたベクトルδ^に基づいて、各カテゴリmに対する双対変数α mからなるベクトルα^i及び各カテゴリmに対するモデルパラメータを更新することを、予め定められた収束条件を満たすまで繰り返すことにより、下位問題を少ない計算量で厳密に解いてモデルパラメータを推定することができる。
また、カテゴリ数kに対して下位問題を厳密にO(klogk)の計算量で解くことができる。下位問題を厳密に解くことで、双対変数の推定値の収束に要する反復計算の回数が少なく、従来手法より短い計算時間で高い分類精度を与えるモデルパラメータ値を得ることが期待できる。
次に、第3の実施の形態に係るモデルパラメータ推定装置について説明する。
第3の実施の形態においては、モデルパラメータ推定装置100の、パラメータ推定部36のパラメータ更新部42において、上記(5)式に示すシンプレックス射影問題を、Pivot法を用いて解いている点が第1の実施の形態と異なる。なお、第1の実施の形態に係るモデルパラメータ推定装置100と同様の構成及び作用については、同一の符号を付して説明を省略する。
パラメータ更新部42は、まず、選択部40において選択されたi番目のペアについて、選択されたペアのコンテンツの特徴ベクトルx^及びカテゴリyと、予め任意の正の値が設定された正則化パラメータCと、初期化された各カテゴリmの双対変数α 及びモデルパラメータベクトルw^又は、前回更新された各カテゴリmの双対変数α 及びモデルパラメータベクトルw^とに基づいて、上記(6)式に従って、ベクトルμ^及びパラメータzを取得する。次に、取得されたベクトルμ^及びパラメータzと、に基づいて、上記(5)式に示すシンプレックス射影問題を、Pivot法を用いて解き、ベクトルβ^を取得する。次に、上記(7)式に従って、ベクトルδ^を取得する。そして、上記(8)式に従って、各カテゴリmの双対変数α 及びモデルパラメータベクトルw^を更新する。
なお、第3の実施の形態に係るモデルパラメータ推定装置の他の構成及び作用については、第1の実施の形態と同様であるため、説明を省略する。
<実験例>
本実施の形態におけるモデルパラメータ推定装置に、2種類の公開データを用いた実験例を図10に示す。図10のNews20は、20のカテゴリに属する18,846個の文書のデータである。各文書は、130,088次元の特徴ベクトルとして表現されている。図10のSectorは105のカテゴリに属する9,619個の文書のデータである。各文書は55,197次元の特徴ベクトルとして表現されている。文書の75%をモデルパラメータの値の推定に用い、残りの25%の文書をカテゴリ予測の精度評価に用いている。図10の右の2つのグラフより、本実施の形態に用いるPivоt法では、目的関数値を小さくする最適な双対変数の推定値に短い計算時間で近づくことができる。また、左の2つのグラフより、Pivоt法を用いることにより、高い分類精度を与えるパラメータ値に短い計算時間で近づく傾向があるといえる。なお、図10の左は、評価データに対する性能であり、高いほうが良く、一方図10の右は、目的関数(双対問題)に対する目的値であり、低いほうが良い。
以上説明したように、本発明の第3の実施の形態に係るモデルパラメータ推定装置によれば、正解データに含まれるペアを選択し、選択されたi番目のペアに基づいて、下位問題が置換される、シンプレックス射影問題を解くために、ベクトルμ^及びパラメータzを計算し、計算されたベクトルμ^及びパラメータzに基づいて、Pivot法に従って、シンプレックス射影問題を解くことにより、ベクトルβ^を計算し、計算されたベクトルβ^に基づいて、各カテゴリmに対するパラメータδ mからなるベクトルδ^を計算し、計算されたベクトルδ^に基づいて、各カテゴリmに対する双対変数α mからなるベクトルα^i及び各カテゴリmに対するモデルパラメータを更新することを、予め定められた収束条件を満たすまで繰り返すことにより、下位問題を少ない計算量で厳密に解いてモデルパラメータを推定することができる。
また、上記(4)式を、上記(5)式に置き換えることにより、下位問題をO(k)時間で解くことができるPivot法を適用することができる。
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能であるし、ネットワークを介して提供することも可能である。
10 入力部
20 演算部
30 モデルパラメータ推定部
32 正解データ記憶部
34 初期化部
36 パラメータ推定部
40 選択部
42 パラメータ更新部
44 判定部
50 モデルパラメータ記憶部
60 カテゴリ予測部
90 出力部
100 モデルパラメータ推定装置

Claims (5)

  1. コンテンツと前記コンテンツが所属するカテゴリとの複数のペアからなる正解データに含まれる前記ペアを選択する選択部と、
    前記選択されたi番目のペアに基づいて、コンテンツが所属するカテゴリを分類するための各カテゴリmに対するモデルパラメータを学習する際に用いる、各カテゴリmに対するi番目のペアのコンテンツの双対変数α mからなるベクトルα^iを推定するための以下(1)式に示す下位問題が置換される、以下(2)式に示すシンプレックス射影問題を解くために、以下(3)式に従ってベクトルμ^及びパラメータzを計算し、前記計算されたベクトルμ^及びパラメータzに基づいて、前記シンプレックス射影問題を解くことにより、ベクトルβ^を計算し、前記計算されたベクトルβ^に基づいて、以下(4)式に従って、各カテゴリmに対するパラメータδ mからなるベクトルδ^を計算し、前記計算されたベクトルδ^に基づいて、各カテゴリmに対する前記双対変数α mからなるベクトルα^i及び各カテゴリmに対する前記モデルパラメータを更新するパラメータ更新部と、
    前記選択部による前記ペアの選択と、前記パラメータ更新部による更新と、を予め定められた収束条件を満たすまで繰り返す繰り返し判定部と、
    を含む、モデルパラメータ推定装置。
    ただし、x^は、前記正解データに含まれるi番目のペアのコンテンツの特徴ベクトルであり、C^は、各ペアi及び各カテゴリmの組み合わせに対する正則化パラメータC からなり、C は、各ペアi及び各カテゴリmの組み合わせに対する前記正則化パラメータであり、カテゴリmが前記ペアのカテゴリと同一のとき、予め定められた正の値Cとなり、それ以外のときは0となり、g^は、各カテゴリmに対するg mからなり、g mは、各ペアi及び各カテゴリmの組み合わせに対する前記双対変数α mからなる行列α^を推定するための目的関数の双対変数α mについての偏微分である。
  2. 前記パラメータ更新部は、以下(5)式に示す関数φ(θ)についてφ(θ)=0を満たすθを求める求根アルゴリズム、各カテゴリmに対応するパラメータμを降順に並べ替えて、パラメータμの部分和を求めるSort法、又は各カテゴリmに対応するパラメータμの並べ替えを行わずに各カテゴリmに対応するパラメータμの分割する位置を決定する値を選択し、前記パラメータμの各々の和を繰り返し計算するPivot法を用いて、前記シンプレックス射影問題を解く請求項1記載のモデルパラメータ推定装置。
    ただし、kはカテゴリ数、μはカテゴリmに対するパラメータμを表す。
  3. 選択部と、パラメータ更新部と、繰り返し判定部と、を含むモデルパラメータ推定装置における、モデルパラメータ推定方法であって、
    前記選択部は、コンテンツと前記コンテンツが所属するカテゴリとの複数のペアからなる正解データに含まれる前記ペアを選択し、
    前記パラメータ更新部は、前記選択されたi番目のペアに基づいて、コンテンツが所属するカテゴリを分類するための各カテゴリmに対するモデルパラメータを学習する際に用いる、各カテゴリmに対するi番目のペアのコンテンツの双対変数α mからなるベクトルα^iを推定するための以下(6)式に示す下位問題が置換される、以下(7)式に示すシンプレックス射影問題を解くために、以下(8)式に従ってベクトルμ^及びパラメータzを計算し、前記計算されたベクトルμ^及びパラメータzに基づいて、前記シンプレックス射影問題を解くことにより、ベクトルβ^を計算し、前記計算されたベクトルβ^に基づいて、以下(9)式に従って、各カテゴリmに対するパラメータδ mからなるベクトルδ^を計算し、前記計算されたベクトルδ^に基づいて、各カテゴリmに対する前記双対変数α mからなるベクトルα^i及び各カテゴリmに対する前記モデルパラメータを更新し、
    前記繰り返し判定部は、前記選択部による前記ペアの選択と、前記パラメータ更新部による更新と、を予め定められた収束条件を満たすまで繰り返す
    モデルパラメータ推定方法。
    ただし、x^は、前記正解データに含まれるi番目のペアのコンテンツの特徴ベクトルであり、C^は、各ペアi及び各カテゴリmの組み合わせに対する正則化パラメータC からなり、C は、各ペアi及び各カテゴリmの組み合わせに対する前記正則化パラメータであり、カテゴリmが前記ペアのカテゴリと同一のとき、予め定められた正の値Cとなり、それ以外のときは0となり、g^は、各カテゴリmに対するg mからなり、g mは、各ペアi及び各カテゴリmの組み合わせに対する前記双対変数α mからなる行列α^を推定するための目的関数の双対変数α mについての偏微分である。
  4. 前記パラメータ更新部が前記シンプレックス射影問題を解くことは、以下(10)式に示す関数φ(θ)についてφ(θ)=0を満たすθを求める求根アルゴリズム、各カテゴリmに対応するパラメータμを降順に並べ替えて、パラメータμの部分和を求めるSort法、又は各カテゴリmに対応するパラメータμの並べ替えを行わずに各カテゴリmに対応するパラメータμの分割する位置を決定する値を選択し、前記パラメータμの各々の和を繰り返し計算するPivot法を用いて、前記シンプレックス射影問題を解く請求項3記載のモデルパラメータ推定方法。
    ただし、kはカテゴリ数、μはm番目のカテゴリのμを表す。
  5. コンピュータを、請求項1又は請求項2記載のモデルパラメータ推定装置を構成する各部として機能させるためのプログラム。
JP2014146172A 2014-07-16 2014-07-16 モデルパラメータ推定装置、方法、及びプログラム Active JP6161581B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014146172A JP6161581B2 (ja) 2014-07-16 2014-07-16 モデルパラメータ推定装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014146172A JP6161581B2 (ja) 2014-07-16 2014-07-16 モデルパラメータ推定装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2016024502A JP2016024502A (ja) 2016-02-08
JP6161581B2 true JP6161581B2 (ja) 2017-07-12

Family

ID=55271243

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014146172A Active JP6161581B2 (ja) 2014-07-16 2014-07-16 モデルパラメータ推定装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6161581B2 (ja)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4490876B2 (ja) * 2005-06-01 2010-06-30 日本電信電話株式会社 コンテンツ分類方法、コンテンツ分類装置、コンテンツ分類プログラムおよびコンテンツ分類プログラムを記録した記録媒体
JP2013120534A (ja) * 2011-12-08 2013-06-17 Mitsubishi Electric Corp 関連語分類装置及びコンピュータプログラム及び関連語分類方法
US9720998B2 (en) * 2012-11-19 2017-08-01 The Penn State Research Foundation Massive clustering of discrete distributions

Also Published As

Publication number Publication date
JP2016024502A (ja) 2016-02-08

Similar Documents

Publication Publication Date Title
US11276013B2 (en) Method and apparatus for training model based on random forest
US11468366B2 (en) Parallel development and deployment for machine learning models
Vincent et al. Sparse group lasso and high dimensional multinomial classification
US20180150770A1 (en) Scalable-effort classifiers for energy-efficient machine learning
Dulac-Arnold et al. Datum-wise classification: a sequential approach to sparsity
JP5521881B2 (ja) 画像識別情報付与プログラム及び画像識別情報付与装置
EP3121735A1 (en) Data mining method and device
US9355196B2 (en) Model estimation device and model estimation method
JP6453785B2 (ja) 回帰分析装置、回帰分析方法および回帰分析プログラム
US20200311489A1 (en) Identifying organisms for production using unsupervised parameter learning for outlier detection
Taruttis et al. A statistical approach to virtual cellular experiments: improved causal discovery using accumulation IDA (aIDA)
JP6161581B2 (ja) モデルパラメータ推定装置、方法、及びプログラム
JP6536157B2 (ja) モデル推定システム、モデル推定方法およびモデル推定プログラム
JP6721535B2 (ja) Lle計算装置、lle計算方法及びlle計算プログラム
JP2015038709A (ja) モデルパラメータ推定方法、装置、及びプログラム
JP6059594B2 (ja) 重み行列更新装置、その動作方法およびコンピュータプログラム
US11295229B1 (en) Scalable generation of multidimensional features for machine learning
US10331799B2 (en) Generating a feature set
JP5775425B2 (ja) 購買データ解析装置、方法、及びプログラム
WO2010082885A1 (en) A method to prevent churn of customers
US9489632B2 (en) Model estimation device, model estimation method, and information storage medium
Neme et al. Self-organizing map formation with a selectively refractory neighborhood
JPWO2011016281A1 (ja) ベイジアンネットワーク構造学習のための情報処理装置及びプログラム
Iredale et al. An efficient visual assessment of cluster tendency tool for large-scale time series data sets
Santos et al. Applying the self-training semi-supervised learning in hierarchical multi-label methods

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160721

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170530

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170606

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170613

R150 Certificate of patent or registration of utility model

Ref document number: 6161581

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150