JP2015038709A - モデルパラメータ推定方法、装置、及びプログラム - Google Patents

モデルパラメータ推定方法、装置、及びプログラム Download PDF

Info

Publication number
JP2015038709A
JP2015038709A JP2013169964A JP2013169964A JP2015038709A JP 2015038709 A JP2015038709 A JP 2015038709A JP 2013169964 A JP2013169964 A JP 2013169964A JP 2013169964 A JP2013169964 A JP 2013169964A JP 2015038709 A JP2015038709 A JP 2015038709A
Authority
JP
Japan
Prior art keywords
feature
model
model parameter
vector
additional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013169964A
Other languages
English (en)
Inventor
今村 賢治
Kenji Imamura
賢治 今村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2013169964A priority Critical patent/JP2015038709A/ja
Publication of JP2015038709A publication Critical patent/JP2015038709A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】既存のモデルパラメータへの影響を少なくしたままで、追加データに適応したモデルパラメータを推定することができる。【解決手段】追加学習データ受付部40により、正解クラスが予め付与されたデータを、追加の学習データとして受け付け、素性抽出部41により、受け付けた追加の学習データのデータから、各素性を抽出して、抽出された各素性と、ベースモデルで用いられる素性ベクトルの各素性とを併せた各素性からなる素性ベクトルを抽出し、追加素性抽出部42により、抽出された素性ベクトルの各素性から、記憶されたモデルパラメータベクトルの各モデルパラメータに対応する各素性とは異なる追加の素性を抽出し、追加モデルパラメータ推定部46は、追加の学習データに付与された正解クラスの事後確率と、第1正則化項と、第2正則化項とを含んで表される損失関数を最小にするように、モデルパラメータベクトルwを最適化する。【選択図】図2

Description

本発明は、追加された新たな学習データに対応するモデルパラメータを推定するモデルパラメータ推定方法、装置、及びプログラムに関する。
機械学習における分類問題とは、入力された素性ベクトル(以後、xとする。)に対して、予め定義されたクラス(以後、yとする。)に自動分類するものである。
具体的なタスクとしては、例えば、新聞記事のカテゴリ推定がある。新聞記事は、「国際」「スポーツ」「1面」など、掲載面に応じたカテゴリが予め定まっている。新聞記事のカテゴリ分類は、各記事を入力として、そのカテゴリを自動推定する。この場合、クラスyは記事のカテゴリとなる。素性ベクトルには、様々なものが利用可能であるが、例えば記事のタイトルと、記事本文に出現した単語そのものを二値素性とみなして、素性ベクトルを構成することができる。
分類問題を解く方法として、図7に示すように、教師あり機械学習が多く用いられている。これは、予め正解クラスがわかっている学習データ(素性ベクトルと正解クラスの組(<x,y>))を多数用意して、正解クラスを最もよく予測するモデルを学習する。テスト時には、クラス不明の未知データxから、モデルを用いてクラスyを予測する。
例えば、最大エントロピー法による教師あり学習を用いる場合、テスト時には、分類器は下記(1)式によって事後確率が最大のクラス^yを出力する。
ただし、p(y|x)は、入力の素性ベクトルがxのときのクラスyの事後確率で、予め学習されたモデルパラメータwに基づいて、上記(2)式を用いて計算する。上記(2)式のφ(x,y)は素性関数と呼ばれ、入力xとクラスyに依存した実数値、又は0若しくは1の二値を返す関数である。なお、モデルパラメータwは、素性関数に対応する重みを表し、素性ベクトルの次元数をD、クラスの種類数をYとしたとき、D×Y次元のベクトルとなる。モデルパラメータwはベースモデルに格納されている。
モデルパラメータwは、L2正則化を用いる場合、下記(4)式の損失関数l(・)を最小にするように、下記(3)式を用いて学習する。最適なwは、L−BFGS法などを用いることで推定し、ベースモデルに格納する(非特許文献1)。
ただし、xとyはそれぞれi番目の学習データの素性ベクトル、正解のクラスである。学習データは全部でN個あり、<x,y が学習データ全体を表している。
上記(4)式の第2項は正則化項によって、モデルパラメータwが大きくなり過ぎないように調整している。Cは調整のためのハイパーパラメータで、大きく設定すると学習データにできるだけ適合するように学習される。一般的には、学習データと実際に分類したい未知データは異なるため、Cを大きくしすぎると、逆に未知データにおける分類精度が低下することがある(過適応)。そのため、Cは実際に分類したいデータに合わせて、設定する。
また、図8に示すように、未知データになるべく近い学習データを追加学習データとして作成し現在のベースモデルに追加する形で学習する方法もある。例えば、新聞記事のカテゴリ分類では、2006年の記事の分類精度を向上させるために、2005年の記事を追加学習データとする。
正則化適応(regularized adaptation)は、ベースモデルを追加学習データに適応させる方法の一つで、追加学習データに近い未知データの分類精度を向上させることができる(非特許文献2)。正則化適応を用いて場合、上記(4)式の損失関数は、下記(5)式に置き換える。
ただし、追加学習データはNAD個の入力素性ベクトルと正解クラスの組で、BAは、ベースモデルの学習済みパラメータである。上記(5)式の第1項によって、追加学習データの正解クラスの事後確率を1.0に近づけるとともに、第2項によって、ベースモデルのパラメータと、追加モデルのパラメータの差分が少なくなるようにする。
図9に示す従来技術の正則化適応を用いた、追加モデルの学習手順について説明すると、まず、ベースモデルのパラメータBAと追加学習データ
から、学習すべきモデルパラメータwの初期化を行う。具体的には、ベースモデルの素性に対応するモデルパラメータBAをwにコピーし、追加学習データに初めて現れた素性に対応するパラメータを0に設定する。その結果、wの次元数は、追加学習データに初めて現れた素性に対応するパラメータ数だけ大きくなる(増加分を|AD|と表記する)。次に、通常の教師あり学習と同様に、L−BFGS法などを用いてwを最適化し、追加モデルに出力する。ただし、最適化時の損失関数l(・)としては、上記(5)式を用いる。
Liu, D. C. and Nocedal, J. (1989). "On the limited memory BFGS method for large scale optimization." Math. Program., 45 (3), pp. 503-528. Xiao, L. and Bilmes, J. (2006). "Regularized Adaptation of Discriminative Classifiers." In ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing Volume I, pp. 237-240.
しかし、非特許文献1の方法において学習されたモデルを用いると、学習データと未知データが同じ傾向を持つ場合に高い精度に分類できる一方、学習データと未知データの傾向が異なることも多く、その場合には分類精度が悪化するという問題がある。
例えば、図10は、新聞記事のカテゴリ分類タスクにおける精度の経年変化の例を示す。図10のグラフは、1995年の新聞記事を学習データとしてモデルを学習し、1996年から2007年までの新聞記事のカテゴリを推定した時の精度(正解率)の変化を表している。学習データと未知データの間の時間間隔が長くなるに従い、精度が悪化する傾向がある。
また、非特許文献2の方法における正則化適応は、上記(5)式の第2項によって、ベースモデルで正しく分類できていた未知データの分類結果が変化する可能性を小さくしている一方、ベースモデルと追加モデルのパラメータは同じではないため、今まで正しく分類できていた未知データが、不正解に変化してしまうことも多いという問題がある。
本発明は、上記問題点を解決するために成されたものであり、既存のモデルパラメータへの影響を少なくしたままで、追加データに適応できるモデルパラメータを推定することができる学習モデル学習方法、装置、及びプログラムを提供することを目的とする。
上記目的を達成するために、第1の発明のモデルパラメータ推定方法は、データから抽出された各素性からなる素性ベクトルに基づいてクラス分類を行うためのベースモデルで用いられる前記素性ベクトルの各素性に対応する各モデルパラメータからなるモデルパラメータベクトルを記憶したモデルデータベースと、入力手段と、素性抽出手段と、追加素性抽出手段と、推定手段とを含むモデルパラメータ推定装置におけるモデルパラメータ推定方法であって、前記入力手段は、正解クラスが予め付与された前記データを、追加の学習データとして受け付け、前記素性抽出手段は、前記受け付けた追加の学習データの前記データから、各素性を抽出して、抽出された各素性と、前記ベースモデルで用いられる素性ベクトルの各素性とを併せた各素性からなる素性ベクトルを抽出し、前記追加素性抽出手段は、前記素性抽出手段によって前記追加の学習データの前記データから抽出された前記素性ベクトルの各素性から、前記モデルデータベースに記憶されたモデルパラメータベクトルの各モデルパラメータに対応する各素性とは異なる追加の素性を抽出し、前記推定手段は、前記素性抽出手段によって前記追加の学習データの前記データから抽出された前記素性ベクトルと、前記追加素性抽出手段によって抽出された前記追加の素性と、前記モデルデータベースに記憶された前記モデルパラメータベクトルBAと、前記追加の学習データに予め付与された正解クラスとに基づいて、前記モデルデータベースに記憶された前記モデルパラメータベクトルBA及び前記追加の素性の各々に対応する各モデルパラメータからなる追加モデルパラメータベクトルwADを組み合わせたモデルパラメータベクトルwを用いて計算される、前記素性抽出手段によって前記追加の学習データの前記データから前記素性ベクトルに対する、前記追加の学習データに付与された前記正解クラスの事後確率と、前記モデルデータベースに記憶された前記モデルパラメータベクトルBA、及び最適化後のモデルパラメータベクトルwのうちのモデルパラメータベクトルwBAの差分を用いて計算される第1正則化項と、前記最適化後のモデルパラメータベクトルwのうちの前記追加モデルパラメータベクトルwADを用いて計算される第2正則化項とを含んで表される損失関数を最小にするように、前記モデルパラメータベクトルwを最適化する。
第2の発明のモデルパラメータ推定装置は、データから抽出された各素性からなる素性ベクトルに基づいてクラス分類を行うためのベースモデルで用いられる前記素性ベクトルの各素性に対応する各モデルパラメータからなるモデルパラメータベクトルを記憶したモデルデータベースと、正解クラスが予め付与された前記データを、追加の学習データとして受け付ける入力手段と、前記受け付けた追加の学習データの前記データから、各素性を抽出して、抽出された各素性と、前記ベースモデルで用いられる素性ベクトルの各素性とを併せた各素性からなる素性ベクトルを抽出する素性抽出手段と、前記素性抽出手段によって前記追加の学習データの前記データから抽出された前記素性ベクトルの各素性から、前記モデルデータベースに記憶されたモデルパラメータベクトルの各モデルパラメータに対応する各素性とは異なる追加の素性を抽出する追加素性抽出手段と、前記素性抽出手段によって前記追加の学習データの前記データから抽出された前記素性ベクトルと、前記追加素性抽出手段によって抽出された前記追加の素性と、前記モデルデータベースに記憶された前記モデルパラメータベクトルBAと、前記追加の学習データに予め付与された正解クラスとに基づいて、前記モデルデータベースに記憶された前記モデルパラメータベクトルBA及び前記追加の素性の各々に対応する各モデルパラメータからなる追加モデルパラメータベクトルwADを組み合わせたモデルパラメータベクトルwを用いて計算される、前記素性抽出手段によって前記追加の学習データの前記データから前記素性ベクトルに対する、前記追加の学習データに付与された前記正解クラスの事後確率と、前記モデルデータベースに記憶された前記各モデルパラメータベクトルBA、及び最適化後のモデルパラメータベクトルwのうちのモデルパラメータベクトルwBAの差分を用いて計算される第1正則化項と、前記最適化後のモデルパラメータベクトルwのうちの前記追加モデルパラメータベクトルwADを用いて計算される第2正則化項とを含んで表される損失関数を最小にするように、前記モデルパラメータベクトルwを最適化する推定手段と、を含んで構成されている。
第1の発明及び第2の発明によれば、正解クラスが予め付与されたデータを、追加の学習データとして受け付け、受け付けた追加の学習データのデータから、各素性を抽出して、抽出された各素性と、ベースモデルで用いられる素性ベクトルの各素性とを併せた各素性からなる素性ベクトルを抽出し、抽出された素性ベクトルの各素性から、モデルパラメータベクトルの各モデルパラメータに対応する各素性とは異なる追加の素性を抽出し、追加の学習データに付与された正解クラスの事後確率と、第1正則化項と、第2正則化項とを含んで表される損失関数を最小にするように、モデルパラメータベクトルwを最適化する。
また、本発明のプログラムは、コンピュータに、上記のモデルパラメータ推定装置を構成する各手段を実行させるためのプログラムである。
以上説明したように、モデルパラメータ推定方法、装置、及びプログラムによれば、既存のモデルパラメータへの影響を少なくしたままで、追加データに適応したモデルパラメータを推定することができる。
本発明の実施の形態における追加モデルの学習手順の例を示す図である。 本発明の実施の形態に係るモデルパラメータ推定装置の機能的構成を示すブロック図である。 本発明の実施の形態に係る分類装置の機能的構成を示すブロック図である。 本発明の実施の形態に係るモデルパラメータ推定装置におけるモデルパラメータ推定処理ルーチンを示すフローチャートである。 本発明の実施の形態に係る分類装置における判定処理ルーチンを示すフローチャートである。 異なるモデルで分類したテストセットの精度の例を示す図である。 教師あり学習による分類の構成の例を示す図である。 追加データの学習の構成の例を示す図である。 従来法による追加モデルの学習手順の例を示す図である。 1995年のデータで学習されたモデルの経年変化の例を示す図である。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
<発明の原理>
ベースモデルと未知データの傾向が異なるために精度が悪化する原因は、(a)学習データと未知データの素性の分布が異なり、適切なモデルパラメータになっていない、(b)学習データに出現しない素性が未知データに含まれており、分類に寄与していない、という2つに分類することが出来る。
例えば、新聞記事のカテゴリ分類の例で考えると、上記の原因(a)は、以下の例に対応する。
1996年の記事と2006年の記事では、同じ単語であっても出現回数は異なっている。そのため、1995年の記事で学習されたベースモデルのパラメータでは、1996年の記事の分類は正解するが、2006年の記事では不正解になることが多くなる。
上記の原因(b)は、2005年の記事で初めて出現した単語は、対応する素性が存在しないため、もし、分類の手がかりとして有効であっても、分類に寄与できないことに値対応する。
正則化適応は、原因(b)に対応する追加学習データに初めて出現した素性を加えて、素性ベクトルとモデルパラメータの次元を拡張したうえで学習している(非特許文献2)。しかし、新素性及びモデルパラメータと、ベースモデルに存在した素性及びモデルパラメータとを同等に扱っているため、追加学習データに適合させる際にベースモデルのモデルパラメータも変更してしまい、従来分類できていた未知データの分類結果が変わってしまう。
そこで、本実施の形態では、ベースモデルに存在する素性及びモデルパラメータと、新素性のモデルパラメータを明確に区別する。新素性に対応するモデルパラメータは、どんな値になっても、今までの分類結果に変化はない。一方、ベースモデルに存在するモデルパラメータを変更すると、今までの分類結果が変化する。そこで、新素性に対応するモデルパラメータは大きな変更を許容するが、ベースモデルに存在するモデルパラメータの変更を最小限にとどめることにより、追加学習データに適合し、かつベースモデルの分類結果との食い違いを最小限にとどめるモデルパラメータを学習する。
本発明による追加モデルの学習手順を図1に示す。まず、ベースモデルのパラメータBAと追加学習データ
から、学習すべきモデルパラメータwの初期化を行う。このとき、モデルパラメータwを、ベースモデルの素性に対応するモデルパラメータwBAと、追加学習データに初めて現れた素性に対応するモデルパラメータwADとに分割する。wBAを、BAで初期化し、wADをゼロベクトルで初期化する。なお、BAとwBAは学習の結果異なる値となる。
次に、2つのハイパーパラメータCBAとCAD(ただし、CBA<CADと設定する)を受け取り、上記(3)式を満たす最適なモデルパラメータwを推定する。この際、損失関数は下記(6)式に示すものを使用する。
上記(5)式では、正則化項は1つであるが、上記(6)式では、第2項及び第3項が正則化項であり、それぞれwBAとwADに対応している。ハイパーパラメータCBAとCADでその影響を調整する。ただし、CBA<CADとする。
BAに小さな値を設定することにより、wADは大きな変更を許容するがwBAは殆ど変化がないモデルが学習される。
<本実施の形態に係るモデルパラメータ推定装置の構成>
まず、本発明の実施の形態に係るモデルパラメータ推定装置の構成について説明する。図2に示すように、本発明の実施の形態に係るモデルパラメータ推定装置100は、CPUと、RAMと、後述するモデルパラメータ推定処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することができる。このモデルパラメータ推定装置100は、機能的には図2に示すように入力部10と、演算部20と、出力部50とを備えている。なお、本実施の形態においては、新聞記事のカテゴリ推定について説明する。
入力部10は、キーボードなどの入力装置から正解カテゴリの情報が付与されたN個の新聞記事を受け付け、学習データ記憶部22に記憶する。また、入力部10は、正解カテゴリの情報が付与されたNAD個の追加の新聞記事を受け付ける。また、入力部10は、ハイパーパラメータC、CBA、及びCADを受け付ける。なお、入力部10は、ネットワーク等を介して外部から入力されたものを受け付けるようにしてもよい。また、CBA<CADである。
演算部20は、学習データ記憶部22、素性抽出部24、モデルパラメータ生成部26、モデルパラメータ推定部28、モデルパラメータ記憶部30、追加学習データ受付部40、素性抽出部41、追加素性抽出部42、追加モデルパラメータ生成部44、及び追加モデルパラメータ推定部46を含んで構成されている。
学習データ記憶部22は、入力部10において受け付けた正解カテゴリの情報が付与されたN個の新聞記事を記憶している。なお、正解カテゴリの情報が付与されたN個の新聞記事に基づいて学習されるモデルをベースモデルとする。
素性抽出部24は、学習データ記憶部22に記憶されている正解カテゴリの情報が付与されたN個の新聞記事の各々について、当該新聞記事に存在する素性である単語の各々を抽出し、抽出された素性の種類数の次元からなる素性ベクトルを、N個の新聞記事の各々について生成し、モデルパラメータ記憶部30に記憶する。なお、素性抽出部24において抽出された素性をベースモデルの素性とする。
モデルパラメータ生成部26は、素性抽出部24で生成された素性ベクトルと同じ次元数のモデルパラメータベクトルを生成し、モデルパラメータ記憶部30に記憶する。なお、モデルパラメータベクトルはゼロベクトルで初期化する。なお、モデルパラメータ生成部26において生成されたモデルパラメータベクトルは、ベースモデルのモデルパラメータベクトルとする。
モデルパラメータ推定部28は、学習データ記憶部22に記憶されている正解カテゴリの情報が付与されたN個の新聞記事の各々について、素性抽出部24において抽出された当該新聞記事の素性ベクトルと、モデルパラメータ生成部26において生成したモデルパラメータベクトルと、入力部10において受け付けたハイパーパラメータCとに基づいて、上記(3)式及び上記(4)式に従って、最適化されたモデルパラメータベクトルBAを推定し、モデルパラメータ記憶部30に記憶する。なお、BAはベースモデルのモデルパラメータベクトルとする。
モデルパラメータ記憶部30は、ベースモデルの素性ベクトルと、ベースモデルのモデルパラメータベクトルBAとを記憶している。
追加学習データ受付部40は、入力部10において受け付けた正解カテゴリの情報が付与されたNAD個の新聞記事を、追加学習データとして受け付ける。
素性抽出部41は、素性抽出部24と同様に追加学習データ受付部40において受け付けた正解カテゴリの情報が付与されたNAD個の新聞記事の各々について、当該新聞記事に存在する素性である単語の各々を抽出し、抽出された素性とベースモデルの素性ベクトルの各素性とを併せた素性の種類数の次元からなる素性ベクトルを、NAD個の新聞記事の各々について生成する。生成された素性ベクトルは、モデルパラメータ記憶部30に記憶される。
追加素性抽出部42は、モデルパラメータ記憶部30に記憶されているベースモデルの素性ベクトルと、素性抽出部41において抽出された素性ベクトルとを比較して、ベースモデルの素性に存在しない追加素性の各々を抽出する。
追加モデルパラメータ生成部44は、素性抽出部41で生成された素性ベクトルと同じ次元数のモデルパラメータベクトルを生成する。また、追加モデルパラメータ生成部44は、追加素性抽出部42で抽出された各素性に対応する各モデルパラメータからなる追加モデルパラメータベクトルwADを生成する。なお、モデルパラメータベクトル及び追加モデルパラメータベクトルwADをゼロベクトルで初期化する。また、追加モデルパラメータ生成部44によって生成されるモデルパラメータベクトルを、追加モデルのモデルパラメータベクトルとする。なお、追加モデルのモデルパラメータベクトルwは、モデルパラメータベクトルwBAと追加モデルパラメータベクトルwADとを組み合わせたものである。
追加モデルパラメータ推定部46は、追加学習データ受付部40において受け付けた正解カテゴリの情報が付与されたNAD個の新聞記事の各々について素性抽出部41において抽出された素性ベクトルと、追加モデルパラメータ生成部44において生成された追加モデルのモデルパラメータベクトル及び追加モデルパラメータベクトルwADと、入力部10において受け付けたハイパーパラメータCBA及びCADと、モデルパラメータ記憶部30に記憶されているベースモデルのモデルパラメータベクトルBAとに基づいて、上記(3)式及び上記(6)式に従って、追加モデルのモデルパラメータベクトルwを推定し、モデルパラメータ記憶部30に記憶すると共に、出力部50に出力する。モデルパラメータ記憶部30に記憶されているモデルパラメータベクトルwBAは、推定された追加モデルのモデルパラメータベクトルwに更新される。また、モデルパラメータ記憶部30に記憶されているベースモデルの素性ベクトルは、新たに生成された素性ベクトルに更新される。これにより、追加の学習データを更に受け付けた場合であっても、上記と同様に、追加モデルのモデルパラメータベクトルwを推定することができる。
<実施の形態に係る分類装置の構成>
次に、本発明の実施の形態に係る分類装置の構成について説明する。図3に示すように、本発明の実施の形態に係る分類装置200は、CPUとRAMと後述する判定処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することができる。この分類装置200は、機能的には図3に示すように入力部110と、演算部120と、出力部150とを備えている。なお、本実施の形態においては、新聞記事のカテゴリ分類について説明する。
入力部110は、キーボードなどの入力装置から新聞記事を受け付ける。なお、入力部110は、ネットワーク等を介して外部から入力されたものを受け付けるようにしてもよい。
演算部120は、素性抽出部124、判定部126、及びモデルパラメータ記憶部130を含んで構成されている。
素性抽出部124は、素性抽出部41と同様に入力部10において受け付けた新聞記事について、当該新聞記事に存在する素性である単語の各々を抽出し、素性抽出部41と同様に素性ベクトルを生成する。
判定部126は、モデルパラメータ記憶部130に記憶されているモデルパラメータ推定装置100において学習された追加モデルのパラメータベクトルwと、素性抽出部124において生成された素性ベクトルとに基づいて、上記(1)式及び上記(2)式に従って、当該新聞記事のカテゴリを分類し、分類結果を出力部150に出力する。
<実施の形態に係るモデルパラメータ推定装置の作用>
次に、本発明の実施の形態に係るモデルパラメータ推定装置100の作用について説明する。図4に示すモデルパラメータ推定処理ルーチンを実行する前に、入力部10により正解カテゴリ情報が付与されたN個の新聞記事を受け付け学習データ記憶部22に記憶する。次に、ベースモデルのモデルパラメータベクトルBAを推定し、モデルパラメータ記憶部30に記憶する。そして、入力部10により追加学習データである正解カテゴリ情報が付与されたNAD個の新聞記事と、ハイパーパラメータCBA及びCADとが入力されると、モデルパラメータ推定装置100は、図4に示すモデルパラメータ推定処理ルーチンを実行する。
まず、ステップS100では、入力部10により入力された追加学習データである正解カテゴリの情報が付与されたNAD個の新聞記事の各々を受け付ける。
次に、ステップS101では、入力部10により入力されたハイパーパラメータCBA及びCADを受け付ける
次に、ステップS102では、モデルパラメータ記憶部30に記憶されているベースモデルの素性ベクトルを読み込む。
次に、ステップS104では、モデルパラメータ記憶部30に記憶されているベースモデルのモデルパラメータベクトルBAを読み込む。
次に、ステップS106では、ステップS100において取得したNAD個の新聞記事の各々について、当該新聞記事に存在する素性である単語を各々抽出し、抽出された素性とベースモデルの素性ベクトルの各素性とを併せた素性の種類数の次元からなる素性ベクトルを、NAD個の新聞記事の各々について生成する。
次に、ステップS108では、ステップS102において取得したベースモデルの素性ベクトルと、ステップS106において取得した素性ベクトルとに基づいて、ベースモデルの素性に含まれない各素性に対応するモデルパラメータからなる追加モデルパラメータベクトルを生成する。
次に、ステップS110では、ステップS106において取得した素性ベクトルと同じ次元数のモデルパラメータベクトルを生成する。
次に、ステップS112では、ステップS100において受け付けたNAD個の新聞記事の各々についてステップS106において生成した素性ベクトルと、ステップS110において取得したモデルパラメータベクトルと、ステップS108において生成した追加モデルパラメータベクトルwADと、ステップS101において受け付けたハイパーパラメータCBA及びCADと、ステップS104において取得したベースモデルのモデルパラメータベクトルBAとに基づいて、追加モデルのモデルパラメータベクトルwを推定し、モデルパラメータ記憶部30に記憶すると共に、出力部50に出力して処理を終了する。モデルパラメータ記憶部30に記憶されているモデルパラメータベクトルwBAは、推定された追加モデルのモデルパラメータベクトルwに更新される。また、モデルパラメータ記憶部30に記憶されているベースモデルの素性ベクトルは、新たに生成された素性ベクトルに更新される。
そして、追加学習データである正解カテゴリ情報が付与されたNAD個の新聞記事が更に入力された場合には、上記のモデルパラメータ推定処理ルーチンが再度実行される。
<実施の形態に係る分類装置の作用>
次に、本発明の実施の形態に係る分類装置200の作用について説明する。入力部110により新聞記事を受け付けると、分類装置200は、図5に示す判定処理ルーチンを実行する。
まず、ステップS200では、入力部110において受け付けた新聞記事を受け付ける。
次に、ステップS201では、モデルパラメータ記憶部130に記憶されているモデルパラメータベクトルwを読み込む。
次に、ステップS202では、ステップS200において取得した新聞記事に存在する素性である単語の各々を抽出し、素性ベクトルを生成する。
次に、ステップS204では、ステップS201において取得したモデルパラメータベクトルwと、ステップS202において生成した素性ベクトルとに基づいて、ステップS200において取得した新聞記事のカテゴリを分類する。
次に、ステップS206では、ステップS204において取得した分類結果を出力部150へ出力して処理を終了する。
<実施例>
図6に示す新聞記事のカテゴリ分類における精度を示す。1995年の新聞記事をベース学習データとしてベースモデルを構築、2005年の新聞記事を追加学習データとして従来の正則化適応と、本実施の形態による方法で追加モデルを構築し、1996年と2006年の新聞記事(それぞれ、テスト1996、テスト2006と呼ぶ)における精度を測定した結果、ベースモデルにおける精度と比較すると、従来法は、追加学習データに近いテスト2006では高い精度となるが、テスト1996では大幅に悪化する。一方、本実施形態による方法は、テスト1996の精度をほとんど変化させることなく、テスト2006の精度を向上させることができる。
以上説明したように、本実施の形態に係るモデルパラメータ推定装置によれば、既存のモデルパラメータへの影響を少なくしたままで、追加データに適応したモデルパラメータを推定することができる。
また、追加学習データに初めて出現した素性に対応するモデルパラメータは大きな変更を許し、ベースモデルに対応するモデルパラメータの変更を最小限にとどめることができ、追加学習データに適合し、かつベースモデルの分類結果との食い違いを最小限にとどめるモデルパラメータを学習することができる。
また、ベースモデルに対応するモデルパラメータの変化を最小限にとどめたまま追加学習データに適応したモデルが学習されることにより、新聞記事のカテゴリ分類の場合、新しい未知文書の分類精度が向上すると共に、今まで正しく分類できた未知文書の変化を最小限にすることができる。
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
具体的には、本実施の形態においては、新聞記事のカテゴリ推定を例として説明したがこの限りではなく、他の分類問題に用いてもよい。
10 入力部
20 演算部
22 学習データ記憶部
24 素性抽出部
26 モデルパラメータ生成部
28 モデルパラメータ推定部
30 モデルパラメータ記憶部
40 追加学習データ受付部
41 素性抽出部
42 追加素性抽出部
44 追加モデルパラメータ生成部
46 追加モデルパラメータ推定部
50 出力部
100 モデルパラメータ推定装置
110 入力部
120 演算部
124 素性抽出部
126 判定部
130 モデルパラメータ記憶部
150 出力部
200 分類装置

Claims (7)

  1. データから抽出された各素性からなる素性ベクトルに基づいてクラス分類を行うためのベースモデルで用いられる前記素性ベクトルの各素性に対応する各モデルパラメータからなるモデルパラメータベクトルを記憶したモデルデータベースと、入力手段と、素性抽出手段と、追加素性抽出手段と、推定手段とを含むモデルパラメータ推定装置におけるモデルパラメータ推定方法であって、
    前記入力手段は、正解クラスが予め付与された前記データを、追加の学習データとして受け付け、
    前記素性抽出手段は、前記受け付けた追加の学習データの前記データから、各素性を抽出して、抽出された各素性と、前記ベースモデルで用いられる素性ベクトルの各素性とを併せた各素性からなる素性ベクトルを抽出し、
    前記追加素性抽出手段は、前記素性抽出手段によって前記追加の学習データの前記データから抽出された前記素性ベクトルの各素性から、前記モデルデータベースに記憶されたモデルパラメータベクトルの各モデルパラメータに対応する各素性とは異なる追加の素性を抽出し、
    前記推定手段は、前記素性抽出手段によって前記追加の学習データの前記データから抽出された前記素性ベクトルと、前記追加素性抽出手段によって抽出された前記追加の素性と、前記モデルデータベースに記憶された前記モデルパラメータベクトルBAと、前記追加の学習データに予め付与された正解クラスとに基づいて、前記モデルデータベースに記憶された前記モデルパラメータベクトルBA及び前記追加の素性の各々に対応する各モデルパラメータからなる追加モデルパラメータベクトルwADを組み合わせたモデルパラメータベクトルwを用いて計算される、前記素性抽出手段によって前記追加の学習データの前記データから前記素性ベクトルに対する、前記追加の学習データに付与された前記正解クラスの事後確率と、前記モデルデータベースに記憶された前記モデルパラメータベクトルBA、及び最適化後のモデルパラメータベクトルwのうちのモデルパラメータベクトルwBAの差分を用いて計算される第1正則化項と、前記最適化後のモデルパラメータベクトルwのうちの前記追加モデルパラメータベクトルwADを用いて計算される第2正則化項とを含んで表される損失関数を最小にするように、前記モデルパラメータベクトルwを最適化する
    モデルパラメータ推定方法。
  2. 前記損失関数

    は、以下の式で表わされる請求項1記載のモデルパラメータ推定方法。

    ただし、

    は、NAD個の前記追加の学習データiの各々について抽出された前記素性ベクトルx及び前記予め付与された正解クラスyのペアであり、p(y|x)は、前記モデルパラメータベクトルwを用いて計算される、素性ベクトルxに対する前記クラスyの事後確率であり、CBA、CADはハイパーパラメータである。
  3. 前記ハイパーパラメータCADの値を、前記ハイパーパラメータCBAの値よりも大きくした請求項2記載のモデルパラメータ推定方法。
  4. データから抽出された各素性からなる素性ベクトルに基づいてクラス分類を行うためのベースモデルで用いられる前記素性ベクトルの各素性に対応する各モデルパラメータからなるモデルパラメータベクトルを記憶したモデルデータベースと、
    正解クラスが予め付与された前記データを、追加の学習データとして受け付ける入力手段と、
    前記受け付けた追加の学習データの前記データから、各素性を抽出して、抽出された各素性と、前記ベースモデルで用いられる素性ベクトルの各素性とを併せた各素性からなる素性ベクトルを抽出する素性抽出手段と、
    前記素性抽出手段によって前記追加の学習データの前記データから抽出された前記素性ベクトルの各素性から、前記モデルデータベースに記憶されたモデルパラメータベクトルの各モデルパラメータに対応する各素性とは異なる追加の素性を抽出する追加素性抽出手段と、
    前記素性抽出手段によって前記追加の学習データの前記データから抽出された前記素性ベクトルと、前記追加素性抽出手段によって抽出された前記追加の素性と、前記モデルデータベースに記憶された前記モデルパラメータベクトルBAと、前記追加の学習データに予め付与された正解クラスとに基づいて、前記モデルデータベースに記憶された前記モデルパラメータベクトルBA及び前記追加の素性の各々に対応する各モデルパラメータからなる追加モデルパラメータベクトルwADを組み合わせたモデルパラメータベクトルwを用いて計算される、前記素性抽出手段によって前記追加の学習データの前記データから前記素性ベクトルに対する、前記追加の学習データに付与された前記正解クラスの事後確率と、前記モデルデータベースに記憶された前記各モデルパラメータベクトルBA、及び最適化後のモデルパラメータベクトルwのうちのモデルパラメータベクトルwBAの差分を用いて計算される第1正則化項と、前記最適化後のモデルパラメータベクトルwのうちの前記追加モデルパラメータベクトルwADを用いて計算される第2正則化項とを含んで表される損失関数を最小にするように、前記モデルパラメータベクトルwを最適化する推定手段と、
    を含む、モデルパラメータ推定装置。
  5. 前記損失関数

    は、以下の式で表わされる請求項4記載のモデルパラメータ推定装置。

    ただし、

    は、NAD個の前記追加の学習データiの各々について抽出された前記素性ベクトルx及び前記予め付与された正解クラスyのペアであり、p(y|x)は、前記モデルパラメータベクトルwを用いて計算される、素性ベクトルxに対する前記クラスyの事後確率であり、CBA、CADはハイパーパラメータである。
  6. 前記ハイパーパラメータCADの値を、前記ハイパーパラメータCBAの値よりも大きくした請求項5記載のモデルパラメータ推定装置。
  7. コンピュータを、請求項4〜6の何れか1項記載のモデルパラメータ推定装置を構成する各手段として機能させるためのプログラム。
JP2013169964A 2013-08-19 2013-08-19 モデルパラメータ推定方法、装置、及びプログラム Pending JP2015038709A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013169964A JP2015038709A (ja) 2013-08-19 2013-08-19 モデルパラメータ推定方法、装置、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013169964A JP2015038709A (ja) 2013-08-19 2013-08-19 モデルパラメータ推定方法、装置、及びプログラム

Publications (1)

Publication Number Publication Date
JP2015038709A true JP2015038709A (ja) 2015-02-26

Family

ID=52631742

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013169964A Pending JP2015038709A (ja) 2013-08-19 2013-08-19 モデルパラメータ推定方法、装置、及びプログラム

Country Status (1)

Country Link
JP (1) JP2015038709A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017159614A1 (ja) * 2016-03-14 2017-09-21 オムロン株式会社 学習サービス提供装置
WO2018173121A1 (ja) * 2017-03-21 2018-09-27 株式会社Preferred Networks サーバ装置、学習済モデル提供プログラム、学習済モデル提供方法及び学習済モデル提供システム
JP2021174040A (ja) * 2020-04-20 2021-11-01 株式会社東芝 情報処理装置、情報処理方法およびプログラム
CN108363724B (zh) * 2018-01-04 2021-12-10 浙江大学 一种利用图像正则化及数据重建解决特征提取任务的方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017159614A1 (ja) * 2016-03-14 2017-09-21 オムロン株式会社 学習サービス提供装置
WO2018173121A1 (ja) * 2017-03-21 2018-09-27 株式会社Preferred Networks サーバ装置、学習済モデル提供プログラム、学習済モデル提供方法及び学習済モデル提供システム
JPWO2018173121A1 (ja) * 2017-03-21 2019-12-12 株式会社Preferred Networks サーバ装置、学習済モデル提供プログラム、学習済モデル提供方法及び学習済モデル提供システム
CN108363724B (zh) * 2018-01-04 2021-12-10 浙江大学 一种利用图像正则化及数据重建解决特征提取任务的方法
JP2021174040A (ja) * 2020-04-20 2021-11-01 株式会社東芝 情報処理装置、情報処理方法およびプログラム
JP7135025B2 (ja) 2020-04-20 2022-09-12 株式会社東芝 情報処理装置、情報処理方法およびプログラム
US11754985B2 (en) 2020-04-20 2023-09-12 Kabushiki Kaisha Toshiba Information processing apparatus, information processing method and computer program product

Similar Documents

Publication Publication Date Title
Li et al. Rényi divergence variational inference
WO2019174423A1 (zh) 实体情感分析方法及相关装置
WO2022116440A1 (zh) 模型训练方法、装置和设备
US11456003B2 (en) Estimation device, learning device, estimation method, learning method, and recording medium
CN108304890B (zh) 一种分类模型的生成方法及装置
JP2017126158A (ja) 2値分類学習装置、2値分類装置、方法、及びプログラム
US9582758B2 (en) Data classification method, storage medium, and classification device
JP2015038709A (ja) モデルパラメータ推定方法、装置、及びプログラム
JP6673226B2 (ja) 特徴変換装置、認識装置、特徴変換方法及びコンピュータ読み取り可能記録媒体
JP2013134752A (ja) トピックモデル学習方法、装置、及びプログラム
WO2012176863A1 (ja) 情報処理システム、ネットワーク構造学習装置、リンク強度予測装置、リンク強度予測方法およびプログラム
Solanki et al. Spam filtering using hybrid local-global Naive Bayes classifier
CN112835798B (zh) 聚类学习方法、测试步骤聚类方法及相关装置
US9792561B2 (en) Learning method, information conversion device, and recording medium
JP2019079102A (ja) 学習装置、生成装置、分類装置、学習方法、学習プログラム、および動作プログラム
Zhang et al. Impute vs. ignore: Missing values for prediction
US20230186150A1 (en) Hyperparameter selection using budget-aware bayesian optimization
CN111373391A (zh) 语言处理装置、语言处理系统和语言处理方法
Xie Time series prediction based on recurrent LS-SVM with mixed kernel
JP5815468B2 (ja) スパム分類モデル生成装置及び方法及びプログラム
JPWO2010110181A1 (ja) パターン照合装置、パターン照合方法及びパターン照合プログラム
JP5008096B2 (ja) 文書自動分類方法及び文書自動分類システム
JP2020160667A (ja) 分類装置、分類方法及び分類プログラム
Irle et al. On Kleinberg's stochastic discrimination procedure
JP5538354B2 (ja) トピックモデル学習方法、装置、及びプログラム