JP2005092681A - 確率モデル生成装置及び確率モデル生成プログラム - Google Patents
確率モデル生成装置及び確率モデル生成プログラム Download PDFInfo
- Publication number
- JP2005092681A JP2005092681A JP2003327490A JP2003327490A JP2005092681A JP 2005092681 A JP2005092681 A JP 2005092681A JP 2003327490 A JP2003327490 A JP 2003327490A JP 2003327490 A JP2003327490 A JP 2003327490A JP 2005092681 A JP2005092681 A JP 2005092681A
- Authority
- JP
- Japan
- Prior art keywords
- feature function
- combination
- attributes
- data
- probability model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
【課題】 自動的に有効性の高い素性関数を定義し高精度な確率モデルを生成する。
【解決手段】 予め蓄積された学習データと、素性関数とを用いて最大エントロピー法による確率モデルの生成を行う確率モデル生成装置において、前記学習データを2つの出力値を持つデータに変換する変換手段と、前記2つの出力値を持つデータに変換された学習データを用いてサポートベクターマシンにより学習し、学習結果として得られるサポートベクターと、各サポートベクターに対応する重みとを取得してモデルを生成するモデル生成手段と、記サポートベクターの属性の組み合わせを生成し、同一となる属性の組み合わせの重みを加算し、加算された重みに基づいて属性の組み合わせを抽出する属性抽出手段と、前記属性抽出手段により得られる属性の組み合わせに基づいて、素性関数を生成する素性関数生成手段とを有することにより、上記課題を解決する。
【選択図】 図1
【解決手段】 予め蓄積された学習データと、素性関数とを用いて最大エントロピー法による確率モデルの生成を行う確率モデル生成装置において、前記学習データを2つの出力値を持つデータに変換する変換手段と、前記2つの出力値を持つデータに変換された学習データを用いてサポートベクターマシンにより学習し、学習結果として得られるサポートベクターと、各サポートベクターに対応する重みとを取得してモデルを生成するモデル生成手段と、記サポートベクターの属性の組み合わせを生成し、同一となる属性の組み合わせの重みを加算し、加算された重みに基づいて属性の組み合わせを抽出する属性抽出手段と、前記属性抽出手段により得られる属性の組み合わせに基づいて、素性関数を生成する素性関数生成手段とを有することにより、上記課題を解決する。
【選択図】 図1
Description
本発明は、確率モデル生成装置及び確率モデル生成プログラムに係り、特に、最大エントロピー法で利用する素性関数を効率的に生成し、高精度な確率モデルを生成するための確率モデル生成装置及び確率モデル生成プログラムに関する。
従来、統計的な機械学習手法である最大エントロピー法に基づいた確率モデルを構築する場合、制約条件となる素性関数を定義する必要があり、その素性関数を用いて確率モデルが構築される。
ここで、従来の素性関数の定義の方法は、大別すると、人手により属性の組み合わせから素性を作成する方法と、予め素性関数の候補を作成し、作成した候補のうちの1つを追加した際にモデルの対数尤度の変化の大きい素性を採用し、この変化の大きい素性を採用するまでの手順を繰り返し行うことで複数の素性を採用する方法(例えば、非特許文献1参照。)とがある。
また、無効な素性関数を除外して有効な素性関数を選択し、最大エントロピーモデルの生成を行う技術が開示されている(例えば、特許文献1参照。)
Adam L.Berger,Stephen A.Della Pietra, and Vincent J.Della Pietra.(1996). A Maximum Entropy Approach to Natural Language Processing.CL,Vol.22,No.1,pp.39−71 特開2002−373163号公報
Adam L.Berger,Stephen A.Della Pietra, and Vincent J.Della Pietra.(1996). A Maximum Entropy Approach to Natural Language Processing.CL,Vol.22,No.1,pp.39−71
しかしながら、人手による作業では,扱う属性の種類が多くなると有効な素性を網羅して作成することは困難となる。また、素性関数の候補から素性関数を選択する際には計算量が多く効率がよいとは言えない。更に、モデルの対数尤度の変化の大きい素性を採用するという基準で選択した素性関数は,学習データに対して過学習になり易く、学習データに存在していなかった新たなデータ(未知データ)に対して有効ではない素性関数が選択される可能性が高いため、高精度な確率モデルを生成することができない。
本発明は、上述した問題点に鑑みなされたものであり、効率的に素性関数を生成し、その素性関数を利用して最大エントロピー法により高精度な確率モデルを生成するための確率モデル生成装置及び確率モデル生成プログラムを提供することを目的とする。
上記課題を解決するために、本件発明は、以下の特徴を有する課題を解決するための手段を採用している。
請求項1に記載された発明は、予め蓄積された学習データと、素性関数とを用いて最大エントロピー法による確率モデルの生成を行う確率モデル生成装置において、前記学習データを2つの出力値を持つデータに変換する変換手段と、前記2つの出力値を持つデータに変換された学習データを用いてサポートベクターマシンにより学習し、学習結果として得られるサポートベクターと、各サポートベクターに対応する重みとを取得してモデルを生成するモデル生成手段と、前記サポートベクターの属性の組み合わせを生成し、同一となる属性の組み合わせの重みを加算し、加算された重みに基づいて属性の組み合わせを抽出する属性抽出手段と、前記属性抽出手段により得られる属性の組み合わせに基づいて、素性関数を生成する素性関数生成手段とを有することを特徴とする。
請求項1記載の発明によれば、属性の組み合わせの重みに基づいて学習データにおける頻度の高い属性の組み合わせを抽出し、抽出された属性の組み合わせより素性関数を生成することで、データ量を削減し効率的に素性関数を生成することができる。また、素性関数を定義する際に2値判別の手法であるサポートベクターマシン(Support Vector Machine:SVM)の学習結果を用いることにより、膨大な情報の中から有効性の高い属性の組み合わせを網羅的に選択して、素性関数を生成することができる。これにより、有効性が高い高精度な確率モデルを生成することができる。
請求項2に記載された発明は、前記属性抽出手段は、前記サポートベクターマシンで利用するカーネルの次数に基づいて属性の組み合わせを生成し,全てのサポートベクターの重みを加算して、加算値の絶対値が大となる属性の組み合わせを抽出することを特徴とする。
請求項2記載の発明によれば、学習データにおける頻度の高い属性の組み合わせを効率的に抽出することができる。また、抽出された属性の組み合わせより素性関数を生成することで、データ量を削減し効率的に素性関数を生成することができる。
請求項3に記載された発明は、予め蓄積された学習データと、素性関数とを用いて最大エントロピー法による確率モデルの生成を行う処理をコンピュータに実行させるための確率モデル生成プログラムにおいて、前記学習データを2つの出力値を持つデータに変換する変換処理と、前記2つの出力値を持つデータに変換された学習データを用いてサポートベクターマシンにより学習し、学習結果として得られるサポートベクターと、各サポートベクターに対応する重みとを取得してモデルを生成するモデル生成処理と、前記サポートベクターの属性の組み合わせを生成し、同一となる属性の組み合わせの重みを加算し、加算された重みに基づいて属性の組み合わせを抽出する属性抽出処理と、前記属性抽出処理により得られる属性の組み合わせに基づいて、素性関数を生成する素性関数生成処理とをコンピュータに実行させる。
請求項3記載の発明によれば、属性の組み合わせの重みに基づいて学習データにおける頻度の高い属性の組み合わせを抽出し、抽出された属性の組み合わせより素性関数を生成することで、データ量を削減し効率的に素性関数を生成することができる。また、素性関数を定義する際に2値判別の手法であるサポートベクターマシンの学習結果を用いることにより、膨大な情報の中から有効性の高い属性の組み合わせを網羅的に選択して、素性関数を生成することができる。これにより、有効性が高い高精度な確率モデルを生成することができる。また、実行プログラムをコンピュータにインストールすることにより、容易に確率モデルの生成を実現することができる。
請求項4に記載された発明は、前記属性抽出処理は、前記サポートベクターマシンで利用するカーネルの次数に基づいて属性の組み合わせを生成し,全てのサポートベクターの重みを加算して、加算値の絶対値が大となる属性の組み合わせを抽出することを特徴とする。
請求項4記載の発明によれば、学習データにおける頻度の高い属性の組み合わせを効率的に抽出することができる。また、抽出された属性の組み合わせより素性関数を生成することで、データ量を削減し効率的に素性関数を生成することができる。
本発明によれば、自動的に有効性の高い素性関数を生成し、その素性関数を利用して最大エントロピー法により高精度な確率モデルを生成することができる。
<本発明の概要>
本発明は、素性関数を定義する際に2値判別の手法であるサポートベクターマシン(Support Vector Machine;SVM)の学習結果を用いて、属性の組み合わせである素性関数を生成する。これにより、膨大な情報の中から有効性の高い属性の組み合わせを網羅的に選択して素性関数を生成することができ、より有効性が高い最大エントロピー法に基づいた多値の尤度を計算する確率モデルを構築することができる。
本発明は、素性関数を定義する際に2値判別の手法であるサポートベクターマシン(Support Vector Machine;SVM)の学習結果を用いて、属性の組み合わせである素性関数を生成する。これにより、膨大な情報の中から有効性の高い属性の組み合わせを網羅的に選択して素性関数を生成することができ、より有効性が高い最大エントロピー法に基づいた多値の尤度を計算する確率モデルを構築することができる。
以下に、上記のような特徴を有する本発明における確率モデル生成装置及び確率モデル生成プログラムを好適に実施した形態について、図面を用いて詳細に説明する。なお、本実施例では、具体例として、日本語文における2文節間の係り受けの尤度を求める確率モデルを構築する場合について説明する。
図1は、本発明における確率モデル生成装置のブロック構成の一例を示す図である。図1の確率モデル生成装置10は、学習データ11と、素性関数生成部12と、確率モデル生成部13とを有するよう構成されている。
まず、素性関数生成部12は、学習データ11を入力し、SVMを用いるために学習データ11を2値に変換するためのパラメータ14と、素性関数を生成する上で不要な関数を削除するためのテーブル15とに基づいて素性関数16を生成する。なお、素性関数生成部12についての詳細は後述する。
次に、確率モデル生成部13は、素性関数生成部12にて生成された素性関数16と、学習データ11とに基づいて確率モデル17を生成する。
ここで、素性関数生成部12の機能構成について図を用いて説明する。図2は、本発明における素性関数生成部の機能構成の一例を示す図である。また、図3は、素性関数生成部の各機能構成部にて生成されるデータ例を示す図である。なお、図3では、ある文節における「品詞」や「時制」、「意味」等の属性xについて、夫々の属性を定量的に表現した特徴量と共に示されている。また、yは、その属性の夫々の特徴量の組み合わせに対応して出力される出力値又は分類されるクラスを示している。
図2に示す素性関数生成部12は、2つの出力値を持つデータへの変換手段21と、SVMモデル生成手段22と、属性組み合わせ抽出手段23と、不要組み合わせ削除手段24と、素性関数手段25とを有するよう構成されている。
変換手段21は、学習データ11を入力し、パラメータの条件に併せて2値データに変換する。具体的には、学習データ11には、複数の利用する係り受けの正解が付与されており、変換手段21は、入力した学習データ11から、「係り元文節」と、その「係り元文節」が係る「係り先文節」の候補との2文節の組み合わせを生成する。これらのデータは、係り受けの正解データから「係り受けの関係にある。(係る)」、「係り先文節候補の後にある。(候補後ろ)」、「係り先文節候補の前に係る。(候補手前)」の3つのクラスに分類することができる。
ここで、変換手段21は、「係り受け関係にある。」と、「係り先文節候補の後に係る。」という2つのクラスを持つデータと、「係り受け関係にある。」と、「係り先文節候補の前に係る。」という2つのクラスを持つデータの2種類のデータに分割し、その2種類のデータを2値データとして出力する。なお、2種類に分割する方法は、学習データ11が有するデータ内容等に応じて上述したような2値分割条件等がパラメータ14に設定されており、変換手段21は、そのパラメータ情報に基づいて2値データに変換する。
なお、以下の説明では、「係り受け関係にある。」と、「係り先文節候補の後に係る。」という2つのクラスを持つデータを「+(正)」とし、「係り受け関係にある。」と、「係り先文節候補の前に係る。」という2つのクラスを持つデータを「−(負)」として2値を表現する。
例えば、学習データ11には、図3(a)に示すような属性xと、その属性の特徴量の組み合わせに対応する出力値yとが予め蓄積されている。変換手段21は、図3(a)に示すような学習データを上述した内容にしたがって、属性xの組み合わせ内容とパラメータ情報とにより2つのクラスに分類し、図3(b)に示すような2値のデータを作成する。ここで、図3(b)中の(+1)は、「係り受け関係にある。」と、「係り先文節候補の後に係る。」という2つのクラスを持つデータ、つまり「+」のデータであることを示している。つまり、「x1=0,x2=0,x3=1,x4=0,・・・」であるxの属性に対するクラスyは、「+」であることを示している。このようにして、変換手段21は、変換したデータはSVMモデル生成手段22に出力する。
次に、SVMモデル生成手段22は、上述の「+」と「−」の2つのデータを用いてSVMにより学習を行う。この学習結果として、SV(サポートベクター)と夫々のSVに対する重みの値が得られる。SVMモデル生成手段22は、SVMで学習して図3(c)に示すようなSVMのモデルを生成し、属性組み合わせ抽出手段23に出力する。なお、図3(c)において、αは、xの属性における重みを示している。例えば、図3(c)において、「x1=0,x2=0,x3=1,x4=0,・・・」であるxの属性に関する重みαは0.01であることを示している。なお、この重みはSVにより生成される。
ここで、上述したSVMについて具体的に説明する。SVMの学習結果のSVをxi=(x1 i,x2 i,x3 i),i∈{1,2,・・・,k}とし、その重みをαiyiとすると、以下に示す(1)式により、未知データの属性ベクトルの属性ベクトルxt=(xt1,xt2,xt3)が属するクラスy∈{−,+}を判別する。
ここで、例えば、SVの数(k)=2とし、多項式関数をカーネル関数とした場合について説明する。この場合には、
K(xi,xt)=(s(xi,xt)+c)d ・・・(2)
となる。ここで、d=2、s=c=1とすると、
K(xi,xt)=(xi・xt+1)2 ・・・(3)
となり(3)式を展開すると、
K(xi,xt)=(s(xi,xt)+c)d ・・・(2)
となる。ここで、d=2、s=c=1とすると、
K(xi,xt)=(xi・xt+1)2 ・・・(3)
となり(3)式を展開すると、
ここで、xtjの値が1の場合にyの値に影響を及ぼすxj iの組み合わせを考える。上述の(5)式のxtjの値を全て1とすると、(5)式のsgnの内部は、(6)式になる。
つまり、(9)式の値に影響を及ぼすxijの組み合わせとして、x1 1x2 1の組み合わせと、x2 2x3 2の組み合わせが抽出される。また、その影響の大きさは、x1 1x2 1の組み合わせは2α1y1となり、x2 2x3 2の組み合わせは2α2y2となる。ここで、これらの値が正で絶対値が大きいものはyを+(正)にする影響が大きく、負で絶対値が大きいものはyを−(負)にする影響が大きい。
このように、カーネル関数を展開して属性の組み合わせを生成し、それらの属性の組み合わせに対する全てのSVの重みを加算する。この加算したSVの重みの値により、属性の組み合わせに順位を付与することができる。なお、この場合は、重みの値の大きい順に順位付けされる。
なお、上述では、カーネル関数の次数が2次の場合について説明したが、3次以上の次数を有する場合は、カーネルの式を展開すると次数に応じて3つ以上の属性の組み合わせを生成することができる。
属性組み合わせ抽出手段23は、上述したように各属性の組み合わせの中から順位付けされた属性の組み合わせを判別に影響の大きい属性の組み合わせとして抽出する。つまり、SVMで得られた結果から、SVMで利用したカーネル関数の式を展開し、同一の属性の組み合わせを示す項に対して全てのSVの重みを加算する。SVの重みを加算することにより、図3(d)に示すような属性の組み合わせの例が生成される。例えば、図3(d)において、x3=1であり、かつx10=1である加算されたSVの重みαは、0.01であることを示している。そして、属性組み合わせ抽出手段23は、それらの組み合わせの中で重みの絶対値の大きいものを抽出する。抽出した属性の組合せは、不要組み合わせ削除手段24に出力する。
不要組み合わせ削除手段24は、属性組み合わせ抽出手段23により抽出される組み合わせ情報から不要な組み合わせを削除する。なお、削除する際には、予め不要なデータの情報が蓄積されているテーブル15を参照し、有効性の低い属性の組み合わせを不要な組み合わせとして削除する。なお、ここでは、上述に記載のx1 1x2 1の組み合わせと、x2 2x3 2の組み合わせは、どちらも削除されていないものとする。不要組み合わせ削除手段24は、削除されていない属性の組み合わせを素性関数生成手段25に出力する。
次に、素性関数生成手段25は、入力した属性の組み合わせから素性関数を生成する。例えば、2α1y1=1.1であり、2α2y2=−0.6である場合、つまり、α1y1が正(+)であり、α2y2が負(−)である場合、最大エントロピー法で用いる素性関数を、
(10)式では、例えば、f1(x,y)において、x1 1=1,x2 1=1、y=‘+’である場合に1とし、それ以外の場合は0とすることを示している。素性関数生成手段25は、このように素性関数16を生成して出力する。
このようにして、図3(e)に示すような素性関数が定義される。例えば、x3=1、x10=1で、y=‘+’である場合は1として、それ以外の場合は0とする。
このように、SVMを利用することで、SVMの学習結果を展開して各属性の組み合わせを生成し、それらの組み合わせの中で影響の大きいものを抽出して素性関数の組み合わせとして利用することができる。
確率モデル生成部13は、素性関数生成部12にて生成された属性の組み合わせを最大エントロピー法の素性関数として利用して最大エントロピー法に基づき高精度な確率モデル17を生成することができる。
ここで、最大エントロピー法に基づく確率モデルの生成は、与えられた制約条件を満たすモデルの中で最も一様な分布であるモデルを選択するものである。例えば、分布の一様さは、条件付き確率モデルの条件付きエントロピーをH(Y|X)を用いて、
更に、制約条件を満たすモデルの集合をpとすると、推定する確率モデルP*は、pの中でエントロピーを最大にするものであり、以下の式で表される。
なお、確率モデルの生成については、例えば、非特許文献1に示すような、一般的な手法を用いて生成することができる。
ここで、上述したように確率モデル生成装置における専用の装置構成により本発明における確率モデルの生成を行うこともできるが、上述した内容をコンピュータに実行させることができる実行プログラム(確率モデル生成プログラム)を生成し、例えば、汎用のパーソナルコンピュータ、ワークステーション等に確率モデル生成プログラムをインストールすることにより、本発明における確率モデルの生成が実現可能となる。
ここで、本発明における実行可能なコンピュータのハードウェア構成例について図を用いて説明する。図4は、本発明における確率モデル生成処理が実現可能なハードウェア構成の一例を示す図である。
図4におけるコンピュータ本体には、入力装置31と、出力装置32と、ドライブ装置33と、補助記憶装置34と、メモリ装置35と、各種制御を行うCPU(Central Processing Unit)36と、ネットワーク接続装置37とを有するよう構成されており、これらはシステムバスBで相互に接続されている。
入力装置31は、使用者が操作するキーボード及びマウス等のポインティングデバイスを有しており、使用者からのプログラムの実行等、各種操作信号を入力する。出力装置32は、本発明における確率モデル生成処理を行うためのコンピュータ本体を操作するのに必要な各種ウィンドウやデータ等を表示するモニタを有し、CPU36が有する制御プログラムに基づいて実行結果等を表示することができる。
ここで、本発明において、コンピュータ本体にインストールされる実行プログラムは、例えば、CD−ROM等の記録媒体38等により提供される。プログラムを記録した記録媒体38は、ドライブ装置33にセット可能であり、記録媒体38に含まれる実行プログラムが、記録媒体38からドライブ装置33を介して補助記憶装置34にインストールされる。
補助記憶装置34は、ハードディスク等のストレージ手段であり、本発明における実行プログラムや、コンピュータに設けられた制御プログラムの他に、ドライブ装置33から読み取ることができる学習データや、パラメータ、テーブルを蓄積し必要に応じて入出力を行うことができる。
CPU36は、OS(Operating System)等の制御プログラム、メモリ装置35により読み出され格納されている実行プログラムに基づいて、各種演算や各ハードウェア構成部とのデータの入出力等、コンピュータ全体の処理を制御して、上述した確率モデル生成における各処理を実現することができる。プログラムの実行中に必要な各種情報は、補助記憶装置34から取得することができ、また格納することもできる。
ネットワーク接続装置37は、通信ネットワーク等と接続することにより、実行プログラムを通信ネットワークに接続されている他の端末等から取得したり、確率モデルの生成手順を規定したプログラムを実行することで得られた実行結果又は本発明における実行プログラム自体を他の端末等に提供することができる。
上述したようなハードウェア構成により、特別な装置構成を必要とせず、低コストで高精度な確率モデル生成処理を実現できる。
次に、上述したようなハードウェア構成により実行される確率モデル生成プログラムにおける処理手順について、フローチャートを用いて説明する。図5は、本発明における確率モデル生成手順を示す一例のフローチャートである。
まず、ユーザから入力装置31を用いて確率モデル生成プログラムの実行指示が入力されると、補助記憶装置34に格納されている確率モデル生成プログラムをメモリ装置35に格納する。CPU36は、メモリ装置35に格納された確率モデル生成プログラムにしたがって確率モデル生成に係る機能を実行する。
CPU36は、学習データを入力して2値データに変換する(S01)。このとき、2値の分割基準は、補助記憶装置34にあるパラメータに基づいて変換される。次に、SVMで学習してSVMのモデルを生成する(S02)。S02にて出力されるSVMのモデルから各属性の組み合わせの中から判別に影響の大きい組み合わせを抽出する(S03)。
次に、不要な組み合わせデータが予め補助記憶装置34に格納されているテーブルを参照し、入力した組み合わせの中から不要な組み合わせを削除する(S04)。その後、属性の組み合わせから素性関数を生成する(S05)。
次に、上述のS01〜S04までの処理で生成された素性関数及び学習データを用いて、最大エントロピー法に基づき確率モデルを生成して、確率モデルの構築を行う(S06)。
上述した確率モデル生成処理を行うことにより、人手では網羅しきれない多数の有効性が高い素性関数をSVMを用いて効率的に定義することができ、この素性関数を用いることにより、より有効性が高い最大エントロピー法に基づいた多値の尤度を計算する確率モデルを構築することができる。また、実行プログラムを用いることで、特別な装置構成を必要とせず、汎用のコンピュータで本発明における確率モデル生成処理を実行できるため、低コストで高精度な確率モデルの構築を実現することができる。
上述したように本発明によれば、2値判別の手法であるサポートベクターマシン(SVM)の学習結果を用いて,属性の組み合わせである素性関数を効率的に定義することができる。これにより、人手では網羅しきれない多数の有効性がある素性関数を定義することができ,より有効性が高い最大エントロピー法に基づいた多値の尤度を計算する確率モデルを構築することができる。
以上本発明の好ましい実施例について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形、変更が可能である。
10 確率モデル生成装置
11 学習データ
12 素性関数生成部
13 確率モデル生成部
14 パラメータ
15 テーブル
16 素性関数
21 変換手段
22 SVMモデル生成手段
23 属性組み合わせ抽出手段
24 不要組み合わせ削除手段
25 素性関数手段
31 入力装置
32 出力装置
33 ドライブ装置
34 補助記憶装置
35 メモリ装置
36 CPU
37 ネットワーク接続装置
38 記録媒体
11 学習データ
12 素性関数生成部
13 確率モデル生成部
14 パラメータ
15 テーブル
16 素性関数
21 変換手段
22 SVMモデル生成手段
23 属性組み合わせ抽出手段
24 不要組み合わせ削除手段
25 素性関数手段
31 入力装置
32 出力装置
33 ドライブ装置
34 補助記憶装置
35 メモリ装置
36 CPU
37 ネットワーク接続装置
38 記録媒体
Claims (4)
- 予め蓄積された学習データと、素性関数とを用いて最大エントロピー法による確率モデルの生成を行う確率モデル生成装置において、
前記学習データを2つの出力値を持つデータに変換する変換手段と、
前記2つの出力値を持つデータに変換された学習データを用いてサポートベクターマシンにより学習し、学習結果として得られるサポートベクターと各サポートベクターに対応する重みとを取得してモデルを生成するモデル生成手段と、
前記サポートベクターの属性の組み合わせを生成し、同一となる属性の組み合わせの重みを加算し、加算された重みに基づいて属性の組み合わせを抽出する属性抽出手段と、
前記属性抽出手段により得られる属性の組み合わせに基づいて、素性関数を生成する素性関数生成手段とを有することを特徴とする確率モデル生成装置。 - 前記属性抽出手段は、
前記サポートベクターマシンで利用するカーネルの次数に基づいて属性の組み合わせを生成し,全てのサポートベクターの重みを加算して、加算値の絶対値が大となる属性の組み合わせを抽出することを特徴とする請求項1に記載の確率モデル生成装置。 - 予め蓄積された学習データと、素性関数とを用いて最大エントロピー法による確率モデルの生成を行う処理をコンピュータに実行させるための確率モデル生成プログラムにおいて、
前記学習データを2つの出力値を持つデータに変換する変換処理と、
前記2つの出力値を持つデータに変換された学習データを用いてサポートベクターマシンにより学習し、学習結果として得られるサポートベクターと、各サポートベクターに対応する重みとを取得してモデルを生成するモデル生成処理と、
前記サポートベクターの属性の組み合わせを生成し、同一となる属性の組み合わせの重みを加算し、加算された重みに基づいて属性の組み合わせを抽出する属性抽出処理と、
前記属性抽出処理により得られる属性の組み合わせに基づいて、素性関数を生成する素性関数生成処理とをコンピュータに実行させるための確率モデル生成プログラム。 - 前記属性抽出処理は、
前記サポートベクターマシンで利用するカーネルの次数に基づいて属性の組み合わせを生成し,全てのサポートベクターの重みを加算して、加算値の絶対値が大となる属性の組み合わせを抽出することを特徴とする請求項3に記載の確率モデル生成プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003327490A JP2005092681A (ja) | 2003-09-19 | 2003-09-19 | 確率モデル生成装置及び確率モデル生成プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003327490A JP2005092681A (ja) | 2003-09-19 | 2003-09-19 | 確率モデル生成装置及び確率モデル生成プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005092681A true JP2005092681A (ja) | 2005-04-07 |
Family
ID=34457345
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003327490A Pending JP2005092681A (ja) | 2003-09-19 | 2003-09-19 | 確率モデル生成装置及び確率モデル生成プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005092681A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007213403A (ja) * | 2006-02-10 | 2007-08-23 | Denso Corp | モデル導出方法、モデル導出装置、及び、プログラム |
RU2457536C2 (ru) * | 2007-11-26 | 2012-07-27 | ТУЗОВА Алла Павловна | Способ выбора модели исследуемой системы на основании вычисленных энтропийных потенциалов ее событий и устройство для осуществления этого способа |
JP2022047526A (ja) * | 2020-09-11 | 2022-03-24 | アクタピオ,インコーポレイテッド | 分類装置、分類方法および分類プログラム |
WO2024018571A1 (ja) * | 2022-07-20 | 2024-01-25 | 株式会社日立製作所 | 情報処理装置および処理条件決定システム |
-
2003
- 2003-09-19 JP JP2003327490A patent/JP2005092681A/ja active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007213403A (ja) * | 2006-02-10 | 2007-08-23 | Denso Corp | モデル導出方法、モデル導出装置、及び、プログラム |
RU2457536C2 (ru) * | 2007-11-26 | 2012-07-27 | ТУЗОВА Алла Павловна | Способ выбора модели исследуемой системы на основании вычисленных энтропийных потенциалов ее событий и устройство для осуществления этого способа |
JP2022047526A (ja) * | 2020-09-11 | 2022-03-24 | アクタピオ,インコーポレイテッド | 分類装置、分類方法および分類プログラム |
JP7341195B2 (ja) | 2020-09-11 | 2023-09-08 | アクタピオ,インコーポレイテッド | 分類装置、分類方法および分類プログラム |
WO2024018571A1 (ja) * | 2022-07-20 | 2024-01-25 | 株式会社日立製作所 | 情報処理装置および処理条件決定システム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3919771B2 (ja) | 機械翻訳システム、その制御装置、及びコンピュータプログラム | |
US9703776B2 (en) | Automatic training of a syntactic and semantic parser using a genetic algorithm | |
JP5540335B2 (ja) | 自然言語文生成装置及びコンピュータプログラム | |
JP2005108184A6 (ja) | 機械翻訳システム、その制御装置、及びコンピュータプログラム | |
JP7058574B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
CN111443964B (zh) | 更新用户界面的方法、设备和计算机可读存储介质 | |
US11080480B2 (en) | Matrix generation program, matrix generation apparatus, and plagiarism detection program | |
CN110598201B (zh) | 从概率输入识别准确转录 | |
JP6663873B2 (ja) | プログラム自動生成システム及びプログラム自動生成方法 | |
JP2009163303A (ja) | 検索フィルタリング装置及び検索フィルタリングプログラム | |
Heller et al. | Infinite hierarchical hidden Markov models | |
JP2015169951A (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP6309795B2 (ja) | 情報処理装置、情報処理方法およびプログラム | |
JP2008225907A (ja) | 言語解析モデル学習装置、言語解析モデル学習方法、言語解析モデル学習プログラムならびにその記録媒体 | |
JP2005092681A (ja) | 確率モデル生成装置及び確率モデル生成プログラム | |
JP6646337B2 (ja) | 音声データ処理装置、音声データ処理方法および音声データ処理プログラム | |
Tambouratzis | Applying PSO to natural language processing tasks: Optimizing the identification of syntactic phrases | |
JP2016133956A (ja) | 形態素解析モデル生成装置、形態素解析モデル生成方法、及び、プログラム | |
JP2018180459A (ja) | 音声合成システム、音声合成方法、及び音声合成プログラム | |
JP6436086B2 (ja) | 分類辞書生成装置、分類辞書生成方法及びプログラム | |
JP2007017911A (ja) | 音声認識装置及び音声認識プログラム | |
JP2005092682A (ja) | 翻字装置、及び翻字プログラム | |
JP2008217592A (ja) | 言語解析モデル学習装置、言語解析モデル学習方法、言語解析モデル学習プログラム及びその記録媒体 | |
JP5886220B2 (ja) | 自然言語解析処理装置、方法、及びプログラム | |
JP5530469B2 (ja) | 自然言語解析処理装置、方法、及びプログラム |