JP5250076B2 - 構造予測モデル学習装置、方法、プログラム、及び記録媒体 - Google Patents
構造予測モデル学習装置、方法、プログラム、及び記録媒体 Download PDFInfo
- Publication number
- JP5250076B2 JP5250076B2 JP2011094028A JP2011094028A JP5250076B2 JP 5250076 B2 JP5250076 B2 JP 5250076B2 JP 2011094028 A JP2011094028 A JP 2011094028A JP 2011094028 A JP2011094028 A JP 2011094028A JP 5250076 B2 JP5250076 B2 JP 5250076B2
- Authority
- JP
- Japan
- Prior art keywords
- model
- auxiliary
- output
- model parameter
- parameter set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 230000006870 function Effects 0.000 claims abstract description 83
- 239000013598 vector Substances 0.000 claims description 89
- 238000000605 extraction Methods 0.000 claims description 14
- 230000010354 integration Effects 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 8
- 239000000284 extract Substances 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 description 29
- 238000010586 diagram Methods 0.000 description 27
- 238000012545 processing Methods 0.000 description 10
- 108020004705 Codon Proteins 0.000 description 9
- 238000005457 optimization Methods 0.000 description 9
- 108090000623 proteins and genes Proteins 0.000 description 6
- 238000012549 training Methods 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 5
- 150000001413 amino acids Chemical class 0.000 description 3
- 102000004169 proteins and genes Human genes 0.000 description 3
- 108020004414 DNA Proteins 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- FFEARJCKVFRZRR-BYPYZUCNSA-N L-methionine Chemical compound CSCC[C@H](N)C(O)=O FFEARJCKVFRZRR-BYPYZUCNSA-N 0.000 description 1
- 108091081024 Start codon Proteins 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- HNDVDQJCIGZPNO-UHFFFAOYSA-N histidine Natural products OC(=O)C(N)CC1=CN=CN1 HNDVDQJCIGZPNO-UHFFFAOYSA-N 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 229930182817 methionine Natural products 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Description
(Smith,(A,B,E)),(Johnson,(F,G,J)),(Williams,(A,C,D)), (Brown,(A,B,C,D,E)),(Jones,(A,C,D)),(Miller,(D,F,G,J)),(Davis,(A,F,G,H,J))を入力構造とする。各ノード(人名)には、同じ嗜好を持った人を示すラベルが、それぞれ付与されている。例えば、「Smith」には「Brown」が、「Johnson」には「Miller,Davis」が、「Williams」には「Brown, Jones」が、「Brown」には「Smith, Williams, Jones」が、「Jones」には「Williams,Brown」が、「Miller」には「Johnson,Davis」が、「Davis」には「Johnson, Miller」が付与されている。
構造予測モデルは、入力構造xに対して出力構造yを予測するモデルである。また、本発明の一例において、構造予測モデルは数式を用いて以下のように定義される。
構造予測モデルを学習する際に、教師なしデータでは出力構造yが不明であるため、直接入力構造xが与えられた時の出力構造yを利用した学習が行えない。そこで、本発明の一例では、K個の補助モデルを用いて正解の出力構造yを近似的に推定して利用する。補助モデルを非負関数として定義する。例えば、ロジスティック回帰モデルや、対数線形モデルが、補助モデルとして用いられる。次に、導入した補助モデルと、与えられた参照関数(reference function)とのブレグマン距離(Bregman divergence)を最小化するように、補助モデル用パラメタ集合の集合Θを推定する。このとき、構造予測モデルを省メモリ化するために、L1ノルム正則化項を導入する。これにより、非ゼロのパラメタ数を最小に保ったまま最適なパラメタ集合の集合Θを推定できる。
式(1)において、入力構造xが与えられたときの可能な全ての出力構造の候補Y(x)の数は一般的に非常に大きくなる。このため、全ての候補Y(x)を列挙し、それぞれの特徴を抽出してスコアを評価するのは計算量的に困難となる場合が多い。この計算量の問題を克服するため、出力構造yを、局所的構造(部分構造)zに分解する。そして、出力構造yの大域的な特徴は使わず、局所的構造zから得られる特徴のみを利用して出力構造を予測する。
タイプ1のk番目の補助モデルをq1 kと表す。xが与えられたときに出力構造yが出力される条件付確率q(y|x)と出力されない条件付確率q(¬y|x)=1−q(y|x)は以下の式で表される。
Qk(z|x;θ(k))=q1 k(z|x,θ(k)) (6)
但し、q1 k(z|x,θ(k))は、xが与えられたときの出力構造yのなかに局所的構造zが出現する条件付確率を表す。この条件付確率は、q1 k(y|x,θ(k))の定義から、zの周辺確率として計算できる。
タイプ2の補助モデルをq2 kと表す。q2 kは、計算量を削減するために、より簡単な構造を導入する。タイプ2の補助モデルは、入力構造xに対する出力構造yをモデル化するのではなく、yを構成する個々の局所的構造zに対するモデル化を行う。xが与えられたときに出力構造yに局所的構造zが含まれる条件付確率q(z|x)と出力されない条件付確率q(¬z|x)=1−q(z|x)は以下の式で表される。
タイプ3の補助モデルをq3 kと表す。q3 kは、さらに補助モデルの計算量を削減できる。タイプ3の補助モデルは、個々の局所的構造zの出現確率を単一の特徴nのみでモデル化する。xが与えられたときに出力構造yにnを特徴とする局所的構造zが含まれる条件付確率q(z|x,n)と出力されない条件付確率q(¬z|x,n)=1−q(z|x,n)は以下の式で表される。
基本モデルは、学習後の構造予測モデルが式(1)’で記述できるものであれば、どのようなモデルでもよい。ここでは、式(6)、(9)、(12)において補助モデルq1 k、q2 k、q3 kのそれぞれから得られるQkを導入して、基本モデルを定義する。基本モデルを確率モデルに基づき定義する場合と、基本モデルをマージン最大化モデル原理に基づき定義する場合を例示する
基本モデルPを確率モデルに基づき定義する場合には、以下のように表す。
なお、実際には、補助モデルq1 k、q2 k、q3 kの何れを利用しても、式(13)の右辺を整理して以下のように書ける。
基本モデルPを線形識別モデルでのマージン最大化に基づき定義する場合には、以下のように表す。
以下、これらの定義を用いて、本発明の実施の形態について、詳細に説明する。
図5、図6を用いて実施例1に係る構造予測モデル学習装置100を説明する。構造予測モデル学習装置100は、例えば、CPU(Central Processing Unit)と、RAM(Random Access Memory)と、ROM(Read Only Memory)と、HDD(Hard Disk Drive)と、入出力インタフェース等から構成される。
記憶部103は、前述のRAM、ROM、HDD等からなる。記憶部103は、教師データDL、教師なしデータDU、学習支援情報、処理途中の信号や各種パラメタ等を記憶する。制御部105は、前述のCPU等からなる。制御部105は、記憶部103に対し、各処理過程で所定の信号やパラメタの読み書きを行う。但し、制御部105は、必ずしも記憶部103に対し各データの読み書きを行わなければならないわけではなく、各部間で直接データを受け渡すように制御してもよい。
本実施例では、英語のテキストデータからなる入力構造に対し、固有表現を示すラベルを付与する出力構造を予測するために利用される構造予測モデルを学習する例を示す。図7、図8は、図5に示した構造予測モデル学習装置100に入力する情報の例を示す図である。図7は英語の教師データを、図8は英語の教師なしデータをそれぞれ示す。図7に示す例は、図1に示したものと同様である。但し、トークン区切りは事前に施されているものとする。
出力候補グラフ生成部110は、教師データDLと教師なしデータDUと出力候補生成用定義データ集合T1を受け取る。そして、出力候補グラフ生成部110は、構造予測問題により特定される出力候補生成用定義データ集合T1を用いて、受け取った教師データDLに対する教師データ用出力候補グラフGrDLを生成する(s110)。出力候補グラフ生成部110は、同様に出力候補生成用定義データ集合T1を用いて、受け取った教師なしデータDUに対する教師なしデータ用出力候補グラフGrDUを生成する(s110)。出力候補グラフ生成部110は、受け取った教師データDLと、その教師データDLから生成した教師データ用出力候補グラフGrDLとを対応付ける。出力候補グラフ生成部110は、受け取った教師なしデータDUと、その教師なしデータDUから生成した教師なしデータ用出力候補グラフGrDUとを対応付ける。さらに、出力候補グラフ生成部110は、各データを特徴ベクトル生成部120に出力する。出力候補グラフは、図10に示すように、可能性のある全ての出力構造候補をパスで接続したラティス形式で表現したものである。なお、以下の例では、出力候補生成用定義データ集合は、予め定められた3つの出力候補生成用定義データを要素としている。図10の例では、出力候補生成用定義データ集合は「PER.」、「ORG.」、「O」の3つの出力候補生成用定義データを要素としている。図10は、図5に示した構造予測モデル学習装置100で生成される出力候補グラフの一例を模式的に示す図である。ここで、<BOS>は、入力構造xの始まりを表す固定の特別なラベルであり、<EOS>は、入力構造xの終わりを表す固定の特別なラベルである。ラティスは、入力構造x(教師データDLまたは教師なしデータDU)に対する出力構造yを示すものであり、出力構造yの個々のインスタンスye(e=1,2,3)をノードで示し、各インスタンス間の依存関係をリンクで示す。出力候補グラフ中の<BOS>から<EOS>間の1つのパスは1つの出力に対応し、出力候補グラフは、とり得る全ての出力の候補を包含したグラフになっている。例えば、図10の出力候補グラフは38通りのパス(出力候補)を包含する。例えば、図10のノード401は、入力構造xの4番目の単語「SD」に対してラベル「ORG.」を付与した出力のインスタンスを示す。同様に、図10のノード402は、入力構造xの6番目の単語「two」に対してラベル「O」を付与した出力のインスタンスを示す。
特徴ベクトル生成部120は、特徴抽出テンプレートT2と教師データ用出力候補グラフGrDLと教師なしデータ用出力候補グラフGrDUを受け取る。そして、特徴ベクトル生成部120は、受け取った特徴抽出テンプレートT2を用いて、教師データ用出力候補グラフGrDL及び教師なしデータ用出力候補グラフGrDUから特徴を抽出する(s120)。さらに、特徴ベクトル生成部120は、教師データ用出力候補グラフGrDLから抽出した特徴の集合に対するD次元の基本モデル用特徴ベクトルfx,yを生成する(s120)。また、特徴ベクトル生成部120は、教師なしデータ用出力候補グラフGrDUから抽出した特徴の集合をK個の部分集合に分割する。特徴ベクトル生成部120は、部分集合kに含まれる特徴に対するDk次元の補助モデル用特徴ベクトルg(k) x,yを生成する(s120)。特徴ベクトル生成部120は、教師データ用出力候補グラフGrDLに基本モデル用特徴ベクトルfx,yを付与して、パラメタ生成部130に出力する。また、特徴ベクトル生成部120は、教師なしデータ用出力候補グラフGrDUに補助モデル用特徴ベクトルg(k) x,yを付与して、パラメタ生成部130に出力する。
パラメタ生成部130は、基本モデル用特徴ベクトルfx,yが付与された教師データ用出力候補グラフGrDLと補助モデル用特徴ベクトルg(k) x,yが付与された教師なしデータ用出力候補グラフGrDUを受け取る。パラメタ生成部130は、基本モデル用特徴ベクトルfx,yのD個の要素にそれぞれ1対1対応するD個の第1パラメタで構成される第1パラメタ集合w={w1,w2,…,wD}を含む基本モデル用パラメタ集合λを生成し(s130)、基本モデル用パラメタ推定部160に出力する。
補助モデル用パラメタ推定部140は、補助モデル用パラメタ集合θ(k)から正則化項を求める。さらに、補助モデル用パラメタ推定部140は、教師なしデータDUを用いて、参照関数r~(x,y)と補助モデルqkとの間の正則化項付きブレグマン距離を最小にする補助モデル用パラメタ集合の集合Θを推定する(s140)。
まず、参照関数を定義する。参照関数r~(x,y)は、非負関数である。つまり、その値域は[0,∞)である。但し、上述の補助モデルq1 k、q2 k、q3 kを利用する場合には、それらの値域が[0,1]なので、参照関数の値域も[0,1]とする。また、参照関数r~(x,y)は、入力構造xに対する出力構造yの擬似的な正解の度合いを表す。例えば、初めて、補助モデル用パラメタ推定部140が補助モデル用パラメタを推定する場合には、事前に教師ありデータDLを用いて、第1パラメタ集合wを推定し(特開2008−225907号公報参照)、推定した第1パラメタ集合wを対数線形モデルで定義した基本モデル(但し、補助モデルはなく、例えば、第2パラメタvの各要素に0を設定する)を参照関数とする。この場合、r~(x、z)=P(z|x,w*)となる。
参照関数r~と補助モデルqk間のブレグマン距離BFは、以下のように定義される。
補助モデルとしてq1 kを用いた場合、式(22)、式(23)及び式(4)を用いて、正則化項付き経験一般化相対エントロピーU(Θ|DU)は以下のように表される。
q’1 kを用いた場合、式(22)、式(23)及び式(5)を用いて、正則化項付き経験一般化相対エントロピーU(Θ|DU)は以下のように表される。
補助モデルとしてq2 kを用いた場合、式(22)、式(23)及び式(7)を用いて、正則化項付き経験一般化相対エントロピーU(Θ|DU)は以下のように表される。
q’2 kを用いた場合、式(22)、式(23)及び式(8)を用いて、正則化項付き経験一般化相対エントロピーU(Θ|DU)は以下のように表される。
補助モデルとしてq3 kを用いた場合、式(22)、式(23)及び式(10)を用いて、正則化項付き経験一般化相対エントロピーU(Θ|DU)は以下のように表される。
q’3 kを用いた場合、式(22)、式(23)及び式(11)を用いて、正則化項付き経験一般化相対エントロピーU(Θ|DU)は以下のように表される。
図17及び図18を用いて補助モデル用パラメタ推定部140を説明する。補助モデル用パラメタ推定部140は、条件付き確率場に基づいて補助モデル用集合の集合Θを推定するために、例えば、正則化項付き経験一般化相対エントロピー計算部145と勾配計算部147と第2収束判定部149とパラメタ更新部151とを備える。なお、条件付き確率場については、例えば、「F. Sha and F. Pereira, Shallow Parsing with Conditional Random Fields, In Proc. of HLT/NAACL-2003. pages 134-141, 2003」(以下、「参考文献1」という)に詳述されているので説明を省略する。
基本モデル用パラメタ推定部160は、教師データDLと補助モデル用パラメタ集合の集合Θを用いて、事前に定義された経験リスク関数を最小にする基本モデル用パラメタ集合λを推定する(s160)。
まず、リスク関数に負の対数尤度を用いる場合を示す。負の正則化対数尤度最小化では、以下の式により最適パラメタを求める。
式(41)の最適パラメタは、式(46)での勾配が0となるときに得られる。実際の最適化では、L-BFGSといった勾配に基づく数値最適化法により求めることができる(参考文献2参照)。
次に、マージン最大化原理に基づき基本モデル用パラメタ集合λを推定する場合について説明する。この場合は、リスク関数は以下のように表される。
図19及び図20を用いて基本モデル用パラメタ推定部160を説明する。基本モデル用パラメタ推定部160は、条件付き確率場(参考文献1参照)に基づいて基本モデル用パラメタ集合λを推定するために、図19に示すように、例えば、経験リスク関数計算部161と正則化項計算部163と、正則化項付き経験リスク関数計算部165と勾配計算部167と第3収束判定部169とパラメタ更新部171とを備える。
第1収束判定部180は、基本モデル用パラメタ集合λと補助モデル用パラメタ集合の集合Θの値を受け取り、これらの値が、収束したか否かを判定する(s180)。なお、特許請求の範囲における収束判定部は、第1収束判定部180に対応する。
パラメタ統合部190は、収束した基本モデル用パラメタ集合λと補助モデル用パラメタ集合の集合Θを統合する(s190)。
ui=wj+vkθ(k) p (51)
また、例えば、基本モデルにしかi番目の要素uiに対応する特徴がない場合には、パラメタ統合部190は、要素uiを以下の式により求める。
ui=wj (52)
また、例えば、補助モデルにしかi番目の要素uiに対応する特徴がない場合には、要素uiを以下の式により求める。
ui=vkθ(k) p (53)
このとき、構造予測モデルは、式(1)に代えて、以下の式で表すことができる。
このような構成とすることで、学習後の構造予測モデルから活性状態にないパラメタ(言い換えると、0のパラメタ)及びそのパラメタに対応する特徴を削除することで、学習後の構造予測モデルを省メモリ化することができる。さらに、教師データと教師なしデータに基づき作成された構造予測データは高い予測性能を維持したまま、省メモリ化を実現している。実験結果を後述する。なお、教師データDLから得られる基本モデル用パラメタ集合の要素数は、前述の通り、教師データDLの生成コストが高いため、それほど多くは得られない。一方、教師なしデータDUから得られる補助モデル用パラメタ集合の集合Θの要素数は、膨大な量を容易に求めることができる。このΘの要素のほとんどをゼロにすることで、省メモリ化を実現する。
図22は、本実施例における構造予測モデル学習装置100のハードウェア構成を例示したブロック図である。図22に例示するように、この例の構造予測モデル学習装置100は、それぞれCPU(Central Processing Unit)11、入力部12、出力部13、補助記憶装置14、ROM(Read Only Memory)15、RAM(Random Access Memory)16及びバス17を有している。
上述のように、補助記憶装置14には、本実施例の構造予測モデル学習装置100の各処理を実行するための各プログラムが格納される。構造予測プログラムを構成する各プログラムは、単一のプログラム列として記載されていてもよく、また、少なくとも一部のプログラムが別個のモジュールとしてライブラリに格納されていてもよい。
CPU11は、読み込まれたOSプログラムに従い、補助記憶装置14に格納されている上述のプログラムや各種データをRAM16に展開する。そして、このプログラムやデータが書き込まれたRAM16上のアドレスがCPU11のレジスタ11cに格納される。CPU11の制御部11aは、レジスタ11cに格納されたこれらのアドレスを順次読み出し、読み出したアドレスが示すRAM16上の領域からプログラムやデータを読み出し、そのプログラムが示す演算を演算部11bに順次実行させ、その演算結果をレジスタ11cに格納していく。
図23において、教師データのみに基づき学習された構造予測モデルを用いた構造予測器の正解率を一点鎖線で示し、タイプ3の補助モデルを利用した構造予測モデル学習装置100により学習された構造予測モデルを用いた構造予測器の正解率を実線で示す。何れのパラメタ数であっても、構造予測モデル学習装置100により学習された構造予測モデルを用いた構造予測器の正解率のほうが高い。また、正解率92.5%弱の場合には、構造予測モデル学習装置100により学習された構造予測モデルで利用されるパラメタuの数は、教師データのみに基づき学習された構造予測モデルで利用されるパラメタ集合の要素の数の約10分の1程度となることが分かる。
構造予測モデル学習装置100、学習支援情報記憶部4、構造予測モデル記憶部6及び構造予測器7を一体化し、1つの計算機上で実現してもよい。
Claims (14)
- 入力構造xに対する出力構造yを予測するために利用される構造予測モデルを、教師データDL及び教師なしデータDUを用いて学習する構造予測モデル学習装置であって、Kを自然数とし、k∈{1,2,…,K}とし、
構造予測問題により特定される出力候補生成用定義データ集合を用いて、教師データに対する教師データ用出力候補グラフを生成し、教師なしデータに対する教師なしデータ用出力候補グラフを生成する出力候補グラフ生成部と、
特徴抽出テンプレートを用いて、前記教師データ用出力候補グラフ及び前記教師なしデータ用出力候補グラフから特徴を抽出し、前記教師データ用出力候補グラフから抽出した特徴の集合に対するD次元の基本モデル用特徴ベクトルfx,yを生成し、前記教師なしデータ用出力候補グラフから抽出した特徴の集合をK個の部分集合に分割し、部分集合kに含まれる特徴に対するDk次元の補助モデル用特徴ベクトルg(k) x,yを生成する特徴ベクトル生成部と、
基本モデル用特徴ベクトルfx,yのD個の要素にそれぞれ1対1対応するD個の第1パラメタで構成される第1パラメタ集合wを含む基本モデル用パラメタ集合λを生成し、補助モデル用特徴ベクトルg(k) x,yのDk個の要素にそれぞれ1対1対応するDk個の補助モデル用パラメタで構成される補助モデル用パラメタ集合θ(k)を生成し、K個の補助モデル用パラメタ集合θ(k)で構成される補助モデル用パラメタ集合の集合Θ={θ(1),θ(2),…,θ(K)}を生成するパラメタ生成部と、
各補助モデルqkは前記補助モデル用パラメタ集合θ(k)を対数線形モデルにより定義するものとし、前記補助モデル用パラメタ集合θ(k)から得られる正則化項と前記教師なしデータDUを用いて、非負関数であって、入力構造xに対する出力構造yの擬似的な正解の度合いを表す参照関数r~(x,y)と前記補助モデルqkとの間の正則化項付
きブレグマン距離を最小にする補助モデル用パラメタ集合の集合Θを推定する補助モデル用パラメタ推定部と、
前記基本モデル用パラメタ集合λは、K個の前記補助モデルとそれぞれ1対1対応するK個の第2パラメタで構成される第2パラメタ集合v={v1,v2,…,vK}を含む
ものとし、前記教師データDLと前記補助モデル用パラメタ集合の集合Θを用いて、事前に定義された経験リスク関数を最小にする前記基本モデル用パラメタ集合λを推定する基本モデル用パラメタ推定部とを備え、
C U をハイパーパラメタ、G^ DU (r ~ ||q k )を教師なしデータD U を使った実測値を用いて得られる一般化相対エントロピーとし、前記補助モデル用パラメタ推定部は、補助モデル用パラメタ集合θ (k) を用いてL 1 ノルム正則化項|θ (k) | 1 を求め、前記ブレグマン距離を、正則化項付き経験一般化相対エントロピー
ことを特徴とする構造予測モデル学習装置。 - 請求項1記載の構造予測モデル学習装置であって、
前記基本モデル用パラメタ集合λと前記補助モデル用パラメタ集合の集合Θの値が、収束したか否かを判定する収束判定部と、
収束した前記基本モデル用パラメタ集合λと前記補助モデル用パラメタ集合の集合Θを統合するパラメタ統合部と、をさらに備え、
前記収束判定部において、前記基本モデル用パラメタ集合λと前記補助モデル用パラメタ集合の集合Θの値が、収束していないと判定された場合には、前記補助モデル用パラメタ推定部と前記基本モデル用パラメタ推定部において、それぞれ補助モデル用パラメタ集合の集合Θと基本モデル用パラメタ集合λを推定する処理を繰り返し、
前記参照関数r~は、繰り返し処理における1つ前の基本モデルPである、
ことを特徴とする構造予測モデル学習装置。 - 請求項1記載の構造予測モデル学習装置であって、
CLをハイパーパラメタ、d(x,y;λ,Θ)を入力構造xに対して出力構造yが得られる可能性を表すスコアを返す判別関数、E(y,y^)をある正解の出力yと任意の出力y^を比較した際のy^の誤りの度合いを表す関数、A\Bを集合Aから集合Bを取り去って得られる差集合、Y(x)を入力構造xから生成できる全ての出力候補の集合とし、
前記基本モデル用パラメタ推定部は、基本モデル用パラメタ集合λから得られる正則化項Ω(λ)を用いて、前記経験リスク関数を正則化項付き経験リスク関数
L(λ|Θ,DL)=R(λ|Θ,DL)+CLΩ(λ)として求め、経験リスク関数として、負の対数尤度を用いる場合には、
ことを特徴とする構造予測モデル学習装置。 - 請求項1記載の構造予測モデル学習装置であって、
入力構造xが与えられたときに出力構造yに特徴nを備える局所構造zが出力される条件付確率をq3 k(z|x,n;θ(k))とし、q3 kのオッズをq’3 kとし、n=1,2,…,D k とし、θ (k) =(θ (k) 1 ,θ (k) 2 ,…,θ (k) Dk )、g (k) x,z =(g (k) x,z,1 ,g (k) x,z,2 ,…,g (k) x,z,Dk )とし、b(z)を局所的構造zの対立候補となる局所的構造の個数とし、const(θ (k) n )をθ (k) n に対して定数項になるものをまとめた値とし、
前記補助モデル用パラメタ推定部は、前記正則化付き経験一般化相対エントロピーを
ことを特徴とする構造予測モデル学習装置。 - 出力候補グラフ生成部と特徴ベクトル生成部とパラメタ生成部と補助モデル用パラメタ推定部と基本モデル用パラメタ推定部とを備える構造予測モデル学習装置によって、入力構造xに対する出力構造yを予測するために利用される構造予測モデルを、教師データDL及び教師なしデータDUを用いて学習する構造予測モデル学習方法であって、Kを自然数とし、k∈{1,2,…,K}とし、
前記出力候補グラフ生成部が、構造予測問題により特定される出力候補生成用定義データ集合を用いて、教師データに対する教師データ用出力候補グラフを生成し、教師なしデータに対する教師なしデータ用出力候補グラフを生成する出力候補グラフ生成ステップと、
前記特徴ベクトル生成部が、特徴抽出テンプレートを用いて、前記教師データ用出力候補グラフ及び前記教師なしデータ用出力候補グラフから特徴を抽出し、前記教師データ用出力候補グラフから抽出した特徴の集合に対するD次元の基本モデル用特徴ベクトルfx,yを生成し、前記教師なしデータ用出力候補グラフから抽出した特徴の集合をK個の部分集合に分割し、部分集合kに含まれる特徴に対するDk次元の補助モデル用特徴ベクトルg(k) x,yを生成する特徴ベクトル生成ステップと、
前記パラメタ生成部が、基本モデル用特徴ベクトルfx,yのD個の要素にそれぞれ1対1対応するD個の第1パラメタで構成される第1パラメタ集合wを含む基本モデル用パラメタ集合λを生成し、補助モデル用特徴ベクトルg(k) x,yのDk個の要素にそれぞれ1対1対応するDk個の補助モデル用パラメタで構成される補助モデル用パラメタ集合θ(k)を生成し、K個の補助モデル用パラメタ集合θ(k)で構成される補助モデル用パラメタ集合の集合Θ={θ(1),θ(2),…,θ(K)}を生成するパラメタ生成ステップと、
各補助モデルqkは前記補助モデル用パラメタ集合θ(k)を対数線形モデルにより定義するものとし、前記補助モデル用パラメタ推定部が、前記補助モデル用パラメタ集合θ(k)から得られる正則化項と前記教師なしデータDUを用いて、非負関数であって、入力構造xに対する出力構造yの擬似的な正解の度合いを表す参照関数r~(x,y)と前記補助モデルqkとの間の正則化項付きブレグマン距離を最小にする補助モデル用パラメタ集合の集合Θを推定する補助モデル用パラメタ推定ステップと、
前記基本モデル用パラメタ集合λは、K個の前記補助モデルとそれぞれ1対1対応するK個の第2パラメタで構成される第2パラメタ集合v={v1,v2,…,vK}を含むものとし、前記基本モデル用パラメタ推定部が、前記教師データDLと前記補助モデル用パラメタ集合の集合Θを用いて、事前に定義された経験リスク関数を最小にする前記基本モデル用パラメタ集合λを推定する基本モデル用パラメタ推定ステップとを備え、
C U をハイパーパラメタとし、G^ DU (r~||q k )を教師なしデータD U を使った実測値を用いて得られる一般化相対エントロピーとし、前記補助モデル用パラメタ推定ステップにおいて、前記補助モデル用パラメタ推定が、補助モデル用パラメタ集合θ (k) を用いてL 1 ノルム正則化項|θ (k) | 1 を求め、前記ブレグマン距離を、正則化項付き経験一般化相対エントロピー
ことを特徴とする構造予測モデル学習方法。 - 請求項7記載の構造予測モデル学習方法であって、
前記構造予測モデル学習装置は、さらに、収束判定部と、パラメタ統合とを備え、
前記収束判定部が、前記基本モデル用パラメタ集合λと前記補助モデル用パラメタ集合の集合Θの値が、収束したか否かを判定する収束判定ステップと、
前記パラメタ統合が、収束した前記基本モデル用パラメタ集合λと前記補助モデル用パラメタ集合の集合Θを統合するパラメタ統合ステップと、をさらに備え、
前記収束判定ステップにおいて、前記基本モデル用パラメタ集合λと前記補助モデル用パラメタ集合の集合Θの値が、収束していないと判定された場合には、前記補助モデル用パラメタ推定ステップと前記基本モデル用パラメタ推定ステップにおいて、それぞれ補助モデル用パラメタ集合の集合Θと基本モデル用パラメタ集合λを推定する処理を繰り返し、
前記参照関数r~は、繰り返し処理における1つ前の基本モデルPである、
ことを特徴とする構造予測モデル学習方法。 - 請求項7記載の構造予測モデル学習方法であって、
CLをハイパーパラメタ、d(x,y;λ,Θ)を入力構造xに対して出力構造yが得られる可能性を表すスコアを返す判別関数、E(y,y^)をある正解の出力yと任意の出力y^を比較した際のy^の誤りの度合いを表す関数、A\Bを集合Aから集合Bを引いた差集合、Y(x)を入力構造xから生成できる全ての出力候補の集合とし、
前記基本モデル用パラメタ推定ステップは、基本モデル用パラメタ集合λから得られる正則化項Ω(λ)を用いて、前記経験リスク関数を正則化項付き経験リスク関数
L(λ|Θ,DL)=R(λ|Θ,DL)+CLΩ(λ)
として求め、経験リスク関数として、負の対数尤度を用いる場合には、
ことを特徴とする構造予測モデル学習方法。 - 請求項7記載の構造予測モデル学習方法であって、
入力構造xが与えられたときに出力構造yに特徴nを備える局所構造zが出力される条件付確率をq3 k(z|x,n;θ(k))とし、q3 kのオッズをq’3 kとし、n=1,2,…,D k とし、θ (k) =(θ (k) 1 ,θ (k) 2 ,…,θ (k) Dk )、g (k) x,z =(g (k) x,z,1 ,g (k) x,z,2 ,…,g (k) x,z,Dk )とし、b(z)を局所的構造zの対立候補となる局所的構造の個数とし、const(θ (k) n )をθ (k) n に対して定数項になるものをまとめた値とし、
前記補助モデル用パラメタ推定ステップは、前記正則化付き経験一般化相対エントロピーを
ことを特徴とする構造予測モデル学習方法。 - 請求項1記載の構造予測モデル学習装置として、コンピュータを機能させるためのプログラム。
- 請求項1記載の構造予測モデル学習装置として、コンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US12/895,014 US8566260B2 (en) | 2010-09-30 | 2010-09-30 | Structured prediction model learning apparatus, method, program, and recording medium |
US12/895,014 | 2010-09-30 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012079286A JP2012079286A (ja) | 2012-04-19 |
JP5250076B2 true JP5250076B2 (ja) | 2013-07-31 |
Family
ID=45890671
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011094028A Active JP5250076B2 (ja) | 2010-09-30 | 2011-04-20 | 構造予測モデル学習装置、方法、プログラム、及び記録媒体 |
Country Status (2)
Country | Link |
---|---|
US (1) | US8566260B2 (ja) |
JP (1) | JP5250076B2 (ja) |
Families Citing this family (42)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013069568A1 (ja) * | 2011-11-08 | 2013-05-16 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 時系列データ分析方法、システム及びコンピュータ・プログラム |
US8977620B1 (en) | 2011-12-27 | 2015-03-10 | Google Inc. | Method and system for document classification |
US9727824B2 (en) | 2013-06-28 | 2017-08-08 | D-Wave Systems Inc. | Systems and methods for quantum processing of data |
US10318881B2 (en) | 2013-06-28 | 2019-06-11 | D-Wave Systems Inc. | Systems and methods for quantum processing of data |
JP5766753B2 (ja) * | 2013-07-25 | 2015-08-19 | 日本電信電話株式会社 | システムパラメータ学習装置、情報処理装置、方法、及びプログラム |
US9842592B2 (en) | 2014-02-12 | 2017-12-12 | Google Inc. | Language models using non-linguistic context |
US9412365B2 (en) | 2014-03-24 | 2016-08-09 | Google Inc. | Enhanced maximum entropy models |
CN104462489B (zh) * | 2014-12-18 | 2018-02-23 | 北京邮电大学 | 一种基于深层模型的跨模态检索方法 |
JP6228151B2 (ja) * | 2015-03-18 | 2017-11-08 | ヤフー株式会社 | 学習装置、学習方法、及び学習プログラム |
US10134394B2 (en) | 2015-03-20 | 2018-11-20 | Google Llc | Speech recognition using log-linear model |
US10572822B2 (en) * | 2016-07-21 | 2020-02-25 | International Business Machines Corporation | Modular memoization, tracking and train-data management of feature extraction |
US10832664B2 (en) | 2016-08-19 | 2020-11-10 | Google Llc | Automated speech recognition using language models that selectively use domain-specific model components |
US10558754B2 (en) * | 2016-09-15 | 2020-02-11 | Infosys Limited | Method and system for automating training of named entity recognition in natural language processing |
EP3516599A4 (en) | 2016-09-26 | 2019-10-02 | D-Wave Systems Inc. | SYSTEMS, METHODS AND APPARATUS FOR SAMPLING FROM A SAMPLING SERVER |
JP6633999B2 (ja) * | 2016-10-31 | 2020-01-22 | 日本電信電話株式会社 | 符号器学習装置、変換装置、方法、及びプログラム |
JP6662754B2 (ja) * | 2016-11-02 | 2020-03-11 | 日本電信電話株式会社 | L1グラフ計算装置、l1グラフ計算方法及びl1グラフ計算プログラム |
US11531852B2 (en) | 2016-11-28 | 2022-12-20 | D-Wave Systems Inc. | Machine learning systems and methods for training with noisy labels |
US11205103B2 (en) | 2016-12-09 | 2021-12-21 | The Research Foundation for the State University | Semisupervised autoencoder for sentiment analysis |
JP6500044B2 (ja) * | 2017-01-16 | 2019-04-10 | ヤフー株式会社 | 生成装置、生成方法、及び生成プログラム |
JP6930179B2 (ja) * | 2017-03-30 | 2021-09-01 | 富士通株式会社 | 学習装置、学習方法及び学習プログラム |
WO2019118644A1 (en) | 2017-12-14 | 2019-06-20 | D-Wave Systems Inc. | Systems and methods for collaborative filtering with variational autoencoders |
JP7272750B2 (ja) * | 2018-02-16 | 2023-05-12 | 株式会社明電舎 | 下水処理システムの運転状態判別装置及び運転状態判別方法 |
US11436522B2 (en) | 2018-02-19 | 2022-09-06 | Microsoft Technology Licensing, Llc | Joint representation learning of standardized entities and queries |
US10956515B2 (en) | 2018-02-19 | 2021-03-23 | Microsoft Technology Licensing, Llc | Smart suggestions personalization with GLMix |
US10628432B2 (en) | 2018-02-19 | 2020-04-21 | Microsoft Technology Licensing, Llc | Personalized deep models for smart suggestions ranking |
US10726025B2 (en) * | 2018-02-19 | 2020-07-28 | Microsoft Technology Licensing, Llc | Standardized entity representation learning for smart suggestions |
CN110163380B (zh) * | 2018-04-28 | 2023-07-07 | 腾讯科技(深圳)有限公司 | 数据分析方法、模型训练方法、装置、设备及存储介质 |
US11386346B2 (en) | 2018-07-10 | 2022-07-12 | D-Wave Systems Inc. | Systems and methods for quantum bayesian networks |
US11562315B2 (en) * | 2018-08-31 | 2023-01-24 | Accenture Global Solutions Limited | Detecting an issue related to a report |
JP2020042488A (ja) | 2018-09-10 | 2020-03-19 | 富士ゼロックス株式会社 | 情報処理装置及びプログラム |
US11461644B2 (en) | 2018-11-15 | 2022-10-04 | D-Wave Systems Inc. | Systems and methods for semantic segmentation |
US11526746B2 (en) | 2018-11-20 | 2022-12-13 | Bank Of America Corporation | System and method for incremental learning through state-based real-time adaptations in neural networks |
US11468293B2 (en) | 2018-12-14 | 2022-10-11 | D-Wave Systems Inc. | Simulating and post-processing using a generative adversarial network |
US11900264B2 (en) | 2019-02-08 | 2024-02-13 | D-Wave Systems Inc. | Systems and methods for hybrid quantum-classical computing |
US11625612B2 (en) | 2019-02-12 | 2023-04-11 | D-Wave Systems Inc. | Systems and methods for domain adaptation |
CN110598830B (zh) * | 2019-04-03 | 2021-05-11 | 常熟理工学院 | 基于标签蚁群的联合多细胞跟踪方法 |
US10685260B1 (en) | 2019-06-06 | 2020-06-16 | Finiti Research Limited | Interactive modeling application adapted for execution via distributed computer-based systems |
US11321531B2 (en) * | 2019-11-29 | 2022-05-03 | Software Ag | Systems and methods of updating computer modeled processes based on real time external data |
WO2021124392A1 (ja) * | 2019-12-16 | 2021-06-24 | 日本電信電話株式会社 | 材料開発支援装置、材料開発支援方法、および材料開発支援プログラム |
US11693374B2 (en) | 2020-05-28 | 2023-07-04 | Johnson Controls Tyco IP Holdings LLP | Building system with string mapping based on a sequence to sequence neural network |
US20210373509A1 (en) * | 2020-05-28 | 2021-12-02 | Johnson Controls Technology Company | Building system with string mapping based on a statistical model |
WO2022252596A1 (zh) * | 2021-05-31 | 2022-12-08 | 华为云计算技术有限公司 | 构建ai集成模型的方法、ai集成模型的推理方法及装置 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8010357B2 (en) * | 2004-03-02 | 2011-08-30 | At&T Intellectual Property Ii, L.P. | Combining active and semi-supervised learning for spoken language understanding |
US7562060B2 (en) * | 2006-03-31 | 2009-07-14 | Yahoo! Inc. | Large scale semi-supervised linear support vector machines |
US7996440B2 (en) * | 2006-06-05 | 2011-08-09 | Accenture Global Services Limited | Extraction of attributes and values from natural language documents |
US7970767B2 (en) * | 2006-06-05 | 2011-06-28 | Accenture Global Services Limited | Extraction of attributes and values from natural language documents |
JP5139701B2 (ja) | 2007-03-13 | 2013-02-06 | 日本電信電話株式会社 | 言語解析モデル学習装置、言語解析モデル学習方法、言語解析モデル学習プログラムならびにその記録媒体 |
US7953676B2 (en) * | 2007-08-20 | 2011-05-31 | Yahoo! Inc. | Predictive discrete latent factor models for large scale dyadic data |
US8234228B2 (en) * | 2008-02-07 | 2012-07-31 | Nec Laboratories America, Inc. | Method for training a learning machine having a deep multi-layered network with labeled and unlabeled training data |
WO2010061813A1 (ja) * | 2008-11-26 | 2010-06-03 | 日本電気株式会社 | 能動計量学習装置、能動計量学習方法および能動計量学習プログラム |
US8874432B2 (en) * | 2010-04-28 | 2014-10-28 | Nec Laboratories America, Inc. | Systems and methods for semi-supervised relationship extraction |
-
2010
- 2010-09-30 US US12/895,014 patent/US8566260B2/en active Active
-
2011
- 2011-04-20 JP JP2011094028A patent/JP5250076B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
US20120084235A1 (en) | 2012-04-05 |
US8566260B2 (en) | 2013-10-22 |
JP2012079286A (ja) | 2012-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5250076B2 (ja) | 構造予測モデル学習装置、方法、プログラム、及び記録媒体 | |
US11604956B2 (en) | Sequence-to-sequence prediction using a neural network model | |
US10170104B2 (en) | Electronic device, method and training method for natural language processing | |
CN109933780B (zh) | 使用深度学习技术确定文档中的上下文阅读顺序 | |
CN111612103B (zh) | 结合抽象语义表示的图像描述生成方法、系统及介质 | |
CN108475262A (zh) | 用于文本处理的电子设备和方法 | |
JP2005158010A (ja) | 分類評価装置・方法及びプログラム | |
JP2019185551A (ja) | アノテーション付テキストデータの拡張方法、アノテーション付テキストデータの拡張プログラム、アノテーション付テキストデータの拡張装置、及び、テキスト分類モデルの訓練方法 | |
CN109359180B (zh) | 用户画像生成方法、装置、电子设备及计算机可读介质 | |
JP5139701B2 (ja) | 言語解析モデル学習装置、言語解析モデル学習方法、言語解析モデル学習プログラムならびにその記録媒体 | |
CN112507124B (zh) | 一种基于图模型的篇章级别事件因果关系抽取方法 | |
WO2014073206A1 (ja) | 情報処理装置、及び、情報処理方法 | |
JP2022042497A (ja) | コーパスに格納された既存の械学習プロジェクトのパイプラインからの新しい機械学習プロジェクトのパイプラインの自動生成 | |
JP2022042495A (ja) | 新しい械学習プロジェクトにおける使用のために適応可能なコーパスへの既存機械学習プロジェクトの自動キュレーション | |
Teisseyre | Feature ranking for multi-label classification using Markov networks | |
JP2005181928A (ja) | 機械学習システム及び機械学習方法、並びにコンピュータ・プログラム | |
Cortes et al. | A general regression framework for learning string-to-string mappings | |
JP2018041300A (ja) | 機械学習用モデル生成装置及びプログラム。 | |
Stewart et al. | Learning flexible features for conditional random fields | |
Pan et al. | Simulating personal food consumption patterns using a modified markov chain | |
JP2007241881A (ja) | 意見性判定データベース作成方法及び装置及びプログラム及び意見性判定方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
CN107430600A (zh) | 可扩展的web数据提取 | |
Sachidananda et al. | Global selection of contrastive batches via optimization on sample permutations | |
CN111476035B (zh) | 中文开放关系预测方法、装置、计算机设备和存储介质 | |
JP2019159918A (ja) | クラスタリングプログラム、クラスタリング方法およびクラスタリング装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20121220 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130108 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130311 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130402 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130412 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5250076 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160419 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |