JP5250076B2 - 構造予測モデル学習装置、方法、プログラム、及び記録媒体 - Google Patents

構造予測モデル学習装置、方法、プログラム、及び記録媒体 Download PDF

Info

Publication number
JP5250076B2
JP5250076B2 JP2011094028A JP2011094028A JP5250076B2 JP 5250076 B2 JP5250076 B2 JP 5250076B2 JP 2011094028 A JP2011094028 A JP 2011094028A JP 2011094028 A JP2011094028 A JP 2011094028A JP 5250076 B2 JP5250076 B2 JP 5250076B2
Authority
JP
Japan
Prior art keywords
model
auxiliary
output
model parameter
parameter set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011094028A
Other languages
English (en)
Other versions
JP2012079286A (ja
Inventor
潤 鈴木
ジェイ. コリンズ マイケル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Massachusetts Institute of Technology
Original Assignee
Nippon Telegraph and Telephone Corp
Massachusetts Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, Massachusetts Institute of Technology filed Critical Nippon Telegraph and Telephone Corp
Publication of JP2012079286A publication Critical patent/JP2012079286A/ja
Application granted granted Critical
Publication of JP5250076B2 publication Critical patent/JP5250076B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Description

本発明は、機械学習の手法に関する。特に、本発明は、離散的な構造(いわゆるグラフ)で記述される入力構造に対して、出力構造を予測する「構造予測器」において用いる構造予測モデルを学習する装置、方法、プログラム及び記録媒体に関する。機械学習は、予め用意された学習用のデータから、有用な規則性、知識表現、判断基準などを学習(抽出)する技術である。
ある情報に対して、その背後の隠された構造を予測する問題は、「構造予測問題」と呼ぶ。入力構造に対する出力構造を予測する装置(またはプログラム)は「構造予測器」と呼ぶ。なお、入力構造及び出力構造は任意の離散構造であり、いわゆるグラフによって記述できる構造(ノード集合とエッジ集合からなる構造)である。さらに入力および出力構造はラベルつきグラフにより記述できる構造である(ノード、および/または、エッジにラベルが付与されているグラフ)。この構造予測器において利用されるモデルを構造予測モデルと呼ぶ。構造予測モデルは、入力構造に対して最も尤もらしい出力構造を予測するモデルである。
実世界の構造予測問題としては、例えば、(1)テキストデータに対して、その文法・意味的な構造を予測する問題、(2)遺伝子配列データに対して、蛋白質の構造を予測する問題、(3)画像データに対して、画像データ中の物体を予測(認識)する問題、(4)人と人や事柄間の関係を表現するデータに対して、そのネットワーク構造を予測する問題、等がある。
計算機上で処理される実世界の問題のいくつかは(例えば上記(1)〜(4)に関する問題)、計算機で扱い易い形式に変換する段階で、構造予測問題として定式化できる。その例を図1から図3に示す。但し、ここでは、数式上での記述として、入力構造をx、出力構造をyとする。xは可能な全ての入力の集合Xの要素の一つであり、x∈Xである。yも同様に、可能な全ての出力の集合Yの要素の一つであり、y∈Yである。但し、出力構造yは入力構造xに依存して決まるので、yはxが与えられた時の可能な全ての出力集合Y(x)の要素の一つとなり、y∈Y(x)となる。また、Y(x)⊆Yである。
図1は、系列構造予測問題のうち英語のテキストから固有表現を抽出する問題に関するものを示す。図1は、固有名詞に対して固有名詞の種類を示すラベルを付与する例を示す。
入力構造xは、「U.N. official John Smith heads for Baghdad on July 4th .」のように、11個のトークン(または単語)に区切られている。このうち、「U.N.」、「John」、「Smith」、「Baghdad」、「July」、「4th」の6つのトークンは、それぞれ対応するラベル「ORG.」、「PER.」、「PER.」、「LOC.」、「DATE」、「DATE」が付与されている。なお、「PER.」はPerson Nameを、「LOC.」はLocation Nameを、「ORG.」はOrganization Nameを表す。
図2は、木構造予測問題のうち、英語のテキスト内の依存構造を解析する問題に関するものを示す。図2は、トークン(または単語)に対して文法的な係り受け関係を示すラベルを付与する例を示している。入力系列xは、「U.N. official John Smith heads for Baghdad on July 4th .」のように、11個のトークンに区切られている。各トークンには、文法的な係り受け関係を示すラベルが、それぞれ付与されている。例えば、「U.N.」に付与されているラベルは「Smith」からのリンク(「x1←x4」)であり、「official」に付与されているラベルは「Smith」からのリンク(「x2←x4」)であり、「John」に付与されているラベルは「Smith」からのリンク(「x3←x4」)であり、「Smith」に付与されているラベルは「heads」からのリンク(「x4←x5」)である。「heads」はこの文の係り受け関係におけるヘッドとなる単語なので、「heads」に付与されているラベルは「リンクが存在しない」というものである。「for」に付与されているラベルは「heads」からのリンク(「x6→x7」)であり、「Baghdad」に付与されているラベルは「for」からのリンク(「x7→x8」)であり、「on」に付与されているラベルは「Baghdad」からのリンク(「x8→x9」)であり、「July」に付与されているラベルは「on」からのリンク(「x9→x10」)であり、「4th」に付与されているラベルは「July」からのリンク(「x10→x11」)であり、「.」に付与されているラベルは「heads」からのリンク(「x11←x5」)である。
図3Aは、系列構造予測問題のうちDNA塩基配列から遺伝子領域を推定する問題に関するものを示す。4種類の塩基(T,C,A,G)の3個の順列(コドン)からなる塩基配列に対してアミノ酸を示すラベルが付与されている。ここでは、コドン「ATG」に対して、メチオニン(Methionine)を示すラベル「M」が付与されている。また、コドン「TGA」に対して、ヒスチジン(Histidine)を示すラベル「H」が付与されている。また、コドン「ATG」とコドン「TGA」とに挟まれた各コドンには、対応するラベル「R」、「D」、「W」、「Q」が付与されている。また、コドン「ATG」より前(左側)の文字と、コドン「TGA」より後(右側)の文字とには、対応するアミノ酸ではないことを示すラベル「O」が付与されている。なお、「M」は、たんぱく質への翻訳開始を示す開始コドンを意味し、「H」は、たんぱく質への翻訳終了を示す終止コドンを意味する。
図3Bは、人と人や事柄間の関係を表現するデータに対して、そのネットワーク構造を予測する問題に関するものを示す。この例では、人名と各人の特定物品の購入履歴の組合せを入力構造とし、各人に対して同じ嗜好を持った人を付与する。例えば、
(Smith,(A,B,E)),(Johnson,(F,G,J)),(Williams,(A,C,D)), (Brown,(A,B,C,D,E)),(Jones,(A,C,D)),(Miller,(D,F,G,J)),(Davis,(A,F,G,H,J))を入力構造とする。各ノード(人名)には、同じ嗜好を持った人を示すラベルが、それぞれ付与されている。例えば、「Smith」には「Brown」が、「Johnson」には「Miller,Davis」が、「Williams」には「Brown, Jones」が、「Brown」には「Smith, Williams, Jones」が、「Jones」には「Williams,Brown」が、「Miller」には「Johnson,Davis」が、「Davis」には「Johnson, Miller」が付与されている。
入力構造に対して正しい出力構造を予測するには、機械学習によって構造予測モデルを学習し、その学習モデルを利用する必要がある。一般的に、機械学習において構造予測器が用いる構造予測モデルを学習する方法は、大きく三つに分類される。第一の方法は、入力構造に対して正しい出力構造が付与された、いわゆる「教師データ」を用いて学習を行う方法である。この方法は、データを教師信号として利用することから「教師あり学習」と呼ばれる。なお、教師信号とは、入力構造に対して理想的と考えられる出力構造のことである。このとき、教師データは入力構造と教師信号(理想的な出力構造)のペアの集合で与えられ、サンプル数がJ個のときにD={(x(j),y(j))} j=1と書く。教師データを利用した教師あり学習の利点は、高性能な構造予測モデルを学習することができることである。但し、出力構造yにラベルつきグラフによって記述できる相互依存関性がある点が、出力構造を予測(推定)に応用するときの問題となる。そのため、全体的な出力構造における関係性を考慮したデータ作成が必要とされる。また、タスクの専門知識等が必要とされることが多い。よって、構造予測モデルの学習に必要な教師データを大量に作成することは、多大な人的、時間的及び費用的コストが掛かるという問題がある。また、教師あり学習は教師データの量に性能が大きく依存する。そのため、十分な量の教師データを作成することができない場合には、その教師データを用いた教師あり学習により学習された構造予測モデルの性能は低くなるという問題がある。
第二の方法は、出力構造が不明なデータ(以下、「教師なしデータ」という)のみを利用して学習を行う「教師なし学習」である。教師データの作成コストを気にせずに学習が行える点で、教師なし学習は、教師あり学習より優れている。しかし、教師なし学習は、十分な予測性能を得るために、人間の事前知識による仮説や入力構造間の類似度尺度などのなにかしらの事前知識を必要とする。これらの事前知識がわからない、あるいは、うまく機能しない場合には、教師なし学習により学習された構造予測モデルは、十分な予測性能が得られないという問題がある。また一般的に、これらの事前知識を計算機上で記述するのは非常に困難なので、教師なし学習により学習された構造予測モデルは、教師あり学習により学習された構造予測モデルより予測性能が低くなることが多いという問題がある。
第三の方法は、教師データと教師なしデータの双方を利用する「半教師あり(凖教師あり)学習」である。半教師あり学習は、教師あり学習において教師ありデータの数が限られているときに、補助的に教師なしデータを用いることで、構造予測モデルの予測性能を向上させる方法である。そのため、半教師あり学習は、低コストで高性能の構造予測モデルを学習できる可能性がある。
非特許文献1が半教師あり学習を用いた構造予測モデルの学習法の従来技術として知られている。この方法は、条件付確率場(非特許文献2参照)と呼ばれる教師あり学習による構造予測モデルの学習を、半教師あり学習に拡張した方法である。この方法により学習された構造予測モデルを用いた構造予測器は、実データで非常に良好な予測性能を示している。
J. Suzuki, H. Isozaki, "Semi-Supervised Sequential Labeling and Segmentation Using Giga-word Scale Unlabeled Data", Proceedings of ACL-08, 2008, pp.665-673 J. Lafferty, A. McCallum, F. Pereira, "Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data", In Proc. 18th International Conf. on Machine Learning, 2001, pp.282-289
教師データは作成が高コストであるため少数の教師データしか利用できない場合がほとんどである。構造予測問題に対して十分な教師データを利用できない場合、背景技術で述べたように、教師あり学習により学習された構造予測モデルは十分な予測性能が得られないという問題がある。
一方、教師なしデータは、教師データと比べて相対的に大量かつ容易に得られることが多い。しかし、大量の教師なしデータが存在しても、教師なし学習では十分な予測性能を得ることは、背景技術で述べたようにそもそも困難であるという問題がある。
そのため、少量の教師データと大量の教師なしデータを利用して、半教師あり学習により構造予測モデルを学習することが理想的である。
構造予測モデルを学習する際に、教師なしデータでは出力構造yが不明であるため、直接入力構造xが与えられた時の出力構造yの条件付確率p(y|x)を推定できない。そこで、例えば、特開2008−225907号公報や非特許文献1は、同時確率p(x,y)によるモデル(生成モデル)を使って、出力構造を推定する方法を提案している。一般に、半教師あり学習による構造予測モデルの学習では、少量の教師データしか存在しない場合、十分な予測性能を得るため膨大な量の教師なしデータを必要とする。そして、膨大な量の教師なしデータから得られる構造予測モデルは、より複雑になるという問題点がある。複雑な構造予測モデルは、構造予測モデル作成装置及び構造予測器上の記憶領域を多く必要とする。また、構造予測器の予測速度が遅くなる原因となる。
そこで本発明では、予測性能を保持したまま、省メモリ化を実現する構造予測モデルを学習する装置、方法、プログラム、及び記録媒体を提供することを目的とする。
上記の課題を解決するために、本発明に係る構造予測モデル学習技術は、入力構造xに対する出力構造yを予測するために利用される構造予測モデルを、教師データD及び教師なしデータDを用いて学習する。本発明に係る構造予測モデル学習技術では、構造予測問題により特定される出力候補生成用定義データ集合を用いて、教師データに対する教師データ用出力候補グラフを生成し、教師なしデータに対する教師なしデータ用出力候補グラフを生成し、特徴抽出テンプレートを用いて、教師データ用出力候補グラフ及び教師なしデータ用出力候補グラフから特徴を抽出し、教師データ用出力候補グラフから抽出した特徴の集合に対するD次元の基本モデル用特徴ベクトルfx,yを生成し、教師なしデータ用出力候補グラフから抽出した特徴の集合をK個の部分集合に分割し、部分集合kに含まれる特徴に対するD次元の補助モデル用特徴ベクトルg(k) x,yを生成し(但し、Kを自然数とし、k∈{1,2,…,K}とする)、基本モデル用特徴ベクトルfx,yのD個の要素にそれぞれ1対1対応するD個の第1パラメタで構成される第1パラメタ集合wを含む基本モデル用パラメタ集合λを生成し、補助モデル用特徴ベクトルg(k) x,yのD個の要素にそれぞれ1対1対応するD個の補助モデル用パラメタで構成される補助モデル用パラメタ集合θ(k)を生成し、K個の補助モデル用パラメタ集合θ(k)で構成される補助モデル用パラメタ集合の集合Θ={θ(1),θ(2),…,θ(K)}を生成し、各補助モデルqは補助モデル用パラメタ集合θ(k)を対数線形モデルにより定義するものとし、補助モデル用パラメタ集合θ(k)から得られる正則化項と教師なしデータDを用いて、非負関数であって、入力構造xに対する出力構造yの擬似的な正解の度合いを表す参照関数r~(x,y)と補助モデルqとの間の正則化項付きブレグマン距離を最小にする補助モデル用パラメタ集合の集合Θを推定し、基本モデル用パラメタ集合λは、K個の補助モデルとそれぞれ1対1対応するK個の第2パラメタで構成される第2パラメタ集合v={v,v,…,v}を含むものとし、教師データDと補助モデル用パラメタ集合の集合Θを用いて、事前に定義された経験リスク関数を最小にする基本モデル用パラメタ集合λを推定する。
本発明は、教師なしデータを用いて、擬似的な正解の度合いを表す参照関数と補助モデルとの間のブレグマン距離を最小化する補助モデル用パラメタを推定する。このような構成とすることで、正解が不明な教師なしデータの正解を近似的に推定して利用することを可能とした。作成コストが高い教師データが少量でも、作成コストが低い教師なしデータを追加利用して構造予測モデルを学習でき、さらに構造予測モデルの予測性能を向上させることが可能となる。また、本発明は、補助モデルを対数線形モデル等により定義することで、ブレグマン距離を最小化する際に、Lノルム正則化の技術を導入できる。Lノルム正則化の技術を導入することで、活性状態にあるパラメータ(言い換えると、0以外のパラメタ)の数を減らすことができる。このような構成とすることで、自然かつシステマティックに構造予測モデルを省メモリ化することができるという効果を奏する。
さらに、このような構造予測モデルを利用すれば、構造予測器に必要な記憶量を削減できる。よって、構造予測モデルを記憶した外部記憶装置(HDD等)から主記憶装置(メモリ)へのロード時間を短縮できる。また、特徴に対するインデックス引きの速度が向上し、構造予測に掛かる時間を短縮できる。
図1は、系列構造予測問題のうち英語のテキストから固有表現を抽出する問題に関するものを示す図。 図2は、木構造予測問題のうち、英語のテキスト内の依存構造を解析する問題に関するものを示す図。 図3Aは系列構造予測問題のうちDNA塩基配列から遺伝子領域を推定する問題に関するものを示す図、図3Bは、人と人や事柄間の関係を表現するデータに対して、そのネットワーク構造を予測する問題に関するものを示す図である。 図4は構造予測モデル学習装置100と構造予測器7の関係を示す図。 図5は構造予測モデル学習装置100の構成を模式的に示す機能ブロック図。 図6は構造予測モデル学習装置100の処理フローを示す図。 図7は英語の教師データを示す図。 図8は英語の教師なしデータを示す図。 図9は出力候補生成用定義データ集合Tを示す図。 図10は英語の入力構造に対する出力候補グラフを示す図。 図11は特徴抽出テンプレートTを模式的に示す図。 図12は特徴抽出テンプレートTを用いて英語の入力構造に対する出力候補グラフから特徴を抽出する例を示す図 図13は図12のノード411に付与される特徴ベクトルの例を示す図。 図14は図12のノード412に付与される特徴ベクトルの例を示す図。 図15は英語の入力構造に対する基本モデル用パラメタ集合λのデータ例を示す図。 図16は英語の入力構造に対する補助モデル用パラメタ集合の集合Θのデータ例を示す図。 図17は補助モデル用パラメタ推定部140の構成を模式的に示す機能ブロック図。 図18は補助モデル用パラメタ推定部140の処理フローを示す図。 図19は基本モデル用パラメタ推定部160の構成を模式的に示す機能ブロック図。 図20は基本モデル用パラメタ推定部160の処理フローを示す図。 図21は英語の入力構造に対するパラメタuのデータ例を示す図。 図22は構造予測モデル学習装置100のハードウェア構成を例示したブロック図。 図23は教師データのみに基づき学習された構造予測モデルを用いた構造予測器の正解率と、タイプ3の補助モデルを利用した構造予測モデル学習装置100により学習された構造予測モデルを用いた構造予測器の正解率を示す図。 図24は英語の係り受け構造予測問題に対する出力候補グラフの例を示す図。
<本発明のポイント>
構造予測モデルは、入力構造xに対して出力構造yを予測するモデルである。また、本発明の一例において、構造予測モデルは数式を用いて以下のように定義される。
Figure 0005250076
式(1)は、入力構造xと出力構造yの組合せから抽出した特徴に対応するスコアを利用して構造を予測する。式(1)は、その特徴に対するスコアの総計が最も高い出力構造y^が、入力構造xに対して最も尤もらしい出力構造であるとし、予測結果として求める。但し、d(x,y;λ,Θ)は、入力構造xに対して出力構造yが得られる可能性を表すスコアを返す判別関数を表す。d(x,y;λ,Θ)の戻り値は1つの実数値である。また、d(x,y)は、後述する基本モデル用パラメタ集合λと補助モデル用パラメタ集合の集合Θを利用して、予め与えられた計算式を計算する。但し、λ={w,v,v,…,v}とし、Θ={θ(1),θ(2),…,θ(K)}とする。また、fx,yは、教師データDから抽出した特徴の集合に対するD次元の基本モデル用特徴ベクトルを表す。wは、基本モデル用特徴ベクトルfx,yのD個の要素にそれぞれ1対1対応するD個の第1パラメタで構成される第1パラメタ集合を表す。また、g(k) x,yは、教師なしデータDから抽出した特徴の集合をK個の部分集合に分割し、各部分集合kに含まれる特徴の集合に対するD次元の補助モデル用特徴ベクトルを表す。θ(k)は、特徴ベクトルg(k) x,yのD個の要素にそれぞれ1対1対応するD個の補助モデル用パラメタで構成される補助モデル用パラメタ集合を表す。なお、v={v,v,…,v}を、K個の補助モデルとそれぞれ1対1対応するK個の第2パラメタで構成される第2パラメタ集合とする。但し、Kは自然数とし、k∈{1,2,…,K}とする。なお、基本モデルは、教師データDを用いて、判別関数内で用いられる基本モデル用パラメタ集合λを推定するために用いられるモデルである。補助モデルは、教師なしデータDを用いて、判別関数内で用いられる補助モデル用パラメタ集合Θを推定するために用いられるモデルである。各パラメタや各ベクトルの求め方は後述する。
<補助モデル>
構造予測モデルを学習する際に、教師なしデータでは出力構造yが不明であるため、直接入力構造xが与えられた時の出力構造yを利用した学習が行えない。そこで、本発明の一例では、K個の補助モデルを用いて正解の出力構造yを近似的に推定して利用する。補助モデルを非負関数として定義する。例えば、ロジスティック回帰モデルや、対数線形モデルが、補助モデルとして用いられる。次に、導入した補助モデルと、与えられた参照関数(reference function)とのブレグマン距離(Bregman divergence)を最小化するように、補助モデル用パラメタ集合の集合Θを推定する。このとき、構造予測モデルを省メモリ化するために、Lノルム正則化項を導入する。これにより、非ゼロのパラメタ数を最小に保ったまま最適なパラメタ集合の集合Θを推定できる。
<局所的構造>
式(1)において、入力構造xが与えられたときの可能な全ての出力構造の候補Y(x)の数は一般的に非常に大きくなる。このため、全ての候補Y(x)を列挙し、それぞれの特徴を抽出してスコアを評価するのは計算量的に困難となる場合が多い。この計算量の問題を克服するため、出力構造yを、局所的構造(部分構造)zに分解する。そして、出力構造yの大域的な特徴は使わず、局所的構造zから得られる特徴のみを利用して出力構造を予測する。
局所的構造の定義は、扱う構造予測問題に合わせて自由に、人手により事前に定義すればよい。例えば、局所的構造は、出力構造グラフのクリークにより定義される。但し、出力構造内の要素を排他的に区分して、局所的構造を定義する必要はない。また、局所的構造の定義は、局所的構造同士が完全に包含関係にあるなど重複するような定義でもよい。あるいは逆に、局所的構造の定義は、任意の要素が被覆されていないような定義でもよい。
ここで、ある出力構造yから事前の定義に従って得られる全ての局所的構造の集合をZ(x,y)で表す。局所的構造の集合Z(x,y)の一つの要素をz∈Z(x,y)と表す。同様に、xから生成できる全ての出力候補の集合Y(x)に出現する全ての局所的構造の集合をZ(x,Y(x))と表す。
ここで、与えられた入力構造xと任意の局所的構造zの情報から抽出される特徴ベクトルをfx,z、または、g(k) x,zと書くこととする。このとき、本発明の一例では、以下の等式が成り立つこととする。
Figure 0005250076
式(2)は、各局所的構造zで得られた特徴ベクトルfx,zの総和が出力構造全体の特徴ベクトルfx,yとなることを意味する。式(3)は、各局所的構造zで得られた特徴ベクトルg(k) x,zの総和が出力構造全体の特徴ベクトルg(k) x,yとなることを意味する。なお、式(1)は、以下の式(1)’で表すことができる。
Figure 0005250076
次に、基本モデルP及び補助モデルqを定義する。qはk番目の補助モデルを表す。3つのタイプの補助モデルを例示する。なお、何れのタイプの補助モデルも、非負関数であり、補助モデル用パラメタ集合θ(k)を対数線形モデルにより定義する。
<補助モデル(タイプ1)>
タイプ1のk番目の補助モデルをq と表す。xが与えられたときに出力構造yが出力される条件付確率q(y|x)と出力されない条件付確率q(¬y|x)=1−q(y|x)は以下の式で表される。
Figure 0005250076
但し、b(y)=Σb(z)は1以上の値を返す関数を表す。また、b(y)には、θ(k)・g(k) x,y=0のとき、式(4)が、一様分布と一致するような値を代入する。次に、q のオッズを用いてq’ を以下のように定義する。
Figure 0005250076
よって、q’ は、q のを1/b(y)倍した値になる。つまり、q’ はq に比例する値となる。
ここで、以降の処理のために、Qを以下のように定義する。
(z|x;θ(k))=q (z|x,θ(k)) (6)
但し、q (z|x,θ(k))は、xが与えられたときの出力構造yのなかに局所的構造zが出現する条件付確率を表す。この条件付確率は、q (y|x,θ(k))の定義から、zの周辺確率として計算できる。
<補助モデル(タイプ2)>
タイプ2の補助モデルをq と表す。q は、計算量を削減するために、より簡単な構造を導入する。タイプ2の補助モデルは、入力構造xに対する出力構造yをモデル化するのではなく、yを構成する個々の局所的構造zに対するモデル化を行う。xが与えられたときに出力構造yに局所的構造zが含まれる条件付確率q(z|x)と出力されない条件付確率q(¬z|x)=1−q(z|x)は以下の式で表される。
Figure 0005250076
但し、b(z)を局所的構造zの対立候補となる局所的構造の個数とする。これは、θ(k)・g(k) x,z=0をデフォルトの値と仮定した場合、zの出現確率が対立候補と等確率
Figure 0005250076
となるような補正項を意味する。次に、q のオッズを用いてq’ を以下のように定義する。
Figure 0005250076
ここで以降の処理のために、Qを以下のように定義する。
Figure 0005250076
<補助モデル(タイプ3)>
タイプ3の補助モデルをq と表す。q は、さらに補助モデルの計算量を削減できる。タイプ3の補助モデルは、個々の局所的構造zの出現確率を単一の特徴nのみでモデル化する。xが与えられたときに出力構造yにnを特徴とする局所的構造zが含まれる条件付確率q(z|x,n)と出力されない条件付確率q(¬z|x,n)=1−q(z|x,n)は以下の式で表される。
Figure 0005250076
次に、q のオッズを用いてq’ を以下のように定義する。
Figure 0005250076
ここでタイプ1、2と同様に以降の処理のために、Qを以下のように定義する。但し、θ(k)=(θ(k) ,θ(k) ,…,θ(k) Dk)、g(k) x,z=(g(k) x,z,1,g(k) x,z,2,…,g(k) x,z,Dk)とする。
Figure 0005250076
はq のオッズまたはq’ をn=1,2,…,Dまでをまとめたものに相当する。
<基本モデル>
基本モデルは、学習後の構造予測モデルが式(1)’で記述できるものであれば、どのようなモデルでもよい。ここでは、式(6)、(9)、(12)において補助モデルq 、q 、q のそれぞれから得られるQを導入して、基本モデルを定義する。基本モデルを確率モデルに基づき定義する場合と、基本モデルをマージン最大化モデル原理に基づき定義する場合を例示する
<確率モデルに基づく基本モデルの定義>
基本モデルPを確率モデルに基づき定義する場合には、以下のように表す。
Figure 0005250076
これは、入力構造xが与えられたときの出力構造yが出る条件付確率P(y|x)を、対数線形モデルと補助モデルとの各局所的構造z毎の積として定義していることを意味する。
なお、実際には、補助モデルq 、q 、q の何れを利用しても、式(13)の右辺を整理して以下のように書ける。
Figure 0005250076
特に、補助モデルの数が1のとき(つまりK=1)、かつ、基本モデル用特徴ベクトルと補助モデル用特徴ベクトルが同じとき(つまりfx,y=g(1) x,y)、式(14)を整理してdを以下のように示すことができる。
Figure 0005250076
<マージン最大化モデルに基づく基本モデルの定義>
基本モデルPを線形識別モデルでのマージン最大化に基づき定義する場合には、以下のように表す。
Figure 0005250076
但し、E(y,y^)は、ある正解の出力yと任意の出力y^を比較した際のy^の誤りの度合いを表す関数である。E(y,y^)は、誤りが大きければ、つまり、yとy^の違いが大きければ大きいほど値が大きくなる。なお、A\Bは、集合Aから集合Bを引いた差集合を表す。式(16)は、入力構造xに対する正解の出力構造yのスコアd(x,y;λ,Θ)と、最も誤りリスクの高い不正解の出力y^のスコアd(x,y^;λ,Θ)の差分が、エラーの推定値E(y,y^)以上になるようにする。
以下、これらの定義を用いて、本発明の実施の形態について、詳細に説明する。
図4に示すように、構造予測モデル学習装置100は、学習フェーズにおいて、構造予測モデル学習装置100は、教師データDと、教師なしデータDと、学習支援情報記憶部4に格納された情報とを用いて、構造予測モデルを学習し、学習後の構造予測モデルを構造予測モデル記憶部6に出力する。構造予測モデル記憶部6は学習後の構造予測モデルを記憶する。構造予測器7は、構造予測モデル記憶部6から構造予測モデルを受け取る。さらに、構造予測器7は、ラベルなしサンプルS(入力構造x)を受け取り、これに対するラベル有りサンプルS(出力構造y)を、構造予測モデルを利用して推定し、出力する。
なお、教師データDは入力構造xと教師信号(理想的な出力構造y)のペアの集合である。サンプル数がN個の教師データをD={(x(n),y(n))} n=1と表す。教師なしデータDは入力構造xのみからなるデータの集合であり、正解の出力構造yが不明なデータの集合である。サンプル数がM個の教師なしデータをD={(x(m))} m=1と表す。なお、例えば図1に示されている固有表現抽出の場合には、構造予測モデルを学習するために、N=1万、M≧1000万といった規模のサンプルが必要となる。
学習支援情報記憶部4は、学習支援情報として、後記する特徴抽出テンプレートTと、出力候補生成用定義データ集合Tとを記憶するものである。
<構造予測モデル学習装置100>
図5、図6を用いて実施例1に係る構造予測モデル学習装置100を説明する。構造予測モデル学習装置100は、例えば、CPU(Central Processing Unit)と、RAM(Random Access Memory)と、ROM(Read Only Memory)と、HDD(Hard Disk Drive)と、入出力インタフェース等から構成される。
構造予測モデル学習装置100は、例えば、記憶部103と、制御部105と、出力候補グラフ生成部110と、特徴ベクトル生成部120と、パラメタ生成部130と、補助モデル用パラメタ推定部140と、基本モデル用パラメタ推定部160と、第1収束判定部180と、パラメタ統合部190を備える。このうち、出力候補グラフ生成部110と特徴ベクトル生成部120は、学習のための前処理を行うためのものである。
<記憶部103及び制御部105>
記憶部103は、前述のRAM、ROM、HDD等からなる。記憶部103は、教師データD、教師なしデータD、学習支援情報、処理途中の信号や各種パラメタ等を記憶する。制御部105は、前述のCPU等からなる。制御部105は、記憶部103に対し、各処理過程で所定の信号やパラメタの読み書きを行う。但し、制御部105は、必ずしも記憶部103に対し各データの読み書きを行わなければならないわけではなく、各部間で直接データを受け渡すように制御してもよい。
<入力データ例>
本実施例では、英語のテキストデータからなる入力構造に対し、固有表現を示すラベルを付与する出力構造を予測するために利用される構造予測モデルを学習する例を示す。図7、図8は、図5に示した構造予測モデル学習装置100に入力する情報の例を示す図である。図7は英語の教師データを、図8は英語の教師なしデータをそれぞれ示す。図7に示す例は、図1に示したものと同様である。但し、トークン区切りは事前に施されているものとする。
図9は、出力候補生成用定義データ集合Tを示す。この例では、出力候補生成用定義データ集合は、予め定められた5つの出力候補生成用定義データを要素としている。この出力候補生成用定義データ集合Tは、対象とする構造予測問題によって自動的に決定される。構造予測モデル学習装置100は、この出力候補生成用定義データ集合Tを学習支援情報記憶部4から取得する。
<出力候補グラフ生成部110>
出力候補グラフ生成部110は、教師データDと教師なしデータDと出力候補生成用定義データ集合Tを受け取る。そして、出力候補グラフ生成部110は、構造予測問題により特定される出力候補生成用定義データ集合Tを用いて、受け取った教師データDに対する教師データ用出力候補グラフGrDLを生成する(s110)。出力候補グラフ生成部110は、同様に出力候補生成用定義データ集合Tを用いて、受け取った教師なしデータDに対する教師なしデータ用出力候補グラフGrDUを生成する(s110)。出力候補グラフ生成部110は、受け取った教師データDと、その教師データDから生成した教師データ用出力候補グラフGrDLとを対応付ける。出力候補グラフ生成部110は、受け取った教師なしデータDと、その教師なしデータDから生成した教師なしデータ用出力候補グラフGrDUとを対応付ける。さらに、出力候補グラフ生成部110は、各データを特徴ベクトル生成部120に出力する。出力候補グラフは、図10に示すように、可能性のある全ての出力構造候補をパスで接続したラティス形式で表現したものである。なお、以下の例では、出力候補生成用定義データ集合は、予め定められた3つの出力候補生成用定義データを要素としている。図10の例では、出力候補生成用定義データ集合は「PER.」、「ORG.」、「O」の3つの出力候補生成用定義データを要素としている。図10は、図5に示した構造予測モデル学習装置100で生成される出力候補グラフの一例を模式的に示す図である。ここで、<BOS>は、入力構造xの始まりを表す固定の特別なラベルであり、<EOS>は、入力構造xの終わりを表す固定の特別なラベルである。ラティスは、入力構造x(教師データDまたは教師なしデータD)に対する出力構造yを示すものであり、出力構造yの個々のインスタンスy(e=1,2,3)をノードで示し、各インスタンス間の依存関係をリンクで示す。出力候補グラフ中の<BOS>から<EOS>間の1つのパスは1つの出力に対応し、出力候補グラフは、とり得る全ての出力の候補を包含したグラフになっている。例えば、図10の出力候補グラフは3通りのパス(出力候補)を包含する。例えば、図10のノード401は、入力構造xの4番目の単語「SD」に対してラベル「ORG.」を付与した出力のインスタンスを示す。同様に、図10のノード402は、入力構造xの6番目の単語「two」に対してラベル「O」を付与した出力のインスタンスを示す。
<特徴ベクトル生成部120>
特徴ベクトル生成部120は、特徴抽出テンプレートTと教師データ用出力候補グラフGrDLと教師なしデータ用出力候補グラフGrDUを受け取る。そして、特徴ベクトル生成部120は、受け取った特徴抽出テンプレートTを用いて、教師データ用出力候補グラフGrDL及び教師なしデータ用出力候補グラフGrDUから特徴を抽出する(s120)。さらに、特徴ベクトル生成部120は、教師データ用出力候補グラフGrDLから抽出した特徴の集合に対するD次元の基本モデル用特徴ベクトルfx,yを生成する(s120)。また、特徴ベクトル生成部120は、教師なしデータ用出力候補グラフGrDUから抽出した特徴の集合をK個の部分集合に分割する。特徴ベクトル生成部120は、部分集合kに含まれる特徴に対するD次元の補助モデル用特徴ベクトルg(k) x,yを生成する(s120)。特徴ベクトル生成部120は、教師データ用出力候補グラフGrDLに基本モデル用特徴ベクトルfx,yを付与して、パラメタ生成部130に出力する。また、特徴ベクトル生成部120は、教師なしデータ用出力候補グラフGrDUに補助モデル用特徴ベクトルg(k) x,yを付与して、パラメタ生成部130に出力する。
以下、特徴ベクトル生成部120が、出力候補グラフから特徴を抽出する方法を説明する。特徴ベクトル生成部120は、出力候補グラフから、ラベルyと、特徴抽出テンプレートに記述された入力構造中のインスタンスとの組合せにより、特徴を抽出する。但し、yは出力構造のi番目のラベルを表す。図11は、特徴抽出テンプレートTの例を示す図である。特徴ベクトル生成部120は、この特徴抽出テンプレートTを用いて、ラベルyとその前後2個ずつまでに対応する入力単語xi−2、xi−1、x、xi+1、xi+2それぞれとの組合せ(y&xi−2、y&xi−1、y&x、y&xi+1、y&xi+2)や、ラベルyの後2個の入力単語xi+1とxi+2とyとの組合せ(y&xi+1&xi+2)等を特徴として抽出する。図12に、特徴ベクトル生成部120が、特徴抽出テンプレートTを用いて、出力候補グラフから特徴を抽出する例を示す。
図12において、ノード411は出力構造1番目のラベル(y)が「PER.」である場合を示す。このとき、特徴ベクトル生成部120は、図12に示す特徴411Aを抽出する。図12において、ノード412は出力構造3番目のラベル(y)が「ORG.」である場合を示す。このとき、特徴ベクトル生成部120は、図12に示す特徴412Aを抽出する。図12において、ノード413は出力構造5番目(y)のラベルが「ORG.」である場合を示す。このとき、特徴ベクトル生成部120は、図12に示す特徴413Aを抽出する。
次に、特徴ベクトルを生成し、付与する方法を説明する。特徴ベクトル生成部120は、全ての教師データDから得られる全ての教師データ用出力候補グラフGrDLの全てのノードから抽出される特徴を集め、そこから重複する特徴を削除し、教師データ用特徴集合を生成する。なお、各教師なしデータ用特徴集合に含まれる要素の数をD個とする。
同様に、特徴ベクトル生成部120は、全ての教師なしデータDから得られる全ての教師なしデータ用出力候補グラフGrDUの全てのノードから抽出される特徴を集め、そこから重複する特徴を削除し、教師なしデータ用特徴集合を生成する。さらに、特徴ベクトル生成部120は、生成した教師なしデータ用特徴集合を、K個の部分集合に分割する。なお、特徴のタイプに応じて、教師なしデータ用特徴集合を分割するとよい。特徴のタイプは、例えば、その教師なしデータの媒体(新聞やWeb等)、内容(経済、スポーツ等)、作成者により分類される。なお、各部分集合に含まれる要素の数をD個とする。異なる特徴のタイプが異なる分布を持つことがあるため、このような構成とすることで、より予測性能を向上させることができる。
特徴ベクトル生成部120は、出力候補グラフの各ノード(または各リンク)に対して、特徴ベクトルを付与する。基本モデル用特徴ベクトルfx,yは、教師データ用出力候補グラフGrDLから抽出した特徴の集合の要素と1対1対応する要素からなるD次元のベクトルである。なお、補助モデル用特徴ベクトルg(k) x,yは、教師なしデータ用出力候補グラフGrDUから抽出した特徴の集合の部分集合の要素と1対1対応する要素からなるD次元のベクトルである。なお、教師データ用出力候補グラフGrDLであっても、教師なしデータ用出力候補グラフGrDUであっても、特徴ベクトルを付与する方法は、同じである。図13は、図12のノード411に対して、付与される特徴ベクトルの説明図である。図14は、図12のノード412に対して、付与される特徴ベクトルの説明図である。特徴ベクトル生成部120は、各ノードから抽出した特徴には値「1」を紐付け、また、各ノードから抽出できなかった特徴には値「0」を紐付けることで、「1」と「0」とを要素に持つ特徴ベクトルを生成する。特徴ベクトル生成部120は、生成した特徴ベクトルを対応するノードに付与する。なお、特徴ベクトル生成部120は、各ラベルとその前後2個ずつまでに対応する入力単語それぞれとの組合せ等で特徴を生成する。そのため、入力構造のi番目の単語に対する出力構造のi番目のラベルの違うノードの特徴ベクトルは、それぞれ互いに直交する。よって、それらの内積は「0」となる。
<パラメタ生成部130>
パラメタ生成部130は、基本モデル用特徴ベクトルfx,yが付与された教師データ用出力候補グラフGrDLと補助モデル用特徴ベクトルg(k) x,yが付与された教師なしデータ用出力候補グラフGrDUを受け取る。パラメタ生成部130は、基本モデル用特徴ベクトルfx,yのD個の要素にそれぞれ1対1対応するD個の第1パラメタで構成される第1パラメタ集合w={w,w,…,w}を含む基本モデル用パラメタ集合λを生成し(s130)、基本モデル用パラメタ推定部160に出力する。
また、パラメタ生成部130は、補助モデル用特徴ベクトルg(k) x,yのD個の要素にそれぞれ1対1対応するD個の補助モデル用パラメタで構成される補助モデル用パラメタ集合θ(k)={θ(k) ,θ(k) ,…,θ(k) }を生成する。さらに、パラメタ生成部130は、K個の補助モデル用パラメタ集合θ(k)で構成される補助モデル用パラメタ集合の集合Θ={θ(1),θ(2),…,θ(K)}を生成し(s130)、補助モデル用パラメタ推定部140に出力する。
なお、パラメタ生成部130は、例えば、各パラメタに初期値として0を設定する。図15に、基本モデル用パラメタ集合λのデータ例を示す。図16に、補助モデル用パラメタ集合の集合Θのデータ例を示す。
また、パラメタ生成部130は、補助モデル用パラメタ推定部140と基本モデル用パラメタ推定部160の繰り返し回数を示すパラメタt=0を生成してもよい。
<補助モデル用パラメタ推定部140>
補助モデル用パラメタ推定部140は、補助モデル用パラメタ集合θ(k)から正則化項を求める。さらに、補助モデル用パラメタ推定部140は、教師なしデータDを用いて、参照関数r~(x,y)と補助モデルqとの間の正則化項付きブレグマン距離を最小にする補助モデル用パラメタ集合の集合Θを推定する(s140)。
例えば、補助モデル用パラメタ推定部140は、参照関数r~(x,y)と、補助モデル用パラメタ集合の集合Θと、補助モデル用特徴ベクトルg(k) x,yが付与された教師なしデータ用出力候補グラフGrDUを受け取る。
補助モデル用パラメタ推定部140は、参照関数r~と補助モデルq間のブレグマン距離を最小化する補助モデル用パラメタ集合の集合Θを推定する。ここで、参照関数と補助モデル間のブレグマン距離を最小化するとは、解空間の中で補助モデルが参照関数に最も近くなるような補助モデル用パラメタ集合の集合Θを求めることを意味する。また、ブレグマン距離を最小化する際に、L正則化項を導入する。これにより、学習後の構造予測モデルを省メモリ化することができる。なお、各補助モデルqが補助モデル用パラメタ集合θ(k)を確率モデルにより定義する場合には、その総和が1でなければならないため、L正則化項を導入することはできない。本実施例では、各補助モデルqが補助モデル用パラメタ集合θ(k)を対数線形モデルにより定義する。対数線形モデルには、上記制約がないため、L正則化項を導入できる。
(参照関数)
まず、参照関数を定義する。参照関数r~(x,y)は、非負関数である。つまり、その値域は[0,∞)である。但し、上述の補助モデルq 、q 、q を利用する場合には、それらの値域が[0,1]なので、参照関数の値域も[0,1]とする。また、参照関数r~(x,y)は、入力構造xに対する出力構造yの擬似的な正解の度合いを表す。例えば、初めて、補助モデル用パラメタ推定部140が補助モデル用パラメタを推定する場合には、事前に教師ありデータDを用いて、第1パラメタ集合wを推定し(特開2008−225907号公報参照)、推定した第1パラメタ集合wを対数線形モデルで定義した基本モデル(但し、補助モデルはなく、例えば、第2パラメタvの各要素に0を設定する)を参照関数とする。この場合、r~(x、z)=P(z|x,w)となる。
さらに、2回目以降、補助モデル用パラメタ推定部140が補助モデル用パラメタを推定する場合には、繰り返し計算の際に1つ前の繰り返しで得られた基本モデルP(z|x,λt−1,Θt−1)を参照関数として利用する。また、例えば、参照関数として、人間が事前に決めた関数や、全く別のモデル(例えば、特開2008−225907号公報記載の言語解析モデル)を用いることができる。
(ブレグマン距離)
参照関数r~と補助モデルq間のブレグマン距離Bは、以下のように定義される。
Figure 0005250076
このとき、Fは、任意の連続微分可能実数値関数であり、かつ、狭義凸関数である。例えば、FとしてLノルムが用いられる。本実施例では、F(x)=Σxlogx−Σxとする。このとき、ブレグマン距離Bは、以下の式(22)に示すように、一般化相対エントロピーGと一致する。
Figure 0005250076
最終的に、補助モデル用パラメタ集合の集合Θの推定は、参照関数r~と補助モデルq間の一般化相対エントロピーGをLノルム正則化項付きで最小化することに帰着する。また、一般化相対エントロピーを正確に求めるには、全ての可能性のある入力と出力のペア(x,y)が必要である。しかし、全ての可能性のある入力と出力のペアを列挙することは不可能である。よって、実際には、全ての可能性のある入力と出力のペアの代わりに、教師なしデータDを使った実測値を用いる。この限られた大きさの実測値を用いて得られる一般化相対エントロピーを、経験一般化相対エントロピーと呼び、G^DUと表す。よって、最適な補助モデル用パラメタ集合の集合Θを求める式(つまり、正則化項付き経験一般化相対エントロピーU(Θ|D)を最小化する式)は、以下のように表される。
Figure 0005250076
なお、|θ(k)|はk番目の補助モデル用パラメタ集合θ(k)のL1ノルムを表す。また、Cは、右辺第1項と右辺第2項の重要度を調節する変数である。つまり、Cは、経験一般化相対エントロピーとL正則化項のどちらを重要視するかを決める。また、Cは、人手でチューニングするハイパーパラメタである。
以下に、補助モデルq 、q 、q 、q’ 、q’ またはq’ を用いた場合に、得られる正則化項付き経験一般化相対エントロピーU(Θ|D)を示す。
(qを用いた場合)
補助モデルとしてq を用いた場合、式(22)、式(23)及び式(4)を用いて、正則化項付き経験一般化相対エントロピーU(Θ|D)は以下のように表される。
Figure 0005250076
なお、const(θ(k))は、θ(k)に対して定数項になるものをまとめた値である。なお、最適化する際に(U(Θ|D)を最小化する際に)、const(θ(k))は解に影響を与えない。また、式(24)の勾配は以下のように表される。
Figure 0005250076
但し、σ(a)は、ベクトルaの各要素に対して−1、0、1の3つの値のどれかで構成するベクトルを返す関数である。σ(a)は、要素が0より大きいとき1で、要素が0より小さいとき−1で、0のとき0で、それぞれ要素を置き換えたベクトルを返す。全てのkで∇U(Θ|D)=0のときに、式(23)は最適値を得る(つまり、U(Θ|D)の最小値を得る)。実際には、勾配に基づく最適化法により最適値を求めることができる。
(q’を用いた場合)
q’ を用いた場合、式(22)、式(23)及び式(5)を用いて、正則化項付き経験一般化相対エントロピーU(Θ|D)は以下のように表される。
Figure 0005250076
また、式(26)の勾配は以下のように表される。
Figure 0005250076
(qを用いた場合)
補助モデルとしてq を用いた場合、式(22)、式(23)及び式(7)を用いて、正則化項付き経験一般化相対エントロピーU(Θ|D)は以下のように表される。
Figure 0005250076
また、式(28)の勾配は以下のように表される。
Figure 0005250076
(q’を用いた場合)
q’ を用いた場合、式(22)、式(23)及び式(8)を用いて、正則化項付き経験一般化相対エントロピーU(Θ|D)は以下のように表される。
Figure 0005250076
また、式(30)の勾配は以下のように表される。
Figure 0005250076
タイプ2の補助モデルの場合は、出力構造y全体ではなく、各局所構造z単位に計算する。このような構成により、タイプ1と比較して、高速化が期待できる。ダイプ1の補助モデルを用いた場合と同様に、タイプ2の補助モデルを用いた場合も、勾配に基づく最適化法により最適値を求めることができる。
(qを用いた場合)
補助モデルとしてq を用いた場合、式(22)、式(23)及び式(10)を用いて、正則化項付き経験一般化相対エントロピーU(Θ|D)は以下のように表される。
Figure 0005250076
また、式(32)の勾配は以下のように表される。
Figure 0005250076
(q’を用いた場合)
q’ を用いた場合、式(22)、式(23)及び式(11)を用いて、正則化項付き経験一般化相対エントロピーU(Θ|D)は以下のように表される。
Figure 0005250076
また、式(34)の勾配は以下のように表される。
Figure 0005250076
タイプ3の補助モデルを用いた場合、各パラメタ間の依存関係を考慮しなくてよくなる。そのため、1変数の線形探索で解を求めることができる。よって、数値最適化時の計算量の大部分を占める勾配の計算が非常に簡単になる。このため、タイプ3の補助モデルを用いることは、学習時の計算量の面で非常に優れている。
なお、タイプ1、2、3の補助モデルの何れを用いた場合にも、正則化項付き経験一般化相対エントロピーU(Θ|D)は、各パラメタに対して凸関数となる。よって、最適解は唯一に決定する。
(補助モデル用パラメタ推定部140の構成例及び処理フロー)
図17及び図18を用いて補助モデル用パラメタ推定部140を説明する。補助モデル用パラメタ推定部140は、条件付き確率場に基づいて補助モデル用集合の集合Θを推定するために、例えば、正則化項付き経験一般化相対エントロピー計算部145と勾配計算部147と第2収束判定部149とパラメタ更新部151とを備える。なお、条件付き確率場については、例えば、「F. Sha and F. Pereira, Shallow Parsing with Conditional Random Fields, In Proc. of HLT/NAACL-2003. pages 134-141, 2003」(以下、「参考文献1」という)に詳述されているので説明を省略する。
正則化項付き経験一般化相対エントロピー計算部145は、教師なしデータDと参照関数r~(x,y)と補助モデル用パラメタの集合の集合Θを受け取り、式(24)、(26)、(28)、(30)、(32)、(34)の何れかの正則化項付き経験一般化相対エントロピーU(Θ|D)を計算する(s145)。さらに、正則化項付き経験一般化相対エントロピー計算部145は、正則化項付き経験一般化相対エントロピーU(Θ|D)を、勾配計算部147に出力する。
正則化項付き経験一般化相対エントロピーU(Θ|D)を最適化(最小化)するには、L−BFGSといった勾配に基づく数値最適化法を適用することができる。なお、L−BFGSについては、例えば、「D. C. Liu and J. Nocedal, "On the Limited Memory BFGS Method for Large Scale Optimization", Math.Programming, Ser. B, 1989, Volume 45, Issue 3, p.503-528,」(以下、「参考文献2」という)に記載されているので、説明を省略する。
勾配計算部147は、U(Θ|D)の勾配を計算するものである。式(24)、(26)、(28)、(30)、(32)、(34)の勾配はそれぞれ式(25)、(27)、(29)、(31)、(33)、(35)で示される。
第2収束判定部149は、式(25)、(27)、(29)、(31)、(33)、(35)で示される勾配∇U(Θ|D)が収束したか否かを判定する(s149)。また、第2収束判定部149は、勾配∇U(Θ|D)の値が収束したと判定した場合には、その時点の補助モデル用パラメタ集合の集合Θを、第1収束判定部180と基本モデル用パラメタ推定部160に出力する。パラメタ更新部151は、勾配∇U(Θ|D)の値が収束していない場合に、補助モデル用パラメタ集合の集合Θを更新する(s151)。
<基本モデル用パラメタ推定部160>
基本モデル用パラメタ推定部160は、教師データDと補助モデル用パラメタ集合の集合Θを用いて、事前に定義された経験リスク関数を最小にする基本モデル用パラメタ集合λを推定する(s160)。
リスク関数と正則化項の定義の選択肢は様々な可能性がある。例えば、以下のように定義する。
Figure 0005250076
ここで、R(λ|Θ,D)は、任意のリスク関数を表す。リスク関数とは、学習時の誤りを推定するための任意の関数である。つまり、リスク関数の値が小さい程学習がうまくできていることを表す。また、Cは、式(23)のCと同様の人手でチューニングするハイパーパラメタである。また、Ω(λ)は、λに関する正則化項を表す。例えば、正則化項として、Lノルム正則化項やLノルム正則化項が用いられる。
Figure 0005250076
(リスク関数として負の対数尤度を用いる場合)
まず、リスク関数に負の対数尤度を用いる場合を示す。負の正則化対数尤度最小化では、以下の式により最適パラメタを求める。
Figure 0005250076
これは、基本モデルに確率モデルを利用した場合の一般的な最適化の方法である。式(43)の勾配は以下のように表すことができる。
Figure 0005250076
このとき、正則化項の勾配は、以下のように示される。
Figure 0005250076
式(41)に式(43)を代入した場合、式(41)の勾配は以下のように表される。
Figure 0005250076
実際の教師データD内に出現した特徴ベクトルの総和をとったベクトルとなる。
式(41)の最適パラメタは、式(46)での勾配が0となるときに得られる。実際の最適化では、L-BFGSといった勾配に基づく数値最適化法により求めることができる(参考文献2参照)。
(マージン最大化モデルに基づき推定する場合)
次に、マージン最大化原理に基づき基本モデル用パラメタ集合λを推定する場合について説明する。この場合は、リスク関数は以下のように表される。
Figure 0005250076
例えば、式(41)に式(47)と式(45)のL正則化を代入した場合、式(41)の勾配は以下のよ
Figure 0005250076
R(λ|Θ,D)=0の場合、L(λ|Θ)を微分できない。そのため、通常の勾配法ではL(λ|Θ,D)を最適化できない。この場合、劣勾配法を用いてL(λ|Θ,D)を最適化することができる。
(基本モデル用パラメタ推定部160の構成例及び処理フロー)
図19及び図20を用いて基本モデル用パラメタ推定部160を説明する。基本モデル用パラメタ推定部160は、条件付き確率場(参考文献1参照)に基づいて基本モデル用パラメタ集合λを推定するために、図19に示すように、例えば、経験リスク関数計算部161と正則化項計算部163と、正則化項付き経験リスク関数計算部165と勾配計算部167と第3収束判定部169とパラメタ更新部171とを備える。
経験リスク関数計算部161は、教師データDと補助モデル用パラメタ集合の集合Θと基本モデル用パラメタ集合λを受け取り、式(43)または式(47)の経験リスク関数R(λ|Θ,D)を計算する(s161)。さらに、経験リスク関数計算部161は、R(λ|Θ,D)を正則化項付き経験リスク関数計算部165に出力する。
正則化項計算部163は、基本モデル用パラメタ集合λを受け取り、式(42)の正則化項Ω(λ)を計算する(s163)。さらに、正則化項計算部163は、Ω(λ)を正則化項付き経験リスク関数計算部165に出力する。
正則化項付き経験リスク関数計算部165は、経験リスク関数R(λ|Θ,D)と正則化項Ω(λ)を受け取り、式(41)に代入し、の正則化項付き経験リスク関数L(λ|Θ,D)を計算する(s165)。さらに、正則化項付き経験リスク関数計算部165は、正則化項付き経験リスク関数L(λ|Θ,D)を、勾配計算部167に出力する。
正則化項付き経験リスク関数L(λ|Θ,D)を最適化するには、L−BFGSといった勾配に基づく数値最適化法を適用することができる。なお、L−BFGSについては、参考文献2に記載されているので、説明を省略する。
勾配計算部167は、式(46)または(48)の勾配∇L(λ|Θ,D)を計算する(s167)。
第3収束判定部169は、式(46)または(48)の勾配∇L(λ|Θ,D)が収束したか否かを判定する(s169)。また、第3収束判定部169は、勾配∇L(λ|Θ,D)の値が収束したと判定した場合には、その時点の基本モデル用パラメタ集合λを、第1収束判定部180に出力する。
パラメタ更新部171は、勾配∇L(λ|Θ,D)の値が収束していない場合に、基本モデル用パラメタ集合λを更新する(s171)。
<第1収束判定部180>
第1収束判定部180は、基本モデル用パラメタ集合λと補助モデル用パラメタ集合の集合Θの値を受け取り、これらの値が、収束したか否かを判定する(s180)。なお、特許請求の範囲における収束判定部は、第1収束判定部180に対応する。
第1収束判定部180は、例えばパラメタの増分を用いて、判定する。第1収束判定部180は、|λ(t)−λ(t+1)|+|Θ(t)−Θ(t+1)|の値が、閾値以下となった場合、収束したと判定する。または、第1収束判定部180は、事前に繰り返し回数Tを決定しておいて、繰り返し回数tが規定の回数T(t=T)に達したら、収束したと判定してもよい。
第1収束判定部180が収束していないと判定した場合には、補助モデル用パラメタ推定部140に対して、補助モデル用パラメタ集合の集合Θと基本モデル用パラメタ集合λを推定する処理を繰り返すことを指示する制御信号cを出力する。第1収束判定部180は、また繰り返し回数を示すパラメタtを1増加させる(t←t+1)。なお、このとき、参照関数r~として、繰り返し処理における1つ前の基本モデルP(x,y;λt−1,Θt−1)を出力してもよい。
第1収束判定部180が収束したと判定した場合には、そのときの補助モデル用パラメタ集合の集合Θと基本モデル用パラメタ集合λをパラメタ統合部190に出力する。
<パラメタ統合部190>
パラメタ統合部190は、収束した基本モデル用パラメタ集合λと補助モデル用パラメタ集合の集合Θを統合する(s190)。
パラメタ統合部190は、例えば、基本モデルのj番目の特徴と、k番目の補助モデルのp番目の特徴が一致する場合には、統合後のパラメタ集合uのi番目の要素uを以下の式により求める。図21にパラメタ集合uのデータ例を示す。
=w+vθ(k) (51)
また、例えば、基本モデルにしかi番目の要素uに対応する特徴がない場合には、パラメタ統合部190は、要素uを以下の式により求める。
=w (52)
また、例えば、補助モデルにしかi番目の要素uに対応する特徴がない場合には、要素uを以下の式により求める。
=vθ(k) (53)
このとき、構造予測モデルは、式(1)に代えて、以下の式で表すことができる。
Figure 0005250076
但し、基本モデル用パラメタ集合λと補助モデル用パラメタ集合の集合Θを統合したときのパラメタ集合uの要素の数をIとすると、u={u,u,…,u}である。
さらに、パラメタ統合部190は、統合したパラメタ集合u、または、パラメタ集合uを用いて表される構造予測モデルを構造予測モデル記憶手段6に出力する。本実施例では、θ(k) の多くがゼロ(つまり活性状態ではないパラメータ)となっている。このとき、式(52)により求められるuもゼロのパラメータとなる。
<効果>
このような構成とすることで、学習後の構造予測モデルから活性状態にないパラメタ(言い換えると、0のパラメタ)及びそのパラメタに対応する特徴を削除することで、学習後の構造予測モデルを省メモリ化することができる。さらに、教師データと教師なしデータに基づき作成された構造予測データは高い予測性能を維持したまま、省メモリ化を実現している。実験結果を後述する。なお、教師データDから得られる基本モデル用パラメタ集合の要素数は、前述の通り、教師データDの生成コストが高いため、それほど多くは得られない。一方、教師なしデータDから得られる補助モデル用パラメタ集合の集合Θの要素数は、膨大な量を容易に求めることができる。このΘの要素のほとんどをゼロにすることで、省メモリ化を実現する。
<ハードウェア構成>
図22は、本実施例における構造予測モデル学習装置100のハードウェア構成を例示したブロック図である。図22に例示するように、この例の構造予測モデル学習装置100は、それぞれCPU(Central Processing Unit)11、入力部12、出力部13、補助記憶装置14、ROM(Read Only Memory)15、RAM(Random Access Memory)16及びバス17を有している。
この例のCPU11は、制御部11a、演算部11b及びレジスタ11cを有し、レジスタ11cに読み込まれた各種プログラムに従って様々な演算処理を実行する。また、入力部12は、データが入力される入力インタフェース、キーボード、マウス等であり、出力部13は、データが出力される出力インタフェース、ディスプレイ、プリンタ等である。補助記憶装置14は、例えば、ハードディスク、半導体メモリ等であり、構造予測モデル学習装置100としてコンピュータを機能させるためのプログラムや各種データが格納される。また、RAM16には、上記のプログラムや各種データが展開され、CPU11等から利用される。また、バス17は、CPU11、入力部12、出力部13、補助記憶装置14、ROM15及びRAM16を通信可能に接続する。なお、このようなハードウェアの具体例としては、例えば、パーソナルコンピュータの他、サーバ装置やワークステーション等を例示できる。
<プログラム構成>
上述のように、補助記憶装置14には、本実施例の構造予測モデル学習装置100の各処理を実行するための各プログラムが格納される。構造予測プログラムを構成する各プログラムは、単一のプログラム列として記載されていてもよく、また、少なくとも一部のプログラムが別個のモジュールとしてライブラリに格納されていてもよい。
<ハードウェアとプログラムとの協働>
CPU11は、読み込まれたOSプログラムに従い、補助記憶装置14に格納されている上述のプログラムや各種データをRAM16に展開する。そして、このプログラムやデータが書き込まれたRAM16上のアドレスがCPU11のレジスタ11cに格納される。CPU11の制御部11aは、レジスタ11cに格納されたこれらのアドレスを順次読み出し、読み出したアドレスが示すRAM16上の領域からプログラムやデータを読み出し、そのプログラムが示す演算を演算部11bに順次実行させ、その演算結果をレジスタ11cに格納していく。
図5は、このようにCPU11に上述のプログラムが読み込まれて実行されることにより構成される構造予測モデル学習装置100の機能構成を例示したブロック図である。
ここで、記憶部103は、補助記憶装置14、RAM16、レジスタ11c、その他のバッファメモリやキャッシュメモリ等の何れか、あるいはこれらを併用した記憶領域に相当する。また、出力候補グラフ生成部110、特徴ベクトル生成部120、パラメタ生成部130、補助モデル用パラメタ推定部140、基本モデル用パラメタ推定部160、第1収束判定部180、パラメタ統合部190は、CPU11に構造予測プログラムを実行させることにより構成されるものである。
<実験結果>
図23において、教師データのみに基づき学習された構造予測モデルを用いた構造予測器の正解率を一点鎖線で示し、タイプ3の補助モデルを利用した構造予測モデル学習装置100により学習された構造予測モデルを用いた構造予測器の正解率を実線で示す。何れのパラメタ数であっても、構造予測モデル学習装置100により学習された構造予測モデルを用いた構造予測器の正解率のほうが高い。また、正解率92.5%弱の場合には、構造予測モデル学習装置100により学習された構造予測モデルで利用されるパラメタuの数は、教師データのみに基づき学習された構造予測モデルで利用されるパラメタ集合の要素の数の約10分の1程度となることが分かる。
<変形例>
構造予測モデル学習装置100、学習支援情報記憶部4、構造予測モデル記憶部6及び構造予測器7を一体化し、1つの計算機上で実現してもよい。
構造予測モデル学習装置100は、問題に応じて、出力候補定義データ集合や特徴抽出テンプレートを代えることで、系列構造予測問題以外の問題に対しても利用可能である。図24は、係り受け構造予測問題に対する出力候補グラフの例を示す。
なお、特徴ベクトル生成部120は、教師データ用出力候補グラフGrDLから抽出した特徴の集合と、教師なしデータ用出力候補グラフGrDUから抽出した特徴の集合を合体してもよい。特徴ベクトル生成部120は、合体した特徴の集合から重複する特徴を削除し、共通の特徴集合を生成する。このとき、基本モデル用特徴ベクトルfx,yは、共通の特徴の集合の要素と1対1対応する要素からなるD次元のベクトルである。補助モデル用特徴ベクトルg(k) x,yは、共通の特徴の集合の部分集合の要素と1対1対応する要素からなるD次元のベクトルである。なお、部分集合は、共通の特徴の集合をK個に分割したものである。この場合、各ベクトルの次元数はD=D+D+…+DDKとなる。また、この場合、パラメタ統合部190では、式(51)のみを用いる。
補助モデル用パラメタ推定部140では、式(24)、(26)、(28)、(30)、(32)または(34)で表される正則化項付き経験一般化相対エントロピーU(Θ|D)の勾配を用いて、正則化項付き経験一般化相対エントロピーU(Θ|D)を最小化する補助モデル用パラメタ集合の集合を推定しているが、勾配を用いない他の方法を用いて、推定してもよい。同様に基本モデル用パラメタ推定部160では、式(41)で表される正則化項付き経験リスク関数L(λ|Θ,D)の勾配を用いて、正則化項付き経験リスク関数L(λ|Θ,D)を最小化する基本モデル用パラメタ集合を推定しているが、勾配を用いない他の方法を用いて、推定してもよい。

Claims (14)

  1. 入力構造xに対する出力構造yを予測するために利用される構造予測モデルを、教師データD及び教師なしデータDを用いて学習する構造予測モデル学習装置であって、Kを自然数とし、k∈{1,2,…,K}とし、
    構造予測問題により特定される出力候補生成用定義データ集合を用いて、教師データに対する教師データ用出力候補グラフを生成し、教師なしデータに対する教師なしデータ用出力候補グラフを生成する出力候補グラフ生成部と、
    特徴抽出テンプレートを用いて、前記教師データ用出力候補グラフ及び前記教師なしデータ用出力候補グラフから特徴を抽出し、前記教師データ用出力候補グラフから抽出した特徴の集合に対するD次元の基本モデル用特徴ベクトルfx,yを生成し、前記教師なしデータ用出力候補グラフから抽出した特徴の集合をK個の部分集合に分割し、部分集合kに含まれる特徴に対するD次元の補助モデル用特徴ベクトルg(k) x,yを生成する特徴ベクトル生成部と、
    基本モデル用特徴ベクトルfx,yのD個の要素にそれぞれ1対1対応するD個の第1パラメタで構成される第1パラメタ集合wを含む基本モデル用パラメタ集合λを生成し、補助モデル用特徴ベクトルg(k) x,yのD個の要素にそれぞれ1対1対応するD個の補助モデル用パラメタで構成される補助モデル用パラメタ集合θ(k)を生成し、K個の補助モデル用パラメタ集合θ(k)で構成される補助モデル用パラメタ集合の集合Θ={θ(1),θ(2),…,θ(K)}を生成するパラメタ生成部と、
    各補助モデルqは前記補助モデル用パラメタ集合θ(k)を対数線形モデルにより定義するものとし、前記補助モデル用パラメタ集合θ(k)から得られる正則化項と前記教師なしデータDを用いて、非負関数であって、入力構造xに対する出力構造yの擬似的な正解の度合いを表す参照関数r~(x,y)と前記補助モデルqとの間の正則化項付
    きブレグマン距離を最小にする補助モデル用パラメタ集合の集合Θを推定する補助モデル用パラメタ推定部と、
    前記基本モデル用パラメタ集合λは、K個の前記補助モデルとそれぞれ1対1対応するK個の第2パラメタで構成される第2パラメタ集合v={v,v,…,v}を含む
    ものとし、前記教師データDと前記補助モデル用パラメタ集合の集合Θを用いて、事前に定義された経験リスク関数を最小にする前記基本モデル用パラメタ集合λを推定する基本モデル用パラメタ推定部とを備え
    をハイパーパラメタ、G^ DU (r ~ ||q )を教師なしデータD を使った実測値を用いて得られる一般化相対エントロピーとし、前記補助モデル用パラメタ推定部は、補助モデル用パラメタ集合θ (k) を用いてL ノルム正則化項|θ (k) を求め、前記ブレグマン距離を、正則化項付き経験一般化相対エントロピー
    Figure 0005250076
    として求め、正則化項付き経験一般化相対エントロピーを最小にする前記補助モデル用パラメタ集合の集合Θを推定する、
    ことを特徴とする構造予測モデル学習装置。
  2. 請求項1記載の構造予測モデル学習装置であって、
    前記基本モデル用パラメタ集合λと前記補助モデル用パラメタ集合の集合Θの値が、収束したか否かを判定する収束判定部と、
    収束した前記基本モデル用パラメタ集合λと前記補助モデル用パラメタ集合の集合Θを統合するパラメタ統合部と、をさらに備え、
    前記収束判定部において、前記基本モデル用パラメタ集合λと前記補助モデル用パラメタ集合の集合Θの値が、収束していないと判定された場合には、前記補助モデル用パラメタ推定部と前記基本モデル用パラメタ推定部において、それぞれ補助モデル用パラメタ集合の集合Θと基本モデル用パラメタ集合λを推定する処理を繰り返し、
    前記参照関数r~は、繰り返し処理における1つ前の基本モデルPである、
    ことを特徴とする構造予測モデル学習装置。
  3. 請求項1記載の構造予測モデル学習装置であって、
    をハイパーパラメタ、d(x,y;λ,Θ)を入力構造xに対して出力構造yが得られる可能性を表すスコアを返す判別関数、E(y,y^)をある正解の出力yと任意の出力y^を比較した際のy^の誤りの度合いを表す関数、A\Bを集合Aから集合Bを取り去って得られる差集合、Y(x)を入力構造xから生成できる全ての出力候補の集合とし、
    前記基本モデル用パラメタ推定部は、基本モデル用パラメタ集合λから得られる正則化項Ω(λ)を用いて、前記経験リスク関数を正則化項付き経験リスク関数
    L(λ|Θ,D)=R(λ|Θ,D)+CΩ(λ)として求め、経験リスク関数として、負の対数尤度を用いる場合には、
    Figure 0005250076
    とし、線形識別モデルでのマージン最大化に基づき、L(λ|Θ,D)を最小にする前記基本モデル用パラメタ集合λを推定する場合には、
    Figure 0005250076
    とする、
    ことを特徴とする構造予測モデル学習装置。
  4. 請求項記載の構造予測モデル学習装置であって、
    入力構造xが与えられたときに出力構造yが出力される条件付確率をq (y|x;θ(k))とし、q のオッズをq’ とし、b(y)を1以上の値を返す関数とし、const(θ (k) )をθ (k) に対して定数項になるものをまとめた値とし、
    前記補助モデル用パラメタ推定部は、前記正則化付き経験一般化相対エントロピーを
    Figure 0005250076
    として、または、
    Figure 0005250076
    として求め、これを最小にする補助モデル用パラメタ集合の集合Θを推定する、
    ことを特徴とする構造予測モデル学習装置。
  5. 請求項記載の構造予測モデル学習装置であって、
    入力構造xが与えられたときに出力構造yに局所構造zが出力される条件付確率をq (z|x;θ(k))とし、q のオッズをq’ とし、b(z)を局所的構造zの対立候補となる局所的構造の個数とし、const(θ (k) )をθ (k) に対して定数項になるものをまとめた値とし、
    前記補助モデル用パラメタ推定部は、前記正則化付き経験一般化相対エントロピーを
    Figure 0005250076
    として、または、
    Figure 0005250076
    として求め、これを最小にする補助モデル用パラメタ集合の集合Θを推定する、
    ことを特徴とする構造予測モデル学習装置。
  6. 請求項記載の構造予測モデル学習装置であって、
    入力構造xが与えられたときに出力構造yに特徴nを備える局所構造zが出力される条件付確率をq (z|x,n;θ(k))とし、q のオッズをq’ とし、n=1,2,…,D とし、θ (k) =(θ (k) ,θ (k) ,…,θ (k) Dk )、g (k) x,z =(g (k) x,z,1 ,g (k) x,z,2 ,…,g (k) x,z,Dk )とし、b(z)を局所的構造zの対立候補となる局所的構造の個数とし、const(θ (k) )をθ (k) に対して定数項になるものをまとめた値とし、
    前記補助モデル用パラメタ推定部は、前記正則化付き経験一般化相対エントロピーを
    Figure 0005250076
    として、または、
    Figure 0005250076
    として求め、これを最小にする補助モデル用パラメタ集合の集合Θを推定する、
    ことを特徴とする構造予測モデル学習装置。
  7. 出力候補グラフ生成部と特徴ベクトル生成部とパラメタ生成部と補助モデル用パラメタ推定部と基本モデル用パラメタ推定部とを備える構造予測モデル学習装置によって、入力構造xに対する出力構造yを予測するために利用される構造予測モデルを、教師データD及び教師なしデータDを用いて学習する構造予測モデル学習方法であって、Kを自然数とし、k∈{1,2,…,K}とし、
    前記出力候補グラフ生成部が、構造予測問題により特定される出力候補生成用定義データ集合を用いて、教師データに対する教師データ用出力候補グラフを生成し、教師なしデータに対する教師なしデータ用出力候補グラフを生成する出力候補グラフ生成ステップと、
    前記特徴ベクトル生成部が、特徴抽出テンプレートを用いて、前記教師データ用出力候補グラフ及び前記教師なしデータ用出力候補グラフから特徴を抽出し、前記教師データ用出力候補グラフから抽出した特徴の集合に対するD次元の基本モデル用特徴ベクトルfx,yを生成し、前記教師なしデータ用出力候補グラフから抽出した特徴の集合をK個の部分集合に分割し、部分集合kに含まれる特徴に対するD次元の補助モデル用特徴ベクトルg(k) x,yを生成する特徴ベクトル生成ステップと、
    前記パラメタ生成部が、基本モデル用特徴ベクトルfx,yのD個の要素にそれぞれ1対1対応するD個の第1パラメタで構成される第1パラメタ集合wを含む基本モデル用パラメタ集合λを生成し、補助モデル用特徴ベクトルg(k) x,yのD個の要素にそれぞれ1対1対応するD個の補助モデル用パラメタで構成される補助モデル用パラメタ集合θ(k)を生成し、K個の補助モデル用パラメタ集合θ(k)で構成される補助モデル用パラメタ集合の集合Θ={θ(1),θ(2),…,θ(K)}を生成するパラメタ生成ステップと、
    各補助モデルqは前記補助モデル用パラメタ集合θ(k)を対数線形モデルにより定義するものとし、前記補助モデル用パラメタ推定部が、前記補助モデル用パラメタ集合θ(k)から得られる正則化項と前記教師なしデータDを用いて、非負関数であって、入力構造xに対する出力構造yの擬似的な正解の度合いを表す参照関数r~(x,y)と前記補助モデルqとの間の正則化項付きブレグマン距離を最小にする補助モデル用パラメタ集合の集合Θを推定する補助モデル用パラメタ推定ステップと、
    前記基本モデル用パラメタ集合λは、K個の前記補助モデルとそれぞれ1対1対応するK個の第2パラメタで構成される第2パラメタ集合v={v,v,…,v}を含むものとし、前記基本モデル用パラメタ推定部が、前記教師データDと前記補助モデル用パラメタ集合の集合Θを用いて、事前に定義された経験リスク関数を最小にする前記基本モデル用パラメタ集合λを推定する基本モデル用パラメタ推定ステップとを備え、
    をハイパーパラメタとし、G^ DU (r~||q )を教師なしデータD を使った実測値を用いて得られる一般化相対エントロピーとし、前記補助モデル用パラメタ推定ステップにおいて、前記補助モデル用パラメタ推定が、補助モデル用パラメタ集合θ (k) を用いてL ノルム正則化項|θ (k) を求め、前記ブレグマン距離を、正則化項付き経験一般化相対エントロピー
    Figure 0005250076
    として求め、正則化項付き経験一般化相対エントロピーを最小にする前記補助モデル用パラメタ集合の集合Θを推定する、
    ことを特徴とする構造予測モデル学習方法。
  8. 請求項記載の構造予測モデル学習方法であって、
    前記構造予測モデル学習装置は、さらに、収束判定部と、パラメタ統合とを備え、
    前記収束判定部が、前記基本モデル用パラメタ集合λと前記補助モデル用パラメタ集合の集合Θの値が、収束したか否かを判定する収束判定ステップと、
    前記パラメタ統合が、収束した前記基本モデル用パラメタ集合λと前記補助モデル用パラメタ集合の集合Θを統合するパラメタ統合ステップと、をさらに備え、
    前記収束判定ステップにおいて、前記基本モデル用パラメタ集合λと前記補助モデル用パラメタ集合の集合Θの値が、収束していないと判定された場合には、前記補助モデル用パラメタ推定ステップと前記基本モデル用パラメタ推定ステップにおいて、それぞれ補助モデル用パラメタ集合の集合Θと基本モデル用パラメタ集合λを推定する処理を繰り返し、
    前記参照関数r~は、繰り返し処理における1つ前の基本モデルPである、
    ことを特徴とする構造予測モデル学習方法。
  9. 請求項記載の構造予測モデル学習方法であって、
    をハイパーパラメタ、d(x,y;λ,Θ)を入力構造xに対して出力構造yが得られる可能性を表すスコアを返す判別関数、E(y,y^)をある正解の出力yと任意の出力y^を比較した際のy^の誤りの度合いを表す関数、A\Bを集合Aから集合Bを引いた差集合、Y(x)を入力構造xから生成できる全ての出力候補の集合とし、
    前記基本モデル用パラメタ推定ステップは、基本モデル用パラメタ集合λから得られる正則化項Ω(λ)を用いて、前記経験リスク関数を正則化項付き経験リスク関数
    L(λ|Θ,D)=R(λ|Θ,D)+CΩ(λ)
    として求め、経験リスク関数として、負の対数尤度を用いる場合には、
    Figure 0005250076
    とし、線形識別モデルでのマージン最大化に基づき、L(λ|Θ,D)を最小にする前記基本モデル用パラメタ集合λを推定する場合には、
    Figure 0005250076
    とする、
    ことを特徴とする構造予測モデル学習方法。
  10. 請求項記載の構造予測モデル学習方法であって、
    入力構造xが与えられたときに出力構造yが出力される条件付確率をq (y|x;θ(k))とし、q のオッズをq’ とし、b(y)を1以上の値を返す関数とし、const(θ (k) )をθ (k) に対して定数項になるものをまとめた値とし、
    前記補助モデル用パラメタ推定ステップは、前記正則化付き経験一般化相対エントロピーを
    Figure 0005250076
    として、または、
    Figure 0005250076
    として求め、これを最小にする補助モデル用パラメタ集合の集合Θを推定する、
    ことを特徴とする構造予測モデル学習方法。
  11. 請求項記載の構造予測モデル学習方法であって、
    入力構造xが与えられたときに出力構造yに局所構造zが出力される条件付確率をq (z|x;θ(k))とし、q のオッズをq’ とし、b(z)を局所的構造zの対立候補となる局所的構造の個数とし、const(θ (k) )をθ (k) に対して定数項になるものをまとめた値とし、
    前記補助モデル用パラメタ推定ステップは、前記正則化付き経験一般化相対エントロピーを
    Figure 0005250076
    として、または、
    Figure 0005250076
    として求め、これを最小にする補助モデル用パラメタ集合の集合Θを推定する、
    ことを特徴とする構造予測モデル学習方法。
  12. 請求項記載の構造予測モデル学習方法であって、
    入力構造xが与えられたときに出力構造yに特徴nを備える局所構造zが出力される条件付確率をq (z|x,n;θ(k))とし、q のオッズをq’ とし、n=1,2,…,D とし、θ (k) =(θ (k) ,θ (k) ,…,θ (k) Dk )、g (k) x,z =(g (k) x,z,1 ,g (k) x,z,2 ,…,g (k) x,z,Dk )とし、b(z)を局所的構造zの対立候補となる局所的構造の個数とし、const(θ (k) )をθ (k) に対して定数項になるものをまとめた値とし、
    前記補助モデル用パラメタ推定ステップは、前記正則化付き経験一般化相対エントロピーを
    Figure 0005250076
    として、または、
    Figure 0005250076
    として求め、これを最小にする補助モデル用パラメタ集合の集合Θを推定する、
    ことを特徴とする構造予測モデル学習方法。
  13. 請求項1記載の構造予測モデル学習装置として、コンピュータを機能させるためのプログラム。
  14. 請求項1記載の構造予測モデル学習装置として、コンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2011094028A 2010-09-30 2011-04-20 構造予測モデル学習装置、方法、プログラム、及び記録媒体 Active JP5250076B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US12/895,014 US8566260B2 (en) 2010-09-30 2010-09-30 Structured prediction model learning apparatus, method, program, and recording medium
US12/895,014 2010-09-30

Publications (2)

Publication Number Publication Date
JP2012079286A JP2012079286A (ja) 2012-04-19
JP5250076B2 true JP5250076B2 (ja) 2013-07-31

Family

ID=45890671

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011094028A Active JP5250076B2 (ja) 2010-09-30 2011-04-20 構造予測モデル学習装置、方法、プログラム、及び記録媒体

Country Status (2)

Country Link
US (1) US8566260B2 (ja)
JP (1) JP5250076B2 (ja)

Families Citing this family (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013069568A1 (ja) * 2011-11-08 2013-05-16 インターナショナル・ビジネス・マシーンズ・コーポレーション 時系列データ分析方法、システム及びコンピュータ・プログラム
US8977620B1 (en) 2011-12-27 2015-03-10 Google Inc. Method and system for document classification
US9727824B2 (en) 2013-06-28 2017-08-08 D-Wave Systems Inc. Systems and methods for quantum processing of data
US10318881B2 (en) 2013-06-28 2019-06-11 D-Wave Systems Inc. Systems and methods for quantum processing of data
JP5766753B2 (ja) * 2013-07-25 2015-08-19 日本電信電話株式会社 システムパラメータ学習装置、情報処理装置、方法、及びプログラム
US9842592B2 (en) 2014-02-12 2017-12-12 Google Inc. Language models using non-linguistic context
US9412365B2 (en) 2014-03-24 2016-08-09 Google Inc. Enhanced maximum entropy models
CN104462489B (zh) * 2014-12-18 2018-02-23 北京邮电大学 一种基于深层模型的跨模态检索方法
JP6228151B2 (ja) * 2015-03-18 2017-11-08 ヤフー株式会社 学習装置、学習方法、及び学習プログラム
US10134394B2 (en) 2015-03-20 2018-11-20 Google Llc Speech recognition using log-linear model
US10572822B2 (en) * 2016-07-21 2020-02-25 International Business Machines Corporation Modular memoization, tracking and train-data management of feature extraction
US10832664B2 (en) 2016-08-19 2020-11-10 Google Llc Automated speech recognition using language models that selectively use domain-specific model components
US10558754B2 (en) * 2016-09-15 2020-02-11 Infosys Limited Method and system for automating training of named entity recognition in natural language processing
EP3516599A4 (en) 2016-09-26 2019-10-02 D-Wave Systems Inc. SYSTEMS, METHODS AND APPARATUS FOR SAMPLING FROM A SAMPLING SERVER
JP6633999B2 (ja) * 2016-10-31 2020-01-22 日本電信電話株式会社 符号器学習装置、変換装置、方法、及びプログラム
JP6662754B2 (ja) * 2016-11-02 2020-03-11 日本電信電話株式会社 L1グラフ計算装置、l1グラフ計算方法及びl1グラフ計算プログラム
US11531852B2 (en) 2016-11-28 2022-12-20 D-Wave Systems Inc. Machine learning systems and methods for training with noisy labels
US11205103B2 (en) 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis
JP6500044B2 (ja) * 2017-01-16 2019-04-10 ヤフー株式会社 生成装置、生成方法、及び生成プログラム
JP6930179B2 (ja) * 2017-03-30 2021-09-01 富士通株式会社 学習装置、学習方法及び学習プログラム
WO2019118644A1 (en) 2017-12-14 2019-06-20 D-Wave Systems Inc. Systems and methods for collaborative filtering with variational autoencoders
JP7272750B2 (ja) * 2018-02-16 2023-05-12 株式会社明電舎 下水処理システムの運転状態判別装置及び運転状態判別方法
US11436522B2 (en) 2018-02-19 2022-09-06 Microsoft Technology Licensing, Llc Joint representation learning of standardized entities and queries
US10956515B2 (en) 2018-02-19 2021-03-23 Microsoft Technology Licensing, Llc Smart suggestions personalization with GLMix
US10628432B2 (en) 2018-02-19 2020-04-21 Microsoft Technology Licensing, Llc Personalized deep models for smart suggestions ranking
US10726025B2 (en) * 2018-02-19 2020-07-28 Microsoft Technology Licensing, Llc Standardized entity representation learning for smart suggestions
CN110163380B (zh) * 2018-04-28 2023-07-07 腾讯科技(深圳)有限公司 数据分析方法、模型训练方法、装置、设备及存储介质
US11386346B2 (en) 2018-07-10 2022-07-12 D-Wave Systems Inc. Systems and methods for quantum bayesian networks
US11562315B2 (en) * 2018-08-31 2023-01-24 Accenture Global Solutions Limited Detecting an issue related to a report
JP2020042488A (ja) 2018-09-10 2020-03-19 富士ゼロックス株式会社 情報処理装置及びプログラム
US11461644B2 (en) 2018-11-15 2022-10-04 D-Wave Systems Inc. Systems and methods for semantic segmentation
US11526746B2 (en) 2018-11-20 2022-12-13 Bank Of America Corporation System and method for incremental learning through state-based real-time adaptations in neural networks
US11468293B2 (en) 2018-12-14 2022-10-11 D-Wave Systems Inc. Simulating and post-processing using a generative adversarial network
US11900264B2 (en) 2019-02-08 2024-02-13 D-Wave Systems Inc. Systems and methods for hybrid quantum-classical computing
US11625612B2 (en) 2019-02-12 2023-04-11 D-Wave Systems Inc. Systems and methods for domain adaptation
CN110598830B (zh) * 2019-04-03 2021-05-11 常熟理工学院 基于标签蚁群的联合多细胞跟踪方法
US10685260B1 (en) 2019-06-06 2020-06-16 Finiti Research Limited Interactive modeling application adapted for execution via distributed computer-based systems
US11321531B2 (en) * 2019-11-29 2022-05-03 Software Ag Systems and methods of updating computer modeled processes based on real time external data
WO2021124392A1 (ja) * 2019-12-16 2021-06-24 日本電信電話株式会社 材料開発支援装置、材料開発支援方法、および材料開発支援プログラム
US11693374B2 (en) 2020-05-28 2023-07-04 Johnson Controls Tyco IP Holdings LLP Building system with string mapping based on a sequence to sequence neural network
US20210373509A1 (en) * 2020-05-28 2021-12-02 Johnson Controls Technology Company Building system with string mapping based on a statistical model
WO2022252596A1 (zh) * 2021-05-31 2022-12-08 华为云计算技术有限公司 构建ai集成模型的方法、ai集成模型的推理方法及装置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8010357B2 (en) * 2004-03-02 2011-08-30 At&T Intellectual Property Ii, L.P. Combining active and semi-supervised learning for spoken language understanding
US7562060B2 (en) * 2006-03-31 2009-07-14 Yahoo! Inc. Large scale semi-supervised linear support vector machines
US7996440B2 (en) * 2006-06-05 2011-08-09 Accenture Global Services Limited Extraction of attributes and values from natural language documents
US7970767B2 (en) * 2006-06-05 2011-06-28 Accenture Global Services Limited Extraction of attributes and values from natural language documents
JP5139701B2 (ja) 2007-03-13 2013-02-06 日本電信電話株式会社 言語解析モデル学習装置、言語解析モデル学習方法、言語解析モデル学習プログラムならびにその記録媒体
US7953676B2 (en) * 2007-08-20 2011-05-31 Yahoo! Inc. Predictive discrete latent factor models for large scale dyadic data
US8234228B2 (en) * 2008-02-07 2012-07-31 Nec Laboratories America, Inc. Method for training a learning machine having a deep multi-layered network with labeled and unlabeled training data
WO2010061813A1 (ja) * 2008-11-26 2010-06-03 日本電気株式会社 能動計量学習装置、能動計量学習方法および能動計量学習プログラム
US8874432B2 (en) * 2010-04-28 2014-10-28 Nec Laboratories America, Inc. Systems and methods for semi-supervised relationship extraction

Also Published As

Publication number Publication date
US20120084235A1 (en) 2012-04-05
US8566260B2 (en) 2013-10-22
JP2012079286A (ja) 2012-04-19

Similar Documents

Publication Publication Date Title
JP5250076B2 (ja) 構造予測モデル学習装置、方法、プログラム、及び記録媒体
US11604956B2 (en) Sequence-to-sequence prediction using a neural network model
US10170104B2 (en) Electronic device, method and training method for natural language processing
CN109933780B (zh) 使用深度学习技术确定文档中的上下文阅读顺序
CN111612103B (zh) 结合抽象语义表示的图像描述生成方法、系统及介质
CN108475262A (zh) 用于文本处理的电子设备和方法
JP2005158010A (ja) 分類評価装置・方法及びプログラム
JP2019185551A (ja) アノテーション付テキストデータの拡張方法、アノテーション付テキストデータの拡張プログラム、アノテーション付テキストデータの拡張装置、及び、テキスト分類モデルの訓練方法
CN109359180B (zh) 用户画像生成方法、装置、电子设备及计算机可读介质
JP5139701B2 (ja) 言語解析モデル学習装置、言語解析モデル学習方法、言語解析モデル学習プログラムならびにその記録媒体
CN112507124B (zh) 一种基于图模型的篇章级别事件因果关系抽取方法
WO2014073206A1 (ja) 情報処理装置、及び、情報処理方法
JP2022042497A (ja) コーパスに格納された既存の械学習プロジェクトのパイプラインからの新しい機械学習プロジェクトのパイプラインの自動生成
JP2022042495A (ja) 新しい械学習プロジェクトにおける使用のために適応可能なコーパスへの既存機械学習プロジェクトの自動キュレーション
Teisseyre Feature ranking for multi-label classification using Markov networks
JP2005181928A (ja) 機械学習システム及び機械学習方法、並びにコンピュータ・プログラム
Cortes et al. A general regression framework for learning string-to-string mappings
JP2018041300A (ja) 機械学習用モデル生成装置及びプログラム。
Stewart et al. Learning flexible features for conditional random fields
Pan et al. Simulating personal food consumption patterns using a modified markov chain
JP2007241881A (ja) 意見性判定データベース作成方法及び装置及びプログラム及び意見性判定方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
CN107430600A (zh) 可扩展的web数据提取
Sachidananda et al. Global selection of contrastive batches via optimization on sample permutations
CN111476035B (zh) 中文开放关系预测方法、装置、计算机设备和存储介质
JP2019159918A (ja) クラスタリングプログラム、クラスタリング方法およびクラスタリング装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121220

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130108

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130311

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130402

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130412

R150 Certificate of patent or registration of utility model

Ref document number: 5250076

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160419

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250