JP5646523B2 - 基本木学習装置、構文解析装置、方法、及びプログラム - Google Patents

基本木学習装置、構文解析装置、方法、及びプログラム Download PDF

Info

Publication number
JP5646523B2
JP5646523B2 JP2012037953A JP2012037953A JP5646523B2 JP 5646523 B2 JP5646523 B2 JP 5646523B2 JP 2012037953 A JP2012037953 A JP 2012037953A JP 2012037953 A JP2012037953 A JP 2012037953A JP 5646523 B2 JP5646523 B2 JP 5646523B2
Authority
JP
Japan
Prior art keywords
tree
basic
learning
syntax
symbol
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012037953A
Other languages
English (en)
Other versions
JP2013174971A (ja
Inventor
裕之 進藤
裕之 進藤
昭典 藤野
昭典 藤野
永田 昌明
昌明 永田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2012037953A priority Critical patent/JP5646523B2/ja
Publication of JP2013174971A publication Critical patent/JP2013174971A/ja
Application granted granted Critical
Publication of JP5646523B2 publication Critical patent/JP5646523B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Description

本発明は、基本木学習装置、構文解析装置、方法、及びプログラムに係り、特に、統語的な情報が付与された構文木のコーパスから、構文木の各シンボルを自動的に細分化し、木置換文法に基づく基本木を自動的に学習する基本木学習装置、方法、及びプログラム、並びに、獲得された基本木を用いて構文解析を行う構文解析装置、方法、及びプログラムに関する。
構文解析とは、日本語や英語などの文に対して、動詞句、名詞句などの統語的な文法情報を付与することをいう。統語的な文法情報は一般的に木構造で表され、構文木と呼ばれる。図1に構文木の例を示す。従来より、人手により文法情報が付与された構文木のコーパスから、その構文木を構成する基本単位である基本木を確率的に獲得し、構文解析へ利用する方法が提案されている。
基本木の型は文法理論によって定義される。例えば、文脈自由文法では、深さが1の部分木のみが基本木となる。一方で、木置換文法では、任意の深さの部分木を基本木とすることができる。図2に、文脈自由文法に基づいて獲得された基本木の例を示し、図3に、木置換文法に基づいて獲得された基本木の例を示す。構文解析は、構文木コーパスから獲得された様々な種類の基本木を組み合わせて、与えられた文に対して確率的に最も尤もらしい構文木を1つ選択することで実現される。以降、基本木の根に相当するノードをルートノード、末端に位置するノードを葉ノード、それ以外のノードを中間ノードと呼ぶことにする。さらに、“the”、“pretty”などの単語を終端記号、それ以外の“NP”、“VP”などの文法的な情報を表すタグを非終端記号と表現し、終端記号が付与されたノードを終端ノード、非終端記号が付与されたノードを非終端ノードと表現する。また、各非終端ノードに付与されたタグ(非終端記号)をシンボルと表現する。
現在の高精度な構文解析方法は、大きく二種類に分類することができる。一つ目の方法は、文脈自由文法を仮定し、構文木データのシンボルを自動的に細分化することで高精度を実現するものである(例えば、非特許文献1)。この方法により、例えば、同じ“NP”とタグが付与されている名詞句でも、文の主語となる名詞句や、文の目的語となる名詞句といった文法的な働きの違いを捉えることができ、構文解析装置の高精度化が実現できる。図4に、シンボルが細分化された構文木の例を示す。ただし、実際の構文木コーパスはシンボルが細分化されていないため、これらを推定する必要があり、統計的な手法が主に用いられている。
二つ目の方法は、木置換文法や木接合文法などに代表されるような、文脈自由文法を拡張した文法を用いる方法である(例えば、非特許文献2)。例えば木置換文法では、任意の深さの基本木を利用することができるため、構文木コーパスに頻出する任意の部分木パターンを構文解析へ利用できるため、構文解析の高精度化が実現できる。
Slav Petrov, Leon Barrett, Romain Thibaux, and Dan Klein (2006), Learning accurate, compact, and interpretable tree annotation, In Proceedings of ACL, pages 433-440. Trevor Cohn, Sharon Goldwater, and Phil Blunsom (2009), Inducing compact but accurate treesubstitution grammars, In Proceedings of HLT-NAACL, pages 548-556.
上記の非特許文献1に示されている、文脈自由文法に基づき構文木データのシンボルを細分化する方法を用いた構文解析技術は、高精度であるが、得られる基本木が必ず深さ1であるため断片的で、構文木コーパスに頻出する任意の深さの部分木パターンを表現できない、という問題がある。したがって、構文解析装置によって推定された構文木を機械翻訳などのアプリケーションへ応用する際には、これらの深さ1の基本木を組み合わせて、構文木コーパスに頻出する任意の深さの部分木パターンを別途推定する必要があるため、計算コストがかかる。
また、上記の非特許文献2に示されている、木置換文法に基づく構文解析方法は、構文木コーパスに出現する任意の深さの部分木パターンを獲得でき、獲得された基本木を人が解釈しやすいという利点があるが、前述のシンボル細分化による構文解析方法と比較して、精度が低い、という問題がある。したがって、構文解析装置の出力を機械翻訳などのアプリケーションへ応用する際には、構文解析結果の誤りによって機械翻訳の精度も低下してしまう、という問題がある。
本発明は、上記問題点を解決するために成されたものであり、構文解析の精度を向上させることができる、任意の深さの基本木の集合を学習することができる基本木学習装置、構文解析装置、方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、本発明の基本木学習装置は、文法情報を示すシンボルが各非終端ノードに付与された複数の構文木からなる構文木コーパスを記憶した訓練データ記憶手段と、細分化されたシンボルが付与された基本木の情報と、前記細分化されたシンボルが付与された基本木の基底分布と、所定のパラメータとを用いて表わされる基本木の確率モデルに従って、前記構文木コーパスの各構文木を構成する、深さが所定値となる基本木の集合から、前記構文木に付与される細分化されたシンボルを学習すると共に、前記確率モデルの前記所定のパラメータを学習するシンボル細分化学習手段と、前記シンボル細分化学習手段によって学習された、前記細分化されたシンボルが付与された前記構文木コーパスを用いて、前記基本木の確率モデルに従って、前記細分化されたシンボルが付与された前記構文木コーパスを構成する基本木であって、細分化されたシンボルが付与され、かつ、任意の深さとなる基本木の集合を学習すると共に、前記所定のパラメータを学習する木置換文法学習手段と、を含んで構成されている。
本発明に係る基本木学習方法は、訓練データ記憶手段と、シンボル細分化学習手段と、木置換文法学習手段とを含む基本木学習装置における基本木学習方法であって、前記訓練データ記憶手段には、文法情報を示すシンボルが各非終端ノードに付与された複数の構文木からなる構文木コーパスが記憶され、前記シンボル細分化学習手段は、細分化されたシンボルが付与された基本木の情報と、前記細分化されたシンボルが付与された基本木の基底分布と、所定のパラメータとを用いて表わされる基本木の確率モデルに従って、前記構文木コーパスの各構文木を構成する、深さが所定値となる基本木の集合から、前記構文木に付与される細分化されたシンボルを学習すると共に、前記確率モデルの前記所定のパラメータを学習し、前記木置換文法学習手段は、前記シンボル細分化学習手段によって学習された、前記細分化されたシンボルが付与された前記構文木コーパスを用いて、前記基本木の確率モデルに従って、前記細分化されたシンボルが付与された前記構文木コーパスを構成する基本木であって、細分化されたシンボルが付与され、かつ、任意の深さとなる基本木の集合を学習すると共に、前記所定のパラメータを学習する。
本発明に係る基本木学習装置及び基本木学習方法によれば、シンボル細分化学習手段によって、細分化されたシンボルが付与された基本木の情報と、前記細分化されたシンボルが付与された基本木の基底分布と、所定のパラメータとを用いて表わされる基本木の確率モデルに従って、前記構文木コーパスの各構文木を構成する、深さが所定値となる基本木の集合から、前記構文木に付与される細分化されたシンボルを学習すると共に、前記確率モデルの前記所定のパラメータを学習する。そして、木置換文法学習手段によって、前記シンボル細分化学習手段によって学習された、前記細分化されたシンボルが付与された前記構文木コーパスを用いて、前記基本木の確率モデルに従って、前記細分化されたシンボルが付与された前記構文木コーパスを構成する基本木であって、細分化されたシンボルが付与され、かつ、任意の深さとなる基本木の集合を学習すると共に、前記所定のパラメータを学習する。
このように、過去に生成された、シンボルが細分化された基本木の情報と、シンボルが細分化された基本木の基底分布と、所定のパラメータとを用いて表わされる基本木の確率モデルに従って、構文木コーパスの各構文木に付与される細分化されたシンボルを学習すると共に、シンボルが細分化された構文木コーパスを構成する、任意の深さとなる基本木の集合を学習することにより、構文解析の精度を向上させることができる、任意の深さの基本木の集合を学習することができる。
本発明に係る構文解析装置は、上記の基本木学習装置によって学習された前記任意の深さとなる基本木の集合及び前記確率モデルの前記所定のパラメータを記憶する記憶手段と、前記記憶手段に記憶された前記任意の深さとなる基本木の集合、及び前記所定のパラメータを設定した前記確率モデルに基づいて、解析対象の構文の構文木構造を解析する解析手段と、を含んで構成されている。
本発明に係る構文解析方法は、記憶手段、及び解析手段を含む構文解析装置における構文解析方法であって、前記記憶手段には、上記の基本木学習方法によって学習された前記任意の深さとなる基本木の集合及び前記確率モデルの前記所定のパラメータが記憶され、前記解析手段は、前記記憶手段に記憶された前記任意の深さとなる基本木の集合、及び前記所定のパラメータを設定した前記確率モデルに基づいて、解析対象の構文の構文木構造を解析する。
本発明に係る構文解析装置及び構文解析方法によれば、解析手段によって、前記記憶手段に記憶された前記任意の深さとなる基本木の集合、及び前記所定のパラメータを設定した前記確率モデルに基づいて、解析対象の構文の構文木構造を解析する。
このように、上記の基本木学習装置又は基本木学習方法によって学習された、任意の深さの基本木の集合及び確率モデルのパラメータを用いて構文木構造を解析することにより、構文解析の精度を向上させることができる。
また、本発明のプログラムは、コンピュータを、上記の基本木学習装置又は構文解析装置を構成する各手段として機能させるためのプログラムである。
以上説明したように、本発明の基本木学習装置、方法、及びプログラムによれば、過去に生成された、シンボルが細分化された基本木の情報と、シンボルが細分化された基本木の基底分布と、所定のパラメータとを用いて表わされる基本木の確率モデルに従って、構文木コーパスの各構文木に付与される細分化されたシンボルを学習すると共に、シンボルが細分化された構文木コーパスを構成する、任意の深さとなる基本木の集合を学習することにより、構文解析の精度を向上させることができる、任意の深さの基本木の集合を学習することができる、という効果が得られる。
また、本発明の構文解析装置、方法、及びプログラムによれば、上記の基本木学習装置又は基本木学習方法によって学習された、任意の深さの基本木の集合及び確率モデルのパラメータを用いて構文木構造を解析することにより、構文解析の精度を向上させることができる、という効果が得られる。
構文木の一例を示す図である。 文脈自由文法の基本木の一例を示す図である。 木置換文法の基本木の一例を示す図である。 シンボルが細分化された構文木の一例を示す図である。 本発明の実施の形態の構文解析装置の機能構成を示すブロック図である。 本発明の実施の形態の構文解析装置のシンボル細分化学習部の機能構成を示すブロック図である。 本発明の実施の形態の構文解析装置の木置換文法学習部の機能構成を示すブロック図である。 本発明の実施の形態の構文解析装置における構文解析処理ルーチンの内容を示すフローチャートである。 本発明の実施の形態の構文解析装置におけるシンボル細分化学習過程を示すフローチャートである。 本発明の実施の形態の構文解析装置における木置換文法学習過程を示すフローチャートである。 効果確認結果を示す表である。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
<本実施の形態の確率モデル>
本実施の形態では、基本木の確率モデルを、非特許文献3(Y.W. Teh (2006) A Bayesian Interpretation of Interpolated Kneser-Ney. Technical Report TRA2/06, School of Computing, NUS.)に開示されているPitman-Yor 過程を用いて、以下の(1)式に示すようにモデル化する。
ただし、e−i=e1,...,ei−1は、1回目からi−1回目までに生成された基本木の系列である。つまり、Pitman-Yor過程の確率モデルにおいて、基本木eiが生成される確率は、モデルが過去に生成した基本木の情報(現時点で得られている基本木の集合)に依存する。Xkは基本木eiのルートノードに付与される細分化されたシンボルを表し、kは、細分化されたシンボルのインデックス(0,1,...)を表す。例えば、XkはNP0、VP2などである。また、αei,X、βXは、以下のように表される。
ei,XK -i は、e-iのうちeiと同じ基本木(細分化されたシンボルも同じ)が何回生成されたかを表す。また、この確率モデルは、内部で各基本木が何回生成されたかという情報を、いくつかのクラスタに分けて保存している。例えば、ある基本木がこれまでに10回生成されたとすると、この確率モデルの内部では、(3回,7回)という二つのクラスタになって保持されている場合もあれば、(2回,3回,5回)のように三つのクラスタになっている場合もある。このとき、tei,Xkは、基本木eiがモデル内部でいくつのクラスタに分割されているかを表す。また、

である。
P0(ei|Xk)は基底分布と呼ばれ、基本木eiの基底となる確率を定義するものである。本実施の形態では、一様分布で定義する。すなわち、P0(ei|Xk)は以下の(2)式で表される。
ただし、|e|は、基本木の集合における、ルートノードがXkとなる基本木の種類数を表す。
本実施の形態のシンボル細分化学習部31と木置換文法学習部32では、基本木の事後確率p (e|{t},Φ)を最大にする基本木e及びパラメータセットΦ={dXkXk}を学習する。基本木の事後確率p (e|{t},Φ)は、ベイズの定理を用いて以下のように表される。
ここで、p({t}|e,Φ)は基本木の集合eを組み合わせて生成される構文木の集合と構文木データ{t}とが一致したときに1、一致しなければ0となる。また、p(e)は、上記(1)式に示す確率の積で表される。上記(1)式の確率モデルは、従来のシンボル細分化による構文解析法と、木置換文法による構文解析法を一つに統合したものとなっている。
<構文解析装置の構成>
次に、構文木コーパスを訓練データとして、基本木の集合を学習し、構文解析を行う構文解析装置に本発明を適用した場合を例にして、本実施の形態を説明する。
本実施の形態の構文解析装置100は、CPUと、RAMと、後述する構文解析処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することができる。この構文解析装置100は、機能的には、図5に示すように、入力部10と、訓練データ記憶部20と、演算部30と、出力部40とを備えている。
入力部10は、キーボードなどの入力装置から、構文解析の対象となる文Sを受け付ける。なお、入力部10は、ネットワーク等を介して外部から入力されたものを受け付けるようにしてもよい。
訓練データ記憶部20には、構文木コーパス{t}のデータが予め記憶されている。構文木コーパスとは、各非終端ノードにNPやVPなどの文法的な役割を示すシンボルが付与された木構造(構文木)で構成されるコーパスである。なお、訓練データ記憶部20に記憶されている構文木コーパス{t}の各構文木の各非終端ノードには、細分化されていないシンボルが付与されている。なお、外部装置に記憶された構文木コーパス{t}を、ネットワーク等を介して読み込むようにしてもよい。
演算部30は、シンボル細分化学習部31、木置換文法学習部32、メモリ33、及び構文解析部34を備えている。
シンボル細分化学習部31は、構文木コーパスが与えられた下で、構文木の各シンボルを細分化する。木置換文法学習部32は、シンボルが細分化された構文木コーパスが与えられた下で、基本木の集合を学習する。したがって、シンボル細分化学習部31と木置換文法学習部32によって、構文木コーパスから、シンボルが細分化された基本木の集合を学習することができる。学習された基本木の集合および確率モデルのパラメータセットはメモリ33へ格納される。構文解析部34は、メモリ33に格納された基本木の集合と確率モデルのパラメータセットを用いて、構文木が未知の構文解析対象文Sから構文木を推定する。このように、本発明では、従来のシンボル細分化による構文解析法と、木置換文法に基づく基本木を用いた構文解析法を組み合わせたものであり、双方の欠点を克服することができる。
<シンボル細分化学習部の構成>
シンボル細分化学習部31は、構文木コーパス{t}が観測された下での基本木の集合eの事後確率を示すために用いられる確率モデルp(e|{t},Φ)のパラメータセットΦを指定回数だけ逐次更新することで、各基本木の最適なシンボル細分化を行い、そのときの基本木の集合^e及びパラメータセット^Φを求めるものである。以下、基本木の集合及びパラメータセットの初期値をe(0)及びΦ(0)とし、u回目の更新後の基本木の集合及びパラメータセットをe(u)及びΦ(u)と表記する。シンボル細分化学習部31では、基本木の深さや大きさは更新せずに、各基本木の最適なシンボル細分化情報を学習する。
シンボル細分化学習部31は、図6に示すように、初期基本木集合及び初期パラメータセットを設定する初期パラメータ設定部50と、現在のパラメータ値に基づいて各基本木の新たなシンボルを更新するシンボルサンプリング部51と、確率モデルのパラメータセットを更新するパラメータ更新部52と、学習処理を終了するか否かを判定する収束判定部53と、を含んだ構成で表すことができる。初期パラメータ設定部50は、基本木の集合の各非終端ノードに、細分化されたシンボルの初期値を設定すると共に、確率モデルの初期パラメータセットを設定する。任意の基本木、シンボルおよびパラメータセットを設定することができるが、ここでは、構文木コーパスの各構文木を分解して得られる、文脈自由文法に基づく深さが1となる基本木の集合を初期集合として設定し、シンボルの細分化インデックスは全て0に設定し、初期パラメータは乱数によってランダムに決定することとする。
シンボルサンプリング部51では、繰り返し回数u回目の基本木集合とパラメータセットから、マルコフ連鎖モンテカルロ(MCMC)法を用いて新たな基本木集合e(u+1)を生成する。MCMC法では、構文木コーパスの各構文木に付与された各シンボルをランダムに巡回し、上記(1)式の確率モデルで算出される確率にしたがって更新し、更新されたシンボルが付与された基本木eiを新たに生成する。すなわち、構文木コーパスの各構文木に付与された各シンボル毎に、考え得る細分化されたシンボルの各々に関して、上記(1)式の確率を計算し、その確率にしたがって新たに一つのシンボルを生成して(サンプリングして)、基本木の集合eを更新する。ただし、シンボル細分化学習部31では、基本木の深さは固定したまま、シンボルのみを更新する。MCMC法による基本木の生成は、非特許文献4(Mark Johnson, Thomas L. Griffiths and Sharon Goldwater (2007) Bayesian Inference for PCFGs via Markov Chain Monte Carlo, The Conference of the NAACL; Proceedings of the Main Conference, pages139-146.)に詳細が開示されている。
シンボルを細分化する際に、そのシンボルがいくつのサブシンボルに細分化されるのかは一般的に未知であるため、本実施の形態では、非特許文献1に開示されているように二分割と結合を繰り返していくことによりシンボル細分化の学習を行う。まず、シンボルXをX0かX1の二つに細分化し、更新回数があらかじめ設定した値(実験では1000回)に達したら、それぞれのシンボルXについて、分割後のモデルの確率と分割前のモデルの確率の差分を、上記(1)式を用いて計算する。次に、確率の差分が大きかった上位50%の種類のシンボルを、全て分割前の状態に戻す。そして、今度は再びX0が付与される非終端ノードについてX0かX2に、一方でX1が付与される非終端ノードについてX1かX3に、というようにさらに二分割を繰り返し、一定回数に達したら上位50%の種類のシンボルを元に戻す。このように分割と結合を繰り返すことにより、細かく細分化したほうが良いシンボルはますます細分化され、逆に細分化しなくて十分であるシンボルは結合されて元の状態のままに留まる。分割と結合のプロセスは、所定の回数(実験では6回)に達したときに終了する。したがって、シンボル細分化の学習では、合計1000×6=6000回の基本木およびパラメータの更新が行われ、各シンボルは最大で26=64通りに分割される。
パラメータ更新部52は、以下に説明するように、確率モデルのパラメータセットΦを更新する。
パラメータセットΦ={dXk,θXk}の更新は、上記の非特許文献3に開示されている、補助変数によるサンプリング法を用いて、以下の(3)式、(4)式に従って行う。
ただし、Beta、Gammaはそれぞれベータ分布とガンマ分布を表す。また、4つの変数(a,b,α,β)はあらかじめ設定する値で、実験では全て1.0と設定した。残りの3種類の変数(x,yi,zj)は、以下の(5)式〜(7)式に示すようにランダムに生成する。
ただし、Bernoulliはベルヌーイ分布を表す。
収束判定部53は、収束条件(例えば、繰り返し回数)を満たしたか否かを判定し、収束条件を満たすまで、シンボルサンプリング部51及びパラメータ更新部52の処理を繰り返す。
シンボル細分化学習部31は、最終的に生成された、構文木コーパスを構成する、細分化されたシンボルが付与された基本木の集合と、確率モデルのパラメータセットとを、木置換文法学習部32に出力する。
<木置換文法学習部の構成>
次に、シンボル細分化学習部31によってシンボルが細分化された構文木コーパスを訓練データとして、木置換文法に基づく基本木を獲得する木置換文法学習部32について説明する。木置換文法学習部32は、シンボルが細分化された構文木コーパス(以降、{t′}と表記する)が観測された下での基本木の集合eの事後確率を示す確率モデルp(e|{t′},Φ)のパラメータセットΦを指定回数だけ逐次更新することで、最適な基本木の集合^e及び最適なパラメータセット^Φを求めるものである。以下、基本木の集合及びパラメータセットの初期値をe(0)及びΦ(0)とし、u回目の更新後の基本木の集合及びパラメータセットをe(u)及びΦ(u)と表記する。木置換文法学習部32では、シンボル細分化学習部31とは対照的に、各基本木のシンボルは更新せずに、基本木の深さや大きさを学習する。
木置換文法の学習では、各構文木のルートノードと末端ノード(終端ノード)を除く全てのノード(すなわち、内部ノード)に0か1の二値変数を割り当て、その変数値を決定することを目的とする。変数の値が1であれば、そのノードが基本木と基本木の境界であることを表し、0であればそのノードは基本木の内部ノードであると定義する。末端ノードを除く全てのノードにおいて二値変数の値を決定したとき、構文木をひと通りの基本木の組み合わせに分解することができるので、二値変数の値を学習は、木置換文法の学習と等価である。例えば、上記図2の木置換文法では、上記図1の構文木二つの“N”ノードの変数を1に設定し、それ以外のノードの変数値を0に設定したことに相当する。
図7に示すように、木置換文法学習部32は、初期基本木集合及び初期パラメータセットを設定する初期パラメータ設定部60と、現在のパラメータ値に基づいて新たな基本木集合を更新する基本木サンプリング部61と、確率モデルのパラメータセットを更新するパラメータ更新部62と、学習処理を終了するか否かを判定する収束判定部63と、を含んだ構成で表すことができる。
初期パラメータ設定部60は、細分化されたシンボルが付与された基本木の初期集合を設定すると共に、確率モデルの初期パラメータセットを設定する。任意の基本木及びパラメータセットを設定することができるが、ここでは、構文木コーパスの各構文木を分解して得られる、上記図2に示すような文脈自由文法に基づく深さが1となる基本木の集合を初期集合として設定する。すわなち、各ノードの二値変数を全て1に初期設定する。また、シンボルの細分化インデックスは、シンボル細分化学習部31によって学習された値に設定する。また、初期パラメータは乱数によってランダムに決定することとする。なお、初期パラメータセットとして、シンボル細分化学習部31によって学習されたパラメータセットを設定してもよい。
基本木サンプリング部61では、繰り返し回数u回目の基本木集合とパラメータセットから、マルコフ連鎖モンテカルロ(MCMC)法を用いて、各ノードの二値変数の値を更新し、新たな基本木集合e(u+1)を生成する。MCMC法では、構文木コーパスの各基本木の全てのノードをランダムに巡回し、上記(1)式の確率にしたがって、二値変数の値が0のときと1のときの確率を計算し、それらの確率に従って次の状態の変数値を決定し、確率モデルを更新する。MCMC法による基本木の生成は、上記非特許文献4に詳細が開示されている。
パラメータ更新部62は、パラメータ更新部52と同様に、上記(3)式〜(7)式を用いて、確率モデルのパラメータセットΦを更新する。
収束判定部63は、収束条件(例えば、繰り返し回数)を満たしたか否かを判定し、収束条件を満たすまで、基本木サンプリング部61及びパラメータ更新部62の処理を繰り返す。
メモリ33には、木置換文法学習部32により最終的に得られた基本木の集合^e及び確率モデルのパラメータセット^Φが記憶される。
<構文解析部の構成>
次に、与えられた構文木が未知の文に対して、構文木を推定する構文解析部34について説明する。
構文解析部34は、メモリ33に保存されている、シンボル細分化学習部31及び木置換文法学習部32によって学習された、シンボルが細分化された基本木の集合及び確率モデルのパラメータセットと、入力された構文木が未知の文Sとに基づいて、構文解析結果を出力する。構文解析部34は、非特許文献6(Bodenstab, N. and Dunlop, A. and Hall, K. and Roark, B. (2011), Beam-width prediction for efficient context-free parsing, In Proceedings of ACL, http://code.google.com/p/bubs-parser/)に開示されているCYK法によって構文解析を行う。具体的には、パラメータセット^Φを確率モデルに設定し、基本木の集合^eに含まれる基本木を組み合わせて、入力された文と一致する構文木を生成し、構文木を生成した基本木の組み合わせ毎に、確率モデルを用いて事後確率を算出し、事後確率が最大となるときの基本木の組み合わせにより構成された構文木を、構文解析結果として出力部40により出力する。このとき、CYK法では、あらゆる基本木の組み合わせとその確率を動的計画法を用いて効率的に計算する。
<構文解析装置の作用>
次に、本実施の形態に係る構文解析装置100の作用について説明する。構文解析装置100のROMに記憶された基本木獲得プログラムを、CPUが実行することにより、図8に示す構文解析処理ルーチンが実行される。
まず、ステップS1において、シンボル細分化学習部31によって、構文木コーパスが与えられた下で、各構文木の各シンボルを細分化する。ステップS2において、木置換文法学習部32によって、シンボルが細分化された構文木コーパスが与えられた下で、シンボルが細分化された、任意の深さの基本木の集合を学習すると共に、確率モデルのパラメータセットを学習する。学習された基本木の集合および確率モデルのパラメータセットはメモリ33へ格納される。
そして、ステップS3において、構文解析部34によって、メモリ33に格納された基本木の集合と確率モデルのパラメータセットを用いて、入力された構文木が未知の構文解析対象文Sから構文木を推定して、構文解析結果を出力部40により出力する。
上記ステップS1は、図9に示す処理ルーチンによって実現される。
まず、ステップS11で、予め訓練データ記憶部20に記憶された構文木コーパス{t}のデータを読み込み、繰り返し回数u=0、初期基本木集合e(0)とそれらの初期シンボル、及び初期パラメータセットΦ(0)を設定する。
次に、ステップS12で、基本木集合e(u)に含まれる各基本木の各非終端ノードに対して付与するシンボルの細分化情報を、シンボルサンプリング部51により生成して更新し、シンボル情報が更新された新たな基本木集合e(u+1)を生成する。次に、ステップS13で、確率モデルのパラメータセットΦ(u+1)を更新する。
そして、ステップS14において、現在の繰り返し回数uが事前に設定された値u'と一致するか否かを判定することにより、学習過程を終了するか否かを判定する。u<u'の場合には、ステップS15で、繰り返し回数uを1インクリメントして、ステップS12へ戻り、更新されたパラメータセットΦ(u)及び基本木集合e(u)を用いて処理を繰り返す。一方、u=u′の場合には、更新されたパラメータセットΦ(u)及を最適なパラメータセット^Φとし、現在の基本木の集合e(u)を最適な基本木の集合^eとして獲得し、結果(^e, ^Φ)を出力して、処理を終了する。
上記ステップS2は、図10に示す処理ルーチンによって実現される。
まず、ステップS21において、シンボル細分化学習部31によってシンボルが細分化された基本木集合から得られる構文木コーパス{t′}のデータを読み込み、初期パラメータ設定部60によって、繰り返し回数u=0、初期基本木集合e(0)、及び初期パラメータセットΦ(0)を設定する。
次に、ステップS22で、新たな基本木集合e(u+1)を基本木サンプリング部61により生成して更新する。ステップS23で、確率モデルのパラメータセットΦ(u+1)を更新する。
そして、ステップS24で、現在の繰り返し回数u が事前に設定された値u′と一致するか否かを判定することにより、学習過程を終了するか否かを判定する。u<u′の場合には、ステップS25へ移行して、繰り返し回数uを1インクリメントして、ステップS22へ戻り、更新されたパラメータセットΦ(u)及び基本木集合e(u)を用いて処理を繰り返す。一方、u=u′の場合には、更新されたパラメータセットΦ(u)及を最適なパラメータセット^Φとし、現在の基本木の集合e(u)を最適な基本木の集合^eとし、結果(^e,^Φ)をメモリ33に格納して、処理を終了する。
上記ステップS3では、入力された構文解析対象文Sを読み込むと共に、メモリ33から基本木の集合^e及びパラメータセット^Φを読み出す。そして、基本木の集合^eを組み合わせて、構文解析対象文Sと一致する構造木を生成すると共に、当該構造木を構成する基本木の組み合わせについて、事後確率を算出する。事後確率が最大となるときの基本木の組み合わせで構成される構文木を、構文解析結果として出力部40により出力する。
<効果確認実験>
本発明の効果を検証するため、構文解析の実験で広く使われている英語のペンツリーバンクデータ(http://www.cis.upenn.edu/~treebank/)を構文木コーパスとして使用して構文解析実験を行い、精度の評価を行った。ただし、シンボル細分化学習部31と木置換文法学習部32における繰り返し回数はともに300と設定した。
構文木コーパスは、非特許文献1に示されている実験設定と同様に、セクション2から21までを学習用データとして用いた。評価用データは、セクション23の構文木情報を取り除いた文を用いた。構文解析の結果は、EVALB(http://nlp.cs.nyu.edu/evalb/)を用いてブラケティングF値を計算し、評価指標として用いた。この結果を図11に示す。本実施の形態の構文解析装置により行った構文解析のF値(シンボル細分化+木置換文法)は、文脈自由文法のF値を大きく上回った。また、非特許文献1に開示されているシンボル細分化のみを行う構文解析法や、非特許文献2に開示されているようなシンボル細分化を行わずに木置換文法のみによる構文解析法と比較しても精度が高かった。したがって、シンボル細分化と木置換文法を組み合わせた本実施の形態が、高い精度で構文解析を実行できることを確認した。
以上説明したように、本実施の形態の構文解析装置によれば、直前までに生成された、シンボルが細分化された基本木集合の情報と、シンボルが細分化された基本木の基底分布と、所定のパラメータセットとを用いて表わされる基本木の確率モデルに従って、シンボル細分化により、構文木コーパスの各構文木に付与される細分化されたシンボルを学習すると共に、木置換文法により、シンボルが細分化された構文木コーパスを構成する、任意の深さとなる基本木の集合を学習することにより、構文解析の精度を向上させることができる、任意の深さの基本木の集合を学習することができる。また、上記のように学習された、任意の深さの基本木の集合及び確率モデルのパラメータを用いて構文木構造を解析することにより、構文解析の精度を向上させることができる。
また、本実施の形態の構文解析装置は、非特許文献1や2に開示されている従来の構文解析技術よりも高精度である。また、非特許文献5(Bansal, M. and Klein, D. (2010), Simple, accurate parsing with an all-fragments grammar, In Proceedings of ACL, pages 1098-1107)では、木置換文法とシンボル細分化を組み合わせた方法を提案しているが、木置換文法の獲得とシンボル細分化を独立して行っているため、従来技術(例えば非特許文献1)よりも構文解析の精度が低い。すなわち、木置換文法とシンボル細分化を単に別々に組み合わせただけでは高精度化は達成できない可能性がある。一方、本実施の形態では、一つの統合された確率モデルを利用するため、シンボル細分化と木置換文法による学習が相補的に同じ確率モデルの学習に作用する。これにより、シンボル細分化による高い構文解析精度を実現しつつ、木置換文法による任意の深さの基本木(部分木パターン)を獲得できるため、構文解析の高精度化が達成できる。
なお、上記の実施の形態では、シンボル細分化学習部及び木置換文法学習部を備えた構文解析装置について説明したが、シンボル細分化学習部及び木置換文法学習部を備えた基本木学習装置と、シンボル細分化学習部及び木置換文法学習部を備えない構文解析装置とを別々に構成してもよい。この場合、シンボル細分化学習部及び木置換文法学習部で学習された基本木集合及びパラメータセットを、ネットワーク等を介して、構文解析装置のメモリに記憶するようにするとよい。また、シンボル細分化学習部及び木置換文法学習部を備えた基本木学習装置にメモリを設けて、学習した基本木集合及びパラメータセットを記憶しておき、構文解析装置から、ネットワーク等を介して、基本木学習装置のメモリに記憶された基本木集合及びパラメータセットを読み出すようにしてもよい。
また、シンボル細分化学習部では、深さが1となる基本木の集合について、シンボルを細分化するように学習する場合を例に説明したが、これに限定されるものではない。深さが固定された基本木の集合について、シンボルを細分化するように学習すればよい。
また、上述の構文解析装置は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。
20 訓練データ記憶部
30 演算部
31 シンボル細分化学習部
32 木置換文法学習部
33 メモリ
34 構文解析部
50、60 初期パラメータ設定部
51 シンボルサンプリング部
52、62 パラメータ更新部
53、63 収束判定部
61 基本木サンプリング部
100 構文解析装置

Claims (7)

  1. 文法情報を示すシンボルが各非終端ノードに付与された複数の構文木からなる構文木コーパスを記憶した訓練データ記憶手段と、
    細分化されたシンボルが付与された基本木の情報と、前記細分化されたシンボルが付与された基本木の基底分布と、所定のパラメータとを用いて表わされる基本木の確率モデルに従って、前記構文木コーパスの各構文木を構成する、深さが所定値となる基本木の集合から、前記構文木に付与される細分化されたシンボルを学習すると共に、前記確率モデルの前記所定のパラメータを学習するシンボル細分化学習手段と、
    前記シンボル細分化学習手段によって学習された、前記細分化されたシンボルが付与された前記構文木コーパスを用いて、前記基本木の確率モデルに従って、前記細分化されたシンボルが付与された前記構文木コーパスを構成する基本木であって、細分化されたシンボルが付与され、かつ、任意の深さとなる基本木の集合を学習すると共に、前記所定のパラメータを学習する木置換文法学習手段と、
    を含む基本木学習装置。
  2. 前記シンボル細分化学習手段は、前記構文木コーパスの各構文木を構成する前記深さが所定値となる基本木の集合、前記深さが所定値となる基本木の集合の各非終端ノードに付与される前記細分化されたシンボル、及び前記確率モデルの前記所定のパラメータを初期化する初期パラメータ設定手段と、
    前記確率モデルに従って、前記深さが所定値となる基本木の集合の各基本木に付与された前記細分化されたシンボルを更新するシンボルサンプリング手段と、
    前記所定のパラメータを更新するパラメータ更新手段と、
    収束条件を満たすまで、前記シンボルサンプリング手段による更新、及び前記パラメータ更新手段による更新を繰り返す収束判定手段を含み、
    前記木置換文法学習手段は、前記構文木コーパスの各構文木を構成する、前記細分化されたシンボルが付与され、かつ、任意の深さとなる基本木の集合、及び前記確率モデルの前記所定のパラメータを初期化する初期パラメータ設定手段と、
    前記確率モデルに従って、前記細分化されたシンボルが付与され、かつ、任意の深さとなる基本木の集合を更新する基本木サンプリング手段と、
    前記所定のパラメータを更新するパラメータ更新手段と、
    収束条件を満たすまで、前記基本木サンプリング手段による更新、及び前記パラメータ更新手段による更新を繰り返す収束判定手段を含む請求項1記載の基本木学習装置。
  3. 請求項1又は2記載の基本木学習装置によって学習された前記任意の深さとなる基本木の集合及び前記確率モデルの前記所定のパラメータを記憶する記憶手段と、
    前記記憶手段に記憶された前記任意の深さとなる基本木の集合、及び前記所定のパラメータを設定した前記確率モデルに基づいて、解析対象の構文の構文木構造を解析する解析手段と、
    を含む構文解析装置。
  4. 訓練データ記憶手段と、シンボル細分化学習手段と、木置換文法学習手段とを含む基本木学習装置における基本木学習方法であって、
    前記訓練データ記憶手段には、文法情報を示すシンボルが各非終端ノードに付与された複数の構文木からなる構文木コーパスが記憶され、
    前記シンボル細分化学習手段は、細分化されたシンボルが付与された基本木の情報と、前記細分化されたシンボルが付与された基本木の基底分布と、所定のパラメータとを用いて表わされる基本木の確率モデルに従って、前記構文木コーパスの各構文木を構成する、深さが所定値となる基本木の集合から、前記構文木に付与される細分化されたシンボルを学習すると共に、前記確率モデルの前記所定のパラメータを学習し、
    前記木置換文法学習手段は、前記シンボル細分化学習手段によって学習された、前記細分化されたシンボルが付与された前記構文木コーパスを用いて、前記基本木の確率モデルに従って、前記細分化されたシンボルが付与された前記構文木コーパスを構成する基本木であって、細分化されたシンボルが付与され、かつ、任意の深さとなる基本木の集合を学習すると共に、前記所定のパラメータを学習する
    基本木学習方法。
  5. 前記シンボル細分化学習手段によって学習することは、
    初期パラメータ設定手段によって、前記構文木コーパスの各構文木を構成する前記深さが所定値となる基本木の集合、前記深さが所定値となる基本木の集合の各非終端ノードに付与される前記細分化されたシンボル、及び前記確率モデルの前記所定のパラメータを初期化し、
    シンボルサンプリング手段によって、前記確率モデルに従って、前記深さが所定値となる基本木の集合の各基本木に付与された前記細分化されたシンボルを更新し
    パラメータ更新手段によって、前記所定のパラメータを更新し、
    収束判定手段によって、収束条件を満たすまで、前記シンボルサンプリング手段による更新、及び前記パラメータ更新手段による更新を繰り返すことを含み、
    前記木置換文法学習手段によって学習することは、
    初期パラメータ設定手段によって、前記構文木コーパスの各構文木を構成する、前記細分化されたシンボルが付与され、かつ、任意の深さとなる基本木の集合、及び前記確率モデルの前記所定のパラメータを初期化し、
    基本木サンプリング手段によって、前記確率モデルに従って、前記細分化されたシンボルが付与され、かつ、任意の深さとなる基本木の集合を更新し、
    パラメータ更新手段によって、前記所定のパラメータを更新し、
    収束判定手段によって、収束条件を満たすまで、前記基本木サンプリング手段による更新、及び前記パラメータ更新手段による更新を繰り返すことを含む請求項4記載の基本木学習方法。
  6. 記憶手段、及び解析手段を含む構文解析装置における構文解析方法であって、
    前記記憶手段には、請求項4又は5記載の基本木学習方法によって学習された前記任意の深さとなる基本木の集合及び前記確率モデルの前記所定のパラメータが記憶され、
    前記解析手段は、前記記憶手段に記憶された前記任意の深さとなる基本木の集合、及び前記所定のパラメータを設定した前記確率モデルに基づいて、解析対象の構文の構文木構造を解析する
    構文解析方法。
  7. コンピュータを、請求項1又は2記載の基本木学習装置又は請求項3記載の構文解析装置を構成する各手段として機能させるためのプログラム。
JP2012037953A 2012-02-23 2012-02-23 基本木学習装置、構文解析装置、方法、及びプログラム Active JP5646523B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012037953A JP5646523B2 (ja) 2012-02-23 2012-02-23 基本木学習装置、構文解析装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012037953A JP5646523B2 (ja) 2012-02-23 2012-02-23 基本木学習装置、構文解析装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2013174971A JP2013174971A (ja) 2013-09-05
JP5646523B2 true JP5646523B2 (ja) 2014-12-24

Family

ID=49267833

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012037953A Active JP5646523B2 (ja) 2012-02-23 2012-02-23 基本木学習装置、構文解析装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP5646523B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6042264B2 (ja) * 2013-05-15 2016-12-14 日本電信電話株式会社 文法規則学習装置、方法、及びプログラム
CN112541344A (zh) * 2019-09-23 2021-03-23 北京国双科技有限公司 目标段落的确定方法、装置、存储介质及设备

Also Published As

Publication number Publication date
JP2013174971A (ja) 2013-09-05

Similar Documents

Publication Publication Date Title
Parisotto et al. Neuro-symbolic program synthesis
Lhoussain et al. Adaptating the levenshtein distance to contextual spelling correction
Cuong et al. Conditional random field with high-order dependencies for sequence labeling and segmentation
US8239349B2 (en) Extracting data
Chicano et al. Fitness probability distribution of bit-flip mutation
CN107391495B (zh) 一种双语平行语料的句对齐方法
JP6312467B2 (ja) 情報処理装置、情報処理方法、およびプログラム
CN111680494A (zh) 相似文本的生成方法及装置
JP5441937B2 (ja) 言語モデル学習装置、言語モデル学習方法、言語解析装置、及びプログラム
Mohamed et al. Exploring the potential of schemes in building NLP tools for Arabic language.
Agic et al. Improving part-of-speech tagging accuracy for Croatian by morphological analysis
US20180173689A1 (en) Transliteration decoding using a tree structure
JP5646523B2 (ja) 基本木学習装置、構文解析装置、方法、及びプログラム
Roos et al. Analysis of textual variation by latent tree structures
JP6558852B2 (ja) 節同定装置、方法、及びプログラム
Benedí et al. Estimation of stochastic context-free grammars and their use as language models
Chahuneau et al. pycdec: A Python Interface to cdec.
JP5462819B2 (ja) 基本木獲得装置、構文解析装置、方法、及びプログラム
JP6011856B2 (ja) 文書間関係推定モデル学習装置、文書間関係推定装置、方法、及びプログラム
JP6633999B2 (ja) 符号器学習装置、変換装置、方法、及びプログラム
JP2019144844A (ja) 形態素解析学習装置、形態素解析装置、方法、及びプログラム
JP2017059216A (ja) クエリ校正システムおよび方法
CN110895660B (zh) 一种基于句法依存关系动态编码的语句处理方法及装置
Haque et al. Supertags as source language context in hierarchical phrase-based SMT
JP6042264B2 (ja) 文法規則学習装置、方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140220

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140919

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141007

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141105

R150 Certificate of patent or registration of utility model

Ref document number: 5646523

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150