JP6558852B2

JP6558852B2 - 節同定装置、方法、及びプログラム

Info

Publication number: JP6558852B2
Application number: JP2015218710A
Authority: JP
Inventors: 康久吉田; 林　克彦; 克彦林; 平尾　努; 努平尾; 永田　昌明; 昌明永田
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2015-11-06
Filing date: 2015-11-06
Publication date: 2019-08-14
Anticipated expiration: 2035-11-06
Also published as: JP2017091101A

Description

本発明は、文中の節を同定する節同定装置、方法、及びプログラムに関する。

従来技術には、節の同定を系列タギングの問題として捉えるものと文を構文解析した結果である構文木から節を同定する２つの方法がある。以降では、Ｎ個の単語からなる文Ｓ＝[w₁, w₂, ? ? ? , w_N ]を考える。

＜CRFを使った節の同定方法＞
Conditional Random Field (CRF)（非特許文献１参照）を使った節の同定方法では、各単語wiに対し、節の始まり(B-S)、節の範囲内(I-S)、節の範囲外(O-S)の3種類のタグを付与する。例えば、図３では“He became a student”と“he recieved a grant”の２つの節があり、節の先頭の単語にはB-S、それ以外の単語にはI-Sが振られ、節の範囲外の単語にはO-Sが振られる。

N個の単語からなる文では、3^N個のタグ系列がありえるが、CRF ではそれぞれのタグ系列aに対し、スコア関数f(a)を用いてスコアを付与する。スコア関数が所与の元で、Viterbiアルゴリズムを用いると最適なタグ系列はO(3²N)で求めることができる。なお、スコア関数f(a)は学習データを用いて学習することができる。

＜PCFGを使った節の同定方法＞
Probabilistic Context Free Grammer (PCFG)を使った節の同定方法は以下の２ステップから構成される。

（ステップ１）：PCFGを用いて文に対し構文解析を行ない、構文木を得る。

（ステップ２）：得られた構文木より、節に相当する S または SBAR の部分木を用いて節を同定する(SまたはSBARがネストした場合は一番下のものを選ぶ)。

ステップ１では、N個の単語からなる文に対し、PCFG によるスコア関数g(b)を用いて最適化な構文木を得る。スコア関数が所与の元で、Viterbiアルゴリズムを用いると最適な構文木はO(N³) で求めることができる。なお、スコア関数g(b)は学習データを用いて学習することができる。ステップ２の操作をextract-clauses 関数とこれ以降呼ぶ。

具体例を挙げる。図４は“He became a student and he received a grant.”という文に対し、ステップ１を実行し得られた構文木である。この構文木にはＳまたはSBARは3箇所あるが、ステップ２ではSまたはSBARがネストした場合はextract-clauses関数により、一番下のものを選択するので、“He became a student”と“he received a grant”の2箇所を節と同定する。

McCallum, A.: Efficiently inducing features of conditional random fields. In: Proc. 19th Conference on Uncertainty in Artificial Intelligence. (2003)

識別モデルであるCRFを用いた方法は、様々な特徴量を自由に取り込めるという利点があるが、構文木のような再帰的な構造は見ることができないという欠点がある。生成モデルであるPCFGを用いた方法は構文木を考慮することができるため、節の内部にどのような部分構文木がきやすいかといった情報を取り込める利点があるが、生成モデルであるため、識別モデルと比較すると取り込める周囲の情報は制限されているという欠点があった。

本発明は、上記の事情を鑑みてなされたもので、文中の節を精度よく同定することができる節同定装置、方法、及びプログラムを提供することを目的とする。

上記の目的を達成するために本発明の節同定装置は、文の各単語に付与される、節に関するタグのタグ系列のスコアを算出するための第１スコア関数を用いて、ＣＲＦ（Conditional Random Field）に従って、入力文中の節を同定するＣＲＦ節同定部と、文を表す構文木のスコアを算出するための第２スコア関数を用いて、ＰＣＦＧ（Probabilistic Context Free Grammer）に従って、入力文を表す最適な構文木を求め、前記入力文中の節を同定するＰＣＦＧ節同定部と、前記ＣＲＦ節同定部による節の同定結果と、前記ＰＣＦＧ節同定部による節の同定結果とを比較した結果に基づいて、前記第１スコア関数及び前記第２スコア関数の各々を修正するスコア関数修正部と、予め定められた反復終了条件を満たすまで、前記ＣＲＦ節同定部による同定、前記ＰＣＦＧ節同定部による同定、及び前記スコア関数修正部による修正を繰り返す反復終了判定部と、を含んで構成されている。

本発明の節同定方法は、ＣＲＦ節同定部、ＰＣＦＧ節同定部、スコア関数修正部、及び反復終了判定部を含む節同定装置における節同定方法であって、前記ＣＲＦ節同定部が、文の各単語に付与される、節に関するタグのタグ系列のスコアを算出するための第１スコア関数を用いて、ＣＲＦ（Conditional Random Field）に従って、入力文中の節を同定し、前記ＰＣＦＧ節同定部が、文を表す構文木のスコアを算出するための第２スコア関数を用いて、ＰＣＦＧ（Probabilistic Context Free Grammer）に従って、入力文を表す最適な構文木を求め、前記入力文中の節を同定し、前記スコア関数修正部が、前記ＣＲＦ節同定部による節の同定結果と、前記ＰＣＦＧ節同定部による節の同定結果とを比較した結果に基づいて、前記第１スコア関数及び前記第２スコア関数の各々を修正し、前記反復終了判定部が、予め定められた反復終了条件を満たすまで、前記ＣＲＦ節同定部による同定、前記ＰＣＦＧ節同定部による同定、及び前記スコア関数修正部による修正を繰り返す。

本発明のプログラムは、コンピュータを、本発明の節同定装置の各部として機能させるためのプログラムである。

以上説明したように、本発明の節同定装置、方法、及びプログラムによれば、ＣＲＦに従って、入力文中の節を同定し、ＰＣＦＧに従って、入力文を表す最適な構文木を求め、前記入力文中の節を同定し、同定結果を比較した結果に基づいて、ＣＲＦの第１スコア関数及びＰＣＦＧの第２スコア関数の各々を修正することを繰り返すことにより、文中の節を精度よく同定することができる、という効果が得られる。

本発明の実施の形態の節同定装置の一構成例を示すブロック図である。節を同定する処理のアルゴリズムの一例を示す図である。ラベル系列の一例を示す図である。構文木の一例を示す図である。本発明の実施の形態の節同定装置における節同定処理ルーチンの内容を示すフローチャートである。実験結果を示す図である。

＜本発明の実施の形態の概要＞
まず、本発明の実施の形態の概要について説明する。本発明の実施の形態は、文中の節の同定方法に関する。この技術は、双対分解を用いることにより、Conditional Random Field (CRF) とProbabilistic Context Free Grammer (PCFG) の両方の出力を同時に考慮し、より高精度に文中の節の範囲を同定する技術である。

＜節同定装置のシステム構成＞
以下、図面を参照して本発明の実施の形態を詳細に説明する。図１は、本発明の実施の形態の節同定装置１００を示すブロック図である。節同定装置１００は、ＣＰＵと、ＲＡＭと、節同定処理ルーチンを実行するためのプログラムを記憶したＲＯＭとを備えたコンピュータで構成され、機能的には次に示すように構成されている。

本実施の形態の節同定装置１００は、図１に示すように、入力部１０と、演算部３０と、出力部４０とを備えている。

入力部１０は、学習データの入力を受け付ける。また、入力部１０は、形態素解析済みの入力文の入力を受け付ける。なお、学習データは、複数の文の各々に対して用意された、当該文の各単語に付与された、節に関するラベル(B-S、I-S、O-S)のラベル系列の正例と、当該文を表わす構文木の正例とを含む。

演算部３０は、スコア関数学習部３１、３２、初期化部３３、ＣＲＦ節同定部３４、ＰＣＦＧ節同定部３５、反復終了判定部３６、及びスコア関数修正部３７を備えている。

＜節を同定する原理＞
ここで、文中の節を同定する原理について説明する。

本発明の実施の形態では、双対分解(非特許文献２を参照)を用いることで、CRFを使った節の同定方法から得られた出力とPCFGを使った節の同定方法から得られた出力との合意が得られるまでスコア関数を少しずつ修正し、合意が得られたらその時点の系列と構文木を出力する。図２に示すAlgorithm1が、節を同定する処理の概要である。

[非特許文献２]：Alexander M. Rush and Michael Collins. 2012. A tutorial on dual decomposition and lagrangian relaxation for inference in natural language processing. J. Artif. Int. Res. 45, 1 (September 2012), 305-362.

表記について説明する。関数dual-decompsitionはN個の単語からなる文Sを入力とする。

は文Sに対し、可能なタグ系列集合 (GEN-SEQ)の中から引数の第１スコア関数を用いて最適化なタグ系列を返す関数であり、

は文Sに対し、可能な構文木集合 (GEN-TREE) の中から引数の第２スコア関数を用いて最適化な構文木を返す関数である。変数a(i, j)はi番目の単語w_iから始まり、j番目の単語w_jで終わるタグの部分系列が節であれば1を、そうでなければ0を表わす。変数b(i,j)はi番目の単語w_iから始まり、j番目の単語w_jで終わる構文木の部分木が節であれば1を、そうでなければ0を表わす。変数u^k(i,j)∈Rは、k回目のiterationでの合意の度合いを表わす変数である。

Algorithm1について説明する。Algorithm1では、文Sと最大のiteration回数Kを引数に取り、スコアが最大となるタグ系列a^K、構文木b^Kの組を返す。まず、変数u⁰(i, j)を全て0に初期化する。次に、第１スコア関数f(・)及び変数u^k(i, j)を考慮した上でスコアが最大になるタグ系列 a^kと、第２スコア関数g(・)及び変数u^k (i, j)を考慮した上でスコアが最大になる構文木 b^kとをそれぞれViterbiアルゴリズムで得る(変数u^k(i, j)が追加されているが、通常の動的計画法の方法でViterbiアルゴリズムを動かすことができる)。

タグ系列a^Kから得られた節と、extract-clauses関数を用いて構文木b^Kから得られた節とが同じ場合、タグ系列a^K、構文木b^Kの組を返す。得られた節が同じでなかった場合、ステップ幅α_kを用いて新たな変数 u^k+1(i, j)を得る(図２の８行目参照)。また、K回のiterationが終わってもタグ系列a^Kから得られた節とextract-clauses関数を用いて構文木b^Kから得られた節とが同じにならない場合、iteration K回目時点でのタグ系列a^K、構文木b^Kの組を返す。

Algorithm1の計算量について説明する。Algorithm1では、最大K回のiteration中において最適なタグ系列と最適な構文木を探すためにO(N)+O(N³)=O(N³)の計算量がかかることから全体では O(KN³)の計算量がかかる。

以上説明した原理に従って、スコア関数学習部３１は、入力部１０により受け付けた学習データである、複数の文の各々に対するラベル系列の正例に基づいて、ＣＲＦで用いる、各単語に節に関するタグを付与したタグ系列のスコアを算出するための第１スコア関数ｆ（・）を学習する。例えば、第１スコア関数ｆ（・）として、CRFの対数尤度関数を学習する。

また、スコア関数学習部３２は、入力部１０により受け付けた学習データである、複数の文の各々に対する構文木の正例に基づいて、ＰＣＦＧで用いる第２スコア関数ｇ（・）を学習する。例えば、第２スコア関数ｇ（・）として、PCFGの対数尤度関数を学習する。

初期化部３３は、入力部１０により受け付けた、形態素解析済みの入力文に基づいて、全てのｉ，ｊ∈｛１，・・・，Ｎ｝に対する、合意の度合いを表わす変数u⁰(i,j)を、０に初期化する。

ＣＲＦ節同定部３４は、スコア関数学習部３１によって学習された、第１スコア関数ｆ（・）、又はスコア関数修正部３７によって修正された第１スコア関数に基づいて、ＣＲＦに従って、図３に示すような、スコアが最大となるラベル系列a^kを推定し、入力文中の節を同定する。

本実施の形態では、Ｖｉｔｅｒｂｉアルゴリズムに従ってスコアが最大となるラベル系列ａ^kを推定する。

ＰＣＦＧ節同定部３５は、スコア関数学習部３２によって学習された、第２スコア関数ｇ（・）、又はスコア関数修正部３７によって修正された第２スコア関数に基づいて、ＰＣＦＧに従って、図４に示すような、スコアが最大となる構文木ｂ^kを推定し、入力文中の節を同定する。

本実施の形態では、Ｖｉｔｅｒｂｉアルゴリズムに従ってスコアが最大となる構文木ｂ^kを推定する。

反復終了判定部３６は、予め定められた反復終了条件を満たすまで、上記スコア関数修正部３７、ＣＲＦ節同定部３４、ＰＣＦＧ節同定部３５の各処理を繰り返す。反復終了条件を満たした場合には、ＣＲＦ節同定部３４、ＰＣＦＧ節同定部３５により最終的に得られた節の同定結果、ラベル系列、及び構文木を、出力部４０により出力する。

本実施の形態では、反復終了条件として、ＣＲＦ節同定部３４、ＰＣＦＧ節同定部３５により得られた節の同定結果が一致すること、あるいは、反復回数が予め定められた回数に到達することを用いる。

スコア関数修正部３７は、ＣＲＦ節同定部３４、ＰＣＦＧ節同定部３５により得られた節の同定結果を比較した結果と、前回更新された合意の度合いを表わす変数u^k(i,j)とに基づいて、以下の式に従って、全てのｉ，ｊ∈｛１，・・・，Ｎ｝に対する、合意の度合いを表わす変数u^k+1(i,j)を更新する。

ただし、ａ_i,jは、ａ(i,j)を表し、ｂ_i,jは、ｂ(i,j)を表している。

スコア関数修正部３７は、更新された変数u^k+1(i,j)を用いて、以下の式に従って、第１スコア関数ｆ（・）、第２スコア関数ｇ（・）を修正する。

＜節同定装置の作用＞

次に、本実施の形態の節同定装置１００の作用について説明する。まず、複数の学習データが節同定装置１００に入力されると、節同定装置１００によって、第１スコア関数ｆ（・）及び第２スコア関数ｇ（・）が学習される。

そして、形態素解析済みの入力文が、節同定装置１００に入力されると、節同定装置１００によって、図５に示す節同定処理ルーチンが実行される。

まず、ステップＳ１００において、入力文に基づいて、全てのｉ，ｊ∈｛１，・・・，Ｎ｝に対する、合意の度合いを表わす変数u⁰(i,j)を、０に初期化する。

そして、ステップＳ１０２において、入力文に基づいて、学習された第１スコア関数ｆ（・）、又は後述するステップＳ１１２で修正された第１スコア関数を用いて、ＣＲＦに従って、スコアが最大となるラベル系列を推定し、入力文の節を同定する。

そして、ステップＳ１０４において、入力文に基づいて、学習された第２スコア関数ｇ（・）、又は後述するステップＳ１１４で修正された第２スコア関数を用いて、ＰＣＦＧに従って、スコアが最大となる構文木を推定し、入力文の節を同定する。

ステップＳ１０６では、上記ステップＳ１０２での節の同定結果と、上記ステップＳ１０４での節の同定結果とが一致しているか否かを判定する。節の同定結果が一致している場合には、ステップＳ１１６へ移行する。一方、節の同定結果が一致していない場合には、ステップＳ１０８において、上記ステップＳ１００で初期化された変数u⁰(i,j)、又は前回更新された変数u^k(i,j)と、上記ステップＳ１０２での節の同定結果、及び上記ステップＳ１０４での節の同定結果の差分とに基づいて、全てのｉ，ｊ∈｛１，・・・，Ｎ｝に対する、合意の度合いを表わす変数u^k+1(i,j)を更新する。

そして、ステップＳ１１０では、反復回数がＫ回に到達したか否かを判定する。反復回数がＫ回に到達した場合には、ステップＳ１１６へ移行する。一方、反復回数がＫ回に到達していない場合には、ステップＳ１１２において、上記ステップＳ１０８で更新された変数u^k+1(i,j)を用いて、第１スコア関数ｆ（・）を修正する。

ステップＳ１１４では、上記ステップＳ１０８で更新された変数u^k+1(i,j)を用いて、第２スコア関数ｇ（・）を修正し、上記ステップＳ１０２へ戻る。

ステップＳ１１６では、上記ステップＳ１０２、Ｓ１０４で最終的に得られた同定結果、タグ系列、及び構文木を、出力部４０により出力して、節同定処理ルーチンを終了する。

＜評価実験＞
既存手法であるCRFを使った節の同定方法と、PCFGを使った節の同定方法、及び本発明の実施の形態で説明した双対分解を使った節の同定方法の性能評価を実験的に示す。本実験では、Penn Treebankのデータを使用する。Penn Treebankは構文木を含むデータであり、データは学習用、開発セット用、テスト用の3つの部分集合からなる。本発明の実施の形態では、節の同定を行ないたいため、この3つのデータセットそれぞれに含まれる構文木の集合を、節を表わすタグ系列 (B-S、I-S、O-S)の集合に変換したものを用いる。節はネストする場合があるが、今回はネストした中の最も小さい節のみを節と考えることとする。評価にはテスト用のPenn Treebankの部分集合である1346文を使用した。CRFを使った節の同定方法では、Penn Treebankの学習用データを用いてCRFを学習した(開発セット用データでハイパーパラメータのチューニングを行なった)。実装にはCRF++を用い、特徴量にはUnigram特徴量とBigram特徴量を用いた。PCFGを使った節同定方法では、構文木を出力するためにStanford Parserを使用した。双対分解を使った節の同定方法で用いる第１スコア関数f(・)、第２スコア関数g(・)には、CRFの対数尤度関数、PCFGの対数尤度関数を用いた。

結果を図６に示す。既存手法であるCRFを使った節の同定方法ではPrecisionが高いがRecallは低い。PCFGを使った節の同定方法ではRecallは高いがPrecisionは低いという結果になった。双対分解を使った節の同定方法では、CRFを使った手法、PCFGを使った手法のそれぞれ出力を考慮できることからPrecision、Recallともに高い値を得ることができた。

以上説明したように、本実施の形態の節同定装置によれば、ＣＲＦに従って、入力文中の節を同定し、ＰＣＦＧに従って、入力文を表す最適な構文木を求め、前記入力文中の節を同定し、同定結果を比較した結果に基づいて、ＣＲＦの第１スコア関数及びＰＣＦＧの第２スコア関数の各々を修正することを繰り返すことにより、文中の節を精度よく同定することができる。

なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

例えば、本実施の形態では、節同定装置が、第１スコア関数及び第２スコア関数を学習する場合を例に説明したが、これに限定されるものではなく、別の装置において、第１スコア関数及び第２スコア関数を予め学習するようにしてもよい。

上述の節同定装置は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。

また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。

１０入力部
３０演算部
３１スコア関数学習部
３２スコア関数学習部
３３初期化部
３４ＣＲＦ節同定部
３５ＰＣＦＧ節同定部
３６反復終了判定部
３７スコア関数修正部
４０出力部
１００節同定装置

Claims

文の各単語に付与される、節に関するタグのタグ系列のスコアを算出するための第１スコア関数を用いて、ＣＲＦ（Conditional Random Field）に従って、入力文中の単語の各部分系列が節であるか否かを同定するＣＲＦ節同定部と、
文を表す構文木のスコアを算出するための第２スコア関数を用いて、ＰＣＦＧ（Probabilistic Context Free Grammer）に従って、入力文を表す最適な構文木を求め、前記入力文中の単語の各部分系列が節であるか否かを同定するＰＣＦＧ節同定部と、
前記ＣＲＦ節同定部による節の同定結果と、前記ＰＣＦＧ節同定部による節の同定結果とを比較した結果に基づいて、前記第１スコア関数及び前記第２スコア関数の各々を修正するスコア関数修正部と、
予め定められた反復終了条件を満たすまで、前記ＣＲＦ節同定部による同定、前記ＰＣＦＧ節同定部による同定、及び前記スコア関数修正部による修正を繰り返す反復終了判定部と、
を含み、
前記スコア関数修正部は、前記入力文中の単語の各部分系列について、前記ＣＲＦ節同定部による節の同定結果と、前記ＰＣＦＧ節同定部による節の同定結果とを比較して合意の度合いを表す変数を更新し、
前記入力文中の単語の各部分系列についての、前記ＣＲＦ節同定部による節の同定結果と、前記合意の度合いを表す変数とを用いて、前記第１スコア関数を修正し、
前記入力文中の単語の各部分系列についての、前記ＰＣＦＧ節同定部による節の同定結果と、前記合意の度合いを表す変数とを用いて、前記第２スコア関数を修正する節同定装置。
前記ＣＲＦ節同定部は、Ｖｉｔｅｒｂｉアルゴリズムに従って、前記第１スコア関数のスコアが最大となる前記タグ系列を探索することによって、前記入力文中の節を同定し、
前記ＰＣＦＧ節同定部は、Ｖｉｔｅｒｂｉアルゴリズムに従って、前記第２スコア関数のスコアが最大となる前記構文木を探索することによって、前記入力文中の節を同定する請求項１記載の節同定装置。
前記第１スコア関数は、複数の学習用文の各々を表す前記タグ系列の正例に基づいて予め学習され、
前記第２スコア関数は、複数の学習用文の各々を表す前記構文木の正例に基づいて予め学習された請求項１又は２記載の節同定装置。
ＣＲＦ節同定部、ＰＣＦＧ節同定部、スコア関数修正部、及び反復終了判定部を含む節同定装置における節同定方法であって、
前記ＣＲＦ節同定部が、文の各単語に付与される、節に関するタグのタグ系列のスコアを算出するための第１スコア関数を用いて、ＣＲＦ（Conditional Random Field）に従って、入力文中の単語の各部分系列が節であるか否かを同定し、
前記ＰＣＦＧ節同定部が、文を表す構文木のスコアを算出するための第２スコア関数を用いて、ＰＣＦＧ（Probabilistic Context Free Grammer）に従って、入力文を表す最適な構文木を求め、前記入力文中の単語の各部分系列が節であるか否かを同定し、
前記スコア関数修正部が、前記ＣＲＦ節同定部による節の同定結果と、前記ＰＣＦＧ節同定部による節の同定結果とを比較した結果に基づいて、前記第１スコア関数及び前記第２スコア関数の各々を修正し、
前記反復終了判定部が、予め定められた反復終了条件を満たすまで、前記ＣＲＦ節同定部による同定、前記ＰＣＦＧ節同定部による同定、及び前記スコア関数修正部による修正を繰り返すことを含み、
前記スコア関数修正部が修正することでは、前記入力文中の単語の各部分系列について、前記ＣＲＦ節同定部による節の同定結果と、前記ＰＣＦＧ節同定部による節の同定結果とを比較して合意の度合いを表す変数を更新し、
前記入力文中の単語の各部分系列についての、前記ＣＲＦ節同定部による節の同定結果と、前記合意の度合いを表す変数とを用いて、前記第１スコア関数を修正し、
前記入力文中の単語の各部分系列についての、前記ＰＣＦＧ節同定部による節の同定結果と、前記合意の度合いを表す変数とを用いて、前記第２スコア関数を修正する節同定方法。
前記ＣＲＦ節同定部が同定することでは、Ｖｉｔｅｒｂｉアルゴリズムに従って、前記第１スコア関数のスコアが最大となる前記タグ系列を探索することによって、前記入力文中の節を同定し、
前記ＰＣＦＧ節同定部が同定することでは、Ｖｉｔｅｒｂｉアルゴリズムに従って、前記第２スコア関数のスコアが最大となる前記構文木を探索することによって、前記入力文中の節を同定する請求項４記載の節同定方法。
前記第１スコア関数は、複数の学習用文の各々を表す前記タグ系列の正例に基づいて予め学習され、
前記第２スコア関数は、複数の学習用文の各々を表す前記構文木の正例に基づいて予め学習された請求項４又は５記載の節同定方法。
コンピュータを、請求項１〜請求項３の何れか１項に記載の節同定装置の各部として機能させるためのプログラム。