JP6663881B2

JP6663881B2 - 並列句解析装置、並列句解析モデル学習装置、方法、及びプログラム

Info

Publication number: JP6663881B2
Application number: JP2017079651A
Authority: JP
Inventors: ジュンオウ; 鈴木　敏; 敏鈴木
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2017-04-13
Filing date: 2017-04-13
Publication date: 2020-03-13
Anticipated expiration: 2037-04-13
Also published as: JP2018180935A

Description

本発明は、並列句解析装置、並列句解析モデル学習装置、方法、及びプログラムに係り、特に、入力されたテキストの並列句解析のための並列句解析装置、並列句解析モデル学習装置、方法、及びプログラムに関する。

従来の学習型並列句解析では、句と等位接続詞の組み合わせを正例／負例に分類したもので学習する。

Kazuo Hara Masashi Shimbo Hideharu Okuma Yuji Matsumoto, ``Coordinate structure analysis with global structural constraints and alignment-based local features", ACL'09 Atsushi Hanamoto, Takuya Matsuzaki, Jun’ichi Tsujii, ``Coordination structure analysis using dual decomposition", EACL'12

正例は巨大なコーパスからでも取り出せる数が限られる一方で、負例は正例の一部を任意に変更すれば作成できるため、正例1つに対し負例はより多く作ることができる。

従来手法では、構文解析を通して並列句解析を行うため、この正例／負例のアンバランスが学習に影響を与え、良い結果が得られないことが多い。

また、並列句には名詞句、動詞句、副詞句等文法的に様々な並列句が存在することが、構文解析による並列句解析をより複雑にしている。

本発明は、上記の事情を鑑みてなされたものであり、入力文の並列句解析を精度よく行うことができる並列句解析装置、方法、及びプログラムを提供することを目的とする。

また、入力文の並列句解析を精度よく行うためのモデルを学習することができる並列句解析モデル学習装置、方法、及びプログラムを提供することを目的とする。

上記目的を達成するために、本発明に係る並列句解析装置は、入力文から、等位接続詞の前後の句の組み合わせを、並列句候補として複数抽出する並列句候補抽出部と、前記並列句候補の各々について、予め学習された言語モデルを用いて、前記等位接続詞の前の句の直後の単語を予測した予測結果、及び前記等位接続詞の後の句の直前の単語を予測した予測結果を出力する言語モデル適用部と、前記並列句候補の各々について、前記等位接続詞の前の句の直後の単語の予測結果、及び前記等位接続詞の後の句の直前の単語の予測結果から、予め学習されたランキングモデルを用いてランキングスコアを計算し、並列句の解析結果を出力するランキング計算部と、を含んで構成されている。

本発明に係る並列句解析方法は、並列句候補抽出部が、入力文から、等位接続詞の前後の句の組み合わせを、並列句候補として複数抽出し、言語モデル適用部が、前記並列句候補の各々について、予め学習された言語モデルを用いて、前記等位接続詞の前の句の直後の単語を予測した予測結果、及び前記等位接続詞の後の句の直前の単語を予測した予測結果を出力し、ランキング計算部が、前記並列句候補の各々について、前記等位接続詞の前の句の直後の単語の予測結果、及び前記等位接続詞の後の句の直前の単語の予測結果から、予め学習されたランキングモデルを用いてランキングスコアを計算し、並列句の解析結果を出力する。

本発明に係る並列句解析モデル学習装置は、学習用文から、等位接続詞の前後の句の組み合わせを、並列句候補として複数抽出する並列句候補抽出部と、前記並列句候補の各々について、予め学習された言語モデルを用いて、前記等位接続詞の前の句の直後の単語を予測した予測結果、及び前記等位接続詞の後の句の直前の単語を予測した予測結果を出力する言語モデル適用部と、予め求められた、等位接続詞の前後の句の組み合わせである複数の正解並列句に基づいて、前記並列句候補の各々について、前記等位接続詞の前の句の直後の単語の予測結果、及び前記等位接続詞の後の句の直前の単語の予測結果からランキングモデルを用いて計算されるランキングスコアが、前記並列句候補と前記正解並列句との編集距離に応じたスコアとなるように、前記ランキングモデルを学習するランキングモデル学習部と、を含んで構成されている。

本発明に係る並列句解析モデル学習方法は、並列句候補抽出部が、学習用文から、等位接続詞の前後の句の組み合わせを、並列句候補として複数抽出し、言語モデル適用部が、前記並列句候補の各々について、予め学習された言語モデルを用いて、前記等位接続詞の前の句の直後の単語を予測した予測結果、及び前記等位接続詞の後の句の直前の単語を予測した予測結果を出力し、ランキングモデル学習部が、予め求められた、等位接続詞の前後の句の組み合わせである複数の正解並列句に基づいて、前記並列句候補の各々について、前記等位接続詞の前の句の直後の単語の予測結果、及び前記等位接続詞の後の句の直前の単語の予測結果からランキングモデルを用いて計算されるランキングスコアが、前記並列句候補と前記正解並列句との編集距離に応じたスコアとなるように、前記ランキングモデルを学習する。

また、本発明のプログラムは、コンピュータを、上記の並列句解析装置、及び並列句解析モデル学習装置を構成する各部として機能させるためのプログラムである。

以上説明したように、本発明の並列句解析装置、方法、及びプログラムによれば、並列句候補の各々について、言語モデルを用いて、前記等位接続詞の前の句の直後の単語を予測した予測結果、及び前記等位接続詞の後の句の直前の単語を予測した予測結果を出力し、ランキングモデルを用いてランキングスコアを計算することにより、入力文の並列句解析を精度よく行うことができる。

また、本発明の並列句解析モデル学習装置、方法、及びプログラムによれば、並列句候補の各々について、言語モデルを用いて、前記等位接続詞の前の句の直後の単語を予測した予測結果、及び前記等位接続詞の後の句の直前の単語を予測した予測結果を出力し、前記等位接続詞の前の句の直後の単語の予測結果、及び前記等位接続詞の後の句の直前の単語の予測結果からランキングモデルを用いて計算されるランキングスコアが、前記並列句候補と前記正解並列句との編集距離に応じたスコアとなるように、前記ランキングモデルを学習することにより、入力文の並列句解析を精度よく行うためのモデルを学習することができる。

本発明の実施の形態に係る並列句解析モデル学習装置の機能的構成を示すブロック図である。並列句候補を抽出する方法を説明するための図である。言語モデルを適用する方法を説明するための図である。本発明の実施の形態に係る並列句解析装置の機能的構成を示すブロック図である。ランキングモデルを用いて並列句を決定する方法を説明するための図である。本発明の実施の形態に係る並列句解析モデル学習装置における並列句解析モデル学習処理ルーチンを示すフローチャート図である。本発明の実施の形態に係る並列句解析装置における並列句解析処理ルーチンを示すフローチャート図である。

以下、図面を参照して本発明の実施の形態を詳細に説明する。

＜本発明の実施の形態に係る並列句解析モデル学習装置の構成＞
次に、本発明の実施の形態に係る並列句解析モデル学習装置の構成について説明する。図１に示すように、本発明の実施の形態に係る並列句解析モデル学習装置１００は、ＣＰＵと、ＲＡＭと、後述する並列句解析モデル学習処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することが出来る。この並列句解析モデル学習装置１００は、機能的には図１に示すように入力部１０と、演算部２０とを備えている。

入力部１０は、複数の学習用文からなる言語データを受け付け、言語データ記憶部２２に記憶する。また、入力部１０は、等位接続詞の前後の句の組み合わせである複数の正解並列句を受け付け、正解データ記憶部２４に記憶する。

演算部２０は、言語データ記憶部２２、正解データ記憶部２４、言語モデル学習部２６、言語モデル記憶部２８、並列句候補抽出部３０、言語モデル適用部３２、ランキングモデル学習部３４、及びランキングモデル記憶部３６を含んで構成されている。

言語モデル学習部２６は、言語データ記憶部２２に記憶されている言語データに基づいて、単語の並びを表す言語モデルを学習し、言語モデル記憶部２８に記憶する。

具体的には、文字列の直後の単語を予測し出力する順方向のＬＳＴＭ（Long short-term memory、非特許文献３参照）と文字列の直前の単語を予測し出力する逆方向のＬＳＴＭとを学習する。

［非特許文献３］：Sundermeyer, M., Schluter, R., Ney, H.: Lstm neural networks for language modeling. In: INTERSPEECH. pp. 194-197 (2012)

なお、ＬＳＴＭの学習方法としては、従来既知の手法を用いればよいため、説明を省略する。また、ＬＳＴＭ以外の他の言語モデルを学習してもよい。

並列句候補抽出部３０は、言語データ記憶部２２に記憶されている言語データに含まれる学習用文から、等位接続詞の前後の句の組み合わせを、並列句候補として複数抽出する。具体的には、等位接続詞は限られているので、テキストマッチで等位接続詞を取り出す。なお、構文解析手法を適用することも可能である。そして、取り出した等位接続詞の前後の部分を並列句とし、それぞれの語数を任意として並列句候補に加える。このとき、並列句候補は等位接続詞に接する語を含むものとする（図２参照）。

言語モデル適用部３２は、並列句候補の各々について、言語モデル記憶部２８に記憶された言語モデルを用いて、等位接続詞の前の句の直後の単語の予測結果を表す出力ベクトル、及び等位接続詞の後の句の直前の単語の予測結果を表す出力ベクトルを出力する（図３（Ａ）、（Ｂ）参照）。

ランキングモデル学習部３４は、正解データ記憶部２４に記憶された複数の正解並列句に基づいて、並列句候補の各々について、等位接続詞の前の句の直後の単語の予測結果を表す出力ベクトル、及び等位接続詞の後の句の直前の単語の予測結果を表す出力ベクトルからランキングモデルを用いて計算されるランキングスコアが、並列句候補と正解並列句との編集距離（文字の異なり数）に応じたスコアとなるように、ランキングモデルを学習し、ランキングモデル記憶部３６に記憶する。ランキングモデルは、等位接続詞の前の句の直後の単語の予測結果を表す出力ベクトルに対するパラメータ、及び等位接続詞の後の句の直前の単語の予測結果を表す出力ベクトルに対するパラメータを含む線形モデルである。

具体的には、以下の（２）式に示す損失関数Ｌｏｓｓを最小化するように、ランキングモデルのパラメータＷ_０、Ｗ_１、Ｗ_２を学習する。

ただし、out_L,out_Rはそれぞれ左右の並列句候補を入力としたときの言語モデルの出力ベクトルである。γ及びｂは定数であり、式（１）の｛L_c,R_c｝は正解並列句の文字列の組み合わせ、｛L_i,R_j｝は並列句候補の文字列の組み合わせである。また、||{L_c,R_c}||は正解並列句の文字数である。edit_distance（｛L_c,R_c｝，｛L_i,R_j｝）は、並列句候補｛L_i,R_j｝と正解並列句｛L_c,R_c｝との編集距離である。ランキングモデルは、行列W₀,W₁,W₂をパラメータとする線形モデルであり、ランキングモデルの学習では最急勾配法を用いればよい。
式（２）の代わりに、
Loss = Σ(f((L,R))-Score(out_L,out_R))²
などとしてもよい。

＜本発明の実施の形態に係る並列句解析装置の構成＞
次に、本発明の実施の形態に係る並列句解析装置の構成について説明する。図４に示すように、本発明の実施の形態に係る並列句解析装置２００は、ＣＰＵと、ＲＡＭと、後述する並列句解析処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することが出来る。この並列句解析装置２００は、機能的には図４に示すように入力部２１０と、演算部２２０と、出力部２９０とを備えている。

入力部２１０は、解析対象となる入力文を受け付ける。

演算部２２０は、並列句候補抽出部２２２と、言語モデル記憶部２２４と、言語モデル適用部２２６と、ランキングモデル記憶部２２８と、ランキング計算部２３０と、を含んで構成されている。

並列句候補抽出部２２２は、入力文から、並列句候補抽出部３０と同様に、等位接続詞の前後の句の組み合わせを、並列句候補として複数抽出する。

言語モデル記憶部２２４は、並列句解析モデル学習装置１００の言語モデル記憶部２８と同じ言語モデルを記憶している。

言語モデル適用部２２６は、並列句候補の各々について、言語モデル記憶部２２４に記憶された言語モデルを用いて、前記等位接続詞の前の句の直後の単語の予測結果を表す出力ベクトル、及び等位接続詞の後の句の直前の単語の予測結果を表す出力ベクトルを出力する。

ランキングモデル記憶部２２８は、並列句解析モデル学習装置１００のランキングモデル記憶部３６と同じランキングモデルを記憶している。

ランキング計算部２３０は、並列句候補の各々について、等位接続詞の前の句の直後の単語の予測結果を表す出力ベクトル、及び等位接続詞の後の句の直前の単語の予測結果を表す出力ベクトルから、ランキングモデル記憶部２２８に記憶されたランキングモデルを用いてランキングスコアを計算し、最適な並列句候補を決定し、並列句の解析結果として出力部２９０により出力する（図５参照）。

＜本発明の実施の形態に係る並列句解析モデル学習装置の作用＞
次に、本発明の実施の形態に係る並列句解析モデル学習装置１００の作用について説明する。入力部１０において、複数の学習用文からなる言語データを受け付け、言語データ記憶部２２に記憶する。また、入力部１０において、等位接続詞の前後の句の組み合わせである複数の正解並列句を受け付け、正解データ記憶部２４に記憶する。そして、並列句解析モデル学習装置１００は、図６に示す並列句解析モデル学習処理ルーチンを実行する。

まず、ステップＳ１００では、言語データ記憶部２２に記憶されている言語データに基づいて、単語の並びを表す言語モデルとして、順方向のＬＳＴＭ及び逆方向のＬＳＴＭを学習し、言語モデル記憶部２８に記憶する。

ステップＳ１０２では、並列句候補抽出部３０は、言語データ記憶部２２に記憶されている言語データに含まれる学習用文から、等位接続詞の前後の句の組み合わせを、並列句候補として複数抽出する。

ステップＳ１０４では、並列句候補の各々について、言語モデル記憶部２８に記憶された言語モデル（順方向のＬＳＴＭ、逆方向のＬＳＴＭ）を用いて、等位接続詞の前の句の直後の単語の予測結果を表す出力ベクトル、及び等位接続詞の後の句の直前の単語の予測結果を表す出力ベクトルを出力する。

ステップＳ１０６では、正解データ記憶部２４に記憶された複数の正解並列句に基づいて、並列句候補の各々について、等位接続詞の前の句の直後の単語の予測結果を表す出力ベクトル、及び等位接続詞の後の句の直前の単語の予測結果を表す出力ベクトルからランキングモデルを用いて計算されるランキングスコアが、並列句候補と正解並列句との編集距離に応じたスコアとなるように、ランキングモデルを学習し、ランキングモデル記憶部３６に記憶し、並列句解析モデル学習処理ルーチンを終了する。

＜本発明の実施の形態に係る並列句解析装置の作用＞
次に、本発明の実施の形態に係る並列句解析装置２００の作用について説明する。入力部２１０において解析対象となる入力文を受け付け、並列句解析装置２００は、図７に示す並列句解析処理ルーチンを実行する。

まず、ステップＳ２００では、入力文から、等位接続詞の前後の句の組み合わせを、並列句候補として複数抽出する。

ステップＳ２０２では、並列句候補の各々について、言語モデル記憶部２２４に記憶された言語モデルを用いて、前記等位接続詞の前の句の直後の単語の予測結果を表す出力ベクトル、及び等位接続詞の後の句の直前の単語の予測結果を表す出力ベクトルを出力する。

ステップＳ２０４では、並列句候補の各々について、等位接続詞の前の句の直後の単語の予測結果を表す出力ベクトル、及び等位接続詞の後の句の直前の単語の予測結果を表す出力ベクトルから、ランキングモデル記憶部２２８に記憶されたランキングモデルを用いてランキングスコアを計算する。

ステップＳ２０６では、最適な並列句候補を決定し、並列句の解析結果として出力部２９０により出力する（図５参照）。

＜実施例＞
本発明の実施例として、WSJ（Wall Street Journal）を用いた実験結果を示す。このWSJは英語言語データPenn Treebank の一部であり、言語ラベルが付いている。この英語言語データの中から、’and’,’or’,’but’ を等位接続詞として学習および解析を行った（表1）。また、このデータを言語モデル部学習用、ランキング計算部学習用、評価試験用に分けた（表2）。

学習結果は表３に示すとおりである。ただし、TおよびEnjuは従来手法（上記非特許文献２）である。

名詞句、動詞句など品詞別に評価を行った結果、本発明の実施の形態では最も出現率の高い名詞句等で高い再現率を示しており、結果、全品詞での再現率も高いものとなることが分かった。

以上説明したように、本発明の実施の形態に係る並列句解析装置によれば、並列句候補の各々について、言語モデルを用いて、等位接続詞の前の句の直後の単語を予測した予測結果、及び等位接続詞の後の句の直前の単語を予測した予測結果を出力し、ランキングモデルを用いてランキングスコアを計算することにより、入力文の並列句解析を精度よく行うことができる。

また、上記の実験結果に示されたように、本発明の実施の形態に係る並列句解析装置は、学習データの偏り、文法的な複雑さに影響を受けにくい形で並列句解析を行うことができる。

また、本発明の実施の形態に係る並列句解析モデル学習装置によれば、並列句候補の各々について、言語モデルを用いて、等位接続詞の前の句の直後の単語を予測した予測結果、及び等位接続詞の後の句の直前の単語を予測した予測結果を出力し、等位接続詞の前の句の直後の単語の予測結果、及び前記等位接続詞の後の句の直前の単語の予測結果からランキングモデルを用いて計算されるランキングスコアが、並列句候補と前記正解並列句との編集距離に応じたスコアとなるように、ランキングモデルを学習することにより、入力文の並列句解析を精度よく行うためのモデルを学習することができる。

また、構文解析に依存せず、従来手法と比較して正例／負例のアンバランスさや文法的な違いに影響を受けない並列句解析を行うことができるモデルを学習することができる。

なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

例えば、英語の文に対して、並列句解析を行う場合を例に説明したが、これに限定されるものではなく、英語以外の言語、例えば、日本語や中国語の文に対して、並列句解析を行うようにしてもよい。

また、並列句解析モデル学習装置と並列句解析装置とを別々に構成する場合を例に説明したが、これに限定されるものではなく、並列句解析モデル学習装置と並列句解析装置とを１つの装置として構成してもよい。

また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能であるし、ネットワークを介して提供することも可能である。

１０、２１０入力部
２０、２２０演算部
２２言語データ記憶部
２４正解データ記憶部
２６、２２４言語モデル学習部
２８言語モデル記憶部
３０、２２２並列句候補抽出部
３２、２２６言語モデル適用部
３４ランキングモデル学習部
３６、２２８ランキングモデル記憶部
１００並列句解析モデル学習装置
２００並列句解析装置
２２８ランキングモデル記憶部
２９０出力部

Claims

入力文から、等位接続詞の前後の句の組み合わせを、並列句候補として複数抽出する並列句候補抽出部と、
前記並列句候補の各々について、予め学習された言語モデルを用いて、前記等位接続詞の前の句の直後の単語を予測した予測結果、及び前記等位接続詞の後の句の直前の単語を予測した予測結果を出力する言語モデル適用部と、
前記並列句候補の各々について、前記等位接続詞の前の句の直後の単語の予測結果、及び前記等位接続詞の後の句の直前の単語の予測結果から、予め学習されたランキングモデルを用いてランキングスコアを計算し、並列句の解析結果を出力するランキング計算部と、
を含む並列句解析装置。
前記ランキングスコアは、前記等位接続詞の前の句の直後の単語として予測される等位接続詞、及び前記等位接続詞の後の句の直前の単語として予測される等位接続詞の組み合わせの尤もらしさを表す請求項１記載の並列句解析装置。
前記言語モデルを、文字列の次の単語を予測し出力するように学習されたＬＳＴＭ（Long short-term memory）とし、
前記ランキングモデルを、前記等位接続詞の前の句の直後の単語の予測結果に対するパラメータ、及び前記等位接続詞の後の句の直前の単語の予測結果に対するパラメータを含む線形モデルとした請求項１又は２記載の並列句解析装置。
学習用文から、等位接続詞の前後の句の組み合わせを、並列句候補として複数抽出する並列句候補抽出部と、
前記並列句候補の各々について、予め学習された言語モデルを用いて、前記等位接続詞の前の句の直後の単語を予測した予測結果、及び前記等位接続詞の後の句の直前の単語を予測した予測結果を出力する言語モデル適用部と、
予め求められた、等位接続詞の前後の句の組み合わせである複数の正解並列句に基づいて、前記並列句候補の各々について、前記等位接続詞の前の句の直後の単語の予測結果、及び前記等位接続詞の後の句の直前の単語の予測結果からランキングモデルを用いて計算されるランキングスコアが、前記並列句候補と前記正解並列句との編集距離に応じたスコアとなるように、前記ランキングモデルを学習するランキングモデル学習部と、
を含む並列句解析モデル学習装置。
並列句候補抽出部が、入力文から、等位接続詞の前後の句の組み合わせを、並列句候補として複数抽出し、
言語モデル適用部が、前記並列句候補の各々について、予め学習された言語モデルを用いて、前記等位接続詞の前の句の直後の単語を予測した予測結果、及び前記等位接続詞の後の句の直前の単語を予測した予測結果を出力し、
ランキング計算部が、前記並列句候補の各々について、前記等位接続詞の前の句の直後の単語の予測結果、及び前記等位接続詞の後の句の直前の単語の予測結果から、予め学習されたランキングモデルを用いてランキングスコアを計算し、並列句の解析結果を出力する
並列句解析方法。
並列句候補抽出部が、学習用文から、等位接続詞の前後の句の組み合わせを、並列句候補として複数抽出し、
言語モデル適用部が、前記並列句候補の各々について、予め学習された言語モデルを用いて、前記等位接続詞の前の句の直後の単語を予測した予測結果、及び前記等位接続詞の後の句の直前の単語を予測した予測結果を出力し、
ランキングモデル学習部が、予め求められた、等位接続詞の前後の句の組み合わせである複数の正解並列句に基づいて、前記並列句候補の各々について、前記等位接続詞の前の句の直後の単語の予測結果、及び前記等位接続詞の後の句の直前の単語の予測結果からランキングモデルを用いて計算されるランキングスコアが、前記並列句候補と前記正解並列句との編集距離に応じたスコアとなるように、前記ランキングモデルを学習する
並列句解析モデル学習方法。
コンピュータを、請求項１〜請求項３の何れか１項記載の並列句解析装置の各部として機能させるためのプログラム。
コンピュータを、請求項４記載の並列句解析モデル学習装置の各部として機能させるためのプログラム。