JP6381136B2

JP6381136B2 - 空範疇推定装置、空範疇推定モデル学習装置、方法、及びプログラム

Info

Publication number: JP6381136B2
Application number: JP2015103963A
Authority: JP
Inventors: ジュンオウ; 克仁須藤; 永田　昌明; 昌明永田
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2015-05-21
Filing date: 2015-05-21
Publication date: 2018-08-29
Anticipated expiration: 2035-05-21
Also published as: JP2016218806A

Description

本発明は、空範疇推定装置、空範疇推定モデル学習装置、方法、及びプログラムに係り、特に、入力されたテキストの空範疇の位置および種類を推定するための空範疇推定装置、空範疇推定モデル学習装置、方法、及びプログラムに関する。

空範疇検出とは、所与の文章の一部から空範疇を検出することである。従来の研究は、空範疇検出を、主に、分類問題として、あるいは完全な構文解析の副次的問題として、定式化してきた。

非特許文献１は、ＥＣのとりうる位置を示す依存関係木を用いている。また、非特許文献１では、依存関係木を用いて、ＥＣのとりうる位置の特徴を抽出している。そして、アノテーションされたデータから、分類モデルがトレーニングされる。

非特許文献２は、多数のクラスにまでスケールを拡大可能な同時画像ラベルアノテーション法(joint image-label annotation)を提案している。いずれも、画像およびラベルの双方を、隠れ空間（hidden space）へマッピングし、画像およびラベルの分散表現間の距離に応じて、画像のラベルを決定する。

Xue Nianwen, and Yaqin Yang. "Dependency-based empty category detection via phrase structure trees." In HLT-NAACL, pp. 1051-1060. 2013. Weston Jason, Samy Bengio, and Nicolas Usunier. "Wsabie: Scaling up to large vocabulary image annotation." IJCAI. Vol. 11. 2011.1

本発明では、入力されたテキストの空範疇の位置および種類を精度よく推定することができる空範疇推定装置、方法、及びプログラムを提供することを目的とする。

また、テキストの空範疇の位置および種類を精度よく推定するためのモデルを学習することができる空範疇推定モデル学習装置、方法、及びプログラムを提供することを目的とする。

上記目的を達成するために、第１の発明に係る空範疇推定装置は、入力テキストから、省略又は移動により生じた名詞的語句である空範疇を推定するための空範疇推定装置であって、前記入力テキストの依存構造木に基づいて、空範疇の位置の候補の各々に対し、前記空範疇の位置の候補の特徴として、単語の分散表現等を抽出する特徴抽出部と、予め学習された、前記特徴から低次元空間への写像、及び空範疇ラベルの各々から前記低次元空間への写像を含むモデルと、前記特徴抽出部によって抽出された前記空範疇の位置の候補の各々の前記特徴とに基づいて、前記空範疇の位置及び前記空範疇ラベルを推定する推定部と、を含んで構成されている。

第２の発明に係る空範疇推定方法は、特徴抽出部及び推定部を含み、入力テキストから、省略又は移動により生じた名詞的語句である空範疇を推定するための空範疇推定装置における空範疇推定方法であって、前記特徴抽出部が、前記入力テキストの依存構造木に基づいて、空範疇の位置の候補の各々に対し、前記空範疇の位置の候補の特徴として、単語の分散表現等を抽出し、前記推定部が、予め学習された、前記特徴から低次元空間への写像、及び空範疇ラベルの各々から前記低次元空間への写像を含むモデルと、前記特徴抽出部によって抽出された前記空範疇の位置の候補の各々の前記特徴とに基づいて、前記空範疇の位置及び前記空範疇ラベルを推定する。

第１及び第２の発明によれば、前記特徴抽出部が、前記入力テキストの依存構造木に基づいて、空範疇の位置の候補の各々に対し、前記空範疇の位置の候補の特徴として、単語の分散表現等を抽出する。そして、前記推定部が、予め学習された、前記特徴から低次元空間への写像、及び空範疇ラベルの各々から前記低次元空間への写像を含むモデルと、前記特徴抽出部によって抽出された前記空範疇の位置の候補の各々の前記特徴とに基づいて、前記空範疇の位置及び前記空範疇ラベルを推定する。

このように、入力テキストの依存構造木に基づいて、空範疇の位置の候補の各々の特徴として単語の分散表現等を抽出し、特徴から低次元空間への写像、及び空範疇ラベルの各々から低次元空間への写像を含むモデルに基づいて、空範疇の位置及び空範疇ラベルを推定することにより、入力されたテキストの空範疇の位置および種類を精度よく推定することができる。

第３の発明に係る空範疇推定モデル学習装置は、省略又は移動により生じた名詞的語句である空範疇の位置及び空範疇ラベルが付与された複数のテキストの各々について、前記テキストの依存構造木に基づいて、空範疇の位置の候補の各々に対し、前記空範疇の位置の候補の特徴として、単語の分散表現等を抽出する特徴抽出部と、前記特徴抽出部によって前記複数のテキストの各々について抽出された前記空範疇の位置の候補の各々の前記特徴と、前記複数のテキストの各々に付与された前記空範疇の位置及び空範疇ラベルとに基づいて、前記特徴から低次元空間への写像、及び空範疇ラベルの各々から前記低次元空間への写像を含むモデルを学習する学習部と、を含んで構成されている。

第４の発明に係る空範疇推定モデル学習方法は、特徴抽出部及び学習部を含む空範疇推定モデル学習装置における空範疇推定モデル学習方法であって、前記特徴抽出部が、省略又は移動により生じた名詞的語句である空範疇の位置及び空範疇ラベルが付与された複数のテキストの各々について、前記テキストの依存構造木に基づいて、空範疇の位置の候補の各々に対し、前記空範疇の位置の候補の特徴として、単語の分散表現等を抽出し、前記学習部が、前記特徴抽出部によって前記複数のテキストの各々について抽出された前記空範疇の位置の候補の各々の前記特徴と、前記複数のテキストの各々に付与された前記空範疇の位置及び空範疇ラベルとに基づいて、前記特徴から低次元空間への写像、及び空範疇ラベルの各々から前記低次元空間への写像を含むモデルを学習する。

第３及び第４の発明によれば、前記特徴抽出部が、省略又は移動により生じた名詞的語句である空範疇の位置及び空範疇ラベルが付与された複数のテキストの各々について、前記テキストの依存構造木に基づいて、空範疇の位置の候補の各々に対し、前記空範疇の位置の候補の特徴として、単語の分散表現等を抽出する。そして、前記学習部が、前記特徴抽出部によって前記複数のテキストの各々について抽出された前記空範疇の位置の候補の各々の前記特徴と、前記複数のテキストの各々に付与された前記空範疇の位置及び空範疇ラベルとに基づいて、前記特徴から低次元空間への写像、及び空範疇ラベルの各々から前記低次元空間への写像を含むモデルを学習する。

このように、テキストの依存構造木に基づいて、空範疇の位置の候補の各々の特徴として単語の分散表現等を抽出し、複数のテキストの各々に付与された前記空範疇の位置及び空範疇ラベルに基づいて、前記特徴から低次元空間への写像、及び空範疇ラベルの各々から前記低次元空間への写像を含むモデルを学習することにより、テキストの空範疇の位置および種類を精度よく推定するためのモデルを学習することができる。

また、本発明のプログラムは、コンピュータを、上記の空範疇推定装置、及び空範疇推定モデル学習装置を構成する各部として機能させるためのプログラムである。

以上説明したように、本発明の空範疇推定装置、方法、及びプログラムによれば、入力テキストの依存構造木に基づいて、空範疇の位置の候補の各々の特徴として単語の分散表現等を抽出し、特徴から低次元空間への写像、及び空範疇ラベルの各々から低次元空間への写像を含むモデルに基づいて、空範疇の位置及び空範疇ラベルを推定することにより、入力されたテキストの空範疇の位置および種類を精度よく推定することができる。

また、本発明の空範疇推定モデル学習装置、方法、及びプログラムによれば、テキストの依存構造木に基づいて、空範疇の位置の候補の各々の特徴として単語の分散表現等を抽出し、複数のテキストの各々に付与された前記空範疇の位置及び空範疇ラベルに基づいて、前記特徴から低次元空間への写像、及び空範疇ラベルの各々から前記低次元空間への写像を含むモデルを学習することにより、テキストの空範疇の位置および種類を精度よく推定するためのモデルを学習することができる。

空範疇の位置を説明するための図である。 (a)依存関係タイプ付きの依存構造木の例を示す図、(b)ルートから空範疇OPへ至る経路を示す図、及び(c)ルートから空範疇OPへ至る経路上の各単語に対する依存関係タイプの列を示す図である。本発明の実施の形態に係る空範疇推定モデル学習装置の機能的構成を示すブロック図である。本発明の実施の形態に係る空範疇推定装置の機能的構成を示すブロック図である。本発明の実施の形態に係る空範疇推定モデル学習装置における空範疇推定モデル学習処理ルーチンを示すフローチャート図である。本発明の実施の形態に係る空範疇推定装置における空範疇推定処理ルーチンを示すフローチャート図である。テストデータにおける空範疇ラベルの分布を示す図である。実験結果を示す図である。

以下、図面を参照して本発明の実施の形態を詳細に説明する。

＜本発明の実施の形態の概要＞
本実施の形態は、同時文脈ラベル埋込法(joint context-label embedding)を用いた空範疇（ＥＣ：empty category）検出の品質を向上させることを目的とする。空範疇は、テキスト中に明示的には現れていない名詞的単語（nominal word）である。通例、省略または移動により生じる。本実施の形態では、空範疇の位置の特徴として、単語の分散表現を、空範疇の存在およびラベルを決定するために用いる。

空範疇検出は、テキストにおいて省略または移動により生じた名詞的語句を検出するものである。本実施の形態では、これを分類問題として定式化している。本実施の形態では、各種のＥＣをクラスとして定義する。さらに、ＥＣではない位置を「NONE」と呼ぶことにする。それにより、ＥＣのとりうる位置の全てを収集し、これらの位置を、事前に定義されたクラスへと分類することがタスクとなる。

本実施の形態では、モデルを用いて、ＥＣ位置を分類する。これには、主要な部分問題が２つある。一方は、ＥＣ位置を特徴として表現することであり、他方は、これらの位置を、事前に定義されたクラスに分類することである。

以下に、本実施の形態に係る空範疇推定装置の原理について説明する。

＜ＥＣ位置表現＞
＜ＥＣ位置の記述＞
非特許文献１に示された方法に引き続き、我々は、ＥＣの位置の候補の全てを、テキスト中の単語の依存関係を表わす依存構造木を用いて収集する。ＥＣの位置の候補の各々は、単語対、すなわち「<主辞単語，後続単語>」を用いて表現可能である。後続単語(following word)とは、文中の記述位置に続く単語のことである。主辞単語(head word)は、依存構造木においてその位置にECがあると仮定する際にECが修飾する(attach)単語のことである。図１Ａは中国語の文「吃了」に対する依存構造木においてＥＣの位置を表現する例である。先頭が「吃」であり、「了」が後続するため、ＥＣの位置の候補Position-1は「<吃，了>」として表現され、ＥＣの位置の候補Position-2は、「<吃，。>」として表現される。

＜ＥＣ位置の特徴抽出＞
そして、我々は、上述のように定義された各ＥＣの位置の候補の特徴を抽出する。特徴ベクトルは、ＥＣ検出に役立つものと期待される、テキスト中の単語の分散表現を連結することにより構成される。本実施の形態では、あるＥＣに対する特徴ベクトルが、（１）主辞単語（ダミーのルートノードを除く）の分散表現、（２）テキスト中の後続単語の分散表現、（３）「甥（nephews）」すなわち後続単語の子の分散表現、（４）依存構造木の経路上の各単語の分散表現を含んで構成される。これらを特徴テンプレートと呼ぶ。

（１）主辞単語（ダミーのルートノードを除く）の分散表現について、単語がｄ次元ベクトルを用いて表現されるものとすると、この特徴を表現するためにｄ次元が必要となる。主辞単語の分散表現は、特徴ベクトル中の対応する位置に置かれることになる。

（２）テキスト中の後続単語の分散表現について、この特徴は、主辞単語と同じ方法で抽出される。

（３）「甥（nephews）」すなわち後続単語の子の分散表現について、後続単語の子となる単語のうち、左端側の２つの単語を選択し、選択した２つの単語の分散表現を用いる。

（４）依存構造木の経路上の各単語の分散表現について、テキストの依存構造木に基いて、ルートノードからＥＣの位置の候補までの経路上の全ての単語（ＥＣの位置の候補は除外）の分散表現を、依存関係タイプの列とともに収集する。図１Ｂ(a)に依存関係タイプ付きの依存構造木の例を示す。図１Ｂ(b)はルートから空範疇OPへ至る経路である。また図１Ｂ(c)はルートから空範疇OPへ至る経路上の各単語
に対する依存関係タイプの列である。このような依存関係タイプの列がm種類あり、単語がd次元のベクトルで表現されるとすると、この特徴を表現するためにmd次元が必要となる。この経路上の各単語の分散表現と依存関係タイプの列は、特徴ベクトル中の対応する位置に置かれる。

本実施の形態では、上記の特徴ベクトルにおいて、ベクトル中の単語を、事前トレーニング済辞書から取得された分散表現で置き換える。次のステップにて、抽出された特徴ベクトルを用いて、ＥＣの位置の候補のラベル（ＥＣタイプ）を決定する。

＜同時アノテーション法を用いたＥＣ検出＞
本実施の形態におけるＥＣ検出方法は、２つの写像MAP_A、MAP_Bから成る。MAP_Aは、ＥＣの位置の候補に対するn次元の特徴ベクトルXから、低次元(k次元)のベクトル空間への写像f_A(X)を表す。

MAP_A: Rⁿ → R^k, k ≪ n
f_A(X) → W_AX (1)

ただし、MAP_Aは、線形変換であり、W_Aは、k * n行列である。

MAP_Bは、ラベルから低次元(k次元)のベクトル空間への写像である。

MAP_B: {Label₁, Label₂,…} I R → R^k
f_B（Label_i） → Wⁱ _B (2)

ただし、MAP_Bも、線形変換である。Wⁱ _Bは、ｋ次元ベクトルであり、2次元空間におけるlabel_iの分散表現でもある。

２つの写像は、トレーニングデータから同時に学習される。テスト段階では、分類すべきＥＣの位置の候補の全てについて、対応する特徴ベクトルXを抽出し、f_A(X) = W_AXを用いて、特徴ベクトルXを低次元空間へ写像する。

そして、各label_iについて、以下のようにg_i(X)を得る。

g_i(X) = (f_A(X))^TWⁱ _B (3)

とりうるlabel_iの各々において、g_i(X)は、当該label_iとなる尤もらしさを表わすスコアであり、ＥＣの位置の候補について推定されるラベルは、g_i(X)を最大化するlabel_iである。

また、２つの写像MAP_A、MAP_Bで用いられるW_A、Wⁱ _Bを学習するために、本実施の形態では、非特許文献２の方法を用いて、以下の（４）式に示す、重み付けされたペア損失（weighted pairwise loss）を最小化するようにして、確率的勾配降下法（stochastic gradient descent）を用いて学習する。

Σ_XΣ_i ¹ _c L(rank_c(X)max(0, (g_i(X) - g_c(X))) （4）

ここでcは、特徴ベクトルXについての正解ラベルであり、rank_c(X)は、Xについてとりうる全てのラベルのうちの正解ラベルcのランクである。Lは、エラーに対する態度を反映した関数である。定数関数L = Cは、完全なランクリスト（ranking list）を最適化しようとすることを意味している。ここで、本実施の形態では、L(α) = Σ^α _i=1 1/iを用いており、これは、ランクリストの最上位のものを最適化するためのものである。学習率および確率的勾配降下法アルゴリズムの他のいくつかのパラメータは、開発セットを用いて予め最適化されたものを用いればよい。

本実施の形態では、非特許文献２の方法を用いて、２つの写像MAP_A、MAP_Bを含むニューラルネットワークモデルを学習する。その他の実施の形態としては、多クラス分類を行う一つのニューラルネットワークモデルを直接学習してもよい。2つの写像を用いてECの位置とラベルを一つの低次元ベクトル空間に写像することの利点は、ラベルの種類(クラス数)が大きくなっても空範疇推定を精度よく行えることである。例えば、省略された代名詞を表すラベルproを、人称(一人称/二人称/三人称)・性別(男性/女性)・数(単数/複数)などに応じて細分化してもよいし、依存構造木における依存関係タイプとして表現される統語的な役割(主語/直接目的語/間接目的語など)に応じて細分化してもよい。

＜本発明の実施の形態に係る空範疇推定モデル学習装置の構成＞
次に、本発明の実施の形態に係る空範疇推定モデル学習装置の構成について説明する。図２に示すように、本発明の実施の形態に係る空範疇推定モデル学習装置１００は、ＣＰＵと、ＲＡＭと、後述する空範疇推定モデル学習処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することが出来る。この空範疇推定モデル学習装置１００は、機能的には図２に示すように入力部１０と、演算部２０と、出力部９０とを備えている。

入力部１０は、ＥＣの位置及びＥＣラベルの正解データが予め付与された、学習用のテキストを表す依存構造木を複数受け付け、複数の依存構造木を依存構造木２２に記憶し、複数の依存構造木の各々に付与されているＥＣの位置及びＥＣラベルの正解データを、ＥＣラベル正解データ３８に記憶する。

演算部２０は、依存構造木２２と、特徴テンプレート作成部２４と、特徴テンプレート２６と、単語分散表現２８と、特徴抽出部３０と、ＥＣ位置特徴ベクトル３２と、初期化モデル３４と、初期化ＥＣラベル分散表現３６と、ＥＣラベル正解データ３８と、学習部４０と、モデル５２と、ＥＣラベル分散表現５４と、を含んで構成されている。

依存構造木２２には、入力部１０において受け付けた、複数の学習用のテキストを表す複数の依存構造木が記憶されている。

特徴テンプレート作成部２４は、複数の依存構造木の各々について、特徴テンプレートを作成し、特徴テンプレート２６に格納する。

単語分散表現２８には、予め学習された各単語の分散表現が記憶されている。

特徴抽出部３０は、複数の依存構造木について、特徴テンプレート作成部２４によって作成された特徴テンプレートに基づいて、ＥＣの位置の候補の各々の特徴ベクトルを抽出し、ＥＣ位置特徴ベクトル３２に格納する。

初期化モデル３４には、初期化されたモデルとして、写像MAP_Aで用いられる行列W_Aの初期値が格納されている。なお、初期値として、ランダムに設定された値を用いればよい。

初期化ＥＣラベル分散表現３６には、初期化されたモデルとして、写像MAP_Bで用いられる各ＥＣラベルlabel_iに対する行列Wⁱ _Bの初期値が格納されている。なお、初期値として、ランダムに設定された値を用いればよい。

ＥＣラベル正解データ３８には、入力部１０において受け付けた正解データに基づいて、複数の依存構造木について、ＥＣの位置の候補の各々のＥＣラベルのタイプ又はＥＣラベルがないことが記憶されている。

学習部４０は、ＥＣ位置特徴ベクトル３２、初期化モデル３４、初期化ＥＣラベル分散表現３６、及びＥＣラベル正解データ３８に基づいて、２つの写像MAP_A、MAP_Bで用いられる行列W_A、Wⁱ _Bを学習し、モデル５２及びＥＣラベル分散表現５４に格納する。

学習部４０は、更新モデル４２、ＥＣラベル分散表現４４、ＥＣラベル予測部４６、収束判定部４８、及びモデル更新部５０を備えている。

更新モデル４２には、初期化モデル３４と同じ行列W_A、又はモデル更新部５０によって更新された行列W_Aが記憶されている。

ＥＣラベル分散表現４４には、初期化ＥＣラベル分散表現３６と同じ各ＥＣラベルlabel_iに対する行列Wⁱ _B、又はモデル更新部５０によって更新された各ＥＣラベルlabel_iに対する行列Wⁱ _Bが記憶されている。

ＥＣラベル予測部４６は、ＥＣ位置特徴ベクトル３２、更新モデル４２、ＥＣラベル分散表現４４に基づいて、複数の依存構造木の各々について、上記（３）式に従って、ＥＣの位置の候補の各々の特徴ベクトルＸ及び各ＥＣラベルlabel_iに対するスコアを計算し、スコアが最大となるＥＣの位置及びＥＣラベルを予測する。

収束判定部４８は、複数の依存構造木の各々について、ＥＣラベル正解データ３８と、ＥＣラベル予測部４６によって予測されたＥＣの位置及びＥＣラベルとを比較して、収束したか否かを判定する。複数の依存構造木の各々について、ＥＣラベル正解データ３８と、ＥＣラベル予測部４６によって予測されたＥＣの位置及びＥＣラベルとが一致した場合に、収束したと判定し、現時点の行列W_Aをモデル５２に格納し、現時点の各ＥＣラベルlabel_iに対する行列Wⁱ _BをＥＣラベル分散表現５４に格納する。

モデル更新部５０は、ＥＣ位置特徴ベクトル３２と、更新モデル４２と、ＥＣラベル分散表現４４と、ＥＣラベル正解データ３８と、ＥＣラベル予測部４６によって予測されたＥＣの位置及びＥＣラベルとに基づいて、上記（４）式に示す、重み付けされたペア損失を最小化するように、２つの写像MAP_A、MAP_Bで用いられる行列W_A、Wⁱ _Bを更新し、更新された行列W_Aを更新モデル４２に格納し、更新された各ＥＣラベルlabel_iに対する行列Wⁱ _BをＥＣラベル分散表現４４に格納する。

モデル５２に記憶された行列W_A、及びＥＣラベル分散表現５４に記憶された、各ＥＣラベルlabel_iに対する行列Wⁱ _Bが、出力部９０により出力される。

＜本発明の実施の形態に係る空範疇推定装置の構成＞
次に、本発明の実施の形態に係る空範疇推定装置の構成について説明する。図３に示すように、本発明の実施の形態に係る空範疇推定装置２００は、ＣＰＵと、ＲＡＭと、後述する空範疇推定処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することが出来る。この空範疇推定装置２００は、機能的には図３に示すように入力部２１０と、演算部２２０と、出力部２９０とを備えている。

入力部２１０は、推定対象のテキストを表す依存構造木、及び特徴テンプレートを受け付け、依存構造木を依存構造木２２２に記憶し、特徴テンプレートを特徴テンプレート２２６に記憶する。

演算部２２０は、依存構造木２２２と、特徴テンプレート２２６と、単語分散表現２２８と、特徴抽出部２３０と、ＥＣ位置特徴ベクトル２３２と、モデル２３４と、ＥＣラベル分散表現２３６と、推定部２３８と、推定ＥＣラベル２４０と、を含んで構成されている。

依存構造木２２２には、入力部２１０において受け付けた、テキストを表す依存構造木が記憶されている。

特徴テンプレート２２６には、入力部２１０において受け付けた特徴テンプレートが記憶されている。なお、入力部２１０において受け付けた特徴テンプレートは、特徴テンプレート作成部２４と同様に作成されたものである。

単語分散表現２２８には、単語分散表現２８と同様に、予め学習された各単語の分散表現が記憶されている。

特徴抽出部２３０は、依存構造木について、特徴テンプレート２２６に基づいて、特徴抽出部３０と同様に、ＥＣの位置の候補の各々の特徴ベクトルを抽出し、ＥＣ位置特徴ベクトル３２に格納する。

モデル２３４には、空範疇推定モデル学習装置１００によって学習されたモデル５２と同じ、写像MAP_Aで用いられる行列W_Aが格納されている。

ＥＣラベル分散表現３６には、空範疇推定モデル学習装置１００によって学習されたＥＣラベル分散表現５４と同じ、写像MAP_Bで用いられる各ＥＣラベルlabel_iに対する行列Wⁱ _Bが格納されている。

推定部２３８は、ＥＣ位置特徴ベクトル２３２、モデル２３４、ＥＣラベル分散表現２３６に基づいて、依存構造木について、上記（３）式に従って、ＥＣの位置の候補の各々の特徴ベクトルＸ及び各ＥＣラベルlabel_iに対するスコアを計算し、スコアが最大となるＥＣの位置及びＥＣラベルを、ＥＣラベルの推定結果とし、推定ＥＣラベル２４０に格納する。

推定ＥＣラベル２４０に記憶されたＥＣの位置及びＥＣラベルが、出力部２９０により出力される。

＜本発明の実施の形態に係る空範疇推定モデル学習装置の作用＞
次に、本発明の実施の形態に係る空範疇推定モデル学習装置１００の作用について説明する。入力部１０において、ＥＣの位置及びＥＣラベルの正解データが予め付与された、学習用のテキストを表す依存構造木を複数受け付けると、複数の依存構造木を依存構造木２２に記憶すると共に、正解データを、ＥＣラベル正解データ３８に記憶し、空範疇推定モデル学習装置１００は、図４に示す空範疇推定モデル学習処理ルーチンを実行する。

まず、ステップＳ１００では、依存構造木２２に記憶されている複数の依存構造木を読み込む。

次に、ステップＳ１０２では、特徴テンプレートを作成する。ステップＳ１０４では、依存構造木２２に記憶されている複数の依存構造木、単語分散表現２８に記憶されている各単語の分散表現、及びＥＣラベル正解データ３８に記憶されているＥＣの位置及びＥＣラベルの正解データを読み込む。

そして、ステップＳ１０６では、複数の依存構造木の各々について、上記ステップＳ１０２で作成された特徴テンプレートに基づいて、ＥＣの位置の候補の各々の特徴ベクトルを作成し、ＥＣ位置特徴ベクトル３２に格納する。

ステップＳ１０８では、写像MAP_Aで用いられる行列W_Aの初期値をランダムに設定し、初期化モデル３４及び更新モデル４２に格納する。また、写像MAP_Bで用いられる各ＥＣラベルlabel_iに対する行列Wⁱ _Bの初期値をランダムに設定し、初期化ＥＣラベル分散表現３６及びＥＣラベル分散表現４４に格納する。

そして、ステップＳ１１０では、複数の依存構造木の各々について、ＥＣ位置特徴ベクトル３２、更新モデル４２、及びＥＣラベル分散表現４４に基づいて、ＥＣ位置及びＥＣラベルを予測する。

次のステップＳ１１２では、上記ステップＳ１１０で複数の依存構造木の各々について予測されたＥＣ位置及びＥＣラベルと、ＥＣラベル正解データ３８とを比較して、収束したか否かを判定する。上記ステップＳ１１０で複数の依存構造木の各々について予測されたＥＣ位置及びＥＣラベルと、ＥＣラベル正解データ３８とが一致していない場合には、収束していないと判定し、ステップＳ１１４へ移行する。一方、上記ステップＳ１１０で複数の依存構造木の各々について予測されたＥＣ位置及びＥＣラベルと、ＥＣラベル正解データ３８とが一致している場合には、収束したと判定し、ステップＳ１１６へ移行する。

ステップＳ１１４では、ＥＣ位置特徴ベクトル３２と、更新モデル４２と、ＥＣラベル分散表現４４と、ＥＣラベル正解データ３８と、上記ステップＳ１１０で予測されたＥＣの位置及びＥＣラベルとに基づいて、上記（４）式に示す、重み付けされたペア損失を最小化するように、２つの写像MAP_A、MAP_Bで用いられる行列W_A、Wⁱ _Bを更新し、更新された行列W_Aを更新モデル４２に格納し、更新された各ＥＣラベルlabel_iに対する行列Wⁱ _BをＥＣラベル分散表現４４に格納し、ステップＳ１１０へ戻る。

ステップＳ１１６では、現時点の行列W_Aをモデル５２に格納し、現時点の各ＥＣラベルlabel_iに対する行列Wⁱ _BをＥＣラベル分散表現５４に格納し、空範疇推定モデル学習処理ルーチンを終了する。

＜本発明の実施の形態に係る空範疇推定装置の作用＞
次に、本発明の実施の形態に係る空範疇推定装置２００の作用について説明する。入力部２１０において推定対象のテキストを表す依存構造木、及び特徴テンプレートを受け付けると、受け付けた依存構造木を依存構造木２２２に記憶すると共に、特徴テンプレートを、特徴テンプレート２２６に記憶し、空範疇推定装置２００は、図５に示す空範疇推定処理ルーチンを実行する。

まず、ステップＳ２００では、依存構造木２２２に記憶されている依存構造木、単語分散表現２２８に記憶されている各単語の分散表現、及び特徴テンプレート２２６に記憶されている特徴テンプレートを読み込む。

次に、ステップＳ２０２では、ステップＳ２００で読み込んだ特徴テンプレートに基づいて、ＥＣの位置の候補の各々の特徴ベクトルを作成し、ＥＣ位置特徴ベクトル２３２に格納する。

そして、ステップＳ２０４では、依存構造木について、ＥＣ位置特徴ベクトル２３２、モデル２３４、及びＥＣラベル分散表現２３６に基づいて、ＥＣ位置及びＥＣラベルを予測し、空範疇推定処理ルーチンを終了する。

＜実施例＞
＜実験データ＞
本実施の形態で説明した方法は、アノテーションされたコーパスが利用可能な様々な種類の言語に適用可能である。我々の実験では、中国語ツリーバンクV7.0（Chinese Penn Treebank V7.0）の一部を用いた。データセットを、トレーニングデータ、開発データおよびテストデータの３つの部分に分ける。従来の研究に引き続き、我々は、ファイル1〜40および901〜931をテストデータとし、ファイル41〜80を開発データとしている。トレーニングデータには、ファイル{81〜325，400〜454，500〜554，590〜596，6000〜885，900}が含まれている。図６に、テストデータにおけるＥＣラベルの分布を示す。この実験における本実施形態では、2つのECが同じ主辞単語と後続単語を持つ場合を扱わなかったので、テストデータにおけるECの合計は非特許文献１より若干少ない（なお、本実施形態において、ECラベルを依存関係タイプを考慮するように拡張すれば、このような場合も扱うことができる）。開発データは、パラメータを調整するために用いられ、その最終結果はテストデータについて報告される。CTBツリーは、ＥＣが保たれた特徴抽出用の依存構造木に変換して用いた。

＜実験設定＞
実験において、パラメータを、学習率（learning rate）=10^-1、単語ベクトル次元=80、および隠れ層（hidden layer）次元=500に設定した。

＜実験結果＞
図７に、実験結果として、正解数（correct）と適合率(p)と再現率（ｒ）とＦ１値（Ｆ１）とを示す。ここでは空範疇ラベルとして、Chinese Penn Treebankで定義されているものをそのまま用いた。PRO (big PRO)はコントロール構文などに出現する義務的な照応、pro (small pro)は省略された代名詞、Tは関係節や主題化などの移動における痕跡、OPは空の関係代名詞、RNRは右節点繰り上げ、*は受動構文や繰り上げ構文により生じた痕跡を表す。本実施の形態の手法の結果と、従来の最先端技術による方法（非特許文献１のXue）とを比較する。ここに提供した方法は、CTBについて我々が知る限り最新の最先端技術による性能をもたらすものである。本実施の形態の手法は、従来の最先端技術による方法より、高精度にＥＣラベルを推定できることが分かった。

以上説明したように、本発明の実施の形態に係る空範疇推定装置によれば、入力テキストの依存構造木に基づいて、ＥＣの位置の候補の各々の特徴ベクトルとして単語の分散表現を抽出し、特徴ベクトルから低次元空間への写像、及び空範疇ラベルの各々から低次元空間への写像を含むモデルに基づいて、空範疇の位置及び空範疇ラベルを推定することにより、入力されたテキストの空範疇の位置および種類を精度よく推定することができる。

また、本発明の実施の形態に係る空範疇推定モデル学習装置によれば、テキストの依存構造木に基づいて、ＥＣの位置の候補の各々の特徴ベクトルとして単語の分散表現を抽出し、複数のテキストの各々に付与された前記空範疇の位置及び空範疇ラベルに基づいて、特徴ベクトルから低次元空間への写像、及び空範疇ラベルの各々から低次元空間への写像を含むモデルを学習することにより、テキストの空範疇の位置を精度よく推定するためのモデルを学習することができる。

また、実験により、本実施の形態で説明した手法は、空範疇を、従来のものよりも高精度かつ高い再現性で検出可能であることが示されている。特徴の分散表現、および学習した２つの写像を含むニューラルネットワークモデルにより、空範疇の位置及びラベルを推定し、空範疇の意味および長距離依存関係を取得することができる。

なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

例えば、推定対象のテキストの入力を受け付け、空範疇推定装置において、推定対象のテキストに対して、依存構造解析を行って、依存構造木を作成するようにしてもよい。
また、中国語のテキストに対して、空範疇を推定する場合を例に説明したが、これに限定されるものではなく、中国語以外の言語、例えば、日本語のテキストに対して、空範疇を推定するようにしてもよい。

また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能であるし、ネットワークを介して提供することも可能である。

１０、２１０入力部
２０、２２０演算部
２４特徴テンプレート作成部
３０、２３０特徴抽出部
４０学習部
４６ラベル予測部
４８収束判定部
５０モデル更新部
９０、２９０出力部
１００空範疇推定モデル学習装置
２００空範疇推定装置
２３８推定部

Claims

入力テキストから、省略又は移動により生じた名詞的語句である空範疇を推定するための空範疇推定装置であって、
前記入力テキストの依存構造木に基づいて、空範疇の位置の候補の各々に対し、前記空範疇の位置の候補の特徴として、単語の分散表現を抽出する特徴抽出部と、
予め学習された、前記特徴から低次元空間への写像、及び空範疇ラベルの各々から前記低次元空間への写像を含むモデルと、前記特徴抽出部によって抽出された前記空範疇の位置の候補の各々の前記特徴とに基づいて、前記空範疇の位置及び前記空範疇ラベルを推定する推定部と、
を含む空範疇推定装置。
前記特徴抽出部は、前記空範疇の位置の候補の特徴として、前記空範疇の位置の候補の主辞単語の分散表現、前記空範疇の位置の候補に後続する後続単語の分散表現、前記依存構造木における、前記後続単語に対応するノードの子ノードが表す単語の分散表現、及び前記依存構造木における、ルートノードから前記空範疇の位置の候補までの経路上の各単語の分散表現の少なくとも１つを抽出する請求項１記載の空範疇推定装置。
前記推定部は、前記特徴抽出部によって抽出された前記空範疇の位置の候補の前記特徴、前記特徴から低次元空間への写像、及び前記空範疇ラベルから前記低次元空間への写像に基づいて算出されるスコアが最大となる、前記空範疇の位置の候補及び前記空範疇ラベルの組み合わせを、前記空範疇の位置及び前記空範疇ラベルの推定結果とする請求項１又は２記載の空範疇推定装置。
省略又は移動により生じた名詞的語句である空範疇の位置及び空範疇ラベルが付与された複数のテキストの各々について、前記テキストの依存構造木に基づいて、空範疇の位置の候補の各々に対し、前記空範疇の位置の候補の特徴として、単語の分散表現を抽出する特徴抽出部と、
前記特徴抽出部によって前記複数のテキストの各々について抽出された前記空範疇の位置の候補の各々の前記特徴と、前記複数のテキストの各々に付与された前記空範疇の位置及び空範疇ラベルとに基づいて、前記特徴から低次元空間への写像、及び空範疇ラベルの各々から前記低次元空間への写像を含むモデルを学習する学習部と、
を含む空範疇推定モデル学習装置。
前記特徴抽出部は、前記空範疇の位置の候補の特徴として、前記空範疇の位置の候補の主辞単語の分散表現、前記空範疇の位置の候補に後続する後続単語の分散表現、前記依存構造木における、前記後続単語に対応するノードの子ノードが表す単語の分散表現、及び前記依存構造木における、ルートノードから前記空範疇の位置の候補までの経路上の各単語の分散表現の少なくとも１つを抽出する請求項４記載の空範疇推定モデル学習装置。
特徴抽出部及び推定部を含み、入力テキストから、省略又は移動により生じた名詞的語句である空範疇を推定するための空範疇推定装置における空範疇推定方法であって、
前記特徴抽出部が、前記入力テキストの依存構造木に基づいて、空範疇の位置の候補の各々に対し、前記空範疇の位置の候補の特徴として、単語の分散表現を抽出し、
前記推定部が、予め学習された、前記特徴から低次元空間への写像、及び空範疇ラベルの各々から前記低次元空間への写像を含むモデルと、前記特徴抽出部によって抽出された前記空範疇の位置の候補の各々の前記特徴とに基づいて、前記空範疇の位置及び前記空範疇ラベルを推定する
空範疇推定方法。
特徴抽出部及び学習部を含む空範疇推定モデル学習装置における空範疇推定モデル学習方法であって、
前記特徴抽出部が、省略又は移動により生じた名詞的語句である空範疇の位置及び空範疇ラベルが付与された複数のテキストの各々について、前記テキストの依存構造木に基づいて、空範疇の位置の候補の各々に対し、前記空範疇の位置の候補の特徴として、単語の分散表現を抽出し、
前記学習部が、前記特徴抽出部によって前記複数のテキストの各々について抽出された前記空範疇の位置の候補の各々の前記特徴と、前記複数のテキストの各々に付与された前記空範疇の位置及び空範疇ラベルとに基づいて、前記特徴から低次元空間への写像、及び空範疇ラベルの各々から前記低次元空間への写像を含むモデルを学習する
空範疇推定モデル学習方法。
コンピュータを、請求項１〜請求項３の何れか１項記載の空範疇推定装置の各部として機能させるためのプログラム。
コンピュータを、請求項４又は５記載の空範疇推定モデル学習装置の各部として機能させるためのプログラム。