JP6381136B2 - 空範疇推定装置、空範疇推定モデル学習装置、方法、及びプログラム - Google Patents

空範疇推定装置、空範疇推定モデル学習装置、方法、及びプログラム Download PDF

Info

Publication number
JP6381136B2
JP6381136B2 JP2015103963A JP2015103963A JP6381136B2 JP 6381136 B2 JP6381136 B2 JP 6381136B2 JP 2015103963 A JP2015103963 A JP 2015103963A JP 2015103963 A JP2015103963 A JP 2015103963A JP 6381136 B2 JP6381136 B2 JP 6381136B2
Authority
JP
Japan
Prior art keywords
category
empty category
empty
label
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015103963A
Other languages
English (en)
Other versions
JP2016218806A (ja
Inventor
ジュン オウ
ジュン オウ
克仁 須藤
克仁 須藤
永田 昌明
昌明 永田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2015103963A priority Critical patent/JP6381136B2/ja
Publication of JP2016218806A publication Critical patent/JP2016218806A/ja
Application granted granted Critical
Publication of JP6381136B2 publication Critical patent/JP6381136B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Description

本発明は、空範疇推定装置、空範疇推定モデル学習装置、方法、及びプログラムに係り、特に、入力されたテキストの空範疇の位置および種類を推定するための空範疇推定装置、空範疇推定モデル学習装置、方法、及びプログラムに関する。
空範疇検出とは、所与の文章の一部から空範疇を検出することである。従来の研究は、空範疇検出を、主に、分類問題として、あるいは完全な構文解析の副次的問題として、定式化してきた。
非特許文献1は、ECのとりうる位置を示す依存関係木を用いている。また、非特許文献1では、依存関係木を用いて、ECのとりうる位置の特徴を抽出している。そして、アノテーションされたデータから、分類モデルがトレーニングされる。
非特許文献2は、多数のクラスにまでスケールを拡大可能な同時画像ラベルアノテーション法(joint image-label annotation)を提案している。いずれも、画像およびラベルの双方を、隠れ空間(hidden space)へマッピングし、画像およびラベルの分散表現間の距離に応じて、画像のラベルを決定する。
Xue Nianwen, and Yaqin Yang. "Dependency-based empty category detection via phrase structure trees." In HLT-NAACL, pp. 1051-1060. 2013. Weston Jason, Samy Bengio, and Nicolas Usunier. "Wsabie: Scaling up to large vocabulary image annotation." IJCAI. Vol. 11. 2011.1
本発明では、入力されたテキストの空範疇の位置および種類を精度よく推定することができる空範疇推定装置、方法、及びプログラムを提供することを目的とする。
また、テキストの空範疇の位置および種類を精度よく推定するためのモデルを学習することができる空範疇推定モデル学習装置、方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、第1の発明に係る空範疇推定装置は、入力テキストから、省略又は移動により生じた名詞的語句である空範疇を推定するための空範疇推定装置であって、前記入力テキストの依存構造木に基づいて、空範疇の位置の候補の各々に対し、前記空範疇の位置の候補の特徴として、単語の分散表現等を抽出する特徴抽出部と、予め学習された、前記特徴から低次元空間への写像、及び空範疇ラベルの各々から前記低次元空間への写像を含むモデルと、前記特徴抽出部によって抽出された前記空範疇の位置の候補の各々の前記特徴とに基づいて、前記空範疇の位置及び前記空範疇ラベルを推定する推定部と、を含んで構成されている。
第2の発明に係る空範疇推定方法は、特徴抽出部及び推定部を含み、入力テキストから、省略又は移動により生じた名詞的語句である空範疇を推定するための空範疇推定装置における空範疇推定方法であって、前記特徴抽出部が、前記入力テキストの依存構造木に基づいて、空範疇の位置の候補の各々に対し、前記空範疇の位置の候補の特徴として、単語の分散表現等を抽出し、前記推定部が、予め学習された、前記特徴から低次元空間への写像、及び空範疇ラベルの各々から前記低次元空間への写像を含むモデルと、前記特徴抽出部によって抽出された前記空範疇の位置の候補の各々の前記特徴とに基づいて、前記空範疇の位置及び前記空範疇ラベルを推定する。
第1及び第2の発明によれば、前記特徴抽出部が、前記入力テキストの依存構造木に基づいて、空範疇の位置の候補の各々に対し、前記空範疇の位置の候補の特徴として、単語の分散表現等を抽出する。そして、前記推定部が、予め学習された、前記特徴から低次元空間への写像、及び空範疇ラベルの各々から前記低次元空間への写像を含むモデルと、前記特徴抽出部によって抽出された前記空範疇の位置の候補の各々の前記特徴とに基づいて、前記空範疇の位置及び前記空範疇ラベルを推定する。
このように、入力テキストの依存構造木に基づいて、空範疇の位置の候補の各々の特徴として単語の分散表現等を抽出し、特徴から低次元空間への写像、及び空範疇ラベルの各々から低次元空間への写像を含むモデルに基づいて、空範疇の位置及び空範疇ラベルを推定することにより、入力されたテキストの空範疇の位置および種類を精度よく推定することができる。
第3の発明に係る空範疇推定モデル学習装置は、省略又は移動により生じた名詞的語句である空範疇の位置及び空範疇ラベルが付与された複数のテキストの各々について、前記テキストの依存構造木に基づいて、空範疇の位置の候補の各々に対し、前記空範疇の位置の候補の特徴として、単語の分散表現等を抽出する特徴抽出部と、前記特徴抽出部によって前記複数のテキストの各々について抽出された前記空範疇の位置の候補の各々の前記特徴と、前記複数のテキストの各々に付与された前記空範疇の位置及び空範疇ラベルとに基づいて、前記特徴から低次元空間への写像、及び空範疇ラベルの各々から前記低次元空間への写像を含むモデルを学習する学習部と、を含んで構成されている。
第4の発明に係る空範疇推定モデル学習方法は、特徴抽出部及び学習部を含む空範疇推定モデル学習装置における空範疇推定モデル学習方法であって、前記特徴抽出部が、省略又は移動により生じた名詞的語句である空範疇の位置及び空範疇ラベルが付与された複数のテキストの各々について、前記テキストの依存構造木に基づいて、空範疇の位置の候補の各々に対し、前記空範疇の位置の候補の特徴として、単語の分散表現等を抽出し、前記学習部が、前記特徴抽出部によって前記複数のテキストの各々について抽出された前記空範疇の位置の候補の各々の前記特徴と、前記複数のテキストの各々に付与された前記空範疇の位置及び空範疇ラベルとに基づいて、前記特徴から低次元空間への写像、及び空範疇ラベルの各々から前記低次元空間への写像を含むモデルを学習する。
第3及び第4の発明によれば、前記特徴抽出部が、省略又は移動により生じた名詞的語句である空範疇の位置及び空範疇ラベルが付与された複数のテキストの各々について、前記テキストの依存構造木に基づいて、空範疇の位置の候補の各々に対し、前記空範疇の位置の候補の特徴として、単語の分散表現等を抽出する。そして、前記学習部が、前記特徴抽出部によって前記複数のテキストの各々について抽出された前記空範疇の位置の候補の各々の前記特徴と、前記複数のテキストの各々に付与された前記空範疇の位置及び空範疇ラベルとに基づいて、前記特徴から低次元空間への写像、及び空範疇ラベルの各々から前記低次元空間への写像を含むモデルを学習する。
このように、テキストの依存構造木に基づいて、空範疇の位置の候補の各々の特徴として単語の分散表現等を抽出し、複数のテキストの各々に付与された前記空範疇の位置及び空範疇ラベルに基づいて、前記特徴から低次元空間への写像、及び空範疇ラベルの各々から前記低次元空間への写像を含むモデルを学習することにより、テキストの空範疇の位置および種類を精度よく推定するためのモデルを学習することができる。
また、本発明のプログラムは、コンピュータを、上記の空範疇推定装置、及び空範疇推定モデル学習装置を構成する各部として機能させるためのプログラムである。
以上説明したように、本発明の空範疇推定装置、方法、及びプログラムによれば、入力テキストの依存構造木に基づいて、空範疇の位置の候補の各々の特徴として単語の分散表現等を抽出し、特徴から低次元空間への写像、及び空範疇ラベルの各々から低次元空間への写像を含むモデルに基づいて、空範疇の位置及び空範疇ラベルを推定することにより、入力されたテキストの空範疇の位置および種類を精度よく推定することができる。
また、本発明の空範疇推定モデル学習装置、方法、及びプログラムによれば、テキストの依存構造木に基づいて、空範疇の位置の候補の各々の特徴として単語の分散表現等を抽出し、複数のテキストの各々に付与された前記空範疇の位置及び空範疇ラベルに基づいて、前記特徴から低次元空間への写像、及び空範疇ラベルの各々から前記低次元空間への写像を含むモデルを学習することにより、テキストの空範疇の位置および種類を精度よく推定するためのモデルを学習することができる。
空範疇の位置を説明するための図である。 (a)依存関係タイプ付きの依存構造木の例を示す図、(b)ルートから空範疇OPへ至る経路を示す図、及び(c)ルートから空範疇OPへ至る経路上の各単語に対する依存関係タイプの列を示す図である。 本発明の実施の形態に係る空範疇推定モデル学習装置の機能的構成を示すブロック図である。 本発明の実施の形態に係る空範疇推定装置の機能的構成を示すブロック図である。 本発明の実施の形態に係る空範疇推定モデル学習装置における空範疇推定モデル学習処理ルーチンを示すフローチャート図である。 本発明の実施の形態に係る空範疇推定装置における空範疇推定処理ルーチンを示すフローチャート図である。 テストデータにおける空範疇ラベルの分布を示す図である。 実験結果を示す図である。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
<本発明の実施の形態の概要>
本実施の形態は、同時文脈ラベル埋込法(joint context-label embedding)を用いた空範疇(EC:empty category)検出の品質を向上させることを目的とする。空範疇は、テキスト中に明示的には現れていない名詞的単語(nominal word)である。通例、省略または移動により生じる。本実施の形態では、空範疇の位置の特徴として、単語の分散表現を、空範疇の存在およびラベルを決定するために用いる。
空範疇検出は、テキストにおいて省略または移動により生じた名詞的語句を検出するものである。本実施の形態では、これを分類問題として定式化している。本実施の形態では、各種のECをクラスとして定義する。さらに、ECではない位置を「NONE」と呼ぶことにする。それにより、ECのとりうる位置の全てを収集し、これらの位置を、事前に定義されたクラスへと分類することがタスクとなる。
本実施の形態では、モデルを用いて、EC位置を分類する。これには、主要な部分問題が2つある。一方は、EC位置を特徴として表現することであり、他方は、これらの位置を、事前に定義されたクラスに分類することである。
以下に、本実施の形態に係る空範疇推定装置の原理について説明する。
<EC位置表現>
<EC位置の記述>
非特許文献1に示された方法に引き続き、我々は、ECの位置の候補の全てを、テキスト中の単語の依存関係を表わす依存構造木を用いて収集する。ECの位置の候補の各々は、単語対、すなわち「<主辞単語,後続単語>」を用いて表現可能である。後続単語(following word)とは、文中の記述位置に続く単語のことである。主辞単語(head word)は、依存構造木においてその位置にECがあると仮定する際にECが修飾する(attach)単語のことである。図1Aは中国語の文「吃了」に対する依存構造木においてECの位置を表現する例である。先頭が「吃」であり、「了」が後続するため、ECの位置の候補Position-1は「<吃,了>」として表現され、ECの位置の候補Position-2は、「<吃,。>」として表現される。
<EC位置の特徴抽出>
そして、我々は、上述のように定義された各ECの位置の候補の特徴を抽出する。特徴ベクトルは、EC検出に役立つものと期待される、テキスト中の単語の分散表現を連結することにより構成される。本実施の形態では、あるECに対する特徴ベクトルが、(1)主辞単語(ダミーのルートノードを除く)の分散表現、(2)テキスト中の後続単語の分散表現、(3)「甥(nephews)」すなわち後続単語の子の分散表現、(4)依存構造木の経路上の各単語の分散表現を含んで構成される。これらを特徴テンプレートと呼ぶ。
(1)主辞単語(ダミーのルートノードを除く)の分散表現について、単語がd次元ベクトルを用いて表現されるものとすると、この特徴を表現するためにd次元が必要となる。主辞単語の分散表現は、特徴ベクトル中の対応する位置に置かれることになる。
(2)テキスト中の後続単語の分散表現について、この特徴は、主辞単語と同じ方法で抽出される。
(3)「甥(nephews)」すなわち後続単語の子の分散表現について、後続単語の子となる単語のうち、左端側の2つの単語を選択し、選択した2つの単語の分散表現を用いる。
(4)依存構造木の経路上の各単語の分散表現について、テキストの依存構造木に基いて、ルートノードからECの位置の候補までの経路上の全ての単語(ECの位置の候補は除外)の分散表現を、依存関係タイプの列とともに収集する。図1B(a)に依存関係タイプ付きの依存構造木の例を示す。図1B(b)はルートから空範疇OPへ至る経路である。また図1B(c)はルートから空範疇OPへ至る経路上の各単語
に対する依存関係タイプの列である。このような依存関係タイプの列がm種類あり、単語がd次元のベクトルで表現されるとすると、この特徴を表現するためにmd次元が必要となる。この経路上の各単語の分散表現と依存関係タイプの列は、特徴ベクトル中の対応する位置に置かれる。
本実施の形態では、上記の特徴ベクトルにおいて、ベクトル中の単語を、事前トレーニング済辞書から取得された分散表現で置き換える。次のステップにて、抽出された特徴ベクトルを用いて、ECの位置の候補のラベル(ECタイプ)を決定する。
<同時アノテーション法を用いたEC検出>
本実施の形態におけるEC検出方法は、2つの写像MAPA、MAPBから成る。MAPAは、ECの位置の候補に対するn次元の特徴ベクトルXから、低次元(k次元)のベクトル空間への写像fA(X)を表す。
MAPA: Rn → Rk, k ≪ n
fA(X) → WAX (1)
ただし、MAPAは、線形変換であり、WAは、k * n行列である。
MAPBは、ラベルから低次元(k次元)のベクトル空間への写像である。
MAPB: {Label1, Label2,…} I R → Rk
fB(Labeli) → Wi B (2)
ただし、MAPBも、線形変換である。Wi Bは、k次元ベクトルであり、2次元空間におけるlabeliの分散表現でもある。
2つの写像は、トレーニングデータから同時に学習される。テスト段階では、分類すべきECの位置の候補の全てについて、対応する特徴ベクトルXを抽出し、fA(X) = WAXを用いて、特徴ベクトルXを低次元空間へ写像する。
そして、各labeliについて、以下のようにgi(X)を得る。
gi(X) = (fA(X))TWi B (3)
とりうるlabeliの各々において、gi(X)は、当該labeliとなる尤もらしさを表わすスコアであり、ECの位置の候補について推定されるラベルは、gi(X)を最大化するlabeliである。
また、2つの写像MAPA、MAPBで用いられるWA、Wi Bを学習するために、本実施の形態では、非特許文献2の方法を用いて、以下の(4)式に示す、重み付けされたペア損失(weighted pairwise loss)を最小化するようにして、確率的勾配降下法(stochastic gradient descent)を用いて学習する。
ΣXΣi 1 c L(rankc(X)max(0, (gi(X) - gc(X))) (4)
ここでcは、特徴ベクトルXについての正解ラベルであり、rankc(X)は、Xについてとりうる全てのラベルのうちの正解ラベルcのランクである。Lは、エラーに対する態度を反映した関数である。定数関数L = Cは、完全なランクリスト(ranking list)を最適化しようとすることを意味している。ここで、本実施の形態では、L(α) = Σα i=1 1/iを用いており、これは、ランクリストの最上位のものを最適化するためのものである。学習率および確率的勾配降下法アルゴリズムの他のいくつかのパラメータは、開発セットを用いて予め最適化されたものを用いればよい。
本実施の形態では、非特許文献2の方法を用いて、2つの写像MAPA、MAPBを含むニューラルネットワークモデルを学習する。その他の実施の形態としては、多クラス分類を行う一つのニューラルネットワークモデルを直接学習してもよい。2つの写像を用いてECの位置とラベルを一つの低次元ベクトル空間に写像することの利点は、ラベルの種類(クラス数)が大きくなっても空範疇推定を精度よく行えることである。例えば、省略された代名詞を表すラベルproを、人称(一人称/二人称/三人称)・性別(男性/女性)・数(単数/複数)などに応じて細分化してもよいし、依存構造木における依存関係タイプとして表現される統語的な役割(主語/直接目的語/間接目的語など)に応じて細分化してもよい。
<本発明の実施の形態に係る空範疇推定モデル学習装置の構成>
次に、本発明の実施の形態に係る空範疇推定モデル学習装置の構成について説明する。図2に示すように、本発明の実施の形態に係る空範疇推定モデル学習装置100は、CPUと、RAMと、後述する空範疇推定モデル学習処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この空範疇推定モデル学習装置100は、機能的には図2に示すように入力部10と、演算部20と、出力部90とを備えている。
入力部10は、ECの位置及びECラベルの正解データが予め付与された、学習用のテキストを表す依存構造木を複数受け付け、複数の依存構造木を依存構造木22に記憶し、複数の依存構造木の各々に付与されているECの位置及びECラベルの正解データを、ECラベル正解データ38に記憶する。
演算部20は、依存構造木22と、特徴テンプレート作成部24と、特徴テンプレート26と、単語分散表現28と、特徴抽出部30と、EC位置特徴ベクトル32と、初期化モデル34と、初期化ECラベル分散表現36と、ECラベル正解データ38と、学習部40と、モデル52と、ECラベル分散表現54と、を含んで構成されている。
依存構造木22には、入力部10において受け付けた、複数の学習用のテキストを表す複数の依存構造木が記憶されている。
特徴テンプレート作成部24は、複数の依存構造木の各々について、特徴テンプレートを作成し、特徴テンプレート26に格納する。
単語分散表現28には、予め学習された各単語の分散表現が記憶されている。
特徴抽出部30は、複数の依存構造木について、特徴テンプレート作成部24によって作成された特徴テンプレートに基づいて、ECの位置の候補の各々の特徴ベクトルを抽出し、EC位置特徴ベクトル32に格納する。
初期化モデル34には、初期化されたモデルとして、写像MAPAで用いられる行列WAの初期値が格納されている。なお、初期値として、ランダムに設定された値を用いればよい。
初期化ECラベル分散表現36には、初期化されたモデルとして、写像MAPBで用いられる各ECラベルlabeliに対する行列Wi Bの初期値が格納されている。なお、初期値として、ランダムに設定された値を用いればよい。
ECラベル正解データ38には、入力部10において受け付けた正解データに基づいて、複数の依存構造木について、ECの位置の候補の各々のECラベルのタイプ又はECラベルがないことが記憶されている。
学習部40は、EC位置特徴ベクトル32、初期化モデル34、初期化ECラベル分散表現36、及びECラベル正解データ38に基づいて、2つの写像MAPA、MAPBで用いられる行列WA、Wi Bを学習し、モデル52及びECラベル分散表現54に格納する。
学習部40は、更新モデル42、ECラベル分散表現44、ECラベル予測部46、収束判定部48、及びモデル更新部50を備えている。
更新モデル42には、初期化モデル34と同じ行列WA、又はモデル更新部50によって更新された行列WAが記憶されている。
ECラベル分散表現44には、初期化ECラベル分散表現36と同じ各ECラベルlabeliに対する行列Wi B、又はモデル更新部50によって更新された各ECラベルlabeliに対する行列Wi Bが記憶されている。
ECラベル予測部46は、EC位置特徴ベクトル32、更新モデル42、ECラベル分散表現44に基づいて、複数の依存構造木の各々について、上記(3)式に従って、ECの位置の候補の各々の特徴ベクトルX及び各ECラベルlabeliに対するスコアを計算し、スコアが最大となるECの位置及びECラベルを予測する。
収束判定部48は、複数の依存構造木の各々について、ECラベル正解データ38と、ECラベル予測部46によって予測されたECの位置及びECラベルとを比較して、収束したか否かを判定する。複数の依存構造木の各々について、ECラベル正解データ38と、ECラベル予測部46によって予測されたECの位置及びECラベルとが一致した場合に、収束したと判定し、現時点の行列WAをモデル52に格納し、現時点の各ECラベルlabeliに対する行列Wi BをECラベル分散表現54に格納する。
モデル更新部50は、EC位置特徴ベクトル32と、更新モデル42と、ECラベル分散表現44と、ECラベル正解データ38と、ECラベル予測部46によって予測されたECの位置及びECラベルとに基づいて、上記(4)式に示す、重み付けされたペア損失を最小化するように、2つの写像MAPA、MAPBで用いられる行列WA、Wi Bを更新し、更新された行列WAを更新モデル42に格納し、更新された各ECラベルlabeliに対する行列Wi BをECラベル分散表現44に格納する。
モデル52に記憶された行列WA、及びECラベル分散表現54に記憶された、各ECラベルlabeliに対する行列Wi Bが、出力部90により出力される。
<本発明の実施の形態に係る空範疇推定装置の構成>
次に、本発明の実施の形態に係る空範疇推定装置の構成について説明する。図3に示すように、本発明の実施の形態に係る空範疇推定装置200は、CPUと、RAMと、後述する空範疇推定処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この空範疇推定装置200は、機能的には図3に示すように入力部210と、演算部220と、出力部290とを備えている。
入力部210は、推定対象のテキストを表す依存構造木、及び特徴テンプレートを受け付け、依存構造木を依存構造木222に記憶し、特徴テンプレートを特徴テンプレート226に記憶する。
演算部220は、依存構造木222と、特徴テンプレート226と、単語分散表現228と、特徴抽出部230と、EC位置特徴ベクトル232と、モデル234と、ECラベル分散表現236と、推定部238と、推定ECラベル240と、を含んで構成されている。
依存構造木222には、入力部210において受け付けた、テキストを表す依存構造木が記憶されている。
特徴テンプレート226には、入力部210において受け付けた特徴テンプレートが記憶されている。なお、入力部210において受け付けた特徴テンプレートは、特徴テンプレート作成部24と同様に作成されたものである。
単語分散表現228には、単語分散表現28と同様に、予め学習された各単語の分散表現が記憶されている。
特徴抽出部230は、依存構造木について、特徴テンプレート226に基づいて、特徴抽出部30と同様に、ECの位置の候補の各々の特徴ベクトルを抽出し、EC位置特徴ベクトル32に格納する。
モデル234には、空範疇推定モデル学習装置100によって学習されたモデル52と同じ、写像MAPAで用いられる行列WAが格納されている。
ECラベル分散表現36には、空範疇推定モデル学習装置100によって学習されたECラベル分散表現54と同じ、写像MAPBで用いられる各ECラベルlabeliに対する行列Wi Bが格納されている。
推定部238は、EC位置特徴ベクトル232、モデル234、ECラベル分散表現236に基づいて、依存構造木について、上記(3)式に従って、ECの位置の候補の各々の特徴ベクトルX及び各ECラベルlabeliに対するスコアを計算し、スコアが最大となるECの位置及びECラベルを、ECラベルの推定結果とし、推定ECラベル240に格納する。
推定ECラベル240に記憶されたECの位置及びECラベルが、出力部290により出力される。
<本発明の実施の形態に係る空範疇推定モデル学習装置の作用>
次に、本発明の実施の形態に係る空範疇推定モデル学習装置100の作用について説明する。入力部10において、ECの位置及びECラベルの正解データが予め付与された、学習用のテキストを表す依存構造木を複数受け付けると、複数の依存構造木を依存構造木22に記憶すると共に、正解データを、ECラベル正解データ38に記憶し、空範疇推定モデル学習装置100は、図4に示す空範疇推定モデル学習処理ルーチンを実行する。
まず、ステップS100では、依存構造木22に記憶されている複数の依存構造木を読み込む。
次に、ステップS102では、特徴テンプレートを作成する。ステップS104では、依存構造木22に記憶されている複数の依存構造木、単語分散表現28に記憶されている各単語の分散表現、及びECラベル正解データ38に記憶されているECの位置及びECラベルの正解データを読み込む。
そして、ステップS106では、複数の依存構造木の各々について、上記ステップS102で作成された特徴テンプレートに基づいて、ECの位置の候補の各々の特徴ベクトルを作成し、EC位置特徴ベクトル32に格納する。
ステップS108では、写像MAPAで用いられる行列WAの初期値をランダムに設定し、初期化モデル34及び更新モデル42に格納する。また、写像MAPBで用いられる各ECラベルlabeliに対する行列Wi Bの初期値をランダムに設定し、初期化ECラベル分散表現36及びECラベル分散表現44に格納する。
そして、ステップS110では、複数の依存構造木の各々について、EC位置特徴ベクトル32、更新モデル42、及びECラベル分散表現44に基づいて、EC位置及びECラベルを予測する。
次のステップS112では、上記ステップS110で複数の依存構造木の各々について予測されたEC位置及びECラベルと、ECラベル正解データ38とを比較して、収束したか否かを判定する。上記ステップS110で複数の依存構造木の各々について予測されたEC位置及びECラベルと、ECラベル正解データ38とが一致していない場合には、収束していないと判定し、ステップS114へ移行する。一方、上記ステップS110で複数の依存構造木の各々について予測されたEC位置及びECラベルと、ECラベル正解データ38とが一致している場合には、収束したと判定し、ステップS116へ移行する。
ステップS114では、EC位置特徴ベクトル32と、更新モデル42と、ECラベル分散表現44と、ECラベル正解データ38と、上記ステップS110で予測されたECの位置及びECラベルとに基づいて、上記(4)式に示す、重み付けされたペア損失を最小化するように、2つの写像MAPA、MAPBで用いられる行列WA、Wi Bを更新し、更新された行列WAを更新モデル42に格納し、更新された各ECラベルlabeliに対する行列Wi BをECラベル分散表現44に格納し、ステップS110へ戻る。
ステップS116では、現時点の行列WAをモデル52に格納し、現時点の各ECラベルlabeliに対する行列Wi BをECラベル分散表現54に格納し、空範疇推定モデル学習処理ルーチンを終了する。
<本発明の実施の形態に係る空範疇推定装置の作用>
次に、本発明の実施の形態に係る空範疇推定装置200の作用について説明する。入力部210において推定対象のテキストを表す依存構造木、及び特徴テンプレートを受け付けると、受け付けた依存構造木を依存構造木222に記憶すると共に、特徴テンプレートを、特徴テンプレート226に記憶し、空範疇推定装置200は、図5に示す空範疇推定処理ルーチンを実行する。
まず、ステップS200では、依存構造木222に記憶されている依存構造木、単語分散表現228に記憶されている各単語の分散表現、及び特徴テンプレート226に記憶されている特徴テンプレートを読み込む。
次に、ステップS202では、ステップS200で読み込んだ特徴テンプレートに基づいて、ECの位置の候補の各々の特徴ベクトルを作成し、EC位置特徴ベクトル232に格納する。
そして、ステップS204では、依存構造木について、EC位置特徴ベクトル232、モデル234、及びECラベル分散表現236に基づいて、EC位置及びECラベルを予測し、空範疇推定処理ルーチンを終了する。
<実施例>
<実験データ>
本実施の形態で説明した方法は、アノテーションされたコーパスが利用可能な様々な種類の言語に適用可能である。我々の実験では、中国語ツリーバンクV7.0(Chinese Penn Treebank V7.0)の一部を用いた。データセットを、トレーニングデータ、開発データおよびテストデータの3つの部分に分ける。従来の研究に引き続き、我々は、ファイル1〜40および901〜931をテストデータとし、ファイル41〜80を開発データとしている。トレーニングデータには、ファイル{81〜325,400〜454,500〜554,590〜596,6000〜885,900}が含まれている。図6に、テストデータにおけるECラベルの分布を示す。この実験における本実施形態では、2つのECが同じ主辞単語と後続単語を持つ場合を扱わなかったので、テストデータにおけるECの合計は非特許文献1より若干少ない(なお、本実施形態において、ECラベルを依存関係タイプを考慮するように拡張すれば、このような場合も扱うことができる)。開発データは、パラメータを調整するために用いられ、その最終結果はテストデータについて報告される。CTBツリーは、ECが保たれた特徴抽出用の依存構造木に変換して用いた。
<実験設定>
実験において、パラメータを、学習率(learning rate)=10-1、単語ベクトル次元=80、および隠れ層(hidden layer)次元=500に設定した。
<実験結果>
図7に、実験結果として、正解数(correct)と適合率(p)と再現率(r)とF1値(F1)とを示す。ここでは空範疇ラベルとして、Chinese Penn Treebankで定義されているものをそのまま用いた。PRO (big PRO)はコントロール構文などに出現する義務的な照応、pro (small pro)は省略された代名詞、Tは関係節や主題化などの移動における痕跡、OPは空の関係代名詞、RNRは右節点繰り上げ、*は受動構文や繰り上げ構文により生じた痕跡を表す。本実施の形態の手法の結果と、従来の最先端技術による方法(非特許文献1のXue)とを比較する。ここに提供した方法は、CTBについて我々が知る限り最新の最先端技術による性能をもたらすものである。本実施の形態の手法は、従来の最先端技術による方法より、高精度にECラベルを推定できることが分かった。
以上説明したように、本発明の実施の形態に係る空範疇推定装置によれば、入力テキストの依存構造木に基づいて、ECの位置の候補の各々の特徴ベクトルとして単語の分散表現を抽出し、特徴ベクトルから低次元空間への写像、及び空範疇ラベルの各々から低次元空間への写像を含むモデルに基づいて、空範疇の位置及び空範疇ラベルを推定することにより、入力されたテキストの空範疇の位置および種類を精度よく推定することができる。
また、本発明の実施の形態に係る空範疇推定モデル学習装置によれば、テキストの依存構造木に基づいて、ECの位置の候補の各々の特徴ベクトルとして単語の分散表現を抽出し、複数のテキストの各々に付与された前記空範疇の位置及び空範疇ラベルに基づいて、特徴ベクトルから低次元空間への写像、及び空範疇ラベルの各々から低次元空間への写像を含むモデルを学習することにより、テキストの空範疇の位置を精度よく推定するためのモデルを学習することができる。
また、実験により、本実施の形態で説明した手法は、空範疇を、従来のものよりも高精度かつ高い再現性で検出可能であることが示されている。特徴の分散表現、および学習した2つの写像を含むニューラルネットワークモデルにより、空範疇の位置及びラベルを推定し、空範疇の意味および長距離依存関係を取得することができる。
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、推定対象のテキストの入力を受け付け、空範疇推定装置において、推定対象のテキストに対して、依存構造解析を行って、依存構造木を作成するようにしてもよい。
また、中国語のテキストに対して、空範疇を推定する場合を例に説明したが、これに限定されるものではなく、中国語以外の言語、例えば、日本語のテキストに対して、空範疇を推定するようにしてもよい。
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能であるし、ネットワークを介して提供することも可能である。
10、210 入力部
20、220 演算部
24 特徴テンプレート作成部
30、230 特徴抽出部
40 学習部
46 ラベル予測部
48 収束判定部
50 モデル更新部
90、290 出力部
100 空範疇推定モデル学習装置
200 空範疇推定装置
238 推定部

Claims (9)

  1. 入力テキストから、省略又は移動により生じた名詞的語句である空範疇を推定するための空範疇推定装置であって、
    前記入力テキストの依存構造木に基づいて、空範疇の位置の候補の各々に対し、前記空範疇の位置の候補の特徴として、単語の分散表現を抽出する特徴抽出部と、
    予め学習された、前記特徴から低次元空間への写像、及び空範疇ラベルの各々から前記低次元空間への写像を含むモデルと、前記特徴抽出部によって抽出された前記空範疇の位置の候補の各々の前記特徴とに基づいて、前記空範疇の位置及び前記空範疇ラベルを推定する推定部と、
    を含む空範疇推定装置。
  2. 前記特徴抽出部は、前記空範疇の位置の候補の特徴として、前記空範疇の位置の候補の主辞単語の分散表現、前記空範疇の位置の候補に後続する後続単語の分散表現、前記依存構造木における、前記後続単語に対応するノードの子ノードが表す単語の分散表現、及び前記依存構造木における、ルートノードから前記空範疇の位置の候補までの経路上の各単語の分散表現の少なくとも1つを抽出する請求項1記載の空範疇推定装置。
  3. 前記推定部は、前記特徴抽出部によって抽出された前記空範疇の位置の候補の前記特徴、前記特徴から低次元空間への写像、及び前記空範疇ラベルから前記低次元空間への写像に基づいて算出されるスコアが最大となる、前記空範疇の位置の候補及び前記空範疇ラベルの組み合わせを、前記空範疇の位置及び前記空範疇ラベルの推定結果とする請求項1又は2記載の空範疇推定装置。
  4. 省略又は移動により生じた名詞的語句である空範疇の位置及び空範疇ラベルが付与された複数のテキストの各々について、前記テキストの依存構造木に基づいて、空範疇の位置の候補の各々に対し、前記空範疇の位置の候補の特徴として、単語の分散表現を抽出する特徴抽出部と、
    前記特徴抽出部によって前記複数のテキストの各々について抽出された前記空範疇の位置の候補の各々の前記特徴と、前記複数のテキストの各々に付与された前記空範疇の位置及び空範疇ラベルとに基づいて、前記特徴から低次元空間への写像、及び空範疇ラベルの各々から前記低次元空間への写像を含むモデルを学習する学習部と、
    を含む空範疇推定モデル学習装置。
  5. 前記特徴抽出部は、前記空範疇の位置の候補の特徴として、前記空範疇の位置の候補の主辞単語の分散表現、前記空範疇の位置の候補に後続する後続単語の分散表現、前記依存構造木における、前記後続単語に対応するノードの子ノードが表す単語の分散表現、及び前記依存構造木における、ルートノードから前記空範疇の位置の候補までの経路上の各単語の分散表現の少なくとも1つを抽出する請求項4記載の空範疇推定モデル学習装置。
  6. 特徴抽出部及び推定部を含み、入力テキストから、省略又は移動により生じた名詞的語句である空範疇を推定するための空範疇推定装置における空範疇推定方法であって、
    前記特徴抽出部が、前記入力テキストの依存構造木に基づいて、空範疇の位置の候補の各々に対し、前記空範疇の位置の候補の特徴として、単語の分散表現を抽出し、
    前記推定部が、予め学習された、前記特徴から低次元空間への写像、及び空範疇ラベルの各々から前記低次元空間への写像を含むモデルと、前記特徴抽出部によって抽出された前記空範疇の位置の候補の各々の前記特徴とに基づいて、前記空範疇の位置及び前記空範疇ラベルを推定する
    空範疇推定方法。
  7. 特徴抽出部及び学習部を含む空範疇推定モデル学習装置における空範疇推定モデル学習方法であって、
    前記特徴抽出部が、省略又は移動により生じた名詞的語句である空範疇の位置及び空範疇ラベルが付与された複数のテキストの各々について、前記テキストの依存構造木に基づいて、空範疇の位置の候補の各々に対し、前記空範疇の位置の候補の特徴として、単語の分散表現を抽出し、
    前記学習部が、前記特徴抽出部によって前記複数のテキストの各々について抽出された前記空範疇の位置の候補の各々の前記特徴と、前記複数のテキストの各々に付与された前記空範疇の位置及び空範疇ラベルとに基づいて、前記特徴から低次元空間への写像、及び空範疇ラベルの各々から前記低次元空間への写像を含むモデルを学習する
    空範疇推定モデル学習方法。
  8. コンピュータを、請求項1〜請求項3の何れか1項記載の空範疇推定装置の各部として機能させるためのプログラム。
  9. コンピュータを、請求項4又は5記載の空範疇推定モデル学習装置の各部として機能させるためのプログラム。
JP2015103963A 2015-05-21 2015-05-21 空範疇推定装置、空範疇推定モデル学習装置、方法、及びプログラム Active JP6381136B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015103963A JP6381136B2 (ja) 2015-05-21 2015-05-21 空範疇推定装置、空範疇推定モデル学習装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015103963A JP6381136B2 (ja) 2015-05-21 2015-05-21 空範疇推定装置、空範疇推定モデル学習装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2016218806A JP2016218806A (ja) 2016-12-22
JP6381136B2 true JP6381136B2 (ja) 2018-08-29

Family

ID=57581098

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015103963A Active JP6381136B2 (ja) 2015-05-21 2015-05-21 空範疇推定装置、空範疇推定モデル学習装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6381136B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6543169B2 (ja) * 2015-11-09 2019-07-10 日本電信電話株式会社 空範疇検出装置、空範疇検出モデル学習装置、方法、及びプログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1185749A (ja) * 1997-09-10 1999-03-30 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 日本語省略要素補完装置
JP2005025659A (ja) * 2003-07-01 2005-01-27 Nippon Telegr & Teleph Corp <Ntt> ゼロ代名詞解消方法、解消装置、解消プログラムおよびプログラムを記録した記録媒体
US8903707B2 (en) * 2012-01-12 2014-12-02 International Business Machines Corporation Predicting pronouns of dropped pronoun style languages for natural language translation
JP2014010778A (ja) * 2012-07-02 2014-01-20 Nippon Telegr & Teleph Corp <Ntt> 認識モデル学習装置、認識装置、方法、及びプログラム

Also Published As

Publication number Publication date
JP2016218806A (ja) 2016-12-22

Similar Documents

Publication Publication Date Title
CN108182295B (zh) 一种企业知识图谱属性抽取方法及系统
CN111914568B (zh) 文本修辞句的生成方法、装置、设备及可读存储介质
CN103853710B (zh) 一种基于协同训练的双语命名实体识别方法
CN110490081B (zh) 一种基于聚焦权重矩阵与变尺度语义分割神经网络的遥感对象解译方法
CN110851641B (zh) 跨模态检索方法、装置和可读存储介质
US11568132B2 (en) Phrase generation relationship estimation model learning device, phrase generation device, method, and program
CN106778878B (zh) 一种人物关系分类方法及装置
CN106202030B (zh) 一种基于异构标注数据的快速序列标注方法及装置
CN111401084A (zh) 一种机器翻译的方法、设备以及计算机可读存储介质
CN109783812B (zh) 基于自注意力机制的中文命名实体识别方法、系统、装置
JP6738769B2 (ja) 文ペア分類装置、文ペア分類学習装置、方法、及びプログラム
CN110472062B (zh) 识别命名实体的方法及装置
CN113128203A (zh) 基于注意力机制的关系抽取方法、系统、设备及存储介质
JP6558863B2 (ja) モデル作成装置、推定装置、方法、及びプログラム
JP6145059B2 (ja) モデル学習装置、形態素解析装置、及び方法
JP5441937B2 (ja) 言語モデル学習装置、言語モデル学習方法、言語解析装置、及びプログラム
JP6291440B2 (ja) パラメータ学習方法、装置、及びプログラム
JP6467893B2 (ja) 情報処理システム、情報処理方法、及び、プログラム
JP6381136B2 (ja) 空範疇推定装置、空範疇推定モデル学習装置、方法、及びプログラム
JP6062829B2 (ja) 係り受け関係解析パラメータ学習装置、係り受け関係解析装置、方法、及びプログラム
CN113761151A (zh) 同义词挖掘、问答方法、装置、计算机设备和存储介质
CN113312918A (zh) 融合部首向量的分词和胶囊网络法律命名实体识别方法
JP5694893B2 (ja) 最適翻訳文選択装置、翻訳文選択モデル学習装置、方法、及びプログラム
CN116629211A (zh) 基于人工智能的写作方法及系统
JP2017078919A (ja) 単語拡張装置、分類装置、機械学習装置、方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170621

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180501

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180522

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180711

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180724

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180730

R150 Certificate of patent or registration of utility model

Ref document number: 6381136

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150