JP6872505B2

JP6872505B2 - ベクトル生成装置、文ペア学習装置、ベクトル生成方法、文ペア学習方法、およびプログラム

Info

Publication number: JP6872505B2
Application number: JP2018038074A
Authority: JP
Inventors: 光甫西田; 京介西田; 久子浅野; 準二富田
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2018-03-02
Filing date: 2018-03-02
Publication date: 2021-05-19
Anticipated expiration: 2038-03-02
Also published as: WO2019168202A1; US11893353B2; US20210042472A1; JP2019153098A

Description

本発明は、ベクトル生成装置、文ペア学習装置、ベクトル生成方法、文ペア学習方法、およびプログラムに係り、特に、ニューラルネットワークが自然言語処理に用いる入力文のベクトルを有用に生成するためのベクトル生成装置、文ペア学習装置、ベクトル生成方法、文ペア学習方法、およびプログラムに関する。

従来より、機械による文の意味理解のための基本的な技術のひとつとして、文と文との関係性を表わすラベルを推定する関係性推定技術がある。例えば、文と文の含意関係を認識する課題は「含意認識」として幅広く研究されている。

含意認識の課題では、前提文（文Ｐ）と呼ばれる文と仮定文（文Ｈ）と呼ばれる文のペアが与えられ、文Ｐと文Ｈの含意関係を推定する。含意関係として、文Ｐが真であるときに文Ｈが（１）真である、（２）偽である、（３）判断がつけられない、の３種類の関係が定義されている。

このような関係性推定の課題をニューラルネットワークにより解く際には、まず事前に文ペアと当該文ペアの関係を示す関係ラベルとの集合が学習データとして大量に与えられ、学習器は文ペアの関係ラベルを正しく推定できるようニューラルネットワークのパラメータを学習しておく。

そして、関係性推定の際には、入力された文ペアを、ｗｏｒｄ２ｖｅｃやＧｌｏｖｅに代表される既存の単語ベクトルデータ集合を用いて、単語ベクトル系列のペアに変換する。そして、この単語ベクトル系列のペアを、関係性推定の際の特徴量として用いる。

このようなニューラルネットワークによる関係性推定技術として、非特許文献１では、単語ベクトルデータ集合と学習データ以外に辞書ＤＢ（データベース）を用いて含意認識を行う。辞書ＤＢは、見出し語ｙと見出し語ｙを説明する文のペアで構成される。ここで、見出し語ｙを説明する文を見出し語の定義文Ｄ^ｙと呼ぶ。また、全ての見出し語ｙの集合を語彙Ｖ_Ｄと呼ぶ。

非特許文献１では、単語ベクトル系列のペアに変換する際、文ペアを構成する単語のうち、単語ベクトルデータ集合に含まれない単語について、辞書ＤＢから当該単語を見出し語ｙとする単語の定義文Ｄ^ｙを抽出し、ニューラルネットワークを用いて定義文Ｄ^ｙに含まれる単語をベクトルに変換し、合成することで、当該単語の単語ベクトルとする。

これは、推定対象となる文ペアに含まれる単語のうち、既存の単語ベクトルデータ集合には含まれにくい低頻度語・固有名詞・専門用語に対処するためである。

非特許文献１の実験では、単語ベクトルデータ集合の語彙Ｖ_Ｅを限定した状況下での精度向上が確認された。また、単語の定義文Ｄ^ｙを利用することで、学習後に学習データに含まれない専門用語などの単語を追加した場合も、関係性推定に資するベクトル表現を得ることができる。

既存の手法では単語ベクトルデータ集合に含まれない単語のベクトルはランダムまたは任意に設定することが多い。

この点、非特許文献１では、辞書の定義文を変換するネットワークを学習時に獲得しているため、学習されたニューラルネットワークを用いて定義文をベクトルに変換することができる。さらに、辞書への単語と定義文Ｄ^ｙの追加はモデルの学習後であっても逐次的に行うことが可能である。

D. Bahdanau, T. Bosc, S. Jastrzebski, E. Grefenstette, P. Vincent, and Y. Bengio. Learning to compute word embeddings on the fly. CoRR, bs/1706.00286, 2017.

しかし、非特許文献１では推定対象となる文ペアに含まれる単語を、辞書ＤＢの定義文Ｄ^ｙを用いてベクトル化する際に、推定対象である文ペアの情報を使わず、一意なベクトルに変換しているという課題がある。

実験で示された精度の向上も単語ベクトルデータ集合の語彙Ｖ_Ｅを限定した特別な状況下での精度向上に留まっている。

また、辞書ＤＢの定義文Ｄ^ｙは単語ベクトル系列で表現されるため、単語ベクトル系列から単語ベクトルに変換する際に多くの情報が失われる、という性質がある。

よって、単語ベクトル系列である定義文Ｄ^ｙは、文関係性認識に資する特徴量をできるだけ残して単語ベクトルに変換されることが望ましい。

本発明は上記の点に鑑みてなされたものであり、入力文を表す適切なベクトルを生成することができるベクトル生成装置、ベクトル生成方法、およびプログラムを提供することを目的とする。

また、本発明は、文ペアの関係性を精度よく推定するためのニューラルネットワークを学習することができる文ペア学習装置、文ペア学習方法、およびプログラムを提供することを目的とする。

本発明に係るベクトル生成装置は、入力文を表わすベクトルの系列を生成するベクトル生成装置であって、前記入力文に含まれる各単語に対応するベクトルに基づいて、前記入力文を表すベクトルの系列を生成する際に、見出し語と、前記見出し語を定義する文である定義文との組を格納した辞書ＤＢに基づいて、前記入力文に含まれる単語のうち、前記辞書ＤＢに格納されている前記見出し語である単語について、前記見出し語の定義文を用いて、前記入力文を表すベクトルの系列を生成する定義文考慮文脈符号化部を備えて構成される。

また、本発明に係るベクトル生成方法は、入力文を表わすベクトルの系列を生成するベクトル生成方法であって、定義文考慮文脈符号化部が、前記入力文に含まれる各単語に対応するベクトルに基づいて、前記入力文を表すベクトルの系列を生成する際に、見出し語と、前記見出し語を定義する文である定義文との組を格納した辞書ＤＢに基づいて、前記入力文に含まれる単語のうち、前記辞書ＤＢに格納されている前記見出し語である単語について、前記見出し語の定義文を用いて、前記入力文を表すベクトルの系列を生成する。

本発明に係るベクトル生成装置及びベクトル生成方法によれば、定義文考慮文脈符号化部が、入力文に含まれる各単語に対応するベクトル基づいて、入力文を表すベクトルの系列を生成する際に、見出し語と、当該見出し語を定義する文である定義文との組を格納した辞書ＤＢに基づいて、入力文に含まれる単語のうち、辞書ＤＢに格納されている当該見出し語である単語について、当該見出し語の定義文を用いて、入力文を表すベクトルの系列を生成する。

このように、入力文に含まれる各単語に対応するベクトルに基づいて、入力文を表すベクトルの系列を生成する際に、見出し語と、当該見出し語を定義する文である定義文との組を格納した辞書ＤＢに基づいて、入力文に含まれる単語のうち、辞書ＤＢに格納されている当該見出し語である単語について、当該見出し語の定義文を用いて、入力文を表すベクトルの系列を生成することにより、入力文を表す適切なベクトルを生成することができる。

また、本発明に係るベクトル生成装置の前記定義文考慮文脈符号化部は、前記入力文に含まれる単語のうち、前記辞書ＤＢに格納されている見出し語である単語について、前記見出し語の定義文を用いて、前記入力文を表すベクトルの系列を生成する際に、前記入力文と、前記単語を見出し語とする前記定義文に含まれる各単語との関係性を考慮して、当該見出し語を表すベクトルを生成し、前記入力文に含まれる当該単語のベクトルとして用いることができる。

また、本発明に係るベクトル生成装置は、前記入力文は、第１の入力文と、第２の入力文とのペアであって、前記定義文考慮文脈符号化部により得られた、前記第１の入力文を表わす第１ベクトルの系列と、前記第２の入力文を表わす第２ベクトルの系列とに基づいて、前記第１の入力文と、前記第２の入力文との関係性を示す関係ラベルを推定する関係ラベル推定部を更に備えることができる。

本発明に係る文ペア学習装置は、関係性を示す関係ラベルが予め付与された文ペアの入力を受け付ける入力部と、ニューラルネットワークを用いて、前記文ペアに含まれる各単語に対応するベクトルに基づいて、前記文ペアの各文を表すベクトルの系列を生成する際に、見出し語と、前記見出し語を定義する文である定義文との組を格納した辞書ＤＢに基づいて、前記文ペアに含まれる単語のうち、前記辞書ＤＢに格納されている前記見出し語である単語について、前記見出し語の定義文を用いて、前記文ペアの各文を表すベクトルの系列をそれぞれ生成する定義文考慮文脈符号化部と、ニューラルネットワークを用いて、前記定義文考慮文脈符号化部により得られた、前記文ペアの各文を表すベクトルの系列の各々に基づいて、前記文ペアの関係性を示す関係ラベルを推定する関係ラベル推定部と、前記文ペアに付与された関係ラベルと、前記関係ラベル推定部により推定された関係ラベルとに基づいて、前記ニューラルネットワークのパラメータを更新するパラメータ学習部と、を備えて構成される。

また、本発明に係る文ペア学習方法は、入力部が、関係性を示す関係ラベルが予め付与された文ペアの入力を受け付け、定義文考慮文脈符号化部が、ニューラルネットワークを用いて、前記文ペアに含まれる各単語に対応するベクトルに基づいて、前記文ペアの各文を表すベクトルの系列を生成する際に、見出し語と、前記見出し語を定義する文である定義文との組を格納した辞書ＤＢに基づいて、前記文ペアに含まれる単語のうち、前記辞書ＤＢに格納されている前記見出し語である単語について、前記見出し語の定義文を用いて、前記文ペアの各文を表すベクトルの系列をそれぞれ生成し、関係ラベル推定部が、ニューラルネットワークを用いて、前記定義文考慮文脈符号化部により得られた、前記文ペアの各文を表すベクトルの系列の各々に基づいて、前記文ペアの関係性を示す関係ラベルを推定し、パラメータ学習部が、前記文ペアに付与された関係ラベルと、前記関係ラベル推定部により推定された関係ラベルとに基づいて、前記ニューラルネットワークのパラメータを更新する。

本発明に係る文ペア学習装置及び文ペア学習方法によれば、入力部が、関係性を示す関係ラベルが予め付与された文ペアの入力を受け付け、定義文考慮文脈符号化部が、ニューラルネットワークを用いて、文ペアに含まれる各単語に対応するベクトルに基づいて、文ペアの各文を表すベクトルの系列を生成する際に、見出し語と、見出し語を定義する文である定義文との組を格納した辞書ＤＢに基づいて、文ペアに含まれる単語のうち、辞書ＤＢに格納されている見出し語である単語について、見出し語の定義文を用いて、文ペアの各文を表すベクトルの系列をそれぞれ生成する。

そして、関係ラベル推定部が、ニューラルネットワークを用いて、定義文考慮文脈符号化部により得られた、文ペアの各文を表すベクトルの系列の各々に基づいて、文ペアの関係性を示す関係ラベルを推定し、パラメータ学習部が、文ペアに付与された関係ラベルと、関係ラベル推定部により推定された関係ラベルとに基づいて、ニューラルネットワークのパラメータを更新する。

このように、ニューラルネットワークを用いて、文ペアに含まれる各単語に対応するベクトルに基づいて、文ペアの各文を表すベクトルの系列を生成する際に、見出し語と、見出し語を定義する文である定義文との組を格納した辞書ＤＢに基づいて、文ペアに含まれる単語のうち、辞書ＤＢに格納されている見出し語である単語について、見出し語の定義文を用いて、文ペアの各文を表すベクトルの系列をそれぞれ生成し、ニューラルネットワークを用いて、文ペアの各文を表すベクトルの系列の各々に基づいて、文ペアの関係性を示す関係ラベルを推定し、文ペアに付与された関係ラベルと、推定された関係ラベルとに基づいて、ニューラルネットワークのパラメータを更新することにより、文ペアの関係性を精度よく推定するためのニューラルネットワークを学習することができる。

本発明に係るプログラムは、上記のベクトル生成装置、又は文ペア学習装置の各部として機能させるためのプログラムである。

本発明のベクトル生成装置、ベクトル生成方法、およびプログラムによれば、入力文を表す適切なベクトルを生成することができる。

また、本発明の文ペア学習装置、文ペア学習方法、およびプログラムによれば、文ペアの関係性を精度よく推定するためのニューラルネットワークを学習することができる。

本発明の第１の実施の形態に係るベクトル生成装置の構成を示す機能ブロック図である。本発明の第１の実施の形態に係るベクトル生成装置のベクトル生成処理ルーチンを示すフローチャートである。本発明の第２の実施の形態に係る文ペア学習装置の構成を示す機能ブロック図である。本発明の第２の実施の形態に係る関係ラベル推定装置の構成を示す機能ブロック図である。本発明の第２の実施の形態に係る文ペア学習装置の学習処理ルーチンを示すフローチャートである。本発明の第２の実施の形態に係る関係ラベル推定装置の関係ラベル推定処理ルーチンを示すフローチャートである。本発明の第２の実施の形態に係る実験１の結果を示す図である。本発明の第２の実施の形態に係る実験２の結果を示す図である。本発明の第２の実施の形態に係る実験３の結果を示す図である。

以下、本発明の実施の形態について図面を用いて説明する。

＜本発明の第１の実施の形態に係るベクトル生成装置の概要＞
まず、本発明の実施形態の概要について説明する。

ニューラルネットワークによる、入力を文（テキスト）とする様々なタスク、例えば分類タスク、文生成タスク等では、まず、最初に入力となる文をベクトル表現に変換する。

本実施形態では、単語の定義文Ｄ^ｙをベクトル化する際に、処理対象である文の情報を用いることで、より推定に資する特徴量を残した変換をする。

これにより、文のベクトル表現をより高精度化することができ、その後のタスクの精度を向上させることができる。

＜本発明の第１の実施の形態に係るベクトル生成装置の構成＞
図１を参照して、本発明の実施の形態に係るベクトル生成装置１０の構成について説明する。図１は、本発明の実施の形態に係るベクトル生成装置１０の構成を示すブロック図である。

ベクトル生成装置１０は、ＣＰＵと、ニューラルネットワークの計算を実行するためのＧＰＵと、ＲＡＭと、後述するベクトル生成処理ルーチンを実行するためのプログラムを記憶したＲＯＭとを備えたコンピュータで構成され、機能的には次に示すように構成されている。

図１に示すように、本実施形態に係るベクトル生成装置１０は、入力部１００と、解析部２００と、出力部１１０とを備えて構成される。

入力部１００は、入力文Ｐの入力を受け付ける。

入力部１００は、受け付けた入力文Ｐを、トークン系列生成部２１０に渡す。

解析部２００は、見出し語ｙと、当該見出し語ｙを定義する文である定義文Ｄ^ｙとの組を格納した辞書ＤＢ２３０に基づいて、入力文Ｐに含まれる単語のうち、辞書ＤＢ２３０に格納されている見出し語である単語について、見出し語ｙの定義文Ｄ^ｙを表すベクトルを生成し、生成された定義文Ｄ^ｙを表すベクトルを用いて、入力文Ｐを表すベクトルを生成する。

具体的には、解析部２００は、トークン系列生成部２１０と、定義文生成部２２０と、辞書ＤＢ（データベース）２３０と、トークン符号化部２４０と、トークンＤＢ（データベース）２５０と、第１文脈符号化部２６０と、第２文脈符号化部２７０と、定義文考慮文脈符号化部２８０とを備えて構成される。

トークン系列生成部２１０は、入力文Ｐから、トークンの系列Ｐを生成する。

具体的には、トークン系列生成部２１０は、入力文Ｐをトークンに分割し、トークンの系列Ｐを生成する。入力された文の長さをＬ_Ｐとすると、生成されるトークンの系列Ｐは、Ｌ_Ｐの大きさのベクトルとなる。

トークンとして単語を用いた場合、文の長さは単語の数で定義される。トークンとして単語以外に任意の分割単位を用いることができる。以下、本実施形態では、トークンとして単語を用いた場合について説明する。

そして、トークン系列生成部２１０は、生成した単語の系列Ｐ’を、定義文生成部２２０、及びトークン符号化部２４０に渡す。

定義文生成部２２０は、トークン系列生成部２１０により生成された単語の系列Ｐ’のうち、辞書ＤＢ２３０に格納されている見出し語である単語の各々について、当該見出し語ｙの定義文Ｄ^ｙから単語の系列Ｄを生成する。

具体的には、定義文生成部２２０は、辞書ＤＢ２３０の見出し語ｙのうち、トークン系列生成部２１０により生成された単語の系列Ｐ’に含まれる単語を検索し、該当する単語の各々について、当該単語を見出し語ｙとする定義文Ｄ^ｙを単語に分割して系列とした単語の系列Ｄを生成する。単語の系列Ｐ’に含まれる見出し語である単語ｗの集合を語彙Ｖ_Ｐとする。

ここで、語彙Ｖ_Ｐの語彙数（単語ｗ異なり数）をＮ_ｅ、定義文Ｄ^ｙの長さで最大のものをＬ_ｅとすると、語彙Ｖ_Ｐに含まれる単語ｗ毎に生成される単語の系列Ｄは、Ｌ_ｅの大きさのベクトルとなる。なお、定義文Ｄ^ｙの長さがＬ_ｅに満たない場合は、特殊単語「ＰＡＤ」を末尾に追加する等により長さをＬ_ｅとする。

そして、定義文生成部２２０は、語彙Ｖ_Ｐに含まれる単語ｗ毎に生成した単語の系列Ｄ（Ｎ_ｅ個分）を、トークン符号化部２４０及び第２文脈符号化部２７０に渡す。

辞書ＤＢ２３０は、見出し語ｙの単語と、見出し語ｙの定義文Ｄ^ｙとの組を格納している。辞書ＤＢ２３０に含まれる見出し語ｙの集合を語彙Ｖ_Ｄとする。

トークン符号化部２４０は、トークン系列生成部２１０により生成された単語の系列Ｐと、定義文生成部２２０により語彙Ｖ_Ｐに含まれる単語ｗ毎に生成された単語の系列Ｄと、トークンＤＢ２５０に格納された複数の単語ベクトルとに基づいて、単語の系列Ｐに含まれる単語の各々についての単語ベクトル系列Ｐ_１と、語彙Ｖ_Ｐに含まれる単語ｗ毎の、単語の系列Ｄに含まれる単語の各々についての単語ベクトル系列Ｄ_１とを生成する。

具体的には、トークン符号化部２４０は、単語の系列Ｐに含まれる単語の各々について、トークンＤＢ２５０から当該単語に対応する単語ベクトルを抽出して、単語ベクトル系列Ｐ_１を生成する。

同様に、トークン符号化部２４０は、語彙Ｖ_Ｐに含まれる単語ｗ毎に、単語の系列Ｄに含まれる単語の各々について、トークンＤＢ２５０から当該単語に対応する単語ベクトルを抽出して、単語ベクトル系列Ｄ_１を生成する。

ここで、トークンＤＢ２５０に格納された単語ベクトルの次元をｄとすると、単語ベクトル系列Ｐ_１はＬ_Ｐ×ｄの大きさの行列、語彙Ｖ_Ｐに含まれる単語ｗ毎の単語ベクトル系列Ｄ_１はＬ_ｅ×ｄの大きさの行列（Ｎ_ｅ個分）となる。

そして、トークン符号化部２４０は、生成した単語ベクトル系列Ｐ_１を第１文脈符号化部２６０に、単語ベクトル系列Ｄ_１を第２文脈符号化部２７０に、それぞれ渡す。単語ベクトル系列Ｐ_１、Ｄ_１は、定義文考慮文脈符号化部２８０で用いる場合もある。

トークンＤＢ２５０は、単語と、当該単語に対応する単語ベクトルの対が複数格納されている。単語ベクトルは、予めニューラルネットワークにより学習された単語のベクトルの集合である。

具体的には、例えばトークンＤＢ２５０は、単語と、当該単語に対応する単語ベクトルの対として、ｗｏｒｄ２ｖｅｃやＧｌｏＶｅ等既存の単語ベクトルデータ集合を格納しておけばよい。また、既存の単語ベクトルデータ集合の単語ベクトルに、新しく学習した単語ベクトルを繋げてもよい。単語ベクトルの学習には、単語の文字情報を符号化する技術（参考文献１）等、任意の単語ｅｍｂｅｄｄｉｎｇ技術が使用可能である。単語ベクトルは、誤差逆伝播法によって計算できる勾配から学習することも可能である。
［参考文献１］Convolutional neural networks for sentence classification.

また、トークンＤＢ２５０は、第２文脈符号化部２７０により取得した単語ベクトル系列Ｄ_２を格納する。

第１文脈符号化部２６０は、トークン符号化部２４０により生成された単語ベクトル系列Ｐ_１を、ニューラルネットワークを用い、文脈を考慮して単語ベクトル系列Ｐ_２に変換する。

ここでのニューラルネットワークとしては、例えばＲＮＮが挙げられる。ＲＮＮの構造には、ＬＳＴＭやＳＲＵ等の既存技術を用いる。ＳＲＵは、参考文献２によって提案されたＲＮＮの一種である。
［参考文献２］T. Lei and Y. Zhang. Training RNNs as fast as CNNs. CoRR, abs/1709.02755, 2017.

本実施形態においては、第１文脈符号化部２６０は、文頭から文末への順方向に処理するＲＮＮと逆方向に処理するＲＮＮとからなる、双方向ＲＮＮ（ＢｉｄｉｒｅｃｔｉｏｎａｌＲＮＮ）を用いて、単語ベクトル系列Ｐ_１を単語ベクトル系列Ｐ_２に変換する。双方向ＲＮＮの出力する単語ベクトルの次元をｄ_１とすると、単語ベクトル系列Ｐ_２はＬ_Ｐ×ｄ_１の大きさの行列となる。

そして、第１文脈符号化部２６０は、変換した単語ベクトル系列Ｐ_２を、定義文考慮文脈符号化部２８０に渡す。

第２文脈符号化部２７０は、トークン符号化部２４０により生成された語彙Ｖ_Ｐに含まれる単語ｗ毎の単語ベクトル系列Ｄ_１を、ニューラルネットワークによって単語ベクトル系列Ｄ_２に変換する。

具体的には、第２文脈符号化部２７０は、語彙Ｖ_Ｐに含まれる単語ｗ毎に、第１文脈符号化部２６０と同様の手法により、単語ベクトル系列Ｄ_１を単語ベクトル系列Ｄ_２に変換する。語彙Ｖ_Ｐに含まれる単語ｗ毎の単語ベクトル系列Ｄ_２はＬ_ｅ×ｄ_１の大きさの行列（Ｎ_ｅ個分）となる。

第２文脈符号化部２７０の学習するニューラルネットワークのパラメータは、第１文脈符号化部２６０とは別に保持するが、パラメータを文脈符号化部２６０と共有する構成としてもよい。

ここで、定義文Ｄ^ｙが複数あるときは、定義文Ｄ^ｙ同士をつなげることにより、一つの文として処理することができる。

また、単語ベクトル系列Ｄ_２を用いてトークンＤＢ２５０を更新することができる。トークンＤＢ２５０の単語ｗの単語ベクトルを更新する新しい単語ベクトルとして、非特許文献１と同じく、単語ｗに対応する単語ベクトル系列Ｄ_２の末尾の単語ベクトル（ＲＮＮの最終状態の出力）を用いる、または、単語ベクトル系列Ｄ_２の全単語ベクトル（ＲＮＮの全状態の出力）の平均を用いる等の手法がある。

そして、第２文脈符号化部２７０は、語彙Ｖ_Ｐに含まれる単語ｗ毎に変換した単語ベクトル系列Ｄ_２（Ｎ_ｅ個分）を、トークンＤＢ２５０及び定義文考慮文脈符号化部２８０に渡す。

定義文考慮文脈符号化部２８０は、入力文Ｐに含まれる単語のうち、辞書ＤＢ２３０に格納されている見出し語である単語ｗについて、入力文Ｐと、定義文Ｄ^ｗに含まれる各単語との関係性を考慮して、単語ｗの定義文Ｄ^ｗを表すベクトルを生成し、生成された定義文Ｄ^ｗを表すベクトルを用いて、入力文Ｐを表すベクトルの系列を生成する。

ここで、考慮する入力文Ｐと定義文Ｄ^ｗとの関係性とは、入力文Ｐを構成する単語と、定義文Ｄ^ｗを構成する単語との意味的な類似性を指す。

単語ｗに対応する定義文のベクトル系列Ｄ_２を用いて入力文Ｐの単語ｗの単語ベクトルを生成する際に、単語ベクトル系列Ｄ_２のうち、入力文Ｐの各単語の単語ベクトルとの意味的類似性が高いものが強調されるよう、処理を行う。

具体的には、定義文考慮文脈符号化部２８０は、語彙Ｖ_Ｐに含まれるＮ_ｅ個の単語ｗの各々について、ステップ１〜ステップ３を繰り返す。

（ステップ１）Ｎ_ｅ個の単語ベクトル系列Ｄ_２のうち、処理対象となる単語ｗに対応する単語ベクトル系列をＤ_４とし、第１文脈符号化部２６０により得られた単語ベクトル系列Ｐ_２と、第２文脈符号化部２７０により得られた単語ベクトル系列Ｄ_４とのアテンションを取り、（ステップ２）アテンション結果を用いて単語ベクトル系列Ｄ_２を単語ベクトルＤ_６に変換し、（ステップ３）単語ベクトルＤ_６を用いて、単語ベクトル系列Ｐ_２を変換した新しい単語ベクトル系列Ｐ_３を求める。

そして、定義文考慮文脈符号化部２８０は、（ステップ４）最終的に得られた単語ベクトル系列Ｐ_３を入力文Ｐを表すベクトルＰ_４に変換する。

＜＜ステップ１＞＞
定義文考慮文脈符号化部２８０においては、第２文脈符号化部２７０により得られた語彙Ｖ_Ｐに含まれるＮ_ｅ個の単語ｗ毎の単語ベクトル系列Ｄ_２（Ｌ_ｅ×ｄ_１）のうち、処理対象となる単語ｗに対応する単語ベクトル系列をＤ_４とする。単語ベクトル系列Ｄ_４は、Ｌ_ｅ×ｄ_１の行列である。

そして、定義文考慮文脈符号化部２８０は、第１文脈符号化部２６０により得られた単語ベクトル系列Ｐ_２と、単語ベクトル系列Ｄ_４とを用いて、アラインメント行列Ａを下記式（１）により計算する。

入力文Ｐに単語ｗが含まれている場合、アラインメント行列Ａのうち、単語ｗに相当する行は、削除または０ベクトルを代入することができる。アラインメント行列Ａから、アラインメントベクトル

を計算する。

アラインメント行列Ａからアラインメントベクトルａへの変換では、ｍａｘｐｏｏｌｉｎｇ（下記式（２））、またはａｖｅｒａｇｅｐｏｏｌｉｎｇ（下記式（３））を用いて

空間上のベクトルに変換した後、ソフトマックス変換をする。

そして、定義文考慮文脈符号化部２８０は、アテンションベクトルＤ_５を下記式（４）により計算する。すなわち、アラインメント行列Ａとして求めた入力文Ｐと定義文Ｄ_ｗの意味的なマッチング結果に基づき、定義文Ｄ_ｗを構成する単語に重み付けを行ってアテンションベクトルＤ_５を生成する。

アテンションベクトルＤ_５はｎ_Ｐ個（ｎ_ｐ≧１）用意してもよい。アテンションベクトルＤ_５を複数用意するための設計の自由度として、以下の方法を組み合わせることができる。
・ｍａｘｐｏｏｌｉｎｇ／ａｖｅｒａｇｅｐｏｏｌｉｎｇの違い。
・ｐｏｏｌｉｎｇの方向を変えてアラインメントベクトルａを

とし、アテンションベクトルＤ_５を

とすることができる。
・ｐｏｏｌｉｎｇせずに、アテンションベクトル

に対してｐｏｏｌｉｎｇをすることができる。

式（４）において、単語ベクトル系列Ｄ_４の代わりに、単語ベクトル系列Ｄ_１のうち単語ｗに対応する単語ベクトル系列を用いることができる。
・ｐｏｏｌｉｎｇの代わりに単語ベクトル系列Ｐ_２の末尾の単語ベクトル（ＲＮＮの最終状態）を使うことができる。また、入力文Ｐに単語ｗが現れる場合、単語ｗに相当する単語ベクトルを使うことができる。
・非特許文献１にあるように、元のベクトルとの差を取ったもの、要素積を取ったものを用いることができる。元のベクトルとしては、単語ベクトル系列Ｄ_４の最終状態を用いる他、単語ベクトル系列Ｐ_２内の単語ｗの単語ベクトルを用いることが可能である。

このように複数の方法を用いてアテンションベクトルを作成して利用することによって、入力文Ｐと定義文Ｄ^ｗの各単語との、複数の観点における関係性（意味的な類似性）を考慮することができる。

＜＜ステップ２＞＞
ステップ１の結果、単語ｗはｎ_Ｐ個のアテンションベクトルＤ_５で表現される。それぞれのアテンションベクトルＤ_５を並べた行列を

としたとき、定義文考慮文脈符号化部２８０は、下記式（５）を用いて、一つのベクトルＤ_６に変換し、定義文を表すベクトルとする。

ここで、

はニューラルネットワークのパラメータであり、学習中に学習できる他、事前に指定することが可能である。

また、式（５）の線形変換に加えて、多層パーセプトロン（ＭＬＰ）を用いることができる。

また、アテンションベクトルＤ_５を縦に並べて

とするようにしてもよい。この場合、パラメータＷは

となる。同様に、アテンションベクトルＤ_５を縦横に並べる数を自由に設計することができる。

＜＜ステップ３＞＞
定義文考慮文脈符号化部２８０は、単語ベクトル系列Ｐ_２の内の単語ｗに対応する単語ベクトルに、定義文を表すベクトルＤ_６を代入する。なお、代入の他、元の単語ベクトルにベクトルＤ_６を加算または連結するようにしてもよい。なお、連結する場合は、単語ベクトルの次元ｄ_１を調整する必要がある。

ステップ１〜３までの語彙Ｖ_Ｐに含まれるＮ_ｅ個の単語に関する反復が終わったとき、代入後の単語ベクトル系列Ｐ_２を単語ベクトル系列Ｐ_３とする。単語ベクトル系列Ｐ_３は、Ｌ_Ｐ×ｄ_１の大きさの行列である。

なお、単語ベクトル系列Ｐ_２の単語ベクトルの内、語彙Ｖ_Ｄに含まれない単語ｕの単語ベクトルにも操作を加えることができる。具体的な操作として、単語ベクトル系列Ｐ２の単語ｕに対応する単語ベクトルに対し、任意のｄ_１次元ベクトルの所定係数倍したものを加える、単語ベクトル系列Ｐ_１のうち単語ｕに相当する単語ベクトルの所定係数倍したものを加える、またはこれらの組み合わせである。係数や加える任意のベクトルは事前に指定する場合と、ニューラルネットワークのパラメータとして学習する場合がある。

＜＜ステップ４＞＞
定義文考慮文脈符号化部２８０は、単語ベクトル系列Ｐ_３を、ＬＳＴＭ等の既存手法を用いて単語ベクトル系列Ｐ_４に変換することができる。単語ベクトル系列Ｐ_４は、Ｌ_Ｐ×ｄ_１の大きさの行列である。

そして、定義文考慮文脈符号化部２８０は、生成した単語ベクトル系列Ｐ_４を、入力文Ｐを表すベクトルの系列として、出力部１１０に渡す。

出力部１１０は、定義文考慮文脈符号化部２８０により得られた入力文Ｐを表すベクトルの系列を出力する。

＜本発明の第１の実施の形態に係るベクトル生成装置の作用＞
図２は、本発明の実施の形態に係るベクトル生成処理ルーチンを示すフローチャートである。

入力部１００に入力文Ｐが入力されると、解析部２００において、図２に示すベクトル生成処理ルーチンが実行される。

まず、ステップＳ１００において、入力部１００は、入力文Ｐの入力を受け付ける。

ステップＳ１１０において、トークン系列生成部２１０は、入力文Ｐから、トークンの系列Ｐを生成する。

ステップＳ１２０において、定義文生成部２２０は、トークン系列生成部２１０により生成された単語の系列Ｐのうち、辞書ＤＢ２３０に格納されている見出し語である単語の各々について、当該見出し語ｙの定義文Ｄ^ｙから単語の系列Ｄを生成する。

ステップＳ１３０において、トークン符号化部２４０は、上記ステップＳ１１０により生成された単語の系列Ｐと、上記ステップＳ１２０により語彙Ｖ_Ｐに含まれる単語ｗ毎に生成された単語の系列Ｄと、トークンＤＢ２５０に格納された複数の単語ベクトルとに基づいて、単語の系列Ｐに含まれる単語の各々についての単語ベクトル系列Ｐ_１と、語彙Ｖ_Ｐに含まれる単語ｗ毎の、単語の系列Ｄに含まれる単語の各々についての単語ベクトル系列Ｄ_１とを生成する。

ステップＳ１４０において、第１文脈符号化部２６０は、上記ステップＳ１３０により生成された単語ベクトルＰ_１を、ニューラルネットワークを用いて単語ベクトル系列Ｐ_２に変換する。

ステップＳ１５０において、第２文脈符号化部２７０は、上記ステップＳ１３０により生成された語彙Ｖ_Ｐに含まれる単語ｗ毎の単語ベクトル系列Ｄ_１を、ニューラルネットワークによって単語ベクトル系列Ｄ_２に変換する。

ステップＳ１６０において、トークンＤＢ２５０は、第２文脈符号化部２７０により取得した単語ベクトル系列Ｄ_２を格納する。

ステップＳ１７０において、定義文考慮文脈符号化部２８０は、語彙Ｖ_Ｐに含まれるＮ_ｅ個の単語のうち、１番目の単語ｗを選択する。

ステップＳ１８０において、定義文考慮文脈符号化部２８０は、上記ステップＳ１５０により得られた単語ベクトルＤ_２から、単語ｗに対応する単語ベクトル系列Ｄ_４を抽出し、上記ステップＳ１４０により得られた単語ベクトル系列Ｐ_２と、単語ベクトル系列Ｄ_４とを用いて、アテンションベクトルＤ_５を計算する。

ステップＳ１９０において、定義文考慮文脈符号化部２８０は、ｎ_Ｐ個のアテンションベクトルＤ_５を、式（５）を用いて、一つのベクトルＤ_６に変換する。

ステップＳ２００において、定義文考慮文脈符号化部２８０は、単語ベクトル系列Ｐ_２の内の単語ｗに対応する単語ベクトルに、ベクトルＤ_６を代入する。

ステップＳ２１０において、定義文考慮文脈符号化部２８０は、語彙Ｖ_Ｐに含まれるＮ_ｅ個の単語の全てについて処理したか否かを判定する。

全ての単語について処理していない場合（ステップＳ２１０のＮＯ）、ステップＳ２２０において、語彙Ｖ_Ｐに含まれる次の単語ｗを選択し、ステップＳ１８０に戻る。

一方、全ての単語について処理した場合（ステップＳ２１０のＹＥＳ）、ステップＳ２３０において、定義文考慮文脈符号化部２８０は、単語ベクトル系列Ｐ_３を、ＬＳＴＭ等の既存手法を用いて入力文Ｐを表すベクトルに変換する。

ステップＳ２４０において、出力部１１０は、上記ステップＳ２３０により得られた入力文Ｐを表すベクトルを出力する。

以上説明したように、本実施形態に係るベクトル生成装置によれば、入力文に含まれる各単語のベクトルに基づいて、入力文を表すベクトルの系列を生成する際に、見出し語と、当該見出し語を定義する文である定義文との組を格納した辞書ＤＢに基づいて、入力文に含まれる単語のうち、辞書ＤＢに格納されている当該見出し語である単語について、当該見出し語の定義文を表すベクトルを生成し、定義文を表すベクトルを用いて、入力文を表すベクトルの系列を生成することにより、入力文を表す適切なベクトルを生成することができる。

なお、本実施形態において、第２文脈符号化部２７０と、第１文脈符号化部２６０とを同様の構成としたが、異なる構成にしてもよい。例えば、一方を各単語ベクトルに対する線形変換とすることができる。線形変換のパラメータは学習することも事前に指定することも可能である。

＜本発明の第２の実施の形態に係る文ペア学習装置の概要＞
本実施形態では、単語の定義文Ｄ^ｙをベクトル化する際に、処理対象である文ペア（文Ｐ及び文Ｈのペア）の情報を用いることで、より推定に資する特徴量を残した変換をするようにネットワークを学習可能にする。

単語の定義文Ｄ^ｙを利用することで、単語のベクトル表現をより「文関係性の認識に資する」ように得ることが期待される。

よって、推定対象である文ペアの情報を用いて単語の定義文Ｄ^ｙを動的に変換し、文ペアに応じた異なる単語ベクトルに変換することができる。

すなわち、文ペアの関係性を高精度に実施することができる。特に、低頻度語・固有名詞・専門用語を含む文の関係性推定の精度を向上することができる。

また、学習データに無い専門用語が含まれるテストデータの推定を、従来よりも高い精度で行うことができる。また、学習後の専門用語の逐次的な追加が可能になる。

＜本発明の第２の実施の形態に係る文ペア学習装置の構成＞
図３を参照して、本発明の第２の実施の形態に係る文ペア学習装置の構成について説明する。図３は、本発明の実施の形態に係る文ペア学習装置２０の構成を示すブロック図である。なお、第１の実施の形態に係るベクトル生成装置１０と同様の構成については、同一の符号を付して詳細な説明は省略する。

図３に示すように、本実施形態に係る文ペア学習装置２０は、入力部４００と、解析部５００と、パラメータ学習部４１０とを備えて構成される。

入力部４００は、関係性を示す関係ラベルが予め付与された文ペア（文Ｐ及び文Ｈ）の入力を受け付ける。

そして、入力部４００は、受け付けた文ペアを、トークン系列生成部２１０及びパラメータ学習部４１０に渡す。

解析部５００は、トークン系列生成部５１０と、定義文生成部５２０と、辞書ＤＢ２３０と、トークン符号化部５４０と、トークンＤＢ２５０と、第１文脈符号化部５６０と、第２文脈符号化部２７０と、定義文考慮文脈符号化部５８０と、文ペア符号化部５９０と、関係ラベル推定部６００とを備えて構成される。

トークン系列生成部５１０は、文ペアに含まれる文Ｐ、文Ｈの各々について、トークンの系列Ｐ’、Ｈ’を生成する。以下、本実施形態では、第１の実施形態と同様に、トークンとして単語を用いた場合について説明する。

具体的には、トークン系列生成部５１０は、トークン系列生成部２１０と同様に、文Ｐ、文Ｈをそれぞれ単語に分割し、単語の系列Ｐ’、Ｈ’を生成する。入力された文Ｐ、文Ｈの長さをそれぞれＬ_Ｐ、Ｌ_Ｈとすると、生成される単語の系列Ｐ’、Ｈ’は、それぞれＬ_Ｐ、Ｌ_Ｈの大きさのベクトルとなる。

そして、トークン系列生成部５１０は、生成した単語の系列Ｐ’、Ｈ’を、定義文生成部５２０、及びトークン符号化部５４０に渡す。

定義文生成部５２０は、トークン系列生成部５１０により生成された単語の系列Ｐ’、Ｈ’のうち、辞書ＤＢ２３０に格納されている見出し語ｙである単語の各々について、当該見出し語の定義文Ｄ^ｙから単語の系列Ｄを生成する。

具体的には、定義文生成部５２０は、辞書ＤＢ２３０の見出し語ｙのうち、トークン系列生成部５１０により生成された単語の系列Ｐ’、Ｈ’に含まれる単語を検索し、該当する単語の各々について、当該単語を見出し語とする定義文Ｄ^ｙを単語に分割して系列とした単語の系列Ｄを生成する。単語の系列Ｐ’、Ｈ’に含まれる見出し語である単語ｗの集合を語彙Ｖ_ＰＨとする。

ここで、語彙Ｖ_ＰＨの語彙数（単語ｗの異なり数）をＮ_ｅ、定義文Ｄ^ｙの長さで最大のものをＬ_ｅとする。すなわち、Ｎ_ｅは、語彙Ｖ_ＰＨに含まれ、かつ、単語の系列Ｐ’、Ｈ’に含まれる単語の個数のうち、単語の系列Ｐ及びＨにおいて重複する単語を排除した個数である。単語の系列Ｄは、Ｌ_ｅの大きさのベクトルとなる。

そして、定義文生成部５２０は、語彙Ｖ_ＰＨに含まれる単語ｗ毎に、生成した単語の系列Ｄ（Ｎ_ｅ個分）を、トークン符号化部５４０及び第２文脈符号化部２７０に渡す。

トークン符号化部５４０は、トークン系列生成部５１０により生成された単語の系列Ｐ’、Ｈ’と、定義文生成部２２０により語彙Ｖ_ＰＨに含まれる単語ｗ毎に生成された単語の系列Ｄと、トークンＤＢ２５０に格納された複数の単語ベクトルとに基づいて、単語の系列Ｐ’に含まれる単語の各々についての単語ベクトル系列Ｐ_１と、語彙Ｖ_ＰＨに含まれる単語ｗ毎に、単語の系列Ｈ’に含まれる単語の各々についての単語ベクトルＨ_１と、語彙Ｖ_ＰＨに含まれる単語ｗ毎の、単語の系列Ｄに含まれる単語の各々についての単語ベクトル系列Ｄ_１とを生成する。

具体的には、トークン符号化部５４０は、トークン符号化部２４０と同様に、単語ベクトル系列Ｐ_１と、単語ベクトル系列Ｄ_１とを生成する。また、トークン符号化部５４０は、トークン符号化部２４０における単語ベクトル系列Ｐ_１の生成と同様に、単語の系列Ｈに含まれる単語の各々について、トークンＤＢ２５０から当該単語に対応する単語ベクトルを抽出して、単語ベクトル系列Ｈ_１を生成する。

ここで、トークンＤＢ２５０に格納された単語ベクトルの次元をｄとすると、単語ベクトル系列Ｐ_１はＬ_Ｐ×ｄの大きさの行列、単語ベクトル系列Ｈ_１はＬ_Ｈ×ｄの大きさの行列、語彙Ｖ_ＰＨに含まれる単語ｗ毎の単語ベクトル系列Ｄ_１はＬ_ｅ×ｄの大きさの行列（Ｎ_ｅ個分）となる。

そして、トークン符号化部５４０は、生成した単語ベクトル系列Ｐ_１、Ｈ_１を第１文脈符号化部５６０に、単語ベクトル系列Ｄ_１を第２文脈符号化部２７０に、それぞれ渡す。単語ベクトル系列Ｐ_１、Ｈ_１、Ｄ_１は、定義文考慮文脈符号化部５８０で用いる場合もある。

第１文脈符号化部５６０は、トークン符号化部５４０により生成された単語ベクトル系列Ｐ_１、Ｈ_１を、ニューラルネットワークを用い、文脈を考慮して単語ベクトル系列Ｐ_２、Ｈ_２にそれぞれ変換する。

具体的には、第１文脈符号化部５６０は、第１文脈符号化部２６０と同様に、単語ベクトル系列Ｐ_１を単語ベクトル系列Ｐ_２に、単語ベクトル系列Ｈ_１を、単語ベクトル系列Ｈ_２に変換する。

そして、第１文脈符号化部５６０は、変換した単語ベクトル系列Ｐ_２、Ｈ_２を、定義文考慮文脈符号化部５８０に渡す。

定義文考慮文脈符号化部５８０は、ニューラルネットワークを用いて、文ペア（文Ｐ、文Ｈ）に含まれる単語のうち、辞書ＤＢ２３０に格納されている見出し語である単語ｗについて、単語ｗの定義文Ｄ^ｗを表すベクトルを生成し、生成された定義文Ｄ^ｗを表すベクトルを用いて、文ペアの各文を表すベクトルの系列をそれぞれ生成する。

ここで、考慮する文ペア（文Ｐ、文Ｈ）と定義文Ｄ^ｗとの関係性とは、入力文Ｐを構成する単語と、入力文Ｈを構成する単語と、定義文Ｄ^ｗを構成する単語との意味的な類似性を指す。

単語ｗに対応する定義文のベクトル系列Ｄ_２を用いて入力文Ｐ、Ｈの単語ｗの単語ベクトルを生成する際に、単語ベクトル系列Ｄ_２のうち、入力文Ｐ、Ｈの各単語の単語ベクトルとの意味的類似性が高いものが強調されるよう、処理を行う。

具体的には、定義文考慮文脈符号化部５８０は、語彙Ｖ_Ｄに含まれるＮ_ｅ個の単語ｗの各々について、ステップ１〜ステップ４を繰り返す。

（ステップ１）Ｎ_ｅ個の単語ベクトル系列Ｄ_２のうち、処理対象となる単語ｗに対応する単語ベクトル系列をＤ_４とし、第１文脈符号化部５６０により得られた単語ベクトル系列Ｐ_２と、第２文脈符号化部２７０により得られた単語ベクトル系列Ｄ_４とのアテンションを取り、（ステップ２）第１文脈符号化部５６０により得られた単語ベクトル系列Ｈ_２と、単語ベクトル系列Ｄ_４とのアテンションを取り、（ステップ３）アテンション結果を用いて単語ベクトル系列Ｄ_２を単語ベクトルＤ_６に変換し、（ステップ４）単語ベクトルＤ_６を用いて、単語ベクトル系列Ｐ_２を変換した新しい単語ベクトル系列Ｐ_３を求めると共に、単語ベクトルＤ_６を用いて、単語ベクトル系列Ｈ_２を変換した新しい単語ベクトル系列Ｈ_３を求める。

そして、定義文考慮文脈符号化部５８０は、（ステップ５）最終的に得られた単語ベクトル系列Ｐ_３を文Ｐを表すベクトルの系列Ｐ_４に変換すると共に、最終的に得られた単語ベクトル系列Ｈ_３を文Ｈを表すベクトルの系列Ｈ_４に変換する。

＜＜ステップ１＞＞
定義文考慮文脈符号化部５８０においては、定義文考慮文脈符号化部２８０のステップ１と同様に、語彙Ｖ_Ｄに含まれる単語ｗ毎の単語ベクトル系列Ｄ_２から、単語ベクトル系列Ｄ_４を抽出する。

そして、定義文考慮文脈符号化部５８０は、定義文考慮文脈符号化部２８０のステップ１と同様に、第１文脈符号化部５６０により得られた単語ベクトル系列Ｐ_２と、単語ベクトル系列Ｄ_４とを用いて、アテンションベクトルＤ_５，Ｐを式（４）により計算する。

すなわち、ｎ_Ｐ個のアテンションベクトルＤ_５，Ｐが得られる。

＜＜ステップ２＞＞
ステップ１と同様に、定義文考慮文脈符号化部５８０は、第１文脈符号化部５６０により得られた単語ベクトル系列Ｈ_２と、単語ベクトル系列Ｄ_４とを用いて、アテンションベクトルＤ_５，Ｈを計算する。

すなわち、ｎ_ｈ個のアテンションベクトルＤ_５Ｈとが得られる。

＜＜ステップ３＞＞
ステップ１及び２の結果、単語ｗはｎ_Ｐ＋ｎ_ｈ個のアテンションベクトルＤ_５で表現される。それぞれのアテンションベクトルＤ_５を並べた行列を

としたとき、定義文考慮文脈符号化部５８０は、式（６）を用いて、一つのベクトルＤ_６に変換し、定義文を表すベクトルとする。

ここで、

また、式（６）の線形変換に加えて、多層パーセプトロン（ＭＬＰ）を用いることができる。

また、アテンションベクトルＤ_５を縦に並べて

とするようにしてもよい。この場合、パラメータＷは

＜＜ステップ４＞＞
定義文考慮文脈符号化部５８０は、単語ベクトル系列Ｐ_２、Ｈ_２の内の単語ｗに対応する単語ベクトルに、当該単語ｗの定義文を表すベクトルＤ_６を代入する。なお、代入の他、元の単語ベクトルにベクトルＤ_６を加算または連結するようにしてもよい。なお、連結する場合は、単語ベクトルの次元ｄ_１を調整する必要がある。

ステップ１〜３までの語彙Ｖ_ＰＨに含まれるＮ_ｅ個の単語に関する反復が終わったとき、代入後の単語ベクトル系列Ｐ_２を単語ベクトル系列Ｐ_３とし、代入後の単語ベクトル系列Ｈ_２を単語ベクトル系列Ｈ_３とする。単語ベクトル系列Ｐ_３は、Ｌ_ｐ×ｄ_１の大きさの行列、単語ベクトル系列Ｈ_３は、Ｌ_Ｈ×ｄ_１の大きさの行列である。

なお、定義文考慮文脈符号化部２８０のステップ３と同様に、単語ベクトル系列Ｐ_２、Ｈ_２の単語ベクトルの内、語彙Ｖ_Ｄに含まれない単語ｕの単語ベクトルにも操作を加えることができる。

＜＜ステップ５＞＞
定義文考慮文脈符号化部５８０は、単語ベクトル系列Ｐ_３、Ｈ_３を、ＬＳＴＭ等の既存手法を用いて単語ベクトル系列Ｐ_４、Ｈ_４に変換することができる。単語ベクトル系列Ｐ_４は、Ｌ_ｐ×ｄ_１の大きさのテンソル、単語ベクトル系列Ｈ_４は、Ｌ_Ｈ×ｄ_１の大きさの行列である。

そして、定義文考慮文脈符号化部５８０は、生成した単語ベクトル系列Ｐ_４、Ｈ_４をそれぞれ文Ｐを表わすベクトルの系列、文Ｈを表すベクトルの系列として、文ペア符号化部５９０に渡す。

文ペア符号化部５９０は、定義文考慮文脈符号化部５８０により得られた文ペアの各文を表すベクトルの系列である単語ベクトル系列Ｐ_４、Ｈ_４の各々に基づいて、関係ラベル推定に用いるベクトルＢを生成する。

具体的には、文ペア符号化部５９０は、従来技術（例えば、参考文献３〜５）の技術を用いて、関係ラベル推定に用いるベクトルを生成する。
［参考文献３］Q. Chen, X. Zhu, Z. Ling, S. Wei, H. Jiang, and D. Inkpen. Enhanced LSTM for natural language in-ference. In ACL, 2017.
［参考文献４］Bilateral Multi-Perspective Matching for Natural Language Sentences.
［参考文献５］Natural Language Inference Over Interaction Space.

以下、参考文献３を用いた場合について説明する。

まず、文ペア符号化部５９０は、定義文考慮文脈符号化部５８０により得られた単語ベクトル系列Ｐ_４、Ｈ_４を用いて、アラインメント行列

を計算する。

次に、文ペア符号化部５９０は、行列Ａ_Ｐの各行に関して、ソフトマックス関数を用いたＡ_Ｐを計算する。

を縦につなげた単語ベクトル系列Ｐ_５を計算する。単語ベクトル系列Ｐ_５は、Ｌ_Ｐ×４ｄ_１である。また、

は要素積である。

また、文ペア符号化部５９０は、Ｈに関しても同様に単語ベクトル系列Ｈ_５を計算する。単語ベクトル系列Ｈ_５は、Ｌ_Ｈ×４ｄ_１である。

そして、文ペア符号化部５９０は、単語ベクトル系列Ｐ_５、Ｈ_５の各ベクトルを１層ＦｅｅｄＦｏｒｗａｒｄＮｅｔｗｏｒｋを用いて変換し、ベクトル系列Ｐ_６、Ｈ_６を計算する。ベクトル系列Ｐ_６、Ｈ_６は、それぞれＬ_Ｐ×ｄ_２、Ｌ_Ｈ×ｄ_２となる。

次に、文ペア符号化部５９０は、ベクトル系列Ｐ_６、Ｈ_６を、ＲＮＮによってベクトル系列Ｐ_７、Ｈ_７に変換する。そして、文ペア符号化部５９０は、ベクトル系列Ｐ_７、Ｈ_７を行方向にｍａｘｐｏｏｌｉｎｇ、ａｖｅｒａｇｅｐｏｏｌｉｎｇしたベクトル

を計算する。

そして、文ペア符号化部５９０は、Ｐ_Ｍ、Ｐ_Ａ、Ｈ_Ｍ、Ｈ_Ａを縦に並べたベクトルＢを、関係ラベル推定部６００に渡す。

関係ラベル推定部６００は、ニューラルネットワークを用いて、文ペア符号化部５９０により得られた、ベクトルＢに基づいて、文ペアの関係性を示す関係ラベルを推定する。

具体的には、関係ラベル推定部６００は、従来技術（例えば、参考文献３〜５）の技術を用いて、関係ラベル推定を行う。

参考文献３を用いた場合、関係ラベル推定部６００は、文ペア符号化部５９０から取得したベクトルＢをＭＬＰによって所定のＺ次元ベクトルに変換し、ソフトマックス関数を用いて文ペアの関係ラベルに関する確率分布を計算する。Ｚの値は、推定する関係ラベルの数に基づき決定される。例えば、含意認識タスクにおいては、（１）真である、（２）偽である、（３）判断がつけられない、に対応した３次元となる。

ここで、関係ラベル推定部６００は、確率分布を推定結果としても、最も高い確率の関係ラベルを推定結果としてもよい。

そして、関係ラベル推定部６００は、推定結果を、パラメータ学習部４１０に渡す。

パラメータ学習部４１０は、文ペアに付与された関係ラベルと、関係ラベル推定部により推定された関係ラベルとに基づいて、文ペアの関係性を示す関係ラベルを推定するためのニューラルネットワークのパラメータを更新する。

具体的には、パラメータ学習部４１０は、関係ラベル推定部６００により得られた推定結果と、正解ラベルから損失を計算し、計算された損失に基づいて、文ペアの関係性を示す関係ラベルを推定するためのニューラルネットワークのパラメータを更新する。損失を計算する際に、クロスエントロピー関数等の損失関数を用いる。

そして、パラメータ学習部４１０は、学習データである文ペアの推定精度に基づいて、収束判定を行う。例えば、推定精度の増減に基づいて、収束判定を行い、収束したら学習を終了する。

そして、パラメータ学習部４１０は、学習したパラメータを解析部５００に渡す。解析部５００は、学習したパラメータを記憶部（図示しない）に格納する。

＜本発明の第２の実施の形態に係る文ペア学習装置の作用＞
図４は、本発明の第２の実施の形態に係る文ペア学習ルーチンを示すフローチャートである。なお、第１の実施の形態に係るベクトル生成処理ルーチンと同様の処理については、同一の符号を付して詳細な説明は省略する。また、以下では本実施形態に係る文ペア学習装置が、ミニバッチを用いて学習する場合について説明するが、任意のニューラルネットワークの学習方法を用いることができる。

ステップＳ３００において、入力部４００は、関係性を示す関係ラベルが予め付与された文ペア（文Ｐ及び文Ｈ）の入力を受け付ける。

ステップＳ３０２において、トークン系列生成部５１０は、ステップＳ３００により受け付けた文ペアを、ミニバッチに分割する。ミニバッチとは、文ペアをランダムに分割した文ペアｋ個の集合である。ｋは１以上の自然数である。

ステップＳ３０４において、トークン系列生成部５１０は、１番目のミニバッチを選択する。

ステップＳ３０６において、トークン系列生成部５１０は、１番目の文を選択する。

ステップＳ３１０において、トークン系列生成部５１０は、１番目のミニバッチに含まれる文Ｐ、文Ｈの各々について、トークンの系列Ｐ、Ｈを生成する。

ステップＳ３２０において、定義文生成部５２０は、辞書ＤＢ２３０の見出し語ｙと、上記ステップＳ３１０により生成された単語の系列Ｐ、Ｈとにおいて共通する単語の各々について、当該単語の定義文Ｄ^ｙから単語の系列Ｄを生成する。

ステップＳ３３０において、トークン符号化部５４０は、上記ステップＳ３１０により生成された単語の系列Ｐ、Ｈと、ステップＳ１２０により生成された単語の系列Ｄと、トークンＤＢ２５０に格納された複数の単語ベクトルとに基づいて、単語の系列Ｐに含まれる単語の各々についての単語ベクトル系列Ｐ_１と、語彙Ｖ_ＰＨに含まれる単語ｗ毎に、単語の系列Ｈに含まれる単語の各々についての単語ベクトルＨ_１と、語彙Ｖ_ＰＨに含まれる単語ｗ毎の、単語の系列Ｄに含まれる単語の各々についての単語ベクトル系列Ｄ_１とを生成する。

ステップＳ３４０において、第１文脈符号化部５６０は、上記ステップＳ３３０により生成された単語ベクトルＰ_１、Ｈ_１を、ニューラルネットワークを用いて単語ベクトル系列Ｐ_２、Ｈ_２にそれぞれ変換する。

ステップＳ３８０において、定義文考慮文脈符号化部５８０は、ニューラルネットワークを用いて、ステップＳ１５０により得られた単語ベクトルＤ_２から、単語ｗに対応する単語ベクトル系列Ｄ_４を抽出し、上記ステップＳ３４０により得られた単語ベクトル系列Ｐ_２及びＨ_２と、単語ベクトル系列Ｄ_４とを用いて、アテンションベクトルＤ_５を計算する。

ステップＳ３９０において、定義文考慮文脈符号化部５８０は、ｎ_Ｐ＋ｎ_Ｈ個のアテンションベクトルＤ_５を、式（５）を用いて、一つのベクトルＤ_６に変換する。

ステップＳ４００において、定義文考慮文脈符号化部５８０は、単語ベクトル系列Ｐ_２、Ｈ_２の内の単語ｗに対応する単語ベクトルに、ベクトルＤ_６を代入する。

ステップＳ４３０において、定義文考慮文脈符号化部５８０は、単語ベクトル系列Ｐ_３、Ｈ_３を、ＬＳＴＭ等の既存手法を用いて単語ベクトル系列Ｐ_４、Ｈ_４に変換する。

ステップＳ４４０において、関係ラベル推定部６００は、ニューラルネットワークを用いて、上記ステップＳ４３０により得られた、文ペアの各文を表すベクトルの各々に基づいて、文ペアの関係性を示す関係ラベルを推定する。

ステップＳ４４２において、パラメータ学習部４１０は、全ての文について処理を行ったか否かを判定する。

全ての文について処理を行っていない場合（ステップＳ４４２のＮＯ）、ステップＳ４４４において、次の文を選択し、ステップＳ３１０に戻る。

一方、全ての文について処理を行っている場合（ステップＳ４４２のＹＥＳ）、ステップＳ４５０において、パラメータ学習部４１０は、上記ステップＳ４４０により得られた推定結果と、正解ラベルから損失を計算する。

ステップＳ４６０において、パラメータ学習部４１０は、全てのミニバッチについて処理を行ったか否かを判定する。

全てのミニバッチについて処理を行っていない場合（ステップＳ４６０のＮＯ）、ステップＳ４７０において、次のミニバッチを選択し、ステップＳ３１０に戻る。

一方、全てのミニバッチについて処理を行っている場合（ステップＳ４６０のＹＥＳ）、ステップＳ４８０において、パラメータ学習部４１０は、推定精度に基づいて、収束判定を行う。

収束している場合（ステップＳ４８０のＮＯ）、ステップＳ３００に戻り、新たな学習データの入力を受け付け、ステップＳ３００〜ステップＳ４８０の処理を繰り返す。

一方、収束している場合（ステップＳ４８０のＹＥＳ）、ステップＳ４９０において、パラメータ学習部４１０は、学習したパラメータを更新する。

＜本発明の第２の実施の形態に係る関係ラベル推定装置の構成＞
次に、本発明の第２の実施の形態に係る文ペア学習装置２０により学習されたニューラルネットワークを用いて、入力された関係ラベルを推定する関係ラベル推定装置３０の構成について説明する。なお、第１の実施の形態に係るベクトル生成装置１０と、文ペア学習装置２０と同様の構成については、同一の符号を付して詳細な説明は省略する。

関係ラベル推定装置３０は、入力部７００と、解析部８００と、出力部７１０とを備えて構成される。

入力部７００は、文ペア（文Ｐ、文Ｈ）の入力を受け付ける。

そして、入力部７００は、トークン系列生成部８１０に、受け付けた文ペアを渡す。

解析部８００は、トークン系列生成部５１０と、定義文生成部５２０と、辞書ＤＢ２３０と、トークン符号化部５４０と、トークンＤＢ２５０と、第１文脈符号化部５６０と、第２文脈符号化部２７０と、定義文考慮文脈符号化部５８０と、文ペア符号化部５９０と、関係ラベル推定部６００とを備えて構成される。

具体的には、解析部８００の各ブロックは、文ペア学習装置２０により学習されたニューラルネットワークのパラメータに基づいて、各処理を行う。

出力部７１０は、関係ラベル推定部６００による推定結果を出力する。

＜本発明の第２の実施の形態に係る関係ラベル推定装置の作用＞
図６は、本発明の第２の実施の形態に係る関係ラベル推定処理ルーチンを示すフローチャートである。なお、第１の実施の形態に係るベクトル生成処理ルーチン、及び文ペア学習処理ルーチンと同様の処理については、同一の符号を付して詳細な説明は省略する。

ステップＳ５００において、入力部７００は、文ペア（文Ｐ、文Ｈ）の入力を受け付ける。

ステップＳ５１０において、出力部７１０は、関係ラベル推定部６００による推定結果を出力する。

＜本発明の第２の実施の形態に係る手法の実験結果＞
次に、第２の実施形態で説明した手法における実験について述べる。

＜＜比較手法＞＞
ベースラインモデルとして、参考文献３の手法（以下、ＥＳＩＭ）、非特許文献１の手法（以下、Ｂａｈｄａｎａｕ）の２つと比較した。Ｂａｈｄａｎａｕ及び本実施形態は、それぞれＥＳＩＭにモジュールを追加して実験を行った。

なお、Ｂａｈｄａｎａｕは、文ペア内に現れる単語のうち、トークンＤＢ２５０に格納された単語ベクトルを持たない単語の集合（ＯＯＶ）の単語ベクトルを補完することが目的であるため、用い得る単語の集合は、（Ｖ_Ｉ∩Ｖ_Ｄ）−Ｖ_Ｅである。

ここで、Ｖ_Ｉは、文Ｐと文Ｈに現れる単語の、全ての文ペアに関する和集合であり、Ｖ_Ｅは、事前学習されたトークンＤＢ２５０が持つ単語の集合である。

また、本実施形態では、辞書情報による関係ラベル推定精度の向上が目的であるため、用い得る単語の集合はＶ_Ｉ∩Ｖ_Ｄである。

＜＜実験設定＞＞
ＭＮＬＩデータセットとは、参考文献６に記述されたデータセットである。
［参考文献６］A. Williams, N. Nangia, and S. R. Bowman. A broad-coverage challenge corpus for sentence understanding through inference. CoRR, abs/1704.05426, 2017.

また、Ｐｙｔｈｏｎのｓｔｒ．ｓｐｌｉｔ（）関数を行って単語化した後、小文字への統一と句読点等一部記号を削除する前処理を行った。トークンＤＢ２５０に事前学習された３００次元ＧｌｏＶｅ８４０Ｂベクトルを用いた（参考文献７）
［参考文献７］G. A. Miller. WordNet: A lexical database for english. Commun. ACM, 38(11):39-41, 1995.

ＯＯＶの単語は正規分布からランダムにサンプリングした。トークンＤＢ２５０内の単語ベクトルは学習中固定した。

また、エンコーダとデコーダに用いるＲＮＮには、２層双方向ＳＲＵを用いた（参考文献２）。双方向ＳＲＵの出力次元数をｎ_２＝２００とし、活性化関数にｔａｎｈ関数を用いた。

デコーダのアテンションを

でスケーリングした。ドロップアウト率は０．４５とし、既存研究（参考文献３）と同じ層を用いた。

学習は１つのＧＰＵで行った。ミニバッチサイズは３２とした。最適化は参考文献８の手法を用い、第１モメンタムを０．９、第２モメンタムを０．９９９とした。初期学習率は０．０００４とし、減衰率は０．２５とした。学習データから学習を行い、スケジューリングで学習率を減衰させ、開発データで評価を行った。
［参考文献８］D. P. Kingma and J. Ba. Adam: A method for stochastic optimization. CoRR, abs/1412.6980, 2014.

＜＜辞書＞＞
辞書ＤＢ２３０として、ＷｏｒｄＮｅｔ（参考文献７）の語彙Ｖ_Ｄと定義文Ｄ^ｙを用いた。参考文献７をＰｙｔｈｏｎのｓｔｒ．ｓｐｌｉｔ（）関数で行った後、小文字への統一と句読点など一部記号を削除する前処理を行った。１つの見出し語ｙに定義文Ｄ^ｙが複数文ある多義語では、参考文献７に提供されている語義の出現頻度で降順に、５つの定義文をつなげた文章を定義文Ｄ^ｙとした。

また、参考文献９のストップワードを語彙Ｖ_Ｄから取り除いた。
［参考文献９］S. Bird, E. Klein, and E. Loper. Natural Language Pro-cessing with Python. O'Reilly Media, Inc., 2009.

＜＜評価＞＞
＜＜＜実験１＞＞＞
実験１では、ＯＯＶが多い状況下での含意認識精度比較既存研究（非特許文献１）に即して、トークンＤＢ２５０に含まれる単語ベクトルの語彙を制限した状況での精度（正解率）の比較をした。

トークンＤＢ２５０に含まれる単語ベクトルの語彙を意図的に制限することで、ＯＯＶの単語が多い状況下での辞書情報の精度への影響を調べることができる。語彙Ｖ_Ｅに学習データで出現頻度が高い３０００語のみ使用した。残りの単語はＯＯＶとした。辞書の語彙はＷｏｒｄＮｅｔの全語彙とした。

図７に実験１の結果を示す。図７の数値は関係ラベルの推定精度を表す。ＭＮＬＩは１０のドメインから成る。５つのドメインは学習データ・開発データともに含まれ、ｍａｔｃｈｅｄドメインと呼ばれる。残り５つのドメインは開発データのみに含まれ、ｍｉｓｍａｔｃｈｅｄドメインと呼ばれる。

実験１では、双方のドメインで本実施形態の手法が最も高い推定精度を示した。よって、ＯＯＶの単語が多い状況下で本実施形態の手法がベースラインモデルの精度を向上することを確認した。本実験のように、３０００語にＶ_Ｅを限定した場合、基本的な語以外はＯＯＶとなるため、ｍａｔｃｈｅｄとｍｉｓｍａｔｃｈｅｄのドメインの違いによる大きな差が見られなかった。

＜＜＜実験２＞＞＞
実験２では、辞書ＤＢ２３０の語彙数を増やした時に学習ラベル推定の精度は向上するかを確認するため、ＭＮＬＩデータセットにおいて辞書ＤＢ２３０の語彙数を変化させたときの推定精度の変化を調べた。

辞書ＤＢ２３０の語彙は、学習データ・開発データでの出現頻度が高い語から順に使用した。辞書ＤＢ２３０の語彙数が０のとき、Ｂａｈｄａｎａｕの手法と本実施形態の手法はＥＳＩＭと一致する。

図８に実験２の結果を示す。図８は、辞書ＤＢ２３０の語彙数による関係ラベルの推定精度の変化を示す。図８の語彙数の右端は全ての語彙を用いたときの結果である。

図８から、辞書ＤＢ２３０の語彙を増やすほど精度が向上する傾向が見られる。Ｂａｈｄａｎａｕの手法は、語彙数が小さいときは精度の向上が起きない。これは、語彙数が小さい辞書ＤＢ２３０にはＯＯＶが含まれないため、Ｂａｈｄａｎａｕらの手法がＥＳＩＭと一致することに因る。

図８において、本実施形態では、全ての語彙数で最も高い精度を達成している。特に、語彙数が小さい時のＢａｈｄａｎａｕらの手法と本実施形態の手法との差は、頻出語における定義文Ｄ^ｙについてトークンＤＢ２５０の有用性を示唆している。

＜＜＜実験３＞＞＞
実験３では、ＯＯＶ数と関係ラベルの推定精度に相関関係があるかについて実験した。実験１、実験２の結果では、定義文Ｄ^ｙについてのトークンＤＢ２５０の有用性が、単語がＯＯＶであることに依存しているかどうかが明らかになっていない。ＭＮＬＩデータセットではドメイン毎にＯＯＶの数が違うため、ＯＯＶ数と関係ラベルの推定精度の関係を調べることができる。

そこで、実験３では、ドメイン毎のＯＯＶ数と関係ラベルの推定精度を調べた。図９に実験３の結果を示す。図９の数値は各ドメインでの関係ラベルの推定精度を表す。

まず、ＭＮＬＩデータセット全体を含む多くのドメインで本実施形態が最も高い関係ラベルの推定精度を達成した。次に、ＯＯＶが現れる文ペアにおける関係ラベルの推定精度を見ると、他の文ペアと同程度で推定精度が向上している。

ドメイン毎のＯＯＶ数に注目した場合も、例えばＴｅｌｅｐｈｏｎｅ、ＦａｃｅｔｏＦａｃｅのドメインはＯＯＶ数が小さいにも関わらず大きな精度の向上が見られる。１０のドメインをサンプルとしてＯＯＶ数と関係ラベルの推定精度の相関係数を計算すると、ＥＳＩＭ、Ｂａｈｄａｎａｕらの手法、本実施形態ではそれぞれ−０．０７、−０．３８、−０．２１であり、ｐ値は０．８６、０．２８、０．５６であった。

＜＜＜考察＞＞＞
ＯＯＶの数と性能に有意な関係が見られない理由について以下考察する。本実験の設定ではＧｌｏＶｅで用意される語彙がＭＮＬＩの語彙を広くカバーするため、非ＯＯＶの方がＯＯＶに比べて多く出現する。このため、定義文Ｄ^ｙに係るトークンＤＢ２５０が及ぼす影響はＯＯＶよりも非ＯＯＶに対して大きくなる。よって、辞書に含まれる全ての見出し語ｙに対してトークンＤＢ２５０を用いる本実施形態は、Ｂａｈｄａｎａｕに比べて精度を改善することができたと考える。

すなわち、常に単語の定義文Ｄ^ｙを用いる事で、よりリッチな情報をもとに推定ができる。また、本実験では比較のためトークンＤＢ２５０の単語ベクトルを固定したが、ニューラルネットワークの学習後に、トークンＤＢ２５０への単語ベクトルの追加が可能であるため、より関係ラベルの推定精度を高めることができる。

また、辞書ＤＢ２３０の定義文Ｄ^ｙを元に、定義文Ｄ^ｙの情報に応じた単語ベクトルを生成するため、学習ラベルの推定の際に有用な特徴量をできるだけ残して、入力及び定義文Ｄ^ｙから単語ベクトルを作成できる。定義文考慮文脈符号化部の導入により、定義文Ｄ^ｙ内の特定の箇所に注目することができるため、定義文Ｄ^ｙが長文である場合や多義を表す複数文である場合に優位性がある。特に、多義性のある単語については、語義曖昧性解消の効果がある。

以上説明したように、本実施形態に係る文ペア学習装置によれば、ニューラルネットワークを用いて、文ペアに含まれる各単語のベクトルに基づいて、文ペアの各文を表すベクトルの系列を生成する際に、見出し語と、見出し語を定義する文である定義文との組を格納した辞書ＤＢに基づいて、文ペアに含まれる単語のうち、辞書ＤＢに格納されている見出し語である単語について、見出し語の定義文を表すベクトルを生成し、生成された定義文を表すベクトルを用いて、文ペアの各文を表すベクトルの系列をそれぞれ生成し、ニューラルネットワークを用いて、文ペアの各文を表すベクトルの系列の各々に基づいて、文ペアの関係性を示す関係ラベルを推定し、文ペアに付与された関係ラベルと、推定された関係ラベルとに基づいて、ニューラルネットワークのパラメータを更新することにより、文ペアの関係性を精度よく推定するためのニューラルネットワークを学習することができる。

なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

本実施形態において、学習方法はミニバッチを用いた場合を例に説明したが、これに限定されるものではない。任意のニューラルネットワークの学習方法を用いる構成としてもよい。

また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。

１０ベクトル生成装置
２０文ペア学習装置
３０関係ラベル推定装置
１００入力部
１１０出力部
２００解析部
２１０トークン系列生成部
２２０定義文生成部
２３０辞書ＤＢ
２４０トークン符号化部
２５０トークンＤＢ
２６０文脈符号化部
２７０文脈符号化部
２８０定義文考慮文脈符号化部
４００入力部
４１０パラメータ学習部
５００解析部
５１０トークン系列生成部
５２０定義文生成部
５４０トークン符号化部
５６０文脈符号化部
５８０定義文考慮文脈符号化部
５９０文ペア符号化部
６００関係ラベル推定部
７００入力部
７１０出力部
８００解析部
８１０トークン系列生成部

Claims

入力文を表わすベクトルの系列を生成するベクトル生成装置であって、
前記入力文に含まれる各単語に対応するベクトルに基づいて、前記入力文を表すベクトルの系列を生成する際に、見出し語と、前記見出し語を定義する文である定義文との組を格納した辞書ＤＢに基づいて、前記入力文に含まれる単語のうち、前記辞書ＤＢに格納されている前記見出し語である単語について、前記見出し語の定義文を用いて、前記入力文を表すベクトルの系列を生成する定義文考慮文脈符号化部
を備えることを特徴とするベクトル生成装置。
前記定義文考慮文脈符号化部は、
前記入力文に含まれる単語のうち、前記辞書ＤＢに格納されている見出し語である単語について、前記見出し語の定義文を用いて、前記入力文を表すベクトルの系列を生成する際に、前記入力文と、前記単語を見出し語とする前記定義文に含まれる各単語との関係性を考慮して、当該見出し語を表すベクトルを生成し、前記入力文に含まれる単語のベクトルとして用いる
ことを特徴とする請求項１記載のベクトル生成装置。
前記入力文は、第１の入力文と、第２の入力文とのペアであって、
前記定義文考慮文脈符号化部により得られた、前記第１の入力文を表わす第１ベクトルの系列と、前記第２の入力文を表わす第２ベクトルの系列とに基づいて、前記第１の入力文と、前記第２の入力文との関係性を示す関係ラベルを推定する関係ラベル推定部
を更に備えることを特徴とする請求項１又は２記載のベクトル生成装置。
関係性を示す関係ラベルが予め付与された文ペアの入力を受け付ける入力部と、
ニューラルネットワークを用いて、前記文ペアに含まれる各単語に対応するベクトルに基づいて、前記文ペアの各文を表すベクトルの系列を生成する際に、見出し語と、前記見出し語を定義する文である定義文との組を格納した辞書ＤＢに基づいて、前記文ペアに含まれる単語のうち、前記辞書ＤＢに格納されている前記見出し語である単語について、前記見出し語の定義文を用いて、前記文ペアの各文を表すベクトルの系列をそれぞれ生成する定義文考慮文脈符号化部と、
ニューラルネットワークを用いて、前記定義文考慮文脈符号化部により得られた、前記文ペアの各文を表すベクトルの系列の各々に基づいて、前記文ペアの関係性を示す関係ラベルを推定する関係ラベル推定部と、
前記文ペアに付与された関係ラベルと、前記関係ラベル推定部により推定された関係ラベルとに基づいて、前記ニューラルネットワークのパラメータを更新するパラメータ学習部と、
を備えることを特徴とする文ペア学習装置。
入力文を表わすベクトルの系列を生成するベクトル生成方法であって、
定義文考慮文脈符号化部が、前記入力文に含まれる各単語に対応するベクトルに基づいて、前記入力文を表すベクトルの系列を生成する際に、見出し語と、前記見出し語を定義する文である定義文との組を格納した辞書ＤＢに基づいて、前記入力文に含まれる単語のうち、前記辞書ＤＢに格納されている前記見出し語である単語について、前記見出し語の定義文を用いて、前記入力文を表すベクトルの系列を生成する
ことを特徴とするベクトル生成方法。
入力部が、関係性を示す関係ラベルが予め付与された文ペアの入力を受け付け、
定義文考慮文脈符号化部が、ニューラルネットワークを用いて、前記文ペアに含まれる各単語に対応するベクトルに基づいて、前記文ペアの各文を表すベクトルの系列を生成する際に、見出し語と、前記見出し語を定義する文である定義文との組を格納した辞書ＤＢに基づいて、前記文ペアに含まれる単語のうち、前記辞書ＤＢに格納されている前記見出し語である単語について、前記見出し語の定義文を用いて、前記文ペアの各文を表すベクトルの系列をそれぞれ生成し、
関係ラベル推定部が、ニューラルネットワークを用いて、前記定義文考慮文脈符号化部により得られた、前記文ペアの各文を表すベクトルの系列の各々に基づいて、前記文ペアの関係性を示す関係ラベルを推定し、
パラメータ学習部が、前記文ペアに付与された関係ラベルと、前記関係ラベル推定部により推定された関係ラベルとに基づいて、前記ニューラルネットワークのパラメータを更新する
ことを特徴とする文ペア学習方法。
コンピュータを、請求項１乃至３の何れか１項記載のベクトル生成装置、又は請求項４記載の文ペア学習装置の各部として機能させるためのプログラム。