JP6291443B2 - 接続関係推定装置、方法、及びプログラム - Google Patents

接続関係推定装置、方法、及びプログラム Download PDF

Info

Publication number
JP6291443B2
JP6291443B2 JP2015050084A JP2015050084A JP6291443B2 JP 6291443 B2 JP6291443 B2 JP 6291443B2 JP 2015050084 A JP2015050084 A JP 2015050084A JP 2015050084 A JP2015050084 A JP 2015050084A JP 6291443 B2 JP6291443 B2 JP 6291443B2
Authority
JP
Japan
Prior art keywords
sentence
concept
concept vector
vector
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015050084A
Other languages
English (en)
Other versions
JP2016170636A (ja
Inventor
淳史 大塚
淳史 大塚
平野 徹
徹 平野
東中 竜一郎
竜一郎 東中
牧野 俊朗
俊朗 牧野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2015050084A priority Critical patent/JP6291443B2/ja
Publication of JP2016170636A publication Critical patent/JP2016170636A/ja
Application granted granted Critical
Publication of JP6291443B2 publication Critical patent/JP6291443B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、接続関係推定装置、方法、及びプログラムに係り、特に、文のペアの接続関係ラベルを推定するための接続関係推定装置、方法、及びプログラムに関する。
文のペアに存在する接続関係を推定する技術は、自然言語処理の談話解析の分野で議論される技術である。接続関係とは文のペアの間を「だから」、「例えば」、又は「でも」のような接続詞によって接続できる関係である。接続関係は明示的な接続関係と暗示的な接続関係が存在する。明示的な接続関係とは、接続関係が文のペアのうち片方の文の文中に、「だから」、「例えば」をはじめとする接続詞が明示的に含まれている接続関係である。暗示的な接続関係とは文中に接続詞などの接続関係を示す表現は含まれていないが、文ペアの内容から接続関係が推測される接続関係である。
明示的な接続関係については、接続詞などの表現に着目することで接続関係を推定することができる。一方、暗示的な接続関係は、文中に出現する単語や文の構文情報といった文から取得できる表層情報を用いて接続関係を推定する技術が知られている(非特許文献1参照)。
Ziheng Lin, Hwee Tou Ng, Min-Yen Kan."A PDTB-Styled End-to-End Discourse Parser." Natural Language Engineering, 20, pp 151-184. Cambridge University Press. (2014)
文のペアの間の接続関係推定において、「だから」、「例えば」等の接続詞が存在しない接続関係(暗示的な接続関係)を推定するためには、文のペアの間の内容を比較する必要がある。従来技術では内容の比較は文中に出現する単語により行っていたが、接続関係は単語の関係性から判定出来るとは限らず、単語と文節、節と述語項、あるいは単語の文全体など文内の様々な粒度の内容を比較して初めて明らかになる関係が多く存在する。例えば、「最近アウドドアにハマっているんですよ」と、「私は昔からインドア派ですね」という文のペアの間には「一方」のような対比関係が存在する。この対比関係は「アウドドア」と「インドア」という2つの単語を比較することによって明らかになる関係である。このような例に対して、「昨日は会社に傘を忘れた」と、「ずぶ濡れになってしまった」という文のペアの間には「傘を忘れたのでずぶ濡れになった」という因果関係が存在するが、この関係は「傘を忘れた」という述語と補語から構成される述語項と「ずぶ濡れ」という単語を比較することによって明らかになる関係である。
このように文節、又は述語項のような単語より大きな粒度の内容を捉えて比較しなくてはならない場合においては、従来技術の単語のみを用いた手法では推定ができず、接続関係の推定精度が向上しないという課題があった。
本発明は、上記問題点を解決するために成されたものであり、精度よく、接続関係ラベルを推定することができる接続関係推定装置、方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、第1の発明に係る接続関係推定装置は、文のペアの接続関係を表す接続関係ラベルを推定する接続関係推定装置であって、単語の意味を表す概念ベクトルの集合に基づいて、前記文のペアに含まれる文の各々について、前記文に含まれる各単語の概念ベクトルを用いて、複数種類の文字列単位の各々に対し、前記文に含まれる前記文字列単位の各々の概念ベクトルを作成する概念ベクトル作成部と、前記概念ベクトル作成部により前記文のペアの一方の文について作成された前記概念ベクトルの何れかと、前記文のペアの他方の文について作成された前記概念ベクトルの何れかとを組み合わせた組み合わせの各々に対し、前記組み合わせの前記概念ベクトルに基づいて素性ベクトルを作成し、前記作成された素性ベクトルの各々について、前記素性ベクトルと、予め学習された前記接続関係ラベルを推定するための接続関係推定モデルとに基づいて、前記接続関係ラベルに対する尤度を推定し、前記素性ベクトルの各々について推定された前記接続関係ラベルに対する尤度に基づいて、前記文のペアの接続関係ラベルを推定する接続関係推定部と、を含んで構成されている。
また、第1の発明に係る接続関係推定装置において、前記複数種類の文字列単位は階層関係を有し、前記概念ベクトル作成部は、前記概念ベクトルの集合に基づいて、前記文のペアに含まれる文の各々について、前記文に含まれる単語の各々に対して前記概念ベクトルを付与する単語概念ベクトル付与部と、前記文のペアに含まれる文の各々について、前記単語概念ベクトル付与部によって前記文に含まれる単語の各々に対して付与された前記概念ベクトルに基づいて、最下位の階層の文字列単位から順に、前記複数種類の文字列単位の各々について、前記文に含まれる前記文字列単位の各々の概念ベクトルを再帰的に作成する文概念ベクトル生成部とを含んでもよい。
また、第1の発明に係る接続関係推定装置において、前記複数種類の文字列単位を、文節、述語項、及び文としてもよい。
また、第1の発明に係る接続関係推定装置において、前記文概念ベクトル生成部は、前記単語概念ベクトル付与部によって前記文に含まれる単語の各々に対して付与された前記概念ベクトルに基づいて、前記文に含まれる文節の各々について、前記文節に含まれる単語の各々の前記概念ベクトルを合成して、前記文節の概念ベクトルを生成し、前記文に含まれる述語項の各々について、述部となる文節の前記概念ベクトルと、前記述部と係り受け関係を有する文節の前記概念ベクトルを合成して、前記述語項の概念ベクトルを生成し、前記文について、前記文に含まれる文節の各々の前記概念ベクトルを合成して、前記文の概念ベクトルを生成するようにしてもよい。
第2の発明に係る接続関係推定方法は、文のペアの接続関係を表す接続関係ラベルを推定する接続関係推定装置における接続関係推定方法であって、概念ベクトル作成部が、単語の意味を表す概念ベクトルの集合に基づいて、前記文のペアに含まれる文の各々について、前記文に含まれる各単語の概念ベクトルを用いて、複数種類の文字列単位の各々に対し、前記文に含まれる前記文字列単位の各々の概念ベクトルを作成するステップと、接続関係推定部が、前記概念ベクトル作成部で作成するステップにより前記文のペアの一方の文について作成された前記概念ベクトルの何れかと、前記文のペアの他方の文について作成された前記概念ベクトルの何れかとを組み合わせた組み合わせの各々に対し、前記組み合わせの前記概念ベクトルに基づいて素性ベクトルを作成し、前記作成された素性ベクトルの各々について、前記素性ベクトルと、予め学習された前記接続関係ラベルを推定するための接続関係推定モデルとに基づいて、前記接続関係ラベルに対する尤度を推定し、前記素性ベクトルの各々について推定された前記接続関係ラベルに対する尤度に基づいて、前記文のペアの接続関係ラベルを推定するステップと、を含んで実行することを特徴とする。
また、第2の発明に係る接続関係推定方法において、前記複数種類の文字列単位は階層関係を有し、前記概念ベクトル作成部が作成するステップは、単語概念ベクトル付与部が、前記概念ベクトルの集合に基づいて、前記文のペアに含まれる文の各々について、前記文に含まれる単語の各々に対して前記概念ベクトルを付与するステップと、文概念ベクトル生成部が、前記文のペアに含まれる文の各々について、前記単語概念ベクトル付与部によって前記文に含まれる単語の各々に対して付与された前記概念ベクトルに基づいて、最下位の階層の文字列単位から順に、前記複数種類の文字列単位の各々について、前記文に含まれる前記文字列単位の各々の概念ベクトルを再帰的に作成するステップとを含むようにしてもよい。
また、第2の発明に係る接続関係推定方法において、前記複数種類の文字列単位を、文節、述語項、及び文としてもよい。
第3の発明に係るプログラムは、コンピュータを、上記に記載の接続関係推定装置を構成する各部として機能させるためのプログラムである。
本発明の接続関係推定装置、方法、及びプログラムによれば、単語の意味を表す概念ベクトルの集合に基づいて、文のペアに含まれる文の各々について、各単語の概念ベクトルを用いて、複数種類の文字列単位の各々に対し、文字列単位の各々の概念ベクトルを作成し、一方の文について作成された概念ベクトルの各々と、他方の文について作成された概念ベクトルの各々との組み合わせの各々に対し、組み合わせの概念ベクトルを合成した素性ベクトルを作成し、作成された素性ベクトルの各々について、素性ベクトルと、接続関係推定モデルとに基づいて、接続関係ラベルに対する尤度を推定し、尤度に基づいて、文のペアの接続関係ラベルを推定することにより、精度よく、接続関係ラベルを推定することができる、という効果が得られる。
本発明の実施の形態に係る接続関係推定装置の構成を示すブロック図である。 本発明の実施の形態に係る接続関係推定装置における概念ベクトル作成部の構成を示すブロック図である。 単語の意味を表す概念ベクトルの一例を示す図である。 N次元の概念ベクトルの作成例を示す図である。 本発明の実施の形態に係る接続関係推定装置における接続関係推定部の構成を示すブロック図である。 素性ベクトルの作成例を示す図である。 素性ベクトルごとの推定結果と推定尤度を示す図である。 接続関係ラベルの出力例を示す図である。 本発明の実施の形態に係る接続関係推定装置における接続関係推定処理ルーチンを示すフローチャートである。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
<本発明の実施の形態に係る概要>
まず、本発明の実施の形態における概要を説明する。本発明の実施の形態に係る接続関係推定装置は、従来手法の課題を解決するために、単語のみならず、文節、述語項、又は文全体など任意の粒度の文字列単位の内容を比較することを可能にした、文のペアの接続関係を表す接続関係ラベルを推定する接続関係推定装置である。
本発明の実施の形態に係る接続関係推定装置では、単語や文節などの粒度が異なる表現の意味を比較するために概念ベクトル空間上での比較を行う。概念ベクトルとは、単語、文節、述語項、又は文などの文字列の単位の意味を実数値のベクトルとして表現したものである。例えば、「傘」と「雨」など概念的に近い話題に関する単語は概念ベクトルで表現したとき、概念ベクトル空間上においても近い位置に存在するという特徴がある。本実施の形態の概念ベクトルは、1次元が−1.0から1.0までの実数値で表現されるN次元のベクトルである。また、本発明の実施の形態に係る接続関係推定装置では、単語だけでなく、文節、述語項、又は文を同一空間の概念ベクトルで表現することで、単語、文節、述語項、又は文などの異なる粒度の表現に対する比較を可能にしている。
また、本発明の実施の形態に係る接続関係推定装置においては、文字列単位は階層関係を有している。入力された文のペアに含まれる文の各々を形態素解析し、各単語(形態素)と一対一で対応する概念ベクトルを付与する。そこからニューラルネットワークの1種であるRecursive AutoEncoder(以下、RAEと称する)を用いて、最下位の階層の文字列単位から順に、再帰的に概念ベクトルを合成していくことにより、単語、文節、述語項、及び文をすべて同一次元の概念ベクトルで表現する。接続関係ラベルの推定では、文のペアに含まれる文の各々から作成した単語から文まで全ての概念ベクトルを使用して推定を行う。入力された文のペアに対して、文のペアの間で想定される単語から文までの表現の全ての組み合わせついて素性ベクトルを作成し、概念ベクトル空間上で比較し、最も尤度が高い接続関係ラベルを1つ選択して推定結果として出力する。
<本発明の実施の形態に係る接続関係推定装置の構成>
次に、本発明の実施の形態に係る接続関係推定装置の構成について説明する。図1に示すように、本発明の実施の形態に係る接続関係推定装置100は、CPUと、RAMと、後述する接続関係推定処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この接続関係推定装置100は、機能的には図1に示すように入力部10と、演算部20と、出力部50とを備えている。
入力部10は、接続関係を推定する文のペアを受け付ける。
演算部20は、言語解析部30と、概念ベクトル作成部32と、接続関係推定部34とを含んで構成されている。
言語解析部30は、入力部10により受け付けた文のペアに含まれる文の各々について、形態素解析、及び構文解析の処理を行う。本実施の形態では、文を形態素解析することによって分割された形態素を単語として扱う。また、ここで行う構文解析とは、文節単位の係り受け関係を出力する係り受け解析である。そして、形態素解析、及び構文解析をした結果を、概念ベクトル作成部32に出力する。
概念ベクトル作成部32は、図2に示すように、単語概念ベクトル付与部130と、文概念ベクトル生成部132と、単語概念ベクトルDB140と、RAEモデル記憶部142とを含んで構成されている。概念ベクトル作成部32は、以下に説明するように、単語概念ベクトル付与部130、及び文概念ベクトル生成部132の各部の処理によって、単語概念ベクトルDB140に格納されている単語の意味を表す概念ベクトルの集合に基づいて、文のペアに含まれる文の各々について、当該文に含まれる各単語の概念ベクトルを用いて、当該文に含まれる文節、述語項、及び文の各々に対し、文節、述語項、及び文の各々の概念ベクトルを作成する。
単語概念ベクトルDB140には、事前に学習した単語の意味を表す概念ベクトルの集合が格納されている。単語概念ベクトルDB140に格納されている単語の意味を表す概念ベクトルの例を図3に示す。なお、単語の意味を表す概念ベクトルについては、事前に学習しておく際に、各単語に対して一対一で対応する概念ベクトルが作成される手法であれば、概念ベクトルの作成手法についてはどのような手法を用いてもよい。
単語概念ベクトル付与部130は、単語概念ベクトルDB140に格納されている概念ベクトルの集合に基づいて、文のペアに含まれる文の各々について、言語解析部30において形態素解析することにより得られた当該文に含まれる単語の各々に対して概念ベクトルを付与する。ここで、当該文に含まれる単語のうち、単語概念ベクトルDB140に格納されていない単語がある場合には、事前に学習又は設定した未知語専用の概念ベクトルを付与する。例えば、未知語専用の概念ベクトルとして全ての要素が0の概念ベクトルを付与すればよい。
RAEモデル記憶部142には、RAEモデルとして、後述するパラメータ^W、及びパラメータ^bが記憶されている。RAEは、2N次元の概念ベクトルを入力としてN次元のベクトルを出力するニューラルネットである。なお、ベクトル又は行列を表す記号には、記号の前に「^」を付して表現する。
文概念ベクトル生成部132は、文のペアに含まれる文の各々について、単語概念ベクトル付与部130によって当該文に含まれる単語の各々に対して付与された概念ベクトルに基づいて、最下位の階層の文節から順に、文節、述語項、及び文の各々について、当該文に含まれる文節、述語項、及び文の各々の概念ベクトルを再帰的に作成する。具体的には、単語概念ベクトル付与部130で当該文の単語に対して付与した概念ベクトルからRAEモデル記憶部142に記憶されているRAEモデルを用いて再帰的に文節から文ベクトルまでを生成していく。図4に、RAEモデルによる単語の概念ベクトルから文の概念ベクトルを作成するまでの流れを示す。図4では、N次元の概念ベクトルを^A〜^Lまでのアルファベットで標記している。
本実施の形態では、2N次元の概念ベクトル^xをRAEの入力とするとき、RAEの出力となるN次元のベクトル^yは以下の式で表される。
Figure 0006291443
ここで、^Wは要素数N×2Nの重みパラメータ行列、^bはバイアス項のパラメータベクトルである。関数fは非線形の活性化関数であり、sigmoid関数またはtanh関数を使用する。パラメータ^W、及びパラメータ^bは、予め教師なし学習による事前学習により決定する。パラメータ^W、及びパラメータ^bの学習の際には、接続関係推定の対象とするコーパスと同様のテキストを使用して学習を行う。例えば、対話コーパスに適用する場合には発話文を学習データに使用し、新聞記事コーパスに適用する場合には新聞中の文によってパラメータの学習をする。
図4の例では、単語「会社」の概念ベクトル^Aと、単語「に」の概念ベクトル^Bを連結した2N次元の^ABという概念ベクトルをRAEの入力とする。そして、RAEにより、N次元の概念ベクトル^Gを出力することで「会社に」という文節の概念ベクトルを得ることができる。係り受け構造に従い、同一のパラメータ^W及び^bを使用したRAEによる上記の処理を、再帰的に繰り返し実行することにより、最終的に「会社に傘を忘れた」という文の概念ベクトル^Lを得ることができる。以降は係り受け構造に基づいて文節、述語項、及び文の概念ベクトルを作成する流れについて説明する。
まず、文概念ベクトル生成部132における文節の概念ベクトルの作成手法について説明する。
文概念ベクトル生成部132は、単語概念ベクトル付与部130によって文に含まれる単語の各々に対して付与された概念ベクトルに基づいて、文に含まれる文節の各々について、文節に含まれる単語の各々の概念ベクトルを合成して、文節の概念ベクトルを生成する。前提として、文のペアに含まれる文の各々は、言語解析部30における係り受け解析により、係り受け関係を構成する最小要素である文節という単位に分割されている。例えば、「会社に傘を忘れた」という文は、「会社に」、「傘を」、及び「忘れた」という3つの文節に分割できる。さらに「会社に」という文節は、「会社」と「に」という単語に分割できる。また、単語概念ベクトル付与部130では、この単語ごとに概念ベクトルが付与される。そして、文概念ベクトル生成部132において、RAEモデル記憶部142に記憶されているRAEモデルを用いて、「会社」と「に」という2つの単語の表現の概念ベクトルをRAEに入力して、一つの概念ベクトルを得る。このように「会社」と「に」の単語の概念ベクトルをRAEに入力することで、文節「会社に」という意味を表現する新たな概念ベクトルが生成される。文節が2つの単語からなる場合には、1回のRAEの適用で文節の概念ベクトルは生成できるが、3つ以上の単語から構成される文節の場合には、先頭から順番に複数回RAEを適用する処理を行う必要がある。例えば、「嫌いですけど」という文節は「嫌い」、「です」、及び「けど」という3つの単語から構成される。この場合には、まず先頭から2つの単語「嫌い」及び「です」に対してRAEを適用し、文節「嫌いです」という意味の概念ベクトルを生成する。次に「嫌いです」と「けど」の概念ベクトルを合成して「嫌いですけど」という文節ベクトルを生成する。また、文節が1つの単語のみで構成されている場合はその単語の概念ベクトルをそのまま文節の概念ベクトルとして利用する。
次に、文概念ベクトル生成部132における述語項の概念ベクトルの作成手法について説明する。なお、述語項とは、述語と補語から構成される「何が(を・に)どうした」を表現するものである。
文概念ベクトル生成部132において、文に含まれる述語項の各々について、述部となる文節の概念ベクトルと、当該述部と係り受け関係を有する文節の概念ベクトルを合成して、述語項の概念ベクトルを生成する。言語解析部30における係り受け解析では、各文節がどの文節を修飾するのかの係り先を明らかにする。文節の中にはどの文節も修飾しない文節が必ず1つ存在している。本実施の形態では、この修飾しない文節を述部とし、この文節と係り受け関係にある文節とを結びつけ、RAEによるベクトル合成を行うことで述語項の概念ベクトルを作成する。例えば、「会社に傘を忘れた」という文では「会社に」と「傘を」という文節が「忘れた」という文節に係る関係となっている。「忘れた」という文節が述部に該当し、ここから「会社に忘れた」と「傘を忘れた」という2つの述語項が作成できる。文節の概念ベクトルを前もって生成しておき、述部とその係り受け関係になっている文節の概念ベクトルに対してRAEを適用して合成することで、述語項を表現する概念ベクトルが生成される。
次に、文概念ベクトル生成部132における文の概念ベクトルの作成手法について説明する。なお、文の概念ベクトルとは文全体の意味を表現する概念ベクトルである。
文概念ベクトル生成部132は、文について、文に含まれる文節の各々の概念ベクトルを合成して、文の概念ベクトルを生成する。本実施の形態においてはRAEモデル記憶部142に記憶されているRAEモデルを用いて、2つの意味を合成した1つの意味を生成するため、RAEを繰り返し適用していけば最終的に1つに集約された概念ベクトルが生成される。文の概念ベクトルは全ての文節を合成することで生成できる。合成は述部に係る文節の中で、述部に近い順から行う。例えば、文「会社に傘を忘れた」の場合は述部にあたる文節「忘れた」に係る文節は「会社に」と「傘を」という2つの文節がある。ここで、「傘を」という文節が、「忘れた」という文節に近い位置に存在するため、まずこの2つの文節に対してRAEを適用し、述語項「傘を忘れた」という意味を表現する概念ベクトルを生成する。そして次に残りを「会社に」と「傘を忘れた」の2つを入力として「会社に傘を忘れた」という1つの文ベクトルを生成する。また、述部に係る文節が更に他の文節の係り先となっている場合は、まず、これらの文節の概念ベクトル同士でRAEを適用する。例えば、「売店で買った傘を忘れた」という文の場合、述部「忘れた」に係る文節は「傘を」であるが、文節「傘を」は文節「買った」の係り先となっており、文節「買った」は文節「売店で」の係り先となっている。この場合には、まず「売店で」と「買った」の文節の概念ベクトルに対してRAEを適用し、述語項「売店で買った」という意味の概念ベクトルを生成する。次に、述語項「売店で買った」と文節「傘を」の概念ベクトルを合成し、「売店で買った傘を」という意味を持つ概念ベクトルを生成してから、述部の概念ベクトルと合成することで「売店で買った傘を忘れた」という文の概念ベクトルを生成する。
接続関係推定部34は、図5に示すように、素性作成部230と、接続関係候補推定部232と、接続関係決定部234と、接続関係推定モデル記憶部240とを含んで構成されている。接続関係推定部34は、以下に説明するように、素性作成部230、接続関係候補推定部232、及び接続関係決定部234の各部の処理によって、概念ベクトル作成部32により文のペアの一方の文について作成された概念ベクトルの何れかと、文のペアの他方の文について作成された概念ベクトルの何れかとを組み合わせた組み合わせの各々に対し、当該組み合わせの概念ベクトルに基づいて素性ベクトルを作成し、作成された素性ベクトルの各々について、当該素性ベクトルと、接続関係推定モデル記憶部240に記憶されている接続関係推定モデルとに基づいて、接続関係ラベルに対する尤度を推定し、素性ベクトルの各々について推定された接続関係ラベルに対する尤度に基づいて、文のペアの接続関係ラベルを推定する。
接続関係推定モデル記憶部240には、予め教師ありの機械学習手法により構築した分類モデルが、接続関係推定モデルとして記憶されている。接続関係推定モデルの構築のためには接続関係が既知な文のペアと、正解となる接続関係ラベルとを教師データとして与える必要がある。明示的な接続関係を持つ文のペアの収集は「例えば」「でも」などの接続詞によって接続される文のペアを抽出することにより収集可能であるが、その他にも文のペアを与えた時に人手により接続関係ラベルを付与していく方法で収集することも可能である。本実施の形態においては、教師データに関しては、特定のコーパス、又は接続関係タグセットやテキストに依存するものではないものとする。また、機械学習による教師あり学習で用いる素性ベクトルは、素性作成部230で作成する素性ベクトルと同じものを使用する。また、接続関係推定モデルとして使用できる機械学習手法は学習結果(分類結果)の他、推定の尤度を出力できるものである。例えば、SVMであれば、線形カーネルを用いた場合の決定境界からの距離を推定尤度として利用できる。ニューラルネットワークであれば出力層をソフトマックス関数にすれば分類結果を確率分布で出力できるため、この確率値を推定尤度として利用することもできる。このように接続関係の推定結果と推定尤度が出力できる手法であれば、接続関係推定モデルを構築する機械学習手法は任意のものを選択してもよい。本実施の形態では、接続関係推定モデルとして、出力層をソフトマックス関数としたニューラルネットワークを用いる場合を例に説明する。
素性作成部230では、概念ベクトル作成部32で作成された単語、文節、述語項、及び文の概念ベクトルに基づいて、接続関係ラベルを推定するための素性ベクトルを作成する。素性ベクトルの作成例を図6に示す。図6に示すように、素性ベクトルは一方の文(以下、入力文1とする)、及び他方の文(以下、入力文2とする)の各々について作成した概念ベクトルの組み合わせにより作成する。入力文1に対するベクトル^A〜^L、入力文2に対するベクトル^A’〜^E’はそれぞれN次元の概念ベクトルを表している。入力文1及び入力文2の各々から、それぞれ1つずつ概念ベクトルを選択して一つの素性ベクトルを作成する。これを全ての概念ベクトルの組み合わせで実行することにより複数個の素性ベクトルを作成する。入力文1にm個、入力文2にl個の概念ベクトルが存在する場合、素性作成部230ではm×l個の素性ベクトルが作成されることになる。ただし、単語の概念ベクトルについては、言語解析部30による形態素解析で「名詞」、「動詞」、「形容詞」、又は「副詞」と判定されたもののみを使用する。なお、素性ベクトルの作成方法は上記のように2つのベクトルを連結するほか、概念ベクトルの差分ベクトル、コサイン距離、又は重心ベクトルなど線形代数におけるベクトル演算の結果を利用して作成することもできる。
接続関係候補推定部232では、素性作成部230で作成した素性ベクトルの各々に対して、接続関係推定モデル記憶部240に記憶されている接続関係推定モデルを用いて接続関係ラベルの推定を行う。接続関係候補推定部232における接続関係ラベルの出力例を図7に示す。接続関係候補推定部232では、一つの素性ベクトルを入力したとき、接続関係ラベルの推定結果とその推定尤度を実数値で出力する。素性作成部230では複数個の素性ベクトルが作成されるため、接続関係候補推定部232では素性ベクトルの数だけ接続関係推定が実行されることになる。
接続関係決定部234では、接続関係候補推定部232で推定された接続関係ラベルの推定結果とその推定尤度とに基づいて、出力する接続関係ラベルを決定する。接続関係候補推定部232では図7のように素性ベクトルごとに推定結果と推定尤度が出力されている状態である。接続関係決定部234では、素性ベクトルごとの推定結果の中から最も妥当な推定結果を一つ決定し、出力部50に出力する。出力する接続関係ラベルの決定には推定尤度を用いる。本実施の形態では、全ての素性ベクトル毎の接続関係ラベルの推定結果の中で最も推定尤度が高い推定結果を選択する。図7の例では、「傘を忘れた」の概念ベクトル^Kと「ずぶ濡れ」の概念ベクトル^A’から作成された素性ベクトルの推定結果「因果」が推定尤度0.85で最も高いことから出力する接続関係ラベルは「因果」となる。なお、接続関係決定部234では、推定尤度が最も高い接続関係ラベルを一つ選択するが、最も高い推定尤度が設定した閾値以下の場合は「接続関係なし」を出力することもできる。この場合、閾値の設定については接続関係推定モデル記憶部240に記憶されている接続関係ラベルの推定尤度の取る数値の範囲によって設定する。ニューラルネットなど推定尤度が確率値で出力される場合には、閾値は確率を接続関係数(分類数)で等分した値の1.5から2倍程度の値に設定する.例えば、4種の接続関係に分類する場合、確率の等分値は0.25なので閾値は0.38〜0.5の範囲で設定すると良い。
図8に、本実施の形態に係る接続関係推定装置100における入力と出力の例を示す。図8は、入力された文のペアに対して「因果」、「比較」、「展開」、「時制」、又は「接続関係なし」の5種の接続関係ラベルを出力する場合の例である。「因果」は「だから」「なので」などの接続詞で接続される因果関係を示している。「比較」は「でも」、「一方」など対比関係を表し、「展開」は「さらに」、「例えば」のように情報を付加する接続関係である。「時制」は「それから」「あのとき」のように時間に関する接続関係である。
<本発明の実施の形態に係る接続関係推定装置の作用>
次に、本発明の実施の形態に係る接続関係推定装置100の作用について説明する。入力部10において文のペアを受け付けると、接続関係推定装置100は、図9に示す接続関係推定処理ルーチンを実行する。
まず、ステップS100では、入力部10において受け付けた文のペアに含まれる何れかの文を選択する。
次に、ステップS102では、ステップS100で選択した文について、形態素解析、及び構文解析を行う。
ステップS104では、単語概念ベクトルDB140に格納されている概念ベクトルの集合に基づいて、ステップS100で選択した文について、ステップS102において形態素解析することにより得られた当該文に含まれる単語の各々に対して概念ベクトルを付与する。
ステップS106では、ステップS104で文に含まれる単語の各々に対して付与された概念ベクトルに基づいて、文に含まれる文節の各々について、文節に含まれる単語の各々の概念ベクトルを合成して、文節の概念ベクトルを生成する。
ステップS108では、ステップS106で文に含まれる文節の各々に対して生成された概念ベクトルに基づいて、文に含まれる述語項の各々について、ステップS106で生成された、述部となる文節の概念ベクトルと、述部と係り受け関係を有する文節の概念ベクトルを合成して、述語項の概念ベクトルを生成する。
ステップS110では、ステップS106で文に含まれる文節の各々に対して生成された概念ベクトルに基づいて、ステップS100で選択した文について、文に含まれる文節の各々の概念ベクトルを合成して、文の概念ベクトルを生成する。
ステップS112では、文のペアに含まれる2つの文の各々について概念ベクトルを作成したかを判定し、作成していればステップS114へ移行し、作成していなければステップS100へ戻って次の文を選択し、選択した文に対してステップS102〜ステップS110の処理を行う。
ステップS114では、ステップS100〜ステップS112の処理によって作成された、文のペアの一方の文について作成された概念ベクトルの何れかと、文のペアの他方の文について作成された概念ベクトルの何れかとを組み合わせた全ての組み合わせの各々に対し、当該組み合わせの概念ベクトルを連結した素性ベクトルを作成する。
ステップS116では、ステップS114で作成された素性ベクトルの各々に対して、接続関係推定モデル記憶部240に記憶されている接続関係推定モデルを用いて、接続関係ラベルとその推定尤度とを推定する。
ステップS118では、ステップS116で素性ベクトルの各々に対して推定された接続関係ラベルとその推定尤度とに基づいて、出力する接続関係ラベルを決定し、出力部50に出力する。
以上説明したように、本発明の実施の形態に係る接続関係推定装置によれば、単語の意味を表す概念ベクトルの集合に基づいて、文のペアに含まれる文の各々について、各単語の概念ベクトルを用いて、複数種類の文字列単位の各々に対し、文字列単位の各々の概念ベクトルを作成し、一方の文について作成された概念ベクトルの何れかと、他方の文について作成された概念ベクトルの何れかとを組み合わせた組み合わせの各々に対し、組み合わせの概念ベクトルを連結した素性ベクトルを作成し、作成された素性ベクトルの各々について、素性ベクトルと、接続関係推定モデルとに基づいて、接続関係ラベルに対する尤度を推定し、尤度に基づいて、文のペアの接続関係ラベルを推定することにより、精度よく、接続関係ラベルを推定することができる。
なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、上述した実施の形態では、文字列単位を文節、述語項、及び文として、文概念ベクトル生成部において文節、述語項、及び文についての概念ベクトルを生成したが、これに限定されるものではなく、複数種類の文字列単位が階層関係を有していれば、他の文字列単位の概念ベクトルを生成するようにしてもよい。
また、上述した実施の形態では、文のペアの接続関係ラベルを推定する場合を例に説明したが、これに限定されるものではなく、複数の文と複数の文とのペアの接続関係ラベルを推定するようにしてもよい。
10 入力部
20 演算部
30 言語解析部
32 概念ベクトル作成部
34 接続関係推定部
50 出力部
100 接続関係推定装置
130 単語概念ベクトル付与部
132 文概念ベクトル生成部
140 単語概念ベクトルDB
142 RAEモデル記憶部
230 素性作成部
232 接続関係候補推定部
234 接続関係決定部
240 接続関係推定モデル記憶部

Claims (8)

  1. 文のペアの接続関係を表す接続関係ラベルを推定する接続関係推定装置であって、
    単語の意味を表す概念ベクトルの集合に基づいて、前記文のペアに含まれる文の各々について、前記文に含まれる各単語の概念ベクトルを用いて、複数種類の文字列単位の各々に対し、前記文に含まれる前記文字列単位の各々の概念ベクトルを作成する概念ベクトル作成部と、
    前記概念ベクトル作成部により前記文のペアの一方の文について作成された前記概念ベクトルの何れかと、前記文のペアの他方の文について作成された前記概念ベクトルの何れかとを組み合わせた組み合わせの各々に対し、前記組み合わせの前記概念ベクトルに基づいて素性ベクトルを作成し、前記作成された素性ベクトルの各々について、前記素性ベクトルと、予め学習された前記接続関係ラベルを推定するための接続関係推定モデルとに基づいて、前記接続関係ラベルに対する尤度を推定し、前記素性ベクトルの各々について推定された前記接続関係ラベルに対する尤度に基づいて、前記文のペアの接続関係ラベルを推定する接続関係推定部と、
    を含む接続関係推定装置。
  2. 前記複数種類の文字列単位は階層関係を有し、
    前記概念ベクトル作成部は、前記概念ベクトルの集合に基づいて、前記文のペアに含まれる文の各々について、前記文に含まれる単語の各々に対して前記概念ベクトルを付与する単語概念ベクトル付与部と、
    前記文のペアに含まれる文の各々について、前記単語概念ベクトル付与部によって前記文に含まれる単語の各々に対して付与された前記概念ベクトルに基づいて、最下位の階層の文字列単位から順に、前記複数種類の文字列単位の各々について、前記文に含まれる前記文字列単位の各々の概念ベクトルを再帰的に作成する文概念ベクトル生成部とを含む請求項1に記載の接続関係推定装置。
  3. 前記複数種類の文字列単位を、文節、述語項、及び文とした請求項1又は請求項2に記載の接続関係推定装置。
  4. 前記文概念ベクトル生成部は、
    前記単語概念ベクトル付与部によって前記文に含まれる単語の各々に対して付与された前記概念ベクトルに基づいて、前記文に含まれる文節の各々について、前記文節に含まれる単語の各々の前記概念ベクトルを合成して、前記文節の概念ベクトルを生成し、
    前記文に含まれる述語項の各々について、述部となる文節の前記概念ベクトルと、前記述部と係り受け関係を有する文節の前記概念ベクトルを合成して、前記述語項の概念ベクトルを生成し、
    前記文について、前記文に含まれる文節の各々の前記概念ベクトルを合成して、前記文の概念ベクトルを生成する請求項3記載の接続関係推定装置。
  5. 文のペアの接続関係を表す接続関係ラベルを推定する接続関係推定装置における接続関係推定方法であって、
    概念ベクトル作成部が、単語の意味を表す概念ベクトルの集合に基づいて、前記文のペアに含まれる文の各々について、前記文に含まれる各単語の概念ベクトルを用いて、複数種類の文字列単位の各々に対し、前記文に含まれる前記文字列単位の各々の概念ベクトルを作成するステップと、
    接続関係推定部が、前記概念ベクトル作成部で作成するステップにより前記文のペアの一方の文について作成された前記概念ベクトルの何れかと、前記文のペアの他方の文について作成された前記概念ベクトルの何れかとを組み合わせた組み合わせの各々に対し、前記組み合わせの前記概念ベクトルに基づいて素性ベクトルを作成し、前記作成された素性ベクトルの各々について、前記素性ベクトルと、予め学習された前記接続関係ラベルを推定するための接続関係推定モデルとに基づいて、前記接続関係ラベルに対する尤度を推定し、前記素性ベクトルの各々について推定された前記接続関係ラベルに対する尤度に基づいて、前記文のペアの接続関係ラベルを推定するステップと、
    を含む接続関係推定方法。
  6. 前記複数種類の文字列単位は階層関係を有し、
    前記概念ベクトル作成部が作成するステップは、単語概念ベクトル付与部が、前記概念ベクトルの集合に基づいて、前記文のペアに含まれる文の各々について、前記文に含まれる単語の各々に対して前記概念ベクトルを付与するステップと、
    文概念ベクトル生成部が、前記文のペアに含まれる文の各々について、前記単語概念ベクトル付与部によって前記文に含まれる単語の各々に対して付与された前記概念ベクトルに基づいて、最下位の階層の文字列単位から順に、前記複数種類の文字列単位の各々について、前記文に含まれる前記文字列単位の各々の概念ベクトルを再帰的に作成するステップとを含む請求項5に記載の接続関係推定方法。
  7. 前記複数種類の文字列単位を、文節、述語項、及び文とした請求項5又は請求項6に記載の接続関係推定方法。
  8. コンピュータを、請求項1〜請求項4のいずれか1項に記載の接続関係推定装置を構成する各部として機能させるためのプログラム。
JP2015050084A 2015-03-12 2015-03-12 接続関係推定装置、方法、及びプログラム Active JP6291443B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015050084A JP6291443B2 (ja) 2015-03-12 2015-03-12 接続関係推定装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015050084A JP6291443B2 (ja) 2015-03-12 2015-03-12 接続関係推定装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2016170636A JP2016170636A (ja) 2016-09-23
JP6291443B2 true JP6291443B2 (ja) 2018-03-14

Family

ID=56983877

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015050084A Active JP6291443B2 (ja) 2015-03-12 2015-03-12 接続関係推定装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6291443B2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11042796B2 (en) 2016-11-03 2021-06-22 Salesforce.Com, Inc. Training a joint many-task neural network model using successive regularization
JP7024262B2 (ja) * 2017-08-31 2022-02-24 富士通株式会社 学習方法、学習結果の利用方法、学習プログラムおよび学習装置
JP6709812B2 (ja) * 2018-02-16 2020-06-17 日本電信電話株式会社 関係性推定モデル学習装置、方法、及びプログラム
JP7126360B2 (ja) * 2018-03-01 2022-08-26 株式会社牧野フライス製作所 工具経路を生成するための方法及び装置
JP7139626B2 (ja) * 2018-03-02 2022-09-21 日本電信電話株式会社 フレーズ生成関係性推定モデル学習装置、フレーズ生成装置、方法、及びプログラム
JP6603828B1 (ja) * 2018-03-02 2019-11-06 日本電信電話株式会社 フレーズ生成モデル学習装置、フレーズ生成装置、方法、及びプログラム
CN111967256B (zh) 2020-06-30 2023-08-04 北京百度网讯科技有限公司 事件关系的生成方法、装置、电子设备和存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2877404B2 (ja) * 1989-12-28 1999-03-31 三洋電機株式会社 日本語解析処理方式
US9400778B2 (en) * 2011-02-01 2016-07-26 Accenture Global Services Limited System for identifying textual relationships

Also Published As

Publication number Publication date
JP2016170636A (ja) 2016-09-23

Similar Documents

Publication Publication Date Title
JP6291443B2 (ja) 接続関係推定装置、方法、及びプログラム
CN111368996B (zh) 可传递自然语言表示的重新训练投影网络
CN108628823B (zh) 结合注意力机制和多任务协同训练的命名实体识别方法
Luan et al. Scientific information extraction with semi-supervised neural tagging
Yu et al. Learning composition models for phrase embeddings
Qiu et al. Learning word representation considering proximity and ambiguity
CN109710744B (zh) 一种数据匹配方法、装置、设备及存储介质
CN112364638B (zh) 一种基于社交文本的人格识别方法
CN111274790B (zh) 基于句法依存图的篇章级事件嵌入方法及装置
Burdisso et al. τ-SS3: A text classifier with dynamic n-grams for early risk detection over text streams
JP6729095B2 (ja) 情報処理装置及びプログラム
CN111222318A (zh) 基于双通道双向lstm-crf网络的触发词识别方法
Gasmi et al. Cold-start cybersecurity ontology population using information extraction with LSTM
CN116521882A (zh) 基于知识图谱的领域长文本分类方法及系统
Hovy Text analysis in python for social scientists: Prediction and classification
CN114722833A (zh) 一种语义分类方法及装置
JP2016224483A (ja) モデル学習装置、方法、及びプログラム
Kocmi et al. SubGram: extending skip-gram word representation with substrings
CN113268974A (zh) 多音字发音标注方法、装置、设备及存储介质
Zheng et al. Character-based parsing with convolutional neural network
Han et al. Lexicalized neural unsupervised dependency parsing
CN111723301B (zh) 基于层次化主题偏好语义矩阵的关注关系识别及标注方法
CN110633363B (zh) 一种基于nlp和模糊多准则决策的文本实体推荐方法
Kirsch et al. Noise reduction in distant supervision for relation extraction using probabilistic soft logic
CN110275957B (zh) 姓名消歧方法、装置、电子设备及计算机可读存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170210

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20171225

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180206

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180209

R150 Certificate of patent or registration of utility model

Ref document number: 6291443

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150