JP2017027111A - 接続表現項構造解析装置、方法、及びプログラム - Google Patents

接続表現項構造解析装置、方法、及びプログラム Download PDF

Info

Publication number
JP2017027111A
JP2017027111A JP2015141649A JP2015141649A JP2017027111A JP 2017027111 A JP2017027111 A JP 2017027111A JP 2015141649 A JP2015141649 A JP 2015141649A JP 2015141649 A JP2015141649 A JP 2015141649A JP 2017027111 A JP2017027111 A JP 2017027111A
Authority
JP
Japan
Prior art keywords
connection
sentence
term
expression
connection expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015141649A
Other languages
English (en)
Other versions
JP6499537B2 (ja
Inventor
努 平尾
Tsutomu Hirao
努 平尾
康久 吉田
Yasuhisa Yoshida
康久 吉田
克彦 林
Katsuhiko Hayashi
克彦 林
昌明 永田
Masaaki Nagata
昌明 永田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2015141649A priority Critical patent/JP6499537B2/ja
Publication of JP2017027111A publication Critical patent/JP2017027111A/ja
Application granted granted Critical
Publication of JP6499537B2 publication Critical patent/JP6499537B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】隣接しない文間からも、接続表現によって結ばれた項を抽出することができる。
【解決手段】談話構造解析部32が、修辞構造に基づく、談話構造木を生成し、構文解析部34が、構文解析を行って構文木を生成し、接続表現抽出部36が、項を持つ接続表現を抽出し、項位置関係決定部38が、接続表現を含む文内に、接続表現によって結ばれた2つの項が出現するか否かを判定し、文内項抽出部40が、2つの項が出現すると判定された場合、接続表現を含む文から、2つの項を抽出し、文間項抽出部42が、2つの項が出現しないと判定された場合、接続表現を含む文から、項2を抽出し、談話構造木において、接続表現を含む文の親ノード又は兄弟ノードに対応する文から、項1を抽出し、意味クラス分類部44が、接続表現の意味クラスを分類する。
【選択図】図1

Description

本発明は、接続表現項構造解析装置、方法、及びプログラムに係り、特に、与えられた文書から接続表現によって結ばれた項を抽出するための接続表現項構造解析装置、方法、及びプログラムに関する。
従来より、与えられた文書から接続表現とその意味クラス、接続表現によって結ばれた2つの項となるテキストスパン(文書中の一部のテキスト)を抽出する技術がある。この技術は、接続表現−項構造解析技術と呼ばれる。たとえば以下の文では、接続表現:becauseによって項1:「He caught a cold」、及び項2:「he got soaked in the rain」が意味:因果関係で結びついている。
He caught a cold because he got soaked in the rain.
このような意味的に結びついた2つのテキストスパンの組を意味クラスごとに大量に収集し、知識源とすることで、自然言語処理の様々なタスク(含意認識、文書要約、機械翻訳等)の質を向上させることができる。
接続表現と項との関係は明示的な場合と暗示的な場合に大別される。明示的な場合は接続表現そのものが出現する場合である。たとえば、因果関係をあらわす「because」、時間の推移をあらわす「after」などによって2つのスパンが結ばれている場合である。一方、接続表現がそのもの出現しなくとも意味的に因果関係や時間の推移をあらわす文のペアが存在する。たとえば、以下の2文の間には因果関係が成立する。
朝から雨が降っていた。
野球の試合も中止となった。
従来の接続表現−項構造解析技術(非特許文献1)は、図8に示す接続表現項構造解析装置の構成で文書から、接続表現、意味クラス、及び項を抽出していた。
従来の接続表現項構造解析装置では、明示的接続表現−項構造の抽出は以下(1)〜(4)の手順で行っていた。
(1)入力文書から接続表現候補辞書に格納されているすべての接続表現を抽出し、それらの表現が項を持つ接続表現か否かを判定する(接続表現抽出部)。(2)項を持つ接続表現と判定された場合、その意味クラスを分類器を利用して決定する。(3)さらに、接続表現の2つの項(項1、項2)が同一の文に出現するか(SS)、項1が先行する文に出現するか(PS)を決定する。(4)それぞれの場合に応じて、文内項抽出部、文間項抽出部を用いて接続表現に対応する2つの項を抽出する。
また、暗示的接続表現−項構造の抽出は以下(1)、(2)の手順で行っていた。
(1)文書中の隣接する文のペア(先の文から項1、後の文から項2を取り出す)を抽出し、意味クラス分類部を用いて意味クラスを付与する。なお、意味クラスはあらかじめ複数分類が定義されているとする。非特許文献1では、Expansion、 Contingency、Temporal、 Comparison という4つの意味クラスを利用している。意味クラス分類部は2文間に接続関係がある場合には何らかの意味クラスを出力し、接続関係にない場合には接続関係がないことを出力する。すなわち、意味クラス分類部は、2文間の関係を意味クラス数+1のクラスに分類する。(2)意味クラスが付与された2文について文間項抽出部を用いて項を抽出する。以上のようにして、接続表現項構造解析装置は、文書から明示的接続表現−項構造、及び暗示的接続表現−項構造の抽出を行っていた。
Lin Ziheng, Ng Hwee Tou, and Kan Min-Yen. 2014. A PDTB-styled End-to-End Discourse Parser. Natural Language Engineering,20:151‐184.
従来の接続表現−項構造の抽出法は、文書、あるいは文の談話構造を考慮せずに項を抽出している。暗示的接続表現−項抽出の場合には、隣接した2文しか項抽出の対象にならない。また、明示的接続表現−項抽出であっても、接続表現が出現する文に項1、項2が同時出現しない場合、項1はその接続表現が出現する文の1つ前の文から抽出する。しかし、1文をこえた接続関係は隣接した2文だけに限らないため、本来抽出すべき接続表現−項構造に取りこぼしが生じる。
本発明は、上記問題点を解決するために成されたものであり、隣接しない文間からも、接続表現によって結ばれた項を抽出することができる接続表現項構造解析装置、方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、第1の発明に係る接続表現項構造解析装置は、入力された文書に基づいて、前記文書に含まれる文の各々の修辞構造に基づく、前記文の各々を各ノードで表わした談話構造木を生成する談話構造解析部と、前記文書に含まれる文の各々について、構文解析を行って構文木を生成する構文解析部と、前記構文解析部によって生成された前記文の各々についての構文木に基づいて、項を持つ接続表現を抽出する接続表現抽出部と、前記接続表現抽出部によって抽出された前記接続表現について、前記接続表現を含む文内に、前記接続表現によって結ばれた2つの項が出現するか否かを判定する項位置関係決定部と、前記項位置関係決定部によって前記接続表現を含む文内に、前記接続表現によって結ばれた2つの項が出現すると判定された場合、前記接続表現を含む文から、前記接続表現によって結ばれた2つの項を抽出する文内項抽出部と、前記項位置関係決定部によって前記接続表現を含む文内に、前記接続表現によって結ばれた2つの項が出現しないと判定された場合、前記接続表現を含む文から、前記接続表現によって結ばれた2つの項の何れか一方を抽出し、前記談話構造解析部によって生成された前記談話構造木において、前記接続表現を含む文の親ノード又は兄弟ノードに対応する文から、前記接続表現によって結ばれた2つの項の何れか他方を抽出する文間項抽出部と、前記接続表現抽出部によって抽出された前記接続表現に基づいて、前記接続表現の意味クラスを分類する意味クラス分類部と、を含んで構成されている。
また、第2の発明に係る接続表現項構造解析装置は、入力された文書に基づいて、前記文書に含まれる文の各々の修辞構造に基づく、前記文の各々を各ノードで表わした談話構造木を生成する談話構造解析部と、前記談話構造解析部によって生成された前記談話構造木に基づいて、親子ノードに対応する文のペア、及び兄弟ノードに対応する文のペアを、接続関係を持つ文のペアの候補とし、前記接続関係を持つ文のペアの候補の各々について、接続関係があるか否かを判定する関連文ペア抽出部と、前記関連文ペア抽出部によって接続関係があると判定された前記接続関係を持つ文のペアの候補の各々について、前記接続関係を持つ文のペアの候補から、暗示的な接続表現によって結ばれる2つの項を抽出する文間項抽出部と、前記関連文ペア抽出部によって接続関係があると判定された前記接続関係を持つ文のペアの候補の各々について、前記接続関係を持つ文のペアの候補に基づいて、前記暗示的な接続表現の意味クラスを分類する意味クラス分類部と、を含んで構成されている。
第3の発明に係る接続表現項構造解析方法は、談話構造解析部が、入力された文書に基づいて、前記文書に含まれる文の各々の修辞構造に基づく、前記文の各々を各ノードで表わした談話構造木を生成するステップと、構文解析部が、前記文書に含まれる文の各々について、構文解析を行って構文木を生成するステップと、接続表現抽出部が、前記構文解析部によって生成された前記文の各々についての構文木に基づいて、項を持つ接続表現を抽出するステップと、項位置関係決定部が、前記接続表現抽出部によって抽出された前記接続表現について、前記接続表現を含む文内に、前記接続表現によって結ばれた2つの項が出現するか否かを判定するステップと、文内項抽出部が、前記項位置関係決定部によって前記接続表現を含む文内に、前記接続表現によって結ばれた2つの項が出現すると判定された場合、前記接続表現を含む文から、前記接続表現によって結ばれた2つの項を抽出するステップと、文間項抽出部が、前記項位置関係決定部によって前記接続表現を含む文内に、前記接続表現によって結ばれた2つの項が出現しないと判定された場合、前記接続表現を含む文から、前記接続表現によって結ばれた2つの項の何れか一方を抽出し、前記談話構造解析部によって生成された前記談話構造木において、前記接続表現を含む文の親ノード又は兄弟ノードに対応する文から、前記接続表現によって結ばれた2つの項の何れか他方を抽出するステップと、意味クラス分類部が、前記接続表現抽出部によって抽出された前記接続表現に基づいて、前記接続表現の意味クラスを分類するステップと、を含んで実行することを特徴とする。
第4の発明に係る接続表現項構造解析方法は、談話構造解析部が、入力された文書に基づいて、前記文書に含まれる文の各々の修辞構造に基づく、前記文の各々を各ノードで表わした談話構造木を生成するステップと、関連文ペア抽出部が、前記談話構造解析部によって生成された前記談話構造木に基づいて、親子ノードに対応する文のペア、及び兄弟ノードに対応する文のペアを、接続関係を持つ文のペアの候補とし、前記接続関係を持つ文のペアの候補の各々について、接続関係があるか否かを判定するステップと、文間項抽出部が、前記関連文ペア抽出部によって接続関係があると判定された前記接続関係を持つ文のペアの候補の各々について、前記接続関係を持つ文のペアの候補から、暗示的な接続表現によって結ばれる2つの項を抽出するステップと、意味クラス分類部が、前記関連文ペア抽出部によって接続関係があると判定された前記接続関係を持つ文のペアの候補の各々について、前記接続関係を持つ文のペアの候補に基づいて、前記暗示的な接続表現の意味クラスを分類するステップと、を含んで実行することを特徴とする。
第5の発明に係るプログラムは、上記第1又は第2の発明に係る接続表現項構造解析装置を構成する各部として機能させるためのプログラムである。
本発明の接続表現項構造解析装置、方法、及びプログラムによれば、隣接しない文間からも、接続表現によって結ばれた項を抽出することができる、という効果が得られる。
本発明の第1の実施の形態に係る接続表現項構造解析装置の構成を示すブロック図である。 文内項抽出において従属接続の場合に抽出対象となる構造木の一例を示す図である。 文内項抽出において等位接続の場合に抽出対象となる構造木の一例を示す図である。 文内項抽出において等位接続の場合に抽出対象となる構造木の一例を示す図である。 本発明の実施の形態に係る接続表現項構造解析装置における接続表現項構造解析処理ルーチンを示すフローチャートである。 本発明の第2の実施の形態に係る接続表現項構造解析装置の構成を示すブロック図である。 本発明の第2の実施の形態に係る接続表現項構造解析装置における接続表現項構造解析処理ルーチンを示すフローチャートである。 従来の接続表現項構造解析装置の構成を示すブロック図の一例である。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
<本発明の第1の実施の形態に係る接続表現項構造解析装置の構成>
まず、本発明の第1の実施の形態に係る接続表現項構造解析装置の構成について説明する。第1の実施の形態に係る接続表現項構造解析装置では、文書から明示的接続表現に関する接続表現、項、及び意味ラベルを抽出する。
図1に示すように、本発明の第1の実施の形態に係る接続表現項構造解析装置100は、CPUと、RAMと、後述する接続表現項構造解析処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この接続表現項構造解析装置100は、機能的には図1に示すように入力部10と、演算部20と、出力部50とを備えている。
入力部10は、解析対象となる文書を受け付ける。
演算部20は、文分割部30と、談話構造解析部32と、構文解析部34と、接続表現抽出部36と、項位置関係決定部38と、文内項抽出部40と、文間項抽出部42と、意味クラス分類部44とを含んで構成されている。
文分割部30は、入力部10により受け付けた文書を取得し、文書に対して文の区切りを与える。文の区切りの認定は既存の文分割器を利用する。あるいは、句点を手がかりとするだけでも良い。なお、予め文分割した文書を入力部10により受け付けて、文分割部30の処理を省略しても良い。
談話構造解析部32は、文分割部30により文区切りが与えられた文書に基づいて、文書に含まれる文の各々の修辞構造に基づく、文の各々を各ノードで表わした談話構造木を生成する。談話構造木によって文同士のノード間の親子関係が表わされる。談話構造木は、非特許文献2などの修辞構造解析器を用いてRSTツリーを生成した後、非特許文献3に記載されているルールを適用することで文同士のノード間の親子関係を決定することができる。また、必ずしもRSTツリーを生成する必要はなく、文同士のノード間の親子関係を表した修辞構造木のデータを用いて学習した解析器を利用することで文同士のノード間の親子関係を得ることも可能である。
[非特許文献2]:duVerle、 D. and Prendinger、 H. ‘A Novel Discourse Parser Based on Support Vector Machine Classi_cation'. Proc of the 47th ACL, pp. 665{675 (2009) .
[非特許文献3]:Tsutomu Hirao、 Yasuhisa Yoshida、 Masaaki Nishino, Norihito Yasuda and Masaaki Nagata. ‘Single-Document Summarization as a Tree Knapsack Problem'. Proc. of the 2013 Conference on Empirical Methods in Natural Language Processing, pp. 1515{1520, (2013).
構文解析部34は、文分割部30により文区切りが与えられた文書に含まれる文の各々について、構文解析を行って構文木を生成する。構文解析については様々なソフトウェアが開発されているため、既存のソフトウェアを用いて文の各々の構文木を生成すれば良い。
接続表現抽出部36は、構文解析部34により生成された文の各々についての構文木に基づいて、項を持つ接続表現を抽出する。接続表現抽出部36は、具体的には、まず文書中に出現する単語について、予め人手で整備した接続表現候補辞書(図示省略)の辞書エントリ表現を参照し、辞書エントリ表現にマッチする単語を抽出する。そして、辞書エントリ表現にマッチする単語が項をとる接続表現か否かを、辞書エントリ表現が項をとる否かを注釈付けした学習データを用いて訓練したSVM、ロジスティック回帰のような2値分類器を利用して判定し、項をとる接続表現を抽出する。文書中に出現する単語が、項をとる接続表現か否かを判定するために利用する特徴として、以下の(1)〜(5)のような特徴を用いれば良い。
(1)辞書エントリ表現とその品詞
(2)辞書エントリ表現の前後5単語とそれらの品詞
(3)構文木における辞書エントリ表現の深さ
(4)構文木における辞書エントリ表現の親、左の兄弟、右の兄弟
(5)構文木における辞書エントリ表現から根までのパス
項位置関係決定部38は、接続表現抽出部36によって抽出された接続表現について、接続表現を含む文内に、接続表現によって結ばれた2つの項が出現するか否かを判定する。項位置関係決定部38は、具体的には、接続表現抽出部36と同様に予め学習データを用いて訓練したSVM、ロジスティク回帰などの2値分類器を用いて、接続表現を含む文内に、接続表現によって結ばれた2つの項が出現するか否かを判定する。判定に利用する特徴は接続表現抽出部36に利用した上記(1)〜(5)の特徴に加え、接続表現の出現位置(文の前半、なかば、後半など)も用いる。
項位置関係決定部38は、接続表現を含む文内に接続表現によって結ばれた2つの項が出現しないと判定した場合、接続表現を含む文を、接続表現によって結ばれた2つの項のうちの項2を抽出するための文として決定し、談話構造解析部32によって生成された談話構造木において、接続表現を含む文の親ノード又は兄弟ノードに対応する文を、接続表現によって結ばれた2つの項のうちの項1を抽出するための文として決定する。
文内項抽出部40は、項位置関係決定部38によって接続表現を含む文内に、接続表現によって結ばれた2つの項が出現すると判定された場合、接続表現を含む文から、接続表現によって結ばれた項1、及び項2を抽出し、出力部50に出力する。
文内項抽出部40は、具体的には、構文解析部34により生成した文の各々の構文木のうち、接続表現を含む文の構文木を受け取り、接続表現が従属接続、又は等位接続の場合に、それぞれ以下のルールを適用して項1、及び項2を抽出する。なお、接続表現と、従属接続又は等位接続との対応関係は予め人手で与えておく。
まず、接続表現が従属接続の場合の項1、及び項2の抽出方法について説明する。
接続表現が従属接続の場合、項2を以下の(1)、(2)の手順で抽出する。
(1)対象とする接続表現の最後の単語を表すノードを、構文木のノードをあらわすノード変数xに代入する。
(2)xの親ノードをxに代入する。この操作をxに代入されたノードがSBARまたはSのラベルをとるまで繰り返し、どちらかのラベルをとった時点でのxによって支配されるテキストスパンを項2とする。
図2に抽出の例を示す。図2の例では、まずxにbecauseが代入される。becauseはS、又はSBARのどちらでもないため、xにbecauseの親ノードであるINを代入する。INはS、又はSBARのどちらでもないため、xにINの親ノードであるSBARを代入する。xがSBARとなったので処理が終わり、xに代入されたSBARが支配するスパン「because he is honest」を項2とする。
次に、接続表現が従属接続の場合、項1を以下(1)、(2)の手順で抽出する。なお、xは項2の手順が終了した時点での値を引き継ぐ。
(1)xの親ノードをxに代入する。
(2)xに代入されたノードがSBARまたはSのラベルをとるまで繰り返し、どちらかのラベルをとった時点でのxによって支配されるテキストスパンを取り出し、そこから項2のスパンを取り除いたものを項1とする。
図2の例では、項2を決定した時点で、xには「because he is honest」を支配するSBARが代入されているので、その親ノードであるVPをxに代入する。VPはS、SBARのどちらでもないので、さらにその親ノードであるSをxに代入する。xがSとなったので処理を終え、Sが支配するスパン「I like him because he is honest」を取り出し、そこから項2のスパン「because he is honest」を取り除いたスパン「I like him」を項1とする。
次に、接続表現が等位接続の場合の項1、及び項2の抽出方法について説明する。
接続表現が等位接続の場合、項2を以下(1)〜(3)の手順で抽出する。
(1)対象とする接続表現の最後の単語を表すノードを、ノード変数xに代入し、xの親ノードをノード変数yに代入する。
(2)x、yにそれぞれの親ノードを代入する。
(3)x、yが支配するスパンであるspan(x)及びspan(y)の最左の単語が一致しなくなるまで、(2)を繰り返す。一致しなくなった時点で、yが支配するスパンのうち接続表現直後の単語からスパンの最後の単語までを項2とする。
図3に抽出対象となる構造木の第1の例を示す。図3の例では、まずxにandを代入し、yにCCを代入する。span(x)、span(y)の最左の単語がandで一致するためxにCC、yにSを代入する。span(x)の最左の単語はand、span(y)の最左の単語はHeとなり、一致しないので処理を終了する。そして、span(y)、つまり、「He became a student and he received a grant」のand直後からのスパン「he received a grant」を項2とする。
図4に抽出対象となる構造木の第2の例を示す。図4の例では、まずxにbut、yにCCを代入する。span(x)、span(y)の最左の単語がbutで一致するため、xにCC、yにVPを代入する。span(x)とspan(y)の最左の単語はそれぞれbutとwereとで一致しないので処理を終了する。yが支配するスパンのうちbutの直後からのスパン「were not adjusted for ination」を項2とする。
次に、接続表現が等位接続の場合、項1を以下(1)、及び(2)の手順で抽出する。なお、x、yは項2の手順が終了した時点での値を引き継ぐ。
(1)yの子ノードのうちxよりも左にSあるいはSBARが存在する場合(複数存在する場合には最右を選択)、そのノードが支配するスパンを項1とする。
(2)上記(1)に該当しない場合、yにその親を代入しSBARまたはSのラベルをとるまで構文木を遡る。SBARあるいはSをとった時点でのyが支配するスパンから接続表現と項2を取り除いたスパンを項1とする。
図3の構造木から抽出する例では、項2を決定した時点では、xはCC、yはSである。ここで、xよりも左のyの子ノードの中にSがあるため、そのSが支配するスパン「He became a student」を項1とする。
また、図4の構造木から抽出する例では、項2を決定した時点では、xはCC、yはVPである。ここで、xよりも左のyの子ノードの中にS、SBARとも存在しないため、yにその親を代入する。するとyがSとなるので処理を終了する。yが支配するスパン「The gures were adjusted for deation、 but were not adjusted for ination」から「but ware not adjusted for ination」を取り除いた「The _gures were adjusted for deation」を項1とする。
文間項抽出部42は、項位置関係決定部38によって、接続表現を含む文内に接続表現によって結ばれた2つの項が出現しないと判定された場合、項位置関係決定部38によって、接続表現によって結ばれた2つの項のうちの項2を抽出するための文として決定された接続表現を含む文から、項2を抽出し、項位置関係決定部38によって、接続表現によって結ばれた2つの項のうちの項1を抽出するための文として決定された、接続表現を含む文の親ノード又は兄弟ノードに対応する文から、項1を抽出し、抽出した2つの項を出力部50に出力する。
意味クラス分類部44は、接続表現抽出部36によって抽出された接続表現に基づいて、接続表現の意味クラスを分類し、接続表現及び当該接続表現の意味クラスを出力部50に出力する。意味クラス分類部44は、具体的には、接続表現抽出部36で抽出された接続表現と、接続表現の周辺の単語とを入力として、予め学習データにより学習した多クラスの分類問題を解くことにより、接続表現に対する意味クラスを分類する。なお、多クラス分類問題であるため、学習データ中のクラス分布がなるべく均一になるようにデータを学習データから再サンプリングする。
<本発明の第1の実施の形態に係る接続表現項構造解析装置の作用>
次に、本発明の第1の実施の形態に係る接続表現項構造解析装置100の作用について説明する。入力部10において文書を受け付けると、接続表現項構造解析装置100は、図5に示す接続表現項構造解析処理ルーチンを実行する。
まず、ステップS100では、入力部10において受け付けた文書を取得し、文書に対して文の区切りを与える。
次に、ステップS102では、ステップS100で文区切りが与えられた文書に基づいて、文書に含まれる文の各々の修辞構造に基づく、文の各々を各ノードで表わした談話構造木を生成する。
ステップS104では、ステップS100で文区切りが与えられた文書に含まれる文の各々について、構文解析を行って構文木を生成する。
ステップS106では、ステップS104で生成された文の各々についての構文木に基づいて、項を持つ接続表現を抽出する。
ステップS108では、ステップS106において、抽出された接続表現について、接続表現を含む文内に、接続表現によって結ばれた2つの項が出現するか否かを判定する。また、ステップS108では、接続表現を含む文内に接続表現によって結ばれた2つの項が出現しないと判定した場合、接続表現を含む文を、接続表現によって結ばれた2つの項のうちの項2を抽出するための文として決定し、ステップS102で生成された談話構造木において、接続表現を含む文の親ノード又は兄弟ノードに対応する文を、接続表現によって結ばれた2つの項のうちの項1を抽出するための文として決定する。
ステップS110では、ステップS108で接続表現を含む文内に、接続表現によって結ばれた2つの項が出現すると判定された場合、接続表現を含む文から、接続表現によって結ばれた項1、及び項2を抽出し、出力部50に出力する。
ステップS112では、ステップS108において、接続表現を含む文内に、接続表現によって結ばれた2つの項が出現しないと判定された場合、ステップS108で項2を抽出するための文として決定された接続表現を含む文から、項2を抽出し、ステップS108で項1を抽出するための文として決定された、接続表現を含む文の親ノード又は兄弟ノードに対応する文から、項1を抽出し、抽出した2つの項を出力部50に出力する。
ステップS114では、ステップS106で抽出された接続表現に基づいて、接続表現の意味クラスを分類し、接続表現及び当該接続表現の意味クラスを出力部50に出力し、接続表現項構造解析処理ルーチンを終了する。
以上説明したように、第1の実施の形態に係る接続表現項構造解析装置によれば、文書に基づいて、文書に含まれる文の各々の修辞構造に基づく、談話構造木を生成し、構文解析を行って構文木を生成し、項を持つ接続表現を抽出し、接続表現を含む文内に、接続表現によって結ばれた2つの項が出現するか否かを判定し、接続表現によって結ばれた2つの項が出現すると判定された場合、接続表現を含む文から、接続表現によって結ばれた2つの項を抽出し、接続表現によって結ばれた2つの項が出現しないと判定された場合、接続表現を含む文から、項2を抽出し、談話構造木において、接続表現を含む文の親ノード又は兄弟ノードに対応する文から、項1を抽出し、接続表現の意味クラスを分類することにより、隣接しない文間からも、接続表現によって結ばれた項を抽出することができる。
<本発明の第2の実施の形態に係る接続表現項構造解析装置の構成>
次に、本発明の第2の実施の形態に係る接続表現項構造解析装置の構成について説明する。なお、第1の実施の形態と同様の構成となる部分については、同一符号を付して説明を省略する。第2の実施の形態に係る接続表現項構造解析装置では、文書から暗示的接続表現に関する項、及び意味ラベルを抽出する。
図6に示すように、本発明の第2の実施の形態に係る接続表現項構造解析装置200は、CPUと、RAMと、後述する接続表現項構造解析処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この接続表現項構造解析装置200は、機能的には図6に示すように入力部10と、演算部220と、出力部50とを備えている。
演算部220は、文分割部30と、談話構造解析部32と、関連文ペア抽出部238と、文間項抽出部242と、意味クラス分類部244とを含んで構成されている。
談話構造解析部32は、第1の実施の形態と同様の処理により、文分割部30により文区切りが与えられた文書に基づいて、文書に含まれる文の各々の修辞構造に基づく、文の各々を各ノードで表わした談話構造木を生成する。
関連文ペア抽出部238は、談話構造解析部32によって生成された談話構造木に基づいて、親子ノードに対応する文のペア、及び兄弟ノードに対応する文のペアを、接続関係を持つ文のペアの候補とし、接続関係を持つ文のペアの候補の各々について、接続関係があるか否かを判定する。
関連文ペア抽出部238は、具体的には、談話構造木を入力として受け取り、木の親子ノード、及び兄弟ノードとなる文のペアを、接続関係を持つ文ペアの候補とし、これらの文ペアの候補の各々に対して、予め学習した2値分類器を利用することで文ペアに接続関係があるか否かを決定する。2値分類器は、学習データの文ペアとして文S、文Sを用意し、以下の(1)〜(5)の特徴を用いて、2値分類器を学習する。
(1)文S、及び文Sの先頭の単語
(2)文S、及び文Sの最後の単語
(3)文S、及び文Sの先頭の3単語
(4)文Sに含まれる単語と文Sに含まれる単語とのペアすべて
(5)文Sに含まれる単語の意味クラスと文Sに含まれる単語の意味クラスのペアすべて
なお、上記(5)の特徴である単語の意味クラスは既存のシソーラスや単語クラスタリングの結果から得ることができる。さらに、関連文ペア抽出部238は、接続関係があると判定された文のペアの候補の各々について、談話構造木が表現する修飾、被修飾関係を利用して、項1を抽出するための文、及び項2を抽出するための文を決定する。例えば、文Sが文Sの子ノードであれば、文Sを、項2を抽出するための文とし、文Sを、項1を抽出するための文とする。文S、及び文Sが兄弟ノードであるなら、文番号の小さいものを、項1を抽出するための文とし、大きいものを、項2を抽出するための文とする。
文間項抽出部242は、関連文ペア抽出部238によって接続関係があると判定された接続関係を持つ文のペアの候補の各々について、当該接続関係を持つ文のペアの候補から、暗示的な接続表現によって結ばれる2つの項を抽出する。なお、関連文ペア抽出部238において、項1、及び項2がどの文から抽出されるかの判定は終わっているため、ここでは以下の(1)及び(2)の操作で項のみを取り出す。
(1)文中に含まれる記号のうち、「。」、「!」、「?」の文末表現を削除する。
(2)文頭、文末における「“”」等の括弧表現を削除する。
文間項抽出部242では、上記の(1)及び(2)の操作を変化がなくなるまで繰り返し、暗示的な接続関係を有する2つの項を出力部50に出力する。
意味クラス分類部244は、関連文ペア抽出部238によって接続関係があると判定された接続関係を持つ文のペアの候補の各々について、接続関係を持つ文のペアの候補に基づいて、暗示的な接続表現の意味クラスを分類し、出力部50に出力する。意味クラス分類部244は、文ペアの候補の各々を入力として、予め学習データにより学習した多クラスの分類問題を解くことにより、文ペアの候補の各々の文同士をつなぐ接続関係の意味クラスを決定する。学習及び分類に用いる特徴は、上記関連文ペア抽出部238で利用した(1)〜(5)の特徴を利用する。さらに、多クラス分類問題であるため、学習データ中のクラス分布がなるべく均一になるようにデータを学習データから再サンプリングする。
<本発明の第2の実施の形態に係る接続表現項構造解析装置の作用>
次に、本発明の第2の実施の形態に係る接続表現項構造解析装置200の作用について説明する。入力部10において文書を受け付けると、接続表現項構造解析装置200は、図7に示す接続表現項構造解析処理ルーチンを実行する。なお、第1の実施の形態と同様の作用となる箇所については同一符号を付して説明を省略する。
ステップS200では、ステップS102で生成された談話構造木に基づいて、親子ノードに対応する文のペア、及び兄弟ノードに対応する文のペアを、接続関係を持つ文のペアの候補とし、接続関係を持つ文のペアの候補の各々について、接続関係があるか否かを判定する。また、ステップ200では、接続関係があると判定された文のペアの候補の各々について、談話構造木が表現する修飾、被修飾関係を利用して、項2を抽出するための文、及び項1を抽出するための文を決定する。
次に、ステップS202では、ステップS200で接続関係があると判定された接続関係を持つ文のペアの候補の各々について、当該接続関係を持つ文のペアの候補から、暗示的な接続表現によって結ばれる2つの項を抽出し、出力部50に出力する。
そして、ステップS204では、ステップS200で接続関係があると判定された接続関係を持つ文のペアの候補の各々について、接続関係を持つ文のペアの候補に基づいて、暗示的な接続表現の意味クラスを分類し、出力部50に出力し、接続表現項構造解析処理ルーチンを終了する。
なお、第2の実施の形態に係る接続表現項構造解析装置200の他の構成及び作用については、第1の実施の形態と同様であるため、説明を省略する。
以上説明したように、第2の実施の形態に係る接続表現項構造解析装置によれば、文書に基づいて、修辞構造に基づく、文の各々を各ノードで表わした談話構造木を生成し、談話構造木に基づいて、親子ノードに対応する文のペア、及び兄弟ノードに対応する文のペアを、接続関係を持つ文のペアの候補とし、接続関係を持つ文のペアの候補の各々について、接続関係があるか否かを判定し、接続関係を持つ文のペアの候補から、暗示的な接続表現によって結ばれる2つの項を抽出し、暗示的な接続表現の意味クラスを分類することにより、隣接しない文間からも、接続関係を持つ意味的に結ばれた項を抽出することができる。
なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、上述した実施の形態では、第1の実施の形態に係る接続表現項構造解析装置によって、文書から明示的接続表現に関する接続表現、項、及び意味ラベルを抽出し、第2の実施の形態に係る接続表現項構造解析装置によって、文書から暗示的接続表現に関する接続表現、項、及び意味ラベルを抽出する場合を例に説明したが、これに限定されるものではなく、一つの接続表現項構造解析装置によって、文書から明示的接続表現に関する接続表現、項、及び意味ラベル、並びに暗示的接続表現に関する項、及び意味ラベルを抽出するようにしてもよい。
10 入力部
20、220 演算部
30 文分割部
32 談話構造解析部
34 構文解析部
36 接続表現抽出部
38 項位置関係決定部
40 文内項抽出部
42、242 文間項抽出部
44、244 意味クラス分類部
46 文間項抽出部
50 出力部
100、200 接続表現項構造解析装置
238 関連文ペア抽出部

Claims (5)

  1. 入力された文書に基づいて、前記文書に含まれる文の各々の修辞構造に基づく、前記文の各々を各ノードで表わした談話構造木を生成する談話構造解析部と、
    前記文書に含まれる文の各々について、構文解析を行って構文木を生成する構文解析部と、
    前記構文解析部によって生成された前記文の各々についての構文木に基づいて、項を持つ接続表現を抽出する接続表現抽出部と、
    前記接続表現抽出部によって抽出された前記接続表現について、前記接続表現を含む文内に、前記接続表現によって結ばれた2つの項が出現するか否かを判定する項位置関係決定部と、
    前記項位置関係決定部によって前記接続表現を含む文内に、前記接続表現によって結ばれた2つの項が出現すると判定された場合、前記接続表現を含む文から、前記接続表現によって結ばれた2つの項を抽出する文内項抽出部と、
    前記項位置関係決定部によって前記接続表現を含む文内に、前記接続表現によって結ばれた2つの項が出現しないと判定された場合、前記接続表現を含む文から、前記接続表現によって結ばれた2つの項の何れか一方を抽出し、前記談話構造解析部によって生成された前記談話構造木において、前記接続表現を含む文の親ノード又は兄弟ノードに対応する文から、前記接続表現によって結ばれた2つの項の何れか他方を抽出する文間項抽出部と、
    前記接続表現抽出部によって抽出された前記接続表現に基づいて、前記接続表現の意味クラスを分類する意味クラス分類部と、
    を含む接続表現項構造解析装置。
  2. 入力された文書に基づいて、前記文書に含まれる文の各々の修辞構造に基づく、前記文の各々を各ノードで表わした談話構造木を生成する談話構造解析部と、
    前記談話構造解析部によって生成された前記談話構造木に基づいて、親子ノードに対応する文のペア、及び兄弟ノードに対応する文のペアを、接続関係を持つ文のペアの候補とし、前記接続関係を持つ文のペアの候補の各々について、接続関係があるか否かを判定する関連文ペア抽出部と、
    前記関連文ペア抽出部によって接続関係があると判定された前記接続関係を持つ文のペアの候補の各々について、前記接続関係を持つ文のペアの候補から、暗示的な接続表現によって結ばれる2つの項を抽出する文間項抽出部と、
    前記関連文ペア抽出部によって接続関係があると判定された前記接続関係を持つ文のペアの候補の各々について、前記接続関係を持つ文のペアの候補に基づいて、前記暗示的な接続表現の意味クラスを分類する意味クラス分類部と、
    を含む接続表現項構造解析装置。
  3. 談話構造解析部が、入力された文書に基づいて、前記文書に含まれる文の各々の修辞構造に基づく、前記文の各々を各ノードで表わした談話構造木を生成するステップと、
    構文解析部が、前記文書に含まれる文の各々について、構文解析を行って構文木を生成するステップと、
    接続表現抽出部が、前記構文解析部によって生成された前記文の各々についての構文木に基づいて、項を持つ接続表現を抽出するステップと、
    項位置関係決定部が、前記接続表現抽出部によって抽出された前記接続表現について、前記接続表現を含む文内に、前記接続表現によって結ばれた2つの項が出現するか否かを判定するステップと、
    文内項抽出部が、前記項位置関係決定部によって前記接続表現を含む文内に、前記接続表現によって結ばれた2つの項が出現すると判定された場合、前記接続表現を含む文から、前記接続表現によって結ばれた2つの項を抽出するステップと、
    文間項抽出部が、前記項位置関係決定部によって前記接続表現を含む文内に、前記接続表現によって結ばれた2つの項が出現しないと判定された場合、前記接続表現を含む文から、前記接続表現によって結ばれた2つの項の何れか一方を抽出し、前記談話構造解析部によって生成された前記談話構造木において、前記接続表現を含む文の親ノード又は兄弟ノードに対応する文から、前記接続表現によって結ばれた2つの項の何れか他方を抽出するステップと、
    意味クラス分類部が、前記接続表現抽出部によって抽出された前記接続表現に基づいて、前記接続表現の意味クラスを分類するステップと、
    を含む接続表現項構造解析方法。
  4. 談話構造解析部が、入力された文書に基づいて、前記文書に含まれる文の各々の修辞構造に基づく、前記文の各々を各ノードで表わした談話構造木を生成するステップと、
    関連文ペア抽出部が、前記談話構造解析部によって生成された前記談話構造木に基づいて、親子ノードに対応する文のペア、及び兄弟ノードに対応する文のペアを、接続関係を持つ文のペアの候補とし、前記接続関係を持つ文のペアの候補の各々について、接続関係があるか否かを判定するステップと、
    文間項抽出部が、前記関連文ペア抽出部によって接続関係があると判定された前記接続関係を持つ文のペアの候補の各々について、前記接続関係を持つ文のペアの候補から、暗示的な接続表現によって結ばれる2つの項を抽出するステップと、
    意味クラス分類部が、前記関連文ペア抽出部によって接続関係があると判定された前記接続関係を持つ文のペアの候補の各々について、前記接続関係を持つ文のペアの候補に基づいて、前記暗示的な接続表現の意味クラスを分類するステップと、
    を含む接続表現項構造解析方法。
  5. コンピュータを、請求項1又は2に記載の接続表現項構造解析装置を構成する各部として機能させるためのプログラム。
JP2015141649A 2015-07-15 2015-07-15 接続表現項構造解析装置、方法、及びプログラム Active JP6499537B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015141649A JP6499537B2 (ja) 2015-07-15 2015-07-15 接続表現項構造解析装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015141649A JP6499537B2 (ja) 2015-07-15 2015-07-15 接続表現項構造解析装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2017027111A true JP2017027111A (ja) 2017-02-02
JP6499537B2 JP6499537B2 (ja) 2019-04-10

Family

ID=57946570

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015141649A Active JP6499537B2 (ja) 2015-07-15 2015-07-15 接続表現項構造解析装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6499537B2 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0322083A (ja) * 1989-06-20 1991-01-30 Agency Of Ind Science & Technol 自然言語処理装置
JP2001523019A (ja) * 1997-10-20 2001-11-20 マイクロソフト コーポレイション テキストの本文の談話構造の自動認識
JP2005228075A (ja) * 2004-02-13 2005-08-25 Institute Of Physical & Chemical Research 日常言語プログラム処理システム、その方法および修辞構造解析方法
JP2005531068A (ja) * 2002-06-24 2005-10-13 エデュケーショナル テスティング サービス 自動論文注釈付記システムおよびその方法
JP2010271819A (ja) * 2009-05-20 2010-12-02 Nec Corp 語句関係抽出装置、語句関係抽出方法及びプログラム
US20120197631A1 (en) * 2011-02-01 2012-08-02 Accenture Global Services Limited System for Identifying Textual Relationships

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0322083A (ja) * 1989-06-20 1991-01-30 Agency Of Ind Science & Technol 自然言語処理装置
JP2001523019A (ja) * 1997-10-20 2001-11-20 マイクロソフト コーポレイション テキストの本文の談話構造の自動認識
JP2005531068A (ja) * 2002-06-24 2005-10-13 エデュケーショナル テスティング サービス 自動論文注釈付記システムおよびその方法
JP2005228075A (ja) * 2004-02-13 2005-08-25 Institute Of Physical & Chemical Research 日常言語プログラム処理システム、その方法および修辞構造解析方法
JP2010271819A (ja) * 2009-05-20 2010-12-02 Nec Corp 語句関係抽出装置、語句関係抽出方法及びプログラム
US20120197631A1 (en) * 2011-02-01 2012-08-02 Accenture Global Services Limited System for Identifying Textual Relationships

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
梅澤 俊之 外1名: "センタリング理論と対象知識に基づく談話構造解析システムDIA", 自然言語処理, vol. 第18巻第1号, JPN6018028028, 28 January 2011 (2011-01-28), JP, pages 31 - 56, ISSN: 0003842998 *

Also Published As

Publication number Publication date
JP6499537B2 (ja) 2019-04-10

Similar Documents

Publication Publication Date Title
JP7223785B2 (ja) 時系列ナレッジグラフ生成方法、装置、デバイス及び媒体
KR102431549B1 (ko) 인과 관계 인식 장치 및 그것을 위한 컴퓨터 프로그램
WO2017038657A1 (ja) 質問応答システムの訓練装置及びそのためのコンピュータプログラム
US20150074112A1 (en) Multimedia Question Answering System and Method
CN111444330A (zh) 提取短文本关键词的方法、装置、设备及存储介质
KR102491172B1 (ko) 자연어 질의응답 시스템 및 그 학습 방법
CN110598203A (zh) 一种结合词典的军事想定文书实体信息抽取方法及装置
CN109933778B (zh) 分词方法、装置以及计算机可读存储介质
CN109062904B (zh) 逻辑谓词提取方法和装置
CN111046656A (zh) 文本处理方法、装置、电子设备及可读存储介质
CN109558482B (zh) 一种基于Spark框架的文本聚类模型PW-LDA的并行化方法
CN111177375A (zh) 一种电子文档分类方法及装置
CN113705237A (zh) 融合关系短语知识的关系抽取方法、装置和电子设备
CN114860942A (zh) 文本意图分类方法、装置、设备及存储介质
WO2019163642A1 (ja) 要約評価装置、方法、プログラム、及び記憶媒体
JP7213569B2 (ja) 画像分類およびマーキング方法、並びに、そのシステム
JP6021079B2 (ja) 文書要約装置、方法、及びプログラム
JP6499537B2 (ja) 接続表現項構造解析装置、方法、及びプログラム
Nambiar et al. Abstractive summarization of Malayalam document using sequence to sequence model
CN104298752B (zh) 基于web网页资源的程序代码缩略词的自动扩充方法
KR102474042B1 (ko) 데이터 마이닝을 이용한 질병 연관성 분석 방법
CN110069780B (zh) 一种基于特定领域文本的情感词识别方法
JP6665029B2 (ja) 言語解析装置、言語解析方法、及びプログラム
KR20130113000A (ko) 언어 처리 장치 및 그 방법
CN113590650A (zh) 基于特征表达式的结构化查询语句甄别方法及装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170822

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180615

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180724

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180925

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190219

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190315

R150 Certificate of patent or registration of utility model

Ref document number: 6499537

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150