JP6327799B2 - 自然言語推論システム、自然言語推論方法及びプログラム - Google Patents

自然言語推論システム、自然言語推論方法及びプログラム Download PDF

Info

Publication number
JP6327799B2
JP6327799B2 JP2013108335A JP2013108335A JP6327799B2 JP 6327799 B2 JP6327799 B2 JP 6327799B2 JP 2013108335 A JP2013108335 A JP 2013108335A JP 2013108335 A JP2013108335 A JP 2013108335A JP 6327799 B2 JP6327799 B2 JP 6327799B2
Authority
JP
Japan
Prior art keywords
text sentence
data
sentence
word
algebraic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2013108335A
Other languages
English (en)
Other versions
JP2014229078A (ja
Inventor
祐介 宮尾
祐介 宮尾
然 田
然 田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inter University Research Institute Corp Research Organization of Information and Systems
Original Assignee
Inter University Research Institute Corp Research Organization of Information and Systems
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inter University Research Institute Corp Research Organization of Information and Systems filed Critical Inter University Research Institute Corp Research Organization of Information and Systems
Priority to JP2013108335A priority Critical patent/JP6327799B2/ja
Publication of JP2014229078A publication Critical patent/JP2014229078A/ja
Application granted granted Critical
Publication of JP6327799B2 publication Critical patent/JP6327799B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Description

本発明は、自然言語文の含意関係を推論する自然言語推論システム、自然言語推論方法及びプログラムに関する。
自然言語文をコンピュータなどの情報処理装置が解析する場合、入力された自然言語文の意味を正確に理解することが、その入力文による処理を行う上で重要である。入力された自然言語文の意味を正確に理解できれば、例えば、情報処理装置が言語情報を収集してデータベースを構築する際の精度や、自動翻訳する際の翻訳精度などを向上させることができる。また、試験問題のような回答を求める文章の正解を、情報処理装置が自動的に判断することも可能になる。
自然言語文の意味理解をする上での課題の1つとして、含意関係認識がある。含意関係認識とは、文章Hと文章Tがあるとき、文章Tから文章Hが推論できるか否かを判別するものであり、自然言語処理における難しい課題の1つである。
例えば、文章Tと文章Hが次のものであるとする。
・文章T:川端康成は「雪国」などの作品でノーベル文学賞を受賞した。
・文章H:川端康成は「雪国」の作者である。
このような2つの文章Hと文章Tがあるとき、情報処理装置が文章Tと文章Hについて含意関係ありと推論するための演算処理手法は、容易に実現できるものではなかった。
従来、このような文章Hと文章Tの含意関係認識を行う手法としては、文章の意味を述語論理式で記述して、2つの文章の間の含意関係を述語論理式から証明を試す方法や、文章の表層的な情報(例えば2つの文章で一致している単語の数など)を用いて判断する方法などがある。
特許文献1には、自然言語文に含まれる単語の組み合わせに対する特徴量を抽出し、その特徴量に基づいて単語の意味の上位概念を推定することで、自然言語文章の意味を判断する技術についての記載がある。
特開2009−181408号公報
ところが、従来の含意関係認識を行う手法は、いずれも認識精度が低いという問題があった。例えば、上述した文章Hと文章Tの例は、比較的簡単な文章の例であるので、2つの文章に含意関係があると推論できる可能性が高い。これに対して、より複雑な文章の場合には、2つの文章内の単語の関連の有無を判断するための何らかのデータベースを参照しない限り、従来は正確な判定ができない場合が多々あった。例えば、上述した文章Hと文章Tの例の場合、「川端康成」が人名と判断できた場合、情報処理装置は「川端康成」についての辞書などのデータベースを検索することで、「雪国」の作者であることが判る可能性が高い。
ところが、自然言語文にはデータベースを参照できない文章も多々あり、そのような大規模なデータベースに依存した含意関係認識は好ましくない。特許文献1に記載されるように、単語の組み合わせに対する特徴量を意味的に判断する使用することは、データベースに頼らない認識手法の1つであるが、特許文献1の手法であっても精度はそれほど向上しない。このように、2つの文章の含意関係を解析する場合に、データベース化された言語知識を使用しないで、より精度良く認識できるようにすることが課題になっている。
本発明は、含意関係認識を精度良く行うことができる自然言語推論システム、自然言語推論方法及びプログラムを提供することを目的とする。
本発明の自然言語推論システムは、コンピュータが持つ演算処理機能により自然言語の推論を行う自然言語推論システムであり、コンピュータの演算処理機能として構成される処理部は、構文解析部と、木構造データ生成部と、代数形式変換部と、推論処理部と、アライメント処理部と、分類部と、出力部とを備える。
構文解析部は、複数の単語よりなるテキスト文に含まれる述語を判断する処理を含む構文解析を行う。
木構造データ生成部は、構文解析部での構文解析の結果に基づいて、述語となる単語を中心として、述語とテキスト文内の他の単語を、単語の意味役割を示す記号を付加した辺で接続して自然言語文の論理的な構造を示す木構造のデータとする。
代数形式変換部は、木構造データ生成部が生成した第1のテキスト文の木構造のデータ及び第2のテキスト文の木構造のデータを、論理演算子で関係づけられた代数形式のデータに個別に変換する。
推論処理部は、代数形式変換部で代数形式に変換された、第1のテキスト文の代数形式のデータと、第2のテキスト文の代数形式のデータとの相違を比較するために、少なくとも一方の代数形式のデータを変形する推論処理を書き換え規則である公理に基づいて行う。
アライメント処理部は、推論処理部で推論した結果としての第1のテキスト文の代数形式のデータと第2のテキスト文の代数形式のデータとを比較して、含意関係の有無を判断するために、第1のテキスト文の木構造データの中心となる述語が含まれる候補部分と、第2のテキスト文の木構造データの中心となる述語が含まれる候補部分を探し出す。
分類部は、アライメント処理部で探し出された前記第1のテキスト文の述語が含まれる候補部分の単語と前記第2のテキスト文の述語が含まれる候補部分の単語との類似度を、言語知識リソース部に蓄積された言語知識を用いて判定する。
出力部は、分類部で判定された類似度に基づいて、第1のテキスト文と第2のテキスト文との含意関係の判定結果を出力する。
また本発明の自然言語推論方法は、コンピュータが持つ演算処理機能により自然言語の推論を実行する自然言語推論方法であり、以下の各ステップを実行するものである。
・複数の単語よりなるテキスト文に含まれる述語を判断する処理を含む構文解析を行うステップ。
・構文解析の結果に基づいて、述語となる単語を中心として、述語とテキスト文内の他の単語を、単語の意味役割を示す記号を付加した辺で接続して自然言語文の論理的な構造を示す木構造のデータとするステップ。
・木構造のデータとするステップで得られた、第1のテキスト文の木構造のデータ及び第2のテキスト文の木構造のデータを、論理演算子で関係づけられた代数形式のデータに個別に変換するステップ。
・変換するステップで変換された、第1のテキスト文の代数形式のデータと、第2のテキスト文の代数形式のデータとの相違を比較するために、少なくとも一方の代数形式のデータを変形する推論処理を書き換え規則である公理に基づいて行うステップ。
・推論処理で推論した結果としての第1のテキスト文の代数形式のデータと第2のテキスト文の代数形式のデータとを比較して、含意関係の有無を判断するために、第1のテキスト文の木構造データの中心となる述語が含まれる候補部分と、第2のテキスト文の木構造データの中心となる述語が含まれる候補部分を探し出すアライメント処理を行うステップ。
・アライメント処理で取り出されたアライメント処理部で探し出された第1のテキスト文の述語が含まれる候補部分の単語と第2のテキスト文の述語が含まれる候補部分の単語との類似度を、言語知識リソース部に蓄積された言語知識を用いて判定するステップ。
・判定するステップで得られた類似度に基づいて、第1のテキスト文と第2のテキスト文との含意関係の判定結果を出力するステップ。
また本発明のプログラムは、コンピュータにテキスト文の含意関係の判定を実行させるためのプログラムであり、コンピュータが持つ演算処理機能により自然言語の推論をプログラムが実行するための以下の手順を備える。
・複数の単語よりなるテキスト文に含まれる述語を判断する処理を含む構文解析を行う手順。
・構文解析の結果に基づいて、前記述語となる単語を中心として、述語とテキスト文内の他の単語を、単語の意味役割を示す記号を付加した辺で接続して自然言語文の論理的な構造を示す木構造のデータとする手順。
・木構造のデータとする手順で得られた、第1のテキスト文の木構造のデータ及び第2のテキスト文の木構造のデータを、論理演算子で関係づけられた代数形式のデータに個別に変換する手順。
・変換する手順で変換された、第1のテキスト文の代数形式のデータと、第2のテキスト文の代数形式のデータとの相違を比較するために、少なくとも一方の代数形式のデータを変形する推論処理を書き換え規則である公理に基づいて行う手順。
・推論する手順で推論した結果としての第1のテキスト文の代数形式のデータと第2のテキスト文の代数形式のデータとを比較して、含意関係の有無を判断するために、第1のテキスト文の木構造データの中心となる述語が含まれる候補部分と、第2のテキスト文の木構造データの中心となる述語が含まれる候補部分を探し出すアライメント処理を行う手順。
・アライメント処理で取り出されたアライメント処理部で探し出された第1のテキスト文の述語が含まれる候補部分の単語と第2のテキスト文の述語が含まれる候補部分の単語との類似度を、言語知識リソース部に蓄積された言語知識を用いて判定する手順。
・判定する手順で得られた類似度に基づいて、第1のテキスト文と第2のテキスト文との含意関係の判定結果を出力する手順。
本発明によると、木構造のデータを代数形式のデータに変換して推論処理を行うため、推論処理を高速に行うことができる。また本発明によると、論理的な意味空間と自然言語との間の直接的なマッピングを得ることができ、データベースから得られた知識が不足する場合でも的確な推論ができるようになる。
本発明の一実施の形態によるシステム構成例を示すブロック図である。 本発明の一実施の形態による処理例を示すフローチャートである。 本発明の一実施の形態によるDCS木の例(文Tの例)を示す図である。 本発明の一実施の形態によるDCS木の例(文Hの例)を示す図である。 本発明の一実施の形態によるDCS木の例(文Tの例)を示す図である。 本発明の一実施の形態によるDCS木の例(文Hの例)を示す図である。 本発明の一実施の形態によるDCS木の例(文Tと文Hの例)を示す図である。 本発明のシステムをコンピュータに適用した場合の例を示す説明図である。
以下、本発明の一実施の形態の例(以下、「本例」と称する)を、添付図面を参照して説明する。
[1.システム構成例]
図1は、本例の自然言語推論システムの、情報処理機能から見た構成例を示す図である。
本例の自然言語推論システムは、例えばコンピュータとその周辺機器で構成され、コンピュータが備える演算処理機能やデータ記憶機能を使って、図1に示す自然言語推論システムの各処理部を構成する。
図1に示すシステム構成について説明すると、入力部11は、ユーザが入力した自然言語文であるテキスト文を受け付ける。ここでのテキスト文は、複数の単語から構成される。入力部11でユーザが行うテキスト文の入力方法は、キーボードによる入力、音声による入力など、いずれの方法でもよい。
入力部11に入力されたテキスト文は、構文解析部12に供給され、構文解析処理が行われる。構文解析部12では、構文解析処理により、複数の単語よりなるテキスト文の構文の解析が行われる。また、この構文解析により、テキスト文に含まれる述語を判断する処理が行われる。
構文解析部12が構文解析した結果のデータは、DCS木生成部13に供給される。
DCS木生成部13は、供給されるテキスト文の構文解析データに基づいて、DCS(Dependency-based Compositional Semantics)木と称される木構造のデータを生成する。DCS木は、それぞれの単語をノードとし、それぞれのノードを辺で接続した木構造のデータである。
木構造のデータとする際には、述語となる単語を中心として、他の単語を直接または間接的に辺で接続して、自然言語文の一階述語論理的な意味を定義する。すなわち、自然言語文の論理的な構造を検出して、その論理的な構造を、述語の単語から接続した木構造で示したものである。木構造のそれぞれの辺には、意味役割を示す記号(マーク)がラベル付けされる。また、ノードには選択子が付けられる場合があり、エッジには全称量化子マークがつけられる場合がある。さらに、ノードには、変数値を付加してもよい。DCS木の具体的な例については後述する。
DCS木生成部13が生成したDCS木のデータは、代数形式変換部14に供給される。
代数形式変換部14は、DCS木のデータを代数形式のデータに変換する処理を行うものである。すなわち、代数形式変換部14では、DCS木が表現した意味の範囲を、代数形式で明確化する処理が行われる。具体的には、DCS木のデータが、予め決められた公理を適用して論理演算子で関係づけた代数形式のデータに変換される。この代数形式のデータの具体的な例については後述する。但し、後述する具体例は、比較的単純な文の例を示し、DCS木と代数形式の階層構造の間の類似性は、後述する具体例のように単純とは限らないが、本例の代数形式変換部14では、それがすべて解析されてどんなDCS木に対してもその意味を表す代数形式が自動的に生成される。
代数形式変換部14で生成された代数形式のデータは、推論エンジン部15に供給される。推論エンジン部15は、代数形式のデータについて、その代数形式で使用された公理に基づいて推論を行う推論処理部である。推論エンジン部15が推論処理を行う際には、言語知識についてのデータベースである言語知識リソース部20の記憶情報を参照する。
そして、推論エンジン部15が推論した結果のデータは、表現アライメント部16に供給される。表現アライメント部16は、推論した結果のデータから、重要となる部分の単語を探し出す処理を行う。この重要となる部分の単語を探し出す処理を行う際には、必要により言語知識リソース部20の記憶情報を参照する。
表現アライメント部16が探し出した重要部分の単語のデータは、分類部17に供給される。分類部17では、表現アライメント部16から供給された複数の単語の類似度を計算して、2つの異なる自然言語文の類似度を計算する。この類似度を計算する際には、必要により言語知識リソース部20の記憶情報を参照する。
分類部17が計算した類似度のデータは、結果生成部18に供給される。結果生成部18では、類似度のデータに基づいて、2つの自然言語文が類似するか否かの判定結果を生成し、その判定結果を出力部19から出力する。出力部19は、例えばユーザに判定結果を表示で通知する。このとき、判定結果として、類似するか否かの結果の他に、分類部17が計算した類似度をユーザに通知するようにしてもよい。
[2.処理動作の例]
図2は、図1に示した自然言語推論システムで自然言語推論方法を実行する際の、データ処理の流れを示すフローチャートである。
図2にしたがって説明すると、まず自然言語文であるテキスト文が自然言語推論システムに入力されると、構文解析部12で構文解析処理が実行される(ステップS11)。この構文解析処理時には、テキスト文に含まれる述語の検索が行われる。
そして、構文解析処理した結果のデータに基づいて、DCS木生成部13がDCS木のデータを生成する(ステップS12)。DCS木生成部13が生成したDCS木のデータは、代数形式変換部14に供給され、代数形式のデータに変換される(ステップS13)。
代数形式変換部14が変換した代数形式のデータは、推論エンジン部15に供給され、公理に基づいた推論処理が行われる(ステップS14)。推論エンジン部15での推論結果のデータは、表現アライメント部16に供給され、推論結果から各自然言語文の中の重要部分の単語が抽出される(ステップS15)。
そして、表現アライメント部16で抽出された重要部分の単語のデータが、分類部17に供給され、比較対象となる自然言語文の重要部分の単語どうしが比較され、類似度が計算される(ステップS16)。分類部17で計算された類似度に基づいて、結果生成部18が判定結果を生成し、その生成された判定結果が出力部19から出力される(ステップS17)。
[3.公理の説明]
次に、代数形式変換部14で生成した代数形式を推論エンジン部15で推論処理を行う際に使用される公理の例を、以下に示す。それぞれの公理の後のカッコ内には、それぞれの公理の意味を示す。なお、すべて集合には次元があって、一次元の集合はWの部分集合、二次元の集合はW×Wの部分集合…となる。
・公理1:W≠0
(集合Wが空集合でない)
・公理2:A⊂W
(集合Aがn次元ならn個のWの直積に含まれる)
・公理3:A⊂A
(集合Aは集合Aに含まれる)
・公理4:(A⊂B&B⊂C)⇒A⊂C
(集合Aが集合Bに含まれ、かつ集合Bが集合Cに含まれるとき、集合Aは集合Cに含まれる)
・公理5:(A⊂B&B⊂A)⇒A=B
(集合Aが集合Bに含まれ、かつ集合Bが集合Aに含まれるとき、集合Aと集合Bは等しい)
・公理6:(A⊂B&A≠0)⇒B≠0
(集合Aが集合Bに含まれ、かつ集合Aが空集合でないとき、集合Bは空集合でない)
・公理7:A||B⇒B||A
(集合Aと集合Bが排他的(交わりが空集合)のとき、集合Bと集合Aも排他的)
・公理8:(A||B&C⊂A)⇒C||B
(集合Aと集合Bが排他的で、CがAに含まれるのとき、集合Cと集合Aも排他的)
・公理9:(A||A&A≠0)⇒⊥
(集合Aが自分自身と排他的でかつAが空集合でないとき、矛盾する)
・公理10:(A×B)×C=A×(B×C)
(集合Aと集合Bとの積にさらに集合Cとの積を求めたとき、集合Bと集合Cとの積に集合Aとの積を求めたものと一致する)
・公理11:π(π(A))=π(A)
(πは射影を表す。この公理は、例えばAが三次元の時、集合Aの第1、2成分への射影をπ(A)で表すと、π(A)の更に第1成分への射影π(π(A))は、集合Aの第1成分への射影π(A)と等しい、ということを意味する。)
・公理12:(A∩B)∩C=A∩(B∩C)
(集合Aと集合Bの交わりと、さらに集合Cとの交わりは、集合Bと集合Cの交わりと、さらに集合Aとの交わりと一致する)
・公理13:π((A×W)∩B)=A∩π(B)
(ここで集合Aが一次元、集合Bが二次元と考える。(A×W)∩Bの第1成分への射影は、A∩π(B)と等しい。他の次元数や成分に対しても同様に成り立つ。)
・公理14:A×B∩C×D=(A∩C)×(B∩D)
(集合Aと集合Bとの積と、集合Cと集合Dとの積との交わりは、集合Aと集合Cとの交わりと、集合Bと集合Dとの交わりの積と一致する)
・公理15:(A⊂C&B⊂D)⇒A×B⊂C×D
(集合Aが集合Bに含まれ、かつ集合Bが集合Dに含まれるとき、集合Aと集合Bとの積と、集合Cと集合Dと積の交わりと一致する)
・公理16:B≠0⇒π(A×B)=A
(集合Bが空集合でないとき、集合Aと集合Bの射影は、集合Aと等しい)
・公理17:A⊂W×W⇒A⊂π(A)×π(A)
(集合Aが二次元の時、集合Aがπ(A)×π(A)の部分集合である。他の次元数に対しても同様)
・公理18:A⊂B⇒π(A)⊂π(B)
(集合Aが集合Bに含まれるとき、集合Aの射影も集合Bの同じ成分への射影に含まれる)
・公理19:A∩B⊂A
(集合Aと集合Bの交わりが集合Aの部分集合である)
・公理20:(C⊂A&C⊂B)⇒C⊂A∩B
(集合Cが集合Aに含まれ、かつ集合Cが集合Bに含まれるとき、集合Cは、集合Aと集合Bとの交わりに含まれる)
・公理21:B×q all(A,B)⊂A
(演算子q all の定義は、例えば集合Aが二次元で集合Bが一次元の時、集合q all(A,B)とは性質B×Y⊂Aを満たす最大の集合Yのことである。公理21と公理22は、この定義に対応する公理である。この演算子q all を使えば、全称量化子が入る文に対してもその意味を表現できる。)
・公理22:(B×C⊂A)⇒C⊂q all(A,B)
(集合Aが二次元で集合Bが一次元として、B×CがAに含まれるならば、Cがq all(A,B)に含まれる)
・公理23:A×B≠0⇔(A≠0&B≠0)
(集合Aと集合Bとの直積が空集合でないとき、集合Aが空集合でないと共に、集合Bが空集合でない)
・公理24:π(A)≠0⇔A≠0
(Aの射影が空集合でないこととAが空でないことは同値である)
・公理25:A||B⇒A×C||B×D
(AとBが排他的であれば任意のC、Dに対してA×CとB×Dも排他的である)
これらの論理演算子で示される公理において、記号A,B,C,Dはそれぞれ集合を示し、記号Wは全ての値全体を示す集合である。公理9で示される記号⊥は、矛盾を示す。公理17で示されるWやWは、集合Wのコピーを示す。
なお、公理1〜公理25は、適用される公理の一例であり、これ以外の公理を適用してもよい。
次に、2つの自然言語文を比較して、含意関係の有無を判定する具体的な3つの例について説明する。
[4.具体的な処理例(含意関係ありの例)]
最初に、含意関係ありと判定される2つの自然言語文T,Hの例を、図3および図4を参照して説明する。
ここでの2つの自然言語文T,Hは、以下の英文である。
自然言語文T
The watchdog International Atomic Energy Agency meets in Vienna on September 19.
自然言語文H
The International Atomic Energy Agency holds a meeting in Vienna.
図3は、自然言語文TをDCS木で示したものである。この図3に示す例では、文Tの述語である「meet」のノードが元になり、この「meet」のノードが、辺を介した他の単語のノードと接続されたDCS木となっている。このDCS木は、構文解析の結果で得られた単語をノードとしたものであり、例えば「in」や「on」の前置詞などはノードにならない。なお、「International Atomic Energy Agency」と「watchdog」とは、「meet」のノードから直列に接続する。また、図3や次の図4のDCS木では、「International Atomic Energy Agency」を「IAEA」と示す。
それぞれの辺には、意味役割を示す記号が付加される。例えば、「meet」と主語である「IAEA」とを接続する辺には、主語を示す記号「SBJ」が付加される。また、「meets」と「Vienna」とを接続する辺には、「Vienna」が場所を示す単語であることを示す記号「LOC」が付加される。さらに、「meet」と「September 19」とを接続する辺には、「September 19」が時間を示す単語であることを示す記号「TIME」が付加される。また、それぞれの辺には、変数を示す記号「ARG」が付加される。
図4は、自然言語文HをDCS木で示したものである。この図4に示す例では、文Hの述語である「hold」のノードが元になり、この「hold」のノードが、辺を介した他の単語のノードと接続されたDCS木となっている。
図4の例の場合についても、それぞれの辺には、意味役割を示す記号が付加される。例えば、「hold」と主語である「IAEA」とを接続する辺には、主語を示す記号「SBJ」が付加される。また、「hold」と「meeting」とを接続する辺には、「meeting」が「hold」の対象であることを示す記号「OBJ」が付加される。さらに、「meeting」と「Vienna」とを接続する辺には、「Vienna」が場所を示す単語であることを示す記号「LOC」が付加される。また、それぞれの辺には、変数を示す記号「ARG」が付加される。
この2つの自然言語文T,Hを代数形式で示したとき、以下のようになる。
自然言語文T
“meet”∩{(“watchdog”∩“IAEA”)דVienna”דSeptember 19 ”}≠0
自然言語文H
“hold”∩{“IAEA”×πARG(“meeting”∩(WדVienna”))}≠0
この代数形式の論理式において、図3,図4のDCS木に付加された記号から、以下の条件が設定される。
・“watchdog”⊂WARG
・“IAEA”⊂WARG
・“Vienna”⊂WARG
・“September 19 ”⊂WARG
・“meet”⊂WARG×WLOC×WTIME
・“meeting”⊂WARG×WLOC
ここで、言語知識リソース部20などから言語知識を得ることで、“meet”⇒“hold meeting”の関係を取得したとする。つまり、“meet”は、“hold meeting”と意味的に関係を持つことが、言語知識から判るとする。
これは、代数形式で以下のように表現される。
∀x,πLOC(“meet”∩(x×WLOC×WTIME))⊂
πLOC(“meeting”∩{πOBJ(“hold” ∩(x“meeting”))×WLOC})
推論エンジン部15では、このような代数形式の論理式を公理と言語知識を使うことで、含意関係の判断ができる。すなわち、代数形式の文Tと公理と言語知識を使うことで、代数形式の文Hから、次のような表現ができる。
・(“watchdog” ∩“IAEA”)⊂“IAEA” [公理19に基づく]
・“Vienna”⊂W、“September 19 ”⊂W [公理2に基づく]
よって、次のようになる。
・“IAEA”דVienna” דSeptember 19 ”⊂“IAEA” ×W×W[公理15に基づく]
さらに、公理4,19,20に基づくことで、次のように示される。
・“meet”∩{(“watchdog” ∩“IAEA”)דVienna”דSeptember 19 ”}
⊂“meet” ∩(“IAEA”×W×W)
ここで、この式の左辺をP,右辺をQとおくと、公理18に基づいて、πLOC(P)⊂πLOC(Q)となる。
これに言語知識と公理4を適用することで、
・πLOC(Q)⊂
πLOC(“meeting”∩{πOBJ(“hold”∩(“IAEA”דmeeting”))×WLOC})
この式の右辺をRとおく。
公理13と公理19とより、
・πLOC(P)⊂“Vienna”
公理20より、
・πLOC(P)⊂“Vienna” ∩R
公理24と式Tとより、
・πLOC(P)≠0
よって、公理6に基づき、
・Vienna” ∩R≠0
一方、公理12と公理13と公理14とに基づいて、以下の式が得られる。
・“Vienna”∩R=
πLOC(“meeting”∩{πOBJ(“hold”∩(“IAEA”דmeeting”))דVienna”})
この式において、右辺は公理6より空集合ではない。
よって、公理24と公理19と公理6より、下記のようになる。
・πLOC( “hold”∩(“IAEA”דmeeting”))דVienna”≠0
さらに、公理13と公理24と公理14とより、
・“hold”∩{“IAEA”×πARG(“meeting”∩(WדVienna”))}≠0
以上の公理を適用した推論処理が行われることで、その推論結果から、分類部17では、自然言語文Tと自然言語文Hとについて含意関係ありと判断される。
[5.具体的な処理例(含意関係なしの例)]
次に、含意関係なしと判定される2つの自然言語文T,Hの例を、図5および図6を参照して説明する。
ここでの2つの自然言語文T,H
は、以下の英文である。
自然言語文T
Jack Straw, the Foreign Secretary, will meet his Brazilian counterpart,Celso Amorim, in London today.
自然言語文H
Jack Straw is a partner of Celso Amorim.
図5は、自然言語文HをDCS木で示したものである。この図6に示す例では、文Hの述語である「meet」のノードが元になり、この「meet」のノードが、辺を介した他の単語のノードと接続されたDCS木となっている。
図6は、自然言語文TをDCS木で示したものである。この図5に示す例では、文Tの述語である「partner」のノードが元になり、この「partner」のノードが、辺を介した他の単語のノードと接続されたDCS木となっている。
この2つの自然言語文T,Hを代数形式で示したとき、以下のようになる。
自然言語文T
“meet”∩{(“Jack Straw”∩“Foreign Secretary”)×πARG(S)×today”}≠0
自然言語文H
“partner”∩(“Jack Straw”דCelso Amorim”)≠0
なお、文Tの代数形式のSは、以下のように定義される。
S=“counterpart”∩{“Celso Amorim”×(“his”∩“Brazilian”)דLondon”}
である。
この代数形式の論理式において、文Tと文Hについて、次のような知識を仮定したとき、文Tから文Hの含意関係の有無を認識できる。
∀x,πOBJ(“meet”∩(x×WOBJ))⊂πPOSS(“partner”∩(x×WPOSS))
∀y,πSBJ(“meet”∩(WSBJ×y))⊂πARG(“partner”∩(WARG×y))
この2つの式は、「x−“meet”−y⇒x−“partner”−y」に対応する知識を示している。ここでの∀xや∀yは、要素xや要素yが、それぞれの式で示される条件が成立することを仮定することを示す。
このように、本例のシステムでは、推論エンジン部15での推論結果と表現アライメント部16でのアライメント処理により、2つの文Tから文Hのそれぞれから、一番重要な部分を探し出す処理が行われる。一番重要な部分とは、つまり、言語知識を使った仮定により文Tから文Hを証明できるような部分である。
このようにして生成された知識である「x−“meet”−y⇒x−“partner”−y」は、表現アライメント部16から分類部17に送られる。そして、分類部17で、この知識「x−“meet”−y⇒x−“partner”−y」の妥当性が判断される。ここで、分類部17は、言語知識リソース部20から取得した言語知識で、単語“meet”と単語“partner”とが類似していないと判断する。この類似なしとの判断を結果生成部18が取得することで、結果生成部18は、文Hが文Tから含意されないとの結果を生成し、含意されないとの結果が出力部19から出力される。
[6.具体的な処理例(全称量化子マークがつけられる場合の例)]
次に、DCS木に全称量化子マークがつけられる場合の例を、図7を参照して説明する。この例は、以下の2つの日本語の自然言語文T,Hの例である。この例では、文Tが文Hを含意する場合の例である。
自然言語文T
すべての子供に愛されるチョコレートは苺味。
自然言語文H
子供の太郎は苺味のチョコレートを愛する。
この自然言語文Tと自然言語文HのDCS木を、図7に示す。自然言語文TのDCS木は、「苺味」のノードが一番上になり、「苺味」のノードに「チョコレート」が接続され、さらに、「チョコレート」のノードに「愛する」のノードが接続され、「愛する」のノードに「子供」のノードが接続される。そして、「愛する」のノードと「子供」のノードを接続する辺に、全称量化子マークqallが付与されている。すなわち、自然言語文TのDCS木は、「苺味」、「チョコレート」、「愛する」が直列に接続しているから対する代数表現は”苺味”、”チョコレート”、q(”愛する”,”子供")の三つの交わりになっている。
また、自然言語文HのDCS木は、「愛する」のノードが一番上になり、「太郎」と「子供」のノードが「愛する」のノードに順に接続されると共に、「チョコレート」と「苺味」のノードが「愛する」のノードに順に接続される。すなわち、自然言語文HのDCS木は、二つの枝 「子供ー太郎」と「苺味ーチョコレート」が並列になっているから、対応する代数形式では(“太郎”∩“子供”)と(“チョコレート”∩“苺味”)の直積になっている。
自然言語文T,Hの意味を表現する代数形式は、以下のようになる。
自然言語文T
“苺味”∩“チョコレート”∩q all(“愛する”,“子供”)≠0
自然言語文H
“愛する”∩{(“太郎”∩“子供”)×(“チョコレート”∩“苺味”)}≠0
ここで、以下のような条件が設定される。
・“子供”⊂ WARG
・“太郎”⊂ WARG
・“苺味”⊂ WARG
・“チョコレート”⊂ WARG
・“愛する”⊂ WSBJ×WOBJ
このとき、公理及び「子供の太郎が存在する」に対応する条件“太郎”∩“子供” ≠0を使って、文Tから文Hが含意されることについて、次のように証明できる。
・“子供”× q all(“愛する”,“子供”)⊂(“愛する”) [公理21より]
・{(“太郎” ∩“子供”)×(“チョコレート”∩“苺味”)}を、上式の両辺と交わりをとって、公理19,公理15,公理4を適用することで、
・(“子供”∩“太郎”)×{“苺味”∩“チョコレート”∩q all(“愛する”,“子供”)}⊂“愛する”∩{(“太郎”∩“子供”)×(“チョコレート”∩“苺味”)}
・文Tより“苺味”∩“チョコレート”∩q all(“愛する”,“子供”) ≠0
・条件より“太郎” ∩“子供” ≠0
・よって、公理23および公理6より、
“愛する” ∩{(“太郎” ∩“子供”)×(“チョコレート”∩“苺味”)}≠0
したがって、文Tが文Hを含意することが証明される。
以上説明したように本例の自然言語推論システムで推論処理を行うことで、高速かつ良好に2つの自然言語文の含意関係を認識できるようになる。すなわち、自然言語文が持つ意味の空間を、DCS木のデータが持つ一階述語論理系から代数形式で示された代数系に制限することで、推論エンジン部15での推論処理が高速で行えるようになる。また、代数形式で示された代数系に制限することで、論理的な意味空間と自然言語との間の直接的なマッピングを得ることができ、言語知識が不足している場合でも精度を落とさずに含意関係の判断ができるようになる。すなわち、本例の自然言語推論システムによると、例えば言語知識リソース部20が持つ知識が、比較的情報量が少ない場合でも、精度の高い含意関係の判定ができるようになる。
この直接的なマッピングを得ることができる点についてより詳しく説明すると、本例の自然言語推論システムでの代数形式変換部で代数形式のデータに変換する際には、上述した各例のような比較的単純な文だけでなく複雑な文であっても、すべて解析されてどんなDCS木に対してもその意味を表す代数形式が自動的に生成される。そして、「論理的な意味空間と自然言語との間の直接的なマッピング」とは、このような類似性であり、代数形式の推論処理は高速に行える一方、DCS木は自然言語に近い形なので言語知識を使って生成できる、という利点を有し、複雑な自然言語文の含意関係の判定が簡単に精度良くできるようになるという効果を有する。
[7.変形例]
なお、ここまでの実施の形態の例で説明したDCS木の生成処理や、代数形式に変換する際に適用する公理などは、一例を示したものであり、それぞれの例で示したものに限定されるものではない。例えば、DCS木以外の木構造データを生成する木構造データ生成部を用意して、本例の自然言語推論システムに適用してもよい。
また、図1に示した自然言語推論システムの構成についても、一例を示したものであり、その他の構成で同様の処理を行うようにしてもよい。例えば、言語知識リソース部20は、言語知識を記憶したデータベース部としたが、自然言語推論システムを構成するコンピュータが、インターネットなどを経由して、外部のサーバとアクセスして、言語知識を取得するようにしてもよい。
すなわち、例えば図8に示すように、自然言語推論システムとして作動するプログラムが実装されたコンピュータ装置1を用意する。このコンピュータ装置1には、例えば表示部2やキーボード3を接続する。このように接続したキーボード3でユーザが自然言語文の入力を行うことで、表示部2が含意関係の判定結果を表示するようになる。
ここで、コンピュータ装置1が何らかのネットワーク4を経由して、サーバ5にアクセスして、サーバ5側に用意された言語知識のデータベースを参照することで、コンピュータ装置1が言語知識を取得するようにしてもよい。
あるいは、コンピュータ装置1は、含意関係の判定を行う2つの自然言語文の入力と判定結果の出力だけを行い、含意関係の判定に必要な演算処理の全てまたは一部を、サーバ5が行うようにしてもよい。
また、自然言語推論システムとして作動するコンピュータは、どのような形態の情報処理装置でもよい。例えば、スマートフォンと称されるアプリケーションプログラムの実装が可能な端末装置に、本例の自然言語推論処理を実行するプログラムを実装して、含意関係の推論処理を行うようにしてもよい。
1…コンピュータ装置、2…表示部、3…キーボード、4…ネットワーク、5…サーバ、11…入力部、12…構文解析部、13…DSC木生成部、14…代数形式変換部、15…推論エンジン部、16…表現アライメント部、17…分類部、18…結果生成部、19…出力部、20…言語知識リソース部

Claims (3)

  1. コンピュータが持つ演算処理機能により自然言語の推論を行う自然言語推論システムであり、
    前記コンピュータの演算処理機能として構成される処理部は、
    複数の単語よりなるテキスト文に含まれる述語を判断する処理を含む構文解析を行う構文解析部と、
    前記構文解析部での構文解析の結果に基づいて、前記述語となる単語を中心として、前記述語と前記テキスト文内の他の単語を、前記単語の意味役割を示す記号を付加した辺で接続して自然言語文の論理的な構造を示す木構造のデータとする木構造データ生成部と、
    前記木構造データ生成部が生成した第1のテキスト文の木構造のデータ及び第2のテキスト文の木構造のデータを、論理演算子で関係づけられた代数形式のデータに個別に変換する代数形式変換部と、
    前記代数形式変換部で変換された、前記第1のテキスト文の代数形式のデータと、前記第2のテキスト文の代数形式のデータとの相違を比較するために、少なくとも一方の代数形式のデータを変形する推論処理を書き換え規則である公理に基づいて行う推論処理部と、
    前記推論処理部で推論した結果としての前記第1のテキスト文の代数形式のデータと前記第2のテキスト文の代数形式のデータとを比較して、含意関係の有無を判断するために、前記第1のテキスト文の木構造データの中心となる述語が含まれる候補部分と、前記第2のテキスト文の木構造データの中心となる述語が含まれる候補部分を探し出すアライメント処理部と、
    前記アライメント処理部で探し出された前記第1のテキスト文の述語が含まれる候補部分の単語と前記第2のテキスト文の述語が含まれる候補部分の単語との類似度を、言語知識リソース部に蓄積された言語知識を用いて判定する分類部と、
    前記分類部で判定された類似度に基づいて、前記第1のテキスト文と前記第2のテキスト文との含意関係の判定結果を出力する出力部と、を備える
    自然言語推論システム。
  2. コンピュータが持つ演算処理機能により自然言語の推論を実行する自然言語推論方法であり、
    複数の単語よりなるテキスト文に含まれる述語を判断する処理を含む構文解析を行うステップと、
    前記構文解析の結果に基づいて、前記述語となる単語を中心として、前記述語と前記テキスト文内の他の単語を、前記単語の意味役割を示す記号を付加した辺で接続して自然言語文の論理的な構造を示す木構造のデータとするステップと、
    前記木構造のデータとするステップで得られた、第1のテキスト文の木構造のデータ及び第2のテキスト文の木構造のデータを、論理演算子で関係づけられた代数形式のデータに個別に変換するステップと、
    前記変換するステップで変換された、前記第1のテキスト文の代数形式のデータと、前記第2のテキスト文の代数形式のデータとの相違を比較するために、少なくとも一方の代数形式のデータを変形する推論処理を書き換え規則である公理に基づいて行うステップと、
    前記推論処理で推論した結果としての前記第1のテキスト文の代数形式のデータと前記第2のテキスト文の代数形式のデータとを比較して、含意関係の有無を判断するために、前記第1のテキスト文の木構造データの中心となる述語が含まれる候補部分と、前記第2のテキスト文の木構造データの中心となる述語が含まれる候補部分を探し出すアライメント処理を行うステップと、
    前記アライメント処理で探し出された前記第1のテキスト文の述語が含まれる候補部分の単語と前記第2のテキスト文の述語が含まれる候補部分の単語との類似度を、言語知識リソース部に蓄積された言語知識を用いて判定するステップと、
    前記判定するステップで得られた類似度に基づいて、前記第1のテキスト文と前記第2のテキスト文との含意関係の判定結果を出力するステップと、を含む
    自然言語推論方法。
  3. コンピュータにテキスト文の含意関係の判定を実行させるためのプログラムであり、
    前記コンピュータが持つ演算処理機能により自然言語の推論をプログラムが実行するための手順として、
    複数の単語よりなるテキスト文に含まれる述語を判断する処理を含む構文解析を行う手順と、
    前記構文解析の結果に基づいて、前記述語となる単語を中心として、前記述語と前記テキスト文内の他の単語を、前記単語の意味役割を示す記号を付加した辺で接続して自然言語文の論理的な構造を示す木構造のデータとする手順と、
    前記木構造のデータとする手順で得られた、第1のテキスト文の木構造のデータ及び第2のテキスト文の木構造のデータを、論理演算子で関係づけられた代数形式のデータに個別に変換する手順と、
    前記変換する手順で変換された、前記第1のテキスト文の代数形式のデータと、前記第2のテキスト文の代数形式のデータとの相違を比較するために、少なくとも一方の代数形式のデータを変形する推論処理を書き換え規則である公理に基づいて行う手順と、
    前記推論する手順で推論した結果としての前記第1のテキスト文の代数形式のデータと前記第2のテキスト文の代数形式のデータとを比較して、含意関係の有無を判断するために、前記第1のテキスト文の木構造データの中心となる述語が含まれる候補部分と、前記第2のテキスト文の木構造データの中心となる述語が含まれる候補部分を探し出すアライメント処理を行う手順と、
    前記アライメント処理で探し出された前記第1のテキスト文の述語が含まれる候補部分の単語と前記第2のテキスト文の述語が含まれる候補部分の単語との類似度を、言語知識リソース部に蓄積された言語知識を用いて判定する手順と、
    前記判定する手順で得られた類似度に基づいて、前記第1のテキスト文と前記第2のテキスト文との含意関係の判定結果を出力する手順と、をコンピュータに実行させるための
    プログラム。
JP2013108335A 2013-05-22 2013-05-22 自然言語推論システム、自然言語推論方法及びプログラム Expired - Fee Related JP6327799B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013108335A JP6327799B2 (ja) 2013-05-22 2013-05-22 自然言語推論システム、自然言語推論方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013108335A JP6327799B2 (ja) 2013-05-22 2013-05-22 自然言語推論システム、自然言語推論方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2014229078A JP2014229078A (ja) 2014-12-08
JP6327799B2 true JP6327799B2 (ja) 2018-05-23

Family

ID=52128872

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013108335A Expired - Fee Related JP6327799B2 (ja) 2013-05-22 2013-05-22 自然言語推論システム、自然言語推論方法及びプログラム

Country Status (1)

Country Link
JP (1) JP6327799B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6726638B2 (ja) * 2017-05-11 2020-07-22 日本電信電話株式会社 含意認識装置、方法、及びプログラム
JP7088490B2 (ja) * 2018-05-21 2022-06-21 日本電信電話株式会社 文比較装置、方法、及びプログラム
CN111353305A (zh) * 2018-12-21 2020-06-30 核动力运行研究所 基于自然语言识别的规程自动化执行方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000125197A (ja) * 1998-10-13 2000-04-28 Sony Corp 画像生成方法及び装置
CN103221947B (zh) * 2011-10-20 2016-05-25 日本电气株式会社 文本含意辨认装置、文本含意辨认方法和计算机可读记录介质

Also Published As

Publication number Publication date
JP2014229078A (ja) 2014-12-08

Similar Documents

Publication Publication Date Title
US10262062B2 (en) Natural language system question classifier, semantic representations, and logical form templates
KR101306667B1 (ko) 지식 그래프 정제 장치 및 방법
US10671929B2 (en) Question correction and evaluation mechanism for a question answering system
US9607035B2 (en) Extensible validation framework for question and answer systems
US9448995B2 (en) Method and device for performing natural language searches
US9373075B2 (en) Applying a genetic algorithm to compositional semantics sentiment analysis to improve performance and accelerate domain adaptation
US9147007B2 (en) Query expression conversion apparatus, query expression conversion method, and computer program product
KR101107760B1 (ko) 지능형 질의 응답 검색 시스템 및 방법
US11170660B2 (en) Harvesting question/answer training data from watched hypotheses in a deep QA system
US10140272B2 (en) Dynamic context aware abbreviation detection and annotation
KR102491172B1 (ko) 자연어 질의응답 시스템 및 그 학습 방법
US10503830B2 (en) Natural language processing with adaptable rules based on user inputs
JP2020509486A (ja) 適応可能な処理コンポーネント
US9697099B2 (en) Real-time or frequent ingestion by running pipeline in order of effectiveness
US9720962B2 (en) Answering superlative questions with a question and answer system
US10282678B2 (en) Automated similarity comparison of model answers versus question answering system output
US10628749B2 (en) Automatically assessing question answering system performance across possible confidence values
Albarghothi et al. Arabic question answering using ontology
US20220414463A1 (en) Automated troubleshooter
US20170124475A1 (en) Cognitive Visual Debugger that Conducts Error Analysis for a Question Answering System
JP6327799B2 (ja) 自然言語推論システム、自然言語推論方法及びプログラム
Zhang et al. Automatically reproducing android bug reports using natural language processing and reinforcement learning
JP2008021270A (ja) データ変換装置および方法、データベース管理装置および方法、ならびにデータベース検索システムおよび方法
JP7114433B2 (ja) 名称マッチング装置及び方法
KR20120070713A (ko) 자연어 및 수식 색인화 방법과 그를 위한 장치 및 컴퓨터로 읽을 수 있는 기록매체

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160329

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20161228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170207

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170407

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170905

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171013

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180410

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180417

R150 Certificate of patent or registration of utility model

Ref document number: 6327799

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees