JP2018036725A

JP2018036725A - 整合性判定装置、方法、及びプログラム

Info

Publication number: JP2018036725A
Application number: JP2016167248A
Authority: JP
Inventors: 東中　竜一郎; Ryuichiro Higashinaka; 竜一郎東中; 弘晃杉山; Hiroaki Sugiyama; 貴之堯天; Takayuki Gyoten; 佳文植田; Yoshifumi Ueda; 博順平; Hiroyori Taira
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2016-08-29
Filing date: 2016-08-29
Publication date: 2018-03-08
Anticipated expiration: 2036-08-29
Also published as: JP6665061B2

Abstract

【課題】精度よく文章間の整合性を判定することができる。【解決手段】文類似度算出部４０が、二つの文章のうちの一方の文章の文の各々と、二つの文章のうちの他方の文章の文の各々との組み合わせの各々について、照応解析結果と、否定表現の判定結果と、推量表現の判定結果とに基づいて、文の類似度を算出する。ＰＡＳ類似度算出部４２が、一方の文章の文の各々について得られた述語項構造と、他方の文章の文の各々について得られた述語項構造との組み合わせの各々について、照応解析結果と、否定判定部３６の判定結果と、推量判定部３８の判定結果とに基づいて、述語項構造の類似度を算出する。類似度統合部４４が、算出された文の類似度と、算出された述語項構造の類似度とを統合し、二つの文章間の整合性を判定する。【選択図】図１

Description

本発明は、整合性判定装置、方法、及びプログラムに係り、特に、入力された二つの文章間の整合性を判定する整合性判定装置、方法、及びプログラムに関する。

ある文章Ａが与えられたとき、別の文章ＢがＡの内容と整合しているかを判定することは重要な課題である。このような判定ができれば、大規模な文書集合から、ある文が表す内容の真偽を自動的に確かめることができたり、ある文章について、人間が書いた要約文が誤っていないかといった自動的なチェックにも用いることができる。あるテキストＴ（テキスト）が与えられた時、別のテキストＨ（仮説、ｈｙｐｏｔｈｅｓｉｓ）の内容を導くことができるかどうかという課題を含意関係認識という。文章の整合性判定は含意関係認識と近いものである。含意関係認識は、海外ではＰＡＳＣＡＬＣｈａｌｌｅｎｇｅ（非特許文献１）、国内ではＲＩＴＥ（非特許文献２）という評価型ワークショップも開催され、様々な手法が検討されてきた。

Dagan, Ido, Oren Glickman, and Bernardo Magnini. "The PASCAL recognising textual entailment challenge." Machine learning challenges. evaluating predictive uncertainty, visual object classication, and recognising tectual entailment.Springer Berlin Heidelberg, 2006. 177-190. Watanabe, Yotaro, et al. "Overview of the Recognizing Inference in Text (RITE-2) at NTCIR-10." NTCIR. 2013.

しかしながら、文章の整合性は必ずしも含意関係のみで決まるわけではない。含意関係では、Ｔから論理的にＨを帰結として導くことが出来るかが問題になるのに対し、整合性の場合は、その他の関係性も含みうる。たとえば、一方の文章がもう一方の一般化についてであったり、例示になっていたり、想像できる内容（必ずしも真ではない）であったりと、様々な場合が考えられる。よって、整合性判定は含意認識より範囲が広く、一般により難しいタスクと言える。

整合性判定において、二つの文章の意味内容を比較する際、最も広く用いられる手法は、二つの文章の単語の重複度合い、もしくは、単語の意味的類似度を計算し、十分（ある閾値以上）重複していると考えられる時は、整合性ありと判定するものである。

しかし、単語の重複や意味的類似度に着目するだけでは、大きく意味を変える（もしくは反転させる）単語が一方に含まれている場合に問題が起きる。たとえば、“Ｉｇｏｔｏｔｈｅｍｏｖｉｅｓ”と“Ｉｎｅｖｅｒｇｏｔｏｔｈｅｍｏｖｉｅｓ”という二文は全く逆の意味を持つが、単語に基づく意味的類似性は高い。よって、この例のように、否定を表す単語（ｎｅｖｅｒ）が一方に入っている場合、判定を誤ってしまう。また、“Ｉｇｏｔｏｔｈｅｍｏｖｉｅｓ”と“Ｉｍａｙｇｏｔｏｔｈｅｍｏｖｉｅｓ”においては、一方に推量を表す単語（ｍａｙ）が入っているが、「映画に行く」と「映画に行くかも知れない」は排他的なものではなく、整合性に影響を与えない可能性がある。しかし、単語の重複や意味的類似度は下がるため、全体として整合性を下げてしまう。

このように、否定や推量が文内に含まれる場合、従来の手法では、整合性判定が適切に行われない場合がある。

また、単語の重複や意味的類似度を比較する場合、主語や目的語といった文法機能を区別しないと、整合性の見積もりを誤ってしまうという問題もある。たとえば、“ｃａｔｓｌｉｋｅｄｏｇｓ”と“ｄｏｇｓｌｉｋｅｃａｔｓ”は異なる意味を持つが、単語の重複や意味的類似度は非常に近いため、整合性の観点からは誤った判定をしてしまう。

本発明は、上記問題点を解決するために成されたものであり、精度よく文章間の整合性を判定することができる整合性判定装置、方法、及びプログラムを提供することを目的とする。

上記目的を達成するために、第１の発明に係る整合性判定装置は、入力された二つの文章間の整合性を判定する整合性判定装置であって、前記二つの文章に含まれる文の各々について、述語項構造解析を行って述語項構造を得る述語項構造解析部と、前記二つの文章のうちの一方の文章の文の各々と、前記二つの文章のうちの他方の文章の文の各々との組み合わせの各々について、文の類似度を算出する文類似度算出部と、前記一方の文章の文の各々について得られた述語項構造と、前記他方の文章の文の各々について得られた述語項構造との組み合わせの各々について、述語項構造の類似度を算出するＰＡＳ類似度算出部と、前記文類似度算出部によって算出された前記文の類似度と、前記ＰＡＳ類似度算出部によって算出された前記述語項構造の類似度とを統合し、前記二つの文章間の整合性を判定する類似度統合部と、を含んで構成されている。

また、第１の発明に係る整合性判定装置において、前記二つの文章に含まれる前記文の各々について、否定表現が含まれているか否かを判定する否定判定部を更に含み、前記否定判定部による判定結果に基づいて、前記文類似度算出部による文の類似度、又は前記ＰＡＳ類似度算出部による述語項構造の類似度の算出が行われるようにしてもよい。

また、第１の発明に係る整合性判定装置において、前記二つの文章に含まれる前記文の各々について、推量表現が含まれているか否かを判定する推量判定部を更に含み、前記推量判定部による判定結果に基づいて、前記文類似度算出部による文の類似度、又は前記ＰＡＳ類似度算出部による述語項構造の類似度の算出が行われるようにしてもよい。

また、第２の発明に係る整合性判定装置は、入力された二つの文章間の整合性を判定する整合性判定装置であって、前記二つの文章に含まれる文の各々について、否定表現が含まれているか否かを判定する否定判定部と、前記二つの文章のうちの一方の文章の文の各々と、前記二つの文章のうちの他方の文章の文の各々との組み合わせの各々について、前記否定判定部による判定結果に基づいて、文の類似度を算出する文類似度算出部と、を含んで構成されている。

また、第３の発明に係る整合性判定装置は、入力された二つの文章間の整合性を判定する整合性判定装置であって、前記二つの文章に含まれる文の各々について、推量表現が含まれているか否かを判定する推量判定部と、前記二つの文章のうちの一方の文章の文の各々と、前記二つの文章のうちの他方の文章の文の各々との組み合わせの各々について、前記推量判定部による判定結果に基づいて、文の類似度を算出する文類似度算出部と、を含んで構成されている。

また、第４の発明に係る整合性判定装置は、入力された二つの文章間の整合性を判定する整合性判定装置であって、前記二つの文章に含まれる文の各々について、否定表現が含まれているか否かを判定する否定判定部と、前記二つの文章に含まれる文の各々について、推量表現が含まれているか否かを判定する推量判定部と、前記二つの文章のうちの一方の文章の文の各々と、前記二つの文章のうちの他方の文章の文の各々との組み合わせの各々について、前記否定判定部による判定結果と、前記推量判定部による判定結果とに基づいて、文の類似度を算出する文類似度算出部と、を含んで構成されている。

また、第５の発明に係る整合性判定装置は、入力された二つの文章間の整合性を判定する整合性判定装置であって、前記二つの文章に含まれる文の各々について、述語項構造解析を行って述語項構造を得る述語項構造解析部と、前記二つの文章に含まれる前記文の各々について、否定表現が含まれているか否かを判定する否定判定部と、前記二つの文章のうちの一方の文章の文の各々について得られた述語項構造と、前記二つの文章のうちの他方の文章の文の各々について得られた述語項構造との組み合わせの各々について、前記否定判定部による判定結果に基づいて、述語項構造の類似度を算出するＰＡＳ類似度算出部と、を含んで構成されている。

また、第６の発明に係る整合性判定装置は、入力された二つの文章間の整合性を判定する整合性判定装置であって、前記二つの文章に含まれる文の各々について、述語項構造解析を行って述語項構造を得る述語項構造解析部と、前記二つの文章に含まれる前記文の各々について、推量表現が含まれているか否かを判定する推量判定部と、前記二つの文章のうちの一方の文章の文の各々について得られた述語項構造と、前記二つの文章のうちの他方の文章の文の各々について得られた述語項構造との組み合わせの各々について、前記推量判定部による判定結果に基づいて、述語項構造の類似度を算出するＰＡＳ類似度算出部と、を含んで構成されている。

また、第７の発明に係る整合性判定装置は、入力された二つの文章間の整合性を判定する整合性判定装置であって、前記二つの文章に含まれる文の各々について、述語項構造解析を行って述語項構造を得る述語項構造解析部と、前記二つの文章に含まれる前記文の各々について、否定表現が含まれているか否かを判定する否定判定部と、前記二つの文章に含まれる前記文の各々について、推量表現が含まれているか否かを判定する推量判定部と、前記二つの文章のうちの一方の文章の文の各々について得られた述語項構造と、前記二つの文章のうちの他方の文章の文の各々について得られた述語項構造との組み合わせの各々について、前記否定判定部による判定結果と、前記推量判定部による判定結果とに基づいて、述語項構造の類似度を算出するＰＡＳ類似度算出部と、を含んで構成されている。

また、第１の発明に係る整合性判定装置は、前記二つの文章の各々に含まれる参照表現が参照する参照先の表現を取得する照応解析部を更に含み、前記文類似度算出部は、前記参照表現を照応解析部によって取得した前記参照先の表現に置き換えて文の類似度を算出し、前記ＰＡＳ類似度算出部は、前記参照表現を照応解析部によって取得した前記参照先の表現に置き換えて述語項構造の類似度を算出するようにしてもよい。

また、第１又は第４の発明に係る整合性判定装置において、前記文類似度算出部は、以下（１）式に従って、前記一方の文章の文ｓ１と、前記他方の文章の文ｓ２との組み合わせについて、文の類似度を算出するようにしてもよい。
・・・（１）
ただし、ｓｅｎｔｓｉｍは前記文の類似度を返す関数であり、ｃｏｓは二つのベクトルに対するコサイン類似度を返す関数であり、ｖｅｃは文をベクトルに変換する関数であり、ｕｎｍａｔｃｈは二つの引数が一致しないときに１を返す関数であり、ｎｅｇは文に否定表現が含まれる場合に１を返し、否定表現が含まれない場合に−１を返す関数であり、ｓｐｅｃは文に推量表現が含まれる場合に１を、推量表現が含まれない場合に−１を返す関数であり、α及びβは予め定められた重みである。

また、第１又は第７の発明に係る整合性判定装置において、前記ＰＡＳ類似度算出部は、以下（２）式に従って、前記一方の文章の文について得られた述語項構造ｐａｓ１と、前記他方の文章の文について得られた述語項構造ｐａｓ２との組み合わせについて、述語項構造の類似度を算出するようにしてもよい。

・・・（２）
ただし、ｐａｓｓｉｍは前記述語項構造の類似度を返す関数であり、ｒｏｌｅｓは二つの述語項構造間で共通する意味役割の集合を返す関数であり、ｃｏｓは二つのベクトルに対するコサイン類似度を返す関数であり、ｗｏｒｄｖｅｃは述語項構造と意味役割を入力とし、前記述語項構造における前記意味役割に対応する単語のベクトルを返す関数であり、ｕｎｍａｔｃｈは二つの引数が一致しないときに１を返す関数であり、ｐａｓｎｅｇは、述語項構造に対応する単語からなる単語列に含まれる否定表現の有無を表し、ｐａｓｓｐｅｃは、述語項構造に含まれる単語からなる単語列に対応する推量表現の有無を表し、γ及びδは予め定められた重みである。

第８の発明に係る整合性判定方法は、入力された二つの文章間の整合性を判定する整合性判定装置における整合性判定方法であって、述語項構造解析部が、前記二つの文章に含まれる文の各々について、述語項構造解析を行って述語項構造を得るステップと、文類似度算出部が、前記二つの文章のうちの一方の文章の文の各々と、前記二つの文章のうちの他方の文章の文の各々との組み合わせの各々について、文の類似度を算出するステップと、ＰＡＳ類似度算出部が、前記一方の文章の文の各々について得られた述語項構造と、前記他方の文章の文の各々について得られた述語項構造との組み合わせの各々について、述語項構造の類似度を算出するステップと、類似度統合部が、前記文類似度算出部によって算出された前記文の類似度と、前記ＰＡＳ類似度算出部によって算出された前記述語項構造の類似度とを統合し、前記二つの文章間の整合性を判定するステップと、を含んで実行することを特徴とする。

第９の発明に係る整合性判定方法は、入力された二つの文章間の整合性を判定する整合性判定装置における整合性判定方法であって、否定判定部が、前記二つの文章に含まれる文の各々について、否定表現が含まれているか否かを判定するステップと、文類似度算出部が、前記二つの文章のうちの一方の文章の文の各々と、前記二つの文章のうちの他方の文章の文の各々との組み合わせの各々について、前記否定判定部による判定結果に基づいて、文の類似度を算出するステップと、を含んで実行することを特徴とする。

第１０の発明に係る整合性判定方法は、入力された二つの文章間の整合性を判定する整合性判定装置における整合性判定方法であって、推量判定部が、前記二つの文章に含まれる文の各々について、推量表現が含まれているか否かを判定するステップと、文類似度算出部が、前記二つの文章のうちの一方の文章の文の各々と、前記二つの文章のうちの他方の文章の文の各々との組み合わせの各々について、前記推量判定部による判定結果に基づいて、文の類似度を算出するステップと、を含んで実行することを特徴とする。

第１１の発明に係る整合性判定方法は、入力された二つの文章間の整合性を判定する整合性判定装置における整合性判定方法であって、述語項構造解析部が、前記二つの文章に含まれる文の各々について、述語項構造解析を行って述語項構造を得るステップと、否定判定部が、前記二つの文章に含まれる前記文の各々について、否定表現が含まれているか否かを判定するステップと、ＰＡＳ類似度算出部が、前記二つの文章のうちの一方の文章の文の各々について得られた述語項構造と、前記二つの文章のうちの他方の文章の文の各々について得られた述語項構造との組み合わせの各々について、前記否定判定部による判定結果に基づいて、述語項構造の類似度を算出するステップと、を含んで実行することを特徴とする。

第１２の発明に係る整合性判定方法は、入力された二つの文章間の整合性を判定する整合性判定装置における整合性判定方法であって、述語項構造解析部が、前記二つの文章に含まれる文の各々について、述語項構造解析を行って述語項構造を得るステップと、推量判定部が、前記二つの文章に含まれる前記文の各々について、推量表現が含まれているか否かを判定するステップと、ＰＡＳ類似度算出部が、前記二つの文章のうちの一方の文章の文の各々について得られた述語項構造と、前記二つの文章のうちの他方の文章の文の各々について得られた述語項構造との組み合わせの各々について、前記推量判定部による判定結果に基づいて、述語項構造の類似度を算出するステップと、を含んで実行することを特徴とする。

第１３の発明に係るプログラムは、コンピュータを、第１〜第７の発明に係る整合性判定装置の各部として機能させるためのプログラムである。

本発明の整合性判定装置、方法、及びプログラムによれば、二つの文章に含まれる文の各々について、述語項構造解析を行って述語項構造を得て、二つの文章のうちの一方の文章の文の各々と、二つの文章のうちの他方の文章の文の各々との組み合わせの各々について、文の類似度を算出し、一方の文章の文の各々について得られた述語項構造と、他方の文章の文の各々について得られた述語項構造との組み合わせの各々について、述語項構造の類似度を算出し、算出された文の類似度と、算出された述語項構造の類似度とを統合し、二つの文章間の整合性を判定することにより、精度よく文章間の整合性を判定することができる、という効果が得られる。

本発明の実施の形態に係る整合性判定装置の構成を示すブロック図である。否定表現の判定結果の一例を示す図である。推量表現の判定結果の一例を示す図である。本発明の実施の形態に係る整合性判定装置における整合性判定処理ルーチンを示すフローチャートである。

以下、図面を参照して本発明の実施の形態を詳細に説明する。

＜本発明の実施の形態に係る整合性判定装置の構成＞

まず、本発明の実施の形態に係る整合性判定装置の構成について説明する。図１に示すように、本発明の実施の形態に係る整合性判定装置１００は、ＣＰＵと、ＲＡＭと、後述する整合性判定処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することが出来る。この整合性判定装置１００は、機能的には図１に示すように入力部１０と、演算部２０と、出力部５０とを備えている。

入力部１０は、整合性を判定する対象となる二つの文章を受け付ける。

演算部２０は、文分割部３０と、照応解析部３２と、述語項構造解析部３４と、否定判定部３６と、推量判定部３８と、文類似度算出部４０と、ＰＡＳ類似度算出部４２と、類似度統合部４４とを含んで構成されている。

文分割部３０は、入力部１０で受け付けた二つの入力文章を文の各々に分割する。文の分割は分割規則に基づいてもよいし、機械学習に基づく手法を用いてもよい。今回は英語の文分割のツールとして、ＳｔａｎｆｏｒｄＣｏｒｅＮＬＰというツールの文分割機能を用いている。文分割部は、入力文章について一つ以上の文を出力する。ＳｔａｎｆｏｒｄＣｏｒｅＮＬＰは英語圏における言語処理のツールとして標準的に用いられているものである。

照応解析部３２は、入力部１０で受け付けた二つの入力文章の各々について、当該入力文章の照合解析を行って、当該入力文章に含まれる参照表現が参照する参照先の表現を取得し、照応解析結果とする。

例えば、ｈｅやｓｈｅといった参照表現が具体的に文章中のどの要素に対応するのかを見つける。ここでも、ＳｔａｎｆｏｒｄＣｏｒｅＮＬＰ（手作業による規則を多段に用いる手法が用いられている）を用いる。参照先が複数単語からなる場合は、主要素とされる主辞の単語を用いる。

なお、ｎｏｎ−ｒｅｆｅｒｅｎｔｉａｌの“ｉｔ”という現象がある。これは、“ｉｔｉｓｐｏｓｓｉｂｌｅｔｈａｔｈｅｍａｙｃｏｍｅ”といった文に見られるように、ｉｔが具体的なものを指すのではなく、いわゆる仮主語として用いられる場合である。このような場合は、ｉｔは参照先なしとみなすことが妥当である。よって、そのようなｉｔについては、前段で対応する単語を得ていた場合、参照先を「なし」と修正する。このような“ｉｔ”を特定する手法はいくつか提案されており、ここでは、以下の非特許文献３の手法を用いて特定する。

非特許文献３：Bergsma, Shane, and David Yarowsky. "NADA: A robust system for non-referential pronoun detection." Anaphora Processing and Applications. Springer Berlin Heidelberg, 2011. 12-23.

述語項構造解析部３４は、以下に説明するように、入力部１０で受け付けた二つの文章に含まれる文の各々について、述語項構造解析を行って、当該文に含まれる述語項構造を得る。

述語項構造解析部３４では、ＳｅｍａｎｔｉｃＲｏｌｅＬａｂｅｌｉｎｇ（ＳＲＬ、意味役割付与）とも呼ばれる処理によって、文を解析して述語とそれにまつわる項（主語や目的語）の組を出力する。この組のことを、ｐｒｅｄｉｃａｔｅａｒｇｕｍｅｎｔｓｔｒｕｃｔｕｒｅ(ＰＡＳ、述語項構造）と呼ぶ。

ＳＲＬを行うためには、ＳｔａｎｆｏｒｄＣｏｒｅＮＬＰが文に対して出力する依存構造から、動詞とそれに対する主語、目的語関係にある単語を抽出したり、ＨＰＳＧ理論に基づく文法による手法（非特許文献４）を用いたりすればよい。ＳＲＬには標準的なフリーソフトも存在するのでツールとしてそれらを用いればよい。標準的なツールでは、ＰＡＳとしては様々な情報を出力することができるが、ここでは、述語（ｐｒｅｄと呼ぶ）、主語（ａｒｇ１と呼ぶ）、目的語（ａｒｇ２と呼ぶ）、その他２つまでの述語が取り得る格要素（ａｒｇ３、ａｒｇ４と呼ぶ。述語によって定義が異なる）の組を用いることとする。なお、ＰＡＳの抽出において、項となる単語が、複数単語からなる場合はその主辞を用いて代表させる。ｐｒｅｄ、ａｒｇ１−ａｒｇ４は意味役割（もしくは、意味スロット）とも呼ばれる。

非特許文献４：Yusuke Miyao et al. “Task-oriented Evaluation of Syntactic Parsers and Their Representations” In: ACL. 2008. p. 46-54.

例えば、“Ｉｈａｖｅａｐｅｎ”であれば、［ｐｒｅｄ＝ｈａｖｅ、ａｒｇ１＝Ｉ、ａｒｇ２＝ｐｅｎ、ａｒｇ３＝ｎｕｌｌ、ａｒｇ４＝ｎｕｌｌ］というＰＡＳを得る。ここで、ｎｕｌｌは対応する単語がないことを表す。“Ｉｇａｖｅｈｅｒａｐｒｅｓｅｎｔ”であれば、ＰＡＳは［ｐｒｅｄ＝ｇａｖｅ、ａｒｇ１＝Ｉ、ａｒｇ２＝ｈｅｒ、ａｒｇ３＝ｐｒｅｓｅｎｔ、ａｒｇ４＝ｎｕｌｌ］となる。最初の文において、ａｒｇ２＝ａｐｅｎとなっていないのは、主辞であるｐｅｎで代表させているからである。二つ目の文における、ａｒｇ３＝ｐｒｅｓｅｎｔとなっている理由も同様である。

否定判定部３６は、以下に説明するように、二つの文章に含まれる文の各々について、否定表現が含まれているか否かを判定する。

否定判定部３６では、文を解析し、否定が含まれているかどうかを判定し、その結果（二値）を出力する。本発明の実施の形態では、否定の判定に機械学習の手法を用いる。具体的には、否定が含まれている文と否定が含まれていない文を多数用意し、一般的な機械学習に基づく文書分類の手法を用いて、二値分類器を学習する。そして、この分類器に文を入力し、分類結果を得る。

本発明の実施の形態では、約３万文（否定が含まれる文５０００文、含まれない文２５０００文）の文章を学習データとして用意した。文を表す特徴量として、文中の単語ｕｎｉｇｒａｍ、ｂｉｇｒａｍ、ｔｒｉｇｒａｍの素性を用いた。すなわち、文にそれぞれの素性が存在すれば、その素性の値を１とした。学習手法としては、ロジスティック回帰を用い、１０分割交差検定で９６％の性能で二値分類ができる分類器を学習した。この分類器を用いて、入力文について、否定表現が含まれるか否かを判定する。

図２にいくつかの入力文に対する否定表現の判定結果の例を示す。最後のカラムが入力文を示す。そして、最初のカラムが判定結果を示している。−１は否定が含まれていないことを示しており、１は否定が含まれていることを示す。二つ目と三つ目のカラムはそれぞれ否定が含まれないことに関する確率、否定が含まれることに関する確率である。この確率に基づき、判定結果が得られている。

推量判定部３８は、以下に説明するように、二つの文章に含まれる文の各々について、推量表現が含まれているか否かを判定する。

推量判定部３８では、文を解析し、推量表現が含まれているかどうかを判定し、その結果（二値）を出力する。

本発明の実施の形態では、約３万文（否定が含まれる文４０００文、含まれない文２６０００文）の文章を学習データとして用意した。文を表す特徴量として、文中の単語ｕｎｉｇｒａｍ、ｂｉｇｒａｍ、ｔｒｉｇｒａｍの素性を用いた。学習手法として、ロジスティック回帰を用い、１０分割交差検定で９５％の性能で二値分類ができる分類器を学習した。この分類器を用いて、入力文について、推量表現が含まれるか否かを判定する。

図３に、図２と同じ入力文に対する推量表現の判定結果の例を示す。最後のカラムが入力文を示す。そして、最初のカラムが判定結果を示している。−１は推量表現が含まれていないことを示しており、１は推量表現が含まれていることを示す。二つ目と三つ目のカラムはそれぞれ推量表現が含まれないことに関する確率、推量表現が含まれることに関する確率である。この確率に基づき、判定結果が得られている。例に示される通り、ｉｓｌｉｋｅｌｙｔｏやｐｒｏｂａｂｌｙなどが入っている文については推量表現が含まれることが適切に判定されている。

文類似度算出部４０は、以下に説明するように、二つの文章のうちの一方の文章の文の各々（文集合１とする）と、二つの文章のうちの他方の文章の文の各々（文集合２とする）との組み合わせの各々について、照応解析部３２による照応解析結果と、否定判定部３６による判定結果と、推量判定部３８による判定結果とに基づいて、文の類似度を算出する。

文類似度算出部４０では、文集合１、文集合２、文それぞれに対する照応解析結果、否定判定部３６による判定結果、及び推量判定部３８による判定結果を入力とし、一方の文章の文ｓ１と、他方の文章の文ｓ２との組み合わせについて、文の類似度を計算する。文の類似度の計算式は以下の（１）式を用いる。

・・・（１）

ここで、ｓｅｎｔｓｉｍは文の類似度を返す関数であり、ｃｏｓは二つのベクトルに対するコサイン類似度を返す関数である。ｖｅｃは文をベクトルに変換する関数である。この関数は文に含まれる単語のそれぞれに対応するベクトルを加算したものである。単語ベクトルは、単語をベクトルで表現する手法として一般的なｗｏｒｄ２ｖｅｃ（非特許文献５）で得られるものを用いる。ベクトルの次元は３００次元である。

非特許文献５：Mikolov, Tomas, et al. "Distributed representations of words and phrases and their compositionality." Advances in neural information processing systems. 2013.

なお、各単語のベクトルはその単語のｉｎｖｅｒｓｅｄｏｃｕｍｅｎｔｆｒｅｑｕｅｎｃｙ(ＩＤＦ)値によって重み付けを行って、ＩＤＦ値が大きいほど大きな重みを掛け合わせる。ＩＤＦ値は別途準備した新聞記事コーパスから得る。また、今回は文中のすべての単語を用いるが、ストップワードのリストを準備しておき、その単語については無視するといった処理を行ってもよい。ストップワードとしては、例えば、英語であれば「ａ」、「ｔｈｅ」といったものであり、前置詞や定冠詞などである。また、文に参照表現が含まれる場合は、照応解析部３２の照応解析結果に基づいて、当該参照表現を参照先の単語に置き換えた文を用いる。

ｕｎｍａｔｃｈは二つの引数が一致しないときに１を返す関数である。ｎｅｇ(ｎｅｇａｔｉｏｎの意）は文に否定表現が含まれる場合に１を、否定表現が含まれない場合に−１を返す関数であり、否定判定部３６による判定結果を用いればよい。ｓｐｅｃ(ｓｐｅｃｕｌａｔｉｏｎの意）は文に推量表現が含まれる場合に１を、推量表現が含まれない場合に−１を返す関数であり、推量判定部３８による判定結果を用いればよい。

αとβは予め定められた加算処理をするときの重みである。例えば、−１．０と０．１を用いる。この場合、片方に否定表現があり、もう一方に否定表現がないときは類似度が大きく割り引かれる。また、片方に推量表現があり、もう片方に推量表現がない場合は、単語に基づく類似度が低くても一定の整合性が認められる場合があるため、類似度が一定程度割り増される。

以上の処理により、文類似度算出部４０は、上記（１）式に従って、文集合１の文と文集合２の文のすべての組み合わせにおけるｓｅｎｔｓｉｍの最大値を出力する。

ＰＡＳ類似度算出部４２は、以下に説明するように、一方の文章の文の各々について得られた述語項構造（ＰＡＳ集合１とする）と、他方の文章の文の各々について得られた述語項構造（ＰＡＳ集合２とする）との組み合わせの各々について、照応解析部３２による照応解析結果と、否定判定部３６による判定結果と、推量判定部３８による判定結果とに基づいて、ＰＡＳの類似度を算出する。

ＰＡＳ類似度算出部４２では、ＰＡＳ集合１、ＰＡＳ集合２、ＰＡＳのそれぞれと対応付いた文に対する照応解析結果、否定判定部３６による判定結果、及び推量判定部３８による判定結果を入力とし、一方の文章の文について得られた述語項構造ｐａｓ１と、他方の文章の文について得られた述語項構造ｐａｓ２との組み合わせについて、ＰＡＳの類似度を計算する。

ＰＡＳの類似度の計算式は以下（２）式を用いる。

・・・（２）

ここで、ｐａｓｓｉｍはＰＡＳ同士の類似度を返す関数であり、ｒｏｌｅｓは二つのＰＡＳ間で共通する意味役割（どちらにおいても値がｎｕｌｌではない意味役割）の集合を返す関数である。例えば、前述したように意味役割にはｐｒｅｄ、ａｒｇ１、ａｒｇ２、ａｒｇ３、及びａｒｇ４があるが、ｐａｓ１にｐｒｅｄ、及びａｒｇ１があり、ｐａｓ２にｐｒｅｄ、ａｒｇ１、及びａｒｇ２がある場合、どちらにも共通なｐｒｅｄ、及びａｒｇ１を返す。ｗｏｒｄｖｅｃはＰＡＳと意味役割を入力とし、ＰＡＳにおける意味役割に対応する単語のベクトルを返す。ここでの単語ベクトルは文類似度算出部４０と同様、ｗｏｒｄ２ｖｅｃを参照することで得る。ｐａｓｎｅｇは、ＰＡＳに対応する単語（ＰＡＳに含まれる単語、若しくは、ＰＡＳのｐｒｅｄを主辞とする動詞句に含まれる単語）からなる単語列に含まれる否定表現の有無を表し、否定判定部３６と同様に求められる。ｐａｓｓｐｅｃは、ＰＡＳに対応する単語からなる単語列に含まれる推量表現の有無を表し、推量判定部３８と同様に求められる。

なお、ＰＡＳ中の単語に参照表現が含まれる場合は、照応解析部３２による照応解析結果に基づいて、当該参照表現を、参照先の単語に置き換えたものを用いる。

γとδは予め定められた加算処理をするときの重みである。たとえば、０．４と０．１を用いる。

また、ＰＡＳについての否定判定結果、推量判定結果を求める代わりに、ＰＡＳが含まれる文の否定判定結果、推量判定結果で代用してもよい。その場合は、以下（３）式になる。ここで、ｓｅｎｔはＰＡＳに紐付けられた文（述語項解析前の入力文）を返す関数である。

・・・（３）

以上の処理により、ＰＡＳ類似度算出部４２は、上記（２）式に従って、ＰＡＳ集合１のＰＡＳとＰＡＳ集合２のＰＡＳのすべての組み合わせにおけるｐａｓｓｉｍの最大値を出力する。

類似度統合部４４は、文類似度算出部４０によって算出された文の類似度の最大値と、ＰＡＳ類似度算出部４２によって算出されたＰＡＳの類似度の最大値とを統合し、二つの文章間の整合性を判定する。本発明の実施の形態においては、二つの文章についての最終的な整合性スコアを出力する。二つの類似度の足し合わせはそのまま足し合わせてもよいし、重みをつけて足し合わせて整合性スコアを算出してもよい。文類似度算出部４０、ＰＡＳ類似度算出部４２におけるα、β、γ、δ、及び類似度統合部４４における重みは、開発データにおいて解きたい問題のパフォーマンスが最大になるように最適化を行うことが望ましい。例えば、所定の文章について整合性が予め分かっている複数の文章があるとき、最も整合性が高い文章の類似度が最大になるように最適化を行えばよい。

＜本発明の実施の形態に係る整合性判定装置の作用＞

次に、本発明の実施の形態に係る整合性判定装置１００の作用について説明する。入力部１０において二つの入力文章を受け付けると、整合性判定装置１００は、図４に示す整合性判定処理ルーチンを実行する。

まず、ステップＳ１００では、入力部１０で受け付けた二つの入力文章を文の各々に分割する。

次に、ステップＳ１０２では、入力部１０で受け付けた二つの入力文章の各々に含まれる参照表現が参照する参照先の表現を取得し、照応解析結果とする。

ステップＳ１０４では、入力部１０で受け付けた二つの文章に含まれる文の各々について、述語項構造解析を行って述語項構造を得る。

ステップＳ１０６では、二つの文章に含まれる文の各々について、否定表現が含まれているか否かを判定する。

ステップＳ１０８では、二つの文章に含まれる文の各々について、推量表現が含まれているか否かを判定する。

ステップＳ１１０では、二つの文章のうちの一方の文章の文の各々と、二つの文章のうちの他方の文章の文の各々との組み合わせの各々について、ステップＳ１０２の照応解析結果と、ステップＳ１０６の判定結果と、ステップＳ１０８の判定結果とに基づいて、上記（１）式に従って、文の類似度を算出し、文の類似度の最大値を出力する。

ステップＳ１１２では、一方の文章の文の各々について得られた述語項構造と、他方の文章の文の各々について得られた述語項構造との組み合わせの各々について、ステップＳ１０２の照応解析結果と、ステップＳ１０６の判定結果と、ステップＳ１０８の判定結果とに基づいて、上記（２）式に従って、述語項構造の類似度を算出し、述語項構造の類似度の最大値を出力する。

ステップＳ１１４では、ステップＳ１１０で算出された文の類似度の最大値と、ステップＳ１１２で算出された述語項構造の類似度の最大値とを統合し、二つの文章間の整合性を判定し、整合性スコアを出力部５０に出力して処理を終了する。

以上説明したように、本発明の実施の形態に係る整合性判定装置によれば、二つの文章に含まれる文の各々について、述語項構造解析を行って述語項構造を得て、二つの文章のうちの一方の文章の文の各々と、二つの文章のうちの他方の文章の文の各々との組み合わせの各々について、照応解析結果と、否定判定部３６の判定結果と、推量判定部３８の判定結果とに基づいて、文の類似度を算出し、一方の文章の文の各々について得られた述語項構造と、他方の文章の文の各々について得られた述語項構造との組み合わせの各々について、照応解析結果と、否定判定部３６の判定結果と、推量判定部３８の判定結果とに基づいて、述語項構造の類似度を算出し、算出された文の類似度と、算出された述語項構造の類似度とを統合し、二つの文章間の整合性を判定することにより、精度よく文章間の整合性を判定することができる。

なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

例えば、上述した実施の形態では、文類似度算出部４０、及びＰＡＳ類似度算出部４２は、最大値となる組み合わせを出力していたが、これに限定されるものではない。最大値以外にも、平均値を出力したり、最大値又は平均値を所定の閾値と比較した結果を二値で表したもの（例えば、最大値が閾値以上であれば１、閾値未満であれば０）を出力するようにしてもよい。

また、上述した実施の形態では、二つの文章を入力として整合性を判定していたがこれに限定されるものではない。例えば、複数の文を入力として、ある一文に最も整合する文を残りの文の中から抽出するようにしてもよい。また、ある一文に整合すると判定された全ての文を抽出するようにしてもよい。

また、上述した実施の形態では、否定判定部３６の判定結果、及び推量判定部３８の判定結果を文類似度算出部４０、及びＰＡＳ類似度算出部４２で用いていたが、これに限定されるものではなく、いずれか一方の判定結果を用いて、文の類似度を算出したり、述語項構造の類似度を算出するようにしてもよい。

また、上述した実施の形態では、文類似度算出部４０、及びＰＡＳ類似度算出部４２での類似度の算出を行っていたが、これに限定されるものではなく、いずれか一方の類似度の算出を行うようにしてもよく、この場合において、文類似度算出部４０の出力、又はＰＡＳ類似度算出部４２の出力をそのまま整合性スコアとすればよい。

１０入力部
２０演算部
３０文分割部
３２照応解析部
３４述語項構造解析部
３６否定判定部
３８推量判定部
４０文類似度算出部
４２ＰＡＳ類似度算出部
４４類似度統合部
５０出力部
１００整合性判定装置

Claims

入力された二つの文章間の整合性を判定する整合性判定装置であって、
前記二つの文章に含まれる文の各々について、述語項構造解析を行って述語項構造を得る述語項構造解析部と、
前記二つの文章のうちの一方の文章の文の各々と、前記二つの文章のうちの他方の文章の文の各々との組み合わせの各々について、文の類似度を算出する文類似度算出部と、
前記一方の文章の文の各々について得られた述語項構造と、前記他方の文章の文の各々について得られた述語項構造との組み合わせの各々について、述語項構造の類似度を算出するＰＡＳ類似度算出部と、
前記文類似度算出部によって算出された前記文の類似度と、前記ＰＡＳ類似度算出部によって算出された前記述語項構造の類似度とを統合し、前記二つの文章間の整合性を判定する類似度統合部と、
を含む整合性判定装置。
前記二つの文章に含まれる前記文の各々について、否定表現が含まれているか否かを判定する否定判定部を更に含み、
前記否定判定部による判定結果に基づいて、前記文類似度算出部による文の類似度、又は前記ＰＡＳ類似度算出部による述語項構造の類似度の算出が行われる請求項１に記載の整合性判定装置。
前記二つの文章に含まれる前記文の各々について、推量表現が含まれているか否かを判定する推量判定部を更に含み、
前記推量判定部による判定結果に基づいて、前記文類似度算出部による文の類似度、又は前記ＰＡＳ類似度算出部による述語項構造の類似度の算出が行われる請求項１又は請求項２に記載の整合性判定装置。
入力された二つの文章間の整合性を判定する整合性判定装置であって、
前記二つの文章に含まれる文の各々について、否定表現が含まれているか否かを判定する否定判定部と、
前記二つの文章のうちの一方の文章の文の各々と、前記二つの文章のうちの他方の文章の文の各々との組み合わせの各々について、前記否定判定部による判定結果に基づいて、文の類似度を算出する文類似度算出部と、
を含む整合性判定装置。
入力された二つの文章間の整合性を判定する整合性判定装置であって、
前記二つの文章に含まれる文の各々について、推量表現が含まれているか否かを判定する推量判定部と、
前記二つの文章のうちの一方の文章の文の各々と、前記二つの文章のうちの他方の文章の文の各々との組み合わせの各々について、前記推量判定部による判定結果に基づいて、文の類似度を算出する文類似度算出部と、
を含む整合性判定装置。
入力された二つの文章間の整合性を判定する整合性判定装置であって、
前記二つの文章に含まれる文の各々について、否定表現が含まれているか否かを判定する否定判定部と、
前記二つの文章に含まれる文の各々について、推量表現が含まれているか否かを判定する推量判定部と、
前記二つの文章のうちの一方の文章の文の各々と、前記二つの文章のうちの他方の文章の文の各々との組み合わせの各々について、前記否定判定部による判定結果と、前記推量判定部による判定結果とに基づいて、文の類似度を算出する文類似度算出部と、
を含む整合性判定装置。
入力された二つの文章間の整合性を判定する整合性判定装置であって、
前記二つの文章に含まれる文の各々について、述語項構造解析を行って述語項構造を得る述語項構造解析部と、
前記二つの文章に含まれる前記文の各々について、否定表現が含まれているか否かを判定する否定判定部と、
前記二つの文章のうちの一方の文章の文の各々について得られた述語項構造と、前記二つの文章のうちの他方の文章の文の各々について得られた述語項構造との組み合わせの各々について、前記否定判定部による判定結果に基づいて、述語項構造の類似度を算出するＰＡＳ類似度算出部と、
を含む整合性判定装置。
入力された二つの文章間の整合性を判定する整合性判定装置であって、
前記二つの文章に含まれる文の各々について、述語項構造解析を行って述語項構造を得る述語項構造解析部と、
前記二つの文章に含まれる前記文の各々について、推量表現が含まれているか否かを判定する推量判定部と、
前記二つの文章のうちの一方の文章の文の各々について得られた述語項構造と、前記二つの文章のうちの他方の文章の文の各々について得られた述語項構造との組み合わせの各々について、前記推量判定部による判定結果に基づいて、述語項構造の類似度を算出するＰＡＳ類似度算出部と、
を含む整合性判定装置。
入力された二つの文章間の整合性を判定する整合性判定装置であって、
前記二つの文章に含まれる文の各々について、述語項構造解析を行って述語項構造を得る述語項構造解析部と、
前記二つの文章に含まれる前記文の各々について、否定表現が含まれているか否かを判定する否定判定部と、
前記二つの文章に含まれる前記文の各々について、推量表現が含まれているか否かを判定する推量判定部と、
前記二つの文章のうちの一方の文章の文の各々について得られた述語項構造と、前記二つの文章のうちの他方の文章の文の各々について得られた述語項構造との組み合わせの各々について、前記否定判定部による判定結果と、前記推量判定部による判定結果とに基づいて、述語項構造の類似度を算出するＰＡＳ類似度算出部と、
を含む整合性判定装置。
前記二つの文章の各々に含まれる参照表現が参照する参照先の表現を取得する照応解析部を更に含み、
前記文類似度算出部は、前記参照表現を照応解析部によって取得した前記参照先の表現に置き換えて文の類似度を算出し、
前記ＰＡＳ類似度算出部は、前記参照表現を照応解析部によって取得した前記参照先の表現に置き換えて述語項構造の類似度を算出する請求項１〜請求項３のいずれか１項に記載の整合性判定装置。
前記文類似度算出部は、以下（１）式に従って、前記一方の文章の文ｓ１と、前記他方の文章の文ｓ２との組み合わせについて、文の類似度を算出する請求項３又は請求項６に記載の整合性判定装置。
・・・（１）
ただし、ｓｅｎｔｓｉｍは前記文の類似度を返す関数であり、ｃｏｓは二つのベクトルに対するコサイン類似度を返す関数であり、ｖｅｃは文をベクトルに変換する関数であり、ｕｎｍａｔｃｈは二つの引数が一致しないときに１を返す関数であり、ｎｅｇは文に否定表現が含まれる場合に１を返し、否定表現が含まれない場合に−１を返す関数であり、ｓｐｅｃは文に推量表現が含まれる場合に１を、推量表現が含まれない場合に−１を返す関数であり、α及びβは予め定められた重みである。
前記ＰＡＳ類似度算出部は、以下（２）式に従って、前記一方の文章の文について得られた述語項構造ｐａｓ１と、前記他方の文章の文について得られた述語項構造ｐａｓ２との組み合わせについて、述語項構造の類似度を算出する請求項３又は請求項９に記載の整合性判定装置。

・・・（２）
ただし、ｐａｓｓｉｍは前記述語項構造の類似度を返す関数であり、ｒｏｌｅｓは二つの述語項構造間で共通する意味役割の集合を返す関数であり、ｃｏｓは二つのベクトルに対するコサイン類似度を返す関数であり、ｗｏｒｄｖｅｃは述語項構造と意味役割を入力とし、前記述語項構造における前記意味役割に対応する単語のベクトルを返す関数であり、ｕｎｍａｔｃｈは二つの引数が一致しないときに１を返す関数であり、ｐａｓｎｅｇは、述語項構造に対応する単語からなる単語列に含まれる否定表現の有無を表し、ｐａｓｓｐｅｃは、述語項構造に対応する単語からなる単語列に含まれる推量表現の有無を表し、γ及びδは予め定められた重みである。
入力された二つの文章間の整合性を判定する整合性判定装置における整合性判定方法であって、
述語項構造解析部が、前記二つの文章に含まれる文の各々について、述語項構造解析を行って述語項構造を得るステップと、
文類似度算出部が、前記二つの文章のうちの一方の文章の文の各々と、前記二つの文章のうちの他方の文章の文の各々との組み合わせの各々について、文の類似度を算出するステップと、
ＰＡＳ類似度算出部が、前記一方の文章の文の各々について得られた述語項構造と、前記他方の文章の文の各々について得られた述語項構造との組み合わせの各々について、述語項構造の類似度を算出するステップと、
類似度統合部が、前記文類似度算出部によって算出された前記文の類似度と、前記ＰＡＳ類似度算出部によって算出された前記述語項構造の類似度とを統合し、前記二つの文章間の整合性を判定するステップと、
を含む整合性判定方法。
入力された二つの文章間の整合性を判定する整合性判定装置における整合性判定方法であって、
否定判定部が、前記二つの文章に含まれる文の各々について、否定表現が含まれているか否かを判定するステップと、
文類似度算出部が、前記二つの文章のうちの一方の文章の文の各々と、前記二つの文章のうちの他方の文章の文の各々との組み合わせの各々について、前記否定判定部による判定結果に基づいて、文の類似度を算出するステップと、
を含む整合性判定方法。
入力された二つの文章間の整合性を判定する整合性判定装置における整合性判定方法であって、
推量判定部が、前記二つの文章に含まれる文の各々について、推量表現が含まれているか否かを判定するステップと、
文類似度算出部が、前記二つの文章のうちの一方の文章の文の各々と、前記二つの文章のうちの他方の文章の文の各々との組み合わせの各々について、前記推量判定部による判定結果に基づいて、文の類似度を算出するステップと、
を含む整合性判定方法。
入力された二つの文章間の整合性を判定する整合性判定装置における整合性判定方法であって、
述語項構造解析部が、前記二つの文章に含まれる文の各々について、述語項構造解析を行って述語項構造を得るステップと、
否定判定部が、前記二つの文章に含まれる前記文の各々について、否定表現が含まれているか否かを判定するステップと、
ＰＡＳ類似度算出部が、前記二つの文章のうちの一方の文章の文の各々について得られた述語項構造と、前記二つの文章のうちの他方の文章の文の各々について得られた述語項構造との組み合わせの各々について、前記否定判定部による判定結果に基づいて、述語項構造の類似度を算出するステップと、
を含む整合性判定方法。
入力された二つの文章間の整合性を判定する整合性判定装置における整合性判定方法であって、
述語項構造解析部が、前記二つの文章に含まれる文の各々について、述語項構造解析を行って述語項構造を得るステップと、
推量判定部が、前記二つの文章に含まれる前記文の各々について、推量表現が含まれているか否かを判定するステップと、
ＰＡＳ類似度算出部が、前記二つの文章のうちの一方の文章の文の各々について得られた述語項構造と、前記二つの文章のうちの他方の文章の文の各々について得られた述語項構造との組み合わせの各々について、前記推量判定部による判定結果に基づいて、述語項構造の類似度を算出するステップと、
を含む整合性判定方法。
コンピュータを、請求項１〜請求項１２のいずれか１項に記載の整合性判定装置の各部として機能させるためのプログラム。