JP2015075854A - 矛盾表現収集装置及びそのためのコンピュータプログラム - Google Patents

矛盾表現収集装置及びそのためのコンピュータプログラム Download PDF

Info

Publication number
JP2015075854A
JP2015075854A JP2013210793A JP2013210793A JP2015075854A JP 2015075854 A JP2015075854 A JP 2015075854A JP 2013210793 A JP2013210793 A JP 2013210793A JP 2013210793 A JP2013210793 A JP 2013210793A JP 2015075854 A JP2015075854 A JP 2015075854A
Authority
JP
Japan
Prior art keywords
pattern
binary pattern
pair
pairs
learning data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013210793A
Other languages
English (en)
Other versions
JP6150291B2 (ja
Inventor
ジュリアン クロエツェー
Kloetzer Julien
ジュリアン クロエツェー
健太郎 鳥澤
Kentaro Torisawa
健太郎 鳥澤
力 橋本
Chikara Hashimoto
力 橋本
大樹 佐野
Motoki Sano
大樹 佐野
鍾勲 呉
Jong Hoon Oh
鍾勲 呉
清敬 大竹
Kiyotaka Otake
清敬 大竹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Information and Communications Technology
Original Assignee
National Institute of Information and Communications Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Information and Communications Technology filed Critical National Institute of Information and Communications Technology
Priority to JP2013210793A priority Critical patent/JP6150291B2/ja
Priority to CN201480055114.4A priority patent/CN105612515B/zh
Priority to PCT/JP2014/076730 priority patent/WO2015053236A1/ja
Priority to KR1020167008387A priority patent/KR102235990B1/ko
Priority to EP14852479.6A priority patent/EP3057003A4/en
Priority to US15/026,969 priority patent/US20160260026A1/en
Publication of JP2015075854A publication Critical patent/JP2015075854A/ja
Application granted granted Critical
Publication of JP6150291B2 publication Critical patent/JP6150291B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • G06F18/2178Validation; Performance evaluation; Active pattern learning techniques based on feedback of a supervisor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/046Forward inferencing; Production systems
    • G06N5/047Pattern matching networks; Rete networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/768Arrangements for image or video recognition or understanding using pattern recognition or machine learning using context analysis, e.g. recognition aided by known co-occurring patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/192Recognition using electronic means using simultaneous comparisons or correlations of the image signals with a plurality of references
    • G06V30/194References adjustable by an adaptive method, e.g. learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】文より小さな単位で矛盾表現を効率よく収集できる装置を提供する。
【解決手段】矛盾表現収集装置は、「XがYを○○する」という形式のパターンからなるパターン対を学習データとする機械学習により、互いに矛盾するパターンからなるパターン対を抽出する第1段階矛盾パターン分類部と、抽出されたパターン対の各々について、含意関係を適用して、一方のパターンを書換えて新たなパターン対を導出する追加矛盾パターン対導出部130と、導出された新たなパターン対の内で、互いに矛盾するパターンからなる可能性が高いパターン対を学習データに追加することで学習データを拡張する学習データ拡張部136と、拡張された学習データを用いた機械学習により、与えられたパターン対を互いに矛盾するパターンからなるパターン対とそれ以外とに分類する第2段階分類を行なうSVM142とを含む。
【選択図】図4

Description

この発明は、大量のテキストから矛盾した表現を抽出する装置に関し、特に、大量のテキストから、互いに矛盾する表現のペアを信頼性高く抽出する装置に関する。
テキスト中で矛盾した表現を検出できれば、その結果を多くの目的に使用できる。例えば、長大なテキストの中で互いに矛盾した表現を検出できれば、それらをマークすることによりテキストの作成者の注意を喚起できる。他人が作成したテキストを査読する場合、その論理の一貫性を検証できる。異なる著者の作成したテキストを比較したりする場合には、その主張の異同を確認できる。
例えば、日本語で記載されたウェブページには、「アガリクスがガンを防ぐ」という主旨の記載が多くみられる。こうした主張は多くの日本人により受け入れられている。しかし、例えば「アガリクス ガン 促進する」というキーワードでウェブを検索すると、「アガリクスによりラットのガンが促進する」という報告を見出すことができる。その報告は、販売されていた一部のアガリクス製品によりラットのガンが促進されたとする、厚生労働省により承認された報告を参照したものである。このような記事により、アガリクスがガンを防止するという主張と矛盾する報告が存在することが分かり、その結果、アガリクスについて興味を持つものはさらに調査を進めることになる。
また、災害の発生時には、ネットワーク上のいわゆるブログ、ミニブログ、ソーシャルメディア等に多くの情報が寄せられる。これらの情報は、適切な避難をしたり、適時に支援を行なったりする上で非常に有用である。しかし、これらの中には、根拠のない情報、及びいわゆるデマ情報が含まれることが多い。それらの情報は見かけ上、正しい情報と区別することは難しい。そのため、正しい判断を行なう上で無益であるばかりでなく、正常な情報流通を妨げ、災害による被害を大きくしたり、復旧を遅らせたりする危険性がある。ネットワーク上の情報を分析し、矛盾する情報を抽出してユーザに提示できれば、ユーザは信頼できる情報とそうでない情報とを整理でき、結果的に非常時の混乱を早期に収拾できる。
こうした例を考えると、ある事柄について互いに矛盾した主張を目にした読者は、その事柄についてさらに調査を進め、結局は真実を知ることができる可能性が高い。これは、事実に関する知識についてだけではなく、日々の生活で見出される、事実に関する事柄とは異なるものについてもあてはまる。例えば、TPP(Trans Pacific Partnership)と呼ばれる経済連携協定を例にとる。TPPに関しては、日本がTPPに加盟すべきか否かに関して様々な主張がなされている。それらの中には、非常に重大で、かつ互いに矛盾する主張が見出される。すなわち、TPPにより日本の農業は壊滅するであろう、という主張と、TPPにより日本の農業は強化されるであろう、という主張とが混在している。これらは主張又は予想であって、実際に日本がTPPに加盟するか否かという決定がなされて初めてその成否が検証できる。
さらに、ときには、互いに矛盾する主張を含む、異なるテキストを読んだときに、それらの根拠となる論理には見たところ誤りがないように思われる場合がある。例えば「TPPにより、日本からの農産物の輸出が増加する」という主張、「安価な農産物が大量に日本に輸入されるだろう」という主張等がある。例えば円の為替相場の変動という予想しがたい理由によって、これらの主張の1つのみが結果的に正しくなることもあるだろう。しかし、これら互いに矛盾する主張の根拠となる理論についてはよく調べ、それら複数の視点からの意見を十分に検討し、バランスのとれた決定をし、予測される問題に適切に対応しなければならない。矛盾表現の認識は、そうした場合に検討すべき文書を選択するために非常に大きな助けとなるだろう。
M. Ohki, S. Matsuyoshi, J. Mizuno, K. Inui, E. Nichols, K. Murakami, S. Masuda, and Y. Matsumoto. 2011. Recognizing confinement in web texts. In the Proceedings of the Ninth International Conference on Computational Semantics, page 215-224. C. Hashimoto, K. Torisawa, S. De Saeger, J.-H. Oh, and J. Kazama. 2012. Excitatory or inhibitory: A new semantic orientation extracts contradiction and causality from the web. In Proceedings of EMNLP 2012.
このような矛盾表現の認識に関する研究には、前掲の非特許文献1に記載されたものがある。非特許文献1に記載された研究は、文の間の矛盾、又は文書全体の間の矛盾を認識するためのものである。しかし、矛盾表現をより効率よく判断するためには、より細かい単位での矛盾表現を認識する技術が必要である。そうした技術が得られれば、文全体の間の矛盾又は文書全体の間での矛盾の認識をより効率よくかつ精度よくできる可能性がある。
また、前述した例は日本語での例のみだが、こうした問題は日本語に限らず全ての言語に共通するものである。
したがって本発明の目的は、文全体よりも小さな単位で矛盾表現を効率よく収集できる矛盾表現収集装置を提供することである。
本発明の他の目的は、文全体よりも小さな単位で矛盾表現を効率よく収集できる、言語独立な矛盾表現収集装置を提供することである。
本発明の第1の局面に係る矛盾表現収集装置は、単語の含意関係を記憶する含意関係記憶手段と、複数の二元パターン対を記憶する第1の記憶装置とに接続して用いられる。二元パターン対は、2つの二元パターンを含み、各二元パターンは一元パターンをサブパターンとして含む。矛盾表現収集装置は、第1の記憶装置に記憶された二元パターン対から選択された二元パターン対を学習データとする機械学習により、第1の記憶装置に記憶された複数の二元パターン対から、互いに矛盾する二元パターン対を抽出する第1の分類手段と、第1の分類手段により抽出された二元パターン対の各々について、含意関係記憶手段に記憶された含意関係を適用して、一方の二元パターンを書換えて新たな二元パターン対を導出する導出手段と、導出手段により導出された新たな二元パターン対の内で、互いに矛盾する二元パターンからなる可能性が高い二元パターン対を抽出し、学習データに追加することで学習データを拡張する学習データ拡張手段と、学習データ拡張手段により拡張された学習データを用いた機械学習により、与えられた二元パターン対を互いに矛盾する二元パターン対とそれ以外とに分類する第2の分類手段とを含む、矛盾表現収集装置。
好ましくは、矛盾表現収集装置はさらに、一元パターンの極性を記憶する極性記憶手段に接続して用いられ、第1の分類手段は、極性記憶手段に記憶された一元パターンの極性を用いて、互いに極性が反対の一元パターン対を含む二元パターン対を第1の記憶装置から抽出する第1のパターン対抽出手段と、互いに矛盾する二元パターンからなるか否かを示すラベルが付された複数の二元パターン対を学習データとして、互いに矛盾する二元パターンからなる二元パターン対を選択する機能を機械学習により学習し、第1の記憶装置に記憶された複数の二元パターン対から、互いに矛盾する二元パターンからなる二元パターン対を選択し出力する機械学習手段とを含む。
より好ましくは、第1の分類手段は、出力する二元パターン対に、当該二元パターン対が互いに矛盾する二元パターンからなるか否かの可能性を示すスコアを付して出力し、学習データ拡張手段は、第1の分類手段により抽出された二元パターン対のグループの各々について、当該グループに含まれる二元パターン対のうち、スコアが予め定めたしきい値以上であるものの割合を当該グループに含まれる各二元パターンのスコアとして算出するスコア算出手段と、第1の分類手段により新たに導出された二元パターン対の各々について、当該二元パターン対に対してスコア算出手段により算出されたスコアが最大のものを割当てることで、各二元パターン対のスコアを確定させるスコア確定手段と、第1の分類手段により新たに導出された二元パターン対のうち、スコア確定手段により確定されたスコアが上位のものから所定個数を選択し、学習データに追加する追加手段とを含む。
さらに好ましくは、追加手段は、第1の分類手段により新たに導出された二元パターン対のうち、第1の分類手段により抽出された二元パターン対の集合に既に含まれているものは、学習データへの追加時に除外する。
第1の分類手段と、第2の分類手段とのいずれかは、教師付学習による分類手段、例えばSupport Vector Machineによる分類手段を含んでもよい。
本発明の第2の局面に係るコンピュータプログラムは、単語の含意関係を記憶する含意関係記憶手段と、複数の二元パターン対を記憶する第1の記憶装置とに接続されるコンピュータにおいて実行される。二元パターン対は、2つの二元パターンを含み、各二元パターンは一元パターンをサブパターンとして含む。このコンピュータプログラムは、当該コンピュータを、第1の記憶装置に記憶された二元パターン対から選択された二元パターン対を学習データとする機械学習により、第1の記憶装置に記憶された複数の二元パターン対から、互いに矛盾する二元パターン対を抽出する第1の分類手段と、第1の分類手段により抽出された二元パターン対の各々について、含意関係記憶手段に記憶された含意関係を適用して、一方の二元パターンを書換えて新たな二元パターン対を導出する導出手段と、導出手段により導出された新たな二元パターン対の内で、互いに矛盾する二元パターンからなる可能性が高い二元パターン対を抽出し、学習データに追加することで学習データを拡張する学習データ拡張手段と、学習データ拡張手段により拡張された学習データを用いた機械学習により、与えられた二元パターン対を互いに矛盾する二元パターン対とそれ以外とに分類する第2の分類手段として機能させる。
本発明の一実施の形態に係る矛盾表現収集装置を用いたWeb質問応答システムの概略ブロック図である。 図1に示す矛盾表現収集装置の概略構成を示すブロック図である。 図2に示す第1段階矛盾パターン対分類部の概略ブロック図である。 図2に示す第2段階矛盾パターン対分類部の概略ブロック図である。 図4に示す追加矛盾パターン対導出部、スコアリング部、及び学習データ拡張部の概略構成を示すブロック図である。 実施の形態による矛盾表現の収集に関する実験結果を従来の装置による精度と比較して示す実験結果を示すグラフである。 実施の形態による矛盾表現の収集に関する実験結果を、対照実験による精度と比較して示す実験結果を示すグラフである。 図1に示すWeb質問応答システムを実現するためのサーバコンピュータの外観図である。 図8に示すサーバコンピュータのハードウェア構成を示すブロック図である。
以下の説明及び図面では、同一の部品には同一の参照番号を付してある。したがって、それらについての詳細な説明は繰返さない。
[構成]
以下に述べる実施の形態に係る装置は、2つの要素を持つ、互いに矛盾するパターン対、例えば「XはYを促進する」及び「XはYを防ぐ」、「XはYを駆逐するだろう」及び「XはYを強化するだろう」というパターン対を収集する。各パターンは、X及びYのように2つの要素を持つ。以下の説明では、こうしたパターンを、2つの可変要素を持つという意味で「二元パターン」と呼ぶ。こうした二元パターン対を収集することで、前述した「アガリクスがガンを予防する」と「アガリクスはガンを促進する」という矛盾した表現のテキストを認識するシステムを容易に構築できる。
また、以下の実施の形態では、上記した非特許文献2で提案された、パターンの活性・不活性(両者をまとめて表現の「極性」と呼ぶ。)という性質を用いる。非特許文献2の提案にしたがい、ある表現(1つの可変要素を含む述部を表すサブパターン。「XがYを○○する」の内の「Yを○○する」の部分。例えば「Yを促進する」、「Yを防止する」等。これらを、1つの可変要素を持つという意味で、以下「一元パターン」と呼ぶ。)の極性を活性、不活性、及び中性の3つに分類する。活性とは、そのパターンに含まれる可変要素の機能、効果、目的、又は役割が発動されること又は強化されることを示す。例えば「Yを引き起こす。」の「を引き起こす。」、「Yを増加させる。」の「を増加させる。」等である。不活性とは、逆にそのパターンに含まれる可変要素の機能、効果、目的、又は役割が停止されること又は弱められることを示す。例えば「Yを防止する。」又は「Yが消失する。」等である。中性とは、活性でも不活性でもないものを指す。例えば「Yに近い。」という表現は中性である。
図1を参照して、この実施の形態に係るWeb質問応答システム30は、インターネット32に接続され、パーソナルコンピュータ(以下PCと呼ぶ。)34からの質問に対して、その質問に対する回答候補となるWeb上の複数の文書であって、互いに矛盾する表現を含む文書を、その回答候補が含む矛盾箇所を強調して並列表示するシステムである。この実施の形態では、PC34が質問文をWeb質問応答システム30に入力すると、Web質問応答システム30がWeb上からその質問文に対する互いに矛盾する回答を検索し、矛盾する箇所を強調した画面を示すHTMLのソースファイルをPC34に返信する。PC34のユーザは、このHTMLファイルをブラウザで表示することにより自分が選択した質問文に対する互いに矛盾する回答を比較できる。
Web質問応答システム30は、インターネット32のWebページから大量の文書を収集し、その中から互いに矛盾した表現である二元パターン対を収集する矛盾パターン対収集装置40と、矛盾パターン対収集装置40が収集した矛盾表現を記憶する矛盾パターン対記憶装置42と、PC34からの質問文の入力を受け、矛盾パターン対記憶装置42に記憶された矛盾表現を用いて、Web上の文書内で、質問文に対する回答として互いに矛盾した表現を検出し、それら箇所を強調して左右対照する形で示すWeb画面のソーステキストを生成してPC34に返信する矛盾表現の提示システム44とを含む。矛盾表現の提示システム44は、図示しないWebサーバと所定のプログラム言語によるプログラムの実行系とを含む。PC34からあるプログラムと質問文とを指定したリクエストを受けると、Webサーバは指定されたプログラムに対して指定された質問文を渡す。そのプログラムは、受け取った質問文を解析し、Web上の文書からその質問文に対する回答候補を含む表現を検索して読出し、矛盾パターン対記憶装置42に格納された矛盾表現を学習データとして学習した矛盾表現分類器を用いてこれらの表現を互いに矛盾する表現とそうでない表現とに分類する。このプログラムはさらに、検出された表現の箇所に強調の修飾を追加して、互いに矛盾する表現を対照する形で左右に表示するHTMLソーステキストを生成し、Webサーバを介してPC34に返信する。
図2は、矛盾パターン対収集装置40の概略構成を示しており、一元パターンの極性辞書を記憶した極性辞書記憶装置62と、Web上から収集した大量の二元パターン対であって、矛盾パターンの候補となる集合を記憶する候補パターン対記憶装置60と、名詞・動詞等の含意関係を記憶する含意関係記憶装置64と、候補パターン対記憶装置60、極性辞書記憶装置62、及び含意関係記憶装置64に接続され、候補パターン対記憶装置60に記憶された候補パターン対を矛盾パターン対と非矛盾パターン対とに分類する矛盾パターン対分類部68とを含む。矛盾パターン対分類部68により矛盾パターン対に分類されたパターン対は矛盾パターン対記憶装置42に記憶される。矛盾パターン対収集装置40はさらに、矛盾パターン対分類部68により非矛盾パターン対に分類されたパターン対を記憶する非矛盾パターン対記憶装置66を含む。
矛盾パターン対分類部68は、2段階構成となっている。矛盾パターン対分類部68の第1段階は、極性辞書記憶装置62を参照して、候補パターン対記憶装置60に記憶された大量の二元パターン対を、同じ要素を持つ一元パターン対を持ち、かつそれらの極性が反対である第1の種類のパターン対と、それ以外の第2の種類のパターン対とに分類するための分類器を含む第1段階矛盾パターン対分類部80と、第1段階矛盾パターン対分類部80により分類された第1の種類のパターン対を記憶する矛盾パターン対中間記憶装置82と、第1段階矛盾パターン対分類部80により分類された第2の種類のパターン対を記憶する非矛盾パターン対中間記憶装置84と、第1段階矛盾パターン対分類部80の内部作業で生成される、一元パターン部分の極性が互いに反対となっているパターン対である反対極性対を記憶する反対極性対記憶装置102と、第1段階矛盾パターン対分類部80の内部作業で生成される、第1段階矛盾パターン対分類部80の学習を行なう際の学習データを記憶するための学習データ記憶装置108とを含む。矛盾パターン対記憶装置42、反対極性対記憶装置102、及び学習データ記憶装置108に記憶されたデータは、後述するように第2段階矛盾パターン対分類部86への入力となる。
ここでいう第1の種類のパターン対とは、例えば「Yを促進する」というパターンと、「Yを防止する」というパターンのように、「Y」の部分が共通し、互いに極性が反対の一元パターンを持つパターン対を指す。
矛盾パターン対収集装置40の第2段階は、矛盾パターン対中間記憶装置82に記憶された矛盾パターン対と、含意関係記憶装置64に記憶された含意関係とに基づいて、分類器の再学習を行ない、再学習後の分類器を用いて、再度、候補パターン対記憶装置60に記憶された候補パターン対を矛盾パターンと非矛盾パターンとに分類し、矛盾パターンを矛盾パターン対記憶装置42に、非矛盾パターンを非矛盾パターン対記憶装置66に、それぞれ記憶させる第2段階矛盾パターン対分類部86を含む。
図3は、第1段階矛盾パターン対分類部80の概略構成を示しており、極性辞書記憶装置62を参照して、候補パターン対記憶装置60に記憶された候補パターン対の中から反対極性対を抽出し、反対極性対記憶装置102に格納する反対極性対抽出部100と、反対極性対記憶装置102に記憶された反対極性対を、互いに矛盾すると考えられるパターン対と必ずしも矛盾するとは考えられないパターン対とに分類する分類器として機能し、前者を矛盾パターン対中間記憶装置82、後者を非矛盾パターン対中間記憶装置84に、それぞれ格納させるSVM(Support Vector Machine)104とを含む。SVM104は、パターン対を分類する際に、そのパターン対が矛盾パターン対に分類されるべき程度を示すスコアを各パターン対に付与する。
第1段階矛盾パターン対分類部80はさらに、SVM104の学習データを作成するためのパターン対を候補パターン対記憶装置60に記憶された候補パターン対から抽出して必要なタグを付与する処理等を手作業で行ない、学習データ記憶装置108に記憶させるための学習データ作成部106と、学習データ記憶装置108に記憶された学習データにより、SVM104の学習を行なうためのSVM学習部110とを含む。
SVM学習部110は、学習データ記憶装置108に記憶された学習データから、SVM104の学習を行なうための素性ベクトルを生成する。この素性ベクトルの要素として、本実施の形態では以下のようなものを用いる。素性としては主に2種類を用いる。すなわち、パターンの内容自体から得られる表層構造の素性と、語彙に関する素性とである。本実施の形態で使用する素性の一覧を次のテーブルに示す。このテーブルには、上記した2つの分類に属さないものも「その他」として示してある。これらはSVM104と後述する第2段階矛盾パターン対分類部86内のSVMとの双方において共通に使用する。なお、素性の選択が表1に示されるものに限定されるわけではないことはもちろんである。
Figure 2015075854
図4は、第2段階矛盾パターン対分類部86の概略構成を示している。第2段階矛盾パターン対分類部86は、矛盾パターン対中間記憶装置82に記憶されている矛盾パターン対の各々について、一方のパターンに含意関係記憶装置64に記憶された含意関係を適用して書換えることにより新たな矛盾パターン対を導出する追加矛盾パターン対導出部130と、追加矛盾パターン対導出部130により導出された矛盾パターン対を記憶する追加矛盾パターン対記憶装置132と、追加矛盾パターン対記憶装置132に記憶された矛盾パターン対の各々について、矛盾パターン対中間記憶装置82を参照することにより、後述するCDP(Contradiction Derivation Precision)と呼ぶ尺度を算出するために必要なサブスコアCDPsubを算出し各追加矛盾パターン対に付与するスコアリング部134と、追加矛盾パターン対記憶装置132に記憶された追加矛盾パターン対のサブスコアCDPsubを用いて追加矛盾パターンごとのスコアCDPを確定させ、スコアCDPが上位の所定割合の矛盾パターン対を学習データ記憶装置108(図3参照)に記憶された学習データとマージすることで学習データを拡張する学習データ拡張部136と、学習データ拡張部136の出力する学習データを記憶する拡張学習データ記憶装置138とを含む。
第2段階矛盾パターン対分類部86はさらに、候補パターン対記憶装置60に記憶された候補パターン対を矛盾パターン対と非矛盾パターン対とに分類し、矛盾パターン対を矛盾パターン対記憶装置42に、非矛盾パターン対を非矛盾パターン対記憶装置66に、それぞれ格納するSVM142と、拡張学習データ記憶装置138に記憶された拡張学習データを用いてSVM142の学習を行なうSVM学習部140とを含む。すなわち、SVM学習部140は、学習データ記憶装置108に記憶された、最初に得られた学習データに加え、追加矛盾パターン対導出部130、スコアリング部134、及び学習データ拡張部136により追加された矛盾パターン対を含む学習データを用いて候補パターン対を分類する。このような構成により、SVM142による分類精度が第1段階のSVM104による分類精度と比較して高くなることが実験により確認できた。実験結果については後述する。
図5を参照して、図4に示した追加矛盾パターン対導出部130、追加矛盾パターン対記憶装置132、スコアリング部134、及び学習データ拡張部136の機能について説明する。
追加矛盾パターン対導出部130は、矛盾パターン対中間記憶装置82から矛盾パターン対162を読出し、その各々について、その一方のパターンに、含意関係記憶装置64から読出した含意関係160を適用して書換えることで、新たな矛盾パターン対を生成する矛盾パターン対候補生成部164を含む。この拡張の際の論理は以下の通りである。
もしもパターンpがパターンqを含意し、パターンqが第3のパターンrと矛盾するなら、パターンpもまたパターンrと矛盾する。例えば、「XがYを生ずる」(パターンp)は「XはYを促進する」(パターンq)を含意し、パターンqが「XはYを防ぐ」(パターンr)と矛盾するなら、パターンpはパターンrと矛盾する。この場合のパターンqとrからなる矛盾パターン対〈q、r〉をソースパターン対と呼び、パターンpとパターンrからなる矛盾パターン対〈p、r〉を拡張パターン対と呼ぶ。
追加矛盾パターン対記憶装置132は、矛盾パターン対候補生成部164により生成された矛盾パターン対の候補(候補対)からなる候補グループ180、182、184等を記憶する。
スコアリング部134は、候補グループ180、182、184等の各々について、その候補グループ内の候補対に対してSVM104(図3)による分類時のスコアが所定のしきい値αより大きいか否かを判定し、その判定結果に応じて各候補対にそれぞれ1又は0の値を持つフラグを付与する候補対判定部200と、候補グループ180、182、184等の各々について、その中の候補対に対して候補対判定部200が付与したフラグに基づいて以下の式によりサブスコアCDPsubを算出し、その候補グループに属する各候補対のサブスコアCDPsubとして候補グループ180、182、184等に書込むサブスコア算出部202とを含む。しきい値αは、開発データを用いて予め適切に定めておく。
あるソース矛盾パターンペア〈q、r〉に対して、サブスコアCDPsub(q、r)は以下のように定義される。
Figure 2015075854
ここで、Ex(p,r)はソースパターン対〈q、r〉から導出された拡張パターン対の集合を指し、ScはSVM104によりソースパターン対に付与されたスコアを指す。後述する実験では、α=0.46に設定した。この値は、SVM104がしきい値α以上のスコアを付与するパターン対の割合がSVM104の出力の上位5%となるように選ばれた。
学習データ拡張部136は、スコアリング部134により候補グループ180、182、184等に含まれる候補対の全てについてサブスコアCDPsubが付与されたことに応答して、各候補対のスコアCDPの値を以下に示す式により確定するスコア確定部218を含む。
Figure 2015075854
追加矛盾パターン対記憶装置132に記憶されたスコアCDP付与済の候補対の中には、複数の矛盾パターン対から別々に導出された同一の矛盾パターン対が存在することがある。導出のもととなった矛盾パターンが異なるので、それらのスコアCDPは互いに異なることが一般的である。スコア確定部218は、そのような候補対が存在する場合には、上記式により示されるように、サブスコア算出部202によりその候補対に対して算出されたサブスコアCDPsub値の最大値をその候補対にスコアCDPとして付与する。
学習データ拡張部136はさらに、候補対をCDPの降順でソートして、上位のN個の候補対を抽出する上位候補抽出部220と、上位候補抽出部220により抽出された候補対を学習データ記憶装置108に記憶されていた学習データとマージし新たな学習データを出力する候補マージ部222と、候補マージ部222により出力される学習データのうち、新たに追加された候補データと競合する矛盾パターン対を削除するネガティブ・クリーニング処理を行なうネガティブ・クリーニング処理部224とを含む。
追加矛盾パターン対記憶装置132に記憶されたスコア付与済の候補対の中には、複数の矛盾パターン対から別々に導出された同一の矛盾パターン対が存在することがある。導出のもととなった矛盾パターンが異なるので、それらのCDPは互いに異なることが一般的である。上位候補抽出部220は、そのような候補対が存在する場合には、サブスコア算出部202によりその候補対に対して算出された値の内の最大値をその候補対のCDPとして付与する。
上位候補抽出部220は、スコア確定部218により各候補対のCDPが確定された後に、候補パターンのうち、矛盾パターン対中間記憶装置82に記憶されている矛盾パターン対の集合内にないもののみを抽出し、それらの中の上位N個を候補マージ部222に対して出力する。すなわち、上位候補抽出部220は、候補パターンのうち、既に矛盾パターン対中間記憶装置82に記憶されているものは、追加の対象から除外する。
ネガティブ・クリーニング処理部224による処理は、学習データを互いに整合させるために必要である。ここでは、SVM104による分類で得られた矛盾パターン対の内で、候補マージ部222により追加されたパターン対と競合するものを削除する。パターン対の内、内容語の対はそのパターン対が互いに矛盾するか否かに関する最も強力な証拠となると考えられる。したがって、ここでは、最初に得られた矛盾パターン対の内で、新たに追加された矛盾パターン対のいずれかと内容語を共通にする矛盾パターン対(ネガティブサンプルと呼ぶ。)を削除する。
以上を擬似コードとして記載するなら以下の通りになる。
Figure 2015075854
[動作]
以上のように構成された矛盾パターン対収集装置40は、以下のように動作する。図2を参照して、候補パターン対記憶装置60には、インターネット32のウェブページをクローリングして得られた多数の候補パターン対が記憶されている。この候補パターン対の収集には、既存の技術が適用できる。ここで収集される候補パターン対は、係り受け解析の結果得られる、意味的な係り受け関係ツリーにおいて2つの名詞をつなぐパス上に存在する、二元パターンの単語列(例えば「XがYを引き起こす」等)である。このパターンのX及びYに相当する部分には、予めそれらの単語の型を示す情報がタグとして付与されている。例えば「YorganizationがXlocationにある。」等である。ここで、X,Yに付与されている添え字(organization,location)は、X及びYに相当する部分に入る単語の意味的クラスを指す。意味的クラスにより、あいまいなパターンが持ち得る複数の意味を区別できるので、パターンの曖昧性による誤りを少なくできる。
本実施の形態では、極性辞書記憶装置62には、予め人手で準備したものを使用する。含意関係記憶装置64に記憶された含意関係は、人手で準備したものでもよいし、人手で準備した学習データを用いて機械学習により学習した分類器を用いて準備したものでもよい。
図3を参照して、図2に示す第1段階矛盾パターン対分類部80は、候補パターン対記憶装置60から候補パターン対を読出し、各候補パターン対について、極性辞書記憶装置62を参照することにより、パターン対を構成するパターンの一元パターン部分の極性が反対(活性と不活性)か否かを判定する。第1段階矛盾パターン対分類部80はさらに、極性が反対のパターン対を選択して反対極性対記憶装置102に記憶させる。
一方、オペレータが学習データ作成部106を用いて候補パターン対記憶装置60から学習データとなる候補パターン対を抽出し、各候補パターン対が互いに矛盾するパターンからなっているか否かに関するタグ付けをすることで学習データを作成する。学習データは学習データ記憶装置108に記憶される。SVM学習部110は、学習データ記憶装置108に記憶された学習データから、SVM104の学習を行なうための素性ベクトルを生成し、SVM104の学習を行なう。ここでも、SVM104の学習には、予め人手で準備した学習データを用いるが、直接人手で準備するのではなく、学習済の分類器で分類しラベル付したものを学習データとしてもよい。また、人間による判断が必要ない学習データ作成方法を利用することもできる。
SVM104は、反対極性対記憶装置102に記憶された、互いに極性が反対の候補パターン対の各々を、学習結果にしたがって矛盾パターン対と非矛盾パターン対に分類し、それぞれ矛盾パターン対中間記憶装置82及び非矛盾パターン対中間記憶装置84に格納する。この際、SVM104は、出力するパターン対の各々に、SVMスコアを付与する。このスコアは、パターン対が矛盾パターン対である可能性が高い場合に高く、そうでない場合には低くなる。
図4を参照して、追加矛盾パターン対導出部130は、矛盾パターン対中間記憶装置82から矛盾パターン対を読出し、その各々について、含意関係記憶装置64から読出した含意関係を用いて追加矛盾パターン対を生成し、追加矛盾パターン対記憶装置132に格納する。
追加矛盾パターン対導出部130による追加矛盾パターン対の生成が完了すると、スコアリング部134が、各矛盾パターン対のCDPを算出する。図5を参照して、この際、候補対判定部200は、ある矛盾パターン対162から生成された追加矛盾パターン対である候補対の各々について、そのスコアがしきい値α以上か否かを判定し、フラグを各候補対に付与する。サブスコア算出部202は、このフラグに基づいて、ある矛盾パターン対162から生成された候補グループ内の候補対の全てに対するCDPsubを算出し、その候補グループに割当てる。
学習データ拡張部136のスコア確定部218は、追加矛盾パターン対記憶装置132に記憶された追加矛盾パターン対の内、複数の矛盾パターンから導出された候補対には、その候補対に割当てられた最大のCDPsubを割り当て、そうでない候補対にはCDPsubをCDPとして割当てることにより、各候補対のCDPを確定する。上位候補抽出部220は、追加矛盾パターン対記憶装置132に記憶された候補対のうち、矛盾パターン対中間記憶装置82内に記憶されている矛盾パターン対内のスコアが上位5%以内の集合にないもののみを抽出し、それらの中の上位N個を学習データ拡張部136の候補マージ部222に対し出力する。
候補マージ部222は、学習データ記憶装置108に記憶されたに上位候補抽出部220から出力された候補対をマージし、ネガティブ・クリーニング処理部224に出力する。
ネガティブ・クリーニング処理部224は、候補マージ部222により出力された学習データのうち、新たに追加された候補対と競合するものを削除し、残りの学習データを拡張学習データ記憶装置138に格納する。
再び図4を参照して、SVM学習部140は、拡張学習データ記憶装置138に記憶された学習データからSVM142の学習のための素性ベクトルを生成し、SVM142の学習を行なう。学習が済んだSVM142が候補パターン対記憶装置60に含まれる候補パターン対を再度分類することにより、新たな矛盾パターン対の集合と非矛盾パターン対の集合とが得られる。これらはそれぞれ矛盾パターン対記憶装置42及び非矛盾パターン対記憶装置66に記憶される。
このようにして得られた矛盾パターン対記憶装置42内の矛盾パターン対について、その精度を以下の実験により確認したところ、先行技術に対して明らかに優れたものであることが確認できた。
[実験1]
上記実施の形態では、図3に示す反対極性対抽出部100により、学習データを抽出する際に極性が反対の候補パターン対のみを使用している。この効果がどの程度のものかを実験により確認した。
実験では、6億の日本語のウェブページについて、KNP(後掲の参考1)を用いて係り受け関係の解析をしたものから二元パターンとそのパターンで共起している単語ペアとを抽出した。それらを、最も頻度の高い390万のパターン(「XがYにある」等のような「X─[格助詞]Y─[格助詞]述部」の形式のもの)であって、否定、数詞、シンボル、及び句読文字のいずれも含まないものに限定した。意味のある矛盾パターン対は共起する名詞対を共有する傾向があることに鑑み、2つのパターンが3つの共起する単語対を共有するような7億9,200万のパターン対の集合Pallを分類器への入力として用いた。
さらに、一元パターン対で極性が逆のものは互いに矛盾するものである可能性が高いことに鑑み、前述したとおり、反対極性対抽出部100により、集合Pallの内でそれらの一元パターンの極性が反対のもののみからなる集合Poppを選択した。使用した極性辞書記憶装置62は、手作業により極性が付された6,470個の一元パターンを記憶していた。これらのうち、4,882個は活性とラベリングされ、1,558個は不活性とラベリングされていた。
集合Poppは800万の一元パターン対を含み、そのうち約38%が真の矛盾対で、これをSVM104(図3参照)への入力とした。
学習データ作成部106による作業は、3人の作業者による多数決で行なった。その結果、学習データ記憶装置108に記憶された学習データは796個のパターン対を含み、そのうち238対には矛盾対というラベルが付され、558対には非矛盾対のラベルが付されていた。これらの一元パターン対は、分布類似度が高いものから、極性が反対か否かにかかわらず選択した。
集合Pallからさらに矛盾する一元パターンを含む256,000個のパターン対と、非矛盾の一元パターンを含む520万個のパターン対とを抽出した。これらはそれぞれポジティブ学習データ及びネガティブ学習データとして使用した。
予め、開発データを用いて学習データ記憶装置108に記憶する学習データの構成割合を決定した。この決定作業には、手作業によりラベル付された1,000個のサンプルを使用した。6,250個〜50,000個のポジティブサンプル(4つの集合)と、12,500個〜200,000個のネガティブサンプル(5つの集合)を、各ステップごとに個数を倍にしながら20種類の分類器の学習を行なった。その結果得られた最適な学習データセットは、12,500個のポジティブサンプルと10万個のネガティブサンプルとを含むものであった。実験ではこのサンプルを使用した。
SVMの学習には、2次多項式カーネルのTinySVM(後掲の参考2)を用いた。この設定は、事前の予備テストで最もよい成績を示したものである。
この設定で、反対極性対記憶装置102への入力パターンを、極性が反対のパターン対に限定したことによる効果を調べる実験を行なった。実験には、手作業によりラベル付けした2,000個のサンプルからなるテストセットと、集合Pallのうち、スコアが上位のものに3人の作業者による手作業により多数決でラベル付された250個のサンプルとをSVM104への入力として、集合PoppとPallとの双方の上位200万のパターン対について分類を行ない、その結果の精度曲線を描いた。
図6に示す精度曲線は、パターン対を分類結果のスコアにしたがって降順にソートし、上位から順に横軸に示す個数のパターン対を取出したときに、そのパターン対の集合の精度(取出したパターン対の数に対する、分類結果が正解であるパターンの数の割合)がどの程度になるかを縦軸に示したものである。図6に示すように、集合Poppに対して得られる精度曲線242の方が集合Pallに対して得られる精度曲線240に対してかなり高くなることが分かった。すなわち、反対極性対抽出部100により候補パターン対のうち、極性が反対のもののみに限定することにより精度が高くなることが確認できた。
[実験2]
実験2でも、上記したように開発セットとテストセットとを使用した。そのために、3人の作業者に対し、3,000個の二元パターンの各々について矛盾パターン対か非矛盾パターン対かについてのラベル付をするよう依頼した。この3,000個のパターン対は集合Pоppから無作為に選択したものである。この3,000個のパターン対の内、1,000個を開発セット、2,000個をテストセットとした。3人の作業者によるラベル付では、多数決によりパターン対のラベルを決定した。なお、この開発セットは、実験1で学習データ記憶装置108に記憶する学習データの構成割合を決定する際に使用した、手作業によりラベル付された1,000個のサンプルからなるデータと同じものである。
「矛盾」の定義として、参考3として後掲する文献で提案されたincompatibility(2つの文が同時に真となることは非常にまれであること)という条件を採用した。この結果、例えば「XがYを引き起こす。」及び「XがYを防ぐ」というパターン対が互いに矛盾していると言えるのは、これらパターン内の可変要素部分の意味的クラスに属する名詞対のいずれを各可変要素部分に入れても上記した条件が成立する場合である、ということができる。
実験では、以下の3つによる分類結果を比較した。結果を図7に示す。
・PROPOSED:[精度曲線260]上記実施の形態のSVM142による出力。学習データに追加されるパターン対の個数Nは、開発セットを用いた事前の実験結果にしたがい、最も高い精度が得られた6,000個とした。
・BASE:[精度曲線264]図3に示すSVM104による出力。
・PROP−SCORE:[精度曲線262]PROPOSEDと基本的には同じで、スコアCDPに代えてSVM104のスコアを用いるもの。個数Nは30,000に設定した。
図7を参照して、PROPOSEDがBASEに対して高い精度を示すことが分かる。PROPOSEDにより、精度約80%で750,000個の矛盾パターン対が得られた。これらの矛盾パターン対を反義語辞書と対照したところ、これらのパターン対のうち反義語対を含むものは100,886個だけであることが分かった。すなわち、抽出された矛盾パターン対は、単に反義語対のみからなるものではなく、より複雑な意味的矛盾を示すものを多数含むことが分かる。
同じ精度80%では、BASEとPROP−SCOREとからは、それぞれ285,000個と636,000個の矛盾パターン対が得られたのみであった。この結果から、上記実施の形態のように2段階で矛盾パターン対を抽出する方法により、正しく抽出される矛盾パターン対の数が倍以上となり、その範囲も広くなること、及び、第2段階で学習データに候補対を追加する際にスコアCDPを使用した方が、第1段階のSVM104によるスコアを使用する方法よりも正確に、より多くの矛盾パターン対を抽出できることが分かる。
[コンピュータによる実現]
上記実施の形態に係る矛盾パターン対収集装置40は、コンピュータハードウェアと、そのコンピュータハードウェア上で実行されるコンピュータプログラムとにより実現できる。図8はこのコンピュータシステム530の外観を示し、図9はコンピュータシステム530の内部構成を示す。
図8を参照して、このコンピュータシステム530は、メモリポート552及びDVD(Digital Versatile Disc)ドライブ550を有するコンピュータ540と、キーボード546と、マウス548と、モニタ542とを含む。
図9を参照して、コンピュータ540は、メモリポート552及びDVDドライブ550に加えて、CPU(中央処理装置)556と、CPU556、メモリポート552及びDVDドライブ550に接続されたバス566と、ブートプログラム等を記憶する読出専用メモリ(ROM)558と、バス566に接続され、プログラム命令、システムプログラム及び作業データ等を記憶するランダムアクセスメモリ(RAM)560と、ハードディスク554を含む。コンピュータシステム530はさらに、他端末との通信を可能とするために、インターネット32への接続を提供するネットワークインターフェイス(I/F)544を含む。
コンピュータシステム530を上記した実施の形態に係る矛盾パターン対収集装置40の各機能部として機能させるためのコンピュータプログラムは、DVDドライブ550又はメモリポート552に装着されるDVD562又はリムーバブルメモリ564に記憶され、さらにハードディスク554に転送される。又は、プログラムはインターネット32を通じてコンピュータ540に送信されハードディスク554に記憶されてもよい。プログラムは実行の際にRAM560にロードされる。DVD562から、リムーバブルメモリ564から又はインターネット32を介して、直接にRAM560にプログラムをロードしてもよい。
このプログラムは、コンピュータ540を、上記実施の形態に係る矛盾パターン対収集装置40の各機能部として機能させるための複数の命令からなる命令列を含む。コンピュータ540にこの動作を行なわせるのに必要な基本的機能のいくつかは、コンピュータ540上で動作するオペレーティングシステム若しくはサードパーティのプログラム又はコンピュータ540にインストールされる各種プログラミングツールキット又はプログラムライブラリ(例えばSVM用のコンピュータプログラムライブラリ)によりプログラム作成時に静的にリンクすることも、プログラムの実行時に動的にリンクすることも可能である。したがって、このプログラム自体は、流通の際には、この実施の形態のシステム及び方法を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令の内、所望の結果が得られるように制御されたやり方で適切な機能又はプログラミングツールキット又はプログラムライブラリ内の適切なプログラムを実行時に動的に呼出すことにより、上記したシステムとしての機能を実現する命令のみを含んでいればよい。もちろん、プログラムに必要な機能を全て静的にリンクし、他のリソースがなくても動作可能な構成としてもよい。
[参考文献・ウェブページ一覧]
〈参考1〉 S. Kurohashi and M. Nagao. 1994. KN parser: Japanese dependency/case structure analyzer. In Proceedings of the Workshop on Sharable Natural Language Resources, page 48-55.
〈参考2〉 http://chasen.org/~taku/software/TinySVM/
〈参考3〉 M.-C. De Marneffe, A. N. Rafferty, and C. D. Manning. 2008. Finding contradictions in text. Proceedings of ACL 2008, page 1039-1047.
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内での全ての変更を含む。
例えば、上記実施の形態では分類器としてSVMを使用している。しかし本発明はそのような実施の形態には限定されない。例えばナイーブベイズ分類器、最大エントロピーモデル等の教師あり学習による分類器を使用できる。
30 Web質問応答システム
32 インターネット
34 PC
40 矛盾パターン対収集装置
42 矛盾パターン対記憶装置
44 矛盾表現の提示システム
60 候補パターン対記憶装置
62 極性辞書記憶装置
64 含意関係記憶装置
66 非矛盾パターン対記憶装置
68 矛盾パターン対分類部
80 第1段階矛盾パターン対分類部
82 矛盾パターン対中間記憶装置
84 非矛盾パターン対中間記憶装置
86 第2段階矛盾パターン対分類部
100 反対極性対抽出部
102 反対極性対記憶装置
104、142 SVM
106 学習データ作成部
108 学習データ記憶装置
110、140 SVM学習部
130 追加矛盾パターン対導出部
132 追加矛盾パターン対記憶装置
134 スコアリング部
136 学習データ拡張部
138 拡張学習データ記憶装置
200 候補対判定部
202 サブスコア算出部
218 スコア確定部
220 上位候補抽出部
222 候補マージ部
224 ネガティブ・クリーニング処理部

Claims (6)

  1. 単語の含意関係を記憶する含意関係記憶手段と、複数の二元パターン対を記憶する第1の記憶装置とに接続して用いられる矛盾表現収集装置であって、
    二元パターン対は、2つの二元パターンを含み、各二元パターンは一元パターンをサブパターンとして含み、
    前記矛盾表現収集装置は、
    前記第1の記憶装置に記憶された二元パターン対から選択された二元パターン対を学習データとする機械学習により、前記第1の記憶装置に記憶された複数の前記二元パターン対から、互いに矛盾する二元パターン対を抽出する第1の分類手段と、
    前記第1の分類手段により抽出された二元パターン対の各々について、前記含意関係記憶手段に記憶された含意関係を適用して、一方の二元パターンを書換えて新たな二元パターン対を導出する導出手段と、
    前記導出手段により導出された新たな二元パターン対の内で、互いに矛盾する二元パターンからなる可能性が高い二元パターン対を抽出し、前記学習データに追加することで前記学習データを拡張する学習データ拡張手段と、
    前記学習データ拡張手段により拡張された学習データを用いた機械学習により、与えられた二元パターン対を互いに矛盾する二元パターン対とそれ以外とに分類する第2の分類手段とを含む、矛盾表現収集装置。
  2. 前記矛盾表現収集装置はさらに、一元パターンの極性を記憶する極性記憶手段に接続して用いられ、
    前記第1の分類手段は、
    前記極性記憶手段に記憶された一元パターンの極性を用いて、互いに極性が反対の一元パターン対を含む二元パターン対を前記第1の記憶装置から抽出する第1のパターン対抽出手段と、
    互いに矛盾する二元パターンからなるか否かを示すラベルが付された複数の二元パターン対を学習データとして、互いに矛盾する二元パターンからなる二元パターン対を選択する機能を機械学習により学習し、前記第1の記憶装置に記憶された前記複数の二元パターン対から、互いに矛盾する二元パターンからなる二元パターン対を選択し出力する機械学習手段とを含む、請求項1に記載の矛盾表現収集装置。
  3. 前記第1の分類手段は、出力する二元パターン対に、当該二元パターン対が互いに矛盾する二元パターンからなるか否かの可能性を示すスコアを付して出力し、
    前記学習データ拡張手段は、
    前記第1の分類手段により抽出された二元パターン対のグループの各々について、当該グループに含まれる二元パターン対のうち、スコアが予め定めたしきい値以上であるものの割合を当該グループに含まれる各二元パターンのスコアとして算出するスコア算出手段と、
    前記第1の分類手段により新たに導出された二元パターン対の各々について、当該二元パターン対に対して前記スコア算出手段により算出されたスコアが最大のものを割当てることで、各二元パターン対のスコアを確定させるスコア確定手段と、
    前記第1の分類手段により新たに導出された二元パターン対のうち、前記スコア確定手段により確定されたスコアが上位のものから所定個数を選択し、前記学習データに追加する追加手段とを含む、請求項2に記載の矛盾表現収集装置。
  4. 前記追加手段は、前記第1の分類手段により新たに導出された二元パターン対のうち、前記第1の分類手段により抽出された二元パターン対の集合に既に含まれているものは、前記学習データへの追加時に除外する、請求項1〜請求項3のいずれかに記載の矛盾表現収集装置。
  5. 前記第1の分類手段と、前記第2の分類手段とのいずれかは教師付学習による分類手段を含む、請求項1〜請求項4のいずれかに記載の矛盾表現収集装置。
  6. 単語の含意関係を記憶する含意関係記憶手段と、複数の二元パターン対を記憶する第1の記憶装置とに接続されるコンピュータにおいて、当該コンピュータを、矛盾表現収集装置として機能させるコンピュータプログラムであって、
    二元パターン対は、2つの二元パターンを含み、各二元パターンは一元パターンをサブパターンとして含み、
    前記コンピュータプログラムは、前記コンピュータを、
    前記第1の記憶装置に記憶された二元パターン対から選択された二元パターン対を学習データとする機械学習により、前記第1の記憶装置に記憶された複数の前記二元パターン対から、互いに矛盾する二元パターン対を抽出する第1の分類手段と、
    前記第1の分類手段により抽出された二元パターン対の各々について、前記含意関係記憶手段に記憶された含意関係を適用して、一方の二元パターンを書換えて新たな二元パターン対を導出する導出手段と、
    前記導出手段により導出された新たな二元パターン対の内で、互いに矛盾する二元パターンからなる可能性が高い二元パターン対を抽出し、前記学習データに追加することで前記学習データを拡張する学習データ拡張手段と、
    前記学習データ拡張手段により拡張された学習データを用いた機械学習により、与えられた二元パターン対を互いに矛盾する二元パターン対とそれ以外とに分類する第2の分類手段として機能させる、コンピュータプログラム。
JP2013210793A 2013-10-08 2013-10-08 矛盾表現収集装置及びそのためのコンピュータプログラム Active JP6150291B2 (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
JP2013210793A JP6150291B2 (ja) 2013-10-08 2013-10-08 矛盾表現収集装置及びそのためのコンピュータプログラム
CN201480055114.4A CN105612515B (zh) 2013-10-08 2014-10-06 矛盾表现收集装置以及记录介质
PCT/JP2014/076730 WO2015053236A1 (ja) 2013-10-08 2014-10-06 矛盾表現収集装置及びそのためのコンピュータプログラム
KR1020167008387A KR102235990B1 (ko) 2013-10-08 2014-10-06 모순 표현 수집장치 및 그를 위한 컴퓨터 프로그램
EP14852479.6A EP3057003A4 (en) 2013-10-08 2014-10-06 Device for collecting contradictory expression and computer program for same
US15/026,969 US20160260026A1 (en) 2013-10-08 2014-10-06 Device for collecting contradictory expressions and computer program therefor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013210793A JP6150291B2 (ja) 2013-10-08 2013-10-08 矛盾表現収集装置及びそのためのコンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2015075854A true JP2015075854A (ja) 2015-04-20
JP6150291B2 JP6150291B2 (ja) 2017-06-21

Family

ID=52813052

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013210793A Active JP6150291B2 (ja) 2013-10-08 2013-10-08 矛盾表現収集装置及びそのためのコンピュータプログラム

Country Status (6)

Country Link
US (1) US20160260026A1 (ja)
EP (1) EP3057003A4 (ja)
JP (1) JP6150291B2 (ja)
KR (1) KR102235990B1 (ja)
CN (1) CN105612515B (ja)
WO (1) WO2015053236A1 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016218581A (ja) * 2015-05-15 2016-12-22 日本電信電話株式会社 推移矛盾収集装置、方法、及びプログラム
WO2017119060A1 (ja) * 2016-01-05 2017-07-13 株式会社日立製作所 情報提示システム
KR20190060995A (ko) * 2016-10-07 2019-06-04 코쿠리츠켄큐카이하츠호진 죠호츠신켄큐키코 논팩토이드형 질의응답 시스템 및 방법 그리고 그것을 위한 컴퓨터 프로그램
CN113167495A (zh) * 2018-12-12 2021-07-23 三菱电机株式会社 空调控制装置和空调控制方法
US11275810B2 (en) 2018-03-23 2022-03-15 Baidu Online Network Technology (Beijing) Co., Ltd. Artificial intelligence-based triple checking method and apparatus, device and storage medium

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5825676B2 (ja) * 2012-02-23 2015-12-02 国立研究開発法人情報通信研究機構 ノン・ファクトイド型質問応答システム及びコンピュータプログラム
JP6551968B2 (ja) * 2015-03-06 2019-07-31 国立研究開発法人情報通信研究機構 含意ペア拡張装置、そのためのコンピュータプログラム、及び質問応答システム
RU2618374C1 (ru) * 2015-11-05 2017-05-03 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Выявление словосочетаний в текстах на естественном языке
US11275649B2 (en) 2018-01-19 2022-03-15 Microsoft Technology Licensing, Llc Facilitating detection of data errors using existing data
CN109710943B (zh) * 2018-12-29 2022-12-20 携程旅游信息技术(上海)有限公司 矛盾语句识别方法和系统及条款逻辑鉴别方法和系统
US11194964B2 (en) * 2019-03-22 2021-12-07 International Business Machines Corporation Real-time assessment of text consistency
JP2021015371A (ja) * 2019-07-10 2021-02-12 富士通株式会社 情報処理プログラム、情報処理方法、情報処理装置
CN110618980A (zh) * 2019-09-09 2019-12-27 上海交通大学 基于法律文本精确匹配和矛盾检测的系统及方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012128468A (ja) * 2010-12-13 2012-07-05 National Institute Of Information & Communication Technology 端末装置、表現出力方法、およびプログラム
JP2013175097A (ja) * 2012-02-27 2013-09-05 National Institute Of Information & Communication Technology 述語テンプレート収集装置、特定フレーズペア収集装置、及びそれらのためのコンピュータプログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4349875B2 (ja) * 2003-09-19 2009-10-21 株式会社リコー 文書フィルタリング装置、文書フィルタリング方法、および文書フィルタリングプログラム
JP2006252333A (ja) * 2005-03-11 2006-09-21 Nara Institute Of Science & Technology データ処理方法、データ処理装置およびそのプログラム
WO2012008503A1 (ja) * 2010-07-13 2012-01-19 国立大学法人横浜国立大学 パッセージ抽出装置及びパッセージ抽出方法
JP5542744B2 (ja) * 2011-06-07 2014-07-09 株式会社東芝 文章抽出装置およびプログラム
JP5895813B2 (ja) * 2012-01-18 2016-03-30 富士ゼロックス株式会社 プログラム及び検索装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012128468A (ja) * 2010-12-13 2012-07-05 National Institute Of Information & Communication Technology 端末装置、表現出力方法、およびプログラム
JP2013175097A (ja) * 2012-02-27 2013-09-05 National Institute Of Information & Communication Technology 述語テンプレート収集装置、特定フレーズペア収集装置、及びそれらのためのコンピュータプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
中川 哲治、外4名: "Web上の客観的記述からの評価情報抽出に関する技術的検討", 言語処理学会第14回年次大会発表論文集, JPN6014052891, 17 March 2008 (2008-03-17), JP, pages p.344−347 *
河原 大輔、外2名: "主要・対立表現の俯瞰的把握−ウェブの情報信頼性分析に向けて", 情報処理学会研究報告, vol. 第2008巻,第67号, JPN6014052893, 10 July 2008 (2008-07-10), JP, pages p.49−54 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016218581A (ja) * 2015-05-15 2016-12-22 日本電信電話株式会社 推移矛盾収集装置、方法、及びプログラム
WO2017119060A1 (ja) * 2016-01-05 2017-07-13 株式会社日立製作所 情報提示システム
KR20190060995A (ko) * 2016-10-07 2019-06-04 코쿠리츠켄큐카이하츠호진 죠호츠신켄큐키코 논팩토이드형 질의응답 시스템 및 방법 그리고 그것을 위한 컴퓨터 프로그램
KR102408083B1 (ko) 2016-10-07 2022-06-13 코쿠리츠켄큐카이하츠호진 죠호츠신켄큐키코 논팩토이드형 질의응답 시스템 및 방법 그리고 그것을 위한 컴퓨터 프로그램
US11275810B2 (en) 2018-03-23 2022-03-15 Baidu Online Network Technology (Beijing) Co., Ltd. Artificial intelligence-based triple checking method and apparatus, device and storage medium
CN113167495A (zh) * 2018-12-12 2021-07-23 三菱电机株式会社 空调控制装置和空调控制方法

Also Published As

Publication number Publication date
WO2015053236A1 (ja) 2015-04-16
KR20160067102A (ko) 2016-06-13
CN105612515B (zh) 2019-05-03
US20160260026A1 (en) 2016-09-08
EP3057003A1 (en) 2016-08-17
CN105612515A (zh) 2016-05-25
EP3057003A4 (en) 2017-08-09
JP6150291B2 (ja) 2017-06-21
KR102235990B1 (ko) 2021-04-05

Similar Documents

Publication Publication Date Title
JP6150291B2 (ja) 矛盾表現収集装置及びそのためのコンピュータプログラム
US8370278B2 (en) Ontological categorization of question concepts from document summaries
Hassan et al. Sentiment analysis on bangla and romanized bangla text (BRBT) using deep recurrent models
de Arruda et al. Paragraph-based representation of texts: A complex networks approach
KR20120109943A (ko) 문장에 내재한 감정 분석을 위한 감정 분류 방법
Kumar et al. Personality traits classification on twitter
Sarawgi et al. Opinion mining: aspect level sentiment analysis using SentiWordNet and Amazon web services
Oueslati et al. Sentiment analysis for helpful reviews prediction
Tabak et al. Comparison of emotion lexicons
Aljedaani et al. Learning sentiment analysis for accessibility user reviews
Whitehouse et al. Evaluation of fake news detection with knowledge-enhanced language models
CN109284389A (zh) 一种文本数据的信息处理方法、装置
Thakur et al. A review on text based emotion recognition system
CN116151233A (zh) 数据标注、生成方法、模型训练方法、设备和介质
US11243916B2 (en) Autonomous redundancy mitigation in knowledge-sharing features of a collaborative work tool
CN109254993B (zh) 一种基于文本的性格数据分析方法及系统
Li et al. TASR: Adversarial learning of topic-agnostic stylometric representations for informed crisis response through social media
Obagbuwa et al. Supervised machine learning models for depression sentiment analysis
Pinto et al. Intelligent and fuzzy systems applied to language & knowledge engineering
Haripriya et al. Detection of sarcasm from consumer sentiments on social media about luxury brands
Praveena et al. Chunking based malayalam paraphrase identification using unfolding recursive autoencoders
Hisham et al. An innovative approach for fake news detection using machine learning
Sriphaew et al. Cool blog identi? cation using topic-based models
Bhagat Sentiment Analysis using an ensemble of Feature Selection Algorithms
Mamatha et al. Supervised aspect category detection of co-occurrence data using conditional random fields

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160923

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170509

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170517

R150 Certificate of patent or registration of utility model

Ref document number: 6150291

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250