JP6551968B2 - 含意ペア拡張装置、そのためのコンピュータプログラム、及び質問応答システム - Google Patents
含意ペア拡張装置、そのためのコンピュータプログラム、及び質問応答システム Download PDFInfo
- Publication number
- JP6551968B2 JP6551968B2 JP2015044419A JP2015044419A JP6551968B2 JP 6551968 B2 JP6551968 B2 JP 6551968B2 JP 2015044419 A JP2015044419 A JP 2015044419A JP 2015044419 A JP2015044419 A JP 2015044419A JP 6551968 B2 JP6551968 B2 JP 6551968B2
- Authority
- JP
- Japan
- Prior art keywords
- pair
- implication
- unary
- pattern
- repair
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本明細書では、「ユナリパターン」とは、変数が1つと述語、及び日本語ではそれらを結ぶ助詞からなるパターンのことをいう。上に挙げた「Aを引き起こす」、「Aをもたらす」などがその例である。
<基本的考え方>
第1の実施の形態は、動詞の間の含意関係を記述した既存の動詞含意データベース(DB)からユナリペアを生成する。こうして得たユナリペアに、さらに既存のユナリパターンDBから生成したユナリペアを加える。得られた複数のユナリペアを概略以下の手法でさらに拡張する。詳細については後述する。
(2)述部を可能形に変形
これらの変形を、各ペアのうち一方のみ、他方のみ、及び双方に施すことができる。
図1に、本発明の一実施の形態に係る含意パターンペア拡張装置50のブロック図を示す。図1を参照して、含意パターンペア拡張装置50は、第1のユナリDB52、第2のユナリDB54、動詞含意DB56、及び文脈類似度記憶部58を用いて、拡張ユナリペアDB60及び拡張バイナリペアDB62を出力するためのものである。
図1を参照して、上記した含意パターンペア拡張装置50は以下のように動作する。なお、含意パターンペア拡張装置50が以下の処理を実行するに先立って、第1のユナリDB52、第2のユナリDB54、動詞含意DB56、文脈類似度記憶部58、漢字辞書106及びバイナリペア生成規則記憶部110については予めその内容を準備しておく必要がある。
(2)読み又は形態(可能形・受動態)が異なる同じ述語
(3)上記以外で第1のユナリDB52及び第2のユナリDB54から拡張されたユナリペア
そして、データの由来にかかわらず、上記ウェブから収集した文書中の頻度がある定数未満のパターンの優先順位は最も低くなるように設定した。後述の評価実験では、ウェブ上から収集した文書の数は6億であり、最も優先順位を低く設定するためのしきい値は10とした。
以上に構成を説明した第1の実施の形態による含意ペア(ユナリペア及びバイナリペア)の評価実験について述べる。この実験では、第1のユナリDB52及び第2のユナリDB54の代わりに、3つのユナリペアの集合を用いた。これらのうち第1のものは、既存のユナリペアから、ペアを構成するパターン間の文脈類似度が上位であるものを人手でチェックして構築したもので、83,706例のユナリペアからなる。第2のものは、既存の述語対から助詞が「を」「に」「で」である述語を選択してユナリペアとしたものである。この際、意味があいまいなものは人手でチェックし、さらに正例と判断されたもののみを選択することにより構築したもので、7,334例のユナリペアからなる。第3のものは、出願人がこれまでに構築してきたいくつかのデータを基に得た27,369例の正例からなるものである。
・推移律で拡張したパターン:α=−0.2、β=−0.8
・上記以外のパターン:α=0.1、β=−0.3
図7はユナリペアの全体の評価を示すグラフである。このグラフは以下の様にして拡張ユナリペアDB60に得られたユナリペア全体(3,765,647個)を評価したものである。
本実施の形態では、推移律の適用を2段階にとどめている。これは、3段階以上になると、処理に時間を要するためである。原理的には、この推移律は何段階にでも適用できる。図4に示す処理224を入れ子形式で適用すればよい。もっとも、推移律の適用段階の数が多くなると精度の低下が予測される。実用的には3段階又は4段階程度が限度であると考えられる。しかし、処理の仕方によってはそれ以上の数の含意ペアの間で推移律を適用しても精度の低下を防止できるかも知れない。それらについては今後の検証が必要である。
上記第1の実施の形態に係る含意パターンペア拡張装置50により、拡張ユナリペアDB60及び拡張バイナリペアDB62のように、複数のDBを得ることができる。第2の実施の形態は、そのような複数のDBを用いて質問に対する回答をウェブアーカイブから検索する質問応答システムに関する。なお、この第2の実施の形態に係る質問応答システムは、一般的な例として、変数をn項まで含むパターンにまで拡張した含意ペアを記憶したDB、すなわち拡張N−アリDBまで扱うものとする。拡張ユナリペア、拡張バイナリペア、及び一般的な拡張N−アリペアをまとめて、以下では拡張ペアと呼び、これらをそれぞれ記憶したDB(拡張ユナリペアDB60、拡張バイナリペアDB62等)を総称して拡張ペアDBと呼ぶ。
上記第1の実施の形態に係る含意パターンペア拡張装置50、第2の実施の形態に係る質問応答システム500及びその他の変形例は、コンピュータハードウェアと、そのコンピュータハードウェア上で実行されるコンピュータプログラムとにより実現できる。図11はこのコンピュータシステム930の外観を示し、図12はコンピュータシステム930の内部構成を示す。
52 第1のユナリDB
54 第2のユナリDB
56 動詞含意DB
58 文脈類似度記憶部
60 拡張ユナリペアDB
62 拡張バイナリペアDB
100 ユナリペア追加部
102 ユナリペアDB
104 ユナリペア生成部
106 漢字辞書
108 ユナリペア拡張部
110 バイナリペア生成規則記憶部
112 バイナリペア追加部
164 文脈類似度計算処理
180 レコード読出部
182 受動態・可能形追加部
184 推移律ペア追加部
500 質問応答システム
522 構文解析部
526 パターン抽出部
528 パターン拡張部
534 ウェブアーカイブ
536 回答候補検索部
548 回答選択部
Claims (6)
- m項の含意ペアからn項の含意ペアを生成することで含意ペアを拡張するための含意ペア拡張装置であって、ただしm及びnは0以上でm<nを満たす整数であり、前記含意ペアの各々は、第1の言語パターンと、前記第1の言語パターンが含意する第2の言語パターンとのペアを含み、
前記含意ペア拡張装置は、前記m項の含意ペアから前記n項の含意ペアを生成するための生成規則を記憶するための生成規則記憶手段を含み、当該生成規則は、当該生成規則を適用するために前記m項の含意ペアが充足すべき条件と、当該条件が充足されたときに前記m項の含意ペアを構成する言語パターンの各々に対するn−m個の変数の追加を含む言語パターンの変形規則を規定し、
前記m項の含意ペアを受け、当該m項の含意ペアに対して、前記生成規則記憶手段に記憶された生成規則の各々について、当該生成規則の条件が前記m項の含意ペアにより充足されるか否か判定するための判定手段と、
前記判定手段により前記条件が充足されると判定された生成規則の前記変形規則を前記m項の含意ペアを構成する各言語パターンに適用することにより、前記n項の含意ペアを生成するための規則適用手段とを含む、含意ペア拡張装置。 - 前記mは0であり、
前記m項の含意ペアは、各々が述語からなる述語の含意ペアである、請求項1に記載の含意ペア拡張装置。 - 前記nは1である、請求項2に記載の含意ペア拡張装置。
- さらに、前記m項の含意ペアについて推移律を適用することにより、前記m項の含意ペアを拡張するための推移律適用手段を含む、請求項1〜請求項3のいずれかに記載の含意ペア拡張装置。
- コンピュータを、請求項1〜請求項4のいずれかに記載の全ての手段として機能させる、コンピュータプログラム。
- 請求項1〜請求項4のいずれかに記載の含意ペア拡張装置により拡張された含意ペアを記憶するための含意ペア記憶手段と、
複数の文書を記憶した文書記憶手段と、
質問を受け、当該質問を構文解析することにより、当該質問に対する回答が持つべき言語パターンを抽出するためのパターン抽出手段と、
前記パターン抽出手段により抽出された言語パターンの各々を、前記含意ペア記憶手段に記憶された含意ペアを用いて拡張するためのパターン拡張手段と、
前記パターン拡張手段により拡張された言語パターンに合致する表現を前記文書記憶手段に記憶された文書から検索し、前記質問に対する回答としてのふさわしさを示すスコアを算出するための検索手段と、
前記検索手段により検索された回答候補のうち、検索時に合致した言語パターンに含まれる変数の数が多いものを優先して、前記スコアを用いて回答を選択するための選択手段とを含む、質問応答システム。
Priority Applications (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015044419A JP6551968B2 (ja) | 2015-03-06 | 2015-03-06 | 含意ペア拡張装置、そのためのコンピュータプログラム、及び質問応答システム |
US15/553,998 US10380250B2 (en) | 2015-03-06 | 2016-02-09 | Entailment pair extension apparatus, computer program therefor and question-answering system |
CN201680013131.0A CN107408110B (zh) | 2015-03-06 | 2016-02-09 | 含意配对扩展装置、记录介质以及提问应答系统 |
PCT/JP2016/053750 WO2016143449A1 (ja) | 2015-03-06 | 2016-02-09 | 含意ペア拡張装置、そのためのコンピュータプログラム、及び質問応答システム |
KR1020177023997A KR102468481B1 (ko) | 2015-03-06 | 2016-02-09 | 함의 페어 확장 장치, 그것을 위한 컴퓨터 프로그램, 및 질문 응답 시스템 |
EP16761421.3A EP3267327A4 (en) | 2015-03-06 | 2016-02-09 | Entailment pair expansion device, computer program therefor, and question-answering system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015044419A JP6551968B2 (ja) | 2015-03-06 | 2015-03-06 | 含意ペア拡張装置、そのためのコンピュータプログラム、及び質問応答システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016164708A JP2016164708A (ja) | 2016-09-08 |
JP6551968B2 true JP6551968B2 (ja) | 2019-07-31 |
Family
ID=56876607
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015044419A Active JP6551968B2 (ja) | 2015-03-06 | 2015-03-06 | 含意ペア拡張装置、そのためのコンピュータプログラム、及び質問応答システム |
Country Status (6)
Country | Link |
---|---|
US (1) | US10380250B2 (ja) |
EP (1) | EP3267327A4 (ja) |
JP (1) | JP6551968B2 (ja) |
KR (1) | KR102468481B1 (ja) |
CN (1) | CN107408110B (ja) |
WO (1) | WO2016143449A1 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11140115B1 (en) * | 2014-12-09 | 2021-10-05 | Google Llc | Systems and methods of applying semantic features for machine learning of message categories |
US11042579B2 (en) * | 2016-08-25 | 2021-06-22 | Lakeside Software, Llc | Method and apparatus for natural language query in a workspace analytics system |
JP6726638B2 (ja) * | 2017-05-11 | 2020-07-22 | 日本電信電話株式会社 | 含意認識装置、方法、及びプログラム |
JP6986978B2 (ja) * | 2018-01-16 | 2021-12-22 | ヤフー株式会社 | 情報処理装置、情報処理方法、及び情報処理プログラム |
CN111931018B (zh) * | 2020-10-14 | 2021-02-02 | 北京世纪好未来教育科技有限公司 | 试题匹配及试题拆分方法、装置和计算机存储介质 |
CN112434517B (zh) * | 2020-11-09 | 2023-08-04 | 西安交通大学 | 一种结合主动学习的社区问答网站答案排序方法及系统 |
Family Cites Families (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6735622B1 (en) * | 1997-04-23 | 2004-05-11 | Xerox Corporation | Transferring constraint descriptors between light-weight devices for document access |
CN101377777A (zh) * | 2007-09-03 | 2009-03-04 | 北京百问百答网络技术有限公司 | 一种自动问答方法和系统 |
US8332394B2 (en) * | 2008-05-23 | 2012-12-11 | International Business Machines Corporation | System and method for providing question and answers with deferred type evaluation |
US8275803B2 (en) * | 2008-05-14 | 2012-09-25 | International Business Machines Corporation | System and method for providing answers to questions |
JP5398007B2 (ja) * | 2010-02-26 | 2014-01-29 | 独立行政法人情報通信研究機構 | 関係情報拡張装置、関係情報拡張方法、及びプログラム |
US8554542B2 (en) * | 2010-05-05 | 2013-10-08 | Xerox Corporation | Textual entailment method for linking text of an abstract to text in the main body of a document |
US11068657B2 (en) * | 2010-06-28 | 2021-07-20 | Skyscanner Limited | Natural language question answering system and method based on deep semantics |
US8595213B2 (en) * | 2010-07-15 | 2013-11-26 | Semmle Limited | Type inference for datalog with complex type hierarchies |
US9020872B2 (en) * | 2010-12-21 | 2015-04-28 | International Business Machines Corporation | Detecting missing rules with most general conditions |
SG188994A1 (en) * | 2011-10-20 | 2013-05-31 | Nec Corp | Textual entailment recognition apparatus, textual entailment recognition method, and computer-readable recording medium |
US20130103390A1 (en) * | 2011-10-21 | 2013-04-25 | Atsushi Fujita | Method and apparatus for paraphrase acquisition |
JP5825676B2 (ja) * | 2012-02-23 | 2015-12-02 | 国立研究開発法人情報通信研究機構 | ノン・ファクトイド型質問応答システム及びコンピュータプログラム |
JP5924666B2 (ja) * | 2012-02-27 | 2016-05-25 | 国立研究開発法人情報通信研究機構 | 述語テンプレート収集装置、特定フレーズペア収集装置、及びそれらのためのコンピュータプログラム |
US20150006157A1 (en) * | 2012-03-14 | 2015-01-01 | Nec Corporation | Term synonym acquisition method and term synonym acquisition apparatus |
CN105264518B (zh) * | 2013-02-28 | 2017-12-01 | 株式会社东芝 | 数据处理装置及故事模型构建方法 |
WO2014182820A2 (en) * | 2013-05-07 | 2014-11-13 | Haley Paul V | System for knowledge acquisition |
US20140372102A1 (en) * | 2013-06-18 | 2014-12-18 | Xerox Corporation | Combining temporal processing and textual entailment to detect temporally anchored events |
JP6131765B2 (ja) * | 2013-08-06 | 2017-05-24 | 富士ゼロックス株式会社 | 情報処理装置及び情報処理プログラム |
JP6150291B2 (ja) * | 2013-10-08 | 2017-06-21 | 国立研究開発法人情報通信研究機構 | 矛盾表現収集装置及びそのためのコンピュータプログラム |
JP5904559B2 (ja) * | 2013-12-20 | 2016-04-13 | 国立研究開発法人情報通信研究機構 | シナリオ生成装置、及びそのためのコンピュータプログラム |
JP6403382B2 (ja) * | 2013-12-20 | 2018-10-10 | 国立研究開発法人情報通信研究機構 | フレーズペア収集装置、及びそのためのコンピュータプログラム |
JP5907393B2 (ja) * | 2013-12-20 | 2016-04-26 | 国立研究開発法人情報通信研究機構 | 複雑述語テンプレート収集装置、及びそのためのコンピュータプログラム |
US20150199339A1 (en) * | 2014-01-14 | 2015-07-16 | Xerox Corporation | Semantic refining of cross-lingual information retrieval results |
CN103902652A (zh) * | 2014-02-27 | 2014-07-02 | 深圳市智搜信息技术有限公司 | 自动问答系统 |
US10055402B2 (en) * | 2014-03-17 | 2018-08-21 | Accenture Global Services Limited | Generating a semantic network based on semantic connections between subject-verb-object units |
CN103902733B (zh) * | 2014-04-18 | 2017-02-01 | 北京大学 | 基于疑问词扩展的信息检索方法 |
KR20150129134A (ko) * | 2014-05-08 | 2015-11-19 | 한국전자통신연구원 | 질의 응답 시스템 및 그 방법 |
WO2016013175A1 (ja) * | 2014-07-22 | 2016-01-28 | 日本電気株式会社 | テキスト処理システム、テキスト処理方法およびテキスト処理プログラム |
US9946763B2 (en) * | 2014-11-05 | 2018-04-17 | International Business Machines Corporation | Evaluating passages in a question answering computer system |
US10783159B2 (en) * | 2014-12-18 | 2020-09-22 | Nuance Communications, Inc. | Question answering with entailment analysis |
US20160299881A1 (en) * | 2015-04-07 | 2016-10-13 | Xerox Corporation | Method and system for summarizing a document |
US20170046139A1 (en) * | 2015-08-14 | 2017-02-16 | Xiaohua Yi | Parsing and Interpretation of Logical Statements |
US11520813B2 (en) * | 2016-01-04 | 2022-12-06 | International Business Machines Corporation | Entailment knowledge base in natural language processing systems |
US10628738B2 (en) * | 2017-01-31 | 2020-04-21 | Conduent Business Services, Llc | Stance classification of multi-perspective consumer health information |
-
2015
- 2015-03-06 JP JP2015044419A patent/JP6551968B2/ja active Active
-
2016
- 2016-02-09 WO PCT/JP2016/053750 patent/WO2016143449A1/ja active Application Filing
- 2016-02-09 US US15/553,998 patent/US10380250B2/en active Active
- 2016-02-09 CN CN201680013131.0A patent/CN107408110B/zh active Active
- 2016-02-09 EP EP16761421.3A patent/EP3267327A4/en not_active Withdrawn
- 2016-02-09 KR KR1020177023997A patent/KR102468481B1/ko active IP Right Grant
Also Published As
Publication number | Publication date |
---|---|
CN107408110B (zh) | 2020-12-15 |
US20180067922A1 (en) | 2018-03-08 |
US10380250B2 (en) | 2019-08-13 |
WO2016143449A1 (ja) | 2016-09-15 |
KR102468481B1 (ko) | 2022-11-18 |
EP3267327A1 (en) | 2018-01-10 |
EP3267327A4 (en) | 2018-12-05 |
KR20170122755A (ko) | 2017-11-06 |
JP2016164708A (ja) | 2016-09-08 |
CN107408110A (zh) | 2017-11-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6551968B2 (ja) | 含意ペア拡張装置、そのためのコンピュータプログラム、及び質問応答システム | |
KR102431549B1 (ko) | 인과 관계 인식 장치 및 그것을 위한 컴퓨터 프로그램 | |
CN107209759B (zh) | 注解辅助装置及记录介质 | |
JP7324354B2 (ja) | マルチメディア会話からの意図発見のためのシステムおよび方法 | |
EP2317507B1 (en) | Corpus compilation for language model generation | |
JPH1145241A (ja) | かな漢字変換システムおよびそのシステムの各手段としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
US11531693B2 (en) | Information processing apparatus, method and non-transitory computer readable medium | |
JP2019082931A (ja) | 検索装置、類似度算出方法、およびプログラム | |
CN110245349B (zh) | 一种句法依存分析方法、装置及一种电子设备 | |
JP2003196280A (ja) | テキスト生成方法及びテキスト生成装置 | |
JP4534666B2 (ja) | テキスト文検索装置及びテキスト文検索プログラム | |
JP2017027233A (ja) | 質問文生成装置、方法、及びプログラム | |
JP2006338261A (ja) | 翻訳装置、翻訳方法及び翻訳プログラム | |
JP5447368B2 (ja) | 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム | |
JP4361299B2 (ja) | 評価表現抽出装置、プログラム、及び記憶媒体 | |
JP2013134753A (ja) | 誤り文修正装置、誤り文修正方法およびプログラム | |
JP6067616B2 (ja) | 発話生成手法学習装置、発話生成手法選択装置、発話生成手法学習方法、発話生成手法選択方法、プログラム | |
JP2019008476A (ja) | 生成プログラム、生成装置及び生成方法 | |
JP4940251B2 (ja) | 文書処理プログラム及び文書処理装置 | |
KR20040018008A (ko) | 품사 태깅 장치 및 태깅 방법 | |
JP4592556B2 (ja) | 文書検索装置、文書検索方法および文書検索プログラム | |
JP4059501B2 (ja) | 自然語辞書更新装置 | |
JP4635585B2 (ja) | 質問応答システム、質問応答方法及び質問応答プログラム | |
US20230143110A1 (en) | System and metohd of performing data training on morpheme processing rules | |
JP5066147B2 (ja) | 文書処理装置およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180302 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190611 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190627 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6551968 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |