JP5431532B2 - Question answering apparatus, model learning apparatus, method, and program - Google Patents

Question answering apparatus, model learning apparatus, method, and program Download PDF

Info

Publication number
JP5431532B2
JP5431532B2 JP2012130645A JP2012130645A JP5431532B2 JP 5431532 B2 JP5431532 B2 JP 5431532B2 JP 2012130645 A JP2012130645 A JP 2012130645A JP 2012130645 A JP2012130645 A JP 2012130645A JP 5431532 B2 JP5431532 B2 JP 5431532B2
Authority
JP
Japan
Prior art keywords
answer
question
sentence
feature
sentences
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012130645A
Other languages
Japanese (ja)
Other versions
JP2013254420A (en
Inventor
竜一郎 東中
俊朗 牧野
義博 松尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2012130645A priority Critical patent/JP5431532B2/en
Publication of JP2013254420A publication Critical patent/JP2013254420A/en
Application granted granted Critical
Publication of JP5431532B2 publication Critical patent/JP5431532B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Description

本発明は、質問応答装置、モデル学習装置、方法、及びプログラムに係り、特に、入力された質問文に対してノンファクトイド型の質問応答を行うための回答文を生成する質問応答装置、モデル学習装置、方法、及びプログラムに関する。   The present invention relates to a question answering device, a model learning device, a method, and a program, and in particular, a question answering device and a model for generating an answer sentence for performing a non-factoid type question answer to an inputted question sentence. The present invention relates to a learning apparatus, method, and program.

自然言語の質問について、回答を出力するシステムを質問応答システムと呼ぶ。質問応答システムは、「世界一高い山は」のように、主に単語が回答となる質問に答える「ファクトイド型」のものと、「黒澤明ってどんな人」や「なぜホタルは光るのか」のように単語での回答が難しく、文章で回答する「ノンファクトイド型」に分類される。   A system that outputs answers to natural language questions is called a question answering system. The question answering system is a “factoid type” answering questions that are mainly answered by words, such as “The highest mountain in the world”, “What kind of person is Akira Kurosawa”, and “Why do fireflies shine?” Like this, it is difficult to answer in words, and it is classified as “non-factoid type” that answers in sentences.

一般に、ノンファクトイド型の質問応答システムは、質問について回答候補文を、正解と思われる順に並び替えることで回答する。上位に正解が含まれていれば、よいシステムである。このような並び替えには、経験則によるルールと、質問文及び回答候補文の類似性とを組み合わせる手法や、学習データに基づいて並び替える手法が提案されている。   In general, a non-factoid type question answering system answers a question by rearranging answer candidate sentences in an order that seems to be correct. If the correct answer is included in the upper rank, it is a good system. For such rearrangement, a method of combining rules based on empirical rules and similarities between question sentences and answer candidate sentences, and a technique of rearranging based on learning data have been proposed.

例えば、非特許文献1は、ノンファクトイド型の、特に、理由を尋ねる質問について答える手法についてのものである。この手法は、まず、理由に関する手掛かり語(「理由」や「原因」など)が含まれているかによって回答候補文を絞り、その後、質問文に含まれている単語が多い候補文から上位にランキングしている。ここで、回答候補文は新聞記事から得ている。   For example, Non-Patent Document 1 relates to a non-factoid type, particularly a method for answering a question asking for a reason. This method first narrows down answer candidate sentences based on whether clue words related to the reason (such as “reason” or “cause”) are included, and then ranks higher in the candidate sentence with many words included in the question sentence. doing. Here, the answer candidate sentences are obtained from newspaper articles.

非特許文献2は、質問について、正解と不正解文のデータから、正解を不正解文よりも上位にランキングするランキング関数を、機械学習の手法により学習し、その関数を用いて、回答候補文をランキングする手法についてのものである。   Non-Patent Document 2 uses a machine learning method to learn a ranking function that ranks a correct answer higher than an incorrect answer sentence from correct answer and incorrect answer data, and uses that function as a candidate answer sentence. It is about the method of ranking.

機械学習では、質問と回答候補文のペアそれぞれについて特徴量を抽出し、その特徴量の重みをデータから学習する。上記の非特許文献2では、特徴量として、質問文に含まれている単語のカバレッジ、質問と回答候補文の相互の言い換えられやすさ、回答候補文における質問単語の連続性、質問と回答候補文の共起の度合い、などが用いられており、インターネット上に存在する大量のQ&Aサイトのデータを用いた実験により、その有効性が報告されている。   In machine learning, feature quantities are extracted for each pair of a question and an answer candidate sentence, and the weights of the feature quantities are learned from the data. In the above Non-Patent Document 2, as features, coverage of words included in a question sentence, ease of mutual paraphrasing of questions and answer candidate sentences, continuity of question words in answer candidate sentences, questions and answer candidates The degree of sentence co-occurrence is used, and its effectiveness has been reported by experiments using a large amount of Q & A data on the Internet.

上記の非特許文献1、2のどちらについても、質問文と意味内容の関連性が高い回答候補文がいい回答であるという仮定に則った手法である。   For both Non-Patent Documents 1 and 2 described above, this is a technique based on the assumption that an answer candidate sentence having a high relevance between a question sentence and a semantic content is a good answer.

諸岡心、福本淳一、“Why型質問応答のための回答選択手法”、電子情報通信学会技術研究報告Vol.105 No.594言語理解とコミュニケーション、電子情報通信学会、pp.7-12、2006.Shin Morooka, Junichi Fukumoto, “Answer Selection Method for Why-type Question Answer”, IEICE Technical Report Vol.105 No.594 Language Understanding and Communication, IEICE, pp.7-12, 2006. Mihai Surdeanu, Massimiliano Ciaramita, Hugo Zaragoza, “Learning to Rank Answers to Non-Factoid Questions from Web Collections”, Computational Linguistics, vol. 37(2011), pp. 351-383.Mihai Surdeanu, Massimiliano Ciaramita, Hugo Zaragoza, “Learning to Rank Answers to Non-Factoid Questions from Web Collections”, Computational Linguistics, vol. 37 (2011), pp. 351-383.

雑多な情報源(たとえばウェブ)から回答候補文を抽出する場合、多様な内容が存在するため、質の異なる回答候補文が得られることが多い。たとえば、新聞記事やQ&Aサイトのみを対象としていれば、回答候補文の質や文長は大きく変わらない可能性が高いが、ウェブでは、極端に短いものや、長いものなどが混在し、また、文の断片や、絵文字、顔文字、アスキーアートなどのように、自然言語としては不適切なデータも多く含まれている。このような雑多な回答候補文をランキングするためには、内容の関連性のみに着目していたのではランキングが不十分となる可能性がある。   When answer candidate sentences are extracted from a variety of information sources (for example, the web), answer candidates having different qualities are often obtained because there are various contents. For example, if you are targeting only newspaper articles and Q & A sites, the quality and length of the answer candidate sentences are likely not to change significantly, but on the web there are extremely short and long ones, There are many data that are inappropriate for natural language, such as sentence fragments, pictograms, emoticons, and ASCII art. In order to rank such various answer candidate sentences, if attention is paid only to the relevance of contents, the ranking may be insufficient.

本発明は、上記の事情を鑑みてなされたもので、質問文に対する回答候補を精度よくランキングすることができる質問応答装置、モデル学習装置、方法、及びプログラムを提供することを目的とする。   The present invention has been made in view of the above circumstances, and an object thereof is to provide a question answering device, a model learning device, a method, and a program capable of accurately ranking answer candidates for a question sentence.

上記の目的を達成するために第1の発明に係る質問応答装置は、入力された質問文に対してノンファクトイド型の質問応答を行うための回答文を生成する質問応答装置であって、前記入力された質問文に対する1つ以上の文からなる回答候補の集合を抽出する回答候補抽出手段と、前記回答候補抽出手段によって抽出された前記回答候補の集合に含まれる前記回答候補の各々について、前記質問文と前記回答候補との組み合わせに対する、前記質問文と前記回答候補との内容の関連性に関する特徴量と、前記回答候補中の括弧の割合を示す特徴量とを含む特徴ベクトルを生成する特徴量生成手段と、前記質問文と前記回答候補との組み合わせの各々について、予め学習された前記特徴ベクトルに含まれる各特徴量に対する重みと、前記特徴量生成手段によって生成された前記組み合わせに対する前記特徴ベクトルとに基づいて、スコアを算出するスコア算出手段と、前記スコア算出手段によって算出されたスコアに従って、前記回答候補の集合をランキングするランキング手段とを含んで構成されている。
第2の発明に係る質問応答装置は、入力された質問文に対してノンファクトイド型の質問応答を行うための回答文を生成する質問応答装置であって、前記入力された質問文に対する1つ以上の文からなる回答候補の集合を抽出する回答候補抽出手段と、前記回答候補抽出手段によって抽出された前記回答候補の集合に含まれる前記回答候補の各々について、前記質問文と前記回答候補との組み合わせに対する、前記質問文と前記回答候補との内容の関連性に関する特徴量と、前記回答候補の一文字目が日本語であるか否かを示す特徴量とを含む特徴ベクトルを生成する特徴量生成手段と、前記質問文と前記回答候補との組み合わせの各々について、予め学習された前記特徴ベクトルに含まれる各特徴量に対する重みと、前記特徴量生成手段によって生成された前記組み合わせに対する前記特徴ベクトルとに基づいて、スコアを算出するスコア算出手段と、前記スコア算出手段によって算出されたスコアに従って、前記回答候補の集合をランキングするランキング手段と、を含んで構成されている。
第3の発明に係る質問応答装置は、入力された質問文に対してノンファクトイド型の質問応答を行うための回答文を生成する質問応答装置であって、前記入力された質問文に対する1つ以上の文からなる回答候補の集合を抽出する回答候補抽出手段と、前記回答候補抽出手段によって抽出された前記回答候補の集合に含まれる前記回答候補の各々について、前記質問文と前記回答候補との組み合わせに対する、前記質問文と前記回答候補との内容の関連性に関する特徴量と、前記回答候補の最後の文字が句点であるか否かを示す特徴量とを含む特徴ベクトルを生成する特徴量生成手段と、前記質問文と前記回答候補との組み合わせの各々について、予め学習された前記特徴ベクトルに含まれる各特徴量に対する重みと、前記特徴量生成手段によって生成された前記組み合わせに対する前記特徴ベクトルとに基づいて、スコアを算出するスコア算出手段と、前記スコア算出手段によって算出されたスコアに従って、前記回答候補の集合をランキングするランキング手段と、を含んで構成されている。
In order to achieve the above object, a question answering apparatus according to a first invention is a question answering apparatus for generating an answer sentence for performing a non-factoid type question answer to an inputted question sentence, Answer candidate extraction means for extracting a set of answer candidates comprising one or more sentences for the inputted question sentence, and each of the answer candidates included in the answer candidate set extracted by the answer candidate extraction means Generating a feature vector that includes a feature amount relating to the relevance between the question sentence and the answer candidate for a combination of the question sentence and the answer candidate, and a feature quantity indicating a ratio of parentheses in the answer candidate And a weight for each feature amount included in the feature vector learned in advance for each combination of the question sentence and the answer candidate, and the feature amount Score calculating means for calculating a score based on the feature vector for the combination generated by the generating means, and ranking means for ranking the set of answer candidates according to the score calculated by the score calculating means. It consists of
A question answering apparatus according to a second aspect of the present invention is a question answering apparatus for generating an answer sentence for performing a non-factoid type question answer to an inputted question sentence, wherein 1 for the inputted question sentence Answer candidate extraction means for extracting a set of answer candidates composed of two or more sentences; and for each of the answer candidates included in the answer candidate set extracted by the answer candidate extraction means, the question sentence and the answer candidates For generating a feature vector including a feature amount related to the content relevance between the question sentence and the answer candidate and a feature amount indicating whether or not the first character of the answer candidate is Japanese An amount generating unit, a weight for each feature amount included in the feature vector learned in advance for each combination of the question sentence and the answer candidate, and a feature amount generating unit Score calculating means for calculating a score on the basis of the feature vector for the combination generated in the step, and ranking means for ranking the set of answer candidates according to the score calculated by the score calculating means. It consists of
A question answering apparatus according to a third aspect of the present invention is a question answering apparatus for generating an answer sentence for performing a non-factoid type question answer to an inputted question sentence, wherein 1 for the inputted question sentence Answer candidate extraction means for extracting a set of answer candidates composed of two or more sentences; and for each of the answer candidates included in the answer candidate set extracted by the answer candidate extraction means, the question sentence and the answer candidates For generating a feature vector including a feature amount relating to the relevance of the contents of the question sentence and the answer candidate and a feature amount indicating whether or not the last character of the answer candidate is a punctuation point An amount generating unit, a weight for each feature amount included in the feature vector learned in advance for each combination of the question sentence and the answer candidate, and a feature amount generating unit Score calculating means for calculating a score on the basis of the feature vector for the combination generated in the step, and ranking means for ranking the set of answer candidates according to the score calculated by the score calculating means. It consists of

第4の発明に係る質問応答方法は、入力された質問文に対してノンファクトイド型の質問応答を行うための回答文を生成する質問応答装置における質問応答方法であって、回答候補抽出手段によって、前記入力された質問文に対する1つ以上の文からなる回答候補の集合を抽出し、特徴量生成手段によって、前記回答候補抽出手段によって抽出された前記回答候補の集合に含まれる前記回答候補の各々について、前記質問文と前記回答候補との組み合わせに対する、前記質問文と前記回答候補との内容の関連性に関する特徴量と、前記回答候補中の括弧の割合を示す特徴量とを含む特徴ベクトルを生成し、スコア算出手段によって、前記質問文と前記回答候補との組み合わせの各々について、予め学習された前記特徴ベクトルに含まれる各特徴量に対する重みと、前記特徴量生成手段によって生成された前記組み合わせに対する前記特徴ベクトルとに基づいて、スコアを算出し、ランキング手段によって、前記スコア算出手段によって算出されたスコアに従って、前記回答候補の集合をランキングする。
第5の発明に係る質問応答方法は、入力された質問文に対してノンファクトイド型の質問応答を行うための回答文を生成する質問応答装置における質問応答方法であって、回答候補抽出手段によって、前記入力された質問文に対する1つ以上の文からなる回答候補の集合を抽出し、特徴量生成手段によって、前記回答候補抽出手段によって抽出された前記回答候補の集合に含まれる前記回答候補の各々について、前記質問文と前記回答候補との組み合わせに対する、前記質問文と前記回答候補との内容の関連性に関する特徴量と、前記回答候補の一文字目が日本語であるか否かを示す特徴量とを含む特徴ベクトルを生成し、スコア算出手段によって、前記質問文と前記回答候補との組み合わせの各々について、予め学習された前記特徴ベクトルに含まれる各特徴量に対する重みと、前記特徴量生成手段によって生成された前記組み合わせに対する前記特徴ベクトルとに基づいて、スコアを算出し、ランキング手段によって、前記スコア算出手段によって算出されたスコアに従って、前記回答候補の集合をランキングする。
第6の発明に係る質問応答方法は、入力された質問文に対してノンファクトイド型の質問応答を行うための回答文を生成する質問応答装置における質問応答方法であって、回答候補抽出手段によって、前記入力された質問文に対する1つ以上の文からなる回答候補の集合を抽出し、特徴量生成手段によって、前記回答候補抽出手段によって抽出された前記回答候補の集合に含まれる前記回答候補の各々について、前記質問文と前記回答候補との組み合わせに対する、前記質問文と前記回答候補との内容の関連性に関する特徴量と、前記回答候補の最後の文字が句点であるか否かを示す特徴量とを含む特徴ベクトルを生成し、スコア算出手段によって、前記質問文と前記回答候補との組み合わせの各々について、予め学習された前記特徴ベクトルに含まれる各特徴量に対する重みと、前記特徴量生成手段によって生成された前記組み合わせに対する前記特徴ベクトルとに基づいて、スコアを算出し、ランキング手段によって、前記スコア算出手段によって算出されたスコアに従って、前記回答候補の集合をランキングする。
A question answering method according to a fourth invention is a question answering method in a question answering apparatus for generating an answer sentence for performing a non-factoid type question answer to an inputted question sentence, comprising answer candidate extraction means To extract a set of answer candidates composed of one or more sentences for the inputted question sentence, and the answer candidates included in the set of answer candidates extracted by the answer candidate extraction means by a feature value generation means For each of the above, a feature amount relating to the relevance of the content of the question sentence and the answer candidate with respect to a combination of the question sentence and the answer candidate, and a feature amount indicating a ratio of parentheses in the answer candidate A vector is generated, and each feature included in the feature vector learned in advance for each combination of the question sentence and the answer candidate by the score calculation means. A score is calculated based on the weight for the quantity and the feature vector for the combination generated by the feature quantity generation means, and the set of answer candidates according to the score calculated by the score calculation means by the ranking means Ranking.
A question answering method according to a fifth invention is a question answering method in a question answering apparatus for generating an answer sentence for performing a non-factoid type question answer to an inputted question sentence, wherein answer candidate extracting means To extract a set of answer candidates composed of one or more sentences for the inputted question sentence, and the answer candidates included in the set of answer candidates extracted by the answer candidate extraction means by a feature value generation means For each combination of the question sentence and the answer candidate, the feature amount relating to the relevance of the contents of the question sentence and the answer candidate, and whether the first character of the answer candidate is Japanese A feature vector including a feature amount, and the feature vector learned in advance for each combination of the question sentence and the answer candidate by a score calculation unit. A score is calculated based on the weight for each feature amount included in the feature vector and the feature vector for the combination generated by the feature amount generation unit, and according to the score calculated by the score calculation unit by the ranking unit, Ranking the set of answer candidates.
A question answering method according to a sixth invention is a question answering method in a question answering apparatus for generating an answer sentence for performing a non-factoid type question answer to an inputted question sentence, wherein an answer candidate extracting means To extract a set of answer candidates composed of one or more sentences for the inputted question sentence, and the answer candidates included in the set of answer candidates extracted by the answer candidate extraction means by a feature value generation means For each combination of the question sentence and the answer candidate, the feature amount relating to the relevance of the contents of the question sentence and the answer candidate, and whether or not the last character of the answer candidate is a punctuation mark A feature vector including a feature amount, and the feature vector learned in advance for each combination of the question sentence and the answer candidate by a score calculation unit. A score is calculated based on the weight for each feature amount included in the feature vector and the feature vector for the combination generated by the feature amount generation unit, and according to the score calculated by the score calculation unit by the ranking unit, Ranking the set of answer candidates.

第7の発明のモデル学習装置は、入力された質問文に対してノンファクトイド型の質問応答を行うための回答文の回答候補をランキングするためのランキングモデルを学習するモデル学習装置であって、前記質問文に対する、1つ以上の文からなる正解の回答文及び正解でない回答文を記憶した質問応答データ記憶手段と、前記質問応答データ記憶手段に記憶された前記回答文の各々について、前記質問文と前記回答文との組み合わせに対する、前記質問文と前記回答文との内容の関連性に関する特徴量と、前記回答文中の括弧の割合を示す特徴量とを含む特徴ベクトルを生成する特徴量生成手段と、前記特徴量生成手段によって生成された前記回答文の各々に対する前記特徴ベクトルと、前記回答文の各々が正解であるか否かとに基づいて、前記特徴ベクトルに含まれる各特徴量に対する重みを前記ランキングモデルとして学習する学習手段と、を含んで構成されている。
第8の発明のモデル学習装置は、入力された質問文に対してノンファクトイド型の質問応答を行うための回答文の回答候補をランキングするためのランキングモデルを学習するモデル学習装置であって、前記質問文に対する、1つ以上の文からなる正解の回答文及び正解でない回答文を記憶した質問応答データ記憶手段と、前記質問応答データ記憶手段に記憶された前記回答文の各々について、前記質問文と前記回答文との組み合わせに対する、前記質問文と前記回答文との内容の関連性に関する特徴量と、前記回答文の一文字目が日本語であるか否かを示す特徴量とを含む特徴ベクトルを生成する特徴量生成手段と、前記特徴量生成手段によって生成された前記回答文の各々に対する前記特徴ベクトルと、前記回答文の各々が正解であるか否かとに基づいて、前記特徴ベクトルに含まれる各特徴量に対する重みを前記ランキングモデルとして学習する学習手段と、を含んで構成されている。
第9の発明のモデル学習装置は、入力された質問文に対してノンファクトイド型の質問応答を行うための回答文の回答候補をランキングするためのランキングモデルを学習するモデル学習装置であって、前記質問文に対する、1つ以上の文からなる正解の回答文及び正解でない回答文を記憶した質問応答データ記憶手段と、前記質問応答データ記憶手段に記憶された前記回答文の各々について、前記質問文と前記回答文との組み合わせに対する、前記質問文と前記回答文との内容の関連性に関する特徴量と、前記回答文の最後の文字が句点であるか否かを示す特徴量とを含む特徴ベクトルを生成する特徴量生成手段と、前記特徴量生成手段によって生成された前記回答文の各々に対する前記特徴ベクトルと、前記回答文の各々が正解であるか否かとに基づいて、前記特徴ベクトルに含まれる各特徴量に対する重みを前記ランキングモデルとして学習する学習手段と、を含んで構成されている。
第10の発明に係るプログラムは、コンピュータを、上記の質問応答装置または上記のモデル学習装置の各手段として機能させるためのプログラムである。
A model learning device according to a seventh aspect of the present invention is a model learning device for learning a ranking model for ranking answer candidates of answer sentences for performing non-factoid type question responses to input question sentences. , For each of the answer sentence stored in the question answer data storage means, and a question answer data storage means storing a correct answer sentence consisting of one or more sentences and a non-correct answer sentence for the question sentence, for the combination of the question the answer message, wherein generating a feature amount relating to the relevance of the content of the answer message and the question sentence, the feature vector comprises a feature amount indicating the ratio of the parentheses in the answer message Based on the quantity generation means, the feature vector for each of the answer sentences generated by the feature quantity generation means, and whether or not each of the answer sentences is correct It is configured to include a learning means for learning the weights as the ranking model, for each characteristic amount contained in the feature vector.
A model learning device according to an eighth aspect of the present invention is a model learning device for learning a ranking model for ranking answer candidates of answer sentences for performing non-factoid-type question responses to input question sentences. , For each of the answer sentence stored in the question answer data storage means, and a question answer data storage means storing a correct answer sentence consisting of one or more sentences and a non-correct answer sentence for the question sentence, A feature amount relating to the relevance of the content of the question sentence and the answer sentence with respect to a combination of the question sentence and the answer sentence, and a feature amount indicating whether or not the first character of the answer sentence is Japanese Feature quantity generation means for generating a feature vector; whether the feature vector for each of the answer sentences generated by the feature quantity generation means and each of the answer sentences is correct Based on the transient, and is configured to include a learning means for learning the weights as the ranking model, for each characteristic amount contained in the feature vector.
A model learning device according to a ninth aspect of the present invention is a model learning device that learns a ranking model for ranking answer candidates of answer sentences for performing non-factoid type question responses to input question sentences. , For each of the answer sentence stored in the question answer data storage means, and a question answer data storage means storing a correct answer sentence consisting of one or more sentences and a non-correct answer sentence for the question sentence, A feature amount related to the relationship between the question sentence and the answer sentence with respect to a combination of the question sentence and the answer sentence, and a feature amount indicating whether or not the last character of the answer sentence is a punctuation mark Feature quantity generation means for generating a feature vector; whether the feature vector for each of the answer sentences generated by the feature quantity generation means and each of the answer sentences is correct Based on the transient, and is configured to include a learning means for learning the weights as the ranking model, for each characteristic amount contained in the feature vector.
A program according to a tenth invention is a program for causing a computer to function as each means of the above question answering device or the above model learning device.

以上説明したように、本発明の質問応答装置、モデル学習装置、方法、及びプログラムによれば、質問文に対する回答候補の集合の各々について、回答候補における文長、文字種、文の妥当性、及び疑問詞の存在の有無の少なくとも一つに関する特徴量を含む特徴ベクトルを生成して、スコアを算出し、スコアに従って、回答候補の集合をランキングすることにより、質問文に対する回答候補を精度よくランキングすることができる、という効果が得られる。   As described above, according to the question answering device, model learning device, method, and program of the present invention, for each set of answer candidates for the question sentence, the sentence length, character type, sentence validity in the answer candidate, and By generating a feature vector that includes a feature quantity related to at least one of the presence or absence of an interrogative word, calculating a score, and ranking a set of answer candidates according to the score, the answer candidates for the question sentence are ranked with high accuracy. The effect that it can be obtained.

本発明の実施の形態に係るモデル学習装置の構成を示す概略図である。It is the schematic which shows the structure of the model learning apparatus which concerns on embodiment of this invention. 形態素解析結果の一例を示す図である。It is a figure which shows an example of a morphological analysis result. 各特徴量の素性値の一例を示す図である。It is a figure which shows an example of the feature value of each feature-value. 各特徴量の素性名と素性値の一例を示す図である。It is a figure which shows an example of the feature name and feature value of each feature-value. 本発明の実施の形態に係る質問応答装置の構成を示す概略図である。It is the schematic which shows the structure of the question answering apparatus which concerns on embodiment of this invention. 本発明の実施の形態に係るモデル学習装置におけるモデル学習処理ルーチンの内容を示すフローチャートである。It is a flowchart which shows the content of the model learning process routine in the model learning apparatus which concerns on embodiment of this invention. 本発明の実施の形態に係る質問応答装置における質問応答生成処理ルーチンの内容を示すフローチャートである。It is a flowchart which shows the content of the question answer generation process routine in the question answering apparatus which concerns on embodiment of this invention. 実験結果を示す図である。It is a figure which shows an experimental result.

以下、図面を参照して本発明の実施の形態を詳細に説明する。   Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.

<発明の概要>
雑多な回答候補文を正確にランキングするため、内容以外の特徴にも着目する。具体的には、文長、文字種、文の妥当性、疑問詞の存在の有無、に関する特徴量を用い、ランキング関数を機械学習の手法により学習する。これらの特徴は、長すぎる文や短すぎる文を排除したり、Webページの断片のような自然文ではない文を排除したり、正しく句点で終わっているような文を選好したり、質問に質問で答えてしまわないようにするためのものである。疑問詞の存在の有無に関する特徴量は、たとえば、ウェブには、質問文が大量に存在するため、従来の質問の内容のみに基づいて文をランキングしていては、ユーザの質問文と全く同じか似通った質問文を回答として、上位にランキングしてしまうことがあり、この特徴量はそれを避けるために導入する。
<Outline of the invention>
In order to accurately rank miscellaneous answer candidate sentences, attention is paid to features other than the contents. More specifically, the ranking function is learned by a machine learning technique using feature quantities relating to sentence length, character type, sentence validity, and presence / absence of an interrogative word. These features eliminate sentences that are too long or too short, exclude sentences that are not natural, such as web page fragments, prefer sentences that end correctly, and ask questions. This is to avoid answering questions. For example, since there are a large number of question sentences on the web, the feature quantities related to the presence or absence of question words are exactly the same as the user's question sentences when ranking sentences based only on the contents of conventional questions In some cases, similar questions may be ranked in the top as answers, and this feature is introduced to avoid it.

<システム構成>
以下では、ノンファクトイド型の、特に、理由に答える質問応答システムに本発明を適用した場合を例に説明する。
<System configuration>
Hereinafter, a case where the present invention is applied to a non-factoid type, in particular, a question answering system that answers a reason will be described as an example.

ここで、理由を答える質問応答システムは、理由を尋ねる質問文の入力に応じて、ウェブまたはテキストデータベースを検索し、その結果得られる文書の集合から、文の集合を抽出し、これらを適切な順番でランキングすることによって回答とするものとする。本システムでは、できるだけ短く簡潔な応答を返したいという目的から、一文を単位として抽出しているが、より回答に内容を持たせたい場合などは、複数の文からなるフレーズや、段落単位を回答としてもよい。その場合、後述する、学習データの単位も、この単位に合わせる必要がある。   Here, the question answering system that answers the reason searches the web or text database in response to the input of the question sentence that asks the reason, extracts a set of sentences from the resulting set of documents, and extracts these appropriately. Answers shall be made by ranking in order. In this system, for the purpose of returning a response as short and concise as possible, a single sentence is extracted as a unit. However, if you want to add more content to the answer, answer multiple phrases or paragraphs. It is good. In that case, the unit of learning data, which will be described later, also needs to be matched with this unit.

図1に示すように、本発明の実施の形態に係る質問応答システムのモデル学習装置100は、正解質問応答データが入力され、ランキングモデルを学習して出力する。このモデル学習装置100は、CPUと、RAMと、後述するモデル学習処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。図1に示すように、モデル学習装置100は、入力部10と、演算部20と、出力部30とを備えている。   As shown in FIG. 1, a model learning apparatus 100 of a question answering system according to an embodiment of the present invention receives correct answer data and learns and outputs a ranking model. This model learning apparatus 100 is composed of a computer including a CPU, a RAM, and a ROM that stores a program for executing a model learning processing routine described later, and is functionally configured as follows. Yes. As shown in FIG. 1, the model learning device 100 includes an input unit 10, a calculation unit 20, and an output unit 30.

入力部10は、質問文とそれに対する回答となる一つ以上の正解文、および、一つ以上の不正解文を1セットとして、このようなセットが一つ以上含まれたデータを、入力された正解質問応答データとして受け付ける。例えば、複数の質問文の各々について、当該質問文と、当該質問文に対する回答文である複数の正解文と、当該質問文に対する回答文でない複数の不正解文とからなるデータセットを受け付ける。   The input unit 10 receives a question sentence, one or more correct answer sentences as answers to the question sentence, and one or more incorrect answer sentences as a set, and data including one or more such sets. Accepted as correct answer data. For example, for each of a plurality of question sentences, a data set including the question sentence, a plurality of correct answer sentences that are answer sentences to the question sentence, and a plurality of incorrect answer sentences that are not answer sentences to the question sentence is received.

本実施の形態では、正解質問応答データとして、質問文を150問準備した。たとえば、以下はその一部である。   In this embodiment, 150 question sentences are prepared as correct answering data. For example, the following are some of them:

・脳こうそくはどうして怖い病気だといわれるの?
・どうしてワインの飲み過ぎは身体に悪いの?
・鴎外訳の「ファウスト」があるのに、別の訳が出版される理由
・なぜ60年代に東映仁侠映画ブームだったのか
・とんねるずの木梨憲武が評価されているのはなぜ?
・ Why is it said that the brain is a scary disease?
・ Why is drinking too much wine bad for your body?
・ While there is a “Faust” in the foreign translation, the reason why another translation is published ・ Why was the Toei Rengo movie boom in the 1960s?

そして、それぞれの質問文から、内容語のみを取り出し、検索クエリを生成した。たとえば、「脳こうそくはどうして怖い病気だといわれるの?」であれば、まず、形態素解析がなされ、図2に示すような出力(形態素解析結果)が得られる。ここでは、形態素解析エンジンとして、出願人が開発している、JTAGを用いている。   And from each question sentence, only the content word was taken out and the search query was produced | generated. For example, if “why is it said that the brain is a scary disease?”, Morphological analysis is first performed, and an output (morphological analysis result) as shown in FIG. 2 is obtained. Here, JTAG developed by the applicant is used as the morphological analysis engine.

上記図2で、一行が一単語に相当し、各行において、単語(表層)、品詞、標準形、終止形(あれば)、および日本語語彙大系に基づく意味属性の情報が出力されている。日本語語彙大系に基づく意味属性の情報は、当該形態素解析エンジンに含まれる単語辞書に基づいて、単語毎に出力される。   In FIG. 2, one line corresponds to one word, and in each line, word (surface), part of speech, standard form, final form (if any), and semantic attribute information based on the Japanese vocabulary system are output. . The semantic attribute information based on the Japanese vocabulary system is output for each word based on the word dictionary included in the morphological analysis engine.

形態素解析結果で得られる単語の集合から、標準形のフィールドで、以下の疑問詞のリストに合致する単語があれば、まずそれを取り除く。   If there is a word that matches the following list of interrogative words in the standard form field from the set of words obtained from the morphological analysis result, it is first removed.

何故、どうして、誰、どこ、いつ、どのくらい、どう、どの、どのくらい、どのように、いくら、どうやって、どういう、幾等、何、何と、何て、なんて、何か、何で Why, who, where, when, how, how, how, how, how, how, how, what, what, what, what, what, what, what

ここでは、「どうして」が一致するので、まずこの行が削除される。続いて、名詞、動詞語幹、形容詞語幹に対応する行から、標準形(もし終止形があれば終止形)の部分を取り出し、これらを検索単語とする。たとえば、上記の例の質問だと、「脳こうそく、病気、怖い、いう、れる」が、検索単語となる。   Here, “why” matches, so this line is deleted first. Subsequently, from the line corresponding to the noun, the verb stem, and the adjective stem, the standard form (the final form if there is a final form) is extracted, and these are used as search words. For example, in the case of the above example, the search word is “brainstick, illness, scary”.

これらの単語を、空白区切りにして、検索クエリを生成し、ウェブ検索を行い、上位100件の検索結果を取得した。ここでは、一般的に広く利用されているウェブ検索エンジンを用いた。これらの検索結果にはURLの他、スニペットと呼ばれる概要文が付与されている。これらは大体100〜150文字程度からなる、URLの内容の抜粋である。本実施の形態では、このスニペットを、句点や「・・・」などの区切り文字で区切り、文に分割する。各検索結果から数文ずつ得られ、100件の検索結果から、数百文程度得られる。   These words are separated by blanks, search queries are generated, web searches are performed, and the top 100 search results are obtained. Here, a web search engine that is generally widely used is used. These search results are given a summary text called a snippet in addition to the URL. These are excerpts of the URL content, which consists of about 100 to 150 characters. In the present embodiment, the snippet is divided by a delimiter such as a punctuation mark or “...” And divided into sentences. Several sentences are obtained from each search result, and several hundred sentences are obtained from 100 search results.

たとえば、以下は、「脳こうそく病気怖いいうれる」をクエリとして得られた検索結果を元にして、抽出した文の集合の一部である。一行一文である。当該検索結果からは、全部で421文得られた。   For example, the following is a part of a set of sentences extracted based on a search result obtained by using a query “brain disease is scared”. It is one line one sentence. A total of 421 sentences were obtained from the search results.

脳梗塞の多くは高齢な方が発病するとっても怖い病気です。
この脳梗塞と言う病気で命を落としてしまう方も多くまた娘のように麻痺と言う後遺症と戦ってる方々も大勢います。
片麻痺と言う後遺症を少しでも多くの方に知ってもらいたい、また、後遺症で悩んでる方々の交流の場に成れば良いと思いこのサイトを開設致しました。
どうぞ、ご覧に2008 年9 月5 日
其れが脳梗塞、とか心筋梗塞と言う怖い病気なのです。
又血管が膨らむとは、血圧が高すぎたりしますと風船の様に膨らんで最後は破裂してしまいます。
此れを動脈瘤、静脈瘤と言います。
Many cerebral infarctions are very scary when older people get sick.
Many people lose their lives due to this disease called cerebral infarction, and many people are fighting the aftereffects of paralysis like their daughters.
This site was opened because we wanted to make as many people as possible aware of the sequelae of hemiplegia and to be a place for interaction with those suffering from sequelae.
Please see, September 5, 2008 That is a scary illness called cerebral infarction or myocardial infarction.
If blood vessels swell, if the blood pressure is too high, it will swell like a balloon and eventually rupture.
This is called an aneurysm or varicose vein.

これらの文について、人手で正解文をタグ付けした。具体的には、上記の文を人手で読み、質問の回答になっているかを判定し、正解文を選択した。ここで選ばれない文は不正解文となる。ここでは、下記の文を含む22文が、421文から正解文として選択された。最初の番号は421文中の行番号である。   About these sentences, the correct sentence was tagged manually. Specifically, the above sentence was read manually, it was determined whether the answer was a question, and the correct sentence was selected. Sentences not selected here are incorrect sentences. Here, 22 sentences including the following sentences were selected as correct sentences from 421 sentences. The first number is the line number in 421 sentences.

1 脳梗塞の多くは高齢な方が発病するとっても怖い病気です。
2 この脳梗塞と言う病気で命を落としてしまう方も多くまた娘のように麻痺と言う後遺症と戦ってる方々も大勢います。
36 脳梗塞の病気は所かまわず突然襲ってくる怖い病気です。
49 脳梗塞は、一瞬で身体の自由をうばい、最悪の場合は命にかかわる大変怖い病気です。
60 脳卒中は、救急治療によって生命はとりとめても、マヒなどが残ったり寝たきりになったりすることが多く、非常に怖い病気です。
1 Many cerebral infarctions are very scary if older people get sick.
2 Many people lose their lives due to the disease called cerebral infarction, and many people are fighting the aftereffects of paralysis like their daughters.
36 The cerebral infarction disease is a scary disease that suddenly attacks any place.
49 A cerebral infarction is a very scary illness that kills your body in an instant, and in the worst case is fatal.
60 Stroke is a very scary illness, because even if life is saved by emergency treatment, paralysis is often left behind or bedridden.

本実施の形態では、このような正解文および不正解文からなるデータを、150問すべてについて作成し、正解質問応答データとした。   In the present embodiment, data including such correct answer sentences and incorrect answer sentences is created for all 150 questions and used as correct answer question response data.

演算部20は、正解質問応答データ記憶部21、特徴量生成部22、及びモデル学習部23を備えている。   The calculation unit 20 includes a correct answer / answer data storage unit 21, a feature amount generation unit 22, and a model learning unit 23.

正解質問応答データ記憶部21は、入力部10により受け付けた正解質問応答データを記憶する。   The correct answer / answer data storage unit 21 stores correct answer / answer data received by the input unit 10.

特徴量生成部22は、正解質問応答データから得られる、質問文Qと、正解文及び不正解文を含む文集合における各文Cとの組み合わせの各々について、特徴ベクトルを生成する。   The feature quantity generation unit 22 generates a feature vector for each combination of the question sentence Q obtained from the correct answer response data and each sentence C in the sentence set including the correct answer sentence and the incorrect answer sentence.

ここでは、本実施の形態では、「文順位の逆数(rank)」、「単語数(len)」、「理由についての意味属性(ncat-意味属性)」、「疑問詞を含むか(question)」、「一文字目が日本語か(sentence-begin)」、「最後の文字が句点か(sentence-end)」、「日本語の割合(ja)」、「スペース及び句読点の割合(common)」、「英字の割合(latin)」、「括弧の割合(paren)」、「記号の割合(symbol)」、「内容語のカバレッジ(cw-count)」、「単語(表層系)のカバレッジ(count)」、「単語(標準形)のカバレッジ(base-count)」、「意味属性のカバレッジ(cats-count)」、及び「原因表現パターンを含むか(synpat-パターン)」を含む各特徴量を要素とする特徴量ベクトル生成する。質問文Qと文Cについては、それぞれ形態素解析を行い、上記図2と同様の形態素解析結果を得ているものとする。括弧内は素性名である。なお、「一文字目が日本語か(sentence-begin)」及び「最後の文字が句点か(sentence-end)」が、回答候補の文の妥当性に関する特徴量の一例であり、「日本語の割合(ja)」、「スペース及び句読点の割合(common)」、「英字の割合(latin)」、「括弧の割合(paren)」、及び「記号の割合(symbol)」が、回答候補の文字種に関する特徴量の一例である。また、「文順位の逆数(rank)」、「内容語のカバレッジ(cw-count)」、「単語(表層系)のカバレッジ(count)」、「単語(標準形)のカバレッジ(base-count)」、及び「意味属性のカバレッジ(cats-count)」が、質問文と回答候補との内容の関連性に関する特徴量の一例である。上記の特徴量のうち、「単語数(len)」、及び「疑問詞を含むか」から「記号の割合」までが、本発明で提案した特徴量の一例である。その他は、従来既知のものであり、有効性が確認されているものである。   Here, in the present embodiment, “reciprocal number of sentence order (rank)”, “number of words (len)”, “semantic attribute about reason (ncat-semantic attribute)”, “whether question is included (question) ”,“ First character is Japanese (sentence-begin) ”,“ Last character is a punctuation point (sentence-end) ”,“ Japanese percentage (ja) ”,“ Space and punctuation percentage (common) ” , “Latin ratio (latin)”, “Parent ratio (paren)”, “Symbol ratio (symbol)”, “Content word coverage (cw-count)”, “Word (surface layer) coverage (count) ) ”,“ Word (standard form) coverage (base-count) ”,“ semantic attribute coverage (cats-count) ”, and“ includes cause expression pattern (synpat-pattern) ” Generate feature vectors as elements. For the question sentence Q and the sentence C, it is assumed that morpheme analysis is performed, and the same morpheme analysis result as in FIG. 2 is obtained. The name in parentheses is the feature name. Note that “sentence-begin” and “sentence-end” are examples of features related to the validity of the answer candidate sentence. "Ratio (ja)", "Space and punctuation ratio (common)", "English character ratio (latin)", "Parent ratio (paren)", and "Symbol ratio (symbol)" It is an example of the feature-value regarding. In addition, “reciprocal number of sentence rank (rank)”, “content word coverage (cw-count)”, “word (surface layer) coverage (count)”, “word (standard form) coverage (base-count) ”And“ Semantic attribute coverage (cats-count) ”are examples of feature amounts relating to the relevance of the contents of question sentences and answer candidates. Among the above feature quantities, “number of words (len)” and “whether it contains a question word” to “ratio of symbols” are examples of the feature quantities proposed in the present invention. Others are known in the art, and their effectiveness has been confirmed.

「文順位の逆数(rank)」は、質問文Qに対して得られた文集合を、スニペットにおける検索順位に従って並べた時の、文Cの相対順位の逆数である。たとえば、421文あり、Cが最初の文であれば、1/421となる。   “Reciprocal number of sentence order (rank)” is the reciprocal number of the relative order of sentence C when the sentence set obtained for the question sentence Q is arranged according to the search order in the snippet. For example, if there are 421 sentences and C is the first sentence, it becomes 1/421.

「単語数(len)」は、文Cの含む単語数であり、文長の一例である。   “Number of words (len)” is the number of words included in the sentence C, and is an example of a sentence length.

日本語語彙大系を参照すると、「理由」に関する単語の意味属性は2448、および、2450〜2456の7つである。よって、「理由についての意味属性(ncat-意味属性)」は、7つの意味属性の単語が文Cに含まれるかどうかを表す7つのバイナリ特徴量であり、Cに含まれる意味属性についてのみ、値を1にする。ここでは、理由についての質問を扱っているため、これらの意味属性の存在を特徴量としているが、「方法」に答える場合は、方法に対応する意味属性を用いればよい。   Referring to the Japanese vocabulary system, there are seven semantic attributes of words related to “reason”: 2448 and 2450-2456. Therefore, “semantic attribute about reason (ncat-semantic attribute)” is seven binary feature amounts indicating whether or not words of seven semantic attributes are included in the sentence C, and only for the semantic attributes included in C, Set the value to 1. Here, since the question about the reason is dealt with, the presence of these semantic attributes is used as the feature quantity. However, when answering “method”, the semantic attribute corresponding to the method may be used.

「疑問詞を含むか(question)」では、上記疑問詞のリストに含まれる単語が文Cに入っていれば1となる。   In “question included” (question), it is 1 if the word included in the above list of question words is in sentence C.

「一文字目が日本語か(sentence-begin)」では、文Cの一文字目が日本語の文字(漢字、ひらがな、カタカナ)のいずれかであれば1となる。   “Sentence-begin” is “1” if the first character of sentence C is a Japanese character (Kanji, Hiragana, Katakana).

「最後の文字が句点か(sentence-end)」では、文Cの最後の文字が句点であれば、1となる。   “Sentence-end” is “1” if the last character of sentence C is a punctuation mark.

「日本語の割合(ja)」は、文Cの文字中で、日本語の文字(漢字、ひらがな、カタカナ)の割合である。たとえば、10文字中5文字が漢字、ひらがな、カタカナのいずれかであれば、0.5となる。   “Proportion of Japanese (ja)” is the ratio of Japanese characters (Kanji, Hiragana, Katakana) in the characters of sentence C. For example, if 5 out of 10 characters are kanji, hiragana, or katakana, then 0.5.

「スペース及び句読点の割合(common)」は、文Cの文字中で、スペース及び句読点の割合である。   “The ratio of space and punctuation (common)” is the ratio of space and punctuation in the characters of sentence C.

「英字の割合(latin)」は、文Cの文字中の、英字の文字の割合である。   The “letter ratio (latin)” is the ratio of the letters of the letter C in the letters of the sentence C.

「それ以外の文字の割合(other)」は、文Cの文字中で、日本語、スペースや句読点、英字のいずれにも合致しない文字の割合である。   “Ratio of other characters (other)” is the proportion of characters in sentence C that do not match any of Japanese, space, punctuation, or alphabetic characters.

「括弧の割合(paren)」は、文Cにおける、品詞が括弧である単語の割合である。   The “paren” is the ratio of words in sentence C whose part of speech is parentheses.

「記号の割合(symbol)」は、文Cにおける、品詞がSymbolである単語の割合である。品詞がSymbolである単語とは、たとえば、コロンやピリオドなどである。   The “symbol ratio” is the ratio of words in the sentence C whose part of speech is Symbol. The word whose part of speech is Symbol is, for example, a colon or a period.

「内容語のカバレッジ(cw-count)」は、質問文Qに含まれる内容語の内、文Cに含まれるものの個数(cwcount)である。また、特徴量として、文Cに含まれる内容語の内、質問文Qに含まれる内容語の個数(cw-count-rev)を用いてもよい。また、特徴量として、質問文Qに含まれる内容語の内、文Cに含まれるものの割合(cw-cov)を用いてもよい。また、特徴量として、文Cに含まれる内容語の内、質問文Qに含まれる内容語の割合(cw-cov-rev)を用いてもよい。ここで、内容語は品詞が、名詞、動詞語幹、形容詞語幹、および、未知語のものを用いる。   “Content word coverage (cw-count)” is the number (cwcount) of content words included in the sentence C among the content words included in the question sentence Q. Further, the number of content words (cw-count-rev) included in the question sentence Q among the content words included in the sentence C may be used as the feature amount. Further, the ratio (cw-cov) of content words included in the sentence C among the content words included in the question sentence Q may be used as the feature amount. Further, the ratio (cw-cov-rev) of the content words included in the question sentence Q among the content words included in the sentence C may be used as the feature amount. Here, the content words are those whose part of speech is a noun, a verb stem, an adjective stem, and an unknown word.

「単語(表層系)のカバレッジ(count)」は、質問文Qに含まれる単語(表層系)の内、文Cに含まれるものの個数(count)である。また、特徴量として、文Cに含まれる単語(表層系)の内、質問文Qに含まれるものの個数(count-rev)を用いてもよい。また、特徴量として、質問文Qに含まれる単語(表層系)の内、文Cに含まれるものの割合(cov)を用いてもよく、また、文Cに含まれる単語(表敬)の内、質問文Qに含まれるものの割合(cov-rev)を用いてもよい。同様に、単語(ユニグラム)に加えて、バイグラム(単語連続)についても、同様に、個数、割合(bi-count、bi-cov、bi-count-rev、bi-cov-rev)を求めて、特徴量として用いてもよい。   “Word (surface layer) coverage (count)” is the number (count) of words (surface layer) included in the sentence C among the words (surface layer) included in the question sentence Q. Further, as the feature amount, the number (count-rev) of words included in the question sentence Q among the words (surface layer system) included in the sentence C may be used. In addition, as a feature amount, a ratio (cov) of words included in the sentence C among the words included in the question sentence Q (surface layer system) (cov) may be used. The ratio (cov-rev) included in the question sentence Q may be used. Similarly, in addition to words (unigrams), for bigrams (word continuation), the number and ratio (bi-count, bi-cov, bi-count-rev, bi-cov-rev) are similarly calculated. It may be used as a feature amount.

「単語(標準形)のカバレッジ(base-count)」は、単語(表層系)のカバレッジに類似した特徴量であり、単語の標準形についての値である。また、割合に関する値(base-cov)を用いてもよい。   “Word (standard form) coverage (base-count)” is a feature quantity similar to the coverage of a word (surface layer system), and is a value for the standard form of the word. Further, a value (base-cov) relating to the ratio may be used.

「意味属性のカバレッジ(cats-count)」は、内容語のカバレッジに類似した特徴量であり、内容語ではなく、含まれる名詞意味属性について個数である。また、割合に関する値(cats-cov)を用いてもよい。   “Semantic attribute coverage (cats-count)” is a feature quantity similar to content word coverage, and is the number of noun semantic attributes included, not the content word. Further, a value (cats-cov) regarding the ratio may be used.

「原因表現パターンを含むか(synpat-パターン)」は、予め準備された原因を表すパターンの集合があるとし、これらのパターンに文Cが合致するかどうかを、各パターンについてバイナリの特徴量としたものである。これらのパターンは、理由が書かれていると予め分かっているフレーズなどから、機能語(助詞、助動詞)以外を取り除くことで作成できる。たとえば、本実施の形態では、「いから」、「の*を*する」、「が*いから」、「が*い」、「を*する*との」、「が*を*する」をパターンとして用いた。アスタリスクは機能語以外の何とでもマッチする記号である。文Cが、それぞれのパターンにマッチするかどうかが特徴量となる。全部で490のパターンを用いたため、490のバイナリ特徴量が生成される。ここでのパターンの作り方は、非特許文献3(Ryuichiro Higashinaka, Hideki Isozaki, ”Corpus-based Question Answering for why-Questions”, IJCNLP, vol.1, pp.418-425, 2008.)に書かれている方法と同様である。   `` Do you include a cause expression pattern (synpat-pattern) '' means that there is a set of patterns representing causes that are prepared in advance, and whether or not sentence C matches these patterns and the binary feature amount for each pattern It is what. These patterns can be created by removing other than function words (particles, auxiliary verbs) from phrases or the like that are known in advance as the reason is written. For example, in the present embodiment, “it is *”, “* is *”, “ga * is”, “is * is”, “is * is *”, “is * is *” Was used as a pattern. An asterisk is a symbol that matches anything other than a function word. Whether sentence C matches each pattern is a feature amount. Since a total of 490 patterns are used, 490 binary feature values are generated. How to make a pattern here is written in Non-Patent Document 3 (Ryuichiro Higashinaka, Hideki Isozaki, “Corpus-based Question Answering for why-Questions”, IJCNLP, vol.1, pp.418-425, 2008.). It is the same as the method.

次に、特徴ベクトルの生成の実例を示す。Q「脳こうそくはどうして怖い病気だといわれるの?」とC「脳梗塞の多くは高齢な方が発病するとっても怖い病気です。」から得られる各特徴量は図3に示す通りである。最初の+1は、文Cが正解文であることを示し、qidは、この質問文Qに割り振られた質問IDである。以降、特徴量(素性)番号、コロン、素性値が空白区切りで続く。   Next, an example of feature vector generation is shown. Each feature obtained from Q “Why is it said that the brain is a scary disease?” And C “Many cerebral infarctions are afraid even if the elderly develops the disease.” The first +1 indicates that the sentence C is a correct sentence, and qid is a question ID assigned to the question sentence Q. Thereafter, the feature quantity (feature) number, colon, and feature value are separated by a space.

この特徴量を素性名とともに表にすると、図4に示すようになる。   When this feature quantity is tabulated together with the feature name, it is as shown in FIG.

モデル学習部23は、質問文Qと文Cのペアの各々について得られる特徴量を元に、機械学習により、ランキングモデルを学習する。ある質問文Qについて、文Cが正解文であり、文C’が不正解文であるとし、質問文Q及び文Cから得られる特徴量ベクトルをF、質問文Qと文C’から得られる特徴量ベクトルをF’とする。ここで、ある重みベクトルWがあったとし、それぞれのスコア(内積により得られる)を比べ、FWがF’Wよりも大きくなるようなWを、最適化の手法などにより見つけることで、正解文を不正解文よりも上位にランキングする重みベクトル(ランキングモデル)が得られる。このような重みベクトルは、ランキング学習に一般的に用いられる手法である、ランキングSVMを用いることで、得ることが可能である。本実施の形態では、150問の質問と、それぞれについて得られた正解文、不正解文から特徴ベクトルを生成し、各質問について、正解文が不正解文よりも上位にランキングされるように、Wを、ランキングSVMによって求める。ランキングSVMは、線形のカーネルを用いた。   The model learning unit 23 learns a ranking model by machine learning based on the feature amount obtained for each pair of the question sentence Q and the sentence C. For a certain question sentence Q, sentence C is a correct answer sentence, sentence C 'is an incorrect answer sentence, and feature quantity vectors obtained from question sentence Q and sentence C are obtained from question sentence Q and sentence C'. Let the feature vector be F ′. Here, if there is a certain weight vector W, each score (obtained by the inner product) is compared, and the correct sentence is found by finding a W that makes FW larger than F'W by an optimization method or the like. A weight vector (ranking model) that ranks higher than the incorrect answer sentence is obtained. Such a weight vector can be obtained by using a ranking SVM, which is a method generally used for ranking learning. In this embodiment, a feature vector is generated from 150 questions and the correct and incorrect sentences obtained for each question, and for each question, the correct sentence is ranked higher than the incorrect sentence. W is obtained by ranking SVM. The ranking SVM used a linear kernel.

モデル学習部23によって学習されたランキングモデルが、出力部30により出力される。   The ranking model learned by the model learning unit 23 is output by the output unit 30.

図5に示すように、本発明の実施の形態に係る質問応答システムの質問応答装置150は、質問文が入力され、質問文に対する回答候補文をランキングして出力する。この質問応答装置150は、CPUと、RAMと、後述する質問応答生成処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。図5に示すように、質問応答装置150は、入力部60と、演算部70と、出力部80とを備えている。   As shown in FIG. 5, the question answering apparatus 150 of the question answering system according to the embodiment of the present invention receives a question sentence, ranks and outputs answer candidate sentences for the question sentence. This question answering apparatus 150 is composed of a computer including a CPU, a RAM, and a ROM storing a program for executing a question answer generation processing routine described later, and is functionally constructed as follows. ing. As shown in FIG. 5, the question answering apparatus 150 includes an input unit 60, a calculation unit 70, and an output unit 80.

入力部60は、入力された質問文を受け付ける。   The input unit 60 receives the input question sentence.

演算部70は、形態素解析部71、検索クエリ生成部72、検索部73、文集合抽出部74、形態素解析部75、特徴量生成部76、ランキング部77、及びモデル記憶部78を備えている。なお、文集合抽出部74は、回答候補抽出手段の一例である。ランキング部77は、スコア算出手段及びランキング手段の一例である。   The calculation unit 70 includes a morpheme analysis unit 71, a search query generation unit 72, a search unit 73, a sentence set extraction unit 74, a morpheme analysis unit 75, a feature quantity generation unit 76, a ranking unit 77, and a model storage unit 78. . The sentence set extraction unit 74 is an example of answer candidate extraction means. The ranking unit 77 is an example of a score calculation unit and a ranking unit.

形態素解析部71は、入力部10により受け付けた質問文に対して形態素解析を行うことにより、上記図2と同様の形態素解析結果を得る。   The morpheme analysis unit 71 obtains a morpheme analysis result similar to that in FIG. 2 by performing morpheme analysis on the question sentence received by the input unit 10.

検索クエリ生成部72は、質問文の形態素解析結果に基づいて、上記のランキングモデルの学習時と同様に、質問文に含まれる単語を用いた検索クエリを生成する。   The search query generation unit 72 generates a search query using words included in the question sentence based on the morphological analysis result of the question sentence, as in the case of learning the ranking model.

検索部73は、生成された検索クエリを用いて、ウェブ検索エンジンにて、インターネットを介してWebに対する検索処理を行い、検索結果を得る。   Using the generated search query, the search unit 73 performs a search process on the Web via the Internet using a web search engine, and obtains a search result.

文集合抽出部74は、上記のランキングモデルの学習時と同様に、検索結果に含まれる各スニペットを抽出すると共に、各スニペットを文に分割し、得られた文集合を、回答候補文の文集合とする。   The sentence set extraction unit 74 extracts each snippet included in the search result, divides each snippet into sentences, and uses the obtained sentence set as the sentence of the answer candidate sentence, as in the case of learning the ranking model. Let it be a set.

形態素解析部75は、回答候補文の文集合の各々に対して、形態素解析を行い、上記図2と同様の形態素解析結果を得る。   The morpheme analysis unit 75 performs morpheme analysis on each of the sentence sets of the answer candidate sentences, and obtains the same morpheme analysis result as in FIG.

特徴量生成部76は、回答候補文の文集合の各々について、入力部10により受け付けた質問文と当該回答候補文との組み合わせについて、それぞれの形態素解析結果に基づいて、上記の特徴量生成部22と同様に、「文順位の逆数(rank)」、「単語数(len)」、「理由についての意味属性(ncat-意味属性)」、「疑問詞を含むか(question)」、「一文字目が日本語か(sentence-begin)」、「最後の文字が句点か(sentence-end)」、「日本語の割合(ja)」、「スペース及び句読点の割合(common)」、「英字の割合(latin)」、「括弧の割合(paren)」、「記号の割合(symbol)」、「内容語のカバレッジ(cw-count)」、「単語(表層系)のカバレッジ(count)」、「単語(標準形)のカバレッジ(base-count)」、「意味属性のカバレッジ(cats-count)」、及び「原因表現パターンを含むか(synpat-パターン)」を含む各特徴量を要素とする特徴ベクトルを生成する。   For each of the sentence sets of the answer candidate sentences, the feature quantity generation unit 76 performs the above-described feature quantity generation unit based on the respective morphological analysis results for the combination of the question sentence received by the input unit 10 and the answer candidate sentence. Similarly to “22,“ reciprocal number of sentence order (rank) ”,“ number of words (len) ”,“ semantic attribute about reason (ncat-semantic attribute) ”,“ whether it contains a question (question) ”,“ one character `` Eyes are Japanese (sentence-begin) '', `` Last letter is a punctuation mark (sentence-end) '', `` Japanese ratio (ja) '', `` Space and punctuation ratio (common) '', `` English characters "Rate (latin)", "parentheses ratio (paren)", "symbol ratio (symbol)", "content word coverage (cw-count)", "word (surface layer) coverage (count)", " Word (standard form) coverage (base-count) "," semantic attribute coverage (cats-count) ", and" cause expression pattern included (synpat-pattern Generating a feature vector for each feature quantity including a down) "and elements.

モデル記憶部78には、モデル学習装置100によって出力されたランキングモデル(各特徴量に対する重みベクトル)を記憶する。   The model storage unit 78 stores the ranking model (weight vector for each feature amount) output by the model learning device 100.

ランキング部77は、入力部10により受け付けた質問文と回答候補文との組み合わせの各々について、モデル記憶部78に記憶された重みベクトル(ランキングモデル)と、当該組み合わせに対して生成された特徴ベクトルとを掛け合わすことで、スコアを算出し、算出されたスコアに従って、回答候補文をランキングする。これらの回答候補文をすべて、または、上位N件を出力部80により出力することで、システム回答とする。   For each combination of the question sentence and the answer candidate sentence received by the input unit 10, the ranking unit 77 stores a weight vector (ranking model) stored in the model storage unit 78 and a feature vector generated for the combination. By multiplying and, the score is calculated, and the answer candidate sentences are ranked according to the calculated score. All of these answer candidate sentences or the top N cases are output by the output unit 80 to be system answers.

<質問応答システムの作用>
次に、本実施の形態に係る質問応答システムの作用について説明する。まず、予め用意された正解質問応答データがモデル学習装置100に入力されると、モデル学習装置100によって、入力された正解質問応答データが、正解質問応答データ記憶部21へ格納される。そして、モデル学習装置100によって、図6に示すモデル学習処理ルーチンが実行される。
<Operation of question answering system>
Next, the operation of the question answering system according to the present embodiment will be described. First, when correct answer question response data prepared in advance is input to the model learning device 100, the input correct question answer data is stored in the correct question answer data storage unit 21 by the model learning device 100. Then, the model learning processing routine shown in FIG.

まず、ステップS101において、正解質問応答データ記憶部21から、正解質問応答データに含まれる全ての質問文、正解文、不正解文を取得する。ステップS102において、上記ステップS101で取得したデータから、質問文と、正解文または不正解文との組み合わせを選択する。   First, in step S101, all the question sentences, correct sentences, and incorrect sentences included in the correct answer data are acquired from the correct answer data storage unit 21. In step S102, a combination of a question sentence and a correct answer sentence or an incorrect answer sentence is selected from the data acquired in step S101.

そして、ステップS103において、上記ステップS102で選択された質問文と、正解文または不正解文との組み合わせについて、質問文の形態素解析結果、及び正解文または不正解文の形態素解析結果に基づいて、特徴ベクトルを生成する。   In step S103, for the combination of the question sentence selected in step S102 and the correct answer sentence or incorrect answer sentence, based on the morphological analysis result of the question sentence and the morphological analysis result of the correct sentence or incorrect answer sentence, Generate a feature vector.

次のステップS104では、正解質問応答データの全ての組み合わせについて、上記ステップS102、S103の処理を実行したか否かを判定する。上記ステップS102、S103の処理を実行していない組み合わせが存在する場合には、上記ステップS102へ戻り、当該組み合わせを選択する。一方、正解質問応答データの全ての組み合わせについて、上記ステップS102、S103の処理を実行したと判定された場合には、ステップS105へ移行する。   In the next step S104, it is determined whether or not the processes in steps S102 and S103 have been executed for all combinations of correct answer / answer data. If there is a combination for which the processes in steps S102 and S103 are not executed, the process returns to step S102, and the combination is selected. On the other hand, if it is determined that the processing of steps S102 and S103 has been executed for all combinations of correct question response data, the process proceeds to step S105.

ステップS105では、上記ステップS103で生成された全ての組み合わせの特徴ベクトルに基づいて、正解文を不正解文よりも上位にランキングするように、特徴ベクトルの各特徴量の重みである重みベクトル(ランキングモデル)を、機械学習により学習する。   In step S105, based on the feature vectors of all combinations generated in step S103, the weight vector (ranking) that is the weight of each feature quantity of the feature vector is ranked higher than the incorrect answer sentence. Model) by machine learning.

そして、ステップS106において、上記ステップS105で学習されたランキングモデルを出力部30により出力し、モデル学習処理ルーチンを終了する。   In step S106, the ranking model learned in step S105 is output by the output unit 30, and the model learning processing routine is terminated.

そして、出力部30により出力されたランキングモデルが、質問応答装置150のモデル記憶部78に記憶される。また、質問文が質問応答装置150に入力されると、質問応答装置150によって、図7に示す質問応答生成処理ルーチンが実行される。   Then, the ranking model output by the output unit 30 is stored in the model storage unit 78 of the question answering device 150. When the question text is input to the question answering device 150, the question answering device 150 executes a question answer generating process routine shown in FIG.

ステップS111において、入力された質問文を受け付ける。ステップS112では、上記ステップS111で受け付けた質問文に対して、形態素解析を行う。   In step S111, the inputted question sentence is received. In step S112, morphological analysis is performed on the question sentence received in step S111.

そして、ステップS113において、上記ステップS112で得られた質問文の形態素解析結果に基づいて、検索クエリを生成する。ステップS114で、上記ステップS113で生成された検索クエリを用いて、Webに対して検索処理を行う。   In step S113, a search query is generated based on the morphological analysis result of the question sentence obtained in step S112. In step S114, search processing is performed on the Web using the search query generated in step S113.

次のステップS115では、上記ステップS114で得られた検索結果から、回答候補文の集合を抽出する。ステップS116では、上記ステップS115で抽出された回答候補文の集合に含まれる各回答候補文に対して形態素解析を行う。   In the next step S115, a set of answer candidate sentences is extracted from the search result obtained in step S114. In step S116, morphological analysis is performed on each answer candidate sentence included in the set of answer candidate sentences extracted in step S115.

そして、ステップS117において、入力された質問文と各回答候補文との組み合わせの各々について、特徴ベクトルを生成する。ステップS118において、ランキングモデルと上記ステップS117で生成した特徴ベクトルとを用いて、入力された質問文と各回答候補文との組み合わせの各々について、スコアを算出する。   In step S117, a feature vector is generated for each combination of the inputted question sentence and each answer candidate sentence. In step S118, using the ranking model and the feature vector generated in step S117, a score is calculated for each combination of the input question sentence and each answer candidate sentence.

次のステップS119では、上記ステップS118で算出されたスコアに従って、回答候補文の集合をランキングして、出力部80により出力し、応答生成処理ルーチンを終了する。   In the next step S119, according to the score calculated in step S118, the set of answer candidate sentences is ranked and output by the output unit 80, and the response generation processing routine is terminated.

<実施例>
以下に、実施例を示す。150問を5分割し、交差検定を行った。評価尺度には、top-N Mean Reciprocal Rank(MRR)、および、N位内正解率を用いた。Top-N MRRとは、ある質問について、上位N件の回答出力をしたとき、一番上位の回答の順位の逆数を、その質問についての得点とし、所与の質問セットについての得点の平均値を求めたものである。N位内正解率は、N位までの出力を見たとき、その中に正解が含まれていた質問の割合である。たとえば、質問が10問あり、システム出力において、5位までに回答が含まれている場合が5問あれば、5/10=0.5が5位内正解率となる。本発明で提案した特徴量(「疑問詞を含むか(question)」、「一文字目が日本語か(sentence-begin)」、「最後の文字が句点か(sentence-end)」、「日本語の割合(ja)」、「スペース及び句読点の割合(common)」、「英字の割合(latin)」、「括弧の割合(paren)」、「記号の割合(symbol)」)以外の特徴量を要素とした特徴ベクトルを用いた場合を比較例とした。交差検定の結果を、図8に示す。
<Example>
Examples are shown below. 150 questions were divided into 5 and cross-validated. Top-N Mean Reciprocal Rank (MRR) and N-rank accuracy rate were used as the evaluation scale. Top-N MRR is the average of the scores for a given set of questions, when the top N answers are output for a question, the reciprocal of the ranking of the top answer is the score for that question. Is what we asked for. The N-rank correct answer rate is the percentage of questions that included correct answers when looking at the output up to the N-th rank. For example, if there are 10 questions and the system output includes 5 answers up to 5th place, 5/10 = 0.5 is the 5th place correct answer rate. Features proposed in the present invention (“question” (question), “first character is Japanese (sentence-begin)”, “last character is punctuation (sentence-end)”, “Japanese ) (Character ratio (ja) "," space and punctuation ratio (common) "," letter ratio (latin) "," parentheses ratio (paren), "symbol ratio (symbol)") The case where a feature vector as an element was used was taken as a comparative example. The result of cross-validation is shown in FIG.

本発明で提案した特徴量(「疑問詞を含むか(question)」、「一文字目が日本語か(sentence-begin)」、「最後の文字が句点か(sentence-end)」、「日本語の割合(ja)」、「スペース及び句読点の割合(common)」、「英字の割合(latin)」、「括弧の割合(paren)」、「記号の割合(symbol)」)を特徴ベクトルの要素として追加することによって、top-N MRR及びN位内正解率の双方で改善が見られており、本発明で提案した特徴量の有効性が確認できた。   Features proposed in the present invention (“question” (question), “first character is Japanese (sentence-begin)”, “last character is punctuation (sentence-end)”, “Japanese "Feature ratio (ja)", "space and punctuation ratio (common)", "letter ratio (latin)", "parentheses ratio (paren)", "symbol ratio (symbol)") As a result, improvement was observed in both the top-N MRR and the N-rank accuracy rate, and the effectiveness of the feature amount proposed in the present invention could be confirmed.

以上説明したように、本実施の形態に係る質問応答装置によれば、質問文に対する回答候補文の集合の各々について、回答候補文における文長、文字種、文の妥当性、及び疑問詞の存在の有無の各々に関する特徴量を含む特徴ベクトルを生成して、スコアを算出し、スコアに従って、回答候補文の集合をランキングすることにより、質問文に対する回答候補を精度よくランキングすることができる。   As described above, according to the question answering apparatus according to the present embodiment, for each set of answer candidate sentences for the question sentence, the sentence length, the character type, the validity of the sentence, and the existence of the question word in the answer candidate sentence By generating a feature vector including a feature quantity relating to each of the presence or absence of a sentence, calculating a score, and ranking a set of answer candidate sentences according to the score, the answer candidates for the question sentence can be accurately ranked.

また、質問に対して、回答候補文が適切にランキングされるようになるため、ユーザの質問に対し的確に答えを出力するシステムが実現でき、ユーザの知的活動の効率を高めることができる。   In addition, since the answer candidate sentences are appropriately ranked with respect to the question, it is possible to realize a system that accurately outputs the answer to the user's question, thereby improving the efficiency of the user's intellectual activities.

なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。   Note that the present invention is not limited to the above-described embodiment, and various modifications and applications are possible without departing from the gist of the present invention.

例えば、モデル学習装置と質問応答装置とを一つの装置で実現するようにしてもよい。この場合には、モデル学習部によって学習されたランキングモデルを、モデル記憶部に格納するようにすればよい。   For example, the model learning device and the question answering device may be realized by a single device. In this case, the ranking model learned by the model learning unit may be stored in the model storage unit.

また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。   In the present specification, the embodiment has been described in which the program is installed in advance. However, the program can be provided by being stored in a computer-readable recording medium.

21 正解質問応答データ記憶部
22 特徴量生成部
23 モデル学習部
60 入力部
70 演算部
71 形態素解析部
72 検索クエリ生成部
73 検索部
74 文集合抽出部
75 形態素解析部
76 特徴量生成部
77 ランキング部
78 モデル記憶部
100 モデル学習装置
150 質問応答装置
21 correct answer / answer data storage unit 22 feature quantity generation unit 23 model learning unit 60 input unit 70 calculation unit 71 morpheme analysis unit 72 search query generation unit 73 search unit 74 sentence set extraction unit 75 morpheme analysis unit 76 feature quantity generation unit 77 ranking Unit 78 Model storage unit 100 Model learning device 150 Question answering device

Claims (14)

入力された質問文に対してノンファクトイド型の質問応答を行うための回答文を生成する質問応答装置であって、
前記入力された質問文に対する1つ以上の文からなる回答候補の集合を抽出する回答候補抽出手段と、
前記回答候補抽出手段によって抽出された前記回答候補の集合に含まれる前記回答候補の各々について、前記質問文と前記回答候補との組み合わせに対する、前記質問文と前記回答候補との内容の関連性に関する特徴量と、前記回答候補中の括弧の割合を示す特徴量とを含む特徴ベクトルを生成する特徴量生成手段と、
前記質問文と前記回答候補との組み合わせの各々について、予め学習された前記特徴ベクトルに含まれる各特徴量に対する重みと、前記特徴量生成手段によって生成された前記組み合わせに対する前記特徴ベクトルとに基づいて、スコアを算出するスコア算出手段と、
前記スコア算出手段によって算出されたスコアに従って、前記回答候補の集合をランキングするランキング手段と、
を含む質問応答装置。
A question answering device for generating an answer sentence for performing a non-factoid type question answer to an inputted question sentence,
Answer candidate extraction means for extracting a set of answer candidates comprising one or more sentences for the inputted question sentence;
For each of the answer candidates included in the set of answer candidates extracted by the answer candidate extraction means, the relevance of the contents of the question sentence and the answer candidate with respect to a combination of the question sentence and the answer candidate Feature quantity generating means for generating a feature vector including a feature quantity and a feature quantity indicating a ratio of parentheses in the answer candidates;
For each combination of the question sentence and the answer candidate, based on a weight for each feature amount included in the feature vector learned in advance and the feature vector for the combination generated by the feature amount generation means , A score calculating means for calculating a score;
Ranking means for ranking the set of answer candidates according to the score calculated by the score calculating means;
Including question answering device.
入力された質問文に対してノンファクトイド型の質問応答を行うための回答文を生成する質問応答装置であって、
前記入力された質問文に対する1つ以上の文からなる回答候補の集合を抽出する回答候補抽出手段と、
前記回答候補抽出手段によって抽出された前記回答候補の集合に含まれる前記回答候補の各々について、前記質問文と前記回答候補との組み合わせに対する、前記質問文と前記回答候補との内容の関連性に関する特徴量と、前記回答候補の一文字目が日本語であるか否かを示す特徴量とを含む特徴ベクトルを生成する特徴量生成手段と、
前記質問文と前記回答候補との組み合わせの各々について、予め学習された前記特徴ベクトルに含まれる各特徴量に対する重みと、前記特徴量生成手段によって生成された前記組み合わせに対する前記特徴ベクトルとに基づいて、スコアを算出するスコア算出手段と、
前記スコア算出手段によって算出されたスコアに従って、前記回答候補の集合をランキングするランキング手段と、
を含む質問応答装置。
A question answering device for generating an answer sentence for performing a non-factoid type question answer to an inputted question sentence,
Answer candidate extraction means for extracting a set of answer candidates comprising one or more sentences for the inputted question sentence;
For each of the answer candidates included in the set of answer candidates extracted by the answer candidate extraction means, the relevance of the contents of the question sentence and the answer candidate with respect to a combination of the question sentence and the answer candidate Feature quantity generating means for generating a feature vector including a feature quantity and a feature quantity indicating whether or not the first character of the answer candidate is Japanese ;
For each combination of the question sentence and the answer candidate, based on a weight for each feature amount included in the feature vector learned in advance and the feature vector for the combination generated by the feature amount generation means , A score calculating means for calculating a score;
Ranking means for ranking the set of answer candidates according to the score calculated by the score calculating means;
Including question answering device.
入力された質問文に対してノンファクトイド型の質問応答を行うための回答文を生成する質問応答装置であって、
前記入力された質問文に対する1つ以上の文からなる回答候補の集合を抽出する回答候補抽出手段と、
前記回答候補抽出手段によって抽出された前記回答候補の集合に含まれる前記回答候補の各々について、前記質問文と前記回答候補との組み合わせに対する、前記質問文と前記回答候補との内容の関連性に関する特徴量と、前記回答候補の最後の文字が句点であるか否かを示す特徴量とを含む特徴ベクトルを生成する特徴量生成手段と、
前記質問文と前記回答候補との組み合わせの各々について、予め学習された前記特徴ベクトルに含まれる各特徴量に対する重みと、前記特徴量生成手段によって生成された前記組み合わせに対する前記特徴ベクトルとに基づいて、スコアを算出するスコア算出手段と、
前記スコア算出手段によって算出されたスコアに従って、前記回答候補の集合をランキングするランキング手段と、
を含む質問応答装置。
A question answering device for generating an answer sentence for performing a non-factoid type question answer to an inputted question sentence,
Answer candidate extraction means for extracting a set of answer candidates comprising one or more sentences for the inputted question sentence;
For each of the answer candidates included in the set of answer candidates extracted by the answer candidate extraction means, the relevance of the contents of the question sentence and the answer candidate with respect to a combination of the question sentence and the answer candidate Feature quantity generating means for generating a feature vector including a feature quantity and a feature quantity indicating whether or not the last character of the answer candidate is a punctuation point ;
For each combination of the question sentence and the answer candidate, based on a weight for each feature amount included in the feature vector learned in advance and the feature vector for the combination generated by the feature amount generation means , A score calculating means for calculating a score;
Ranking means for ranking the set of answer candidates according to the score calculated by the score calculating means;
Including question answering device.
前記特徴量生成手段は、前記回答候補抽出手段によって抽出された前記回答候補の集合に含まれる前記回答候補の各々について、前記回答候補における文長、疑問詞の存在の有無、及び意味属性の存在の有無の少なくとも一つに関する特徴量を更に含む前記特徴ベクトルを生成する請求項1〜請求項3の何れか1項記載の質問応答装置。  The feature amount generation means includes, for each of the answer candidates included in the answer candidate set extracted by the answer candidate extraction means, a sentence length, presence / absence of a question word, and presence of a semantic attribute in the answer candidate The question answering device according to any one of claims 1 to 3, wherein the feature vector further including a feature quantity related to at least one of presence or absence of is generated. 前記入力された質問文に基づいて、検索クエリを生成する検索クエリ生成手段と、
前記検索クエリ生成手段によって生成された検索クエリを用いて、Webに対して検索処理を行う検索手段とを更に含み、
前記回答候補抽出手段は、前記検索手段による検索処理によって得られた検索結果から、前記回答候補の集合を抽出し、
前記特徴量生成手段は、前記質問文の形態素解析結果と、前記回答候補の集合に含まれる前記回答候補の各々の形態素解析結果とに基づいて、前記組み合わせの各々の特徴ベクトルを生成する請求項1〜請求項の何れか1項記載の質問応答装置。
Search query generation means for generating a search query based on the inputted question sentence;
Search means for performing a search process on the Web using the search query generated by the search query generation means,
The answer candidate extraction means extracts the set of answer candidates from the search results obtained by the search processing by the search means,
The feature quantity generating unit generates each feature vector of the combination based on a morphological analysis result of the question sentence and a morphological analysis result of each of the answer candidates included in the set of answer candidates. The question answering device according to any one of claims 1 to 4 .
入力された質問文に対してノンファクトイド型の質問応答を行うための回答文の回答候補をランキングするためのランキングモデルを学習するモデル学習装置であって、
前記質問文に対する、1つ以上の文からなる正解の回答文及び正解でない回答文を記憶した質問応答データ記憶手段と、
前記質問応答データ記憶手段に記憶された前記回答文の各々について、前記質問文と前記回答文との組み合わせに対する、前記質問文と前記回答文との内容の関連性に関する特徴量と、前記回答文中の括弧の割合を示す特徴量とを含む特徴ベクトルを生成する特徴量生成手段と、
前記特徴量生成手段によって生成された前記回答文の各々に対する前記特徴ベクトルと、前記回答文の各々が正解であるか否かとに基づいて、前記特徴ベクトルに含まれる各特徴量に対する重みを前記ランキングモデルとして学習する学習手段と、
を含むモデル学習装置。
A model learning device for learning a ranking model for ranking answer candidates of answer sentences for performing non-factoid type question responses to input question sentences,
Question answer data storage means for storing a correct answer sentence composed of one or more sentences and a non-correct answer sentence for the question sentence;
For each of the answer sentences stored in the question answer data storage means, a feature amount relating to the relevance of the contents of the question sentence and the answer sentence with respect to a combination of the question sentence and the answer sentence, and the answer sentence Feature quantity generating means for generating a feature vector including a feature quantity indicating a ratio of parentheses in the middle ;
Based on the feature vector for each of the answer sentences generated by the feature quantity generation means and whether or not each of the answer sentences is correct, a weight is assigned to each feature quantity included in the feature vector. Learning means to learn as a model,
Model learning device including
入力された質問文に対してノンファクトイド型の質問応答を行うための回答文の回答候補をランキングするためのランキングモデルを学習するモデル学習装置であって、
前記質問文に対する、1つ以上の文からなる正解の回答文及び正解でない回答文を記憶した質問応答データ記憶手段と、
前記質問応答データ記憶手段に記憶された前記回答文の各々について、前記質問文と前記回答文との組み合わせに対する、前記質問文と前記回答文との内容の関連性に関する特徴量と、前記回答文の一文字目が日本語であるか否かを示す特徴量とを含む特徴ベクトルを生成する特徴量生成手段と、
前記特徴量生成手段によって生成された前記回答文の各々に対する前記特徴ベクトルと、前記回答文の各々が正解であるか否かとに基づいて、前記特徴ベクトルに含まれる各特徴量に対する重みを前記ランキングモデルとして学習する学習手段と、
を含むモデル学習装置。
A model learning device for learning a ranking model for ranking answer candidates of answer sentences for performing non-factoid type question responses to input question sentences,
Question answer data storage means for storing a correct answer sentence composed of one or more sentences and a non-correct answer sentence for the question sentence;
For each of the answer sentences stored in the question answer data storage means, a feature amount relating to the relevance of the contents of the question sentence and the answer sentence with respect to a combination of the question sentence and the answer sentence, and the answer sentence Feature quantity generating means for generating a feature vector including a feature quantity indicating whether or not the first character of the character is in Japanese ,
Based on the feature vector for each of the answer sentences generated by the feature quantity generation means and whether or not each of the answer sentences is correct, a weight is assigned to each feature quantity included in the feature vector. Learning means to learn as a model,
Model learning device including
入力された質問文に対してノンファクトイド型の質問応答を行うための回答文の回答候補をランキングするためのランキングモデルを学習するモデル学習装置であって、
前記質問文に対する、1つ以上の文からなる正解の回答文及び正解でない回答文を記憶した質問応答データ記憶手段と、
前記質問応答データ記憶手段に記憶された前記回答文の各々について、前記質問文と前記回答文との組み合わせに対する、前記質問文と前記回答文との内容の関連性に関する特徴量と、前記回答文の最後の文字が句点であるか否かを示す特徴量とを含む特徴ベクトルを生成する特徴量生成手段と、
前記特徴量生成手段によって生成された前記回答文の各々に対する前記特徴ベクトルと、前記回答文の各々が正解であるか否かとに基づいて、前記特徴ベクトルに含まれる各特徴量に対する重みを前記ランキングモデルとして学習する学習手段と、
を含むモデル学習装置。
A model learning device for learning a ranking model for ranking answer candidates of answer sentences for performing non-factoid type question responses to input question sentences,
Question answer data storage means for storing a correct answer sentence composed of one or more sentences and a non-correct answer sentence for the question sentence;
For each of the answer sentences stored in the question answer data storage means, a feature amount relating to the relevance of the contents of the question sentence and the answer sentence with respect to a combination of the question sentence and the answer sentence, and the answer sentence Feature quantity generating means for generating a feature vector including a feature quantity indicating whether or not the last character of
Based on the feature vector for each of the answer sentences generated by the feature quantity generation means and whether or not each of the answer sentences is correct, a weight is assigned to each feature quantity included in the feature vector. Learning means to learn as a model,
Model learning device including
前記特徴量生成手段は、前記質問応答データ記憶手段に記憶された前記回答文の各々について、前記回答文における文長、疑問詞の存在の有無、及び意味属性の存在の有無の少なくとも一つに関する特徴量を更に含む前記特徴ベクトルを生成する請求項6〜請求項8の何れか1項記載のモデル学習装置。 The feature amount generating means relates to at least one of the sentence length, the presence / absence of a question word, and the presence / absence of a semantic attribute in each answer sentence stored in the question / answer data storage means. The model learning device according to claim 6, wherein the feature vector further including a feature amount is generated. 入力された質問文に対してノンファクトイド型の質問応答を行うための回答文を生成する質問応答装置における質問応答方法であって、
回答候補抽出手段によって、前記入力された質問文に対する1つ以上の文からなる回答候補の集合を抽出し、
特徴量生成手段によって、前記回答候補抽出手段によって抽出された前記回答候補の集合に含まれる前記回答候補の各々について、前記質問文と前記回答候補との組み合わせに対する、前記質問文と前記回答候補との内容の関連性に関する特徴量と、前記回答候補中の括弧の割合を示す特徴量とを含む特徴ベクトルを生成し、
スコア算出手段によって、前記質問文と前記回答候補との組み合わせの各々について、予め学習された前記特徴ベクトルに含まれる各特徴量に対する重みと、前記特徴量生成手段によって生成された前記組み合わせに対する前記特徴ベクトルとに基づいて、スコアを算出し、
ランキング手段によって、前記スコア算出手段によって算出されたスコアに従って、前記回答候補の集合をランキングする
質問応答方法
A question answering method in a question answering device for generating an answer sentence for performing a non-factoid type question answering to an inputted question sentence,
A candidate answer extracting unit extracts a set of answer candidates including one or more sentences for the inputted question sentence;
For each of the answer candidates included in the set of answer candidates extracted by the answer candidate extraction means by the feature quantity generation means, the question sentence and the answer candidate for the combination of the question sentence and the answer candidate Generating a feature vector including a feature amount relating to the relevance of the contents of the response and a feature amount indicating a ratio of parentheses in the answer candidate;
For each combination of the question sentence and the answer candidate by the score calculation means, a weight for each feature quantity included in the feature vector learned in advance and the feature for the combination generated by the feature quantity generation means Calculate the score based on the vector,
A question answering method in which ranking means ranks the set of answer candidates according to the score calculated by the score calculation means .
入力された質問文に対してノンファクトイド型の質問応答を行うための回答文を生成する質問応答装置における質問応答方法であって、
回答候補抽出手段によって、前記入力された質問文に対する1つ以上の文からなる回答候補の集合を抽出し、
特徴量生成手段によって、前記回答候補抽出手段によって抽出された前記回答候補の集合に含まれる前記回答候補の各々について、前記質問文と前記回答候補との組み合わせに対する、前記質問文と前記回答候補との内容の関連性に関する特徴量と、前記回答候補の一文字目が日本語であるか否かを示す特徴量とを含む特徴ベクトルを生成し、
スコア算出手段によって、前記質問文と前記回答候補との組み合わせの各々について、予め学習された前記特徴ベクトルに含まれる各特徴量に対する重みと、前記特徴量生成手段によって生成された前記組み合わせに対する前記特徴ベクトルとに基づいて、スコアを算出し、
ランキング手段によって、前記スコア算出手段によって算出されたスコアに従って、前記回答候補の集合をランキングする
質問応答方法
A question answering method in a question answering device for generating an answer sentence for performing a non-factoid type question answering to an inputted question sentence,
A candidate answer extracting unit extracts a set of answer candidates including one or more sentences for the inputted question sentence;
For each of the answer candidates included in the set of answer candidates extracted by the answer candidate extraction means by the feature quantity generation means, the question sentence and the answer candidate for the combination of the question sentence and the answer candidate Generating a feature vector that includes a feature amount related to the relevance of the content and a feature amount indicating whether or not the first character of the answer candidate is Japanese ,
For each combination of the question sentence and the answer candidate by the score calculation means, a weight for each feature quantity included in the feature vector learned in advance and the feature for the combination generated by the feature quantity generation means Calculate the score based on the vector,
A question answering method in which ranking means ranks the set of answer candidates according to the score calculated by the score calculation means .
入力された質問文に対してノンファクトイド型の質問応答を行うための回答文を生成する質問応答装置における質問応答方法であって、
回答候補抽出手段によって、前記入力された質問文に対する1つ以上の文からなる回答候補の集合を抽出し、
特徴量生成手段によって、前記回答候補抽出手段によって抽出された前記回答候補の集合に含まれる前記回答候補の各々について、前記質問文と前記回答候補との組み合わせに対する、前記質問文と前記回答候補との内容の関連性に関する特徴量と、前記回答候補の最後の文字が句点であるか否かを示す特徴量とを含む特徴ベクトルを生成し、
スコア算出手段によって、前記質問文と前記回答候補との組み合わせの各々について、予め学習された前記特徴ベクトルに含まれる各特徴量に対する重みと、前記特徴量生成手段によって生成された前記組み合わせに対する前記特徴ベクトルとに基づいて、スコアを算出し、
ランキング手段によって、前記スコア算出手段によって算出されたスコアに従って、前記回答候補の集合をランキングする
質問応答方法
A question answering method in a question answering device for generating an answer sentence for performing a non-factoid type question answering to an inputted question sentence,
A candidate answer extracting unit extracts a set of answer candidates including one or more sentences for the inputted question sentence;
For each of the answer candidates included in the set of answer candidates extracted by the answer candidate extraction means by the feature quantity generation means, the question sentence and the answer candidate for the combination of the question sentence and the answer candidate Generating a feature vector that includes a feature amount relating to the relevance of the content of and a feature amount indicating whether or not the last character of the answer candidate is a punctuation point
For each combination of the question sentence and the answer candidate by the score calculation means, a weight for each feature quantity included in the feature vector learned in advance and the feature for the combination generated by the feature quantity generation means Calculate the score based on the vector,
A question answering method in which ranking means ranks the set of answer candidates according to the score calculated by the score calculation means .
コンピュータを、請求項1〜請求項の何れか1項記載の質問応答装置を構成する各手段として機能させるためのプログラム。 The computer program to function as the respective means constituting the question answering equipment of any one of claims 1 to 5. コンピュータを、請求項〜請求項の何れか1項記載のモデル学習装置を構成する各手段として機能させるためのプログラム。 Program for causing a computer to function as each unit constituting the model learning device according to any one of claims 6 to claim 9.
JP2012130645A 2012-06-08 2012-06-08 Question answering apparatus, model learning apparatus, method, and program Active JP5431532B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012130645A JP5431532B2 (en) 2012-06-08 2012-06-08 Question answering apparatus, model learning apparatus, method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012130645A JP5431532B2 (en) 2012-06-08 2012-06-08 Question answering apparatus, model learning apparatus, method, and program

Publications (2)

Publication Number Publication Date
JP2013254420A JP2013254420A (en) 2013-12-19
JP5431532B2 true JP5431532B2 (en) 2014-03-05

Family

ID=49951850

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012130645A Active JP5431532B2 (en) 2012-06-08 2012-06-08 Question answering apparatus, model learning apparatus, method, and program

Country Status (1)

Country Link
JP (1) JP5431532B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105574133A (en) * 2015-12-15 2016-05-11 苏州贝多环保技术有限公司 Multi-mode intelligent question answering system and method

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9213941B2 (en) 2014-04-22 2015-12-15 Google Inc. Automatic actions based on contextual replies
JP6414956B2 (en) * 2014-08-21 2018-10-31 国立研究開発法人情報通信研究機構 Question generating device and computer program
JP6220762B2 (en) * 2014-10-28 2017-10-25 日本電信電話株式会社 Next utterance candidate scoring device, method, and program
JP6368683B2 (en) * 2015-05-12 2018-08-01 日本電信電話株式会社 Summary length estimation apparatus, method, and program
US10503786B2 (en) 2015-06-16 2019-12-10 International Business Machines Corporation Defining dynamic topic structures for topic oriented question answer systems
US10216802B2 (en) 2015-09-28 2019-02-26 International Business Machines Corporation Presenting answers from concept-based representation of a topic oriented pipeline
US10380257B2 (en) 2015-09-28 2019-08-13 International Business Machines Corporation Generating answers from concept-based representation of a topic oriented pipeline
CN106844368B (en) 2015-12-03 2020-06-16 华为技术有限公司 Method for man-machine conversation, neural network system and user equipment
JP6553557B2 (en) * 2016-08-09 2019-07-31 日本電信電話株式会社 Learning apparatus, video search apparatus, method, and program
US10846618B2 (en) * 2016-09-23 2020-11-24 Google Llc Smart replies using an on-device model
JP6680659B2 (en) * 2016-10-03 2020-04-15 エヌ・ティ・ティ レゾナント株式会社 Information processing device, information processing method, and program
JP6735711B2 (en) * 2017-06-12 2020-08-05 日本電信電話株式会社 Learning device, video search device, method, and program
JP6972788B2 (en) 2017-08-31 2021-11-24 富士通株式会社 Specific program, specific method and information processing device
JP6818706B2 (en) 2018-02-13 2021-01-20 日本電信電話株式会社 Information providing equipment, information providing method, and program
JP6985189B2 (en) * 2018-03-19 2021-12-22 ヤフー株式会社 Data collection equipment, data collection methods, and programs
JP7126682B2 (en) * 2018-05-11 2022-08-29 国立研究開発法人情報通信研究機構 Dialogue system and its computer program
JP6988715B2 (en) * 2018-06-29 2022-01-05 日本電信電話株式会社 Answer text selection device, method, and program
JP7256357B2 (en) * 2018-10-31 2023-04-12 キヤノンマーケティングジャパン株式会社 Information processing device, control method, program
CN109492086B (en) * 2018-11-26 2022-01-21 出门问问创新科技有限公司 Answer output method and device, electronic equipment and storage medium
JP6899973B2 (en) * 2019-01-08 2021-07-07 三菱電機株式会社 Semantic relationship learning device, semantic relationship learning method, and semantic relationship learning program
CN110162604B (en) * 2019-01-24 2023-09-12 腾讯科技(深圳)有限公司 Statement generation method, device, equipment and storage medium
WO2020174826A1 (en) * 2019-02-25 2020-09-03 日本電信電話株式会社 Answer generating device, answer learning device, answer generating method, and answer generating program
WO2021199727A1 (en) * 2020-04-02 2021-10-07 Necソリューションイノベータ株式会社 Contribution display control device, contribution display control method, and program
CN114970563B (en) * 2022-07-28 2022-10-25 山东大学 Chinese question generation method and system fusing content and form diversity

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5229782B2 (en) * 2007-11-07 2013-07-03 独立行政法人情報通信研究機構 Question answering apparatus, question answering method, and program
JP5041547B2 (en) * 2008-07-25 2012-10-03 日本電信電話株式会社 Future expression discrimination device and program
JP5096400B2 (en) * 2009-03-31 2012-12-12 株式会社デンソーアイティーラボラトリ Content search apparatus, method, and program
JP2011070529A (en) * 2009-09-28 2011-04-07 Hitachi Solutions Ltd Document processing apparatus

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105574133A (en) * 2015-12-15 2016-05-11 苏州贝多环保技术有限公司 Multi-mode intelligent question answering system and method

Also Published As

Publication number Publication date
JP2013254420A (en) 2013-12-19

Similar Documents

Publication Publication Date Title
JP5431532B2 (en) Question answering apparatus, model learning apparatus, method, and program
Suhaimin et al. Natural language processing based features for sarcasm detection: An investigation using bilingual social media texts
Kiritchenko et al. Sentiment analysis of short informal texts
KR102256240B1 (en) Non-factoid question-and-answer system and method
JP6466952B2 (en) Sentence generation system
KR102235990B1 (en) Device for collecting contradictory expression and computer program for same
Hadni et al. Word sense disambiguation for Arabic text categorization.
Syed et al. Associating targets with SentiUnits: a step forward in sentiment analysis of Urdu text
Pravalika et al. Domain-specific sentiment analysis approaches for code-mixed social network data
JP5591871B2 (en) Answer type estimation apparatus, method, and program
JP5718405B2 (en) Utterance selection apparatus, method and program, dialogue apparatus and method
Xu et al. Using SVM to extract acronyms from text
Hurtado et al. Who wrote this paper? Learning for authorship de-identification using stylometric featuress
Kawahara et al. Single Classifier Approach for Verb Sense Disambiguation based on Generalized Features.
El-Fiqi et al. Network motifs for translator stylometry identification
Davarpanah et al. Farsi lexical analysis and stop word list
Anchiêta et al. Using stylometric features for sentiment classification
Ouda QuranAnalysis: a semantic search and intelligence system for the Quran
JP5882241B2 (en) Method and apparatus for generating search keyword for question answering, and program
Okumura et al. Automatic labelling of documents based on ontology
JP5697164B2 (en) Tagging program, apparatus, method, and server for providing a category tag that cannot be directly derived from the target sentence
Taslioglu et al. Irony detection on microposts with limited set of features
Pakray et al. Smsfr: Sms-based faq retrieval system
JP7326637B2 (en) CHUNKING EXECUTION SYSTEM, CHUNKING EXECUTION METHOD, AND PROGRAM
Mayda et al. N-gram based approach to recognize the twitter accounts of Turkish daily newspapers

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131011

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131126

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131204

R150 Certificate of patent or registration of utility model

Ref document number: 5431532

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350