JP2006244262A - Retrieval system, method and program for answer to question - Google Patents

Retrieval system, method and program for answer to question Download PDF

Info

Publication number
JP2006244262A
JP2006244262A JP2005060847A JP2005060847A JP2006244262A JP 2006244262 A JP2006244262 A JP 2006244262A JP 2005060847 A JP2005060847 A JP 2005060847A JP 2005060847 A JP2005060847 A JP 2005060847A JP 2006244262 A JP2006244262 A JP 2006244262A
Authority
JP
Japan
Prior art keywords
discourse
question
unit
sentence
case
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005060847A
Other languages
Japanese (ja)
Inventor
Hiraki Ishikawa
開 石川
Susumu Akamine
享 赤峯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2005060847A priority Critical patent/JP2006244262A/en
Publication of JP2006244262A publication Critical patent/JP2006244262A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To highly accurately retrieve an example answer sentence to a question sentence. <P>SOLUTION: A talk unit candidate generating means 201 performs a morphological analysis and a syntax analysis of a question sentence to generate a candidate in a talk unit. A talk unit extracting means 202 applies a talk unit extraction rule stored in a storing means 301 to a candidate in a talk unit and extracts a talk unit from the question sentence. An example data registering means 203 registers a particular talk unit extracted from a question sentence example together with the question sentence and an answer sentence into a storing means 302. An example question answer sentence data retrieval means 204 retrieves, for each particular talk unit for a new question sentence, an example question answer sentence having a particular talk unit of the same talk type as the talk type of the particular talk unit from the storing means 302. An inter-question sentence collating means 205 determines whether a question sentence of the retrieved example question answer sentence and the new question sentence are question sentences about similar contents on the basis of the similarity between the sentences with each other. <P>COPYRIGHT: (C)2006,JPO&NCIPI

Description

本発明は、質問回答検索システム、方法およびプログラムに関し、特に質問者からの問い合わせに対して回答者が回答する際、参考となる事例回答文を検索するシステム、方法およびプログラムに関する。   The present invention relates to a question answer search system, method, and program, and more particularly, to a system, method, and program for searching a case answer sentence for reference when an answerer answers a query from a questioner.

インターネットの普及に伴い、製品やサービスなどに関する顧客からの電子メールでの問い合わせが増大している。このような問い合わせに対してオペレータが回答する際、参考となる事例回答文を適切に検索できることが業務効率化の上で望ましい。   With the spread of the Internet, inquiries by e-mail from customers regarding products and services are increasing. When an operator answers such an inquiry, it is desirable in terms of operational efficiency to appropriately search for a reference case answer sentence.

このような質問に対する回答事例の検索システムの例が、従来からいくつか知られている。例えば特許文献1には、過去の質問と同じ質問がされた場合、過去の質問に対する回答を用いて自動応答する自動応答装置が開示されている。この装置は、質問項目の文主体から検索語を抽出して検索語で類似質問を検索し、類似度を計算する。そして、類似質問検索で得られた事例の類似度に基づいて、自動回答、修正回答を判別し、複数の問合せ事項を含む問合せを内容分割手段によって分割し、個別に処理する。その上で、問合せ元に回答の正誤を判定させるものである。   Some examples of search systems for answer examples for such questions have been known. For example, Patent Document 1 discloses an automatic response device that automatically responds by using an answer to a past question when the same question as a past question is asked. This apparatus extracts a search term from a sentence subject of a question item, searches for a similar question using the search term, and calculates a similarity. Then, based on the similarity of the cases obtained by the similar question search, an automatic answer and a corrected answer are discriminated, and a query including a plurality of query items is divided by content dividing means and processed individually. Then, the inquiry source is made to determine whether the answer is correct or incorrect.

また、特許文献2には、過去の質問と同じ質問がされた場合、過去の質問に対する回答を用いて自動応答する質問回答装置が開示されている。この装置は、質問要素のタイプを予め定め、質問要素を抽出する表層パタンを用いて質問要素を抽出し、質問要素に含まれる自立語を検索語とし、質問事例を検索するものである。抽出された質問要素部分のみから検索語を柚出し、検索を行うことにより、関連質問事例の検索精度が特許文献1の装置に比べて改善されている。また、質問要素の抽出パタンを予め作り込み、質問者には正しい回答のみを提示する点で特許文献1の装置に対し優れる。   Further, Patent Document 2 discloses a question answering device that automatically responds using an answer to a past question when the same question as a past question is asked. This apparatus determines a question element type in advance, extracts a question element by using a surface layer pattern for extracting the question element, and searches a question case using an independent word included in the question element as a search word. By retrieving a search word from only the extracted question element portion and performing a search, the search accuracy of related question cases is improved as compared with the apparatus of Patent Document 1. In addition, it is superior to the apparatus of Patent Document 1 in that an extraction pattern of question elements is created in advance and only correct answers are presented to the questioner.

さらに、関連する技術として、特許文献3には、アンケートに記述された自由文中の、意見、感想、背景、質問、要求、状況説明、苦情などに該当する感性表現を、テキストから自動抽出する表現抽出装置が開示されている。この装置は、入力文の構文構造から、用言節とその連用節を抽出し、その中で感性表現と判断されるものを抽出する。そして、用言の分類、シソーラス、感性表現の分類、用言節+連用節の感性表現としての尤度といった感性表現の判断知識を、ユーザ入力によって獲得するものである。大量の文書からの感性表現の自動抽出が可能であって、アンケートの分析などに向いた方法である。   Furthermore, as a related technique, Patent Document 3 discloses an expression that automatically extracts a sensitivity expression corresponding to an opinion, an impression, a background, a question, a request, a situation explanation, a complaint, and the like in a free sentence described in a questionnaire from a text. An extraction device is disclosed. This device extracts a prescriptive phrase and its continuous phrase from the syntactic structure of the input sentence, and extracts those that are judged as emotional expressions. Then, judgment knowledge of sensitivity expression such as predicate classification, thesaurus, sensitivity expression classification, likelihood of prescriptive phrase + continuous clause sensitivity expression is acquired by user input. It is possible to automatically extract emotional expressions from a large number of documents, which is suitable for questionnaire analysis.

従来の装置、例えば特許文献2の質問回答装置では、以下のように動作する。すなわち、質問回答事例格納手段は、予め事例を読み込み、事例質問文と事例回答文とに分割し、質問事例を書式解析し、操作・状態・質問に相当する記述を抽出し、抽出された記述を標準的な表現に変換し、質問事例を質問に関する談話タイプに分類し、回答事例と共に質問回答事例記憶手段に格納しておく。抽出ルール記憶手段は、「操作」、「状態」、「質問」などの予め決められた談話タイプごとの特定談話単位を文から抽出するための特定談話単位のスロットと文末表現の表層で表現された抽出ルールを格納しておく。   The conventional device, for example, the question answering device of Patent Document 2, operates as follows. That is, the question answer case storage means reads the case in advance, divides it into a case question sentence and a case answer sentence, analyzes the format of the question case, extracts the description corresponding to the operation / state / question, and extracts the extracted description. Are converted into standard expressions, the question cases are classified into discourse types related to the questions, and stored in the question answer case storage means together with the answer cases. The extraction rule storage means is expressed by a specific discourse unit slot for extracting from a sentence a specific discourse unit for each predetermined discourse type such as “operation”, “state”, “question” and the surface layer of the sentence end expression. Store the extraction rules.

質問抽出手段は、電子メールなどにより質問者から送信されてくる質問文と、抽出ルール記憶手段に格納された抽出ルールの文末表現の表層とを照合し、ルールと表層が一致した場合に特定談話単位のスロットに対応する質問文部分を特定談話単位として抽出する。事例検索手段は、質問抽出手段により抽出された質問に関する特定談話単位を検索キーにして事例質問回答文記憶手段を検索し、談話タイプの一致する事例質問文を回答提示手段に出力する。回答文提示手段は、検索された質問事例に対応する回答事例を事例質問回答文記憶手段から読み出し質問者に提示する。   The question extraction means collates the question sentence sent from the questioner by e-mail etc. with the surface layer of the sentence end expression of the extraction rule stored in the extraction rule storage means, and when the rule and the surface layer match, the specific discourse The question sentence portion corresponding to the unit slot is extracted as a specific discourse unit. The case search means searches the case question answer text storage means using the specific discourse unit related to the question extracted by the question extraction means as a search key, and outputs the case question text having the same discourse type to the answer presentation means. The answer sentence presenting means reads the answer case corresponding to the searched question case from the case question answer sentence storage means and presents it to the questioner.

特開2002−132661号公報Japanese Patent Laid-Open No. 2002-132661 特開2002−278977号公報JP 2002-278777 A 特開2004−62448号公報JP 2004-62448 A

従来技術の第1の問題点は、質問文からの特定談話単位の抽出精度が低いということである。その理由は、質問文から談話タイプごとの特定談話単位を抽出する手がかりとして文末表現を用いる方法の原理的限界による。具体的には、例えば「<質問>、教えてください。」という抽出ルール(特許文献2の図6参照)は、「どうしたらよいのか、教えてください。」という質問文に対しては、「どうしたらよいのか(対処方法)」を談話タイプ「質問」として正しく抽出するが、談話タイプ「質問」ではない「お手数をおかけしますが、教えてください。」という質問文に対しても、「お手数をおかけしますが」を談話タイプ「質問」と誤認して抽出してしまうためである。   The first problem of the prior art is that the accuracy of extracting a specific discourse unit from a question sentence is low. The reason is due to the fundamental limitation of the method using sentence end expressions as clues for extracting a specific discourse unit for each discourse type from a question sentence. Specifically, for example, an extraction rule “<Question>, please tell me” (see FIG. 6 of Patent Document 2) is “No, what should I do?” “What should I do (Solution)” is correctly extracted as the discourse type “Question”, but it is not the discourse type “Question”. This is because “I ’m sorry to trouble you,” but misunderstood it as a discourse type “question”.

第2の問題点は、抽出ルールの作成に膨大なコストを要するということである。その理由は、質問文から談話タイプごとに特定談話単位を抽出する手がかりとして文末表現を用いるため、不特定多数の質問者による問い合わせから特定談話単位を漏れなく抽出するためには、組み合わせ的な数でバリエーションが生じる文末表現を網羅する必要が生じ、大量の抽出ルールを記述しなければならないためである。   The second problem is that enormous costs are required to create an extraction rule. The reason is that the sentence end expression is used as a clue to extract a specific discourse unit for each discourse type from a question sentence. Therefore, in order to extract a specific discourse unit completely from inquiries by an unspecified number of questioners, a combination of numbers This is because it is necessary to cover the sentence end expressions that cause variations, and a large number of extraction rules must be described.

第3の問題点は、一つの質問中に複数の質問事項が含まれている場合に事例の検索が適切に行われない場合があるということである。その理由は、質問中に複数の質問事項が含まれる場合、どの質問事項の特定談話単位かを区別しないで抽出する方法のため、検索時に異なる質問事項の特定談話単位を組み合わせて事例質問文を検索することになり、いずれの質問事項とも無関係な事例を誤って検索する可能性が高いためである。   The third problem is that when a plurality of question items are included in one question, a case search may not be performed properly. The reason for this is that when multiple questions are included in a question, it is a method of extracting without distinguishing which particular question unit of a particular question. This is because there is a high possibility that a case that is unrelated to any of the questions will be erroneously searched.

第4の問題点は、質問と内容が一致する質問事例が検索によって得られない場合があるということである。その理由は、検索条件として質問と質問事例の特定談話単位の文字列一致を用いる場合(特許文献2の方法)には、わずかな表現の違いによって特定談話単位は不一致となるためである。例えば、質問から抽出される談話タイプ「操作」の特定談話単位が「住所変更」であり、質問事例から抽出される同一談話タイプの特定談話単位が「住所の変更」であるとき、両者は同じ内容を表すにもかかわらず不一致となってしまう。また検索条件として質問と質問事例の特定談話単位のキーワードの一致を用いる場合には、トピックが同じ場合には出現キーワードの傾向が似るため、質問の内容が異なる場合にも事例質問文が類似していると誤って判断される可能性があるからである。   The fourth problem is that there may be a case where a question case whose content matches the question cannot be obtained by the search. The reason is that, when the character string matching of the specific discourse unit between the question and the question example is used as the search condition (the method of Patent Document 2), the specific discourse unit becomes inconsistent due to a slight difference in expression. For example, when the specific discourse unit of the discourse type “operation” extracted from the question is “change address” and the specific discourse unit of the same discourse type extracted from the question example is “change address”, both are the same Despite showing the contents, they are inconsistent. In addition, when using keyword matching in a specific discourse unit between a question and a question case as a search condition, the tendency of the appearance keyword is similar when the topic is the same, so the case question sentence is similar even when the content of the question is different. This is because there is a possibility that it is mistakenly determined.

第5の問題点は、質問文が省略や照応関係(照応とは代名詞や省略されたものが何を指し示すかを推定すること)を含んでいる場合、特定談話単位が抽出されることにより元の意味内容が損なわれる場合があるということである。その理由は、特定談話単位(談話とは連続する複数の文)を抽出する際に、抽出によって省略や照応関係が失われるかどうかを考慮していないためであり、このような談話単位による類似文事例の検索では、データベース中に適切な関連事例が存在していてもこれを適切に検索できないといった問題が生じうるからである。   The fifth problem is that when a question sentence includes omissions and anaphoric relations (estimation is what pronouns and omissions indicate), the original discourse unit is extracted to extract the original discourse unit. It means that the meaning content of may be impaired. The reason is that when extracting a specific discourse unit (a discourse is a plurality of consecutive sentences), it is not considered whether omission or anaphoric relationship is lost by the extraction. This is because the sentence case search may cause a problem that even if an appropriate related case exists in the database, it cannot be appropriately searched.

本発明の目的は、質問文から各談話タイプごとの特定談話単位を高い精度で抽出することができる質問回答検索システム、方法およびプログラムを提供することにある。   An object of the present invention is to provide a question answer search system, method, and program capable of extracting a specific discourse unit for each discourse type from a question sentence with high accuracy.

前記目的を達成する本発明の一つのアスペクトに係る質問回答検索方法は、予め事例質問文に対して形態素解析および構文解析を行った後、構文構造のうち文または節の構造に基づいて談話単位候補を生成するステップと、構文解析の結果から、談話単位候補および談話単位候補の表層表現に対し、構文的・意味的属性を抽出して付与するステップと、談話単位候補に対して構文的・意味的属性についての一致条件を特定談話単位の談話タイプごとに記述した談話単位抽出ルールを適用し、談話タイプごとに事例質問文からの特定談話単位の抽出を行うステップと、抽出された特定談話単位を事例質問文自身と共にデータベースに質問回答事例として記憶するステップと、を含む。また、新規質問文が入力された際にも、事例質問文と同様にして新規質問文に対する特定談話単位を抽出するステップと、新規質問文に対する特定談話単位の談話タイプと同一の談話タイプの特定談話単位を持つ質問回答事例をデータベースから検索するステップと、検索した質問回答事例中の事例質問文と新規質問文との間で談話タイプが一致する特定談話単位間の類似度に基づいて事例質問文が新規質問文と類似であると判断するステップと、を含む。   A method for searching for answers to questions according to one aspect of the present invention that achieves the above object is to perform discourse units based on the structure of a sentence or a section of a syntax structure after performing morphological analysis and syntax analysis on a case question sentence in advance. A step of generating candidates, a step of extracting and assigning syntactic and semantic attributes to the discourse unit candidates and the surface representation of the discourse unit candidates from the result of the syntax analysis, and a syntactic Applying the discourse unit extraction rule that describes the matching conditions for semantic attributes for each discourse type in a specific discourse unit, extracting a specific discourse unit from the case question sentence for each discourse type, and the extracted specific discourse Storing the unit as a question answer example in the database together with the case question sentence itself. In addition, when a new question sentence is entered, the step of extracting a specific discourse unit for the new question sentence in the same way as the case question sentence, and the identification of the same discourse type as the specific discourse unit for the new question sentence A case question based on the step of searching the database for question answer cases with discourse units and the similarity between specific discourse units where the discourse type matches between the case question sentence and the new question sentence in the searched question answer case Determining that the sentence is similar to the new question sentence.

本発明の一つのアスペクトに係る質問回答検索システムは、質問文に対して形態素解析および構文解析を行った後、構文構造のうち文または節の構造に基づいて談話単位の候補を生成する談話単位候補生成手段と、談話単位候補および談話単位候補の表層表現に対する構文的・意味的属性を抽出して付与し、構文的・意味的属性についての一致条件によって談話タイプごとに談話単位候補から談話単位の抽出を判断するためのルールを記述した談話単位抽出ルールを格納する談話単位抽出ルール記憶手段と、談話単位候補に対して談話単位抽出ルールを適用し、談話タイプごとに質問文から談話単位の抽出を行う談話単位抽出手段と、談話単位抽出手段において事例質問文から抽出された特定談話単位を質問文および質問文に対する回答文と共に事例質問回答文データとして事例質問回答文データ記憶手段に登録する事例データ登録手段と、事例質問回答文データ登録手段によって登録される事例質問回答文データを記憶する事例質問回答文データ記憶手段と、を備える。また、入力装置から入力される新規質問文に対して特定談話単位抽出手段において抽出される各特定談話単位ごとに、新規質問文の談話タイプと同一の談話タイプの特定談話単位を持つ事例質問回答文を、事例質問回答文データ記憶手段に記憶された事例質問回答文データの中から検索する事例質問回答文データ検索手段と、検索された事例質問回答文の質問文と新規質問文との特定談話単位における類似度に基づいて、質問文同士が類似の内容に関する質問文であるかどうかを判定する質問文間照合手段と、を備える。   The question answer search system according to one aspect of the present invention includes a discourse unit that generates a discourse unit candidate based on a sentence or clause structure of a syntax structure after performing morphological analysis and syntax analysis on a question sentence. Candidate generation means, syntactic and semantic attributes for the discourse unit candidate and the surface representation of the discourse unit candidate are extracted and assigned, and the discourse unit candidate is used for each discourse type according to the matching conditions for syntactic and semantic attributes. Discourse unit extraction rule storage means for storing discourse unit extraction rules that describe rules for judging the extraction of discourses, and applying discourse unit extraction rules to discourse unit candidates. Discourse unit extraction means for performing extraction, and the specific discourse unit extracted from the case question sentence in the discourse unit extraction means as the answer sentence to the question sentence and the question sentence Case data registration means for registering in the case question answer sentence data storage means as case question answer sentence data, and case question answer sentence data storage means for storing case question answer sentence data registered by the case question answer sentence data registration means . Also, for each specific discourse unit extracted by the specific discourse unit extraction means for a new question sentence input from the input device, a case question answer having a specific discourse unit of the same discourse type as the discourse type of the new question sentence Case question answer sentence data retrieval means for retrieving sentences from case question answer sentence data stored in the case question answer sentence data storage means, and identification of the question sentence and new question sentence of the retrieved case question answer sentence Inter-question sentence collating means for judging whether or not the question sentences are question sentences related to similar contents based on the similarity in the discourse unit.

本発明の一つのアスペクトに係るプログラムは、質問回答検索システムを構成するコンピュータに、予め事例質問文に対して形態素解析および構文解析を行った後、構文構造のうち文または節の構造に基づいて談話単位候補を生成する処理と、構文解析の結果から、談話単位候補および談話単位候補の表層表現に対し、構文的・意味的属性を抽出して付与する処理と、談話単位候補に対して構文的・意味的属性についての一致条件を特定談話単位の談話タイプごとに記述した談話単位抽出ルールを適用し、談話タイプごとに事例質問文からの特定談話単位の抽出を行う処理と、抽出された特定談話単位を事例質問文自身と共にデータベースに質問回答事例として記憶する処理と、新規質問文が入力された際にも、事例質問文と同様にして新規質問文に対する特定談話単位を抽出する処理と、新規質問文に対する特定談話単位の談話タイプと同一の談話タイプの特定談話単位を持つ質問回答事例をデータベースから検索する処理と、検索した質問回答事例中の事例質問文と新規質問文との間で談話タイプが一致する特定談話単位間の類似度に基づいて事例質問文が新規質問文と類似であると判断する処理と、を実行させる。   A program according to an aspect of the present invention is based on the structure of a sentence or a section of a syntax structure after a morphological analysis and a syntax analysis are performed on a case question sentence in advance on a computer constituting a question answer search system. Processing to generate discourse unit candidates, processing to extract and add syntactic and semantic attributes to the discourse unit candidates and the surface representation of the discourse unit candidates from the result of syntax analysis, and syntax to the discourse unit candidates Extraction of specific discourse units from case question sentences for each discourse type by applying a discourse unit extraction rule that describes matching conditions for specific and semantic attributes for each discourse type. Processing to store specific discourse units as a question answer case in the database together with the case question sentence itself, and when a new question sentence is entered, it is new in the same way as the case question sentence Processing to extract a specific discourse unit for a question sentence, processing to search a question answer example having a specific discourse unit of the same discourse type as the discourse type of a specific discourse unit for a new question sentence, and a searched question answer example And a process of determining that the case question sentence is similar to the new question sentence based on the similarity between the specific discourse units in which the discourse types match between the case question sentence and the new question sentence.

本発明によれば、構文解析結果から木構造をなす談話単位の候補を生成しておき、構文的、意味的な属性に基づいた抽出ルールを用いて質問文の意図や要求などに関連した談話単位を全て抽出して事例の検索を行う。したがって、質問文から各談話タイプごとの特定談話単位を高い精度で抽出することができ、新規な質問文に対する適切な回答文を検索することが可能となる。   According to the present invention, a discourse unit candidate having a tree structure is generated from a syntax analysis result, and a discourse related to an intention or a request of a question sentence using an extraction rule based on a syntactic and semantic attribute. Search for cases by extracting all units. Therefore, the specific discourse unit for each discourse type can be extracted from the question sentence with high accuracy, and an appropriate answer sentence for the new question sentence can be searched.

まず始めに主要な用語について説明しておく。   First, the main terms are explained.

「談話単位」:談話は、書き手(話し手)が読み手(聞き手)に情報を伝達すること、または情報伝達によって目的を達成することを動機として構成する複数の文(発話)のことである。「談話単位」は、ここでは、このような談話を構成する、伝達内容の最小単位に対応した文もしくは文の部分であって、一つ以上の述部とその修飾要素を内包する単位とする。   “Discourse unit”: A discourse is a plurality of sentences (utterances) that are configured to motivate a writer (speaker) to transmit information to a reader (listener) or to achieve a purpose through information transmission. The “discourse unit” is a sentence or a part of a sentence corresponding to the minimum unit of the content of communication that constitutes such a discourse and includes one or more predicates and modifiers. .

「談話単位の述部の文スタイル」:文スタイルとは、ここでは文が平叙文、命令文、疑問文のいずれであるという文の属性を指す。文スタイルは文の述部の用言によって与えられる。例えば述部の末尾に終助詞「か」がある場合はこの述部によって文スタイルは「疑問」となる。同様に、談話単位も述部を持ち、文の場合と同様、この述部によって決定される文スタイルがある。この文スタイルを指して、「談話単位の述部の文スタイル」と記述している。   “Sentence-style predicate sentence style”: The sentence style here refers to the attribute of a sentence that the sentence is a plain text, a command sentence, or a question sentence. Sentence style is given by the predicates of the sentence. For example, if there is a final particle "ka" at the end of the predicate, the sentence style becomes "question" by this predicate. Similarly, the discourse unit also has a predicate, and there is a sentence style determined by this predicate, as in the case of a sentence. This sentence style is described as “statement style of discourse predicate”.

「ヘッド用言」:「ヘッド」とは、主語、述語、目的語、名詞句において、それぞれの句を構成する複数の形態素(単語)のうち、その全体の意味を決定付けるのに中心的な役割を果たしている形態素のことを指している。述部を構成する用言の中で、述部の意味を決定付ける役割を果たしている用言のことを指して、「ヘッド用言」と記述しており、「ヘッド用言の意味分類」とはこの用言の意味分類のことを指している。「意味分類」は、形態素の持つ意味に基づいて、意味分類の体系(シソーラス、意味分類辞書など)から割り振られた分類体系上の分類名のことを指す。   “Head predicate”: “Head” is a central part of the subject, predicate, object, and noun phrase that determines the overall meaning of a plurality of morphemes (words) constituting each phrase. It refers to a morpheme that plays a role. Among the predicates that make up the predicate, it refers to the predicates that play a role in determining the meaning of the predicate. Refers to the semantic classification of this idiom. The “semantic classification” refers to a classification name on a classification system assigned from a semantic classification system (thesaurus, semantic classification dictionary, etc.) based on the meaning of the morpheme.

「ヘッド用言の格要素ごとの形態素」:「ヘッド用言」とは、前述のように、述部の意味を決定付けるのに中心的な役割を果たしている用言のことを指しており、この「用言の格要素」とは、この用言に対する格要素(が格、を格、に格、などの格を伴って用言に係っている句)である主語、目的語、名詞句を指す。「ヘッド用言の格要素ごとの形態素」とは、ヘッド用言のそれぞれの格要素を構成している形態素のことを指している。   “Head morpheme for each case element”: “Head predicate” refers to a predicate that plays a central role in determining the meaning of a predicate, as described above. The “case element of the idiom” means a subject, object, noun that is a case element (a phrase that is related to the idiom with a case such as a case, a case, a case, etc.) Refers to a phrase. The “morpheme for each case element of the head idiom” refers to a morpheme constituting each case element of the head idiom.

「(形態素の)表層」:「表層」とは、形態素の文中におけるそのままの形態(表層)での文字列をさす。   “Surface of (morpheme)”: “Surface” refers to a character string in the form (surface) as it is in a morpheme sentence.

「(形態素の)原型」:「原型」とは、「表層」に対して、活用を除いた形態での文字列をさす。   “Prototype (of morpheme)”: “Prototype” refers to a character string in a form that excludes the use of “surface layer”.

「(形態素の)意味分類」:「意味分類」は、形態素の持つ意味に基づいて、意味分類の体系(シソーラス、意味分類辞書など)から割り振られた分類体系上の分類名のことを指す。   “(Morphological) semantic classification”: “Semantic classification” refers to a classification name on the classification system assigned from a semantic classification system (thesaurus, semantic classification dictionary, etc.) based on the meaning of the morpheme.

「格要素のヘッド」:格要素とは、が格、を格、に格、などの格を伴って用言に係っている句である主語、目的語、名詞句を指す。「ヘッド」とは、前述のように、主語、述語、目的語、名詞句において、それぞれの句を構成する複数の形態素(単語)のうち、その全体の意味を決定付けるのに中心的な役割を果たしている形態素のことを指している。   “Head of case element”: A case element refers to a subject, an object, or a noun phrase that is a phrase related to a predicate with a case such as a case, a case, a case, or the like. As described above, the “head” plays a central role in determining the meaning of the whole of a plurality of morphemes (words) constituting each phrase in the subject, predicate, object, and noun phrase. Refers to the morpheme that fulfills

「属性」:談話単位候補が特定談話単位に該当するか判断する際に重要な観点(判断材料)になる複数の特徴を談話単位候補から抽出し、これを一括して属性と呼んでいる。具体的には、各談話単位の候補に対して、形態素解析および構文解析により、述部の文スタイル、ヘッド用言の意味分類、さらにヘッド用言の格要素に属する全ての形態素の表層、代表表記、品詞、意味分類、および格要素のヘッドである形態素へのフラグ、を各談話単位候補の特徴量として出力する。この出力される特徴量を属性という。これらは、形態素解析および構文解析から得られる結果であり、特に談話単位の談話タイプを主に決定する述部と、述部に係って談話単位の意味内容を形成する重要な要素である、この述部に対する主語、目的語、名詞句に関する構文的、意味的な情報から構成されている。これらの情報(特徴量)を抽出し、抽出ルールと照合することにより、談話単位候補が談話タイプと意味内容の観点から特定談話単位、すなわち、質問文の中で書き手が伝えたい意味内容を構成している談話の中でも、質問や要求など、意味内容を伝えるうえで最も重要な役割を担っている談話単位、としての特徴を備えているかどうかを判断する。   “Attribute”: A plurality of features that are important viewpoints (determination materials) when determining whether a discourse unit candidate corresponds to a specific discourse unit are extracted from the discourse unit candidates and collectively referred to as attributes. Specifically, for each discourse unit candidate, by morphological analysis and syntactic analysis, the sentence style of the predicate, the semantic classification of the head predicate, and the surface layers and representatives of all the morphemes belonging to the head predicate case element The notation, the part of speech, the semantic classification, and the flag to the morpheme that is the head of the case element are output as the feature amount of each discourse unit candidate. This output feature amount is called an attribute. These are the results obtained from morphological analysis and syntactic analysis, especially predicates that mainly determine the discourse type of the discourse unit, and important elements that form the semantic content of the discourse unit related to the predicate. It consists of syntactic and semantic information about the subject, object, and noun phrase for this predicate. By extracting this information (features) and collating it with the extraction rules, the discourse unit candidates form the specific discourse unit from the viewpoint of discourse type and semantic content, that is, the semantic content that the writer wants to convey in the question sentence It is judged whether or not the discourse unit has characteristics as a discourse unit that plays the most important role in conveying meaning content such as questions and requests.

[第1の実施形態]
本発明の第1の実施形態に係る質問回答検索システムは、質問文に対して形態素解析および構文解析を行った後、構文構造のうち文または節の構造に基づいて談話単位の候補を生成する談話単位候補生成部と、談話タイプごとに談話単位候補から談話単位の抽出を判断するための抽出ルールを、談話単位の述部の文スタイル(平叙、命令、疑問)、テンス・アスペクト(現在、過去、未来、進行、完了)、ヘッド用言の意味分類、さらにヘッド用言が格要素として、主語、目的語、名詞句のいずれかを持つ場合にそれらの格要素に属する全ての形態素の表層、原型、品詞、意味分類、および格要素のヘッドかどうかの別、の談話単位に対する構文的・意味的属性についての一致条件の組み合わせによって記述し、これを格納する談話単位抽出ルール記憶部と、談話単位候補に対してこのような談話単位抽出ルールを適用し、談話タイプごとに質問文からの談話単位抽出を行う談話単位抽出部とを備える。そして、談話タイプの抽出単位を抽出ルールによって一意に決定するのではなく、構文解析結果から木構造をなす談話単位の候補として生成しておき、この候補のそれぞれに対し、構文的、意味的な特徴に基づいて記述された抽出ルールを適用し、抽出する談話単位を決定し、これを談話タイプとして抽出するよう動作する。
[First Embodiment]
The question answer search system according to the first embodiment of the present invention generates a discourse unit candidate based on the structure of a sentence or a section of a syntax structure after performing morphological analysis and syntax analysis on a question sentence. The discourse unit candidate generator and the extraction rules for determining the discourse unit extraction from the discourse unit candidates for each discourse type, the sentence style (plain, command, question), tense aspect (currently, Past, future, progress, completion), semantic classification of head utterances, and if the head utterance has a subject, object or noun phrase as a case element, the surface layer of all morphemes belonging to those case elements , Prototype, part-of-speech, semantic classification, and whether or not the head of a case element is described by a combination of matching conditions for syntactic and semantic attributes for the discourse unit, and discourse unit extraction to store this Chromatography provided Le a storage unit, to apply such a discourse unit extraction rules for discourse unit candidates, a discourse unit extraction unit that performs discourse unit extraction from the question sentence for each discourse type. Then, instead of uniquely determining the discourse type extraction unit based on the extraction rule, it is generated as a discourse unit candidate that forms a tree structure from the parsing result, and for each of these candidates, syntactic and semantic The extraction rule described based on the feature is applied, the discourse unit to be extracted is determined, and this is extracted as the discourse type.

以上のように動作することで、談話タイプのより高精度な抽出と、より記述力の高い抽出ルールによる効果的な網羅を可能とする。したがって、質問文から各談話タイプごとの特定談話単位を高い精度で抽出することができる。また、抽出ルールの作成を容易に行うことができる。   By operating as described above, more accurate extraction of discourse types and effective coverage by extraction rules with higher descriptive power are possible. Therefore, the specific discourse unit for each discourse type can be extracted from the question sentence with high accuracy. In addition, extraction rules can be easily created.

さらに、特定談話単位の照合において、この構文意味情報の各素性の一致に基づいて特定談話単位が照合するかどうかを判断する特定談話単位照合部を備え、特定談話単位から抽出される構文意味情報に基づいて特定談話単位の照合を行うよう動作する。   Further, in the collation of specific discourse units, the syntactic and semantic information extracted from the specific discourse unit is provided with a specific discourse unit collation unit that determines whether or not the specific discourse unit is collated based on the match of each feature of the syntax semantic information. Based on the above, it operates to perform collation for a specific discourse unit.

また、質問回答検索システムは、特定談話単位同士が構文的、意味的な観点で一致しているかどうかを照合することにより、質問文における要求回答の内容が、事例質問回答文の回答内容と整合した質問事例を検索する。   In addition, the question answer search system matches the specific discourse units with syntactic and semantic viewpoints so that the content of the requested answer in the question sentence matches the answer content of the case question answer sentence. Search for example questions.

次に、本発明の第1の実施形態に係る質問回答検索システムについて図面を参照してより詳細に説明する。図1を参照すると、本発明の第1の実施形態に係る質問回答検索システムは、入力装置100と、プログラム制御によって動作して質問回答検索処理を機能させるデータ処理装置200aと、記憶装置300aと、出力装置400とから構成されている。   Next, the question answer search system according to the first embodiment of the present invention will be described in more detail with reference to the drawings. Referring to FIG. 1, the question answer search system according to the first embodiment of the present invention includes an input device 100, a data processing device 200a that operates by program control to function the question answer search processing, and a storage device 300a. , And the output device 400.

データ処理装置200aは、談話単位候補生成部201と、特定談話単位抽出部202と、事例データ登録部203と、事例質問回答文データ検索部204と、質問文間照合部205とを含む。記憶装置300aは、特定談話単位抽出ルール記憶部301と、事例質問回答文データ記憶部302とを含む。   The data processing device 200 a includes a discourse unit candidate generation unit 201, a specific discourse unit extraction unit 202, a case data registration unit 203, a case question answer sentence data search unit 204, and an inter-question sentence collation unit 205. The storage device 300 a includes a specific discourse unit extraction rule storage unit 301 and a case question answer sentence data storage unit 302.

談話単位候補生成部201は、入力装置100から入力される新規質問文もしくは事例質問文に対し、入力された文字列を意味を持ち得る最小の単位(形態素)に分割する形態素解析処理、および単語同士の位置関係から名詞、動詞、目的語等の文法的関係を同定する構文解析処理を行う。その後、構文構造のうち文または節の構造に基づいて談話単位の候補を生成して特定談話単位抽出部202に出力する。また、構文解析処理の結果から、各談話単位候補に対する構文的、意味的な情報を属性として抽出する。   The discourse unit candidate generation unit 201 divides the input character string into the smallest unit (morpheme) that can be meaningful for a new question sentence or case question sentence input from the input device 100, and a word A parsing process is performed to identify grammatical relationships such as nouns, verbs, objects, etc. from the positional relationship between each other. Thereafter, a discourse unit candidate is generated based on the sentence or clause structure of the syntax structure and output to the specific discourse unit extraction unit 202. Further, syntactic and semantic information for each discourse unit candidate is extracted as an attribute from the result of the parsing process.

特定談話単位抽出部202は、談話単位候補生成部201から入力される各談話単位候補に対して、特定談話単位抽出ルール記憶部301に記憶されている特定談話単位抽出ルールを適用して質問文から各談話タイプごとの特定談話単位を抽出し、事例データ登録部203に出力する。   The specific discourse unit extraction unit 202 applies the specific discourse unit extraction rule stored in the specific discourse unit extraction rule storage unit 301 to each discourse unit candidate input from the discourse unit candidate generation unit 201, and asks the question sentence. From this, a specific discourse unit for each discourse type is extracted and output to the case data registration unit 203.

事例データ登録部203は、特定談話単位抽出部202において事例質問文から抽出された特定談話単位をその質問文および質問文に対する回答文と共に事例質問回答文データ記憶部302に登録する。   The case data registration unit 203 registers the specific discourse unit extracted from the case question sentence by the specific discourse unit extraction unit 202 in the case question answer sentence data storage unit 302 together with the question sentence and the answer sentence to the question sentence.

事例質問回答文データ検索部204は、入力装置100から入力される新規質問文に対して特定談話単位抽出部202において抽出された特定談話単位を入力する。そして、入力した各特定談話単位ごとに、特定談話単位の談話タイプと同一の談話タイプの特定談話単位を持つ事例質問回答文を、事例質問回答文データ記憶部302に記憶された事例質問回答文データの中から検索し、検索結果を質問文間照合部205に出力する。   The case question answer sentence data search unit 204 inputs the specific discourse unit extracted by the specific discourse unit extraction unit 202 with respect to the new question sentence input from the input device 100. For each input specific discourse unit, the case question answer sentence having the specific discourse unit of the same discourse type as the discourse type of the specific discourse unit is stored in the case question answer sentence data storage unit 302. A search is performed from the data, and the search result is output to the inter-question sentence matching unit 205.

質問文間照合部205は、検索された事例質問回答文の質問文と新規質問文との特定談話単位における、同一談話タイプの特定談話単位の割合や、同一談話タイプの特定談話単位間での類似度に基づいて、質問文同士が類似の内容に関する質問文であるかどうかを判定する。類似すると判断した事例質問回答文を出力装置400に出力する。   The inter-question sentence matching unit 205 determines the ratio of the specific discourse units of the same discourse type in the specific discourse units of the question sentence and the new question sentence of the searched case question answer sentence, and between the specific discourse units of the same discourse type. Based on the similarity, it is determined whether or not the question sentences are related to similar contents. The case question answer sentence determined to be similar is output to the output device 400.

特定談話単位抽出ルール記憶部301は、特定談話単位ごとに談話単位の述部の文スタイル、テンス・アスペクト、ヘッド用言の意味分類、ヘッド用言の格要素ごとの形態素の表層、原型、品詞、意味分類、および格要素のヘッドを特徴量とし、この特徴量の値に関する条件によって談話単位候補が各談話タイプの特定談話単位であるかどうかを判断するためのルールを記述したものを、特定談話単位抽出ルールとして記憶する。   The specific discourse unit extraction rule storage unit 301 includes a predicate sentence style, a tense aspect, a head categorization semantic classification, a morpheme surface layer, a prototype, and a part of speech for each head discourse for each specific discourse unit. , Semantic classification, and case element head as a feature quantity, and specifying a rule describing whether or not a discourse unit candidate is a specific discourse unit of each discourse type according to the condition related to the feature value It is stored as a discourse unit extraction rule.

事例質問回答文データ記憶部302は、事例質問回答文データ登録部203によって登録される特定談話単位とその事例質問回答文を記憶する。   The case question answer sentence data storage unit 302 stores a specific discourse unit registered by the case question answer sentence data registration unit 203 and the case question answer sentence.

次に、図1及び図2のフローチャートを参照してシステムの全体の動作について詳細に説明する。まず、事例質問回答文データの入力(図2のステップA1)から登録(図2のステップA4)までの動作を説明する。   Next, the overall operation of the system will be described in detail with reference to the flowcharts of FIGS. First, an operation from input of case question answer text data (step A1 in FIG. 2) to registration (step A4 in FIG. 2) will be described.

入力装置100より事例質問回答文データが入力される。入力される事例質問回答文データは、質問文とそれに対する回答文が対となっている(図2のステップA1)。   Case question answer sentence data is input from the input device 100. In the case question answer sentence data to be input, the question sentence and the answer sentence corresponding thereto are paired (step A1 in FIG. 2).

入力された事例質問回答文データの質問文に対し、談話単位候補生成部201において形態素解析および構文解析が行われた後、構文構造のうち文または節の構造に基づいて談話単位の候補が生成される。形態素解析および構文解析の結果から、各談話単位の候補の述部の文スタイル、テンス・アスペクト、ヘッド用言の意味分類、ヘッド用言の格要素ごとの形態素の表層、原型、品詞、意味分類、および格要素のヘッドを特徴量として出力する(図2のステップA2)。   The discourse unit candidate generation unit 201 performs morphological analysis and syntax analysis on the question sentence of the input case question answer sentence data, and then generates discourse unit candidates based on the sentence or clause structure of the syntax structure. Is done. From the results of morphological analysis and syntactic analysis, sentence styles of predicates for each discourse unit, tense and aspect, semantic classification of head terms, morphological surface layer, prototype, part of speech, semantic classification for each case element of head terms , And the head of the case element are output as feature quantities (step A2 in FIG. 2).

特定談話単位抽出部202では、談話単位候補生成部201で生成された各談話単位候補に対し、特定談話単位抽出ルール記憶部301に記憶されている特定談話単位抽出ルールを適用し、談話タイプごとの特定談話単位を抽出する。(図2のステップA3)。   The specific discourse unit extraction unit 202 applies the specific discourse unit extraction rule stored in the specific discourse unit extraction rule storage unit 301 to each discourse unit candidate generated by the discourse unit candidate generation unit 201, and sets each discourse type. Extract a specific discourse unit. (Step A3 in FIG. 2).

事例データ登録部203では、特定談話単位抽出部202で抽出された特定談話単位を事例質問回答文データの質問文およびその回答文と共に、事例質問回答文データ記憶部302に登録する(図2のステップA4)。   The case data registration unit 203 registers the specific discourse unit extracted by the specific discourse unit extraction unit 202 in the case question answer sentence data storage unit 302 together with the question sentence of the case question answer sentence data and the answer sentence (see FIG. 2). Step A4).

次に、新規質問文の入力(図2のステップA5)から類似事例質問回答文の出力(図2のステップA10)までの動作を説明する。   Next, the operation from the input of a new question sentence (step A5 in FIG. 2) to the output of a similar case question answer sentence (step A10 in FIG. 2) will be described.

新規質問文を入力装置100より入力する(図2のステップA5)。   A new question sentence is input from the input device 100 (step A5 in FIG. 2).

談話単位候補生成部201では、新規質問文に対してステップA2と同様の処理により談話単位の候補を生成し、各談話単位の候補に対する特徴量を求める(図2のステップA6)。   The discourse unit candidate generation unit 201 generates a discourse unit candidate for the new question sentence by the same process as in step A2, and obtains a feature amount for each discourse unit candidate (step A6 in FIG. 2).

特定談話単位抽出部202では、談話単位候補生成部201において新規質問文から生成された各談話単位候補に対し、ステップA3と同様の処理により特定談話単位を談話タイプごとに抽出する(図2のステップA7)。   The specific discourse unit extraction unit 202 extracts, for each discourse type, a specific discourse unit for each discourse unit candidate generated from the new question sentence in the discourse unit candidate generation unit 201 by the same process as in step A3 (FIG. 2). Step A7).

事例質問回答文データ検索部204では、特定談話単位抽出部202において新規質問文から抽出された各特定談話単位と同一の談話タイプの特定談話単位を含む事例質問回答文を、事例質問回答文データ記憶部302に記憶された事例質問回答文データから検索する(図2のステップA8)。   In the case question answer sentence data search unit 204, the case question answer sentence data including the specific discourse unit of the same discourse type as each specific discourse unit extracted from the new question sentence in the specific discourse unit extraction part 202 is converted into the case question answer sentence data. Search is performed from the case question answer text data stored in the storage unit 302 (step A8 in FIG. 2).

質問文間照合部205では、事例質問回答文データ検索部204において検索された各事例質問回答文について、その質問文と新規質問文との類似度を、双方の特定談話単位における談話タイプの一致の割合や、談話タイプが同一の特定談話単位同士の類似度に基づいて計算し、一定値以上の事例質問回答文を類似事例質問回答文と判定する(図2のステップA9)。   In the inter-question sentence collating unit 205, for each case question answer sentence searched by the case question answer sentence data searching unit 204, the similarity between the question sentence and the new question sentence is matched with the discourse type in both specific discourse units. And a case question answer sentence with a certain value or more is determined as a similar case question answer sentence (step A9 in FIG. 2).

質問文間照合部205において、類似事例質問回答文と判定された事例質問回答文を出力装置400に出力する(図2のステップA10)。   The question sentence matching unit 205 outputs the case question answer sentence determined as the similar case question answer sentence to the output device 400 (step A10 in FIG. 2).

以上のような質問回答検索システムによれば、特定談話単位を一意に抽出するのではなく、構文解析結果から木構造をなす談話単位の候補を生成しておき、構文的、意味的な特徴に基づいた記述力の高い抽出ルールを用いて質問文の意図や要求などに関連した談話単位を全て抽出し、これに基づいて事例の検索を行う。したがって、質問文から各談話タイプごとの特定談話単位を高い精度で抽出することができ、さらに抽出ルールの作成を容易に行うことができる。   According to the question answer search system as described above, instead of extracting a specific discourse unit uniquely, a candidate for a discourse unit that forms a tree structure is generated from a syntax analysis result, and a syntactic and semantic feature is generated. All the discourse units related to the intent and request of the question sentence are extracted using the extraction rules with high descriptive power based on them, and the cases are searched based on this. Therefore, a specific discourse unit for each discourse type can be extracted from the question sentence with high accuracy, and an extraction rule can be easily created.

[第2の実施形態]
本発明の第2の実施形態に係る質問回答検索システムは、各談話単位候補の述部の文スタイル(平叙、命令、疑問)、テンス・アスペクト(現在、過去、未来、進行、完了)、ヘッド用言の意味分類、さらにヘッド用言が格要素として、主語、目的語、名詞句のいずれかを持つ場合にそれらの格要素に属する全ての形態素の表層、原型、品詞、意味分類、および格要素のヘッドかどうかの別をその談話単位の特徴量とし、この特徴量を入力として各談話タイプの特定談話単位かどうかの判別を行う特定談話単位抽出モデルを用いて抽出を行う談話単位抽出部と、質問文中から抽出すべき談話タイプが与えられた質問文を学習データとして特定談話単位抽出モデルを機械的に学習する特定談話単位抽出モデル獲得部とを備える。そして、人手によって特定談話単位抽出ルールを記述しなくても機械的な学習によって特定談話単位抽出モデルを獲得するよう動作する。
[Second Embodiment]
The question answer search system according to the second embodiment of the present invention includes a sentence style (statement, command, question), tense aspect (current, past, future, progress, completion), head of each discourse unit candidate. Semantic classification of predicates, and when head predicates have subject, object or noun phrases as case elements, the surface layers, prototypes, parts of speech, semantic classifications, and cases of all morphemes belonging to those case elements Discrimination unit extraction unit that extracts by using a specific discourse unit extraction model that determines whether it is a specific discourse unit of each discourse type by using the feature amount of that discourse unit as the element head or not And a specific discourse unit extraction model acquisition unit that mechanically learns a specific discourse unit extraction model using a question sentence provided with a discourse type to be extracted from the question sentence as learning data. And even if it does not describe a specific discourse unit extraction rule manually, it operates so that a specific discourse unit extraction model may be acquired by mechanical learning.

次に、本発明の第2の実施形態に係る質問回答検索システムについて図面を参照してより詳細に説明する。図3を参照すると、本発明の第2の実施形態に係る質問回答検索システムは、入力装置100と、プログラム制御によって動作して質問回答検索処理を機能させるデータ処理装置200bと、記憶装置300bと、出力装置400とから構成されている。   Next, a question answer search system according to a second embodiment of the present invention will be described in more detail with reference to the drawings. Referring to FIG. 3, the question answer search system according to the second embodiment of the present invention includes an input device 100, a data processing device 200b that operates by program control to function the question answer search processing, and a storage device 300b. , And the output device 400.

データ処理装置200bは、談話単位候補生成部201aと、特定談話単位抽出部202aと、事例データ登録部203と、事例質問回答文データ検索部204と、質問文間照合部205と、特定談話単位抽出モデル獲得部206とを含む。記憶装置300bは、事例質問回答文データ記憶部302と、特定談話単位抽出モデル記憶部303とを含む。なお、図3において、事例データ登録部203、事例質問回答文データ検索部204、質問文間照合部205、事例質問回答文データ記憶部302は、図1で説明した同一の符号のものと同じであるので、その説明を省略する。   The data processing device 200b includes a discourse unit candidate generation unit 201a, a specific discourse unit extraction unit 202a, a case data registration unit 203, a case question answer sentence data search unit 204, a question sentence matching unit 205, and a specific discourse unit. An extraction model acquisition unit 206. The storage device 300b includes a case question answer sentence data storage unit 302 and a specific discourse unit extraction model storage unit 303. In FIG. 3, the case data registration unit 203, the case question answer text data search unit 204, the inter-question text matching unit 205, and the case question answer text data storage unit 302 are the same as those having the same reference numerals described in FIG. 1. Therefore, the description thereof is omitted.

談話単位候補生成部201aは、入力装置100より入力される新規質問文もしくは事例質問文に対して形態素解析処理および構文解析処理を行った後、構文構造のうち文または節の構造に基づいて談話単位の候補を生成し、また構文解析処理の結果から、各談話単位候補に対する構文的、意味的な情報を特徴量として抽出する。   The discourse unit candidate generation unit 201a performs a morphological analysis process and a syntax analysis process on a new question sentence or a case question sentence input from the input device 100, and then a discourse based on the sentence or clause structure of the syntax structure. Unit candidates are generated, and syntactic and semantic information for each discourse unit candidate is extracted as a feature amount from the result of the parsing process.

特定談話単位抽出部202aは、談話単位候補生成部201aで生成された談話単位候補に対して、特定談話単位抽出モデル記憶部303に記憶されている特定談話単位抽出モデルを適用し、質問文から各談話タイプごとの特定談話単位を抽出して事例データ登録部203に出力する。   The specific discourse unit extraction unit 202a applies the specific discourse unit extraction model stored in the specific discourse unit extraction model storage unit 303 to the discourse unit candidate generated by the discourse unit candidate generation unit 201a, and uses the question sentence. A specific discourse unit for each discourse type is extracted and output to the case data registration unit 203.

特定談話単位抽出モデル獲得部206は、入力装置100から、事例質問回答文と、さらにその中から抽出すべき特定談話単位が入力されたとき、これを学習データとして各談話タイプの特定談話単位を抽出するモデルの学習を行う。学習の結果、獲得した特定談話単位抽出モデルを特定談話単位抽出モデル記憶部303に記憶させる。   The specific discourse unit extraction model acquisition unit 206 receives, as learning data, specific discourse units of each discourse type when the case question answer sentence and the specific discourse unit to be extracted from the input are input from the input device 100. Train the model to be extracted. As a result of learning, the specific discourse unit extraction model acquired is stored in the specific discourse unit extraction model storage unit 303.

特定談話単位抽出モデル記憶部303は、特定談話単位ごとに談話単位の述部の文スタイル、テンス・アスペクト、ヘッド用言の意味分類、ヘッド用言の格要素ごとの形態素の表層、原型、品詞、意味分類、および格要素のヘッドを特徴量とし、この特徴量を入力して談話単位候補が各談話タイプの特定談話単位であるかどうかを判断するためのモデルを、特定談話単位抽出モデルとして記憶する。   The specific discourse unit extraction model storage unit 303 stores, for each specific discourse unit, the predicate sentence style, tense aspect, head semantics classification, morphological surface layer, prototype, part of speech for each head discourse case element. As a specific discourse unit extraction model, a model for determining whether or not a discourse unit candidate is a specific discourse unit of each discourse type by inputting this feature amount as a feature amount, and the head of the semantic classification and case element Remember.

次に、図3及び図4のフローチャートを参照してシステムの動作について詳細に説明する。なお、図4において、ステップA1、A2、A4〜A6、A8〜A10は、図2の同一の符号と同一の処理を行うので、その説明を省略する。   Next, the operation of the system will be described in detail with reference to the flowcharts of FIGS. In FIG. 4, steps A1, A2, A4 to A6, and A8 to A10 perform the same processing as the same reference numerals in FIG.

ステップA2に続いて、特定談話単位抽出モデルの学習を行う場合は、正解データ入力(図4のステップB1)から特定談話単位抽出モデルの記憶(図4のステップB4)までの動作に進み、既に特定談話単位抽出モデル記憶部303に特定談話単位抽出モデルが記憶されていて新たなモデルの学習を行わない場合は特定談話単位の抽出(図4のステップB5)に進む。   When learning the specific discourse unit extraction model following step A2, the operation proceeds from the correct data input (step B1 in FIG. 4) to the storage of the specific discourse unit extraction model (step B4 in FIG. 4). When the specific discourse unit extraction model is stored in the specific discourse unit extraction model storage unit 303 and a new model is not learned, the process proceeds to extraction of a specific discourse unit (step B5 in FIG. 4).

特定談話単位抽出モデルの学習を行う場合、既に入力した事例質問回答文データ(図4のステップA1)の質問文に含まれる各談話タイプごとの特定談話単位を正解データとして入力装置100より入力する(図4のステップB1)。   When learning the specific discourse unit extraction model, the specific discourse unit for each discourse type included in the question sentence of the example question answer sentence data (step A1 in FIG. 4) that has already been input is input from the input device 100 as correct data. (Step B1 in FIG. 4).

入力された特定談話単位の正解を、談話単位候補生成部201aによって生成された談話単位候補と照合し、抽出箇所が最も近い談話単位候補を改めて特定談話単位の正解とし、その談話タイプを入力された正解の談話タイプとする(図4のステップB2)。   The input correct answer of the specific discourse unit is collated with the discourse unit candidate generated by the discourse unit candidate generation unit 201a, and the discourse unit candidate with the closest extracted part is set as the correct answer of the specific discourse unit, and the discourse type is input. The correct answer type (step B2 in FIG. 4).

特定談話単位抽出モデル獲得部206では、事例質問回答文の質問文と特定談話単位の正解から作成された、各談話単位候補およびその特徴量、そこから各談話タイプごとに抽出すべき特定談話単位を学習データとして特定談話単位抽出モデルの学習を行う。特定談話単位抽出モデルは、各談話単位候補の特徴量を入力して、その候補が各談話タイプの特定談話単位に該当するかどうかの判定を出力するものであり、学習の結果、ある談話タイプの特定談話単位に該当する談話単位候補の特徴量が入力された場合に、その談話タイプの特定談話単位に該当すると判断するような特定談話単位抽出モデルを獲得する(図4のステップB3)。   In the specific discourse unit extraction model acquisition unit 206, each discourse unit candidate and its feature amount created from the question sentence of the case question answer sentence and the correct answer of the specific discourse unit, and the specific discourse unit to be extracted for each discourse type therefrom Is used as learning data to learn a specific discourse unit extraction model. The specific discourse unit extraction model inputs the features of each discourse unit candidate and outputs whether or not the candidate corresponds to the specific discourse unit of each discourse type. When a feature amount of a discourse unit candidate corresponding to a specific discourse unit is input, a specific discourse unit extraction model is determined that determines that the discourse type corresponds to a specific discourse unit (step B3 in FIG. 4).

特定談話単位抽出モデル獲得部206によって獲得された特定談話単位抽出モデルを特定談話単位抽出モデル記憶部303に記憶する(図4のステップB4)。   The specific discourse unit extraction model acquired by the specific discourse unit extraction model acquisition unit 206 is stored in the specific discourse unit extraction model storage unit 303 (step B4 in FIG. 4).

特定談話単位抽出部202では、談話単位候補生成部201で生成された各談話単位候補に対し、特定談話単位抽出モデル記憶部303に記憶されている特定談話単位抽出モデルを適用し、談話タイプごとの特定談話単位を抽出する(図4のステップB5)。この後、ステップA4に進む。   The specific discourse unit extraction unit 202 applies the specific discourse unit extraction model stored in the specific discourse unit extraction model storage unit 303 to each discourse unit candidate generated by the discourse unit candidate generation unit 201, for each discourse type. Are extracted (step B5 in FIG. 4). Thereafter, the process proceeds to Step A4.

ステップA6に続いて、特定談話単位抽出部202では、談話単位候補生成部201において新規質問文から生成された各談話単位候補に対し、ステップB5と同様の処理により特定談話単位を談話タイプごとに抽出する(図4のステップB6)。   Subsequent to step A6, the specific discourse unit extraction unit 202 applies a specific discourse unit for each discourse type by the same process as step B5 for each discourse unit candidate generated from the new question sentence in the discourse unit candidate generation unit 201. Extract (step B6 in FIG. 4).

ステップB6に続いて、ステップA8〜A10が実行され、類似事例質問回答文と判定された事例質問回答文が出力装置400から出力される。   Subsequent to step B6, steps A8 to A10 are executed, and the case question answer sentence determined as the similar case question answer sentence is output from the output device 400.

以上のような質問回答検索システムによれば、学習データからの機械的な学習によって質問文の意図や要求などに関連した談話単位を抽出するモデルを獲得する。すなわち、人手による特定談話単位ルール記述の負担を学習データからの機械的な学習によって軽減する。したがって、抽出のための知識作成を容易に行うことができ、人手による特定談話単位抽出ルール記述の負担を軽減し、抽出ルールの作成を容易に行うことができる。   According to the question answer retrieval system as described above, a model for extracting discourse units related to the intention and request of a question sentence by mechanical learning from learning data is acquired. That is, the burden of describing the specific discourse unit rule manually is reduced by mechanical learning from learning data. Therefore, knowledge creation for extraction can be easily performed, the burden of manual description of specific discourse unit extraction rules can be reduced, and extraction rules can be easily created.

[第3の実施形態]
本発明の第3の実施形態に係る質問回答検索システムは、質問文から抽出された特定談話単位に対し、談話スキームを適用して特定談話単位を談話ブロックに纏め上げる談話ブロック認定部と、談話スキームを格納する談話スキーム記憶部と、質問文と事例質問文特定談話単位に関する照合において質問文単位ではなく談話ブロック単位での照合を行う質問事例照合部とを備える。そして、質問文中に複数の質問項目が含まれる場合にはそれぞれの質問項目に対して個別に談話ブロックを作成し、質問文と事例との照合においてはこの談話ブロックごとに照合するよう動作する。
[Third Embodiment]
A question answer search system according to a third embodiment of the present invention includes a discourse block certifying unit that applies a discourse scheme to a specific discourse unit extracted from a question sentence and collects the specific discourse unit into a discourse block, and a discourse A discourse scheme storage unit for storing a scheme, and a question example collation unit that collates in units of discourse blocks, not in question sentence units, in collation of question sentences and case question sentence specific discourse units. When a plurality of question items are included in the question sentence, a discourse block is individually created for each question item, and the collation between the question sentence and the case is performed for each discourse block.

次に、本発明の第3の実施形態に係る質問回答検索システムについて図面を参照してより詳細に説明する。図5を参照すると、本発明の第3の実施形態に係る質問回答検索システムは、入力装置100と、プログラム制御によって動作して質問回答検索処理を機能させるデータ処理装置200cと、記憶装置300cと、出力装置400とから構成されている。   Next, a question answer search system according to a third embodiment of the present invention will be described in more detail with reference to the drawings. Referring to FIG. 5, the question answer search system according to the third embodiment of the present invention includes an input device 100, a data processing device 200c that operates by program control to function the question answer search processing, and a storage device 300c. , And the output device 400.

データ処理装置200cは、談話単位候補生成部201と、特定談話単位抽出部202と、事例データ登録部203aと、事例質問回答文データ検索部204と、質問文間照合部205aと、談話ブロック生成部207とを含む。記憶装置300cは、特定談話単位抽出ルール記憶部301と、事例質問回答文データ記憶部302aと、談話ブロック生成スキーマ記憶部304とを含む。図5において、談話単位候補生成部201、特定談話単位抽出部202、事例質問回答文データ検索部204、特定談話単位抽出ルール記憶部301は、図1の同一の符号と同じものであり、その説明を省略する。   The data processing device 200c includes a discourse unit candidate generation unit 201, a specific discourse unit extraction unit 202, a case data registration unit 203a, a case question answer sentence data search unit 204, a question sentence matching unit 205a, and a discourse block generation. Part 207. The storage device 300c includes a specific discourse unit extraction rule storage unit 301, a case question answer sentence data storage unit 302a, and a discourse block generation schema storage unit 304. In FIG. 5, a discourse unit candidate generation unit 201, a specific discourse unit extraction unit 202, a case question answer sentence data search unit 204, and a specific discourse unit extraction rule storage unit 301 are the same as those in FIG. Description is omitted.

特定談話単位抽出部202は、談話単位候補生成部201で生成された談話単位候補に対して、特定談話単位抽出ルール記憶部301に記憶されている特定談話単位抽出ルールを適用し、質問文から各談話タイプごとの特定談話単位を抽出し、談話ブロック生成部207に出力する。   The specific discourse unit extraction unit 202 applies the specific discourse unit extraction rule stored in the specific discourse unit extraction rule storage unit 301 to the discourse unit candidate generated by the discourse unit candidate generation unit 201, and uses the question sentence. A specific discourse unit for each discourse type is extracted and output to the discourse block generation unit 207.

談話ブロック生成部207は、特定談話単位抽出部202において質問文から抽出された各談話タイプごとの複数の特定談話単位に対し、談話ブロック生成スキーマ記憶部304に記憶されている談話ブロック生成スキーマを適用する。一つ以上の特定談話単位が一つの質問事項のまとまりに対応する談話ブロックに纏められ、生成された談話ブロックと談話ブロックに属する特定談話単位の情報とが談話ブロック情報として事例データ登録部203aに出力される。   The discourse block generation unit 207 uses the discourse block generation schema stored in the discourse block generation schema storage unit 304 for a plurality of specific discourse units for each discourse type extracted from the question sentence by the specific discourse unit extraction unit 202. Apply. One or more specific discourse units are collected into a discourse block corresponding to a group of one question item, and the generated discourse block and information of a specific discourse unit belonging to the discourse block are stored as discourse block information in the case data registration unit 203a. Is output.

談話ブロック生成スキーマ記憶部304は、質問文から抽出された各談話タイプごとの複数の特定談話単位を一つの質問事項のまとまりに対応する談話ブロックに纏めるためのスキーマを談話ブロック生成スキーマとして記憶する。ここで談話ブロック生成スキーマとは、特定談話単位間に想定される談話構造における関係を意味する。質問文から「状況」、「問題」、「質問」、「要求」などの談話タイプに属する各特定談話単位を抽出するだけでは、それぞれの談話単位がどのような談話を構成するかという談話構造が分からない。質問文の中に、別々の質問事項が含まれる場合は、それぞれの質問に関する談話のまとまりがあり、それぞれについて質問回答事例を検索したい。このために、抽出された特定談話単位がどのような談話のまとまり、すなわち談話ブロックを構成しているかを判断する必要がある。このため、特定談話単位間に想定される談話構造における関係、すなわち談話ブロック生成スキーマを定義し、これによって生成される談話ブロック(例えば後述の図30)から、質問文が大きくどのような談話ブロックから構成され、それぞれの特定談話単位はどの談話ブロックにまとまっているかを判別する。   The discourse block generation schema storage unit 304 stores, as a discourse block generation schema, a schema for collecting a plurality of specific discourse units for each discourse type extracted from the question sentence into discourse blocks corresponding to a set of one question item. . Here, the discourse block generation schema means a relationship in a discourse structure assumed between specific discourse units. By extracting each specific discourse unit belonging to a discourse type such as “situation”, “question”, “question”, “request”, etc. from the question sentence, the discourse structure of what each discourse unit constitutes I do n’t know. When different questions are included in the question text, there is a group of discourses about each question, and we want to search for question answer examples for each. Therefore, it is necessary to determine what sort of discourse is organized by the extracted specific discourse unit, that is, what constitutes a discourse block. For this reason, a relationship in the discourse structure assumed between specific discourse units, that is, a discourse block generation schema is defined, and what discourse block has a large question sentence from a discourse block (for example, FIG. 30 described later) generated thereby. It is determined from which discourse block each specific discourse unit is organized.

次に、図5及び図6のフローチャートを参照してシステムの動作について詳細に説明する。なお、図6において、ステップA1〜A3、A5〜A7は、図2の同一の符号と同一の処理を行うので、その説明を省略する。   Next, the operation of the system will be described in detail with reference to the flowcharts of FIGS. In FIG. 6, steps A1 to A3 and A5 to A7 perform the same processing as the same reference numerals in FIG.

談話ブロック生成部207では、特定談話単位抽出部202において抽出された各談話タイプごとの複数の特定談話単位に対し、談話ブロック生成スキーマ記憶部304に記憶されている談話ブロック生成スキーマを適用し、一つ以上の特定談話単位を一つの質問事項のまとまりに対応する談話ブロックに纏め、このように生成された談話ブロックとこれに属する特定談話単位の情報を談話ブロック情報として出力する(図6のステップC1)。   The discourse block generation unit 207 applies the discourse block generation schema stored in the discourse block generation schema storage unit 304 to a plurality of specific discourse units for each discourse type extracted by the specific discourse unit extraction unit 202. One or more specific discourse units are collected into a discourse block corresponding to a group of one question item, and the generated discourse block and the information of the specific discourse unit belonging thereto are output as discourse block information (FIG. 6). Step C1).

事例データ登録部203aでは、特定談話単位抽出部202で抽出された特定談話単位を、談話ブロック生成部207で生成された談話ブロック情報、入力された事例質問回答文データの質問文およびその回答文と共に、事例質問回答文データ記憶部302aに登録する(図6のステップC2)。   In the case data registration unit 203a, the specific discourse unit extracted by the specific discourse unit extraction unit 202 is converted into the discourse block information generated by the discourse block generation unit 207, the question sentence of the inputted case question answer sentence data, and the answer sentence thereof. At the same time, it is registered in the case question answer text data storage unit 302a (step C2 in FIG. 6).

談話ブロック生成部207では、特定談話単位抽出部202において新規質問文抽出された各談話タイプごとの複数の特定談話単位に対し、ステップC1と同様の処理により談話ブロックを生成し、談話ブロックとこれに属する特定談話単位の情報を談話ブロック情報として出力する(図6のステップC3)。   The discourse block generation unit 207 generates a discourse block by the same process as step C1 for a plurality of specific discourse units for each discourse type extracted by the specific discourse unit extraction unit 202 for each new question sentence. Is output as discourse block information (step C3 in FIG. 6).

事例質問回答文データ検索部204では、特定談話単位抽出部202において新規質問文から抽出された各特定談話単位と同一の談話タイプの特定談話単位を含む事例質問回答文を、事例質問回答文データ記憶部302aに記憶された事例質問回答文データから検索する(図6のステップA8)。   In the case question answer sentence data search unit 204, the case question answer sentence data including the specific discourse unit of the same discourse type as each specific discourse unit extracted from the new question sentence in the specific discourse unit extraction part 202 is converted into the case question answer sentence data. Search is performed from the case question answer text data stored in the storage unit 302a (step A8 in FIG. 6).

質問文間照合部205aでは、事例質問回答文データ検索部204において検索された各事例質問回答文について、その質問文における各談話ブロックと新規質問文における各談話ブロックとの特定談話単位における、同一談話タイプの特定談話単位の割合や、同一談話タイプの特定談話単位間での類似度に基づいて、それぞれの質問文の各談話ブロック同士が類似の内容に関する談話ブロックであるかどうかを判定する(図6のステップC4)。   In the inter-question sentence matching unit 205a, for each case question answer sentence searched by the case question answer sentence data search unit 204, the same discourse block in each discourse block in the question sentence and each discourse block in the new question sentence are the same. Based on the ratio of specific discourse units of discourse type and the similarity between specific discourse units of the same discourse type, it is determined whether each discourse block of each question sentence is a discourse block related to similar contents ( Step C4 in FIG.

質問文間照合部205aにおいて、類似事例質問回答文と判定された事例質問回答文を、判断の基準となった談話ブロック情報と共に出力装置400に出力する(図6のステップC5)。   The inter-question sentence matching unit 205a outputs the case question answer sentence determined as the similar case question answer sentence to the output device 400 together with the discourse block information used as the criterion for determination (step C5 in FIG. 6).

以上のような質問回答検索システムによれば、質問文中に複数の質問項目が含まれる場合に、抽出した特定談話単位を各質問事項に対応する談話ブロックに纏め上げ、談話ブロックに関して関連する事例質問回答文を検索する。すなわち、質問文中に複数の質問項目が含まれる場合に、抽出される同一の談話タイプを持つ特定談話単位を混同して照合する従来法の問題を解消する。したがって、一つの質問中に複数の質問事項が含まれている場合にも、各質問事項ごとに関連する事例を正しく検索することができる。   According to the question answer search system as described above, when multiple question items are included in a question sentence, the extracted specific discourse units are collected into discourse blocks corresponding to each question item, and related case questions related to the discourse block Search for answers. In other words, when a plurality of question items are included in a question sentence, the problem of the conventional method that confuses and collates specific discourse units having the same discourse type that is extracted is solved. Therefore, even when a plurality of questions are included in one question, it is possible to correctly search for cases related to each question.

[第4の実施形態]
本発明の第4の実施形態に係る質問回答検索システムは、質問文と質問事例の特定談話単位の照合を行う際に、同一の談話タイプの談話単位間で照合を行うのではなく、各談話タイプごとの特定談話単位変形ルールを介して対応付けられる談話タイプの対応も考慮して照合を行う特定談話単位照合部と、特定談話単位変形ルールを蓄積する特定談話単位変形ルール格納部とを備える。そして、対応する特定談話単位が照合する質問文と質問事例は関連すると判断するよう動作する。
[Fourth Embodiment]
The question answer search system according to the fourth embodiment of the present invention does not perform collation between discourse units of the same discourse type when collating a specific discourse unit between a question sentence and a question example. A specific discourse unit collation unit that performs collation considering the correspondence of discourse types associated through specific discourse unit deformation rules for each type, and a specific discourse unit deformation rule storage unit that accumulates specific discourse unit deformation rules . And it operates so that it may be judged that the question sentence and question example which the corresponding specific discourse unit collates are related.

次に、本発明の第4の実施形態に係る質問回答検索システムについて図面を参照して詳細に説明する。図7を参照すると、本発明の第4の実施形態に係る質問回答検索システムは、入力装置100と、プログラム制御によって動作して質問回答検索処理を機能させるデータ処理装置200dと、記憶装置300dと、出力装置400とから構成されている。   Next, a question answer search system according to a fourth embodiment of the present invention will be described in detail with reference to the drawings. Referring to FIG. 7, a question answer search system according to a fourth embodiment of the present invention includes an input device 100, a data processing device 200d that operates by program control to function a question answer search process, and a storage device 300d. , And the output device 400.

データ処理装置200dは、談話単位候補生成部201と、特定談話単位抽出部202と、事例データ登録部203と、事例質問回答文データ検索部204aと、質問文間照合部205bとを含み、記憶装置300は、特定談話単位抽出ルール記憶部301と、事例質問回答文データ記憶部302と、談話タイプ変換ルール記憶部305とを含む。なお、図7において、談話単位候補生成部201、特定談話単位抽出部202、事例データ登録部203、特定談話単位抽出ルール記憶部301、事例質問回答文データ記憶部302は、図1で説明した同一の符号のものと同じであるので、その説明を省略する。   The data processing device 200d includes a discourse unit candidate generation unit 201, a specific discourse unit extraction unit 202, a case data registration unit 203, a case question answer sentence data search unit 204a, and an inter-question sentence matching unit 205b. The apparatus 300 includes a specific discourse unit extraction rule storage unit 301, a case question answer sentence data storage unit 302, and a discourse type conversion rule storage unit 305. In FIG. 7, the discourse unit candidate generation unit 201, the specific discourse unit extraction unit 202, the case data registration unit 203, the specific discourse unit extraction rule storage unit 301, and the case question answer sentence data storage unit 302 have been described with reference to FIG. Since it is the same as that of the same code | symbol, the description is abbreviate | omitted.

事例質問回答文データ検索部204aは、入力装置100より入力される新規質問文に対して特定談話単位抽出部202において抽出された各特定談話単位ごとに、特定談話単位の談話タイプもしくは談話タイプ変換ルールによる変換後の談話タイプと同一の談話タイプの特定談話単位を持つ事例質問回答文を、事例質問回答文データ記憶部302に記憶された事例質問回答文データの中から検索する。   The case question answer sentence data search unit 204a converts a discourse type or a discourse type in a specific discourse unit for each specific discourse unit extracted by the specific discourse unit extraction unit 202 with respect to a new question sentence input from the input device 100. A case question answer sentence having a specific discourse type of the same discourse type as the discourse type converted by the rule is searched from the case question answer sentence data stored in the case question answer sentence data storage unit 302.

談話タイプ変換ルール記憶部305は、異なる談話タイプの特定談話単位が文脈によって同じ質問文の意図や内容を表す場合にこれを同一タイプと判別することを目的として記述された、談話タイプ変換ルールを記憶する。   The discourse type conversion rule storage unit 305 stores discourse type conversion rules described for the purpose of discriminating the same type when the specific discourse units of different discourse types represent the intention and content of the same question sentence depending on the context. Remember.

次に、図7及び図8のフローチャートを参照してシステムの動作について詳細に説明する。なお、図8において、ステップA1〜A7は、図2の同一の符号と同一の処理を行うので、その説明を省略する。   Next, the operation of the system will be described in detail with reference to the flowcharts of FIGS. In FIG. 8, steps A1 to A7 perform the same processes as those in FIG.

事例質問回答文データ検索部204aでは、特定談話単位抽出部202において新規質問文から抽出された各特定談話単位ごとに、その談話タイプもしくは談話タイプ変換ルール記憶部305に記憶された談話タイプ変換ルールによる変換後の談話タイプと同一の談話タイプの特定談話単位を持つ事例質問回答文を、事例質問回答文データ記憶部302に記憶された事例質問回答文データの中から検索する(図8のステップD1)。   In the case question answer sentence data search unit 204a, for each specific discourse unit extracted from the new question sentence by the specific discourse unit extraction unit 202, the discourse type or discourse type conversion rule stored in the discourse type conversion rule storage unit 305 is stored. A case question answer sentence having a specific discourse unit of the same discourse type as the discourse type after conversion by (2) is searched from the case question answer sentence data stored in the case question answer sentence data storage unit 302 (step of FIG. 8). D1).

質問文間照合部205bでは、事例質問回答文データ検索部204aにおいて検索された各事例質問回答文について、その質問文と新規質問文との類似度を、双方の特定談話単位における談話タイプの談話タイプ変換ルールによる変換後の一致を含めた一致の割合や、談話タイプ変換ルールによる変換後も含めて談話タイプが一致する特定談話単位同士の類似度に基づいて計算し、一定値以上の事例質問回答文を類似事例質問回答文と判定する(図8のステップD2)。   In the inter-question sentence matching unit 205b, for each case question answer sentence searched by the case question answer sentence data search unit 204a, the degree of similarity between the question sentence and the new question sentence is determined based on the discourse type discourse for each specific discourse unit. Case questions with a certain value or more, calculated based on the percentage of matches including matches after conversion by type conversion rules, and the similarity between specific discourse units with matching discourse types, including those after conversion by discourse type conversion rules The answer sentence is determined as a similar case question answer sentence (step D2 in FIG. 8).

質問文間照合部205bにおいて、類似事例質問回答文と判定された事例質問回答文を出力装置400に出力する(図8のステップA10)。   The inter-question sentence matching unit 205b outputs the case question answer sentence determined as the similar case question answer sentence to the output device 400 (step A10 in FIG. 8).

以上のような質問回答検索システムによれば、質問文と質問事例の間で特定談話単位の組は異なるが質問文による要求や意図といった内容が同じものを適切に照合し一致すると判断可能にする。したがって、質問文と事例質問文の間で表現上のスタイルが異なっている場合にも質問文による要求内容や意図が類似する事例を適切に検索し、質問文から各談話タイプごとの特定談話単位を高い精度で抽出することができる。   According to the question answer search system as described above, it is possible to judge that the contents of the specific discourse unit differ between the question sentence and the question example, but appropriately match and match the same contents such as the request and intention of the question sentence. . Therefore, even if the expression style is different between the question text and the case question text, cases where the request contents and intentions by the question text are similar are appropriately searched, and the specific discourse unit for each discourse type from the question text Can be extracted with high accuracy.

[第5の実施形態]
本発明の第5の実施形態に係る質問回答検索システムは、質問文から質問内容や要求内容に関するタイプを判断し、さらに期待している回答タイプを推定する質問・回答タイプ推定部と、質問文および質問事例の質問タイプ、回答タイプの照合を行う質問・回答タイプ照合部とを備える。そして、質問文と質問事例の質問タイプおよび回答タイプの照合結果により両者の一致を判断するよう動作する。
[Fifth Embodiment]
A question / answer search system according to a fifth embodiment of the present invention includes a question / answer type estimation unit that determines a type related to a question content and a request content from a question text, and further estimates an expected answer type, and a question text And a question / answer type matching unit for matching the question type and answer type of the question case. Then, it operates so as to determine the match between the question sentence and the question example of the question case and the answer type.

次に、本発明の第5の実施形態に係る質問回答検索システムについて図面を参照して詳細に説明する。図9を参照すると、本発明の第5の実施形態に係る質問回答検索システムは、入力装置100と、プログラム制御によって動作して質問回答検索処理を機能させるデータ処理装置200eと、記憶装置300eと、出力装置400とから構成されている。   Next, a question answer search system according to a fifth embodiment of the present invention will be described in detail with reference to the drawings. Referring to FIG. 9, a question answer search system according to a fifth embodiment of the present invention includes an input device 100, a data processing device 200e that operates by program control to function a question answer search process, and a storage device 300e. , And the output device 400.

データ処理装置200eは、談話単位候補生成部201と、特定談話単位抽出部202と、事例データ登録部203bと、事例質問回答文データ検索部204と、質問文間照合部205cと、要求回答タイプ抽出部208とを含み、記憶装置300eは、特定談話単位抽出ルール記憶部301と、事例質問回答文データ記憶部302bと、意味分類辞書記憶部306、要求回答タイプ抽出パタン記憶部307とを含む。図9において、談話単位候補生成部201、特定談話単位抽出部202、事例質問回答文データ検索部204、特定談話単位抽出ルール記憶部301は、図1で説明した同一の符号のものと同じであるので、その説明を省略する。   The data processing device 200e includes a discourse unit candidate generation unit 201, a specific discourse unit extraction unit 202, a case data registration unit 203b, a case question answer sentence data search unit 204, an inter-question sentence matching unit 205c, and a request answer type. The storage device 300e includes a specific discourse unit extraction rule storage unit 301, a case question answer sentence data storage unit 302b, a semantic classification dictionary storage unit 306, and a request answer type extraction pattern storage unit 307. . In FIG. 9, a discourse unit candidate generation unit 201, a specific discourse unit extraction unit 202, a case question answer sentence data search unit 204, and a specific discourse unit extraction rule storage unit 301 are the same as those having the same reference numerals described in FIG. Since there is, explanation is omitted.

要求回答タイプ抽出部208は、特定談話単位抽出部202において抽出された特定談話単位中に含まれる、質問文が回答として期待している回答内容に関する表現部分に、要求タイプ抽出パタンと意味分類辞書とを組み合わせて適用し、質問文の要求回答タイプを得る。   The request answer type extraction unit 208 includes a request type extraction pattern and a semantic classification dictionary in an expression part related to the answer content that the question sentence expects as an answer included in the specific discourse unit extracted by the specific discourse unit extraction unit 202. Is applied in combination to obtain the request / response type of the question text.

意味分類辞書記憶部306は、各単語の表記に意味分類を付与した意味分類辞書を記憶する。ここで意味分類辞書とは、語彙集合を、それぞれの持つ意味の同一性、類似性に基づいて分類し、意味の近い語彙集合を纏め上げ、それらが属する意味分類(クラス)を定義し、この意味分類の集合によって意味の体系を構成した語彙辞書のことをいう。またシソーラスとも言う。   The semantic classification dictionary storage unit 306 stores a semantic classification dictionary in which a semantic classification is given to each word notation. Here, the semantic classification dictionary classifies vocabulary sets based on the same and similar meanings of each meaning, summarizes the lexical sets having similar meanings, defines the semantic classification (class) to which these belong, This is a vocabulary dictionary in which a semantic system is configured by a set of semantic classifications. Also called a thesaurus.

要求回答タイプ抽出パタン記憶部307は、特定談話単位からの要求回答内容に関する記述部分に照合する、特定談話単位の特徴量と意味分類によって記述された要求回答タイプごとのパタンを要求回答タイプ抽出パタンとして記憶する。   The request answer type extraction pattern storage unit 307 collates with a description part related to request answer contents from a specific discourse unit, and sets a pattern for each request answer type described by the feature amount and semantic classification of the specific discourse unit as a request answer type extraction pattern. Remember as.

次に、図9及び図10のフローチャートを参照してシステムの動作について詳細に説明する。なお、図10において、ステップA1〜A3、A5〜A7、A8、A10は、図2の同一の符号と同一の処理を行うので、その説明を省略する。   Next, the operation of the system will be described in detail with reference to the flowcharts of FIGS. In FIG. 10, steps A1 to A3, A5 to A7, A8, and A10 perform the same processing as the same reference numerals in FIG.

要求回答タイプ抽出部208では、特定談話単位抽出部202で抽出された特定談話単位中に含まれる質問文が回答として期待している回答内容に関する表現部分に、要求回答タイプ抽出パタン記憶部307に記憶された要求タイプ別に記述された要求タイプ抽出パタンと、意味分類辞書記憶部306に記憶された意味分類辞書を組み合わせて適用し、質問文の要求回答タイプを抽出する(図10のステップE1)。   The request answer type extraction unit 208 stores the request answer type extraction pattern storage unit 307 in an expression part related to the answer content that the question text included in the specific discourse unit extracted by the specific discourse unit extraction unit 202 expects as an answer. The request type extraction pattern described for each stored request type and the semantic classification dictionary stored in the semantic classification dictionary storage unit 306 are applied in combination to extract the request answer type of the question sentence (step E1 in FIG. 10). .

事例データ登録部203bでは、特定談話単位抽出部202で抽出された特定談話単位を、要求回答タイプ抽出部208において抽出された要求回答タイプおよびその質問文および質問文に対する回答文と共に、事例質問回答文データ記憶部302bに登録する(図10のステップE2)。   In the case data registration unit 203b, the specific discourse unit extracted by the specific discourse unit extraction unit 202 is added to the case question answer together with the request answer type extracted by the request answer type extraction unit 208 and the question sentence and the answer sentence to the question sentence. It is registered in the sentence data storage unit 302b (step E2 in FIG. 10).

要求回答タイプ抽出部208では、特定談話単位抽出部202において新規質問文から抽出された各特定談話単位に対し、ステップE1と同様の処理により要求回答タイプ抽出パタンと意味分類辞書を組み合わせて適用し、質問文の要求回答タイプを抽出する(図10のステップE3)。   The request answer type extraction unit 208 applies a combination of the request answer type extraction pattern and the semantic classification dictionary to each specific discourse unit extracted from the new question sentence by the specific discourse unit extraction unit 202 by the same process as in step E1. The request answer type of the question sentence is extracted (step E3 in FIG. 10).

質問文間照合部205cでは、事例質問回答文データ検索部204において検索された各事例質問回答文について、その質問文と新規質問文との類似度を、双方の特定談話単位における談話タイプの一致の割合や、談話タイプが同一の特定談話単位同士の類似度や、要求回答タイプの一致に基づいて計算し、一定値以上の事例質問回答文を類似事例質問回答文と判定する(図10のステップE4)。   In the inter-question sentence matching unit 205c, for each case question answer sentence searched by the case question answer sentence data search unit 204, the similarity between the question sentence and the new question sentence is set to match the discourse type in both specific discourse units. , The degree of similarity between specific discourse units with the same discourse type, and the matching of the requested answer type, and a case question answer sentence exceeding a certain value is determined as a similar case question answer sentence (FIG. 10). Step E4).

以上のような質問回答検索システムは、質問内容や要求内容の観点で質問文と質問事例の一致を判断する。すなわち、新規の質問文と事例質問回答文の質問文の照合において要求質問の内容が一致することを考慮する。したがって、質問文における要求回答の内容が、事例質問回答文の回答内容と整合した質問事例を検索することができる。   The question answer search system as described above determines whether the question sentence matches the question example from the viewpoint of the question content and the request content. That is, it is considered that the contents of the requested question match in matching the question text of the new question text and the case question answer text. Therefore, it is possible to search for a question case in which the content of the request answer in the question sentence is consistent with the answer content of the case question answer sentence.

[第6の実施形態]
本発明の第6の実施形態に係る質問回答検索システムは、質問文から質問内容や要求内容に関するタイプを判断し、さらに期待している回答タイプを推定する質問・回答タイプ推定部と、質問文から推定された回答タイプに該当する箇所がその質問に対する回答文中に存在するかどうかを判別する質問回答間対応付け部と、質問事例とその質問に対する回答事例を対で蓄積する質問回答事例記憶部とを備える。そして、質問文に対し、質問・回答タイプの推定を行い、質問・回答タイプが一致する質問事例を検索し、さらに質問文から推定された回答タイプに該当する箇所が、質問・回答タイプが一致する質問事例に対する回答事例中に存在するかどうかを判別し、存在する場合に質問に対する回答が含まれる回答事例として判断するよう動作する。
[Sixth Embodiment]
A question / answer search system according to a sixth embodiment of the present invention includes a question / answer type estimation unit that determines a type related to a question content and a request content from a question text, and further estimates an expected answer type, and a question text A question-answer correspondence unit that determines whether or not a part corresponding to the answer type estimated from the question exists in the answer sentence for the question, and a question-answer example storage unit that accumulates a pair of question examples and answer examples for the question With. Then, the question / answer type is estimated for the question sentence, the question case that matches the question / answer type is searched, and the part corresponding to the answer type estimated from the question sentence matches the question / answer type. It is determined whether or not it exists in the answer example for the question example to be answered, and if it exists, it is determined to be an answer example including the answer to the question.

次に、本発明の第6の実施形態に係る質問回答検索システムについて図面を参照して詳細に説明する。図11を参照すると、本発明の第6の実施形態に係る質問回答検索システムは、入力装置100と、プログラム制御によって動作して質問回答検索処理を機能させるデータ処理装置200fと、記憶装置300fと、出力装置400とから構成されている。   Next, a question answer search system according to a sixth embodiment of the present invention will be described in detail with reference to the drawings. Referring to FIG. 11, a question answer search system according to a sixth embodiment of the present invention includes an input device 100, a data processing device 200f that operates by program control to function a question answer search process, and a storage device 300f. , And the output device 400.

データ処理装置200fは、談話単位候補生成部201と、特定談話単位抽出部202と、事例データ登録部203bと、事例質問回答文データ検索部204と、質問文間照合部205dと、要求回答タイプ抽出部208とを含む。記憶装置300fは、特定談話単位抽出ルール記憶部301と、事例質問回答文データ記憶部302bと、意味分類辞書記憶部306、要求回答タイプ抽出パタン記憶部307と、回答タイプ照合パタン記憶部308とを含む。図11において、談話単位候補生成部201、特定談話単位抽出部202、事例データ登録部203b、事例質問回答文データ検索部204、特定談話単位抽出ルール記憶部301、事例質問回答文データ記憶部302b、意味分類辞書記憶部306、要求回答タイプ抽出パタン記憶部307は、図9で説明した同一の符号のものと同じであるので、その説明を省略する。   The data processing device 200f includes a discourse unit candidate generation unit 201, a specific discourse unit extraction unit 202, a case data registration unit 203b, a case question answer sentence data search unit 204, a question sentence matching unit 205d, and a request answer type. And an extraction unit 208. The storage device 300f includes a specific discourse unit extraction rule storage unit 301, a case question answer sentence data storage unit 302b, a semantic classification dictionary storage unit 306, a request answer type extraction pattern storage unit 307, and an answer type collation pattern storage unit 308. including. In FIG. 11, a discourse unit candidate generation unit 201, a specific discourse unit extraction unit 202, a case data registration unit 203b, a case question answer sentence data search unit 204, a specific discourse unit extraction rule storage unit 301, and a case question answer sentence data storage unit 302b. The semantic classification dictionary storage unit 306 and the request answer type extraction pattern storage unit 307 are the same as those having the same reference numerals described in FIG.

質問文間照合部205dは、意味分類辞書記憶部306に記憶されている意味文類辞書と回答タイプ照合パタン記憶部308に記憶されている回答タイプ照合パタンとに基づき、質問文同士が類似の内容に関する質問文であり、かつ、新規質問文の要求回答と事例回答文の回答内容が整合しているかどうかを判定する。この判定は、検索された事例質問回答文の質問文と新規質問文との特定談話単位における、同一談話タイプの特定談話単位の割合や、同一談話タイプの特定談話単位間での類似度や、新規質問文の要求回答タイプと事例質問回答文の回答文との回答タイプ照合パタンおよび意味文類辞書による照合結果に基づいて行われる。質問文同士が類似し、質問文と回答文が整合すると判断された事例質問回答文を出力装置400に出力する。   The question sentence matching unit 205d has similar question sentences based on the semantic sentence dictionary stored in the semantic classification dictionary storage unit 306 and the answer type verification pattern stored in the answer type verification pattern storage unit 308. It is a question sentence regarding the contents, and it is determined whether the request answer of the new question sentence and the answer contents of the case answer sentence are consistent. This determination is based on the ratio of specific discourse units of the same discourse type in the specific discourse unit of the question sentence of the searched case question answer sentence and the new question sentence, the similarity between specific discourse units of the same discourse type, This is performed based on the answer type matching pattern between the requested answer type of the new question sentence and the answer sentence of the case question answer sentence and the matching result by the semantic sentence dictionary. A case question answer sentence that has been determined that the question sentences are similar and the question sentence and the answer sentence match is output to the output device 400.

回答タイプ照合パタン記憶部308は、回答文の回答タイプを判別し得る記述部分に照合する、回答タイプごとのパタンを回答タイプ照合パタンとして記憶する。   The answer type collation pattern storage unit 308 stores a pattern for each answer type to be collated with a description part that can discriminate the answer type of the answer sentence as an answer type collation pattern.

次に、図11及び図12のフローチャートを参照してシステムの動作について詳細に説明する。なお、図12において、ステップA1〜A3、E1、E2、A5〜A7、E3、A8は、図10の同一の符号と同一の処理を行うので、その説明を省略する。   Next, the operation of the system will be described in detail with reference to the flowcharts of FIGS. In FIG. 12, steps A1 to A3, E1, E2, A5 to A7, E3, and A8 perform the same processing as the same reference numerals in FIG.

質問文間照合部205dでは、事例質問回答文データ検索部204において検索された各事例質問回答文について、その質問文と新規質問文との類似度を、双方の特定談話単位における談話タイプの一致の割合や、談話タイプが同一の特定談話単位同士の類似度に基づいて計算し、一定値以上の事例質問回答文を類似事例質問回答文と判定する(図12のステップA9)。   In the inter-question sentence matching unit 205d, for each case question answer sentence searched by the case question answer sentence data search unit 204, the similarity between the question sentence and the new question sentence is set to match the discourse type in both specific discourse units. And a case question answer sentence with a certain value or more is determined as a similar case question answer sentence (step A9 in FIG. 12).

さらに質問文間照合部205dでは、要求回答タイプ抽出部208において抽出された新規質問文の要求回答タイプと事例質問回答文の回答文との整合性を、回答タイプ照合パタン記憶部308に記憶されたうちの新規質問文の要求回答タイプに該当するパタンが、意味分類辞書記憶部306に記憶された意味分類辞書を併用して事例質問回答文の回答文に照合するかどうかによって判定する(図12のステップF1)。質問文間照合部205dにおいて、類似事例質問回答文と判定された事例質問回答文を出力装置400に出力する(図2のステップA10)。   Further, the inter-question sentence matching unit 205d stores the consistency between the request answer type of the new question sentence extracted by the request answer type extracting part 208 and the answer sentence of the case question answer sentence in the answer type matching pattern storage unit 308. The pattern corresponding to the request answer type of the new question sentence is determined based on whether or not to match the answer sentence of the case question answer sentence together with the semantic classification dictionary stored in the semantic classification dictionary storage unit 306 (see FIG. 12 steps F1). The question sentence matching unit 205d outputs the case question answer sentence determined as the similar case question answer sentence to the output device 400 (step A10 in FIG. 2).

以上のような質問回答検索システムによれば、事例回答文の一致の判断において、質問文と回答文との対応関係が意味的に取れるかどうかを考慮する。すなわち、新規の質問文と事例質問回答文の質問文の照合において、新規の質問文の要求質問の内容と、事例質問回答文の回答文の内容が一致することを考慮する。したがって、質問文における要求回答の内容が、事例質問回答文の回答内容と整合した質問事例を検索することができる。   According to the question answer search system as described above, whether or not the correspondence between the question sentence and the answer sentence is semantically taken into consideration is taken into account in determining whether the case answer sentences match. That is, in matching the question text of the new question text and the case question answer text, it is considered that the content of the request question of the new question text matches the content of the answer text of the case question answer text. Therefore, it is possible to search for a question case in which the content of the request answer in the question sentence is consistent with the answer content of the case question answer sentence.

[第7の実施形態]
本発明の第7の実施形態に係る質問回答検索システムは、質問文に対して形態素解析および構文解析を行った後、構文構造のうち文または節の構造に基づいて談話単位の候補を生成する談話単位候補生成部と、特定談話単位に含まれる照応関係を認定する照応関係解析部と、特定談話単位中に指示代名詞もしくは省略が含まれておりかつその先行詞が特定談話単位外に存在する場合に照応詞を先行詞に置き換え、省略を先行詞によって補う照応省略要素補完部と、を備える。そして、質問文から抽出された特定談話単位が照応省略要素補完部によって指示代名詞および省略要素が補完された場合はその補完結果に基づいて特定談話単位の事例との照合を行い、指示代名詞もしくは省略要素が補完されずに残った場合は、その特定談話単位を内包する談話単位を代替の特定談話単位として事例との照合を行うよう動作する。
[Seventh Embodiment]
The question answer search system according to the seventh embodiment of the present invention generates a discourse unit candidate based on the sentence or clause structure of the syntax structure after performing morphological analysis and syntax analysis on the question sentence. The discourse unit candidate generator, the anaphoric relationship analysis unit that recognizes the anaphoric relationship included in the specific discourse unit, and the specified discourse unit contains a demonstrative pronoun or abbreviation and its antecedent exists outside the specific discourse unit In this case, an anaphoric element is replaced with an antecedent, and an anaphoric omission element complementing unit that supplements omission with the antecedent is provided. If the specified discourse unit extracted from the question sentence is supplemented by the anaphoric abbreviation element complementation part and the omitted pronoun and the abbreviated element, it is checked against the specific discourse unit case based on the completion result, If the element remains without being complemented, the discourse unit that includes the specific discourse unit is used as an alternative specific discourse unit so as to collate with the case.

次に、本発明の第7の実施形態に係る質問回答検索システムについて図面を参照してより詳細に説明する。図13を参照すると、本発明の第7の実施形態に係る質問回答検索システムは、入力装置100と、プログラム制御によって動作して質問回答検索処理を機能させるデータ処理装置200gと、記憶装置300gと、出力装置400とから構成されている。   Next, a question / answer search system according to a seventh embodiment of the present invention will be described in more detail with reference to the drawings. Referring to FIG. 13, the question answer search system according to the seventh embodiment of the present invention includes an input device 100, a data processing device 200g that operates by program control to function the question answer search processing, and a storage device 300g. , And the output device 400.

データ処理装置200gは、談話単位候補生成部201と、特定談話単位抽出部202と、事例データ登録部203と、事例質問回答文データ検索部204と、質問文間照合部205と、照応解析処理部209とを含み、記憶装置300gは、特定談話単位抽出ルール記憶部301と、事例質問回答文データ記憶部302とを含む。図13において、談話単位候補生成部201、特定談話単位抽出部202、事例データ登録部203、事例質問回答文データ検索部204、質問文間照合部205、特定談話単位抽出ルール記憶部301、事例質問回答文データ記憶部302は、図1で説明した同一の符号のものと同じであるので、その説明を省略する。   The data processing device 200g includes a discourse unit candidate generation unit 201, a specific discourse unit extraction unit 202, a case data registration unit 203, a case question answer sentence data search unit 204, an inter-question sentence matching unit 205, and an anaphoric analysis process. The storage device 300g includes a specific discourse unit extraction rule storage unit 301 and a case question answer sentence data storage unit 302. In FIG. 13, the discourse unit candidate generation unit 201, the specific discourse unit extraction unit 202, the case data registration unit 203, the case question answer text data search unit 204, the inter-question sentence collation unit 205, the specific discourse unit extraction rule storage unit 301, and the case Since the question answer sentence data storage unit 302 is the same as that of the same reference numerals described in FIG.

照応解析処理部209は、談話単位候補生成部201で生成された各談話単位候補が、指示代名詞や省略を含んでいる場合、指示代名詞や省略の先行詞の認定を質問文中において行う。先行詞の認定に成功した場合は、各談話単位候補に対し、指示代名詞の先行詞による置換や省略要素の先行詞による補完を行う。さらに、他の節との間で共有する格要素があり、談話単位候補に含まれない場合はこの補完も行う。先行詞の特定に失敗した場合は、先行詞の代わりに、指示代名詞や省略要素が満たすべき意味分類を、指示代名詞の種別や省略要素の格要素に対する意味的制約から推定し、この意味分類情報付きのダミー先行詞によって指示代名詞の置換や省略の補完を行う。さらにこれらの各談話単位候補における置換や補完の結果を各談話単位候補の特徴量にも反映する。   When each discourse unit candidate generated by the discourse unit candidate generation unit 201 includes an demonstrative pronoun or an abbreviation, the anaphora analysis processing unit 209 identifies the demonstrative pronoun or the omitted antecedent in the question sentence. If the antecedent is successfully identified, each discourse unit candidate is replaced by an antecedent of the demonstrative pronoun or complemented by an antecedent of the omitted element. Furthermore, if there is a case element shared with other sections and it is not included in the discourse unit candidate, this complementation is also performed. If identification of the antecedent fails, the semantic classification that should be satisfied by the demonstrative pronoun or omitted element instead of the antecedent is estimated from the semantic restrictions on the type of the demonstrative pronoun and the case element of the omitted element, and this semantic classification information Substitution of omission pronouns and supplementation of omissions are performed with a dummy antecedent. Furthermore, the result of replacement or complementation in each of these discourse unit candidates is also reflected in the feature amount of each discourse unit candidate.

次に、図13及び図14のフローチャートを参照してシステムの動作について詳細に説明する。なお、図14において、ステップA1〜10は、図2の同一の符号と同一の処理を行うので、その説明を省略する。   Next, the operation of the system will be described in detail with reference to the flowcharts of FIGS. In FIG. 14, steps A1 to A10 perform the same processing as the same reference numerals in FIG.

照応解析処理部209では、談話単位候補生成部201で生成された各談話単位候補が、指示代名詞や省略を含んでいる場合、指示代名詞や省略の先行詞の認定を質問文中において行う。先行詞の認定に成功した場合は、各談話単位候補に対し、指示代名詞の先行詞による置換や省略要素の先行詞による補完を行う。さらに、他の節との間で共有する格要素があり、談話単位候補に含まれない場合はこの補完も行う。先行詞の特定に失敗した場合は、先行詞の代わりに、指示代名詞や省略要素が満たすべき意味分類を、指示代名詞の種別や省略要素の格要素に対する意味的制約から推定し、この意味分類情報付きのダミー先行詞によって指示代名詞の置換や省略の補完を行う。さらにこれらの各談話単位候補における置換や補完の結果を各談話単位候補の特徴量に反映する(図14のステップG1)。   In the anaphora analysis processing unit 209, when each discourse unit candidate generated by the discourse unit candidate generation unit 201 includes a pronoun or abbreviation, the pronoun or abbreviation antecedent is identified in the question sentence. If the antecedent is successfully identified, each discourse unit candidate is replaced by an antecedent of the demonstrative pronoun or complemented by an antecedent of the omitted element. Furthermore, if there is a case element shared with other sections and it is not included in the discourse unit candidate, this complementation is also performed. If identification of the antecedent fails, the semantic classification that should be satisfied by the demonstrative pronoun or omitted element instead of the antecedent is estimated from the semantic restrictions on the type of the demonstrative pronoun and the case element of the omitted element, and this semantic classification information Substitution of omission pronouns and supplementation of omissions are performed with a dummy antecedent. Further, the result of replacement or complementation in each discourse unit candidate is reflected in the feature amount of each discourse unit candidate (step G1 in FIG. 14).

また、照応解析処理部209では、新規質問文から生成された各談話単位候補が、指示代名詞や省略、他の節との共有格要素を持っている場合、ステップG1と同様の処理により、指示代名詞や省略の先行詞や共有各要素の認定を行う。また、各談話単位候補に対し、指示代名詞の先行詞による置換や省略要素、共有各要素の補完を行う。さらにこれらの置換や補完の結果をその各談話単位候補の特徴量に反映する(図14のステップG2)。   Further, in the anaphora analysis processing unit 209, when each discourse unit candidate generated from the new question sentence has a pronoun, abbreviation, or a shared case element with another clause, the instruction is performed by the same process as in step G1. Identify pronouns, abbreviations, and shared elements. In addition, for each discourse unit candidate, replacement by an antecedent of the demonstrative pronoun, omission element, and complement of each shared element are performed. Furthermore, the results of these replacements and complements are reflected in the feature amounts of the respective discourse unit candidates (step G2 in FIG. 14).

以上のような質問回答検索システムによれば、省略要素や照応関係を適切に補完した特定談話単位に基づいて質問文と質問事例との照合を行う。したがって、質問文が省略や照応関係を含んでいる場合でも、元の意味内容を損なわずに特定談話単位を抽出することができる。   According to the question answer search system as described above, a question sentence and a question example are collated based on a specific discourse unit in which omitted elements and anaphoric relations are appropriately supplemented. Therefore, even when the question sentence includes omission or an anaphoric relationship, the specific discourse unit can be extracted without losing the original semantic content.

次に、第1の実施例について、図1、図2、図15〜図23を用いて説明する。まず、質問文とそれに対する回答文とが対となった事例質問回答文データに対する前処理について説明する。事例質問回答文データの例を図15に示す。このような事例質問回答文データを入力装置100より入力する(図2のステップA1)。事例質問回答文データとしては、例えば電子メールをファイルとして保存したものが使われる。   Next, a first embodiment will be described with reference to FIGS. 1, 2, and 15 to 23. First, the preprocessing for the case question answer sentence data in which the question sentence and the answer sentence corresponding thereto are paired will be described. An example of case question answer sentence data is shown in FIG. Such case question answer sentence data is input from the input device 100 (step A1 in FIG. 2). As example question answer sentence data, for example, e-mail saved as a file is used.

入力された事例質問回答文データの質問文に対し、談話単位候補生成部201において形態素解析および構文解析が行われた後、構文構造のうち文または節の構造に基づいて、図16に示すような談話単位の候補が生成される。談話単位の候補は、候補7をルートとする木構造をなし、候補7には、候補5、候補6が接続され、候補5には、候補1、候補2が接続され、候補6には、候補3、候補4が接続される。また、各候補においては、構文解析の意味的処理によるヘッドが抽出され付加される。   As shown in FIG. 16, after the morphological analysis and syntactic analysis are performed in the discourse unit candidate generation unit 201 on the question sentence of the inputted case question answer sentence data, based on the sentence or clause structure in the syntax structure A simple discourse unit candidate is generated. The candidate for the discourse unit has a tree structure with the candidate 7 as a root. The candidate 7 is connected to the candidates 5 and 6, the candidate 5 is connected to the candidates 1 and 2, and the candidate 6 is connected to the candidate 6. Candidate 3 and candidate 4 are connected. Further, in each candidate, a head by semantic processing of parsing is extracted and added.

さらに、各談話単位の候補に対して、形態素解析および構文解析により、述部の文スタイル、ヘッド用言の意味分類、さらにヘッド用言の格要素に属する全ての形態素の表層、代表表記、品詞、意味分類、および格要素のヘッドである形態素へのフラグ、を各談話単位候補の属性(特徴量)として出力する。例えば、第1文の談話単位の候補4(図16)に対しては、図17に示すような属性が抽出される。   Furthermore, for each discourse unit candidate, by morphological analysis and syntactic analysis, the sentence style of the predicate, the semantic classification of the head predicate, and the surface layer of all the morphemes belonging to the case element of the head predicate, representative notation, part of speech , Semantic classification, and flag to the morpheme that is the head of the case element are output as attributes (features) of each discourse unit candidate. For example, for the first sentence discourse unit candidate 4 (FIG. 16), attributes as shown in FIG. 17 are extracted.

すなわち、「ページに必ずカウンタをつけなくてはいけないのでしょうか」との談話単位候補4は、「文スタイル=疑問」、「意味分類=状態性」、「代表表記=”なければならない”」、「品詞=助動詞」のような属性をもつ。さらに、談話単位候補4は、形態素毎に「ページ」「に」「カウンター」「を」「つけ」「なくてはいけない」「のでしょうか」のような表層に分類され、各形態素毎に、「代表表記」、「品詞」、「意味」、「格要素」、「ヘッドの有無を示すフラグ」が付けられる。例えば、表層「ページ」は、代表表記「ページ」、品詞「名詞」、意味「具体物、抽象物」、格要素「名詞句」、であって、フラグは、その形態素が格要素におけるヘッドであることを示す「○」が付けられる。   In other words, the discourse unit candidate 4 “Are you sure to add a counter to the page?” Is “sentence style = question”, “semantic classification = state”, “representative notation =“ must ”” , “Part of speech = auxiliary verb”. Furthermore, the discourse unit candidate 4 is classified into surface layers such as “page”, “ni”, “counter”, “on”, “must have”, “no wonder” for each morpheme, and for each morpheme, “Representative notation”, “part of speech”, “meaning”, “case element”, and “flag indicating presence / absence of head” are attached. For example, the surface layer “page” is the representative notation “page”, the part of speech “noun”, the meaning “specific object, abstract object”, the case element “noun phrase”, and the flag is the head of the case element. “○” indicating that there is a mark is added.

このような属性の抽出を、質問文の各文の各談話単位候補に対して同様に行う(図2のステップA2)。   Such attribute extraction is similarly performed for each discourse unit candidate of each sentence of the question sentence (step A2 in FIG. 2).

このようにして生成された各談話単位候補に対し、特定談話単位抽出部202では、特定談話単位抽出ルール記憶部301に記憶されている特定談話単位抽出ルールが適用され、特定談話単位が種別ごとに抽出される。特定談話単位抽出ルールは、談話単位候補の属性に関する条件式として、抽出を行う特定談話単位の種別ごとに予め記述したものである。特定談話単位抽出ルールの例を、図18に示す。図18において、抽出ルールと抑制ルールという二つの異なる働きをするルールが示されている。抽出ルールは、図中では、「抽出1」〜「抽出4」という名前で示されており、談話タイプと条件とから構成されている。このうち条件は、ある談話単位候補に対してこの抽出ルールが適合するかどうかの判断条件を意味し、談話タイプは、条件が適合した談話単位候補を、この談話タイプの特定談話単位として抽出することを意味する。これらの抽出ルールの適用については、後に具体例を用いて説明する。   The specific discourse unit extraction unit 202 applies the specific discourse unit extraction rule stored in the specific discourse unit extraction rule storage unit 301 to each discourse unit candidate generated in this manner, and the specific discourse unit is classified by type. Extracted into The specific discourse unit extraction rule is described in advance for each type of specific discourse unit to be extracted as a conditional expression related to the attributes of the discourse unit candidate. An example of the specific discourse unit extraction rule is shown in FIG. In FIG. 18, two different rules are shown, an extraction rule and a suppression rule. The extraction rules are indicated by names “extraction 1” to “extraction 4” in the drawing, and are composed of discourse types and conditions. Of these, the condition means a condition for determining whether or not this extraction rule matches a certain discourse unit candidate, and the discourse type extracts a discourse unit candidate that satisfies the condition as a specific discourse unit of this discourse type. Means that. Application of these extraction rules will be described later using specific examples.

一方、抑制ルールは、図18において、「抑制1」、「抑制2」という名前で示されており、条件のみから構成されている。この条件は、ある談話単位候補に対してこの抑制ルールが適合するかどうかの判断条件を意味する。ある談話単位候補が、この抑制ルールのいずれかに適合する場合、抽出ルールの条件に適合しても特定談話単位として抽出しないようにする(抽出を抑制する)。抑制ルールは、抽出ルールによって不適切な特定談話単位も含めて過剰に抽出が行われるのを抑制し、適切な談話単位候補のみを特定談話単位として抽出するよう制御する働きをする。   On the other hand, the suppression rule is indicated by the names “suppression 1” and “suppression 2” in FIG. 18, and is configured only from conditions. This condition means a judgment condition as to whether or not this suppression rule is applicable to a certain discourse unit candidate. When a certain discourse unit candidate matches any of these suppression rules, it is not extracted as a specific discourse unit even if it matches the conditions of the extraction rule (extraction is suppressed). The suppression rule functions to suppress excessive extraction including an inappropriate specific discourse unit by the extraction rule, and control to extract only appropriate discourse unit candidates as specific discourse units.

例えば、図19に示すように、質問文が「分析パックを申し込みましたが分析タグ表示をどこに入れるのかわかりません。」の場合に、談話単位候補として候補1〜候補4を得たとする。ここで、談話単位候補3に対して、図20に示すような属性が求められる。図20に示す属性の「代表表記=”分かる”」から、図18の抽出1の条件に適合することが分かる。しかし、談話単位候補3において、動詞「分かる」が格要素を一つも持たない(先の「ヘッド用言の格要素ごとの形態素」の説明にある通り、述語自体は格要素ではなく、格要素を取り込む側である)。したがって、取り込み格要素が0であることから、同時に抑制1の条件にも適合する。この場合、談話単位候補3は、抽出ルール「抽出1」に適合し、同時に抑制ルール「抑制1」にも適合することから特定談話単位として抽出されないように抑制されることとなる。   For example, as shown in FIG. 19, it is assumed that candidates 1 to 4 are obtained as discourse unit candidates when the question sentence is “I applied for an analysis pack but do not know where to put the analysis tag display”. Here, an attribute as shown in FIG. 20 is obtained for the discourse unit candidate 3. From the attribute “representative notation =“ know ”” shown in FIG. 20, it can be seen that the condition of the extraction 1 in FIG. 18 is met. However, in the discourse unit candidate 3, the verb “I understand” does not have any case element (as described in the above explanation of “morpheme for each case element of the head predicate”, the predicate itself is not a case element. Is the side that takes in). Therefore, since the capturing case element is 0, the condition of suppression 1 is also satisfied. In this case, the discourse unit candidate 3 is suppressed from being extracted as a specific discourse unit because it matches the extraction rule “extraction 1” and at the same time the suppression rule “suppression 1”.

このような抑制ルールがないと、この例で示した「わかりません」のような特定談話単位が、多数の質問文から抽出されることが予想されるが、「わかりません」自体には、分からない事の内容に関する情報が含まれていないため、このような談話単位に基づいて類似質問事例の検索を行うと、全く質問の内容が異なる質問文が大量に類似事例として検索されるという問題が生じることになる。したがって、本実施例のように抑制ルールを適切に設定することにより、抽出される特定談話単位が談話の内容を特定できる情報を持つ適切な単位となるよう制御することが可能となる。   Without such a suppression rule, it is expected that a specific discourse unit like "I don't know" shown in this example will be extracted from a large number of question sentences. Because it does not contain information about the contents of things that we do not understand, searching for similar question cases based on such discourse units will search a large number of similar question sentences with completely different question contents Problems will arise. Accordingly, by appropriately setting the suppression rule as in the present embodiment, it is possible to control the extracted specific discourse unit to be an appropriate unit having information that can specify the content of the discourse.

図17に示した談話単位候補4の属性は、「文スタイル=疑問」であり、「代表表記=”なければならない”」を示しているので、図18の「抽出3」に記述された条件を満たす。特定談話単位に関する特徴量の条件を満たす。したがって、談話単位候補4は、談話タイプ「質問」の特定談話単位として認定され、抽出される。他の各文の各談話単位候補に対しても同様にルールを適用し、特定談話単位の抽出を行う(図2のステップA3)。   The attributes of the discourse unit candidate 4 shown in FIG. 17 are “sentence style = question” and “representative notation =“ must be ””. Therefore, the condition described in “extraction 3” in FIG. Meet. Satisfy the condition of the feature value for a specific discourse unit. Therefore, the discourse unit candidate 4 is recognized and extracted as a specific discourse unit of the discourse type “question”. The rules are similarly applied to each discourse unit candidate of each other sentence, and a specific discourse unit is extracted (step A3 in FIG. 2).

このようにして抽出された各特定談話単位は、その談話タイプ、入力された事例質問回答文データの質問文とそれに対する回答文(図15のテキスト情報)、および談話単位の特徴量と共に、事例データ登録部203によって事例質問回答文データ記憶部302に登録される(図2のステップA4)。   Each specific discourse unit extracted in this way includes the discourse type, the question sentence of the inputted case question answer sentence data and the answer sentence (text information in FIG. 15), and the feature quantity of the discourse unit. The data registration unit 203 registers it in the case question answer sentence data storage unit 302 (step A4 in FIG. 2).

次に、新規の質問文に対して類似事例が提示されるまでの処理について説明する。新規質問文が入力装置100より入力される。ここで、新規質問文は、例えば図21に示すようなものであったとする(図2のステップA5)。   Next, processing until a similar case is presented for a new question sentence will be described. A new question text is input from the input device 100. Here, it is assumed that the new question sentence is, for example, as shown in FIG. 21 (step A5 in FIG. 2).

この質問文に対し、談話単位候補生成部201において、事例質問回答文に対する処理(ステップA2)と同様に談話単位の候補を生成し、各談話単位の候補に対する特徴量を出力する。すると、図22に示すような2つの談話単位候補1および2とそれぞれに対する属性を得る(図2のステップA6)。   For the question sentence, the discourse unit candidate generation unit 201 generates a discourse unit candidate in the same manner as the process for the case question answer sentence (step A2), and outputs a feature amount for each discourse unit candidate. Then, two discourse unit candidates 1 and 2 as shown in FIG. 22 and their attributes are obtained (step A6 in FIG. 2).

すなわち、談話単位候補1「ユーザーにより異なる緑色の数字は何を意味していますか?」は、例えば「文スタイル=疑問」、品詞「サ変」の特徴を有する。また、談話単位候補2「カウンターは設けなければいけませんか?」は、例えば「文スタイル=疑問」、代表表記「なければならない」を含む属性を有する。   That is, the discourse unit candidate 1 “What does the green number that differs depending on the user?” Has, for example, “sentence style = question” and part-of-speech “sa change”. Further, the discourse unit candidate 2 “Do you have to provide a counter?” Has attributes including, for example, “sentence style = question” and a representative notation “must”.

さらに、これらの談話単位候補に対し、特定談話単位抽出部202において、ステップA3と同様に特定談話単位が種別ごとに抽出される。談話単位候補1は、「文スタイル=疑問」、品詞「指示代名詞」の属性を有するので、図18のルール「抽出2」と照合される。また、談話単位候補2は、「文スタイル=疑問」、代表表記「なければならない」を含むので、図18のルール「抽出3」と照合される。このようにして照合されたそれぞれの談話タイプ「質問」に関する特定談話単位として抽出される(図2のステップA7)。   Further, for these discourse unit candidates, the specific discourse unit extraction unit 202 extracts specific discourse units for each type as in step A3. Since the discourse unit candidate 1 has the attributes “sentence style = question” and part of speech “indicative pronoun”, it is collated with the rule “extraction 2” in FIG. Further, the discourse unit candidate 2 includes “sentence style = question” and the representative notation “must be”, and is therefore collated with the rule “extraction 3” in FIG. It is extracted as a specific discourse unit regarding each discourse type “question” collated in this way (step A7 in FIG. 2).

事例質問回答文データ検索部204において、新規質問文に対して抽出された各特定談話単位の種別と同一の種別の特定談話単位を持つ事例質問回答文を、事例質問回答文データ記憶部302に記憶された事例質問回答文データの中から検索する。ここでは、新規質問文から抽出された2つの特定談話単位「ユーザーにより異なる緑色の数字は何を意味していますか?」、「カウンターは設けなければいけませんか?」は、いずれも談話タイプ「質問」であることから、事例質問回答文データから同じ談話タイプである特定談話単位が検索される。例えば、図15の事例質問回答文の第1文中から抽出された特定談話単位「分析するためにはページに必ずカウンタをつけなくてはいけないのでしょうか。」は、談話タイプが「質問」であるため、この検索結果に含まれる。(図2のステップA8)。   The case question answer sentence data search unit 204 stores, in the case question answer sentence data storage unit 302, case question answer sentences having specific discourse units of the same type as each specific discourse unit type extracted for the new question sentence. Search from the stored case question answer sentence data. Here, the two specific discourse units extracted from the new question sentence, "What does the different green number for each user mean?" And "Do you have to set up a counter?" Since the type is “question”, the specific discourse unit of the same discourse type is searched from the case question answer sentence data. For example, the specific discourse unit extracted from the first sentence of the example question answer sentence in FIG. 15 “Does a page have to be countered in order to analyze?” Therefore, it is included in this search result. (Step A8 in FIG. 2).

質問文間照合部205において、検索された事例質問文と新規質問文の類似度を各特定談話単位同士の類似度に基づいて計算する。例えば、新規質問文「カウンターは設けなければいけませんか?」と、検索された事例質問文「ページに必ずカウンタをつけなくてはいけないのでしょうか。」との類似度は、図23に示すような類似度によって計算される。すなわち、新規質問文と事例質問文とでは、新規質問文中の「カウンター(名詞)」と「なければならない(助動詞)」との2つの形態素が一致するので、一致数/新規質問文中の形態素数は、2/5であり、類似度が0.4であるとして求められる。ここで、類似事例質問文として出力するための条件として例えば、閾値を0.3に設定する。そして、閾値を超える類似度を示す事例質問文が類似事例質問文であるとした場合、図15の事例質問回答文は、新規質問文に対する関連質問回答事例であると判断され、出力装置400より事例質問回答文が出力される(図2のステップA9)。   The inter-question sentence matching unit 205 calculates the similarity between the searched case question sentence and the new question sentence based on the similarity between the specific discourse units. For example, the similarity between the new question sentence “Do I have to set up a counter?” And the searched case question sentence “Must I put a counter on the page?” Is shown in FIG. It is calculated by the similarity as shown. That is, in the new question sentence and the case question sentence, two morphemes of “counter (noun)” and “must be (auxiliary verb)” in the new question sentence match, so the number of matches / the number of morphemes in the new question sentence Is 2/5 and the degree of similarity is 0.4. Here, for example, the threshold is set to 0.3 as a condition for outputting as a similar case question sentence. If the case question sentence indicating the similarity exceeding the threshold is a similar case question sentence, the case question answer sentence of FIG. 15 is determined to be a related question answer example for the new question sentence, and the output device 400 A case question answer sentence is output (step A9 in FIG. 2).

なお、類似度の計算は、上記に限らず種々の類似度を用いて実現することも可能である。例えば、形態素(単語)の数だけではなく、その形態素が談話の内容を特定する働きの大きさに応じた重みを与え、この重みを考慮した類似度を計算することもできる。例えば、統計的な方法で重みを評価して類似度を求める方法として、図24に示すような方法がある。   The calculation of the similarity is not limited to the above, and can be realized using various similarities. For example, not only the number of morphemes (words) but also the weights corresponding to the size of the morphemes that specify the content of the discourse can be given, and the degree of similarity considering these weights can be calculated. For example, there is a method as shown in FIG. 24 as a method of obtaining the similarity by evaluating the weight by a statistical method.

ここで、重みの計算においては、形態素が談話の内容を特定する働きの大きさを測るために、予め重みを求めるために特定談話単位の集合を作成し、全ての談話単位の組の内容が類似しているかどうかを判定しておき、これを重みの計算に用いる。重みの計算方法自身も、ここで示した以外にも色々な方法が可能である。   Here, in the calculation of the weight, in order to measure the size of the morpheme that identifies the content of the discourse, a set of specific discourse units is created in advance to obtain the weight, and the contents of all discourse unit sets are It is determined whether or not they are similar, and this is used for calculating the weight. The weight calculation method itself can be various methods other than those shown here.

また、機械学習的方法によって、類似度を求める方法もある。例えば、サポートベクトルマシンを使うことで、類似度を求めようとする二つの談話単位に共通な形態素集合を入力して、その談話単位間の類似度を出力するような分類器を得ることができる。   There is also a method for obtaining the similarity by a machine learning method. For example, by using a support vector machine, it is possible to obtain a classifier that inputs a morpheme set common to two discourse units whose similarity is to be obtained and outputs the similarity between the discourse units. .

さらに、二つの談話単位間の共通形態素だけでなく、同義語・類義語も類似度の計算において考慮する方法を組み合わせることもできる。   Furthermore, not only common morphemes between two discourse units but also synonyms and synonyms can be combined in a method of considering similarity.

「アクセスメータは設けなければいけませんか?」と、「ページに必ずカウンターをつけなくてはいけないのでしょうか。」は、既に述べた類似度の計算によれば、図25に示すようになる。「アクセスメータ」と「カウンタ」は同義語であるが、これらは同義語を考慮しない類似度Aでは、前述の例の0.4から0.2に類似度の値が下がってしまう。ここで、同義語も同様にカウントする類似度Bを用いると、「アクセスメータ」と「カウンタ」の対応が考慮され、類似度の値は0.4となる。類義語についても、同様の方法によって、類似度の値に考慮することができる。例えば、類似度Cでは、類義語関係にある形態素について、その形態素間の類似度を0以上1未満の値で評価し、類似度Bの値に加算する。この結果、動詞「設ける」と「付ける」が例えば類似度0.5であるとすると、類似度の値にさらに0.1が加算され、類似度の値は0.5となる。   According to the similarity calculation described above, “Do you have to provide an access meter?” And “Do you always need to add a counter to the page?” As shown in FIG. Become. “Access meter” and “counter” are synonyms, but in the case of similarity A that does not consider synonyms, the value of the similarity decreases from 0.4 in the above example to 0.2. Here, when the similarity B that similarly counts synonyms is used, the correspondence between the “access meter” and the “counter” is considered, and the value of the similarity is 0.4. Synonyms can also be taken into account for similarity values in a similar manner. For example, in the similarity C, the similarity between morphemes is evaluated with a value of 0 or more and less than 1 for the morphemes in the synonym relationship, and added to the value of the similarity B. As a result, if the verbs “provide” and “attach” have, for example, a similarity of 0.5, 0.1 is further added to the similarity value, and the similarity value becomes 0.5.

次に、第2の実施例について、図3、図4、図26および図27を用いて説明する。特定談話単位の抽出に、機械学習可能な抽出モデルを用いる点を除き、全体の処理の流れは第1の実施例と同じである。したがって、第1の実施例において既に説明済みの共通部分については説明を省略する。   Next, a second embodiment will be described with reference to FIGS. 3, 4, 26 and 27. FIG. The entire process flow is the same as that of the first embodiment except that an extraction model capable of machine learning is used for extracting a specific discourse unit. Therefore, description of common parts already described in the first embodiment is omitted.

入力される事例質問回答文データが第1の実施例と同じ、図15に示すものである場合、図16に示すような談話単位の候補が生成され、さらにその第1文の談話単位候補4(図16)に対しては、図17に示すような特徴量が抽出される。   When the case question answer sentence data to be input is the same as that in the first embodiment and shown in FIG. 15, a discourse unit candidate as shown in FIG. 16 is generated, and further, the discourse unit candidate 4 of the first sentence is generated. For (FIG. 16), feature quantities as shown in FIG. 17 are extracted.

ここで、特定談話単位抽出モデルの学習を行う場合は、正解データ入力(図4のステップB1)から特定談話単位抽出モデルの記憶(図4のステップB4)までの動作に進む。   Here, when learning the specific discourse unit extraction model, the operation proceeds from correct data input (step B1 in FIG. 4) to storage of the specific discourse unit extraction model (step B4 in FIG. 4).

図4のステップB1において、既に入力した事例質問回答文データ(図4のステップA1)の質問文に含まれる各談話タイプごとの特定談話単位として、例えば図26に示すような特定談話単位の質問文における抽出箇所とその談話タイプを入力装置100より入力する。   As the specific discourse unit for each discourse type included in the question sentence of the example question answer sentence data (step A1 in FIG. 4) already input in step B1 in FIG. 4, for example, a specific discourse unit question as shown in FIG. The extracted part in the sentence and its discourse type are input from the input device 100.

図4のステップB2において、入力された特定談話単位の正解を、談話単位候補生成部201によって生成された談話単位候補と照合する。例えば、図26の第1文に対して入力された談話タイプ「質問」の特定談話単位「カウンタをつけなくてはいけないのでしょうか」を、図16の談話単位候補と照合し、抽出箇所が最も近い候補4「ページに必ずカウンタをつけなくてはいけないのでしょうか」を改めて、談話タイプ「質問」の特定談話単位の正解とする。   In step B <b> 2 of FIG. 4, the input correct answer for the specific discourse unit is collated with the discourse unit candidate generated by the discourse unit candidate generation unit 201. For example, the discourse type “question” input to the first sentence in FIG. 26 is collated with the discourse unit candidate in FIG. The closest candidate 4 “Do I have to put a counter on the page?” Is changed to a correct answer for each specific discourse type of the discourse type “question”.

図4のステップB3において、特定談話単位抽出モデル獲得部206は、事例質問回答文の質問文と特定談話単位の正解から作成された、各談話単位候補およびその特徴量、そこから各談話タイプごとに抽出すべき特定談話単位を学習データとして特定談話単位抽出モデルの学習を行う。例えば2クラス分類問題に関する機械学習可能な分類器(例えばサポートベクトルマシン)を適用する場合について説明する。   In step B3 of FIG. 4, the specific discourse unit extraction model acquisition unit 206 creates each discourse unit candidate and its feature amount created from the question sentence of the case question answer sentence and the correct answer of the specific discourse unit, from each discourse type. The specific discourse unit extraction model is learned using the specific discourse unit to be extracted as the learning data. For example, a case where a classifier capable of machine learning (for example, a support vector machine) regarding a two-class classification problem is applied will be described.

判定しようとする談話タイプごとに個別の分類器を学習する。例えば、談話単位候補の特徴量を入力して、これが談話タイプ「質問」の特定談話単位に該当するかどうかを判定する分類器を学習する。談話単位候補の特徴量を分類器へ入力するための素性ベクトル表現としては、例えば図17と同じ属性を現す図27のような属性表現を用いる。すなわち、要素の値を各要素とするベクトルで表す。図27において、全ての談話タイプに関して個別に学習を行い、分類器を得る。   A separate classifier is learned for each discourse type to be determined. For example, a classifier that learns whether or not a feature amount of a discourse unit candidate is input and this corresponds to a specific discourse unit of the discourse type “question” is learned. As the feature vector expression for inputting the feature amount of the discourse unit candidate to the classifier, for example, an attribute expression as shown in FIG. 27 showing the same attributes as those in FIG. 17 is used. That is, it represents with the vector which makes the value of an element each element. In FIG. 27, all discourse types are individually learned to obtain classifiers.

図4のステップB5において、特定談話単位抽出部202は、談話単位候補生成部201で生成された各談話単位候補に対し、特定談話単位抽出モデル記憶部301に記憶されている特定談話単位抽出モデルを適用し、談話タイプごとの特定談話単位を抽出する。   In step B5 of FIG. 4, the specific discourse unit extraction unit 202 selects the specific discourse unit extraction model stored in the specific discourse unit extraction model storage unit 301 for each discourse unit candidate generated by the discourse unit candidate generation unit 201. Is applied to extract a specific discourse unit for each discourse type.

図4のステップB6において、新規質問文から生成された各談話単位候補に対しても、同様に素性ベクトルによる属性表現を求め、これを学習済みの全ての談話タイプの分類器に入力する。その結果、いずれかの談話タイプの分類器において、特定談話単位と判定された場合、入力した談話単位候補をその談話タイプの特定談話タイプと判定する。   In step B6 of FIG. 4, for each discourse unit candidate generated from a new question sentence, an attribute expression using a feature vector is similarly obtained and input to all learned discourse type classifiers. As a result, if any of the discourse type classifiers is determined to be a specific discourse unit, the input discourse unit candidate is determined to be a specific discourse type of that discourse type.

次に、第3の実施例について、図5、図6、図28から図30を用いて説明する。特定談話単位を抽出した後、談話ブロック生成スキーマを用いて談話ブロックに組み上げ、このブロックを単位として質問文間の照合を行う点を除き、全体の処理の流れは第1の実施例と同じである。したがって、第1の実施例において既に説明済みの共通部分については説明を省略する。   Next, a third embodiment will be described with reference to FIGS. 5, 6, and 28 to 30. FIG. After extracting a specific discourse unit, it is assembled into a discourse block using a discourse block generation schema, and the entire process flow is the same as in the first embodiment, except that this block is used as a unit to collate between question sentences. is there. Therefore, description of common parts already described in the first embodiment is omitted.

図6のステップC1において、談話ブロック生成部207では、特定談話単位抽出部202において抽出された各談話タイプごとの複数の特定談話単位に対し、談話ブロック生成スキーマ記憶部304に記憶されている談話ブロック生成スキーマを適用し、一つ以上の特定談話単位を一つの質問事項のまとまりに対応する談話ブロックに纏める。例えば、抽出された特定談話単位が図28に示すものであり、談話ブロック生成スキーマが例えば図29に示すものであったとする。図29の談話ブロック生成スキーマには、7つの2項ルールによって記述されている。例えば、ルール1「状況、状況→状況」は、談話ブロック「状況」と談話ブロック「状況」とが隣接する場合、これらを纏めて談話ブロック「状況」として表すものである。このルールを、ルール1から優先的に特定談話単位に適用し、談話ブロックを生成することにより、談話ブロックを生成するものとする。例えば図28の5つの特定談話単位の並び「問題」「状況」「質問」「問題」「要求」に対し、ルール3、7、5が適合する。すなわち、「問題、状況→問題」、「問題、質問→質問」、「問題、要求→要求」が該当し、これらを順次適合して図30に示すような2つの談話ブロックを得る。このように生成された談話ブロックとこれに属する特定談話単位の情報を談話ブロック情報として出力する。   In step C1 of FIG. 6, the discourse block generation unit 207 stores the discourse stored in the discourse block generation schema storage unit 304 for a plurality of specific discourse units for each discourse type extracted by the specific discourse unit extraction unit 202. Applying the block generation schema, one or more specific discourse units are grouped into discourse blocks corresponding to a set of question items. For example, assume that the extracted specific discourse unit is as shown in FIG. 28 and the discourse block generation schema is as shown in FIG. 29, for example. The discourse block generation schema of FIG. 29 is described by seven binary rules. For example, when the discourse block “situation” and the discourse block “situation” are adjacent to each other, the rule 1 “situation, situation → situation” collectively represents the discourse block “situation”. This rule is applied to a specific discourse unit preferentially from rule 1, and a discourse block is generated by generating a discourse block. For example, the rules 3, 7, and 5 are applicable to the array of five specific discourse units “problem”, “situation”, “question”, “problem”, and “request” in FIG. That is, “problem, situation → problem”, “problem, question → question”, and “problem, request → request” are matched, and these are sequentially adapted to obtain two discourse blocks as shown in FIG. The generated discourse block and information of a specific discourse unit belonging to the generated discourse block are output as discourse block information.

次に、第4の実施例について、図7、図8、図31から図33を用いて説明する。事例質問回答文を検索する際に、新規質問文から抽出された特定談話単位と談話タイプが一致する特定談話単位を含む質問文だけでなく、談話タイプ変換ルール適用後に談話タイプが一致する質問文を含めて検索し、質問文間の照合を行う点を除き、全体の処理の流れは第1の実施例と同じである。したがって、第1の実施例において既に説明済みの共通部分については説明を省略する。   Next, a fourth embodiment will be described with reference to FIGS. 7, 8, and 31 to 33. FIG. When searching for the case question answer sentence, not only the question sentence that includes the specific discourse unit that matches the discourse type extracted from the new question sentence but also the discourse type that matches the discourse type after applying the discourse type conversion rule The entire process flow is the same as that of the first embodiment except that a search is performed including a query and collation between question sentences is performed. Therefore, description of common parts already described in the first embodiment is omitted.

図8のステップD1において、事例質問回答文データ検索部204では、特定談話単位抽出部202において新規質問文から抽出された各特定談話単位ごとに、その談話タイプもしくは談話タイプ変換ルール記憶部305に記憶された談話タイプ変換ルールによる変換後の談話タイプと同一の談話タイプの特定談話単位を持つ事例質問回答文を、事例質問回答文データ記憶部302に記憶された事例質問回答文データの中から検索する。ここで、例えば、談話タイプ変換ルールが図33に示すようなものであるとする。例えば、ルール1「状況、質問→問題、質問」は、談話タイプ「状況」、談話タイプ「質問」の並びを、談話タイプ「問題」、談話タイプ「質問」の並びに置き換えるルールであることを示す。なお、置き換え前の元の並びもそのまま残すものとする。新規質問文から抽出された特定談話単位が図31に示すものであり、この質問文と同じ内容の質問回答事例が事例質問回答文データ中に存在しており、その質問文から抽出された特定談話単位が図32に示すものであったとする。この場合、質問文間に談話タイプが一致する特定談話単位は存在しないが、図31の新規質問文から抽出された特定談話単位の並びが、「状況、質問」であることから、図33の談話タイプ変換ルールの1番目と2番目のルールが適用でき、変換後の特定談話単位の並びとして、元の「状況、質問」のほかに、「問題、質問」と「問題、要求」が得られる。これらの変換後の談話タイプのうち、「問題、要求」が事例質問回答文中の質問文に対する特定談話単位の並びと一致するため、この事例質問回答文が検索される。   In step D1 of FIG. 8, the case question answer sentence data search unit 204 stores the discourse type or the discourse type conversion rule storage unit 305 for each specific discourse unit extracted from the new question sentence by the specific discourse unit extraction unit 202. A case question answer sentence having a specific discourse unit of the same discourse type as the discourse type after conversion by the stored discourse type conversion rule is selected from the case question answer sentence data stored in the case question answer sentence data storage unit 302. Search for. Here, for example, it is assumed that the discourse type conversion rule is as shown in FIG. For example, rule 1 “situation, question → question, question” indicates that the arrangement of the discourse type “situation” and the discourse type “question” is replaced with the discourse type “question” and the discourse type “question”. . It should be noted that the original sequence before replacement is also left as it is. The specific discourse unit extracted from the new question sentence is as shown in FIG. 31, and a question answer example having the same content as this question sentence exists in the case question answer sentence data, and the specific answer extracted from the question sentence. Assume that the discourse unit is as shown in FIG. In this case, there is no specific discourse unit in which the discourse type matches between the question sentences, but the arrangement of the specific discourse units extracted from the new question sentence in FIG. 31 is “situation, question”. The first and second discourse type conversion rules can be applied. In addition to the original “situation / question”, “problem / question” and “problem / request” are obtained as the arrangement of specific discourse units after conversion. It is done. Among these converted discourse types, the “question, request” matches the specific discourse unit sequence for the question sentence in the case question answer sentence, so this case question answer sentence is searched.

図8のステップD2において、質問文間照合部205は、この新規質問文と事例質問回答文の質問文との類似度を、談話タイプ変換ルール適用後の談話タイプ一致を含めた一致の割合や、談話タイプ変換ルールによる変換後も含めて談話タイプが一致する特定談話単位同士の類似度に基づいて計算し、一定値以上の事例質問回答文を類似事例質問回答文と判定する。   In step D2 of FIG. 8, the inter-question sentence matching unit 205 determines the similarity between the new question sentence and the question sentence of the case question answer sentence, the percentage of matching including the discourse type match after applying the discourse type conversion rule, Then, calculation is made based on the similarity between specific discourse units with the same discourse type, including after conversion by the discourse type conversion rule, and case question answer sentences with a certain value or more are determined as similar case question answer sentences.

次に、第5の実施例について、図9、図10、図34および図35を用いて説明する。質問文間の照合の際に、談話タイプの一致する特定談話単位の特徴量に基づく類似度のほかに、それぞれの質問文の要求質問タイプが一致することも考慮して質問文を照合する点を除き、全体の処理の流れは第1の実施例と同じである。したがって、第1の実施例において既に説明済みの共通部分については説明を省略する。   Next, a fifth embodiment will be described with reference to FIGS. 9, 10, 34 and 35. FIG. When matching between question sentences, in addition to the similarity based on the features of specific discourse units with matching discourse types, the question sentences are also matched in consideration of the matching of the requested question types of each question sentence The entire process flow is the same as in the first embodiment. Therefore, description of common parts already described in the first embodiment is omitted.

新規質問文から抽出された特定談話単位が図34に示すものであり、事例質問回答文の質問文から抽出された特定談話単位が図35に示すものであった場合、双方の談話タイプが「質問」の特定談話単位に対して、それぞれ要求質問タイプを抽出する。ここでは、例えば代名詞(疑問詞)の意味分類と、その代名詞を格要素に持つ用言の、格要素に対する制約を組み合わせることで、代名詞に対して想定される意味分類を絞り込むことが出来る。ここで、新規質問文に対する要求回答タイプとして「具体物、抽象物」、質問回答事例の質問文に対する要求回答タイプとして「場所」を得た場合、これらは一致しないため、両者の質問文が要求している回答の内容が異なると判断する。   When the specific discourse unit extracted from the new question sentence is as shown in FIG. 34 and the specific discourse unit extracted from the question sentence of the case question answer sentence is as shown in FIG. 35, both discourse types are “ The requested question type is extracted for each specific discourse unit of “Question”. Here, for example, the semantic classification assumed for a pronoun can be narrowed down by combining the semantic classification of a pronoun (question word) and the restriction on the case element of a predicate having the pronoun as a case element. Here, if the request answer type for a new question sentence is "concrete, abstract" and the request answer type for a question answer example question sentence is "location", these do not match, so both question sentences are required. It is judged that the content of the answer is different.

第6の実施例について、図11、図12、図34から図36を用いて説明する。質問文間の照合の際に、談話タイプの一致する特定談話単位の特徴量に基づく類似度のほかに、新規質問文の要求質問タイプと、事例質問回答文の回答文の内容が一致することも考慮して質問文を照合する点を除き、全体の処理の流れは第1の実施例と同じである。したがって、第1の実施例において既に説明済みの共通部分については説明を省略する。   A sixth embodiment will be described with reference to FIGS. 11, 12, and 34 to 36. FIG. When matching between question sentences, the request question type of the new question sentence and the contents of the answer sentence of the case question answer sentence should match in addition to the similarity based on the feature amount of the specific discourse unit with the same discourse type The entire processing flow is the same as that of the first embodiment except that the question text is checked in consideration of the above. Therefore, description of common parts already described in the first embodiment is omitted.

新規質問文から抽出された特定談話単位が図34に示すものであり、検索された事例質問回答文の回答文が図35に示すものであったとする。ここでは、例えば代名詞(疑問詞)の意味分類と、その代名詞を格要素に持つ用言の、格要素に対する制約を組み合わせることで、代名詞に対して想定される意味分類を絞り込むことが出来る。ここで、新規質問文の談話タイプが「質問」の特定談話単位から抽出される要求質問タイプが、動詞「使う」の目的語としての代名詞「何」から「具体物、抽象物」と推定されたとする。   It is assumed that the specific discourse unit extracted from the new question sentence is as shown in FIG. 34, and the answer sentence of the retrieved case question answer sentence is as shown in FIG. Here, for example, the semantic classification assumed for a pronoun can be narrowed down by combining the semantic classification of a pronoun (question word) and the restriction on the case element of a predicate having the pronoun as a case element. Here, the required question type extracted from the specific discourse unit whose discourse type of the new question sentence is “question” is presumed to be “concrete, abstract” from the pronoun “what” as the object of the verb “use” Suppose.

これは、回答文の第1文中の動詞「使う」の目的語としての名詞「FTPツール」の意味分類と一致するため、この場合、要求質問に対して回答内容が整合していると判断される。   This matches the semantic classification of the noun “FTP tool” as the object of the verb “use” in the first sentence of the answer sentence. In this case, it is determined that the answer contents are consistent with the request question. The

第7の実施例について、図13、図14、図37から図42を用いて説明する。特定談話単位の抽出に先立ち、談話単位候補が照応関係や省略や、格要素の共有を含んでおり、談話単位候補外にその先行詞もしくは共有する格要素がある場合は、これを補完して談話単位候補を作成すると共に、その特徴量にも補完結果を反映する点を除き、全体の処理の流れは、第1の実施例と同じである。したがって、第1の実施例において既に説明済みの共通部分については説明を省略する。   A seventh embodiment will be described with reference to FIGS. 13, 14, and 37 to 42. FIG. Prior to the extraction of specific discourse units, the discourse unit candidates include anaphoric relationships, omissions, and sharing of case elements. If there are antecedents or shared case elements outside the discourse unit candidates, this is complemented. The overall processing flow is the same as in the first embodiment, except that a discourse unit candidate is created and the complement result is also reflected in the feature amount. Therefore, description of common parts already described in the first embodiment is omitted.

照応解析処理部209では、談話単位候補生成部201で生成された各談話単位候補が、指示代名詞や省略を含んでいる場合、それらの先行詞の認定を質問文中において行う。   In the anaphora analysis processing unit 209, when each discourse unit candidate generated by the discourse unit candidate generation unit 201 includes a pronoun or abbreviation, the antecedent is recognized in the question sentence.

まず、省略補完や照応関係の解決(指示代名詞の指している先行詞を前後の文脈中から認定する)ができる場合について例を用いて説明する。例えば、図14のステップA1において入力された質問文が図37に示すようなものであったとする。この入力文に対して、ステップA2で談話単位候補の生成と特徴量の抽出が行われる。例えば、図37の入力文に対する談話単位候補が、図38に示すようなものであったとする。   First, a case where omission completion and anaphoric relationship resolution (the antecedent pointed to by the demonstrative pronoun is recognized from the preceding and following contexts) will be described using an example. For example, assume that the question text input in step A1 of FIG. 14 is as shown in FIG. In step A2, a discourse unit candidate is generated and a feature amount is extracted from the input sentence. For example, it is assumed that the discourse unit candidate for the input sentence in FIG. 37 is as shown in FIG.

ステップG1(図14)では、これらの各談話単位に対する照応解析と省略補完が行われる。ここでは照応解析と省略補完を、各談話単位候補中に含まれる省略、指示代名詞、形式名詞を判別し、それぞれの先行詞を談話単位候補を含む入力文全体の中から特定する処理であるとする。なお、このような照応解析や省略補完の具体的な処理方法については既に多数の方式が開示されている。   In step G1 (FIG. 14), anaphoric analysis and omission supplement are performed for each of these discourse units. Here, anaphora analysis and abbreviation completion are the processes to determine the abbreviations, demonstrative pronouns, formal nouns included in each discourse unit candidate, and identify each antecedent from the entire input sentence including the discourse unit candidate. To do. A number of methods have already been disclosed for specific processing methods for such anaphora analysis and omission supplementation.

まず、候補3、4、5において、動詞「付ける」に対する目的語が省略されていることが判別される。ここで、この省略された目的語の先行詞として「カウンタ」が特定された場合、それぞれの談話単位候補と特徴量に対して、特定された省略要素の補完を行う。例えば、談話単位候補3に対する属性が図39に示すものである場合、省略要素の補完後の属性は、図40に示すものとなる。共有関係(ここでは、複数の用言において、一つの格要素を共有するような関係を指す。例えば、主語の共有の場合、複数の用言が一つの主語を共有する関係にある。このような共有関係を持った文において、それぞれの用言を含む談話単位を抽出すると、見かけ上主語を持たない談話単位を生じる。)について、具体的な説明は省くが、この場合も省略補完と同様に、共有している格要素を認定し、補完することにより解決すればよい。   First, in candidates 3, 4, and 5, it is determined that the object for the verb “attach” is omitted. Here, when “counter” is specified as an antecedent of the omitted object, the specified omitted element is complemented for each discourse unit candidate and feature amount. For example, when the attributes for the discourse unit candidate 3 are those shown in FIG. 39, the attributes after complementing the omitted elements are those shown in FIG. Shared relationship (Here, a plurality of predicates refers to a relationship that shares one case element. For example, in the case of subject sharing, a plurality of predicates share a single subject.) If a discourse unit that includes each word is extracted in a sentence with a unique sharing relationship, a discourse unit that apparently has no subject will be omitted.) In addition, the case elements that are shared can be identified and complemented.

次に、省略補完や照応関係の解決ができない場合について例を用いて説明する。また、図14のステップA1において入力された質問文が、例えば図41に示すようなものであったとする。この入力文に対して、ステップA2で談話単位候補の生成と属性の抽出が行われる。例えば、図41の入力文に対する談話単位候補が、図42に示すようなものであったとする。ステップG1(図14)では、候補4、候補6、候補7において、動詞「必要」に対する目的語が省略されていることが判別される。ここで、この省略された目的語の先行詞として、「導入手順」、「分析対象ページ」、「カウンタ」、「カウンタの取り付け」が候補に挙がったが、一意に特定できずに省略補完に失敗したとする。この場合、候補4、候補6は省略要素の先行詞を含む可能性がないため、談話単位候補から除く。その結果、候補1、2、5、7を新たに談話単位候補として構成する。   Next, a case where omission complementation and anaphoric relationship cannot be resolved will be described using an example. Further, it is assumed that the question sentence input in step A1 in FIG. 14 is as shown in FIG. 41, for example. In step A2, a discourse unit candidate is generated and an attribute is extracted from the input sentence. For example, it is assumed that the discourse unit candidate for the input sentence in FIG. 41 is as shown in FIG. In step G1 (FIG. 14), it is determined in candidates 4, 6, and 7 that the object for the verb “necessary” is omitted. Here, “Introduction procedure”, “Analysis target page”, “Counter”, and “Attach counter” are candidates as an antecedent of this omitted object, but it cannot be uniquely identified and is omitted. Suppose it failed. In this case, candidates 4 and 6 are excluded from the discourse unit candidates because there is no possibility of including an antecedent antecedent. As a result, candidates 1, 2, 5, and 7 are newly configured as discourse unit candidates.

以上の説明のように、談話単位候補のうち、省略や照応関係、共有関係を元々含まないもの、および、照応解析や省略補完によって省略要素が補完されたものから、新たに談話単位候補を構成し、次のステップA3(図14)において、特定談話単位の抽出を行う。
なお、談話単位候補からの特定談話単位の抽出は、既に実施例1で説明したものと同様のため省略する。このような処理により、省略要素を含む談話単位候補に対して、省略補完が可能な場合は補完した結果に基づいて特定談話単位を抽出し、補完が出来ない場合は、先行詞を含むより大きな談話単位から特定談話単位を抽出する。これにより、文中に省略や照応関係、共有関係があっても、情報の欠損を生じないような特定談話単位を抽出することができ、より適切な談話単位に基づいて事例質問回答文を検索することが可能となる。
As described above, new discourse unit candidates are constructed from discourse unit candidates that originally do not include omissions, anaphoric relationships, and shared relationships, and those that have omitted elements supplemented by anaphora analysis or omission complementation. Then, in the next step A3 (FIG. 14), a specific discourse unit is extracted.
Note that the extraction of the specific discourse unit from the discourse unit candidate is the same as that already described in the first embodiment, and therefore will be omitted. By such processing, if the omission completion is possible for the discourse unit candidate including the omission element, the specific discourse unit is extracted based on the complemented result, and if the omission cannot be completed, it is larger than the antecedent. A specific discourse unit is extracted from the discourse unit. This makes it possible to extract specific discourse units that do not cause information loss even if there are omissions, anaphoric relationships, and shared relationships in the sentence, and search for example question answer sentences based on more appropriate discourse units It becomes possible.

本発明によれば、コンタクトセンターにおける電子メールに対するオペレータの対応支援装置や、電話音声に対するオペレータの対応支援装置や、質問応答事例データの類似事例検索装置や、質問応答事例データの分析装置といった用途に適用できる。   According to the present invention, an operator support support device for an email in a contact center, an operator support support device for telephone voice, a similar case search device for question answer case data, and an analysis device for question answer case data. Applicable.

本発明の第1の実施形態に係る質問回答検索システムの構成を示すブロック図である。It is a block diagram which shows the structure of the question answer search system which concerns on the 1st Embodiment of this invention. 本発明の第1の実施形態に係る質問回答検索システムの動作を示すフローチャートである。It is a flowchart which shows operation | movement of the question answer search system which concerns on the 1st Embodiment of this invention. 本発明の第2の実施形態に係る質問回答検索システムの構成を示すブロック図である。It is a block diagram which shows the structure of the question answer search system which concerns on the 2nd Embodiment of this invention. 本発明の第2の実施形態に係る質問回答検索システムの動作を示すフローチャートである。It is a flowchart which shows operation | movement of the question answer search system which concerns on the 2nd Embodiment of this invention. 本発明の第3の実施形態に係る質問回答検索システムの構成を示すブロック図である。It is a block diagram which shows the structure of the question answer search system which concerns on the 3rd Embodiment of this invention. 本発明の第3の実施形態に係る質問回答検索システムの動作を示すフローチャートである。It is a flowchart which shows operation | movement of the question answer search system which concerns on the 3rd Embodiment of this invention. 本発明の第4の実施形態に係る質問回答検索システムの構成を示すブロック図である。It is a block diagram which shows the structure of the question answer search system which concerns on the 4th Embodiment of this invention. 本発明の第4の実施形態に係る質問回答検索システムの動作を示すフローチャートである。It is a flowchart which shows operation | movement of the question answer search system which concerns on the 4th Embodiment of this invention. 本発明の第5の実施形態に係る質問回答検索システムの構成を示すブロック図である。It is a block diagram which shows the structure of the question answer search system which concerns on the 5th Embodiment of this invention. 本発明の第5の実施形態に係る質問回答検索システムの動作を示すフローチャートである。It is a flowchart which shows operation | movement of the question answer search system which concerns on the 5th Embodiment of this invention. 本発明の第6の実施形態に係る質問回答検索システムの構成を示すブロック図である。It is a block diagram which shows the structure of the question answer search system which concerns on the 6th Embodiment of this invention. 本発明の第6の実施形態に係る質問回答検索システムの動作を示すフローチャートである。It is a flowchart which shows operation | movement of the question answer search system which concerns on the 6th Embodiment of this invention. 本発明の第7の実施形態に係る質問回答検索システムの構成を示すブロック図である。It is a block diagram which shows the structure of the question answer search system which concerns on the 7th Embodiment of this invention. 本発明の第7の実施形態に係る質問回答検索システムの動作を示すフローチャートである。It is a flowchart which shows operation | movement of the question answer search system which concerns on the 7th Embodiment of this invention. 本発明の第1の実施例における事例質問回答文データの例を示す図である。It is a figure which shows the example of the example question answer text data in 1st Example of this invention. 本発明の第1の実施例における事例質問回答文データの質問文中の第1文に対して得られる質問文の談話単位候補を示す図である。It is a figure which shows the discourse unit candidate of the question sentence obtained with respect to the 1st sentence in the question sentence of the example question answer sentence data in 1st Example of this invention. 本発明の第1の実施例における事例質問回答文データの質問文中の第1文、談話単位候補4に対して抽出される談話単位候補の属性を示す図である。It is a figure which shows the attribute of the discourse unit candidate extracted with respect to the 1st sentence and the discourse unit candidate 4 in the question sentence of the example question answer sentence data in 1st Example of this invention. 本発明の第1の実施例における特定談話単位抽出ルールの例を示す図である。It is a figure which shows the example of the specific discourse unit extraction rule in 1st Example of this invention. 抑制ルールを説明するための談話単位候補を示す図である。It is a figure which shows the discourse unit candidate for demonstrating a suppression rule. 抑制ルールの説明における、談話単位候補3に対して抽出される談話単位候補の属性を示す図である。It is a figure which shows the attribute of the discourse unit candidate extracted with respect to discourse unit candidate 3 in description of the suppression rule. 本発明の第1の実施例における新規質問文の例を示す図である。It is a figure which shows the example of the new question sentence in 1st Example of this invention. 本発明の第1の実施例における新規質問文に対する談話単位候補とその属性を示す図である。It is a figure which shows the discourse unit candidate with respect to the new question sentence in the 1st Example of this invention, and its attribute. 本発明の第1の実施例における事例質問応答文と新規質問文の談話単位間の距離計算方法を示す図である。It is a figure which shows the distance calculation method between the discourse units of the example question response sentence and new question sentence in 1st Example of this invention. 談話単位間の他の距離計算方法を示す図である。It is a figure which shows the other distance calculation method between discourse units. 談話単位間の種々の距離計算方法の比較を示す図である。It is a figure which shows the comparison of the various distance calculation methods between discourse units. 本発明の第2の実施例における事例質問回答文に対する談話タイプごとの特定談話単位の正解データの一例を示す図である。It is a figure which shows an example of the correct answer data of the specific discourse unit for every discourse type with respect to the example question answer sentence in 2nd Example of this invention. 本発明の第2の実施例における特定談話単位の属性を分類器の入力とするための素性ベクトル表現の一例を示す図である。It is a figure which shows an example of the feature vector expression for making the attribute of a specific discourse unit into the input of a classifier in 2nd Example of this invention. 本発明の第3の実施例における複数の質問事項を含む質問文から特定談話単位を抽出した結果の一例を示す図である。It is a figure which shows an example of the result of having extracted the specific discourse unit from the question sentence containing the several question matter in the 3rd Example of this invention. 本発明の第3の実施例における談話ブロック生成スキーマの一例を示す図である。It is a figure which shows an example of the discourse block production | generation schema in the 3rd Example of this invention. 本発明の第3の実施例における談話ブロック生成スキーマを用いて得られる談話ブロックの一例を示す図である。It is a figure which shows an example of the discourse block obtained using the discourse block production | generation schema in the 3rd Example of this invention. 本発明の第4の実施例における新規質問文から抽出された特定談話単位の一例を示す図である。It is a figure which shows an example of the specific discourse unit extracted from the new question sentence in the 4th Example of this invention. 本発明の第4の実施例における事例質問回答文の質問文から抽出された特定談話単位の一例を示す図である。It is a figure which shows an example of the specific discourse unit extracted from the question sentence of the example question answer sentence in 4th Example of this invention. 本発明の第4の実施例における談話タイプ変換ルールの一例を示す図である。It is a figure which shows an example of the discourse type conversion rule in 4th Example of this invention. 本発明の第5の実施例における新規質問文から抽出された特定談話単位の一例を示す図である。It is a figure which shows an example of the specific discourse unit extracted from the new question sentence in the 5th Example of this invention. 本発明の第5の実施例における事例質問回答文の質問文から抽出された特定談話単位の一例を示す図である。It is a figure which shows an example of the specific discourse unit extracted from the question sentence of the case question answer sentence in 5th Example of this invention. 本発明の第6の実施例における事例質問回答文の回答文の一例を示す図である。It is a figure which shows an example of the reply sentence of the example question reply sentence in the 6th Example of this invention. 本発明の第7の実施例における新規質問文の例を示す図である。It is a figure which shows the example of the new question sentence in the 7th Example of this invention. 本発明の第7の実施例における質問文に対する談話単位候補を示す図である。It is a figure which shows the discourse unit candidate with respect to the question sentence in the 7th Example of this invention. 本発明の第7の実施例における談話単位候補3に対して抽出される談話単位候補の属性を示す図である。It is a figure which shows the attribute of the discourse unit candidate extracted with respect to the discourse unit candidate 3 in the 7th Example of this invention. 本発明の第7の実施例における談話単位候補3に対して抽出される談話単位候補の補完後の属性を示す図である。It is a figure which shows the attribute after the complementation of the discourse unit candidate extracted with respect to the discourse unit candidate 3 in the 7th Example of this invention. 本発明の第7の実施例における新規質問文の他の例を示す図である。It is a figure which shows the other example of the new question sentence in the 7th Example of this invention. 本発明の第7の実施例における他の質問文に対する談話単位候補を示す図である。It is a figure which shows the discourse unit candidate with respect to the other question sentence in the 7th Example of this invention.

符号の説明Explanation of symbols

100 入力装置
200a、200b、200c、200d、200e、200f、200g データ処理装置
201、201a 談話単位候補生成部
202、202a 特定談話単位抽出部
203、203a、203b 事例データ登録部
204、204a 事例質問回答文データ検索部
205、205a、205b、205c、205d 質問文間照合部
206 特定談話単位抽出モデル獲得部
207 談話ブロック生成部
208 要求回答タイプ抽出部
209 照応解析処理部
300a、300b、300c、300d、300e、300f、300g 記憶装置
301 特定談話単位抽出ルール記憶部
302、302a、302b 事例質問回答文データ記憶部
303 特定談話単位抽出モデル記憶部
304 談話ブロック生成スキーマ記憶部
305 談話タイプ変換ルール記憶部
306 意味分類辞書記憶部
307 要求回答タイプ抽出パタン記憶部
308 回答タイプ照合パタン記憶部
400 出力装置
100 Input device 200a, 200b, 200c, 200d, 200e, 200f, 200g Data processing device 201, 201a Discourse unit candidate generation unit 202, 202a Specific discourse unit extraction unit 203, 203a, 203b Case data registration unit 204, 204a Case question answer Sentence data search unit 205, 205a, 205b, 205c, 205d Interrogation collation unit 206 Specific discourse unit extraction model acquisition unit 207 Discourse block generation unit 208 Request answer type extraction unit 209 Anaphoric analysis processing units 300a, 300b, 300c, 300d, 300e, 300f, 300g Storage device 301 Specific discourse unit extraction rule storage units 302, 302a, 302b Case question answer sentence data storage unit 303 Specific discourse unit extraction model storage unit 304 Discourse block generation schema storage unit 305 Discourse Type conversion rule storing unit 306 refers classification dictionary storage unit 307 requests the type of answer extraction pattern storage unit 308 answer type matching pattern storage unit 400 the output device

Claims (24)

予め事例質問文に対して形態素解析および構文解析を行った後、構文構造のうち文または節の構造に基づいて談話単位候補を生成するステップと、
構文解析の結果から、前記談話単位候補および前記談話単位候補の表層表現に対し、構文的・意味的属性を抽出して付与するステップと、
前記談話単位候補に対して前記構文的・意味的属性についての一致条件を特定談話単位の談話タイプごとに記述した談話単位抽出ルールを適用し、談話タイプごとに前記事例質問文からの特定談話単位の抽出を行うステップと、
抽出された前記特定談話単位を前記事例質問文自身と共にデータベースに質問回答事例として記憶するステップと、
新規質問文が入力された際にも、前記事例質問文と同様にして前記新規質問文に対する特定談話単位を抽出するステップと、
前記新規質問文に対する特定談話単位の談話タイプと同一の談話タイプの特定談話単位を持つ質問回答事例を前記データベースから検索するステップと、
検索した前記質問回答事例中の事例質問文と前記新規質問文との間で談話タイプが一致する特定談話単位間の類似度に基づいて前記事例質問文が前記新規質問文と類似であると判断するステップと、
を含むことを特徴とする質問回答検索方法。
Generating a discourse unit candidate based on the sentence or clause structure of the syntax structure after performing morphological analysis and syntax analysis on the case question sentence in advance;
From the result of parsing, extracting and assigning syntactic and semantic attributes to the discourse unit candidate and the surface layer representation of the discourse unit candidate;
Applying a discourse unit extraction rule in which matching conditions for the syntactic and semantic attributes are described for each discourse type for each discourse unit candidate for each discourse type, and a specific discourse unit from the case question sentence for each discourse type A step of extracting
Storing the extracted discourse unit as a question answer example in a database together with the example question sentence itself;
When a new question sentence is input, extracting a specific discourse unit for the new question sentence in the same manner as the case question sentence;
Searching the database for question answer examples having a specific discourse unit of the same discourse type as the discourse type of the specific discourse unit for the new question sentence;
It is determined that the case question sentence is similar to the new question sentence based on the similarity between specific discourse units whose discourse types match between the case question sentence in the searched question answer case and the new question sentence. And steps to
A method for searching for answers to questions characterized by including:
請求項1に記載の質問回答検索方法において、
予め事例質問文中から抽出すべき特定談話単位の抽出箇所情報および談話タイプを学習用データとして入力し、形態素解析および構文解析を行った後、構文構造のうち文または節の構造に基づいて談話単位候補を生成し、また構文解析の結果より、各談話単位候補に対する構文的・意味的属性を抽出して入力し、談話タイプを出力する特定談話単位抽出モデルを学習するステップと、
談話タイプごとに質問文からの特定談話単位の抽出を行う際には、前記特定談話単位抽出モデルを適用して談話単位候補から各談話タイプの特定談話単位を抽出することを特徴とする質問回答検索方法。
In the question answer search method according to claim 1,
Enter the location information and discourse type of a specific discourse unit that should be extracted from the case question sentence in advance as learning data, perform morphological analysis and syntactic analysis, and then use the discourse unit based on the sentence or clause structure of the syntax structure. A candidate is generated, and a syntactic and semantic attribute for each discourse unit candidate is extracted and input from a result of the parsing, and a specific discourse unit extraction model for outputting a discourse type is learned.
When extracting a specific discourse unit from a question sentence for each discourse type, the specific answer unit of each discourse type is extracted from the discourse unit candidates by applying the specific discourse unit extraction model. retrieval method.
請求項1に記載の質問回答検索方法において、
事例質問文および新規質問文から特定談話単位の抽出を行った後、複数の特定談話単位を談話タイプに基づいて同一質問内容に関する最小単位となるような談話ブロックへの纏め上げルールである談話スキームを適用して談話ブロックへの纏め上げを行うステップを含み、
新規質問文と事例質問文との類似度の計算においては、談話ブロックごとに新規質問文と事例質問文で談話タイプが一致する特定談話単位間の類似度に基づいて、事例質問文と新規質問文の談話ブロックが類似であることを判断することを特徴とする質問回答検索方法。
In the question answer search method according to claim 1,
After extracting specific discourse units from case question sentences and new question sentences, a discourse scheme is a rule that summarizes multiple specific discourse units into discourse blocks that become the minimum unit for the same question content based on discourse type Including the step of applying to the discourse block
In the calculation of the similarity between the new question sentence and the case question sentence, the case question sentence and the new question are based on the similarity between the specific discourse units for which the discourse type matches in the new question sentence and the case question sentence for each discourse block. A question answer search method characterized by determining that the discourse blocks of sentences are similar.
請求項1に記載の質問回答検索方法において、
事例質問文と新規質問文の特定談話単位の照合を行う際、同一の談話タイプの特定談話単位間の類似度と、さらに特定談話単位変形ルールを介してマッピングされる異なる談話タイプ間の特定談話単位間の類似度とによって事例質問文と新規質問文の類似度を判断することを特徴とする質問回答検索方法。
In the question answer search method according to claim 1,
When collating specific discourse units of case question sentences and new question sentences, the similarity between specific discourse units of the same discourse type and specific discourses between different discourse types mapped via specific discourse unit transformation rules A question answer search method characterized in that the similarity between a case question sentence and a new question sentence is determined based on the similarity between units.
請求項1に記載の質問回答検索方法において、
質問文に対する回答として期待されている回答内容に関する分類である回答タイプを推定するステップを含み、
事例質問文と新規質問文の類似度を判断する際に、該質問文に対する質問タイプ、前記回答タイプの一致を特定談話単位間の前記構文的・意味的属性に基づく類似度と共に、事例質問文と新規質問文との類似度の判断に用いることを特徴とする質問回答検索方法。
In the question answer search method according to claim 1,
Including a step of estimating an answer type, which is a classification related to an answer content expected as an answer to a question sentence,
When determining the similarity between a case question sentence and a new question sentence, the case type question sentence is matched with the similarity between the question type and the answer type for the question sentence based on the syntactic and semantic attributes between specific discourse units. And a question answer search method, characterized in that it is used to determine the similarity between a new question sentence and a new question sentence.
請求項5に記載の質問回答検索方法において、
あらかじめ事例質問文とともにその回答文事例も対でデータベースに記憶しておき、前記回答タイプと事例質問文に対する事例回答文の内容との一致度を考慮することを特徴とする質問回答検索方法。
In the question answer search method according to claim 5,
A question answer search method characterized in that the answer sentence case is stored in advance in a database together with the case question sentence, and the degree of coincidence between the answer type and the content of the case answer sentence with respect to the case question sentence is taken into consideration.
請求項1に記載の質問回答検索方法において、
質問文から談話単位候補を生成し、その中から特定談話単位を抽出する際に、談話単位候補に指示代名詞もしくは省略が含まれておりかつ指示代名詞もしくは省略の先行詞が特定談話単位外に存在する場合、照応詞や省略の先行詞による置換や補完を行うか、あるいは対象の談話単位候補と先行詞を内包するより大きな談話単位候補を代わりに特定談話単位として抽出することにより、省略要素や照応関係を補完した特定談話単位に基づいて質問文と質問事例との照合を行うことを特徴とする質問回答検索方法。
In the question answer search method according to claim 1,
When generating a discourse unit candidate from a question sentence and extracting a specific discourse unit from it, the discourse unit candidate includes a demonstrative pronoun or abbreviation, and a demonstrative pronoun or abbreviation antecedent exists outside the specific discourse unit In this case, substitution or complementation with an anaphor or an antecedent antecedent is performed, or a larger discourse unit candidate including the target discourse unit candidate and antecedent is extracted as a specific discourse unit A question answer search method characterized by collating a question sentence with a question example based on a specific discourse unit that complements an anaphoric relationship.
請求項1〜7のいずれか一に記載の質問回答検索方法において、事例質問文と新規質問文の特定談話単位の照合を行う際、各特定談話単位に対する構文的・意味的属性である質問事例の述部の文スタイル、テンス・アスペクト情報、ヘッド用言の意味分類、さらにヘッド用言が格要素として、主語、目的語、名詞句のいずれかを持つ場合にそれらの格要素に属する全ての形態素の表層、原型、品詞、意味分類、および格要素のヘッドかどうかの別の一致に基づいて前記類似度を求めることを特徴とする質問回答検索方法。   In the question answer search method according to any one of claims 1 to 7, when a specific discourse unit of a case question sentence and a new question sentence is collated, a question case that is a syntactic and semantic attribute for each specific discourse unit Predicate sentence style, tense and aspect information, semantic classification of head utterances, and if head utterances have subject, object, or noun phrases as case elements, all belonging to those case elements A method for searching for answers to a question, wherein the similarity is obtained based on another match of a morpheme surface layer, prototype, part of speech, semantic classification, and case element head. 質問文に対して形態素解析および構文解析を行った後、構文構造のうち文または節の構造に基づいて談話単位の候補を生成する談話単位候補生成手段と、
前記談話単位候補および前記談話単位候補の表層表現に対し、構文的・意味的属性を抽出して付与し、前記構文的・意味的属性についての一致条件によって談話タイプごとに談話単位候補から談話単位の抽出を判断するためのルールを記述した談話単位抽出ルールを格納する談話単位抽出ルール記憶手段と、
談話単位候補に対して前記談話単位抽出ルールを適用し、談話タイプごとに質問文から談話単位の抽出を行う談話単位抽出手段と、
前記談話単位抽出手段において質問文事例から抽出された特定談話単位を質問文および質問文に対する回答文と共に質問回答文事例データとして質問回答文事例データ記憶手段に登録する事例データ登録手段と、
前記質問回答文事例データ登録手段によって登録される前記質問回答文事例データを記憶する質問回答文事例データ記憶手段と、
前記入力装置から入力される新規質問文に対して前記特定談話単位抽出手段において抽出される各特定談話単位ごとに、前記新規質問文の談話タイプと同一の談話タイプの特定談話単位を持つ質問回答文事例を、前記質問回答文事例データ記憶手段に記憶された前記質問回答文事例データの中から検索する質問回答文事例データ検索手段と、
検索された質問回答文事例の質問文と新規質問文との特定談話単位における類似度に基づいて、質問文同士が類似の内容に関する質問文であるかどうかを判定する質問文間照合手段と、
を備えることを特徴とする質問回答検索システム。
A discourse unit candidate generating means for generating a discourse unit candidate based on the structure of a sentence or a section of the syntax structure after performing morphological analysis and syntax analysis on the question sentence;
Syntactic and semantic attributes are extracted and assigned to the discourse unit candidate and the surface representation of the discourse unit candidate, and the discourse unit candidate is changed from the discourse unit candidate to each discourse type according to the matching condition for the syntactic and semantic attribute. A discourse unit extraction rule storage means for storing a discourse unit extraction rule describing a rule for determining the extraction of
A discourse unit extraction unit that applies the discourse unit extraction rule to a discourse unit candidate and extracts a discourse unit from a question sentence for each discourse type;
Case data registration means for registering the specific discourse unit extracted from the question sentence case in the discourse unit extraction means in the question answer sentence case data storage means as question answer sentence case data together with the answer sentence to the question sentence and the question sentence;
Question answer sentence case data storage means for storing the question answer sentence case data registered by the question answer sentence case data registration means;
A question answer having a specific discourse unit of the same discourse type as the discourse type of the new question sentence, for each specific discourse unit extracted by the specific discourse unit extracting means for a new question sentence input from the input device Question answer sentence case data search means for searching sentence examples from the question answer sentence case data stored in the question answer sentence case data storage means;
Question sentence matching means for determining whether or not question sentences are question sentences related to similar contents based on the similarity in a specific discourse unit between the question sentence of the searched question answer sentence case and the new question sentence;
A question and answer search system comprising:
質問文中から抽出すべき談話タイプが与えられた質問文を学習データとして特定談話単位抽出モデルを学習して特定談話単位抽出モデルを獲得する特定談話単位抽出モデル獲得手段と、
前記特定談話単位抽出モデルを記憶する特定談話単位抽出モデル記憶手段とを、
さらに備え、
前記特定談話単位抽出手段は、前記談話単位候補生成手段で生成された各談話単位候補に対し、前記特定談話単位抽出モデル記憶手段に記憶されている特定談話単位抽出モデルを適用し、談話タイプごとの特定談話単位を抽出することを特徴とする請求項9記載の質問回答検索システム。
A specific discourse unit extraction model acquisition means for acquiring a specific discourse unit extraction model by learning a specific discourse unit extraction model using a question sentence given a discourse type to be extracted from a question sentence as learning data,
Specific discourse unit extraction model storage means for storing the specific discourse unit extraction model;
In addition,
The specific discourse unit extraction means applies the specific discourse unit extraction model stored in the specific discourse unit extraction model storage means to each discourse unit candidate generated by the discourse unit candidate generation means, and for each discourse type 10. The question answer search system according to claim 9, wherein a specific discourse unit is extracted.
質問文から抽出された特定談話単位に対し、談話スキームを適用して特定談話単位を談話ブロックに纏め上げる談話ブロック認定手段と、
談話スキームを格納する談話スキーム記憶手段と、
質問文と事例質問文との特定談話単位の照合において談話ブロック単位での照合を行う質問事例照合手段とを
さらに備え、
質問文中に複数の質問項目が含まれる場合にはそれぞれの質問項目に対して個別に談話ブロックを作成し、質問文と事例との照合において前記談話ブロックごとに照合することを特徴とする請求項9記載の質問回答検索システム。
A discourse block certification means that applies a discourse scheme to a specific discourse unit extracted from a question sentence and collects the specific discourse unit into a discourse block,
A discourse scheme storage means for storing a discourse scheme;
A question case matching means for matching in a discourse block unit in a specific discourse unit matching between a question sentence and a case question sentence,
When a question sentence includes a plurality of question items, a discourse block is individually created for each question item, and collation is performed for each discourse block in collation between a question sentence and an example. 9. The question answer search system according to 9.
質問文と質問事例の特定談話単位の照合を行う際に、各談話タイプごとの特定談話タイプ変形ルールを用いて対応付けられる談話タイプも照合対象とする特定談話単位照合手段と、
異なる談話タイプの特定談話単位が文脈によって同じ質問文の意図や内容を表す場合に同一の談話タイプと判別する特定談話単位変形ルールを蓄積する特定談話単位変形ルール格納手段とを
さらに備え、
対応する特定談話単位が照合する質問文と質問事例は関連すると判断することを特徴とする請求項9記載の質問回答検索システム。
A specific discourse unit matching means for collating a discourse type that is matched using a specific discourse type modification rule for each discourse type when collating a specific discourse unit between a question sentence and a question example;
Specific discourse unit deformation rule storage means for storing specific discourse unit deformation rules for discriminating from the same discourse type when specific discourse units of different discourse types represent the intent and content of the same question sentence depending on the context,
The question answer search system according to claim 9, wherein the question sentence matched with the corresponding specific discourse unit and the question example are determined to be related.
質問文から質問内容や要求内容に関する質問タイプを判断し、さらに期待している回答タイプを推定する質問・回答タイプ推定手段と、
質問文と質問事例との間で質問タイプ、回答タイプの照合を行う質問・回答タイプ照合手段とを
さらに備え、
質問文と質問事例の質問タイプおよび回答タイプの前記照合結果により両者の一致を判断することを特徴とする請求項9記載の質問回答検索システム。
Question / answer type estimation means for judging the question type related to the question content and request content from the question sentence, and further estimating the expected answer type,
The system further comprises a question / answer type matching means for matching the question type and answer type between the question sentence and the question example,
The question answer search system according to claim 9, wherein a match between the question sentence and the question example of the question example and the answer type is determined based on the collation result.
質問文から質問内容や要求内容に関するタイプを判断し、さらに期待している回答タイプを推定する質問・回答タイプ推定手段と、
質問文から推定された回答タイプに該当する箇所が該質問文に対する回答文中に存在するかどうかを判別する質問回答間対応付け手段と、
質問事例と質問事例の質問に対する回答事例を対で蓄積する質問回答事例記憶手段とを
さらに備え、
質問文に対し、質問・回答タイプの推定を行い、質問・回答タイプが一致する質問事例を検索し、さらに質問文から推定された回答タイプに該当する箇所が、質問・回答タイプが一致する質問事例に対する回答事例中に存在するかどうかを判別し、存在する場合に質問に対する回答が含まれる回答事例として判断することを特徴とする請求項9記載の質問回答検索システム。
Question / answer type estimation means for determining the type of question content and request content from the question text and estimating the expected answer type;
A question-answer correspondence unit for determining whether or not a portion corresponding to the answer type estimated from the question sentence exists in the answer sentence for the question sentence;
A question answer case storage means for accumulating a pair of answer cases for the question case and the question case question,
The question / answer type is estimated for the question sentence, the question case with the matching question / answer type is searched, and the question / answer type matches the part corresponding to the answer type estimated from the question sentence. 10. The question answer search system according to claim 9, wherein it is determined whether or not it exists in an answer example for the case, and if it exists, it is determined as an answer example including an answer to the question.
前記談話単位候補生成手段によって生成された特定談話単位に含まれる照応関係を認定し、特定談話単位中に指示代名詞もしくは省略が含まれておりかつ指示代名詞もしくは省略の先行詞が該特定談話単位外に存在する場合に照応詞を先行詞に置き換え、省略を先行詞によって補う照応解析処理手段をさらに備え、
質問文から抽出された特定談話単位が前記照応解析処理手段によって指示代名詞および省略要素が補完された場合は補完結果に基づいて特定談話単位の事例との照合を行い、指示代名詞もしくは省略要素が補完されずに残った場合は、特定談話単位を内包する談話単位を代替の特定談話単位として事例との照合を行うことを特徴とする請求項9記載の質問回答検索システム。
The anaphoric relationship included in the specific discourse unit generated by the discourse unit candidate generating means is recognized, and the specified discourse or abbreviation is included in the specific discourse unit and the specified pronoun or abbreviation is outside the specific discourse unit Further comprising an anaphoric analysis processing means for replacing an anaphor with an antecedent when it exists in the
When the specific discourse unit extracted from the question sentence is supplemented with the pronoun and abbreviation elements by the anaphora analysis processing means, the specific discourse unit and the abbreviation element are compared with the specific discourse unit case based on the completion result. 10. The question answer search system according to claim 9, wherein, when remaining, the collation unit including the specific discourse unit is collated with the case as an alternative specific discourse unit.
請求項10〜15のいずれか一に記載の質問回答検索システムにおいて、事例質問文と新規質問文の特定談話単位の照合を行う際、各特定談話単位に対する構文的・意味的属性である質問事例の述部の文スタイル、テンス・アスペクト情報、ヘッド用言の意味分類、さらにヘッド用言が格要素として、主語、目的語、名詞句のいずれかを持つ場合にそれらの格要素に属する全ての形態素の表層、原型、品詞、意味分類、および格要素のヘッドかどうかの別の一致に基づいて前記類似度を求めることを特徴とする質問回答検索システム。   In the question answer search system according to any one of claims 10 to 15, when collating a specific discourse unit between a case question sentence and a new question sentence, a question example that is a syntactic and semantic attribute for each specific discourse unit Predicate sentence style, tense and aspect information, semantic classification of head utterances, and if head utterances have subject, object, or noun phrases as case elements, all belonging to those case elements A question answer search system, wherein the similarity is obtained based on another match of a morpheme surface layer, prototype, part of speech, semantic classification, and case element head. 質問回答検索システムを構成するコンピュータに、
予め事例質問文に対して形態素解析および構文解析を行った後、構文構造のうち文または節の構造に基づいて談話単位候補を生成する処理と、
構文解析の結果から、前記談話単位候補および前記談話単位候補の表層表現に対し、構文的・意味的属性を抽出して付与する処理と、
前記談話単位候補に対して前記構文的・意味的属性についての一致条件を特定談話単位の談話タイプごとに記述した談話単位抽出ルールを適用し、談話タイプごとに前記事例質問文からの特定談話単位の抽出を行う処理と、
抽出された前記特定談話単位を前記事例質問文自身と共にデータベースに質問回答事例として記憶する処理と、
新規質問文が入力された際にも、前記事例質問文と同様にして前記新規質問文に対する特定談話単位を抽出する処理と、
前記新規質問文に対する特定談話単位の談話タイプと同一の談話タイプの特定談話単位を持つ質問回答事例を前記データベースから検索する処理と、
検索した前記質問回答事例中の事例質問文と前記新規質問文との間で談話タイプが一致する特定談話単位間の類似度に基づいて前記事例質問文が前記新規質問文と類似であると判断する処理と、
を実行させるプログラム。
On the computer that composes the question answer search system,
After performing morphological analysis and syntactic analysis on the case question sentence in advance, a process of generating discourse unit candidates based on the sentence or clause structure of the syntax structure;
From the result of parsing, a process of extracting and assigning syntactic and semantic attributes to the discourse unit candidate and the surface layer representation of the discourse unit candidate;
Applying a discourse unit extraction rule in which matching conditions for the syntactic and semantic attributes are described for each discourse type for each discourse unit candidate for each discourse type, and a specific discourse unit from the case question sentence for each discourse type The process of extracting
A process of storing the extracted specific discourse unit as a question answer example in a database together with the example question sentence itself;
When a new question sentence is input, a process of extracting a specific discourse unit for the new question sentence in the same manner as the case question sentence;
Processing for searching a question answer example having a specific discourse unit of the same discourse type as the discourse type of the specific discourse unit for the new question sentence from the database;
It is determined that the case question sentence is similar to the new question sentence based on the similarity between specific discourse units whose discourse types match between the case question sentence in the searched question answer case and the new question sentence. Processing to
A program that executes
請求項17に記載のプログラムにおいて、
予め事例質問文中から抽出すべき特定談話単位の抽出箇所情報および談話タイプを学習用データとして入力し、形態素解析および構文解析を行った後、構文構造のうち文または節の構造に基づいて談話単位候補を生成し、また構文解析の結果より、各談話単位候補に対する構文的・意味的属性を抽出して入力し、談話タイプを出力する特定談話単位抽出モデルを学習する処理をさらに実行させ、
談話タイプごとに質問文からの特定談話単位の抽出を行う際には、前記特定談話単位抽出モデルを適用して談話単位候補から各談話タイプの特定談話単位を抽出することを特徴とするプログラム。
The program according to claim 17, wherein
Enter the location information and discourse type of a specific discourse unit that should be extracted from the case question sentence in advance as learning data, perform morphological analysis and syntactic analysis, and then use the discourse unit based on the sentence or clause structure of the syntax structure. Generate a candidate and extract and input syntactic and semantic attributes for each discourse unit candidate from the result of parsing, and further execute a process of learning a specific discourse unit extraction model that outputs the discourse type,
A program characterized in that when a specific discourse unit is extracted from a question sentence for each discourse type, a specific discourse unit of each discourse type is extracted from discourse unit candidates by applying the specific discourse unit extraction model.
請求項17に記載のプログラムにおいて、
事例質問文および新規質問文から特定談話単位の抽出を行った後、複数の特定談話単位を談話タイプに基づいて同一質問内容に関する最小単位となるような談話ブロックへの纏め上げルールである談話スキームを適用して談話ブロックへの纏め上げを行う処理をさらに実行させ、
新規質問文と事例質問文との類似度の計算においては、談話ブロックごとに新規質問文と事例質問文で談話タイプが一致する特定談話単位間の類似度に基づいて、事例質問文と新規質問文の談話ブロックが類似であることを判断することを特徴とするプログラム。
The program according to claim 17, wherein
After extracting specific discourse units from case question sentences and new question sentences, a discourse scheme is a rule that summarizes multiple specific discourse units into discourse blocks that become the minimum unit for the same question content based on discourse type To further execute the process of grouping into discourse blocks by applying
In the calculation of the similarity between the new question sentence and the case question sentence, the case question sentence and the new question are based on the similarity between the specific discourse units for which the discourse type matches in the new question sentence and the case question sentence for each discourse block. A program characterized by determining that the discourse block of sentences is similar.
請求項17に記載のプログラムにおいて、
事例質問文と新規質問文の特定談話単位の照合を行う際、同一の談話タイプの特定談話単位間の類似度と、さらに特定談話単位変形ルールを介してマッピングされる異なる談話タイプ間の特定談話単位間の類似度とによって事例質問文と新規質問文の類似度を判断することを特徴とするプログラム。
The program according to claim 17, wherein
When collating specific discourse units of case question sentences and new question sentences, the similarity between specific discourse units of the same discourse type and specific discourses between different discourse types mapped via specific discourse unit transformation rules A program characterized in that the similarity between a case question sentence and a new question sentence is judged based on the similarity between units.
請求項17に記載のプログラムにおいて、
質問文に対する回答として期待されている回答内容に関する分類である回答タイプを推定する処理を実行させ、
事例質問文と新規質問文の類似度を判断する際に、該質問文に対する質問タイプ、前記回答タイプの一致を特定談話単位間の前記構文的・意味的属性に基づく類似度と共に、事例質問文と新規質問文との類似度の判断に用いることを特徴とするプログラム。
The program according to claim 17, wherein
Execute the process of estimating the answer type, which is a classification related to the answer content expected as the answer to the question sentence,
When determining the similarity between a case question sentence and a new question sentence, the case type question sentence is matched with the similarity between the question type and the answer type for the question sentence based on the syntactic and semantic attributes between specific discourse units. A program characterized in that it is used to determine the similarity between a new question and a new question.
請求項21に記載のプログラムにおいて、
あらかじめ事例質問文とともにその回答文事例も対でデータベースに記憶しておき、前記回答タイプと事例質問文に対する事例回答文の内容との一致度を考慮することを特徴とするプログラム。
The program according to claim 21, wherein
A program characterized in that an answer sentence case is stored in a database together with a case question sentence in advance, and the degree of coincidence between the answer type and the content of the case answer sentence with respect to the case question sentence is taken into consideration.
請求項17に記載のプログラムにおいて、
質問文から談話単位候補を生成し、その中から特定談話単位を抽出する際に、談話単位候補に指示代名詞もしくは省略が含まれておりかつ指示代名詞もしくは省略の先行詞が特定談話単位外に存在する場合、照応詞や省略の先行詞による置換や補完を行うか、あるいは対象の談話単位候補と先行詞を内包するより大きな談話単位候補を代わりに特定談話単位として抽出することにより、省略要素や照応関係を補完した特定談話単位に基づいて質問文と質問事例との照合を行うことを特徴とするプログラム。
The program according to claim 17, wherein
When generating a discourse unit candidate from a question sentence and extracting a specific discourse unit from it, the discourse unit candidate includes a demonstrative pronoun or abbreviation, and a demonstrative pronoun or abbreviation antecedent exists outside the specific discourse unit In this case, substitution or complementation with an anaphor or an antecedent antecedent is performed, or a larger discourse unit candidate including the target discourse unit candidate and antecedent is extracted as a specific discourse unit A program characterized by collating a question sentence with a question example based on a specific discourse unit that complements an anaphoric relationship.
請求項17〜23のいずれか一に記載のプログラムにおいて、
事例質問文と新規質問文の特定談話単位の照合を行う際、各特定談話単位に対する構文的・意味的属性である質問事例の述部の文スタイル、テンス・アスペクト情報、ヘッド用言の意味分類、さらにヘッド用言が格要素として、主語、目的語、名詞句のいずれかを持つ場合にそれらの格要素に属する全ての形態素の表層、原型、品詞、意味分類、および格要素のヘッドかどうかの別の一致に基づいて前記類似度を求めることを特徴とするプログラム。
In the program according to any one of claims 17 to 23,
When collating the specific discourse unit of the case question sentence and the new question sentence, the syntactic and semantic attributes for each specific discourse unit are the sentence style of the predicate of the question case, tense / aspect information, and semantic classification of the head predicate In addition, if the head vocabulary has a subject, object, or noun phrase as a case element, it is the surface, prototype, part of speech, semantic classification, and case element head of all morphemes belonging to those case elements A program for obtaining the similarity based on another coincidence.
JP2005060847A 2005-03-04 2005-03-04 Retrieval system, method and program for answer to question Pending JP2006244262A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005060847A JP2006244262A (en) 2005-03-04 2005-03-04 Retrieval system, method and program for answer to question

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005060847A JP2006244262A (en) 2005-03-04 2005-03-04 Retrieval system, method and program for answer to question

Publications (1)

Publication Number Publication Date
JP2006244262A true JP2006244262A (en) 2006-09-14

Family

ID=37050606

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005060847A Pending JP2006244262A (en) 2005-03-04 2005-03-04 Retrieval system, method and program for answer to question

Country Status (1)

Country Link
JP (1) JP2006244262A (en)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010009471A (en) * 2008-06-30 2010-01-14 Nec Corp Query reply retrieval system, and method and program therefor
JP2012181685A (en) * 2011-03-01 2012-09-20 Toshiba Corp Representative sentence extraction device and program
JP2013250925A (en) * 2012-06-04 2013-12-12 Nippon Telegr & Teleph Corp <Ntt> Answer type estimation device, method and program
JP2016048463A (en) * 2014-08-27 2016-04-07 日本電信電話株式会社 Next utterance candidate ranking device, method and program
JP6190984B1 (en) * 2017-04-17 2017-08-30 株式会社バリュープレス Question answer support device and question answer support system
JP2018028925A (en) * 2017-10-04 2018-02-22 日本電信電話株式会社 Next utterance candidate ranking device, method and program
JP2018045639A (en) * 2016-09-16 2018-03-22 株式会社東芝 Dialog log analyzer, dialog log analysis method, and program
JP2018181259A (en) * 2017-04-21 2018-11-15 日本電信電話株式会社 Dialogue rule collation device, dialogue device, dialogue rule collation method, dialogue method, dialogue rule collation program, and dialogue program
WO2019098409A1 (en) * 2017-11-15 2019-05-23 (주)페르소나시스템 Machine learning based data adding device for chatbot
JP2019125145A (en) * 2018-01-16 2019-07-25 ヤフー株式会社 Device, method, and program for processing information
WO2019202787A1 (en) * 2018-04-17 2019-10-24 株式会社Nttドコモ Dialogue system
WO2020100739A1 (en) * 2018-11-15 2020-05-22 日本電信電話株式会社 Learning device, learning method and learning program
CN112131364A (en) * 2020-09-22 2020-12-25 沈阳东软智能医疗科技研究院有限公司 Question answering method, device, electronic equipment and storage medium
US11322035B2 (en) 2018-02-23 2022-05-03 Toyota Jidosha Kabushiki Kaisha Information processing method, storage medium, information processing device, and information processing system
JP2022173178A (en) * 2021-05-08 2022-11-18 ソフネック株式会社 Intended information extraction program, intended information extraction apparatus, and intended information extraction method
JP7416665B2 (en) 2020-06-12 2024-01-17 株式会社日立製作所 Dialogue system and control method for dialogue system

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01266625A (en) * 1988-04-18 1989-10-24 Nippon Telegr & Teleph Corp <Ntt> Question sentence responding processor
JPH0793364A (en) * 1993-09-24 1995-04-07 Nippon Telegr & Teleph Corp <Ntt> Sentence form converting device
JP2002278977A (en) * 2001-03-22 2002-09-27 Fujitsu Ltd Device and method for answering question and question answer program
JP2004094521A (en) * 2002-08-30 2004-03-25 Nippon Telegr & Teleph Corp <Ntt> Inquiry type learning method, learning device, inquiry type learning program, recording medium recorded with the program, recording medium recorded with learning data, inquiry type identification method and device using learning data, program, and recording medium with the program
JP2004133771A (en) * 2002-10-11 2004-04-30 Just Syst Corp Device, method, and program for question and answer

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01266625A (en) * 1988-04-18 1989-10-24 Nippon Telegr & Teleph Corp <Ntt> Question sentence responding processor
JPH0793364A (en) * 1993-09-24 1995-04-07 Nippon Telegr & Teleph Corp <Ntt> Sentence form converting device
JP2002278977A (en) * 2001-03-22 2002-09-27 Fujitsu Ltd Device and method for answering question and question answer program
JP2004094521A (en) * 2002-08-30 2004-03-25 Nippon Telegr & Teleph Corp <Ntt> Inquiry type learning method, learning device, inquiry type learning program, recording medium recorded with the program, recording medium recorded with learning data, inquiry type identification method and device using learning data, program, and recording medium with the program
JP2004133771A (en) * 2002-10-11 2004-04-30 Just Syst Corp Device, method, and program for question and answer

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010009471A (en) * 2008-06-30 2010-01-14 Nec Corp Query reply retrieval system, and method and program therefor
JP2012181685A (en) * 2011-03-01 2012-09-20 Toshiba Corp Representative sentence extraction device and program
JP2013250925A (en) * 2012-06-04 2013-12-12 Nippon Telegr & Teleph Corp <Ntt> Answer type estimation device, method and program
JP2016048463A (en) * 2014-08-27 2016-04-07 日本電信電話株式会社 Next utterance candidate ranking device, method and program
JP2018045639A (en) * 2016-09-16 2018-03-22 株式会社東芝 Dialog log analyzer, dialog log analysis method, and program
JP6190984B1 (en) * 2017-04-17 2017-08-30 株式会社バリュープレス Question answer support device and question answer support system
JP2018181033A (en) * 2017-04-17 2018-11-15 株式会社バリュープレス Inquiry responding support apparatus and inquiry responding support system
JP2018181259A (en) * 2017-04-21 2018-11-15 日本電信電話株式会社 Dialogue rule collation device, dialogue device, dialogue rule collation method, dialogue method, dialogue rule collation program, and dialogue program
JP2018028925A (en) * 2017-10-04 2018-02-22 日本電信電話株式会社 Next utterance candidate ranking device, method and program
WO2019098409A1 (en) * 2017-11-15 2019-05-23 (주)페르소나시스템 Machine learning based data adding device for chatbot
JP2019125145A (en) * 2018-01-16 2019-07-25 ヤフー株式会社 Device, method, and program for processing information
US11322035B2 (en) 2018-02-23 2022-05-03 Toyota Jidosha Kabushiki Kaisha Information processing method, storage medium, information processing device, and information processing system
WO2019202787A1 (en) * 2018-04-17 2019-10-24 株式会社Nttドコモ Dialogue system
JP7054731B2 (en) 2018-04-17 2022-04-14 株式会社Nttドコモ Dialogue system
US11663420B2 (en) 2018-04-17 2023-05-30 Ntt Docomo, Inc. Dialogue system
JPWO2019202787A1 (en) * 2018-04-17 2021-01-07 株式会社Nttドコモ Dialogue system
WO2020100739A1 (en) * 2018-11-15 2020-05-22 日本電信電話株式会社 Learning device, learning method and learning program
JP7081455B2 (en) 2018-11-15 2022-06-07 日本電信電話株式会社 Learning equipment, learning methods, and learning programs
JP2020086549A (en) * 2018-11-15 2020-06-04 日本電信電話株式会社 Learning device, learning method and learning program
JP7416665B2 (en) 2020-06-12 2024-01-17 株式会社日立製作所 Dialogue system and control method for dialogue system
CN112131364A (en) * 2020-09-22 2020-12-25 沈阳东软智能医疗科技研究院有限公司 Question answering method, device, electronic equipment and storage medium
CN112131364B (en) * 2020-09-22 2024-03-26 沈阳东软智能医疗科技研究院有限公司 Question answering method and device, electronic equipment and storage medium
JP2022173178A (en) * 2021-05-08 2022-11-18 ソフネック株式会社 Intended information extraction program, intended information extraction apparatus, and intended information extraction method
JP7312354B2 (en) 2021-05-08 2023-07-21 ソフネック株式会社 Intention information extraction program, intention information extraction device, and intention information extraction method

Similar Documents

Publication Publication Date Title
JP2006244262A (en) Retrieval system, method and program for answer to question
Jung Semantic vector learning for natural language understanding
KR102256240B1 (en) Non-factoid question-and-answer system and method
JP5936698B2 (en) Word semantic relation extraction device
Biemann et al. Text: Now in 2D! a framework for lexical expansion with contextual similarity
Halteren et al. Improving accuracy in word class tagging through the combination of machine learning systems
Anita et al. An approach to cluster Tamil literatures using discourse connectives
KR101136007B1 (en) System and method for anaylyzing document sentiment
CN110543639A (en) english sentence simplification algorithm based on pre-training Transformer language model
WO2013125286A1 (en) Non-factoid question answering system and computer program
US10460028B1 (en) Syntactic graph traversal for recognition of inferred clauses within natural language inputs
JP2011118689A (en) Retrieval method and system
Schaback et al. Multi-level feature extraction for spelling correction
Sidorenko Sentiment analysis of german twitter
CN113157887A (en) Knowledge question-answering intention identification method and device and computer equipment
Rosset et al. The LIMSI participation in the QAst track
Rolih Applying coreference resolution for usage in dialog systems
Xu et al. Incorporating Feature-based and Similarity-based Opinion Mining-CTL in NTCIR-8 MOAT.
Gholami-Dastgerdi et al. Part of speech tagging using part of speech sequence graph
Specia et al. A hybrid approach for relation extraction aimed at the semantic web
Meguellati et al. Feature selection for location metonymy using augmented bag-of-words
Schindler Argumentative relation classification for argumentative dialogue systems
Preiss Probabilistic word sense disambiguation: Analysis and techniques for combining knowledge sources
Ahlenius Automatic pronoun resolution for Swedish
CN110008307B (en) Method and device for identifying deformed entity based on rules and statistical learning

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080213

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100421

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100427

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100628

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20101116