JP2010009471A - Query reply retrieval system, and method and program therefor - Google Patents
Query reply retrieval system, and method and program therefor Download PDFInfo
- Publication number
- JP2010009471A JP2010009471A JP2008170555A JP2008170555A JP2010009471A JP 2010009471 A JP2010009471 A JP 2010009471A JP 2008170555 A JP2008170555 A JP 2008170555A JP 2008170555 A JP2008170555 A JP 2008170555A JP 2010009471 A JP2010009471 A JP 2010009471A
- Authority
- JP
- Japan
- Prior art keywords
- answer
- question
- sentence
- keyword
- case
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 230000010365 information processing Effects 0.000 claims description 2
- 230000001747 exhibiting effect Effects 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 15
- 230000002159 abnormal effect Effects 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 3
- 230000000877 morphologic effect Effects 0.000 description 2
Images
Abstract
Description
本発明は質問回答検索システム及びその方法とプログラムに関する。 The present invention relates to a question answer search system, method and program thereof.
企業のコンタクトセンターのオペレータ等は、顧客からの電話や電子メールでの問い合わせに対して適切な回答が求められる。コンタクトセンターのオペレータの応対記録は、顧客からの質問とオペレータの回答との対を記録した事例データベースとして蓄積される。このような事例データベースから参考となる回答を検索できる質問回答システムがあれば、オペレータの回答内容の品質向上や応対時間の短縮が期待できる。 An operator of a company contact center or the like is required to respond appropriately to inquiries from customers by telephone or e-mail. The contact center operator record is stored as a case database in which pairs of questions from customers and operator responses are recorded. If there is a question answering system that can search for a reference answer from such a case database, it can be expected to improve the quality of the answer contents of the operator and shorten the response time.
事例データベースを用いた質問回答システムは、従来から提案されている。これらは、利用者が質問文を入力すると、その質問文と類似度が高い事例データベースに格納された質問文を検出し、その回答文を回答候補として利用者に提示する。例えば、特許文献1は、類似度を計算する際に、精密な言語解析を用いて入力された質問文と事例データベースの質問文とを比較することを特徴としている。
従来の質問回答システムの課題は、入力された質問文だけでは必ずしも回答が十分に特定できないことである。例えば、図1のように「紙詰まり」を質問文として障害事例データベースを検索した結果、質問文が類似する(「紙詰まり」を含む)5つの事例の回答文が回答候補として検索されたとする。ここで、障害事例データベースには障害の現象と原因のペアが格納されており、質問文を検索するのは現象文、回答候補として提示するのは原因文である。この例から、「紙詰まり」という現象だけでは、その障害の原因が「LDユニット」にあるのか「ピックローラ」にあるのかが明らかではなく、質問文に対する回答が十分に特定できない。 The problem with conventional question answering systems is that the answers cannot always be specified sufficiently by the input question text alone. For example, as shown in FIG. 1, as a result of searching the failure case database using “paper jam” as a question sentence, answer sentences of five cases similar to the question sentence (including “paper jam”) are searched as answer candidates. . Here, pairs of failure phenomena and causes are stored in the failure case database, and a question sentence is searched for a phenomenon sentence, and a cause sentence is presented as an answer candidate. From this example, the phenomenon of “paper jam” alone does not reveal whether the cause of the failure is in the “LD unit” or the “pick roller”, and the answer to the question cannot be specified sufficiently.
そこで、本発明は上記課題に鑑みて発明されたものであって、入力された質問文からでは回答が絞り込めない場合に、適切な絞込みキーワードを提示し、回答の特定を支援する質問回答検索システム及びその方法とプログラムを提供することにある。 Therefore, the present invention has been invented in view of the above problems, and in the case where answers cannot be narrowed down based on an inputted question sentence, an appropriate narrowing keyword is presented, and a question answer search that supports the identification of answers It is to provide a system and method and program thereof.
上記課題を解決する本発明は、質問文と回答文との対を含む事例が記憶された事例データベースと、前記事例の質問文に含まれるキーワードの重要度を前記質問文の対の回答文同士の類似度を用いて計算し、前記重要度に基づいて、問い合わせ文に対する回答を絞り込む為の絞込みキーワードを前記キーワードから選択する絞込みキーワード選択手段とを有する質問回答検索システムである。 The present invention for solving the above-mentioned problems is a case database in which a case including a pair of a question sentence and an answer sentence is stored, and the importance of a keyword included in the question sentence of the case is determined between the answer sentences of the question sentence pair. And a narrowed keyword selection means for selecting a narrow keyword for narrowing down answers to a query sentence from the keywords based on the degree of importance.
上記課題を解決する本発明は、質問文と回答文との対を含む事例の質問文に含まれるキーワードの重要度を前記質問文の対の回答文同士の類似度を用いて計算し、前記重要度に基づいて、問い合わせ文に対する回答を絞り込む為の絞込みキーワードを前記キーワードから選択する質問回答検索方法である。 The present invention for solving the above problem is to calculate the importance of a keyword included in a question sentence of a case including a pair of a question sentence and an answer sentence using the similarity between the answer sentences of the question sentence pair, This is a question answer search method in which a narrow-down keyword for narrowing down answers to an inquiry sentence is selected from the keywords based on importance.
上記課題を解決する本発明は、質問文と回答文との対を含む事例の質問文に含まれるキーワードの重要度を前記質問文の対の回答文同士の類似度を用いて計算する処理と、前記重要度に基づいて、問い合わせ文に対する回答を絞り込む為の絞込みキーワードを前記キーワードから選択する処理とを情報処理装置に実行させるプログラムである。 The present invention for solving the above-described problem is a process of calculating the importance of a keyword included in a question sentence of a case including a pair of a question sentence and an answer sentence using the similarity between the answer sentences of the question sentence pair; A program for causing the information processing apparatus to execute a process of selecting, from the keywords, a narrowing keyword for narrowing down answers to the inquiry sentence based on the importance.
本発明は、入力された質問文からでは回答が十分に特定できない(絞り込めない)場合に、回答を絞り込むキーワードを提示することにより、回答の特定を支援することができる。 The present invention can support the identification of an answer by presenting a keyword for narrowing down an answer when the answer cannot be sufficiently identified from the input question text (cannot be narrowed down).
本発明を実施するための最良の形態について図面を参照して詳細に説明する。 The best mode for carrying out the present invention will be described in detail with reference to the drawings.
まず、本発明の実施の形態の概要を説明する。 First, an outline of an embodiment of the present invention will be described.
例えば、質問文として「紙詰まり」が入力されたとする。事例検索手段は、図1のように質問文に「紙詰まり」を含む事例を検索する。その結果、ID1からID5の五つの事例が得られたとする。 For example, it is assumed that “paper jam” is input as a question sentence. The case search means searches for cases including “paper jam” in the question sentence as shown in FIG. As a result, five cases of ID1 to ID5 are obtained.
次に、絞込みキーワード選択手段は、事例検索手段により得られた事例の質問文に含まれるキーワードの重要度を、質問文と対の回答文同士の類似度を用いて計算する。ここでは、質問文に含まれる自立語をキーワードとすると、5つの事例では、「紙詰まり」、「頻発」、「印字」、「薄い」、「最近」、「思う」等が該当する。これらのすべてのキーワードの重要度を、そのキーワードを含む事例の回答文同士の類似度の平均値によって求める。例えば、図2のようにキーワード「薄い」の重要度を計算する際には、「薄い」を含むID1からID3の回答文間の類似度sim(1,2), sim(1,3), sim(2,3)の平均値を求める。同様に、図3のように「印字」の重要度を計算する際には、「印字」を含むID1からID5の回答文間の類似度の平均値を求める。類似度の計算の方法は後述するが、ここでは、回答文間の類似度の平均値(重要度)が、「薄い」は0.78、「印字」は0.43であったとする。 Next, the narrow-down keyword selection unit calculates the importance of the keyword included in the question sentence of the case obtained by the case search unit using the similarity between the answer sentence paired with the question sentence. Here, if the independent word included in the question sentence is a keyword, “paper jam”, “frequent occurrence”, “printing”, “light”, “recent”, “think”, and the like correspond to the five cases. The importance of all these keywords is obtained by the average value of the similarities between the answer sentences of the cases including the keyword. For example, as shown in FIG. 2, when calculating the importance of the keyword “light”, the similarity between the answer sentences ID1 to ID3 including “light” sim (1,2), sim (1,3), Find the average value of sim (2,3). Similarly, when calculating the importance of “printing” as shown in FIG. 3, the average value of the similarity between the answer sentences ID1 to ID5 including “printing” is obtained. A method of calculating the similarity will be described later. Here, it is assumed that the average value (importance) of the similarity between the answer sentences is 0.78 for “light” and 0.43 for “print”.
絞込みキーワード選択手段は、重要度の順にあらかじめ指定された個数、又は重要度が閾値以上のキーワードを、絞込みキーワードとして選択して利用者に提示する。 The narrowed keyword selection means selects a number specified in advance in the order of importance or a keyword having an importance level equal to or higher than a threshold as a narrow keyword and presents it to the user.
利用者は、提示された絞込みキーワードを見て、「紙詰まり」以外にも「(印字が)薄い」、「異常音」等の絞込みキーワードに該当する障害が発生しているかを確認し、もし発生している場合は、その絞込みキーワードを含めた質問文で再度検索することで、回答の特定(絞り込み)が可能となる。図4、5は絞込みキーワードとそれに対応する事例とを表示したものであり、図4は絞込みキーワード「(印字が)薄い」とこれに対応する事例とを表示したものであり、図5は絞込みキーワード「異常音」とこれに対応する事例とを表示したものである。 The user looks at the presented refinement keywords and confirms that there is a failure corresponding to the refinement keywords such as “(Light)” and “Abnormal sound” in addition to “Paper jam”. If it has occurred, it is possible to identify (narrow down) the answers by searching again with the question sentence including the narrowed keyword. 4 and 5 show the narrowing keywords and the corresponding cases, and FIG. 4 shows the narrowing keyword “(printed) is light” and the corresponding cases, and FIG. 5 shows the narrowing. The keyword “abnormal sound” and a corresponding example are displayed.
キーワードの重要度を、それを含む文書間の類似度に基づいて計算する方法は、Term Strengthと呼ばれ文献1(Wilbur, J.W. and Sirotkin, K., The automatic identification of stop words, Journal of Information Science, 18, pp.45-55, 1992.)で提案されている。キーワードの主題になりやすさ(≒キーワードの役割の文書での重要性≒不要語になりにくさ)を図る指標で、キーワードが文書の主題に近いほど、キーワードを含む対象文書の内容は類似しやすいという性質に基づく。上記の文献1と本実施の形態との違いは、文献1をそのまま適用すると、質問文に含まれるキーワードの重要度をその質問文同士の類似度に基づいて計算することになるが、本実施の形態は質問文に含まれるキーワードの重要度をその回答文同士の類似度に基づいて計算している点である。この違いにより、入力された質問文からでは回答が十分に特定できない(絞り込めない)場合に、回答を特定しやすい(回答間の類似度が高い)絞込みキーワードを提示することができるという新たな効果を有する。
A method for calculating the importance of a keyword based on the similarity between documents including the keyword is called Term Strength, which is referred to in Reference 1 (Wilbur, JW and Sirotkin, K., The automatic identification of stop words, Journal of Information Science. , 18, pp.45-55, 1992.). This is an index that aims at the ease of becoming the subject of a keyword (≒ importance of the keyword role in a document ≒ less likely to become an unnecessary word) .The closer the keyword is to the subject of the document, the more similar the content of the target document containing the keyword. Based on the nature of being easy. The difference between the
直感的には、事例の質問文の内容と回答文の内容とには相関があるため、事例の質問文同士が類似すれば回答文同士も類似し、文献1の方法でも本実施の形態と同様の効果を得られるとも考えられる。しかしながら、図1の例のように、質問文には非常に細かく障害の現象が記載され、その中には回答の特定に無関係な部分(自立語)も多い。そのため、回答文が類似するが質問文が類似しない場合がある。また、質問文同士が類似していても、それら事例の質問文が非常に抽象的な内容である場合、回答文同士は類似するとは限らない。このような、質問文の内容と回答文の内容とに相関が無い場合に有効である。 Intuitively, there is a correlation between the contents of the question sentences in the case and the contents of the answer sentences. Therefore, if the question sentences in the case are similar, the answer sentences are also similar. It is considered that the same effect can be obtained. However, as in the example of FIG. 1, the phenomenon of failure is described very finely in the question sentence, and there are many parts (independent words) that are irrelevant to the identification of the answer. Therefore, there are cases where the answer sentences are similar but the question sentences are not similar. Even if the question sentences are similar to each other, the answer sentences are not necessarily similar if the question sentences in these cases have very abstract contents. This is effective when there is no correlation between the content of the question text and the content of the answer text.
次に、具体的な第1の実施の形態を説明する。 Next, a specific first embodiment will be described.
図6を参照すると、本実施の形態における質問回答検索システムは、プログラム制御により動作するデータ処理装置1と、情報を記憶する記憶装置2と、キーボード等の入力装置3、ディスプレイ等の出力装置4とを含む。
Referring to FIG. 6, the question answer search system according to the present embodiment includes a
質問回答検索システムは、上記の四つの装置が一つのハードウェア上で実装される場合と、データ処理装置1と記憶装置2とがサーバ上に存在し、入力装置3と出力装置4とがクライアント上の別の装置に存在する場合がある。後者では、クライアント上の入力装置3から入力した情報は、ネットワークを介してサーバ上のデータ処理装置1に送信され、サーバ上のデータ処理装置1で出力した情報は、ネットワークを介してクライアント上の出力装置4に送信される。
In the question answer search system, when the above four devices are mounted on one hardware, the
データ処理装置1は、事例検索部10と、絞込みキーワード選択部11と、表示部12とを含む。
The
事例検索部10は、入力装置3を通して入力された質問文と事例データベース20の質問文とが類似する事例を事例データベース20から検索し、その結果を事例ID記憶部21に格納する。
The
絞込みキーワード選択部11は、事例ID記憶部21と事例データベース20とを参照して、事例検索部10により得られた事例の質問文に含まれるキーワードの重要度を、その回答文同士の類似度を用いて計算する。そして、重要度の順にあらかじめ指定された個数あるいは重要度が閾値以上のキーワードを、絞込みキーワードとして選択し、絞込みキーワード記憶部22に格納する。
The refinement
表示手段12は、絞込みキーワード記憶部22と事例データベース20とを参照して、絞込みキーワード選択部11により得られた絞込みキーワードと、これを含む事例検索部10により得られた事例を出力装置4に送信する。
The display unit 12 refers to the refined keyword storage unit 22 and the case database 20, and displays the refined keyword obtained by the refined
記憶装置2は、事例データベース20と、事例ID記憶部21と、絞込みキーワード記憶部22とを含む。記憶装置2は通常、HDD等の補助記憶装置で実現されるが、メモリであってもよい。また、事例データベース20と、事例ID記憶部21と、絞込みキーワード記憶部22とは、記憶装置2に全て含まれて居なくても良く。異なる場所にあっても良い。
The
事例データベース20において、ひとつの事例は質問文と回答文との対を含み、各事例にはその事例を識別する事例IDが付与されている。 In the case database 20, one case includes a pair of a question sentence and an answer sentence, and each case is given a case ID for identifying the case.
事例ID記憶部21は、事例検索部10により得られた事例IDを格納する。
The case
絞込みキーワード記憶部22は、絞込みキーワード選択部11が選択した絞込みキーワードを格納する。
The refinement keyword storage unit 22 stores refinement keywords selected by the refinement
次に、図7を参照して本実施の形態の動作について詳細に説明する。尚、事例データベース10には障害事例データが格納され、個々の事例は、質問文に該当する「障害の現象」と回答文に該当する「障害の原因」との対で構成されている場合を例にして説明する。また、事例データベース10の質問文と回答文とはあらかじめ形態素解析によって単語に分割し、自立語のみを抜き出して記憶装置2に格納されているものとする。
Next, the operation of the present embodiment will be described in detail with reference to FIG. Note that failure case data is stored in the
まず、事例検索部10は、入力装置3を通して入力された質問文と事例データベース20の質問文とが類似する事例を事例データベース20から検索し、その結果を事例ID記憶部21に格納する(図7のステップS1)。
First, the
質問文は「紙詰まり」のような語入力と、「紙詰まりが発生する」のような文入力とがある。語入力の場合は、その語を質問文に含む事例を検索する。「紙詰まり 発生」のように複数の語が入力された場合(スペースは語の区切り)は、すべての語を含む事例を検索する。文入力の場合は、形態素解析を用いて自立語のみを抜き出し、その語は語入力と同様である。ここでは、入力装置3から「紙詰まり」が語入力され、「紙詰まり」を質問文に含む事例として、図8のID1からID5を事例データベース20から検索し、事例ID記憶部21に格納したものとする。
The question sentence includes a word input such as “paper jam” and a sentence input such as “paper jam occurs”. In the case of word input, a case that includes the word in the question sentence is searched. When a plurality of words are input as in the case of “paper jam occurrence” (space is a word separator), a case including all words is searched. In the case of sentence input, only independent words are extracted using morphological analysis, and the words are the same as word input. Here, “paper jam” is input from the input device 3, ID1 to ID5 of FIG. 8 are searched from the case database 20 as examples including “paper jam” in the question sentence, and stored in the case
次に、絞込みキーワード部11は、事例ID記憶部21と事例データベース20とを参照して、事例検索部10により得られた事例の質問文に含まれるキーワードの重要度を、その回答文同士の類似度を用いて計算し、重要度の順にあらかじめ指定された個数あるいは重要度が閾値以上のキーワードを絞込みキーワードとして、絞込みキーワード記憶部22に格納する(図7のステップS2)。
Next, the
質問文に含まれるキーワードとは、ここでは質問文に含まれる自立語を表す。事例検索部10により得られたID1からID5の事例の質問文と回答文とに含まれる自立語を図9に示す。「異常音」、「薄い」、「印字」、「紙詰まり」、「発生」、「思う」、「途中」、「電源」、「頻発」、「大きい」、「UNIT」、「最近」、「おこる」、「投入」が重要度計算の対象となるキーワードである。
Here, the keyword included in the question sentence represents an independent word included in the question sentence. FIG. 9 shows independent words included in the question sentence and the answer sentence of the cases ID1 to ID5 obtained by the
キーワードの重要度は、回答文同士の類似度を用いて計算する。具体的には、図10の(式1)に示すように、キーワードNの重要度Score(N)を、事例検索手段で得られた事例でかつ、質問文にNを含む事例D_Nの中から選んだ2つの回答文の類似度sim(d_i,d_j)の全ての組み合わせを計算し、その平均値を求める。組み合わせの数は、|D_N|に対して|D_N|x(|D_N|-1)/2となる。尚、キーワードの重要度を計算する方法は(式2)以降に示すように様々な形態が存在するが、後述する。 The importance of the keyword is calculated using the similarity between the answer sentences. Specifically, as shown in FIG. 10 (Equation 1), the importance score Score (N) of the keyword N is selected from the cases D_N that are examples obtained by the case search means and include N in the question sentence. All combinations of similarity sim (d_i, d_j) of the two selected answer sentences are calculated, and the average value is obtained. The number of combinations is | D_N | x (| D_N | -1) / 2 with respect to | D_N |. There are various methods for calculating the importance of the keyword, as will be described later.
図11の(式5)にsim(d_i,d_j)の計算式を示す。sim(d_i,d_j)は一般にcosine類似度と呼ばれる計算方法である。(式5)において事例dに含まれる語(自立語)tの重みw(d,t)は(式6)または(式7)の方法で計算する。(式6)はどの語の重みも常に1で一定であり、(式7)はtのdにおける出現回数tf(d,t)と、tの出現事例数df(t)の逆数の積により求める。尚、sim(d_i,d_j)の計算方法は、cosine類似度以外でも、2文書間の類似度を計算するどのような方式も適用できる。例えば、Jaccard係数やdice係数であっても良い。 FIG. 11 (Formula 5) shows a calculation formula of sim (d_i, d_j). sim (d_i, d_j) is a calculation method generally called cosine similarity. In (Expression 5), the weight w (d, t) of the word (independent word) t included in the case d is calculated by the method of (Expression 6) or (Expression 7). In (Equation 6), the weight of every word is always 1 and (Equation 7) is the product of the number of occurrences tf (d, t) of t in d and the inverse of the number of occurrences df (t) of t. Ask. Note that the calculation method of sim (d_i, d_j) can be applied to any method for calculating the similarity between two documents other than the cosine similarity. For example, a Jaccard coefficient or a dice coefficient may be used.
キーワードNの重要度の計算例を図12に示す。図12の(a)は、文書検索部10により得られた図8のID1からID5の事例の質問文に含まれるキーワード「薄い」のスコアScore(薄い)を計算している。「薄い」はID1-ID3の3つの事例の質問文に含まれるため類似度はsim(1,2), sim(1,3), sim(2,3)の3通りあり、これらの平均値を求める。図12の(b)は、sim(d_i,d_j)の計算例として、sim(1,2)を計算している。それぞれのw(d,t)の値は図12の(c)のように計算する。例えば、ID1の事例で「LD」は1回出現し、「LD」は5事例中3事例で出現するので、1*log(5/3)=1.42となる。
An example of calculating the importance of the keyword N is shown in FIG. FIG. 12A calculates the score Score (thin) of the keyword “thin” included in the question sentences of the examples ID1 to ID5 in FIG. 8 obtained by the
図13に、事例検索部10により得られた図8の事例の質問文に含まれるキーワードの重要度を計算した結果を示す。図10の(式1)は、キーワードを含む事例の数|D_N|が1のとき分母が0になるため計算できない。そのため|D_N|=1のキーワードは0としている。絞込みキーワード選択部11は、得られた重要度の順にあらかじめ指定された個数あるいは重要度が閾値以上のキーワードを絞込みキーワードとして、絞込みキーワード記憶部22に格納する。例えば、重要度が0.7以上のキーワードを絞込みキーワードとするとした場合は、「異常音」「薄い」の2つが絞込みキーワードとして絞込みキーワード記憶部22に格納される。この際、絞込みキーワード記憶部22には図14のように絞込みキーワードとそれを含む事例IDを対応付けて登録しておく。
FIG. 13 shows the result of calculating the importance of the keyword included in the question sentence of the case of FIG. 8 obtained by the
最後に表示手段12は、絞込みキーワード記憶部21と事例データベース20とを参照して、絞込みキーワード選択部11により得られた絞込みキーワードと事例検索部10により得られた事例を出力装置4に送信する(図7のステップS3)。
Finally, the display unit 12 refers to the narrowed
図14のように絞込みキーワード記憶部22には、「異常音」、「薄い」とそれぞれを含む事例検索部10で得られた事例IDの対応が格納されているので、その内容を出力装置4に送信すればよい。
As shown in FIG. 14, the narrowed keyword storage unit 22 stores correspondences of case IDs obtained by the
以上、本実施の形態の動作を説明した。図7のステップS2において事例検索部10により得られた事例の質問文に含まれるキーワードの重要度を、その回答文同士の類似度を用いて計算した。上記では特に、その具体的な実現方式として図10の(式1)を用いたが、そのほかにも実現方式が存在する。
The operation of the present embodiment has been described above. The importance of the keyword included in the question text of the case obtained by the
図10の(式2)の実現方式では、キーワードNの重要度Score(N)は、事例検索部10で得られた事例でかつ、質問文にキーワードを含む事例D_Nの回答文の中心を求めた後、それぞれの回答文とその回答文の中心の類似度sim(d_i,d_DN)の平均値を求めることによって得る。回答文の中心は、D_Nの回答文を全て連結することにより求める。例えば、図8のID1からID5の回答文の中心は「LDユニットが故障していました/LDユニットを交換。/LDユニットの故障。交換/ピックローラ不良。/どうやらピックローラの故障のようでした」となる(“/”は回答文の区切り)。(式1)では、D_Nの2つ回答文の類似度の全ての組み合わせを求める必要があるが、(式2)はそれぞれの回答文と回答文の中心の類似度のみを計算すればよいので、(式1)よりも高速に実現できる。
In the realization method of (Equation 2) in FIG. 10, the importance Score (N) of the keyword N is the case obtained by the
図10の(式3)の実現方式では、キーワードNの重要度Score(N)を、(式1)の値からその出現事例数を有するキーワードの重要度の期待値E[Score(N)]の値を引くことによって得る。例えば、文書検索手段により得られた図8の事例において「薄い」はID1-ID3の3つの質問文で現れる。「薄い」のスコアを(式1)の方法で求め、さらに3つの質問文で現れるキーワードの(式1)のスコアの期待値を求め、両者の差を求める。(式1)の性質上、出現事例数が小さなキーワードほどスコアが高くなり、逆に出現事例数が高いキーワードほどスコアは低くなる全体傾向がある。そのため、(式1)をそのまま適用すると、出現事例数が小さいキーワードが過大評価されてしまう。(式3)のように、期待値の値を引くことによってこの問題を解消可能である。 In the realization method of (Equation 3) in FIG. 10, the importance score Score (N) of the keyword N is changed from the value of (Equation 1) to the expected value E [Score (N)] of the importance of the keyword having the number of appearance cases. By subtracting the value of For example, in the case of FIG. 8 obtained by the document search means, “thin” appears in three question sentences ID1 to ID3. The “thin” score is obtained by the method of (Equation 1), the expected value of the score of (Equation 1) of the keyword appearing in the three question sentences is obtained, and the difference between the two is obtained. Due to the nature of (Equation 1), there is a general tendency that a keyword with a smaller number of appearance cases has a higher score and a keyword with a higher number of appearance cases has a lower score. Therefore, if (Equation 1) is applied as it is, a keyword with a small number of appearance cases will be overestimated. As shown in (Expression 3), this problem can be solved by subtracting the expected value.
図10の(式4)の実現方式は、(式1)の代わりに(式2)を用いる点以外は、(式3)と同様である。 The implementation method of (Expression 4) in FIG. 10 is the same as (Expression 3) except that (Expression 2) is used instead of (Expression 1).
図15の(式9)から(式12)は、事例検索部10により得られた事例の質問文に含まれるキーワードの重要度を、その回答文同士の類似度を用いることに加え、その出現事例数を用いる点で(式1)から(式4)と異なる。この実装方法により、回答を特定しやすいキーワードであると同時に、利用者の質問を具体化できる可能性が高いキーワードを応対キーワードとして提示することが可能になる。(式9)から(式12)で出現事例数|D_N|の項に対数logが付与されているのは、出現事例数の影響を小さくするためである。無論logを付与しなくても良い。
(Equation 9) to (Equation 12) in FIG. 15 show the importance of the keywords included in the question sentence of the case obtained by the
質問回答検索システムは利用者に絞込みキーワードを提示し、利用者は提示された絞込みキーワードが初期に入力した質問文を具体化できるのであれば、その絞込みキーワードを含めた質問文で新たに検索する。例えば、初期の質問文「紙詰まり」に対して「薄い」「異常音」を絞込みキーワードとして提示された場合、利用者は「紙詰まり」に加えて「(印字が)薄い」、「異常音」といった現象が発生していないかを調査する。その結果、もし「(印字が)薄い」が発生している場合は、「薄い」と「紙詰まり」とで新たに事例を検索する。ここで、もし「薄い」を含む事例が3件、「異常音」を含む事例が1件であれば、「薄い」ほうが「異常音」よりも実際に発生している可能性が高いといえる。このように、出現事例数を考慮することで、利用者が質問を具体化できる可能性が高いキーワードを応対キーワードとして提示することができるようになる。 The question answer search system presents the narrowed keyword to the user, and if the user can materialize the question text that was initially input by the narrowed keyword, the search is newly performed with the question sentence including the narrowed keyword. . For example, when the initial question sentence “paper jam” is presented as a keyword that narrows “light” and “abnormal sound”, the user can add “(paper) light” and “abnormal sound” in addition to “paper jam”. ”Is investigated whether a phenomenon such as“ As a result, if “(printing) is thin” occurs, a new case is searched for “thin” and “paper jam”. Here, if there are 3 cases including “thin” and 1 case including “abnormal sound”, it can be said that “thin” is more likely to actually occur than “abnormal sound”. . In this way, by considering the number of appearance cases, it is possible to present a keyword with a high possibility that the user can materialize the question as a response keyword.
図16の(式13)と(式14)は、事例検索部10により得られた事例の質問文に含まれるキーワードの重要度を、その回答文同士の類似度に加えてその質問文同士の類似度を用いる点で(式1)から(式4),(式9)から(式12)と異なる。(式13)と(式14)とにおけるQScore(N)では、質問文を対象として(式1)から(式4),(式9)から(式12)のScore(N)を計算する。すなわち、|D_N|をNを質問文に含む事例集合, sim(d_1,d_2)を質問文d_1と質問文d_2の間の類似度と置き換え計算すればよい。AScore(N)は(式1)-(式4),(式9)-(式12)のScore(N)と同様である。
(Equation 13) and (Equation 14) in FIG. 16 show the importance of keywords included in the question sentence of the case obtained by the
ある質問に対する正解の回答が複数存在する場合、回答文同士の類似度を利用すると、それらの回答を特定するキーワードの重要度は必ずしも高くならない。一方、質問文の内容と回答文の内容には一定の相関があるので、質問文同士の類似度が高ければ、回答文同士の類似度が高くなくても回答を特定するキーワードである可能性が高くなる。そのため、質問文同士の類似度も合わせて用いる。 When there are a plurality of correct answers to a certain question, if the similarity between the answer sentences is used, the importance of the keyword for identifying those answers does not necessarily increase. On the other hand, there is a certain correlation between the content of the question text and the content of the answer text, so if the similarity between the question texts is high, it may be a keyword that identifies the answer even if the similarity between the answer texts is not high Becomes higher. Therefore, the similarity between question sentences is also used.
他の実施の形態を説明する。 Another embodiment will be described.
ここまでは、一つの質問文と一つの回答文との対から構成されている事例を用いていたが、事例の中には、一つの質問文と複数の回答文の対から構成されているものもある。例えば、Web上のQAサイトでは、図17のように、利用者がWebを通して質問文を登録すると、それに対する回答文が他の利用者から登録される。登録された回答文のうち一つが最良の回答文に選ばれる。現在、QAサイトとして有名なものとして、「Yahoo知恵袋」(http://chiebukuro.yahoo.co.jp/)、「教えてgoo」(http://oshiete.goo.ne.jp/)、「OKWave」(http://okwave.jp/)が存在する。 Up to this point, we have used cases that consist of pairs of one question sentence and one answer sentence, but some cases consist of pairs of one question sentence and multiple answer sentences. There are also things. For example, in a QA site on the Web, as shown in FIG. 17, when a user registers a question sentence through the Web, an answer sentence to that is registered from another user. One of the registered answer sentences is selected as the best answer sentence. Currently known as QA sites are Yahoo Wisdom Bag (http://chiebukuro.yahoo.co.jp/), Teach Goo (http://oshiete.goo.ne.jp/), OKWave "(http://okwave.jp/) exists.
このような一つの質問文と複数の回答文との対を含む事例に対する本発明の適用方法を説明する。最も単純な方法は、複数の回答文のうちあらかじめ選択された最良の回答文を用いて絞込みキーワード選択部11を実行することである。この場合、実質的には、一つの質問文と一つの回答文との対から構成されているとみなすことができる。
A method of applying the present invention to an example including a pair of such one question sentence and a plurality of answer sentences will be described. The simplest method is to execute the narrow-down
別の方法として、一つの質問文に対してn個の回答文の対を含む事例を、一つの質問文に対して一つの回答文を含むn個の事例に展開してから絞込みキーワード部11を適用することである。例えば、{Q1,{A1,A2}}からなる事例を{Q1,A1}{Q1,A2}に展開する。ここで、{Q1,{A1,A2}}とは、質問文Q1と2つの回答文A1,A2からなる一つの事例を、質問文Q1と回答文A1、および、質問文Q1と回答文A2の2つの事例に展開することを表す。
As another method, a narrowed
さらに別の方法として、一つの質問文に対する複数の回答文の中心を求めてから絞込みキーワード部11を実行することである。この場合、実質的には、一つの質問文と一つの回答文の対から構成されているとみなすことができる。中心の求め方については、図10の(式2)の時と同様に複数の回答文を全て連結することにより求めればよい。
As yet another method, the narrowed-down
さらに別の方法として、絞込みキーワード部11が、事例検索部10により得られた事例の質問文に含まれるキーワードの重要度を、事例の回答文同士の類似度を用いて計算する際に、事例の複数の回答文と事例の複数の回答文の全ての組み合わせの類似度を求め、その最小値または最大値または平均値を事例の回答文同士の類似度とする方法がある。例えば、事例A{Q1, {A1,A2} , 事例B{Q2, {A3,A4}}において、事例Aと事例Bの回答文同士の類似度をsim(A1,A3), sim(A1,A4), sim(A2,A3), sim(A2,A4)の最小値、最大値、又は平均値によって求める。
As another method, when the
本実施の形態の効果は、入力された質問文からでは回答が十分に特定できない(絞り込めない)場合に、回答を特定しやすい応対キーワードを提示することにより、回答の特定を支援することが可能になることである。その理由は、事例検索部10により得られた事例の質問文に含まれるキーワードの重要度を、その回答文同士の類似度を用いて計算し、重要度の順にあらかじめ指定された個数あるいは重要度が閾値以上のキーワードを絞込みキーワードとする絞込みキーワード部11を有するためである。
The effect of this embodiment is to support the identification of answers by presenting response keywords that make it easy to identify answers when the answers cannot be sufficiently identified from the input question text (cannot be narrowed down). It is possible. The reason is that the importance of keywords included in the question text of the case obtained by the
本発明の質問回答検索システムは、コンタクトセンターのオペレータが受けた顧客からの問い合わせを正確に早く回答するために、蓄積された事例データベースから参考となる回答を検索する際に利用できる。また、WebのQAサイトにおいて、利用者が参考となるQAを検索する際に利用できる。 The question answer search system according to the present invention can be used when searching for a reference answer from an accumulated case database in order to quickly and accurately answer a customer inquiry received by an operator of a contact center. It can also be used to search for QA for users to reference on the Web QA site.
1 データ処理装置
2 記憶装置
3 入力装置
4 出力装置
10 事例検索部
11 絞込みキーワード選択部
12 表示部
20 事例データベース
21 事例ID記憶部
22 絞込みキーワード記憶部
DESCRIPTION OF
Claims (33)
前記事例の質問文に含まれるキーワードの重要度を前記質問文の対の回答文同士の類似度を用いて計算し、前記重要度に基づいて、問い合わせ文に対する回答を絞り込む為の絞込みキーワードを前記キーワードから選択する絞込みキーワード選択手段と
を有する質問回答検索システム。 A case database that stores cases containing pairs of question and answer sentences;
The importance of the keyword included in the question sentence of the case is calculated using the similarity between the answer sentences of the question sentence pairs, and the narrow-down keyword for narrowing down the answer to the inquiry sentence based on the importance is A question answer search system having narrowed keyword selection means for selecting from keywords.
前記重要度に基づいて、問い合わせ文に対する回答を絞り込む為の絞込みキーワードを前記キーワードから選択する処理と
を情報処理装置に実行させるプログラム。 A process of calculating the importance of a keyword included in a question sentence of a case including a pair of a question sentence and an answer sentence using the similarity between the answer sentences of the question sentence pair;
A program for causing an information processing apparatus to execute a process of selecting a narrow-down keyword for narrowing down answers to an inquiry sentence from the keyword based on the importance.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008170555A JP5311002B2 (en) | 2008-06-30 | 2008-06-30 | Question answer search system, method and program thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008170555A JP5311002B2 (en) | 2008-06-30 | 2008-06-30 | Question answer search system, method and program thereof |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010009471A true JP2010009471A (en) | 2010-01-14 |
JP5311002B2 JP5311002B2 (en) | 2013-10-09 |
Family
ID=41589850
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008170555A Expired - Fee Related JP5311002B2 (en) | 2008-06-30 | 2008-06-30 | Question answer search system, method and program thereof |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5311002B2 (en) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9552415B2 (en) | 2011-03-18 | 2017-01-24 | Fujitsu Limited | Category classification processing device and method |
JP2017511922A (en) * | 2015-01-14 | 2017-04-27 | バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド | Method, system, and storage medium for realizing smart question answer |
JP6190984B1 (en) * | 2017-04-17 | 2017-08-30 | 株式会社バリュープレス | Question answer support device and question answer support system |
JP2018060402A (en) * | 2016-10-06 | 2018-04-12 | 富士通株式会社 | Information generation program, information generation apparatus, and information generation method |
JP2018128869A (en) * | 2017-02-08 | 2018-08-16 | 日本電信電話株式会社 | Search result display device, search result display method, and program |
WO2018186445A1 (en) * | 2017-04-06 | 2018-10-11 | 株式会社Nttドコモ | Dialogue system |
JP2019020774A (en) * | 2017-07-11 | 2019-02-07 | トヨタ自動車株式会社 | Dialog system and dialog method |
JP2019096148A (en) * | 2017-11-24 | 2019-06-20 | ヤフー株式会社 | Providing device, providing method and providing program |
WO2019187463A1 (en) * | 2018-03-27 | 2019-10-03 | 株式会社Nttドコモ | Dialogue server |
JP2020004217A (en) * | 2018-06-29 | 2020-01-09 | 富士通株式会社 | Information display method, information display program and information display apparatus |
JP2020021486A (en) * | 2019-07-25 | 2020-02-06 | 日本電信電話株式会社 | Search result display device, search result display method and program |
WO2020036194A1 (en) * | 2018-08-15 | 2020-02-20 | 日本電信電話株式会社 | Search result display device, search result display method, and program |
WO2020240756A1 (en) * | 2019-05-29 | 2020-12-03 | 富士通株式会社 | Reply processing program, reply processing method, and information processing device |
JP2022144869A (en) * | 2021-03-19 | 2022-10-03 | ヤフー株式会社 | Information processing apparatus, information processing method, and information processing program |
US11651246B2 (en) | 2017-05-02 | 2023-05-16 | Ntt Docomo, Inc. | Question inference device |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006244262A (en) * | 2005-03-04 | 2006-09-14 | Nec Corp | Retrieval system, method and program for answer to question |
WO2007099812A1 (en) * | 2006-03-01 | 2007-09-07 | Nec Corporation | Question answering device, question answering method, and question answering program |
-
2008
- 2008-06-30 JP JP2008170555A patent/JP5311002B2/en not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006244262A (en) * | 2005-03-04 | 2006-09-14 | Nec Corp | Retrieval system, method and program for answer to question |
WO2007099812A1 (en) * | 2006-03-01 | 2007-09-07 | Nec Corporation | Question answering device, question answering method, and question answering program |
Cited By (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9552415B2 (en) | 2011-03-18 | 2017-01-24 | Fujitsu Limited | Category classification processing device and method |
US10242049B2 (en) | 2015-01-14 | 2019-03-26 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method, system and storage medium for implementing intelligent question answering |
JP2017511922A (en) * | 2015-01-14 | 2017-04-27 | バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド | Method, system, and storage medium for realizing smart question answer |
JP2018060402A (en) * | 2016-10-06 | 2018-04-12 | 富士通株式会社 | Information generation program, information generation apparatus, and information generation method |
JP2018128869A (en) * | 2017-02-08 | 2018-08-16 | 日本電信電話株式会社 | Search result display device, search result display method, and program |
WO2018186445A1 (en) * | 2017-04-06 | 2018-10-11 | 株式会社Nttドコモ | Dialogue system |
JPWO2018186445A1 (en) * | 2017-04-06 | 2019-07-04 | 株式会社Nttドコモ | Dialogue system |
JP2018181033A (en) * | 2017-04-17 | 2018-11-15 | 株式会社バリュープレス | Inquiry responding support apparatus and inquiry responding support system |
JP6190984B1 (en) * | 2017-04-17 | 2017-08-30 | 株式会社バリュープレス | Question answer support device and question answer support system |
US11651246B2 (en) | 2017-05-02 | 2023-05-16 | Ntt Docomo, Inc. | Question inference device |
JP2019020774A (en) * | 2017-07-11 | 2019-02-07 | トヨタ自動車株式会社 | Dialog system and dialog method |
JP2019096148A (en) * | 2017-11-24 | 2019-06-20 | ヤフー株式会社 | Providing device, providing method and providing program |
JP7016405B2 (en) | 2018-03-27 | 2022-02-04 | 株式会社Nttドコモ | Dialogue server |
WO2019187463A1 (en) * | 2018-03-27 | 2019-10-03 | 株式会社Nttドコモ | Dialogue server |
JPWO2019187463A1 (en) * | 2018-03-27 | 2020-12-03 | 株式会社Nttドコモ | Dialogue server |
JP2020004217A (en) * | 2018-06-29 | 2020-01-09 | 富士通株式会社 | Information display method, information display program and information display apparatus |
JP7172187B2 (en) | 2018-06-29 | 2022-11-16 | 富士通株式会社 | INFORMATION DISPLAY METHOD, INFORMATION DISPLAY PROGRAM AND INFORMATION DISPLAY DEVICE |
WO2020036194A1 (en) * | 2018-08-15 | 2020-02-20 | 日本電信電話株式会社 | Search result display device, search result display method, and program |
JPWO2020036194A1 (en) * | 2018-08-15 | 2021-06-10 | 日本電信電話株式会社 | Search result display device, search result display method, and program |
JP2022066489A (en) * | 2018-08-15 | 2022-04-28 | 日本電信電話株式会社 | Retrieval result display device, retrieval result display method, and program |
JP7108213B2 (en) | 2018-08-15 | 2022-07-28 | 日本電信電話株式会社 | SEARCH RESULTS DISPLAY DEVICE, SEARCH RESULTS DISPLAY METHOD, AND PROGRAM |
JP7132538B2 (en) | 2018-08-15 | 2022-09-07 | 日本電信電話株式会社 | SEARCH RESULTS DISPLAY DEVICE, SEARCH RESULTS DISPLAY METHOD, AND PROGRAM |
JPWO2020240756A1 (en) * | 2019-05-29 | 2020-12-03 | ||
WO2020240756A1 (en) * | 2019-05-29 | 2020-12-03 | 富士通株式会社 | Reply processing program, reply processing method, and information processing device |
US11709872B2 (en) | 2019-05-29 | 2023-07-25 | Fujitsu Limited | Computer-readable recording medium storing response processing program, response processing method, and information processing apparatus |
JP2020021486A (en) * | 2019-07-25 | 2020-02-06 | 日本電信電話株式会社 | Search result display device, search result display method and program |
JP2022144869A (en) * | 2021-03-19 | 2022-10-03 | ヤフー株式会社 | Information processing apparatus, information processing method, and information processing program |
JP7388618B2 (en) | 2021-03-19 | 2023-11-29 | Lineヤフー株式会社 | Information processing device, information processing method, and information processing program |
Also Published As
Publication number | Publication date |
---|---|
JP5311002B2 (en) | 2013-10-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5311002B2 (en) | Question answer search system, method and program thereof | |
KR100944744B1 (en) | Determination of a desired repository | |
KR101231560B1 (en) | Method and system for discovery and modification of data clusters and synonyms | |
US20200193098A1 (en) | Use of statistical flow data for machine translations between different languages | |
KR101284788B1 (en) | Apparatus for question answering based on answer trustworthiness and method thereof | |
US20120131008A1 (en) | Indentifying referring expressions for concepts | |
JP2009508267A (en) | Ranking blog documents | |
US20160147739A1 (en) | Apparatus and method for updating language analysis result | |
US9569504B1 (en) | Deriving and using document and site quality signals from search query streams | |
US20100185623A1 (en) | Topical ranking in information retrieval | |
KR20070094941A (en) | Authoritative document identification | |
US20140012841A1 (en) | Weight-based stemming for improving search quality | |
US20150186495A1 (en) | Latent semantic indexing in application classification | |
US20130080434A1 (en) | Systems and Methods for Contextual Analysis and Segmentation Using Dynamically-Derived Topics | |
JP2011129154A (en) | Local item extraction | |
JP2012150586A (en) | Learning device, determination device, learning method, determination method, learning program and determination program | |
CN106462644B (en) | Identifying preferred result pages from multiple result page identifications | |
US20170124090A1 (en) | Method of discovering and exploring feature knowledge | |
US9613135B2 (en) | Systems and methods for contextual analysis and segmentation of information objects | |
US8055670B2 (en) | System and method for the generation of replacement titles for content items | |
JP2009140263A (en) | Term co-occurrence degree extractor | |
US20110231387A1 (en) | Engaging content provision | |
WO2020012659A1 (en) | Management program, management method, and management device | |
Pavankumar et al. | Customer Reviews and Analysis using Opinion Mining Adaptive Algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110511 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130321 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130516 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130605 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130618 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 5311002 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |