JP5436152B2 - 質問応答装置、質問応答方法、質問応答プログラム - Google Patents

質問応答装置、質問応答方法、質問応答プログラム Download PDF

Info

Publication number
JP5436152B2
JP5436152B2 JP2009256807A JP2009256807A JP5436152B2 JP 5436152 B2 JP5436152 B2 JP 5436152B2 JP 2009256807 A JP2009256807 A JP 2009256807A JP 2009256807 A JP2009256807 A JP 2009256807A JP 5436152 B2 JP5436152 B2 JP 5436152B2
Authority
JP
Japan
Prior art keywords
question
answer
entity
questions
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009256807A
Other languages
English (en)
Other versions
JP2011103018A (ja
Inventor
竜一郎 東中
浩二 堂坂
秀樹 磯崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2009256807A priority Critical patent/JP5436152B2/ja
Publication of JP2011103018A publication Critical patent/JP2011103018A/ja
Application granted granted Critical
Publication of JP5436152B2 publication Critical patent/JP5436152B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、質問に対する回答に個性を持たせた質問応答装置、質問応答方法、質問応答プログラムに関する。
質問と応答を保持するデータベースを用いて未知の質問に対して応答する手法として、非特許文献1のように、入力された質問に類似した質問を検索し、その応答を用いる方法が知られている。また、対話システムのコンテストであるレブナー賞で優勝した対話システムの「A.L.I.C.E.」も、大量の<入力,応答>ペアを人手で作成し、ユーザ入力と最も類似した入力を持つペアを検索し、その応答を用いてシステム応答を行っている(非特許文献2)。
Robin D. Burke, Kristian J. Hammond, Vladimir A. Kulyukin, Noriko Tomuro, and S. Schoenberg, "Question answering from frequently asked question files: Experiences with the FAQFinder system", Technical report, University of Chicago, 1997. Richard S. Wallace, "The Anatomy of A.L.I.C.E", A.L.I.C.E. Artificial Intelligence Foundation, Inc., 2004.
対話システムがより人間らしく応答するためには、さまざまな質問に対して個性をもって振舞わなくてはならない。どのシステムも同じ入力に対して同じように振舞っていては、無個性でユーザはシステムに愛着もわかないと考えられる。個性を持ったシステムは、ユーザからの入力に対しそのシステムらしい応答をする必要がある。しかし、そのような応答のための知識源はこれまで大量の<入力,応答>ペアを人手で作成することによってなされてきた。例えば,非特許文献2のシステム「A.L.I.C.E.」は約4万もの<入力,応答>ペアを記録している。
これまでいくつもの対話システムが作られてきており、これらシステムはそれぞれある程度の量の<入力,応答>ペアを保持している。しかしながら、このような<入力,応答>ペアの作成も人手で行われるので網羅性に限界があり、必ずしも人間が行うような多様な入力を網羅しているわけではない。また、あるシステムに対する入力が、そのシステムの保持する<入力,応答>ペアに見つからず、うまく応答できないこともある。
さらに、個性を持つシステムの数が多くなれば、それぞれのシステムが保持しなければならない<入力,応答>ペアの数も多くなる。また、1つのシステムが保持する<入力,応答>ペアの数を少なくすれば、そのシステムが、入力と同じ<入力,応答>ペアを保持していない確率が高くなってしまう。
本発明は、このような課題に鑑みてなされたものであり、複数のシステムがある場合にも、システムに保持させる<入力,応答>ペアの総数を増やさなくても、それぞれのシステムが適切な応答ができるようにする方法を提供することを目的とする。
システムに対してなされた質問が、そのシステムの保持する<入力,応答>ペアに見つからないとき、他のシステムが適切な<入力,応答>ペアを保持していれば、それを代用して応答することも可能であり、システムの応答能力が向上すると思われる。本発明の質問応答装置は、入力に対する応答に個性(例えば、人物の個性)がある複数の実体と、それぞれの実体に対する<質問,応答>ペアが一つ以上あるとする。そして、本発明は、ある個性を持った実体A(対話システムなど)が未知の質問をされたときに、他の実体B(他の対話システムなど)の持つ<入力,応答>のペアを代用することで、Aとして適切な応答をする。なお、本発明では<入力,応答>の代表として、<質問,回答>を対象とする。
本発明の質問応答装置は、対話データベース、入力部、質問検索部、回答選択部を備える。対話データベースは、質問に対する回答に個性を有する複数の実体に対する質問と回答の組合せを、実体に紐付けて記録する。入力部には、少なくとも質問と質問の対象となる実体を特定する情報が入力される。質問検索部は、対話データベースに質問を受けた実体に対する同様の質問が記録されていない場合に、対話データベースに記録された質問を受けた実体以外の実体に対する質問の中から最も類似度の高い質問を検索する。回答選択部は、質問検索部が検索した最も類似度の高い質問と組み合わせられている回答を、質問に対する回答として選択する。また、実体Aらしい応答を行うために、検索に際して実体同士の類似度と実体と応答の関連度を考慮してもよい。
本発明の質問応答装置によれば、実体Aに未知の質問がなされた場合、実体A以外の実体の<質問,回答>ペアから類似した質問を持つペアを検索し、見つかったペアの回答を用いて応答する。したがって、あらかじめ回答を用意していない質問にも、対話システムが適切に応答でき、対話システムの会話能力が高まる。その結果、対話システムと人間とのやりとりが円滑となり、人間の生活が改善されたり、システムが行うさまざまなタスクの遂行が容易になったりすることが期待できる。
本発明の質問応答装置の機能構成例を示す図。 実施例1から実施例4の質問応答装置の処理フローを示す図。 各実施例の変形例の質問応答装置の処理フローを示す図。 質問分類の各タイプが持つラベルを示す図。 「織田信長」に関する記事のページ数と、「豊臣秀吉」に関する記事のページ数の関係を示す図。 4つの質問応答装置を用いた実験での、3人の被験者による平均スコアを示す図。 コサイン類似度の閾値を変動させた場合の各質問応答装置の内容妥当性の推移を示す図。
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
本発明の質問応答装置は、入力に対する応答に個性(例えば、人物の個性)がある複数の実体と、それぞれの実体に対する<質問,応答>ペアが一つ以上あるとする。そして、本発明は、ある個性を持った実体A(対話システムなど)が未知の質問をされたときに、他の実体B(他の対話システムなど)の持つ<入力,応答>のペアを代用することで、Aとして適切な応答をする。なお、本発明では<入力,応答>の代表として、<質問,回答>を対象とする。
図1に実施例1の質問応答装置の機能構成例を、図2に実施例1の質問応答装置の処理フローを示す。質問応答装置100は、対話データベース190、入力部110、質問検索部120、回答選択部130、出力部140を備える。対話データベース190は、質問に対する回答に個性を有する複数の実体に対する質問と回答の組合せ<質問,回答>を、実体に紐付けて記録する。入力部110には、少なくとも質問と質問の対象となる実体を特定する情報が入力される(S110)。質問検索部120は、対話データベース190に質問の対象の実体(指定された実体)に対する同様の質問が記録されているかを確認する(S121)。同様の質問とは、適した回答が得られる質問を意味しており、例えば閾値以上の類似度の質問とすればよい。質問の対象の実体に対する質問が記録されている場合(ステップS121がYesの場合)、質問検索部120は入力された質問と同一の<質問,回答>を出力する(S122)。
対話データベース190に質問を受けた実体に対する質問が記録されていない場合(ステップS121がNoの場合)、質問検索部120は対話データベース190に記録された質問の対象の実体以外の実体に対する質問の中から最も類似度の高い質問を検索し、<質問,回答>を出力する(S123)。さらに具体的に説明すると、対話データベース190に蓄積された質問のうち入力部110から受け取った実体以外の実体に紐付けられた質問Q’について、質問Qと質問Q’の類似度を下記の式により算出する。類似度の計算には、それぞれの質問に含まれる単語のセットのコサイン類似度を用いる。
Figure 0005436152
ただし、wordsは質問中の単語のセットを抜き出し、バイナリのベクトルとして返す関数である。質問検索部120は、sim(Q,Q´)の値が最も大きい質問を含むペア<質問,回答>を出力する。
回答選択部130は、質問検索部120が出力した<質問,回答>の回答を、質問に対する回答として選択する(S131)。出力部140は、選択された回答を出力する(S140)。
本発明の質問応答装置によれば、実体Aに未知の質問がなされた場合、実体A以外の実体の<質問,回答>ペアから類似した質問を持つペアを検索し、見つかったペアの回答を用いて応答する。したがって、あらかじめ回答を用意していない質問にも、対話システムが適切に応答でき、対話システムの会話能力が高まる。その結果、対話システムと人間とのやりとりが円滑となり、人間の生活が改善されたり、システムが行うさまざまなタスクの遂行が容易になったりすることが期待できる。
なお、類似した質問を検索し、その回答を用いて応答する手法の先例として、非特許文献1がある。しかし、本発明は質問の対象の実体以外の実体に紐付いた<質問,回答>の中から検索する点が異なり、質問の対象の実体の回答としてあらかじめ回答が用意されていない場合でも、応答できるという効果が得られる点も異なる。
[変形例]
実施例1では、<質問,回答>は1つの質問に1つの回答が対応していることが前提であった。本変形例では、1つの質問に対して複数の回答が対応している場合を説明する。例えば、実体がマリーアントワネットである場合の<質問,回答>のデータの例を下に示す。
―――――――――――――――――――――――――――――――――――――――
実体:マリーアントワネット
質問:ふりかえってみて貴女の一生はどうでしたか。
回答:(1)貴方たちが思うほど不幸でもなかったわ
(2)幸福でした。子供たちに感謝しているの
(3)とても楽しかったわ
質問:結婚相手を選べるとしたら誰と結婚したいですか
回答:(1)やっぱりフェルゼンかしら。あの方は私の命でした。夫には申し訳ないけど
(2)結婚相手は誰でもよかった、楽しく毎日が送れるならね
質問:マカロンってどうしてあんなに高いの
回答:(1)そんなこと知らないわよ!関係ないし
(2)おフランスですもの
(3)歯が良いうちに沢山頂きましょう ころりん ぽくぽく
(4)手間がかかっているのかしら
(5)作るのが面倒なのよ
―――――――――――――――――――――――――――――――――――――――
本変形例では、このように1つの質問に対して複数の回答が対応している場合があることを前提としている。
図1に本変形例の質問応答装置の機能構成例を、図3に本変形例の質問応答装置の処理フロー例を示す。質問応答装置100’は、対話データベース190、入力部110、質問検索部120、回答選択部130’、出力部140を備える。質問応答装置100’は、回答選択部130’以外は質問応答装置100と同じである。また、ステップS122,S123までの処理は実施例1と同じである。
回答選択部130’は、ステップS122の後(ステップS121がYesの場合)は、回答が複数あるかを確認する(S132)。回答が1つしかない場合(ステップS132がNoの場合)、その回答を入力された質問に対する回答とする(S131)。回答が複数の場合(ステップS132がYesの場合)、それらの回答のいずれかを入力された質問に対する回答とする(S133)。この場合は、どの回答も質問の対象の実体の回答として記録されているものだから、最も関連度の高い回答を選ぶこととしても、ランダムにいずれかを選ぶこととしても問題ない。どの回答を選択するかは、適宜決めればよい。
回答選択部130’は、ステップS123の後(ステップS121がNoの場合)も、回答が複数あるかを確認する(S134)。回答が1つしかない場合(ステップS134がNoの場合)、その回答を入力された質問に対する回答とする(S131)。回答が複数の場合(ステップS134がYesの場合)、それらの回答の中で、その<質問,回答>が紐付いている実体との関連度が最も低い回答を、入力された質問に対する回答とする(S135)。この場合は、異なる実体の<質問,回答>から回答を選んでいるので、関連度が高い回答は異なる実体と関連が深い固有の単語が入ることが多い。したがって、不適切な回答となってしまう可能性が高いからである。
ここでは、ユーザが入力した質問Qと類似する質問Q’が見つかったとして、質問Q’に対する回答が複数ある場合があるとする。回答選択部130’は、具体的には、次のように実体と回答の関連度を決めればよい。
Figure 0005436152
ここで、A’は質問Q’に対応付けられた個々の回答である。maxpmiは、人物名と回答に含まれる個々の単語との関連の強さをPointwise Mutual Information (PMI)という尺度で計算し、その最大値を返す関数であり、personは質問または回答に紐付けられた実体名(人物名)を返す関数である。式(2)で求められる関連度をあらかじめ計算しておき、<質問,回答>と一緒に対話データベースに記録しておいてもよい。また、ステップS135の処理を数式で表現すると、
Figure 0005436152
となる。ここで、Aは質問Q’に対応付けられた複数の回答のセットであり、A’はその要素である。なお、PMIは、人物名と回答中の機能語(助詞,助動詞,接尾,非自立)以外の単語(wi ∈ A')との間で、下記の式により計算する。
Figure 0005436152
ここで、docsは特定のテキスト文書中における引数の人物名または単語を含む文書数である。Nはテキスト文書中の総文書数である。例えば、テキスト文書群としてウィキペディアデータを用いてもよい。
本変形例はこのような構成なので、実施例1と同様の効果が得られる。さらに、<質問,回答>に複数の回答が含まれている場合にも、適切な回答を選択できる。
実施例2の質問応答装置は、質問検索部が類似度の高い質問を検索する際に、質問分類が同じもののみを検索対象とする。ここで、質問分類とは、質問がどういうことを聞いているかを分類するもので、4種類のラベルによって分類される。4種類のラベルとは、「発話タイプ」、「質問タイプ」、「心的態度タイプ」、「人物属性タイプ」である。各タイプは図4に示すラベルを持つ。そして、対話データベースに格納された全ての質問には、予め上記の質問分類が付与されているものとする。質問分類は人手で付与しても良いし、ある程度の分量のデータがあれば、機械学習などを利用して自動でラベル付けも行っても良い。
例えば、実体『男性発明家T』に対してなされた「今なら何をしたいですか?」という質問には、以下のようなラベルを付与することができる。
―――――――――――――――――――――――――――――――――――――――
実体:男性発明家T
質問:今なら何をしたいですか?
発話タイプ: 質問
質問タイプ: 物事
心的態度タイプ: 欲求
人物属性タイプ: 仕事,趣味
―――――――――――――――――――――――――――――――――――――――
そして、各質問に対し、発話タイプ、質問タイプとしては一つのラベルしか付与されない。心的態度タイプは、信念−認識,信念−分析,信念−予想,信念−評価のうちの一つ以上、または、知識,欲求,計画,その他のうちのどれかのラベルが付与される。人物属性タイプには一つ以上のラベルが付与される。なお、質問分類が同じ質問とは、発話タイプ,質問タイプ,心的態度タイプのラベルが完全に一致し、人物属性のラベルが一つでも一致している質問のことを指す。
実施例2の質問応答装置の機能構成例も図1に示す。また、実施例2の質問応答装置の処理フローを図2に示す。実施例2の質問応答装置200は、対話データベース290、入力部210、質問検索部220、回答選択部130、出力部140を備える。回答選択部130と出力部140は実施例1の質問応答装置100と同じである。対話データベース290は、質問に対する回答に個性を有する複数の実体に対する質問と回答の組合せ<質問,回答>と質問分類を、実体に紐付けて記録する。入力部210には、質問、質問分類、質問の対象となる実体を特定する情報が入力される(S210)。なお、質問分類は、機械学習などを利用して自動でラベル付けも行っても良い。質問検索部220は、対話データベース290に質問の対象の実体(指定された実体)に対する同様の質問が記録されているかを確認する(S121)。質問の対象の実体に対する質問が記録されている場合(ステップS121がYesの場合)、質問検索部220は入力された質問と同一の<質問,回答>を出力する(S122)。対話データベース290に質問を受けた実体に対する質問が記録されていない場合(ステップS121がNoの場合)、質問検索部220は対話データベース290に記録された質問の対象の実体以外の実体に対する質問であって、質問分類が一致する質問の中から最も類似度の高い質問を検索し、<質問,回答>を出力する(S223)。ステップS131とステップS140は、実施例1の質問応答装置100と同じである。
実施例2の質問応答装置200は、このような構成なので実施例1と同じ効果を得ることができ、さらに、質問分類が一致する質問の中から類似する質問を検索するので、より適切な回答が得られやすい。
[変形例]
実施例2では、<質問,回答>は1つの質問に1つの回答が対応していることが前提であった。本変形例では、実施例1変形例と同じように、1つの質問に対して複数の回答が対応している場合を説明する。
図1に本変形例の質問応答装置の機能構成例を、図3に本変形例の質問応答装置の処理フロー例を示す。本変形例の質問応答装置200’は、対話データベース290、入力部210、質問検索部220、回答選択部130’、出力部140を備える。質問応答装置200’は、回答選択部130’以外は質問応答装置200と同じであり、ステップS122,S223までの処理は実施例2と同じである。また、質問応答装置200’の回答選択部130’は、実施例1変形例の質問応答装置100’と同じである。
したがって、回答選択部130’は、ステップS122の後(ステップS121がYesの場合)は、回答が複数あるかを確認する(S132)。回答が1つしかない場合(ステップS132がNoの場合)、その回答を入力された質問に対する回答とする(S131)。回答が複数の場合(ステップS132がYesの場合)、それらの回答のいずれかを入力された質問に対する回答とする(S133)。
回答選択部130’は、ステップS223の後(ステップS121がNoの場合)も、回答が複数あるかを確認する(S134)。回答が1つしかない場合(ステップS134がNoの場合)、その回答を入力された質問に対する回答とする(S131)。回答が複数の場合(ステップS134がYesの場合)、それらの回答の中で、その<質問,回答>が紐付いている実体との関連度が最も低い回答を、入力された質問に対する回答とする(S135)。
本変形例はこのような構成なので、実施例2と同様の効果が得られる。さらに、<質問,回答>に複数の回答が含まれている場合にも、適切な回答を選択できる。
実施例1では、単語類似度だけを用いて類似度の高い質問を検索した。実施例3では、質問を検索する際に実体同士の類似度も利用する。例えば、織田信長に対する質問と類似した質問を探す際には、俳優やタレントへの質問からではなく、明智光秀や石田光成といった武将に対する質問を重視して検索するということである。
図1に実施例3の質問応答装置の機能構成例を、図2に実施例3の質問応答装置の処理フローを示す。実施例3の質問応答装置300は、対話データベース190、入力部110、質問検索部320、回答選択部130、出力部140を備える。質問応答装置300は、質問検索部320が実施例1の質問応答装置100と異なる。その他の構成は質問応答装置100と同じである。また、処理フローでは、ステップS323が実施例1のステップS123と異なり、その他のステップは質問応答装置100と同じである。
対話データベース190に質問を受けた実体に対する質問が記録されていない場合(ステップS121がNoの場合)、質問検索部320は、実体同士の類似度を考慮しながら、対話データベース190に記録された質問の対象の実体以外の実体に対する質問の中から最も類似度の高い質問を検索し、<質問,回答>を出力する(S323)。
さらに具体的に説明すると、対話データベース190に蓄積された質問のうち入力部110から受け取った実体以外の実体に紐付けられた質問Q’について、質問Qと質問Q’の類似度を下記の式により算出する。
Figure 0005436152
ここで、distは実体間の距離を返す関数で、テキストデータ(例えば、ウィキペディアデータ)における人物名の共起から計算される。distは、質問Qに紐付けられた実体と質問Q’に紐付けられた実体が近ければ近いほど小さくなる。具体的には、distは、共起性の高さをフィッシャー直接検定(フィッシャーの正確確率検定、FET:Fisher’s Exact Test)によって検定し、検定結果であるp値(非類似度に相当)を元に計算している。FETについては、Agresti A, “A Survey of Exact Inference for Contingency Tables”, Statistical Science,7,131-153, 1992. に記載されている。また、人名間の類似度は、参考文献に示されている方法を用い、FETのp値から人物名をノードとする2次元上のグラフとして表現し、このグラフ上の人物名に対応するノード間の距離によって求める。distはこのグラフ上の実体間(人名間)のユークリッド距離の10を底とした対数を返す。
[参考文献]Tatsushi Matsubayashi and Takeshi Yamada, “A force-directed graph drawing based on the hierarchical individual timestep method”, International Journal of Electronics, Circuits and Systems, 1(2):116-121, 2007.
例えば、質問の対象の実体が「織田信長」で、検索の対象となっている質問の実体が「豊臣秀吉」の場合を考える。「織田信長」に関する記事のページ数Eと、「豊臣秀吉」に関する記事のページ数Gと、対象とする人物事典のページ数Nとが、図5に示すように求められた場合には、FETのp値は式(6)で示される。
Figure 0005436152
なお、類似度の算出は、FETに限定されるものではなく、統計量の検定に用いられるカイ二乗値(χ2)、カイ二乗値を0〜1の範囲に正規化した値であるφ2などを用いることができる。そして、算出されたp値が所定の閾値以下の場合に、人物名に対応するノード(上記の例では織田信長に対応するノードと豊臣秀吉に対応するノード)をリンクで繋げて、共起ネットワークを作成する。その後、ノード間の引力・斥力を考慮してエネルギーを最小にするようなノード配置を求める(詳細は参考文献を参照)。
実施例3の質問応答装置300は、このような構成なので実施例1と同じ効果を得ることができ、さらに、質問の類似度を求める際に実体同士の類似度も考慮するので、より適切な回答が得られやすい。
[変形例]
実施例3では、<質問,回答>は1つの質問に1つの回答が対応していることが前提であった。本変形例では、実施例1変形例や実施例2変形例と同じように、1つの質問に対して複数の回答が対応している場合を説明する。
図1に本変形例の質問応答装置の機能構成例を、図3に本変形例の質問応答装置の処理フロー例を示す。本変形例の質問応答装置300’は、対話データベース190、入力部110、質問検索部320、回答選択部130’、出力部140を備える。質問応答装置300’は、回答選択部130’以外は質問応答装置300と同じであり、ステップS122,S323までの処理は実施例3と同じである。また、質問応答装置300’の回答選択部130’は、実施例1変形例の質問応答装置100’と同じである。
したがって、回答選択部130’は、ステップS122の後(ステップS121がYesの場合)は、回答が複数あるかを確認する(S132)。回答が1つしかない場合(ステップS132がNoの場合)、その回答を入力された質問に対する回答とする(S131)。回答が複数の場合(ステップS132がYesの場合)、それらの回答のいずれかを入力された質問に対する回答とする(S133)。
回答選択部130’は、ステップS323の後(ステップS121がNoの場合)も、回答が複数あるかを確認する(S134)。回答が1つしかない場合(ステップS134がNoの場合)、その回答を入力された質問に対する回答とする(S131)。回答が複数の場合(ステップS134がYesの場合)、それらの回答の中で、その<質問,回答>が紐付いている実体との関連度が最も低い回答を、入力された質問に対する回答とする(S135)。
本変形例はこのような構成なので、実施例3と同様の効果が得られる。さらに、<質問,回答>に複数の回答が含まれている場合にも、適切な回答を選択できる。
実施例4は、実施例2と実施例3とを組み合わせた例である。実施例4の質問応答装置の機能構成例も図1に示す。また、実施例4の質問応答装置の処理フローを図2に示す。実施例4の質問応答装置400は、対話データベース290、入力部210、質問検索部420、回答選択部130、出力部140を備える。対話データベース290、入力部210、回答選択部130、出力部140は実施例2の質問応答装置200と同じである。
質問検索部420は、対話データベースに記録された質問の対象の実体以外の実体に対する質問であって、質問分類が一致する質問の中から、実体同士の類似度を考慮しながら最も類似度の高い質問を検索し、<質問,回答>を出力する(S423)。具体的には、対話データベースに記録された質問の対象の実体以外の実体に対する質問であって、質問分類が一致する質問の中から、式(5)にしたがって最も類似度の高い質問を検索する。
実施例4の質問応答装置400は、このような構成なので実施例2と同じ効果を得ることができ、さらに、質問の類似度を求める際に実体同士の類似度も考慮するので、より適切な回答が得られやすい。
[変形例]
実施例4では、<質問,回答>は1つの質問に1つの回答が対応していることが前提であった。本変形例では、実施例1変形例、実施例2変形例、実施例3変形例と同じように、1つの質問に対して複数の回答が対応している場合を説明する。
図1に本変形例の質問応答装置の機能構成例を、図3に本変形例の質問応答装置の処理フロー例を示す。本変形例の質問応答装置400’は、対話データベース290、入力部210、質問検索部420、回答選択部130’、出力部140を備える。質問応答装置400’は、回答選択部130’以外は質問応答装置400と同じであり、ステップS122,S423までの処理は実施例4と同じである。また、質問応答装置400’の回答選択部130’は、実施例1変形例の質問応答装置100’と同じである。
したがって、回答選択部130’は、ステップS122の後(ステップS121がYesの場合)は、回答が複数あるかを確認する(S132)。回答が1つしかない場合(ステップS132がNoの場合)、その回答を入力された質問に対する回答とする(S131)。回答が複数の場合(ステップS132がYesの場合)、それらの回答のいずれかを入力された質問に対する回答とする(S133)。
回答選択部130’は、ステップS423の後(ステップS121がNoの場合)も、回答が複数あるかを確認する(S134)。回答が1つしかない場合(ステップS134がNoの場合)、その回答を入力された質問に対する回答とする(S131)。回答が複数の場合(ステップS134がYesの場合)、それらの回答の中で、その<質問,回答>が紐付いている実体との関連度が最も低い回答を、入力された質問に対する回答とする(S135)。
本変形例はこのような構成なので、実施例4と同様の効果が得られる。さらに、<質問,回答>に複数の回答が含まれている場合にも、適切な回答を選択できる。
[実験例]
上記の実施例に記載した質問応答装置の性能を検証するため、被験者による評価実験を行った。実験で用いた質問応答装置は、各実施例の変形例の質問応答装置100’,200’,300’,400’である。実験では、まず著名人やアニメキャラクターなどについて、ユーザが自由に質問を入力したり、ユーザがこれらの人物になりきって自由に質問に対する回答を入力したりできるWebサイトを構築し、各人物に紐付けられた<質問,回答>のデータを収集した。50ユーザによる3週間のデータ収集の結果、397の実体(人物)について合計2502の質問と3838の回答を収集し、収集された全データを対話DBに蓄積されるデータとして利用した。
得られた全質問のうち、実際に実験において回答がユーザによってなされ、かつ、上記の質問応答装置のすべてが何らかの応答を返すことができた967の質問に対して、各質問応答装置の出力した回答を3人の被験者が評価した。具体的には、被験者は質問とその質問がなされた実体(人物)を提示され、4つの質問応答装置が出力した回答のそれぞれについて、内容妥当性(内容がその人らしいかどうか)、および、表現妥当性(表現がその人らしいかどうか)という観点から、1から7の7段階で評価した。また、4つの質問応答装置に加え、対象の質問に対し実際の実験においてユーザが行った回答(オリジナル回答)のうち一つについても評価してもらった。オリジナル回答が複数ある場合、対象の人物名と最もPMIの高い単語を含む回答を選んだ。
下記は100’,200’,300’,400’の出力例である.
―――――――――――――――――――――――――――――――――――――――
質問対象:米国大統領A 質問:影武者はいますか?
1 それは答えられないな。 (オリジナル回答)
2 危なくなったときに、かくまってくれそうな人なら何人か。(200’)
(※「女性芸能人B」に対する「仲のいい友達はいますか?」という質問への回答を利用。)
3 えー作るヒマないですよぉー (100’)
(※「女性スポーツ選手C」への「彼氏はいますか?」という質問への回答を利用。)
4 決してゆだんできぬヤツだな! (300’)
(※「英国首相D」への「米国大統領Eをどう思いますか?」という質問への回答を利用。)
5 敵が多すぎて特定は出来無い。 (400’)
(※「米国大統領F」に対する「あなたを撃った人間に心当たりはありますか…?」という質問への回答を利用。)
―――――――――――――――――――――――――――――――――――――――
質問対象:男性プロスポーツ選手G 質問:10年後は何をしていたいですか。
1 子どもたちにサッカーを教える立場に立ちたいね。 (オリジナル回答)
2 ショッピングです。 (100’)
(※「女性スポーツ選手C」への「オフは何をしていますか」という質問への回答を利用。)
3 もちろん大統領です。 (200’)
(※ 「男性政治家H」への「州知事を辞めたら次は何をしたいですか。」という回答を利用。)
4 スポンサー契約。 (300’)
(※「男性プロスポーツ選手I」への「持っている時計はかなり派手ですが、何をポイントに選んでいますか」への回答を利用。)
5 この地球を戦乱のないひとつの国にまとめることさ。 (400’)
(※「男性政治家J」への「いまの時代に生きることができたら何をしたいですか。」という質問への回答を利用。)
―――――――――――――――――――――――――――――――――――――――
図6に3人の被験者による平均スコアを示す。オリジナル回答のスコアの高さから、実験に参加したユーザの回答が適切なものであったことが分かる。4つの質問応答装置についてはまだまだ改善の余地があることが分かるが、統計的検定(Steel-Dwass の多重検定)を行った結果、質問分類による制約を用いると内容妥当性が有意に改善し(実施例2変形例のp値は、p<0.005)、人物間類似度を導入すると表現妥当性が有意に改善することが分かった(実施例3変形例のp値は、p<0.02)。ここで、オラクルとは、各質問について4つの質問応答装置から一番いい回答を選択できたとした場合のスコアを指す。オラクルのスコアは4に近い。このことから、質問によって高精度に手法を選択できれば、比較的適切な回答が自動的に行えることが分かる。
図7は、コサイン類似度の閾値(Cosine Similarity Threshold)を変動させた場合の内容妥当性(Averaged Content Score)の推移を示すグラフである。質問を検索する際にほとんど単語が重複していない質問を用いても見当違いの回答をしてしまう恐れがある。そのため、質問類似度の閾値を設定し、ある一定以上の類似度を持つ質問からしか検索しないようにした場合に内容妥当性のスコアがどう変化するかを調べたものである。このグラフから、閾値を上げていくと回答可能な質問数が減少する(例えば、閾値が0.6の場合、質問分類制約+人物類似度は967の質問の内105のみにしか回答が出力できない)。しかし、閾値を0.6程度に設定することで4に近いスコアを実現できることが分かり、4つの質問応答装置と閾値の変動を組み合わせることで、自動応答を比較的高精度に行うことが可能であることが分かった。
[プログラムなど]
上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
また、上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
本発明は、入力に対し自動で応答する対話型のシステムに利用できる。
100、100’、200、200’、300、300’、400、400’ 質問応答装置
110、210 入力部
120、220、320、420 質問検索部
130、130’ 回答選択部
140 出力部
190、290 対話データベース

Claims (9)

  1. 質問に対する回答が実体によって異なる複数の実体に対する質問と回答の組合せを、前記実体に紐付けて記録した対話データベースと、
    質問と質問の対象となる実体を特定する情報が入力される入力部と、
    前記対話データベースに前記実体に対する前記質問が記録されていない場合に、前記対話データベースに記録された前記実体以外の実体に対する質問の中から最も類似度の高い質問を検索する質問検索部と、
    前記質問検索部が検索した最も類似度の高い質問と組み合わせられている回答を、前記質問に対する回答として選択する回答選択部と、
    を備え
    前記類似度は、実体同士が同時に出現しやすくはないということを帰無仮説として、各実体の個別の出現回数及び両方の実体が同時に出現する回数を用いて計算されるp値が小さいほど類似度が高くなる
    ことを特徴とする質問応答装置。
  2. 質問に対する回答が実体によって異なる複数の実体に対する質問と回答の組合せを、前記実体に紐付けて記録した対話データベースと、
    質問と質問の対象となる実体を特定する情報が入力される入力部と、
    前記対話データベースに前記実体に対する前記質問が記録されていない場合に、前記対話データベースに記録された前記実体以外の実体に対する質問の中から最も類似度の高い質問を検索する質問検索部と、
    前記質問検索部が検索した最も類似度の高い質問と組み合わせられている回答を、前記質問に対する回答として選択する回答選択部と、
    を備え
    前記回答選択部は、最も類似度の高い質問と組み合わせられている回答が複数存在する場合には、最も類似度の高い質問に紐付けられている実体と回答に含まれている個々の単語との関連の強さを示す関連度が最も低い回答を選択し、回答とする
    ことを特徴とする質問応答装置。
  3. 請求項1または2記載の質問応答装置であって、
    前記類似度は、前記入力部に入力された質問に含まれる単語と、比較する質問に含まれる単語との類似度である
    ことを特徴とする質問応答装置。
  4. 請求項1〜3のいずれかに記載の質問応答装置であって、
    前記対話データベースに記録された質問には、それぞれの質問の種別を表わす発話タイプ、質問タイプ、心的態度タイプ、人物属性タイプの4つのラベルからなる質問分類があらかじめ付与されており、
    前記入力部は、入力された質問に対する質問分類も入力され、
    前記質問検索部は、前記対話データベースに記録された前記実体以外の実体に対する質問であって、入力された質問分類と同じ質問分類の質問の中から最も類似度の高い質問を検索する
    ことを特徴とする質問応答装置。
  5. 質問に対する回答が実体によって異なる複数の実体に対する質問と回答の組合せを、前記実体に紐付けて記録した対話データベースを用いた質問応答方法であって、
    入力部が、質問と質問の対象となる実体を特定する情報が入力される入力ステップと、
    質問検索部が、前記対話データベースに前記実体に対する前記質問が記録されていない場合に、前記対話データベースに記録された前記実体以外の実体に対する質問の中から最も類似度の高い質問を検索する質問検索ステップと、
    回答選択部が、前記質問検索ステップが検索した最も類似度の高い質問と組み合わせられている回答を、前記質問に対する回答として選択する回答選択ステップと、
    を有し、
    前記類似度は、実体同士が同時に出現しやすくはないということを帰無仮説として、各実体の個別の出現回数及び両方の実体が同時に出現する回数を用いて計算されるp値が小さいほど類似度が高くなる
    ことを特徴とする質問応答方法。
  6. 質問に対する回答が実体によって異なる複数の実体に対する質問と回答の組合せを、前記実体に紐付けて記録した対話データベースを用いた質問応答方法であって、
    入力部が、質問と質問の対象となる実体を特定する情報が入力される入力ステップと、
    質問検索部が、前記対話データベースに前記実体に対する前記質問が記録されていない場合に、前記対話データベースに記録された前記実体以外の実体に対する質問の中から最も類似度の高い質問を検索する質問検索ステップと、
    回答選択部が、前記質問検索ステップが検索した最も類似度の高い質問と組み合わせられている回答を、前記質問に対する回答として選択する回答選択ステップと、
    を有し、
    前記回答選択ステップは、最も類似度の高い質問と組み合わせられている回答が複数存在する場合には、最も類似度の高い質問に紐付けられている実体と回答に含まれている個々の単語との関連の強さを示す関連度が最も低い回答を選択し、回答とする
    ことを特徴とする質問応答方法。
  7. 請求項5または6記載の質問応答方法であって、
    前記類似度は、前記入力ステップで入力された質問に含まれる単語と、比較する質問に含まれる単語との類似度である
    ことを特徴とする質問応答方法。
  8. 請求項5〜7のいずれかに記載の質問応答方法であって、
    前記対話データベースに記録された質問には、それぞれの質問の種別を表わす発話タイプ、質問タイプ、心的態度タイプ、人物属性タイプの4つのラベルからなる質問分類があらかじめ付与されており、
    前記入力ステップでは、入力された質問に対する質問分類も入力され、
    前記質問検索ステップは、前記対話データベースに記録された前記実体以外の実体に対する質問であって、入力された質問分類と同じ質問分類の質問の中から最も類似度の高い質問を検索する
    ことを特徴とする質問応答方法。
  9. 請求項1〜のいずれかに記載の質問応答装置として、コンピュータを動作させる質問応答プログラム。
JP2009256807A 2009-11-10 2009-11-10 質問応答装置、質問応答方法、質問応答プログラム Active JP5436152B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009256807A JP5436152B2 (ja) 2009-11-10 2009-11-10 質問応答装置、質問応答方法、質問応答プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009256807A JP5436152B2 (ja) 2009-11-10 2009-11-10 質問応答装置、質問応答方法、質問応答プログラム

Publications (2)

Publication Number Publication Date
JP2011103018A JP2011103018A (ja) 2011-05-26
JP5436152B2 true JP5436152B2 (ja) 2014-03-05

Family

ID=44193332

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009256807A Active JP5436152B2 (ja) 2009-11-10 2009-11-10 質問応答装置、質問応答方法、質問応答プログラム

Country Status (1)

Country Link
JP (1) JP5436152B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106570138A (zh) * 2016-11-03 2017-04-19 北京百度网讯科技有限公司 基于人工智能的信息搜索方法和装置

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101605430B1 (ko) * 2014-02-14 2016-03-22 주식회사 플런티코리아 문답 데이터베이스 구축 시스템 및 방법, 그리고 이를 이용한 검색 시스템 및 방법
CN103853842B (zh) * 2014-03-20 2017-07-18 百度在线网络技术(北京)有限公司 一种自动问答方法和系统
WO2016048296A1 (en) * 2014-09-24 2016-03-31 Hewlett-Packard Development Company, L.P. Select a question to associate with a passage
JP6087333B2 (ja) * 2014-11-26 2017-03-01 株式会社ユニバーサルエンターテインメント 情報提供システム、情報提供方法、及びプログラム
US11182435B2 (en) 2016-11-25 2021-11-23 Nippon Telegraph And Telephone Corporation Model generation device, text search device, model generation method, text search method, data structure, and program
CN107832291B (zh) * 2017-10-26 2020-03-31 平安科技(深圳)有限公司 人机协作的客服方法、电子装置及存储介质
JP7037374B2 (ja) * 2018-01-22 2022-03-16 モビルス株式会社 コミュニケーション支援装置
JP6458183B1 (ja) * 2018-04-05 2019-01-23 アビームコンサルティング株式会社 モータスポーツにおける自動音声回答システム及びプログラム
JP7040610B2 (ja) * 2018-04-25 2022-03-23 日本電信電話株式会社 拡張なりきり発話組生成装置、方法及びプログラム
JP6537211B1 (ja) * 2018-07-06 2019-07-03 Jeインターナショナル株式会社 検索装置およびプログラム
CN109033375B (zh) * 2018-07-27 2020-02-14 张建军 一种基于知识库生成机器人幽默性格信息的方法及系统
JP6909189B2 (ja) * 2018-08-27 2021-07-28 Kddi株式会社 ユーザ発話テキストに応じてエージェントを交代させるプログラム、サーバ及び方法
CN110879837B (zh) * 2018-09-06 2022-01-14 华为技术有限公司 一种信息处理方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005196356A (ja) * 2004-01-05 2005-07-21 Nec Corp 擬似人格対話システム、方法、およびプログラム
JP4117626B2 (ja) * 2005-07-26 2008-07-16 学校法人甲南学園 電子教育用サーバ及びプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106570138A (zh) * 2016-11-03 2017-04-19 北京百度网讯科技有限公司 基于人工智能的信息搜索方法和装置
CN106570138B (zh) * 2016-11-03 2020-03-03 北京百度网讯科技有限公司 基于人工智能的信息搜索方法和装置

Also Published As

Publication number Publication date
JP2011103018A (ja) 2011-05-26

Similar Documents

Publication Publication Date Title
JP5436152B2 (ja) 質問応答装置、質問応答方法、質問応答プログラム
Zhu et al. Multimodal c4: An open, billion-scale corpus of images interleaved with text
Deveaud et al. Accurate and effective latent concept modeling for ad hoc information retrieval
Spear et al. Functions in basic formal ontology
WO2018121380A1 (zh) 基于社区问答的物品推荐方法、系统及用户设备
Shevchenko et al. Reasoning over vision and language: Exploring the benefits of supplemental knowledge
US11263400B2 (en) Identifying entity attribute relations
CN109062914A (zh) 用户推荐方法和装置,存储介质和服务器
Franzoni et al. A path-based model for emotion abstraction on facebook using sentiment analysis and taxonomy knowledge
Boer et al. Semantic reasoning in zero example video event retrieval
Diao et al. A unified model for topics, events and users on twitter
Liu et al. Building effective short video recommendation
Bhargava et al. Unsupervised modeling of users' interests from their Facebook profiles and activities
Bianchi et al. Query2prod2vec grounded word embeddings for ecommerce
Konkova et al. Social tagging: exploring the image, the tags, and the game
Ivanov et al. Object-based tag propagation for semi-automatic annotation of images
Shi et al. Assessment of multimodal large language models in alignment with human values
JP2021184247A (ja) コンテンツ発見のための人工知能
JP6705763B2 (ja) 生成装置、生成方法および生成プログラム
Akintunde et al. A Sentiment-Aware Statistical Evaluation of Vawulence Tweets for Cyberbullying Analytics
CN114443916A (zh) 一种面向试验数据的供需匹配方法及系统
Feng et al. Lexical semantic relatedness for twitter analytics
Alam et al. Memento: a prototype search engine for LSC 2021
Liang et al. CI-Bot: a hybrid chatbot enhanced by crowdsourcing
Jadhav et al. Twitris: socially influenced browsing

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20110722

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120307

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130530

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130611

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130731

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130820

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131118

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20131125

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131210

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131210

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5436152

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350