JP5661719B2 - 質問応答装置、方法、及びプログラム - Google Patents

質問応答装置、方法、及びプログラム Download PDF

Info

Publication number
JP5661719B2
JP5661719B2 JP2012236006A JP2012236006A JP5661719B2 JP 5661719 B2 JP5661719 B2 JP 5661719B2 JP 2012236006 A JP2012236006 A JP 2012236006A JP 2012236006 A JP2012236006 A JP 2012236006A JP 5661719 B2 JP5661719 B2 JP 5661719B2
Authority
JP
Japan
Prior art keywords
question
document
word
answer
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012236006A
Other languages
English (en)
Other versions
JP2014085947A (ja
Inventor
東中 竜一郎
竜一郎 東中
九月 貞光
九月 貞光
齋藤 邦子
邦子 齋藤
牧野 俊朗
俊朗 牧野
松尾 義博
義博 松尾
吉村 健
健 吉村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Nippon Telegraph and Telephone Corp
Original Assignee
NTT Docomo Inc
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc, Nippon Telegraph and Telephone Corp filed Critical NTT Docomo Inc
Priority to JP2012236006A priority Critical patent/JP5661719B2/ja
Publication of JP2014085947A publication Critical patent/JP2014085947A/ja
Application granted granted Critical
Publication of JP5661719B2 publication Critical patent/JP5661719B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、質問応答装置、方法、及びプログラムに係り、特に、自然言語による質問文に対する回答を出力する質問応答装置、方法、及びプログラムに関する。
自然言語による質問文について、ずばり回答を出力するシステムを質問応答システムと呼ぶ。このような質問応答システムによれば、例えば、「世界一高い山は」という質問に対して、「エベレスト」のような回答を出力する。
質問応答システムの回答は、一般にシステムが持つ文書データベース(DB)から抽出される。文書DBは、複数の文書(テキストデータ)が登録されたもので、この文書DBに含まれる文書が、質問に対する回答を適切に含んでいれば、より精度の高い回答を出力することができる。従って、どのような文書DBを持ち、そこからどのように回答を抽出するかということは、質問応答システムの重要な課題である。
奥村学(監修)、磯崎秀樹、東中竜一郎、永田昌明、加藤恒明(共著)、"自然言語処理シリーズ2質問応答システム"、ISBN:978-4-339-02752-5、コロナ社、2009.
ユーザからの質問の中には、現在のことについて尋ねる質問がある。例えば、「今日の株価は」、「今日のチームAの先発は」、「今テレビに出ている人は」、「番組Bのゲストは誰」等の質問が該当する。従来の質問応答システムは、システム内部に更新頻度の低い固定的な文書DBを持つため、回答を抽出する際には、文書DBに含まれる文書が有する情報が古くなっている場合がある。
また、Webページをクロールすることにより収集した文書で文書DBを構成する方法もあるが、Webページのクロール周期が長い場合、結果として、文書DBに含まれる文書が有する情報が、時間的に少し前の情報となることが多い。
このようなことから、現在のことについて尋ねる質問については、従来の質問応答システムでは適切な回答を得ることが難しい、という問題があった。
本発明は上記事実を考慮して成されたもので、現在のことについて尋ねる質問であっても適切な回答を出力することができる質問応答装置、方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、本発明の質問応答装置は、自然言語による質問文に対する回答の種類を示す回答タイプを解析する解析手段と、前記質問文に、現在を含む所定期間に含まれる時点または期間を表す単語、インターネット上で注目されている単語、及び表す対象が時間の経過に応じて変わる単語の少なくとも1つが含まれるか否かに基づいて、前記質問文が現在を含む所定期間のことについて尋ねる質問か否かを判定する判定手段と、前記質問文が現在を含む所定期間のことについて尋ねる質問の場合には、ウェブサイトから収集されて逐次更新される複数の文書からなる第1文書群を優先的に用いて、前記質問文に含まれる単語を検索条件として文書を検索し、前記質問文が現在を含む所定期間のことについて尋ねる質問ではない場合には、前記第1文書群より低い頻度で更新される複数の文書からなる第2文書群を優先的に用いて、前記質問文に含まれる単語を検索条件として文書を検索する検索手段と、前記検索手段により検索された文書に含まれる固有表現から、前記解析手段により解析された回答タイプに対応し、かつ前記質問文の回答としての確からしさを示す評価値が高い固有表現を前記質問文に対する回答として出力する出力手段と、を含んで構成されている。
本発明の質問応答装置によれば、解析手段が、自然言語による質問文に対する回答の種類を示す回答タイプを解析し、判定手段が、質問文に、現在を含む所定期間に含まれる時点または期間を表す単語、インターネット上で注目されている単語、及び表す対象が時間の経過に応じて変わる単語の少なくとも1つが含まれるか否かに基づいて、質問文が現在を含む所定期間のことについて尋ねる質問か否かを判定する。また、所定の記憶手段には、ウェブサイトから収集されて逐次更新される複数の文書からなる第1文書群と、第1文書群より低い頻度で更新される複数の文書からなる第2文書群とが記憶されている。
そして、検索手段が、質問文が現在を含む所定期間のことについて尋ねる質問の場合には、第1文書群を優先的に用いて、質問文に含まれる単語を検索条件として文書を検索し、質問文が現在を含む所定期間のことについて尋ねる質問ではない場合には、第2文書群を優先的に用いて、質問文に含まれる単語を検索条件として文書を検索する。そして、出力手段が、検索手段により検索された文書に含まれる固有表現から、解析手段により解析された回答タイプに対応し、かつ質問文の回答としての確からしさを示す評価値が高い固有表現を質問文に対する回答として出力する。
このように、質問文が現在を含む所定期間のことについて尋ねる質問か否かを判定し、現在を含む所定期間のことについて尋ねる質問の場合には、ウェブサイトから収集されて逐次更新される複数の文書からなる第1文書群を優先的に用いて検索された文書から回答を抽出することにより、現在のことについて尋ねる質問であっても適切な回答を出力することができる。
また、前記第1文書群に含まれる文書を、マイクロブログサイトから収集した文書とすることができる。このような文書は、現在の事象について有益な情報を含んでいると考えられ、質問文が現在のことについて尋ねる質問に対して適切な回答を出力できる可能性を高めることができる。
また、前記検索手段は、前記第1文書群から文書を検索する際、前記ウェブサイトの特性に基づいて、検索される文書数を低下させる単語として予め定められた除外単語リストを参照し、前記質問文に含まれる単語のうち、前記除外単語に該当しない単語を論理積で結合した検索条件、または前記除外単語に該当しない単語を論理積で結合し、かつ前記除外単語に該当する単語を論理和で結合した検索条件により文書を検索することができる。ウェブサイトでは、現在を含む所定期間に関する単語が省略されるような場合も多いため、このような検索条件とすることにより、検索される文書数の低下を防止することができる。
また、本発明の質問応答方法は、解析手段と、判定手段と、検索手段と、出力手段とを含む質問応答装置における質問応答方法であって、前記解析手段が、自然言語による質問文に対する回答の種類を示す回答タイプを解析し、前記判定手段が、前記質問文に、現在を含む所定期間に含まれる時点または期間を表す単語、インターネット上で注目されている単語、及び表す対象が時間の経過に応じて変わる単語の少なくとも1つが含まれるか否かに基づいて、前記質問文が現在を含む所定期間のことについて尋ねる質問か否かを判定し、前記検索手段が、前記質問文が現在を含む所定期間のことについて尋ねる質問の場合には、ウェブサイトから収集されて逐次更新される複数の文書からなる第1文書群を優先的に用いて、前記質問文に含まれる単語を検索条件として文書を検索し、前記質問文が現在を含む所定期間のことについて尋ねる質問ではない場合には、前記第1文書群より低い頻度で更新される複数の文書からなる第2文書群を優先的に用いて、前記質問文に含まれる単語を検索条件として文書を検索し、前記出力手段が、前記検索手段により検索された文書に含まれる固有表現から、前記解析手段により解析された回答タイプに対応し、かつ前記質問文の回答としての確からしさを示す評価値が高い固有表現を前記質問文に対する回答として出力する方法である。
また、本発明の質問応答プログラムは、コンピュータを、上記の質問応答装置を構成する各手段として機能させるためのプログラムである。
本発明の質問応答装置、方法、及びプログラムによれば、質問文が現在を含む所定期間のことについて尋ねる質問か否かを判定し、現在を含む所定期間のことについて尋ねる質問の場合には、ウェブサイトから収集されて逐次更新される複数の文書からなる第1文書群を優先的に用いて検索された文書から回答を抽出することにより、現在のことについて尋ねる質問であっても適切な回答を出力することができる、という効果を有する。
本実施の形態に係る質問応答装置の機能的構成を示すブロック図である。 本実施の形態における質問応答処理ルーチンを示すフローチャートである。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
本実施の形態に係る質問応答装置10は、CPUと、RAMと、後述する質問応答処理ルーチンを実行するためのプログラム及び各種データを記憶したROMとを備えたコンピュータで構成されている。また、記憶手段としてHDDを設けてもよい。
質問応答装置10を構成するコンピュータは、機能的には、図1に示すように、質問解析部11と、リアルタイム判定部12と、文書検索部13と、回答候補抽出部14と、回答評価部15とを含んだ構成で表すことができる。なお、質問解析部11は本発明の解析手段の一例であり、リアルタイム判定部12は本発明の判定手段の一例であり、文書検索部13は本発明の検索手段の一例であり、回答候補抽出部14及び回答評価部15は本発明の出力手段の一例である。また、質問応答装置10を構成するコンピュータの所定の記憶領域には、カレントワードリスト20と、バーストワードリスト21と、デイリーワードリスト22と、除外ワードリスト23と、第1文書データベース(DB)24と、第2文書DB25とが記憶されている。
質問解析部11は、入力された自然言語からなる質問文(テキストデータ)を受け付け、質問文を形態素解析すると共に、質問文に対する回答タイプを解析する。回答タイプとは、質問が何を聞いているかを指し、例えば、人名や地名などである。「世界一高い山は」という質問であれば、「地名」や「山」などが回答タイプとなる。質問解析部11は、例えば、質問がどの固有表現を回答として求めているかを推定することにより、回答タイプを解析することができる。固有表現とは、固有名詞、数量表現、日付表現など特定の事物を指す表現のことである。回答タイプの解析には、一般的な機械学習の手法を用いることができる。また、回答タイプの粒度は適宜設定可能である。例えば、IREXと呼ばれる会議で提案された8種類を用いて回答タイプを分類してもよいし、ニューヨーク大の関根らが提案の固有表現の分類体系である拡張固有表現の分類に従った200種類を用いて回答タイプを分類してもよい。200種類の分類を用いた場合には、例えば、「世界一高い山は」の質問文に対しては、「Mountain」が回答タイプとして解析される。
リアルタイム判定部12は、質問文が現在のことについて尋ねる質問か否かを判定する。ここでいう「現在」には、現在を含む所定期間に含まれる時点または期間を含む概念である。なお、以下では、現在のことについて尋ねる質問を「リアルタイム質問」という。
質問文には、「現在」、「今」、「今日」などの現在を表現する単語が必ず含まれているとは限らないため、リアルタイム質問かどうかを適切に判定することは単純ではない。例えば、オリンピックが開催されている期間中であれば、「金メダル取ったのは誰」という質問文がユーザによって入力されることが想定される。この質問については、過去に開催されたオリンピックの金メダリストの名前を回答するより、現在開催中のオリンピックで金メダルを取った人の名前を回答することがより適切であると考えられる。また、「番組Bのゲストは誰」という質問に対しても、何年も前の番組Bのゲストを回答するよりも、直近の番組Bのゲストの名前を回答することがより適切であると考えられる。
そこで、リアルタイム判定部12は、質問文に、カレントワード、バーストワード、及びデイリーワードの少なくとも1つが含まれるか否かに基づいて、質問文がリアルタイム質問かどうかを判定する。
カレントワードとは、時間、特に、現在を含む所定期間に含まれる時点または期間を表す単語のことである。例えば、下記に示すような単語群をカレントワードリスト20として記憶しておく。
今、現在、今頃、今朝、今晩、今夜、昨夜、先程、さっき、今日、明日、
昨日、あさって、おととい、しあさって、今週、来週、週末
質問文にカレントワードが含まれる場合には、質問の対象も現在のことである可能性が高く、リアルタイム質問であると判定することができる。
バーストワードとは、インターネット上で注目されている単語のことで、例えば、インターネット上でユーザによって書き込まれる数が急激に増加した単語や、検索エンジンなどの検索ワードとして用いられる回数が急激に増加した単語のことである。例えば、オリンピック期間中であれば「オリンピック」や「金メダル」などがバーストワードになると考えられる。バーストワードに該当する単語群をバーストワードリスト21として記憶しておく。質問文にバーストワードが含まれる場合には、ユーザは、現在注目されている事象について質問している可能性が高く、リアルタイム質問であると判定することができる。
バーストワードのリスト化の一例について説明する。例えば、マイクロブログサービスであるTwitter(登録商標)のデータから、直近の出現回数が急激に多くなった単語を自動的に獲得する。より具体的には、現在からn時間前までのある単語の出現頻度と、n時間より以前の当該単語の出現頻度とを比較し、その出現頻度の比が一定値(例えば、10倍)よりも大きい単語を抽出することにより、バーストワードをリスト化することができる。バーストワードリスト21は、例えば、20分毎といったように、一定時間毎に更新する。以下に、2012年9月21日08:00現在におけるバーストワードの一部を示す。
船主、ボレー、カチカチッ、カカヒアカ、きびう、阪急京都線、オルグ、
富田、変幻自在、交通安全週間、秘境駅、補助金、雨女、中国当局、
岩国基地、セレモニー、アフィリエイター、おはあり
デイリーワードとは、日替わり単語という意味で、その単語の表す対象が時間の経過に応じて変わる単語である。例えば、今日の「チームAの先発」と明日の「チームAの先発」とでは、「先発」が表す人物は異なるであろう。このように、「先発」や、同様の性質を持つ「ゲスト」などの単語がデイリーワードとなる。例えば、下記に示すような単語群をデイリーワードリスト22として記憶しておく。
ゲスト、価格、天気、時刻、お客様、時間、主役、テーマ、一枚、ライブ、
曲、ネイル、試合、誕生石、話題、予想、気温、御天気、収録、MVP、
寒さ、日没、ラジオ、季節、コーディネート、イベント、日付、オススメ、
衣装、髪型、終り値、スタッフ、冷え込み、ネタ、アレンジ、先発、トップ、
注目、競馬、ニュース、おすすめ、一面、服、トピック、テレビ、音楽、
レート、スタジオ、司会、コーデ、映画、湿度、発売、撮影、登場、発表、
結婚、誕生、デビュー、死去、開催、参加、完成、放送、出演、終了、急死、
発生、実施、到着、活躍、発足、参戦、引退、リリース、開業、来日、訪問、
退職、発行、公開、帰国、合意、掲載、解散、開幕、開通、急逝、他界
質問文にデイリーワードが含まれている場合には、ユーザは、その単語が表す対象の中でも最新のものを知りたい可能性が高く、リアルタイム質問であると判定することができる。
リアルタイム判定部12は、質問解析部11による形態素解析結果を受け付けて、質問文に含まれる各単語と、上述したカレントワードリスト20、バーストワードリスト21、及びデイリーワードリスト22に含まれるいずれかの単語とが一致するか否かを照合する。なお、バーストワードは複数の単語からなる場合がある。そのような場合を考慮し、バーストワードについては、これらの単語が文字列として含まれているか否かを、例えば正規表現によるマッチングにより照合する。照合の結果に基づいて、質問文に、各ワードリストに含まれるいずれかの単語と一致する単語が含まれている場合には、その質問文はリアルタイム質問であると判定する。
例えば、「今の気温は」という質問文であれば、「今」、「の」、「気温」、「は」のように単語に分割された形態素解析結果を受け付ける。ここでは、「今」がカレントワードに一致するため、「今の気温は」という質問文は、リアルタイム質問であると判定される。
なお、リアルタイム判定部12は、質問文がリアルタイム質問か否かの判定に、機械学習の手法を適用してもよい。具体的には、複数の質問文を準備し、これらの質問がリアルタイム質問であるか否かを示す二値のラベルを人手で付与する。そして、一般的な機械学習の手法(例えば、単純ベイズ分類器やSVM)を用いて、リアルタイム質問か否かの二値判定を行う分類器を構築すればよい。ここで、学習に用いる特徴量は、テキスト分類で一般的な単語のunigram特徴量や、カレントワード、バーストワード、及びデイリーワードがそれぞれ含まれるか否かを表す特徴量を用いればよい。
文書検索部13は、質問文に含まれる重要な単語を抽出し、抽出した単語を検索キーワードとして検索条件を作成し、第1文書DB24及び第2文書DB25から文書を検索する。重要な単語は、例えば、内容語(名詞、動詞、形容詞、未知語)に該当する単語とすることができる。例えば、「世界一高い山は」という質問文から「世界一」、「高い」、「山」という内容語を抽出し、抽出した内容語を検索キーワードとする「“世界一”AND“高い”AND“山”」という検索条件を作成して、文書を検索する。
文書検索部13は、文書検索の際、質問文がリアルタイム質問の場合には、第1文書DB24を優先的に用いて文書検索を行い、質問文がリアルタイム質問ではない場合には、第2文書DB25を優先的に用いて文書検索を行う。
第1文書DB24は、逐次更新されるウェブサイトから収集されて逐次更新される複数の文書で構成されている。逐次更新されるウェブサイトとは、ユーザが現状について大量の書き込みを行うマイクロブログサイト(例えば、Twitter(登録商標))のようなウェブサイトである。マイクロブログサイトのような逐次更新されるウェブサイトでは、ユーザが日々現在の様々な話題について書き込みを行っており、現在の事象について有益な情報を含んでいる。第1文書DB24は、逐次更新されるウェブサイトに投稿された文書データ、例えばTwitter(登録商標)のツイートを逐次読み込んで登録することにより構成され、最新の情報が常に検索可能となるようにしたデータベースである。
第2文書DB25は、従来の質問応答システムにおける文書DBと同様に、固定的なデータベースである。例えば、新聞記事を収集した文書DBや、Web検索エンジンが内部に持つような、Webページをクロールして構築した文書DBである。
文書検索部13は、例えば、単語の出現頻度(tf)と逆文書頻度(idf)との2つの指標で表されるTFIDFによる単語重みを用いたベクタースペースモデルを用いて文書を検索することができる。これは、質問文と検索対象の文書とをそれぞれ単語ベクトルで表し、これらのベクトルの類似度の大きい順で文書を検索する手法である。また、この単語ベクトルはTFIDFによって重みが与えられている。なお、文書検索の手法は、この方法に限定されず、従来既知の手法を用いることができる。
また、文書検索部13は、第1文書DB24から文書を検索する際、質問文に含まれる内容語から、除外ワードリスト23に含まれている除外ワードに該当する内容語を除外して検索条件を作成する。除外ワードリスト23は、例えば、「今」、「今日」、「現在」といった単語を除外ワードとしてリスト化したものである。例えば、「今の気温は」という質問であれば、まず形態素解析結果から、内容語である「今」及び「気温」を抽出する。「今」は除外ワードに該当する単語であるので検索条件から除外し、検索条件(検索キーワード)は「気温」となる。
これは、マイクロブログのような逐次更新されるウェブサイトでは、今日や現在に関する話題を投稿する場合が多く、わざわざ「今日」や「現在」という単語を文書に含めるユーザは少ない、という特性を考慮したものである。例えば、マイクロブログでは、「今日の横浜の降水確率は○○です」のような投稿ではなく、「今日の」を省略した「横浜の降水確率は○○です」という形で投稿されることが多い。逐次更新されるウェブサイトの上記のような特性から、「今日」や「現在」といった単語を検索条件に含めてしまうと、文書検索でヒットする文書の数を大きく減らしてしまう可能性があるため、これを防止するものである。「今日」や「現在」以外にも、逐次更新されるウェブサイトの特性上、検索ヒット数の低下につながる可能性がある単語を除外ワードリスト23に登録しておく。
なお、除外ワードに該当する単語を検索条件から除外するのではなく、除外ワードに該当しない単語をAND条件の検索キーワードとし、除外ワードに該当する単語をOR条件の検索キーワードとする検索条件を作成してもよい。
また、文書検索部13は、リアルタイム判定部12の判定結果に応じて、第1文書DB24または第2文書DB25を優先的に用いて文書検索を行が、検索対象のデータベースの切り替えの一例について説明する。例えば、質問文がリアルタイム質問であると判定され、第1文書DB24から文書検索を行った結果、検索された文書数が一定の件数(例えば、10件)以上であれば、第2文書DB25からの文書検索は行わない。一方、検索された文書数が一定の件数に満たない場合には、後段で回答候補を抽出できる可能性が低いとみなし、第2文書DB25からも文書検索を行う。この処理により、文書検索部13は1つの質問文について、第1文書DB24から最大N件の文書、または第2文書DB25から最大M件の文書を返す。NやMは、例えば50とすることができる。
また、第1文書DB24及び第2文書DB25の両方を検索対象とし、これらの両方の検索結果を統合してもよい。この際、質問文がリアルタイム質問の場合にはN>Mとし、質問文がリアルタイム質問ではない場合にはN<Mとするとよい。
回答候補抽出部14は、文書検索部13で検索された文書集合から、質問解析部11で解析された回答タイプに対応する固有表現を回答候補として抽出する。固有表現の抽出には、サポートベクトルマシン(SVM)や条件付き確率場(CRF)などの一般的な機械学習の手法を用いることができる。例えば、質問解析部11で解析された質問文の回答タイプが「Mountain」の場合、検索された文書集合から「Mountain」に該当する固有表現を抽出する。検索された文書集合に「エベレストは世界で一番高い山です」といった文章が存在する場合には、「Mountain」の固有表現として「エベレスト」が抽出できる。文書検索部13により検索された全ての文書から、回答タイプに対応する全ての固有表現を抽出し、回答評価部15に送出する。
回答評価部15は、回答候補抽出部14により回答候補として抽出された固有表現が、質問文の回答としてどの程度確からしいかを示す評価値に基づいて、回答候補を評価する。例えば、抽出された回答候補が含まれる文脈が検索キーワードをどの程度含むかによって、評価することができる。より具体的には、評価対象の回答候補が含まれる文脈に検索キーワードが多く含まれるほど、または重要と思われる検索キーワードが多く含まれるほど高くなるスコアを、その評価対象の回答候補に付与して評価することができる。
さらに具体的には、回答評価部15は、単語密度による手法を用いて回答候補を評価することができる。これは、回答候補の周辺K単語について、検索キーワードがどの程度含まれているかによってスコアを付与する手法である。例えば、文書検索部13による検索結果が上位の文書に含まれている回答候補であって、重要な単語がなるべく近くにある回答候補の方がより回答としての確からしさが高いことを表す下記(1)式に示すスコアを付与することができる。
Figure 0005661719
ここで、Cは回答候補(Candidate)を表す。score(C)は回答候補Cのスコアを返す関数である。rank(C)は回答候補Cが含まれる文書の文書検索結果の順位を返す関数である。rank(C)の逆数を取ることで、文書検索での検索順位が低くなるほど、スコアが低くなるようにする。Wは回答候補Cの周辺K単語に含まれる検索キーワードと一致する単語の集合である。Kは、例えば20とすることができる。dist(C,w)はCとwとの単語間距離に基づく重みを返す関数である。Cとwとの単語間距離が近いほど大きな値が返る関数であればよく、例えば、ハニング窓関数を用いることができる。idfはwのIDF(Inverse Document Frequency)を返す関数である。このようにして、全ての回答候補についてそれぞれスコアを求め、このスコアの上位L件(例えば、20件)を入力された質問文に対する回答として出力する。
次に、本実施の形態に係る質問応答装置10の作用について説明する。質問応答装置10に質問文(テキストデータ)が入力されると、質問応答装置10において、図2に示す質問応答処理ルーチンが実行される。
ステップ100で、質問解析部11が、質問文を受け付け、次のステップ102で、質問文を形態素解析し、質問文に含まれる固有表現に基づいて、質問文に対する回答タイプを解析する。
次に、ステップ104で、リアルタイム判定部12が、上記ステップ102で解析された質問文の形態素解析結果に基づいて、質問文に含まれる各単語と、カレントワードリスト20、バーストワードリスト21、及びデイリーワードリスト22に含まれるいずれかの単語とが一致するか否かを照合することにより、質問文がリアルタイム質問か否かを判定する。質問文がリアルタイム質問の場合には、ステップ106へ移行し、リアルタイム質問ではない場合には、ステップ110へ移行する。
ステップ106では、文書検索部13が、上記ステップ102で解析された質問文の形態素解析結果に基づいて、質問文に含まれる重要な単語を抽出し、抽出した単語を検索キーワードとして検索条件を作成し、作成した検索条件に基づいて、第1文書DB24から文書を検索する。
次に、ステップ108で、文書検索部13が、上記ステップ106の文書検索結果がJ件以上か否かを判定する。J件以上の場合には、ステップ112へ移行し、J件未満の場合には、ステップ110へ移行する。
ステップ110では、文書検索部13が、上記ステップ102で解析された質問文の形態素解析結果に基づいて、質問文に含まれる重要な単語を抽出し、抽出した単語を検索キーワードとして検索条件を作成し、作成した検索条件に基づいて、第2文書DB25から文書を検索して、ステップ112へ移行する。
ステップ112では、回答候補抽出部14が、上記ステップ106または110で検索された文書集合から、上記ステップ102で解析された回答タイプに対応する固有表現を回答候補として抽出する。
次に、ステップ114で、回答評価部15が、上記ステップ112で抽出された回答候補に、例えば(1)式に示すようなスコアを付与し、次のステップ116で、スコアが上位L件となる回答候補を、入力された質問文に対する回答として出力し、質問応答処理ルーチンを終了する。
なお、図2に示す質問応答処理ルーチンは一例であり、これに限定されない。特に、ステップ106〜110では、リアルタイム質問か否かの判定結果を受けて第1文書DB24及び第2文書DB25のいずれかを優先的に用いて文書を検索すればよく、上記の例に限定されない。
ここで、実際のテレビ番組Cについて、「番組Cのゲストは誰」という質問を入力し、本実施の形態に係る質問応答装置10により質問応答を行った結果について説明する。上記の質問文は、「ゲスト」というデイリーワードに一致する単語を含むことから、リアルタイム判定部12により、リアルタイム質問であると適切に判定され、第1文書DB24から文書検索を行い、以下に示す回答が出力された(2012年9月21日時点)。なお、以下の出力結果において、1つ目のカラムは回答の順位、2つ目のカラムは回答、3つ目のカラムはスコアである。なお、回答は実際に出力された回答の一部をアルファベットで表記している。また、4つ目のカラムのかっこ内の数字は、文書検索結果における回答の出現回数であり、参考として表示している。下記の出力結果において、1位の回答「K谷Sり」は、上記の質問文に対する正解の回答であった。
Q:番組Cのゲストは誰[リアルタイム検索をしました]
1 K谷Sり 12.7701503014849 (10)
2 N野Kナ 12.7651503014849 (18)
3 M田K義 12.7626503014849 (8)
4 Y沢T 12.7601503014849 (1)
5 Eちゃん 11.0056199324983 (1)
6 K柳T子 8.81151916200213 (4)
7 T中M保 8.74868394709205 (2)
8 M井R奈 8.40785198455885 (8)
9 M坂 8.1526876875445 (1)
10 Pるる 7.8206270864018 (1)
比較として、リアルタイム判定部12を持たない構成の質問応答装置に、同じ質問を入力して質問応答を行った結果を下記に示す。下記の出力結果において、1位の回答は確かに番組Cのゲストであったが、半年前の出演であり、ユーザが期待する回答である可能性が低いものであった。
Q:番組Cのゲストは誰
1 M.D. 11.5617746915704 (1)
2 T山T二 10.8033227735609 (6)
3 T本M織 10.3915227682527 (2)
4 S藤K義 10.1827909377348 (4)
5 H.K. 9.12006017831084 (2)
6 M浦S平 9.00368052796257 (3)
7 N川Nお 8.54764187093268 (2)
8 M迫 8.53526485667341 (1)
9 Y田A子 8.40894906719973 (2)
10 K出 8.35377665340663 (1)
以上説明したように、本実施の形態に係る質問応答装置によれば、質問文がリアルタイム質問か否かを判定し、リアルタイム質問の場合には、マイクロブログサイトのように逐次更新されるウェブサイトから収集されて逐次更新される文書DBを優先的に用いて検索された文書から回答を抽出することにより、現在のことについて尋ねる質問であっても適切な回答を出力することができる。
なお、上記実施の形態では、リアルタイム判定部の判定結果に応じて、優先的に文書を検索する文書DBを切り替える場合について説明したが、両方の文書DBを用いてM+N件の文書を取得する場合において、回答評価部で回答候補に付与するスコアにリアルタイム判定部の判定結果を反映させるようにしてもよい。例えば、質問文がリアルタイム質問の場合には、第1文書DBを用いて検索された文書から抽出された回答候補に高いスコアを付与し、質問文がリアルタイム質問ではない場合には、第2文書DBを用いて検索された文書から抽出された回答候補に高いスコアを付与するようにすることができる。
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
また、上述の質問応答装置は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。また、本発明は、周知のコンピュータに媒体もしくは通信回線を介して、プログラムをインストールすることによっても実現可能である。
10 質問応答装置
11 質問解析部
12 リアルタイム判定部
13 文書検索部
14 回答候補抽出部
15 回答評価部
20 カレントワードリスト
21 バーストワードリスト
22 デイリーワードリスト
23 除外ワードリスト
24 第1文書DB
25 第2文書DB

Claims (5)

  1. 自然言語による質問文に対する回答の種類を示す回答タイプを解析する解析手段と、
    前記質問文に、現在を含む所定期間に含まれる時点または期間を表す単語、インターネット上で注目されている単語、及び表す対象が時間の経過に応じて変わる単語の少なくとも1つが含まれるか否かに基づいて、前記質問文が現在を含む所定期間のことについて尋ねる質問か否かを判定する判定手段と、
    前記質問文が現在を含む所定期間のことについて尋ねる質問の場合には、ウェブサイトから収集されて逐次更新される複数の文書からなる第1文書群を優先的に用いて、前記質問文に含まれる単語を検索条件として文書を検索し、前記質問文が現在を含む所定期間のことについて尋ねる質問ではない場合には、前記第1文書群より低い頻度で更新される複数の文書からなる第2文書群を優先的に用いて、前記質問文に含まれる単語を検索条件として文書を検索する検索手段と、
    前記検索手段により検索された文書に含まれる固有表現から、前記解析手段により解析された回答タイプに対応し、かつ前記質問文の回答としての確からしさを示す評価値が高い固有表現を前記質問文に対する回答として出力する出力手段と、
    を含む質問応答装置。
  2. 前記第1文書群に含まれる文書を、マイクロブログサイトから収集した文書とした請求項1記載の質問応答装置。
  3. 前記検索手段は、前記第1文書群から文書を検索する際、前記ウェブサイトの特性に基づいて、検索される文書数を低下させる単語として予め定められた除外単語リストを参照し、前記質問文に含まれる単語のうち、前記除外単語に該当しない単語を論理積で結合した検索条件、または前記除外単語に該当しない単語を論理積で結合し、かつ前記除外単語に該当する単語を論理和で結合した検索条件により文書を検索する請求項1または請求項2記載の質問応答装置。
  4. 解析手段と、判定手段と、検索手段と、出力手段とを含む質問応答装置における質問応答方法であって、
    前記解析手段が、自然言語による質問文に対する回答の種類を示す回答タイプを解析し、
    前記判定手段が、前記質問文に、現在を含む所定期間に含まれる時点または期間を表す単語、インターネット上で注目されている単語、及び表す対象が時間の経過に応じて変わる単語の少なくとも1つが含まれるか否かに基づいて、前記質問文が現在を含む所定期間のことについて尋ねる質問か否かを判定し、
    前記検索手段が、前記質問文が現在を含む所定期間のことについて尋ねる質問の場合には、ウェブサイトから収集されて逐次更新される複数の文書からなる第1文書群を優先的に用いて、前記質問文に含まれる単語を検索条件として文書を検索し、前記質問文が現在を含む所定期間のことについて尋ねる質問ではない場合には、前記第1文書群より低い頻度で更新される複数の文書からなる第2文書群を優先的に用いて、前記質問文に含まれる単語を検索条件として文書を検索し、
    前記出力手段が、前記検索手段により検索された文書に含まれる固有表現から、前記解析手段により解析された回答タイプに対応し、かつ前記質問文の回答としての確からしさを示す評価値が高い固有表現を前記質問文に対する回答として出力する
    質問応答方法。
  5. コンピュータを、請求項1〜請求項3のいずれか1項記載の質問応答装置を構成する各手段として機能させるための質問応答プログラム。
JP2012236006A 2012-10-25 2012-10-25 質問応答装置、方法、及びプログラム Active JP5661719B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012236006A JP5661719B2 (ja) 2012-10-25 2012-10-25 質問応答装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012236006A JP5661719B2 (ja) 2012-10-25 2012-10-25 質問応答装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2014085947A JP2014085947A (ja) 2014-05-12
JP5661719B2 true JP5661719B2 (ja) 2015-01-28

Family

ID=50788928

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012236006A Active JP5661719B2 (ja) 2012-10-25 2012-10-25 質問応答装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP5661719B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109241249B (zh) * 2018-07-16 2021-09-14 创新先进技术有限公司 一种确定突发问题的方法及装置
EP4022603A4 (en) * 2019-08-27 2023-08-23 Ushur, Inc. SYSTEM AND METHOD FOR EXTRACTING CUSTOMIZED INFORMATION IN NATURAL LANGUAGE TEXT
CN112883715B (zh) * 2019-11-29 2023-11-07 武汉渔见晚科技有限责任公司 一种词向量的构建方法及装置
CN114118060B (zh) * 2021-11-10 2022-09-27 北京深维智信科技有限公司 一种从销售会话中自动识别关键事件的方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4114927B2 (ja) * 2003-08-13 2008-07-09 株式会社東芝 文書検索システム、質問応答システム、文書検索方法
CN101398835B (zh) * 2007-09-30 2012-08-29 日电(中国)有限公司 基于自然语言的服务选择系统与方法以及服务查询系统与方法

Also Published As

Publication number Publication date
JP2014085947A (ja) 2014-05-12

Similar Documents

Publication Publication Date Title
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
CN109690529B (zh) 按事件将文档编译到时间线中
CN109101533B (zh) 自动化阅读理解
US7809664B2 (en) Automated learning from a question and answering network of humans
CN104885081B (zh) 搜索系统和相应方法
US9122680B2 (en) Information processing apparatus, information processing method, and program
US8103650B1 (en) Generating targeted paid search campaigns
CA2774278C (en) Methods and systems for extracting keyphrases from natural text for search engine indexing
JP6381775B2 (ja) 情報処理システム及び情報処理方法
CN105917364B (zh) 对问答论坛中讨论话题的排名
US20100235343A1 (en) Predicting Interestingness of Questions in Community Question Answering
JP6429382B2 (ja) コンテンツ推薦装置、及びプログラム
CN110309265B (zh) 一种决定视频是否推送相关法律知识的方法
CN104008180A (zh) 结构化数据与图片的关联方法与关联装置
JP5661719B2 (ja) 質問応答装置、方法、及びプログラム
JP4466334B2 (ja) 情報分類方法及び装置及びプログラム及びプログラムを格納した記憶媒体
CN115470344A (zh) 一种基于文本聚类的视频弹幕与评论主题融合的方法
CN111274366A (zh) 搜索推荐方法及装置、设备、存储介质
Mizzaro et al. Short text categorization exploiting contextual enrichment and external knowledge
US20210406291A1 (en) Dialog driven search system and method
KR101265467B1 (ko) 블로그 문서에서의 경험 문장 추출 방법 및 동사 분류 방법
EP3905060A1 (en) Artificial intelligence for content discovery
CN110851560B (zh) 信息检索方法、装置及设备
JP4462014B2 (ja) 話題語結合方法及び装置及びプログラム
US10176176B2 (en) Assistance for video content searches over a communication network

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140730

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140805

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140925

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141104

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141203

R150 Certificate of patent or registration of utility model

Ref document number: 5661719

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250