JP2006163623A - 質問応答装置及び質問応答プログラム、並びに、テレビ受像機 - Google Patents

質問応答装置及び質問応答プログラム、並びに、テレビ受像機 Download PDF

Info

Publication number
JP2006163623A
JP2006163623A JP2004351749A JP2004351749A JP2006163623A JP 2006163623 A JP2006163623 A JP 2006163623A JP 2004351749 A JP2004351749 A JP 2004351749A JP 2004351749 A JP2004351749 A JP 2004351749A JP 2006163623 A JP2006163623 A JP 2006163623A
Authority
JP
Japan
Prior art keywords
question
article
word
information
answer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004351749A
Other languages
English (en)
Inventor
Atsushi Goto
淳 後藤
Noriyoshi Uratani
則好 浦谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP2004351749A priority Critical patent/JP2006163623A/ja
Publication of JP2006163623A publication Critical patent/JP2006163623A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 質問が不完全な場合であっても、適切に質問の内容を把握し、その回答を出力することが可能な質問応答装置を提供する。
【解決手段】 質問応答装置1は、概念辞書DBcに基づいて、質問種別を概念情報として特定する質問特定手段11と、記事出現頻度DBbに基づいて、質問に含まれる単語を検索語として、記事DBaから質問に関連する関連記事を検索する記事検索手段12と、関連記事に含まれる単語の概念情報と、質問種別とに基づいて、関連記事から回答となる単語を回答情報として推論する推論手段13とを備えていることを特徴とする。
【選択図】 図1

Description

本発明は、自然言語で入力された、ユーザからの質問に対して応答を行う質問応答装置及び質問応答プログラム、並びに、質問応答装置を備えたテレビ受像機に関する。
従来、テレビ受像機で放送番組を視聴している視聴者(ユーザ)が、その番組内で分からない言葉や、疑問に思った内容について、質問を入力することで、その回答を検索し提示するシステムが種々提案されている。
例えば、近年では、パーソナルコンピュータ及びインターネットの普及により、検索エンジン等によって、インターネットに接続されたデータベースから、ユーザが知りたい情報を検索することで、画面上に検索結果(回答)を提示する技術が一般化している。
また、他のシステムとしては、ユーザが入力した質問(質問情報)に対して、その質問情報に含まれるキーワードに基づいて、回答を記憶している文書データベースから、回答を検索して提示する質問応答システムが開示されている(特許文献1参照)。
この質問応答システムでは、入力された質問情報が、「ロシアの大統領は誰ですか?」であった場合、質問情報の中から「ロシア」及び「大統領」をキーワードとして抽出し、そのキーワードに基づいて、文書データベースから「プーチン」、「エリツィン」等の回答候補と、その回答の根拠となる文書の一部を提示するものである。
特開2002−132812号公報(段落0015〜0033、図1)
しかし、従来のインターネットによる情報検索は、パソコンやマウス等の入力手段を使いこなせる、限られた人しかその操作を行うことができない。例えば、高齢者の中には、パソコン等の操作ができない人もいるため、テレビ番組を視聴中に、分からない言葉や、疑問に思った内容があっても、解決できないままになってしまうという問題がある。
また、従来の質問応答システムは、例えば、「NHKの連続テレビ小説の主演女優は誰ですか?」という質問情報に対して、「NHKの連続テレビ小説の主演女優は」というように「誰ですか?」という疑問詞が省略されている場合には、質問の種別を判定することができず、正しい回答を出力することができない。また、従来の質問応答システムは、例えば、「NHKの連続テレビ小説の主演女優は誰ですか?」という質問情報に対して、「NHKの連続テレビ小説に主演したのは?」のように、修飾される語句(先行詞:ここでは「女優」)が省略されている場合にも、質問の種別を判定することができず、正しい回答を出力することができない。
すなわち、従来の質問応答システムでは、入力された質問情報が不完全な場合、正しい回答を出力することができないため、ユーザは正確に質問情報を入力する必要があり、使い勝手の悪いものとなっていた。
また、従来の質問応答システムは、文書データベースを更新する機能がない、あるいは、手動で更新するしか方法がないため、テレビ番組等で放送される新出の固有名詞等に素早く対応することができず、新しい時事情報に対するユーザの質問に対して、リアルタイムで回答を行うことができないという問題がある。
本発明は、以上のような課題を解決するためになされたものであり、ユーザから入力される質問(質問情報)が不完全な場合であっても、適切に質問の内容を把握し、その回答を生成することが可能な質問応答装置及び質問応答プログラム、並びに、質問応答装置を備えたテレビ受像機を提供することを目的とする。さらに、本発明は、新しい時事情報に対しても回答を行うことが可能な質問応答装置及び質問応答プログラム、並びに、質問応答装置を備えたテレビ受像機を提供することを目的とする。
本発明は、前記目的を達成するために創案されたものであり、まず、請求項1に記載の質問応答装置は、入力された質問を示す質問情報に対して、その回答となる回答情報を生成する質問応答装置であって、概念辞書記憶手段と、質問特定手段と、記事データ記憶手段と、記事出現頻度記憶手段と、記事検索手段と、推論手段とを備える構成とした。
かかる構成によれば、質問応答装置は、概念辞書記憶手段に、単語とその単語の概念を示す概念情報とを対応付けた概念辞書を記憶しておく。そして、質問応答装置は、質問特定手段によって、概念辞書記憶手段に記憶されている概念辞書を参照することで、質問情報における質問の種別(例えば、「人」に関する質問であるのか、「場所」に関する質問であるのか等)を概念情報として特定する。これによって、質問に含まれている単語だけではなく、その単語の上位概念によって質問を特定することができるため、その質問の種別(質問種別)に幅を持たせることができる。
また、質問応答装置は、記事データ記憶手段に、質問に対する回答を検索するための情報源となる記事を記憶し、記事出現頻度記憶手段に、記事に含まれる単語毎に、記事データ記憶手段に記憶されている全記事における、当該単語が出現する記事の割合を示す記事出現頻度を記憶する。この記事出現頻度を参照することで、ある単語の重要度を判定することができる。例えば、記事出現頻度が少ない単語ほど、特定の記事に限って出現することになり、より重要度の高い単語とみなすことができる。また、逆に記事出現頻度が多い単語ほど、多くの記事に出現することになり、重要度の低い単語であるとみなすことができる。
そして、質問応答装置は、記事検索手段によって、記事出現頻度記憶手段に記憶されている記事出現頻度を参照することで、質問情報に含まれる単語を検索語として、記事データ記憶手段から質問情報に関連する記事を関連記事として検索する。これによって、重要度の高い単語を含んだ記事を検索することができる。
そして、質問応答装置は、推論手段によって、記事検索手段で検索された関連記事に含まれる単語の概念情報と、質問特定手段で特定された質問種別(概念情報)とが合致する単語を、回答情報として特定(推論)する。このように、概念情報を基準として、回答情報を推定するため、記事内に質問種別に該当する直接的な記載がなくても、回答に近い候補を推定することができる。
また、請求項2に記載の質問応答装置は、請求項1に記載の質問応答装置において、前記質問特定手段が、疑問詞解析手段を備える構成とした。
かかる構成によれば、質問応答装置は、疑問詞解析手段によって、質問情報を形態素解析することで、当該質問情報に含まれている疑問詞を特定し、その疑問詞に対応する概念情報を質問種別として特定する。これによって、「どこ」、「だれ」等の疑問詞から、質問が意図する内容を解析することができる。例えば、疑問詞「どこ」から、予め定めた概念情報として「場所」、「組織」等が、質問の対象となっていることを特定する。
さらに、請求項3に記載の質問応答装置は、請求項1又は請求項2に記載の質問応答装置において、前記質問特定手段が、先行詞解析手段を備える構成とした。
かかる構成によれば、質問応答装置は、先行詞解析手段によって、質問情報を構文解析することで、修飾語によって修飾された単語である先行詞を特定し、その先行詞に対応する概念情報を質問種別として特定する。これによって、質問応答装置は、質問が意図する内容が、先行詞に関連するものであると解析することができる。
また、請求項4に記載の質問応答装置は、請求項1乃至請求項3のいずれか一項に記載の質問応答装置において、前記質問特定手段が、種別分類手段を備える構成とした。
かかる構成によれば、質問応答装置は、種別分類手段によって、少なくとも自立語(動詞、形容詞、形容動詞、名詞、代名詞、副詞、連体詞、感動詞及び接続詞)の概念情報により質問種別を学習した学習データを参照して、質問情報に含まれる自立語から質問種別を特定する。例えば、2分類器であるサポートベクターマシンによって、質問情報に含まれる自立語の概念情報が、2分類のどちらに分類されるかを判定する。これによって、例えば、質問情報に含まれる自立語の概念情報が、「人」に関する質問であるのか、あるいは、「人」に関する質問ではないのかを判定することができる。なお、種別分類手段は、複数の2分類器を連結した構成とすることで、複数の分類項目によって、質問種別を特定することができる。
さらに、請求項5に記載の質問応答装置は、請求項1乃至請求項4のいずれか一項に記載の質問応答装置において、前記推論手段が、文抽出手段と、候補語抽出手段と、回答決定手段とを備える構成とした。
かかる構成によれば、質問応答装置は、文抽出手段によって、関連記事の中から、記事出現頻度が最も少ない単語を含んだ文を抽出する。これによって、重要度の高い単語を含んだ文が抽出されることになる。そして、質問応答装置は、候補語抽出手段によって、文抽出手段で抽出された文の各単語の概念情報と、質問特定手段で特定された質問種別とに基づいて、回答の候補となる候補語を抽出する。そして、質問応答装置は、回答決定手段によって、候補語抽出手段で抽出された候補語の中で、記事出現頻度が少なく、当該候補語及び検索語の形態素単位での距離が短いものを、回答となる単語として決定する。これは、記事出現頻度が少ないほど単語としての重要度が高く、また、検索語からの距離が短いものほど、質問に対する関連性が高いためである。
また、請求項6に記載の質問応答装置は、請求項1乃至請求項5のいずれか一項に記載の質問応答装置において、受信手段と、送信手段とを備える構成とした。
かかる構成によれば、質問応答装置は、受信手段によって、質問情報を送信する機能を備えた携帯電話から質問情報を受信し、送信手段によって、回答情報を携帯電話に送信する。これによって、携帯電話から音声信号やテキストデータとして、質問情報及び回答情報を送受信することができる。
さらに、請求項7に記載の質問応答装置は、請求項1乃至請求項6のいずれか一項に記載の質問応答装置において、記事取得手段と、記事更新手段とを備える構成とした。
かかる構成によれば、質問応答装置は、記事取得手段によって、放送波又は通信回線を介して、記事を取得する。例えば、記事取得手段は、放送波を介して放送されるデジタル放送に含まれる放送データを記事として取得したり、通信回線を介して提供されているデータベースに含まれているデータを記事として取得したりする。そして、質問応答装置は、記事更新手段によって、記事取得手段で取得した記事により、記事データ記憶手段に記憶される記事及び記事出現頻度記憶手段に記憶される記事出現頻度を更新する。これによって、質問応答装置における知識リソースが常に新しい状態に保持されることになる。
また、請求項8に記載の質問応答装置は、請求項7に記載の質問応答装置において、取得元選択手段を備える構成とした。
かかる構成によれば、質問応答装置は、取得元選択手段によって、ユーザからの指示により、記事の取得元を選択する。例えば、取得元選択手段は、予め定めた複数の取得元の名称等を表示装置に提示し、ユーザに選択させることで、記事の取得元を切り替える。
さらに、請求項9に記載のテレビ受像機は、放送番組を提示するテレビ受像機において、請求項1乃至請求項8のいずれか一項に記載の質問応答装置を備える構成とした。
かかる構成によれば、テレビ受像機は、内部に質問応答装置を備える構成としたため、ユーザが、放送番組を視聴中に疑問に思ったこと等を質問として入力し、その回答をテレビ受像機の画面上に合成して提示したり、スピーカを介して音声として提示したりすることができる。
また、請求項10に記載の質問応答プログラムは、単語にその概念を示す概念情報を対応付けた概念辞書を記憶した概念辞書記憶手段と、情報源となる記事を記憶した記事データ記憶手段と、前記記事に含まれる単語毎に、前記記事データ記憶手段に記憶されている全記事における、当該単語が出現する記事の割合を示す記事出現頻度を記憶した記事出現頻度記憶手段とを備えた質問応答装置において、入力された質問を示す質問情報に対して、その回答となる回答情報を生成するために、コンピュータを、質問特定手段、記事検索手段、文抽出手段、候補語抽出手段、回答決定手段として機能させる構成とした。
かかる構成によれば、質問応答プログラムは、質問特定手段によって、概念辞書記憶手段に記憶されている概念辞書を参照することで、質問情報における質問の種別を概念情報として特定する。そして、質問応答プログラムは、記事検索手段によって、記事出現頻度記憶手段に記憶されている記事出現頻度を参照することで、質問情報に含まれる単語を検索語として、記事データ記憶手段から質問情報に関連する関連記事を検索する。
さらに、質問応答プログラムは、文抽出手段によって、関連記事の中から、記事出現頻度が最も少ない単語を含んだ文を抽出する。そして、質問応答プログラムは、候補語抽出手段によって、文抽出手段で抽出された文の各単語の概念情報と、質問特定手段で特定された質問種別とに基づいて、回答の候補となる候補語を抽出する。そして、質問応答プログラムは、回答決定手段によって、候補語抽出手段で抽出された候補語の中で、記事出現頻度が少なく、当該候補語及び検索語の形態素単位での距離が短いものを、回答となる単語として決定(推定)する。
請求項1又は請求項10に記載の発明によれば、概念情報を基準として回答を推定するため、質問が曖昧(不完全)な表現であっても、適切に質問の内容を把握し、その回答を出力することができる。
請求項2に記載の発明によれば、疑問詞毎に予め定めた複数の概念情報を質問種別とすることができ、例えば、「だれ」という疑問詞があれば、「人」を尋ねているのか、「職位」を尋ねているのか等の複数の候補を質問種別とすることができる。これによって、質問が曖昧であっても、質問の意図を外す可能性が低くなる。
請求項3に記載の発明によれば、先行詞に対応する概念情報を質問種別として特定するため、疑問詞が省略された不完全な質問であっても、質問の意図を把握することができる。
請求項4に記載の発明によれば、疑問詞が省略された場合や、先行詞が「の」に変更された場合(例えば、「〜した人は」が「〜したのは」)であっても、質問の意図を把握することができる。
請求項5に記載の発明によれば、関連記事の中から、重要度の高い単語を含んだ文を抽出し、その文の中から、回答の候補となる候補語を抽出し、さらに、その候補語の中から、記事出現頻度が少なく、かつ、質問情報に含まれる単語である検索語(キーワード)からの形態素単位での距離が短い単語を回答となる単語として決定するため、精度の高い回答を決定することができる。
請求項6に記載の発明によれば、携帯電話から、ユーザの質問を入力し、その回答を携帯電話に出力することができるため、一般的な携帯電話を、質問応答装置の入出力機器として使用することができる。
請求項7に記載の発明によれば、外部から記事を更新することができるため、質問応答装置における知識リソースを常に新しい状態に保持することができる。これによって、ユーザの質問に対して、精度の高い回答を提示することができる。
請求項8に記載の発明によれば、信頼性の高い回答を得るためには、放送局や新聞社が提供する放送データ、データベースを記事の取得元として選択し、幅広い知識リソースから回答を得るためには、インターネットのWebサイトを記事の取得元として選択する等、ユーザが望む回答の種類によって、記事の取得元を選択することができる。
請求項9に記載の発明によれば、ユーザは、テレビ受像機で放送番組を視聴中に、疑問が発生した場合、その場でテレビ受像機(質問応答装置)に対して質問を入力することで、リアルタイムで回答を得ることができる。
以下、本発明の実施の形態について図面を参照して説明する。
[第一の実施の形態]
(質問応答装置の構成)
まず、図1を参照して、質問応答装置の構成について説明する。図1は、本発明における第一の実施の形態に係る質問応答装置の構成を示すブロック図である。なお、ここでは、質問応答装置の一実施形態として、質問応答装置をテレビ受像機Tvに組み込んだ例を示している。
図1に示すように、質問応答装置1は、入力された質問(質問情報)に対して、その回答(回答情報)を生成して、出力するものである。ここでは、質問応答装置1は、記憶手段DBと制御手段CLとを備えている。さらに、質問応答装置1は、質問を音声で入力するためのマイク2aと、質問をテキストデータで入力するためのキーボード2bとを入力手段2として外部に接続可能な構成としている。また、質問応答装置1は、回答を音声で出力するためのスピーカ3aと、回答に関連する情報を文字として表示するためのモニタ3bとを出力手段3として外部に接続可能な構成としている。
記憶手段(記事データ記憶手段、記事出現頻度記憶手段、概念辞書記憶手段に相当)DBは、質問応答装置1が回答を行う際の知識用のリソース(資源)を知識用リソースデータベースとして記憶しておくもので、ハードディスク等の一般的な記憶装置である。この記憶手段DBには、知識用リソースデータベースとして、記事DBaと、記事出現頻度DBbと、概念辞書DBcと、学習データDBdとを記憶している。
記事DBaは、質問に対する回答を得るために参考となるテキストデータである。この記事DBaは、後記する知識用リソース取得手段17で取得した、放送番組の番組情報、ニュース、新聞社等が提供する記事、あるいは、家庭内にネットワークで接続された電子機器のマニュアル等であって、プレーンテキストとして、記憶手段DBに記憶しておく。なお、この記事DBaは、知識用リソース取得手段17が新規に知識用リソースを取得した段階で、追加、更新される。なお、記事DBaは、放送番組の情報である場合は、番組単位、インターネットのWebサイトである場合は、HTML(Hyper Text Markup Language)ファイルの単位とする。
記事出現頻度DBbは、個々の記事DBaに含まれる単語毎の、全記事における当該単語が出現する記事の割合を示す値である。この値(記事出現頻度)には、idf(Inverse Document Frequency)値と呼ばれる値を用いることとする。このidf値は、単語の重要度を判定する指標であって、全記事数Nのうち、ある単語iを含む記事がn個あるとき、単語iのidf値〔idf(i)〕は、以下の(1)式で表される。
idf(i)=log(N/n) …(1)
このidf値が大きい(記事出現頻度が少ない)ほど、その単語は特定の記事に限って出現することになり、より重要度の高い単語とみなすことができる。逆に、idf値が小さい(記事出現頻度が多い)ほど、その単語は多くの記事に出現することになり、重要度の低い単語であるとみなすことができる。
概念辞書DBcは、単語毎に、単語の持つ概念を示す概念情報を対応付けた辞書である。この概念辞書DBcは、1つの単語に対して複数の概念が登録されている。例えば、「女優」という単語に対して、「女性」、「俳優」、「人」等の概念が対応付けられている。なお、後記する知識用リソース取得手段17によって新たな記事を取得し、その記事内に新出の単語が存在する場合は、概念辞書DBcに、その単語を未知語として登録しておく。
学習データDBdは、後記する質問特定手段11の種別分類手段11cにおいて、質問が何を対象とした質問かを示す種別(質問種別)を分類するための学習したデータである。この学習データDBdは、予め準備しておいてもよいが、種別分類手段11cの分類の正誤を、ユーザが判定することで、再学習することとしてもよい。
制御手段CLは、質問応答装置1全体の制御を行うものである。例えば、制御手段CLは、CPU(Central Processing Unit)やメモリ等を備えたコンピュータであって、プログラム(質問応答プログラム)を、以下に示す各手段として機能させることで、記憶手段DBに記憶されている知識用リソースデータベースを参照して、ユーザが入力した質問に対して、回答を提示する。ここでは、制御手段CLは、音声認識手段10と、質問特定手段11と、記事検索手段12と、推論手段13と、応答文生成手段14と、音声合成手段15と、画像合成手段16と、知識用リソース取得手段17と、解析手段18と、DB管理手段19とを備えている。
音声認識手段10は、マイク2aから音声信号として入力されるユーザの質問を、音声認識し、テキストデータ(文字列)として出力するものである。この音声認識手段10は、入力された音声信号をA/D変換し、例えば、LPC(線形予測)法により音声分析することで、音響的特徴パラメータを抽出する。そして、音声認識手段10は、時系列の音響的特徴パラメータを、隠れマルコフモデル(HMM:Hidden Markov Model)によりモデル化し、統計的言語モデル(Nグラムモデル等)を参照することで、音声をテキストデータ(文字列)に変換する。この音声認識手段10で認識された音声に対応するテキストデータは、質問特定手段11に出力される。
質問特定手段11は、記憶手段DBに記憶されている概念辞書DBcに基づいて、テキストデータとして入力された質問(質問情報)が、どのような種別の質問であるかを概念情報として特定するものである。なお、質問特定手段11は、解析手段18の形態素解析手段18a及び構文解析手段18bで、質問を形態素解析及び構文解析することで、疑問詞、先行詞等の単語を特定し、その単語が有する概念情報を、概念辞書DBcを参照することで特定する。ここでは、質問特定手段11は、疑問詞解析手段11aと、先行詞解析手段11bと、種別分類手段11cとを備えている。
疑問詞解析手段11aは、質問情報を形態素解析することで疑問詞を特定し、その疑問詞に対応する概念情報を質問種別とするものである。ここで、図2を参照(適宜図1参照)して、疑問詞解析手段11aにおける質問種別の特定手法について説明する。図2は、疑問詞による質問種別を特定する手法を示した概念図である。
図2に示すように、概念辞書DBcには、1つの疑問詞(例えば、「どこ」、「だれ」等)に対して、複数の概念情報が登録されている。例えば、疑問詞「どこ」は、「場所」、「組織」等をその概念として有し、疑問詞「だれ」は、「人」、「職位」等をその概念として有している。また、疑問詞「何」は、疑問詞が有する概念の「すべて」を指すこととしている。
このように、概念辞書DBcには、1つの疑問詞に対して、複数の概念情報が登録されている。そこで、疑問詞解析手段11aは、質問情報に疑問詞が含まれている場合には、その疑問詞に対応する概念情報を質問種別とする。
図1に戻って、質問応答装置1の構成について説明を続ける。
先行詞解析手段11bは、質問情報を形態素解析及び構文解析することで先行詞を特定し、その先行詞に対応する(先行詞が属する)概念情報を質問種別とするものである。なお、先行詞とは、修飾語によって修飾された単語(名詞)のことである。ここで、図3を参照(適宜図1参照)して、先行詞解析手段11bにおける質問種別の特定手法について説明する。図3は、先行詞による質問種別を特定する手法を示した概念図である。
図3に示すように、先行詞解析手段11bは、例えば、質問情報として、(a)「NHKの連続テレビ小説の主演女優は」が入力された場合、形態素解析手段18aにより形態素解析を行う。(b)は、(a)を形態素毎に区分した状態を示している。そして、先行詞解析手段11bは、(c)に示すように、構文解析手段18bにより(b)を構文解析する。すなわち、各単語が、修飾語(連体修飾語)であるか、複合語であるか等を解析することで、先行詞を特定する。これによって、先行詞解析手段11bは、(d)に示すように、(a)「NHKの連続テレビ小説の主演女優は」における先行詞を「女優」として特定する。そして、先行詞解析手段11bは、先行詞(ここでは「女優」)に対応する概念情報(例えば、「女性」、「俳優」等)を、概念辞書DBcから取得し、質問種別とする。これによって、回答から男性に関するものを除外することが可能になる。
図1に戻って、質問応答装置1の構成について説明を続ける。
種別分類手段11cは、少なくとも自立語(動詞、形容詞、形容動詞、名詞、代名詞、副詞、連体詞、感動詞及び接続詞)の概念情報を学習した学習データDBd(記憶手段DB内)に基づいて、質問種別を分類することで質問種別を特定するものである。この種別分類手段11cは、一般的な2分類器であるサポートベクターマシン(SVM:Support Vector Machine)を用いることで、質問種別を分類する。
ここで、図4を参照(適宜図1参照)して、種別分類手段11cにおける質問種別の特定手法について説明する。図4は、SVMによる質問種別を特定する手法を示した概念図である。
図4に示すように、種別分類手段11cは、例えば、質問情報として、(a)「NHKの連続テレビ小説に主演したのは」が入力された場合、形態素解析手段18aにより形態素解析を行うことで自立語を抽出し、構文解析手段18bにより先行詞が省略されている語(ここでは「の」)を抽出する。(b)は、(a)を形態素毎に区分した状態を示している。そして、種別分類手段11cは、(c)に示すように、各単語の概念パスを要素とするベクトル(素性ベクトル)を作成する。
ここで、概念パスとは、概念辞書DBcにおける概念情報の有無を、「0」「1」の2値情報で表わした概念数分の次元のベクトルである。また、素性ベクトルには、格のパラメータを加えることとしてもよい。ここで、格のパラメータとは、質問情報に格助詞(例えば、「が」、「は」、「も」、「を」等)があるか否かを示す2値情報である。この格のパラメータを素性ベクトルに加えることで、質問情報における質問種別の精度を高めることができる。また、素性ベクトルには、先行詞のみの概念パスを加えることとしてもよい。この先行詞の概念パスを素性ベクトルに加えることで、先行詞が含まれるか否かが、質問情報の質問種別の結果に直接影響を与えることになり、さらに、質問種別の精度を高めることができる。
そして、種別分類手段11cは、(d)に示すように、素性ベクトルと、予め学習した学習データDBdとに基づいて、当該質問が「人」に関する質問であるのか、「人」に関する質問ではないのかをSVM(誰学習モデル)により分類することで、判定を行う。
なお、種別分類手段11cは、「人」に関する質問であるかどうかを分類する誰学習モデルだけでなく、「場所」に関する質問であるかどうかを分類する場所学習モデルといった、複数の学習モデルを持つSVMを連結することで、質問種別を特定する。
これによって、種別分類手段11cは、質問情報に疑問詞がない場合や、先行詞が「の」に変更されている場合であっても、SVMを用いた統計処理によって、質問種別を特定することができる。
このように、疑問詞解析手段11a、先行詞解析手段11b及び種別分類手段11cで特定された質問種別(「人」、「場所」、「物」等)は、推論手段13に出力される。また、質問特定手段11は、質問情報を形態素解析及び構文解析することで抽出された自立語(動詞、形容詞、形容動詞、名詞、代名詞、副詞、連体詞、感動詞及び接続詞)を、記事検索手段12に出力する。
また、質問特定手段11において、質問種別が特定できなかった場合は、「質問が認識できませんでした。」、「もう一度、質問を入力してください。」等の定型文を、後記する音声合成手段15や画像合成手段16によって、音声又はテキストとしてユーザに提示することとする。
なお、ここでは、質問特定手段11は、疑問詞解析手段11a、先行詞解析手段11b及び種別分類手段11cの各手段を備えることとしたが、これらの各手段を、いずれか1つ以上備えていればよい。ただし、質問の種別を判定する精度を高めるためには、これらの3つの手段(疑問詞解析手段11a、先行詞解析手段11b及び種別分類手段11c)を備えることが望ましい。
図1に戻って、質問応答装置1の構成について説明を続ける。
記事検索手段12は、質問情報に含まれる単語(自立語)を検索語(キーワード)として、質問情報に関連する記事(関連記事)を検索するものである。この記事検索手段12で検索された関連記事は、推論手段13に出力される。
ここで、記事検索手段12は、1つの文章にすべての検索語が含まれているのかどうかを検索するのではなく、1つの記事にすべての検索語が含まれているかどうかを検索する。これは、すべての検索語が、1つの文章に含まれていることよりも、記事内の各文章に散在している場合が多いためである。
また、記事検索手段12は、先行詞にあたる語のidf値(前記(1)式参照)が予め定めた閾値よりも小さい場合は、検索語から除外することとする。これは、例えば、質問が「〜した人は誰」の場合、idf値の小さい先行詞“人”を検索語とすると、多くの不用な記事が検索されることになってしまうからである。また、逆に、質問が「前のアメリカの大統領は誰」の場合、idf値の大きい先行詞“大統領”を、重要な検索語として残すことで、適切な記事が検索されることになる。
なお、記事検索手段12は、質問情報に含まれる自立語が名詞の連続した複合語である場合は、その連続した複合語を1つの検索語として検索を行う。例えば、「連続テレビ小説」という放送番組の番組名で検索を行う場合、「連続」、「テレビ」及び「小説」のように個々の自立語で検索する場合に比べて、より回答に適した記事を検索することが可能になる。ただし、記事検索手段12は、連続した複合語である検索語を含んだ記事が存在しない場合は、その複合語を自立語単位に分割し、再検索を行うこととする。
また、記事検索手段12は、質問情報に特定の単位を類推する単語が含まれている場合は、その単位を特定の検索語として記事の検索を行うこととしてもよい。例えば、「琵琶湖の面積はいくら?」と質問されたとき、「面積」の単位「km2」、「m2」等を特定の検索語として用いる。これによって、「いくら」という疑問詞であっても、「面積」を特定することができる。
さらに、記事検索手段12は、質問情報に含まれる単語だけではなく、図示を省略した同義語辞書から質問情報に含まれる単語の同義語を取得し、その同義語を検索語として検索を行うこととしてもよい。これによって、回答の精度をさらに高めることができる。
また、記事検索手段12は、検索語を含んだ記事(関連記事)が存在しない場合、個々の検索語の中で、idf値が小さいものから順に検索語から除外し、再検索を行うこととする。これによって、質問に関連する可能性の高い記事が検索されることになる。
そして、記事検索手段12は、関連記事に含まれる検索語のidf値の合計が大きい順に、関連性の高い記事であると判定し、予め定めた個数(上限値)の関連記事を抽出する。
推論手段13は、質問特定手段11で特定された質問種別と、記事検索手段12で検索された関連記事に含まれる単語の概念情報とに基づいて、関連記事の中から回答となる単語を回答情報として推論するものである。ここでは、推論手段13は、文抽出手段13aと、候補語抽出手段13bと、回答決定手段13cとを備えている。
文抽出手段13aは、関連記事の中から、記事出現頻度が最も少ない単語を含んだ文を抽出するものである。すなわち、文抽出手段13aは、idf値が最も大きい単語を含んでいる文を、関連記事の中から抽出する。これによって、関連記事の中で、重要度の高い単語を含んだ文が抽出されることになる。この文抽出手段13aで抽出された文は、候補語抽出手段13bに出力される。
候補語抽出手段13bは、質問特定手段11で特定された質問種別と、文抽出手段13aで抽出された文の各単語を概念解析手段18cで解析することで得られる概念情報とに基づいて、質問種別に合致する概念情報を有している単語を、回答の候補となる候補語として抽出するものである。
例えば、質問種別が「人」であった場合、候補語抽出手段13bは、文抽出手段13aで抽出された文の中から、「人」の概念情報を持っている単語(例えば、人名)を、回答の候補語として抽出する。この候補語抽出手段13bで抽出された候補語は、回答決定手段13cに出力される。
なお、候補語抽出手段13bは、概念辞書DBcに概念が登録されていない単語(未知語)が存在する場合は、その未知語も候補語として抽出することとする。これらの未知語は、回答となる可能性があるからである。
回答決定手段13cは、候補語抽出手段13bで抽出された候補語の中から、回答となる単語を決定するものである。具体的には、回答決定手段13cは、候補語の記事出現頻度(例えば、idf値)と、当該候補語及び検索語(質問特定手段11で抽出された質問情報に含まれる自立語)の形態素を単位とした単語間の距離(単語数)とに基づいて、回答となる単語を決定する。
すなわち、回答決定手段13cは、ある候補語iのidf値をidf(i)、候補語iと検索語との形態素単位での距離をdとしたとき、候補語のスコアAiを以下の(2)式により算出する。
Ai=Σ(idf(i)×1/d) …(2)
そして、回答決定手段13cは、このスコアAiが最も大きい候補語を回答として決定する。この(2)式において、idf値が最大の候補語には、予め定めた重み(例えば数倍程度の重み)を付加することとしてもよい。
この回答決定手段13cで決定された回答(回答情報)は、応答文生成手段14に出力される。なお、ここでは、スコアAiが2番目に大きい候補語、3番目に大きい候補語等を回答の次候補として、画像合成手段16に出力することとする。また、このとき、同時に、その回答の根拠となる関連記事の出典等を画像合成手段16に出力することとしてもよい。
応答文生成手段14は、回答決定手段13cで決定された回答を整形し、応答文を生成するものである。例えば、回答が「○○××子」という人名であった場合、応答文として、「それは、○○××子さんです。」を生成する。あるいは、質問情報と対応付けて、「NHKの連続テレビ小説の主演女優は、○○××子さんです。」を生成することとしてもよい。この応答文生成手段14で生成された応答文は、音声合成手段15に出力される。
音声合成手段15は、応答文生成手段14で生成された応答文を音声合成することで音声(音声信号)に変換するものである。この変換された音声信号は、スピーカ3aを介して出力される。これによって、ユーザは、質問に対する回答を音声によって聴くことができる。
画像合成手段16は、回答決定手段13cで決定された次候補の回答や、回答の根拠となる関連記事の出典等の文字情報を合成した合成画像を生成するものである。この画像合成手段16で生成された合成画像は、モニタ3bに出力される。これによって、ユーザは、質問に対する回答に関連する関連情報を知ることができる。
知識用リソース取得手段17は、記憶手段DBに記憶される知識用リソースデータベースのデータを、外部のデータベース等から取得し、登録・更新するものである。ここでは、知識用リソース取得手段17は、取得元選択手段17aと、記事取得手段17bと、記事更新手段17cとを備えている。
取得元選択手段17aは、記憶手段DBに記憶する記事DBaの取得元を選択するものである。この記事の取得元としては、例えば、放送波4を介して放送を行う放送局、通信回線4を介して情報を取得可能なインターネットのWebサイト、新聞社や出版社が提供するデータベース、機器の操作マニュアル等を送信可能な電子機器等がある。この取得元選択手段17aは、例えば、図5に示した選択画面Dを表示装置(モニタ3b)に提示し、ユーザが、入力手段2であるキーボード2bや、図示していないマウス等で選択することで、記事の取得元を決定する。この決定された取得元は、記事取得手段17bに出力される。
記事取得手段17bは、取得元選択手段17aで選択された記事の取得元から記事を取得するものである。この記事取得手段17bは、例えば、取得元が放送局の場合、放送波4を介して放送されるデジタル放送(データ放送、文字放送、字幕放送)の記事として取得する。この場合、記事取得手段17bは、デジタル放送に重畳されて放送されるSI情報(Service Information,番組配列情報)に含まれる文字情報を記事として取得する。
記事更新手段17cは、記事取得手段17bで取得した記事を記憶手段DBに登録することで、記事DBaを更新するものである。さらに、記事更新手段17cは、記事取得手段17bで取得した記事を、解析手段18の各解析手段で解析を行うことで、記事内に含まれる単語を抽出し、記事出現頻度DBbを更新するものでもある。この記事更新手段17cは、記憶手段DBの知識用リソースデータベースを更新するには、DB管理手段19を介して行う。
なお、記事更新手段17cは、取得した記事の中に、概念辞書DBcに登録されていない単語、例えば、「人名」、「商品名」等、新出の単語については、未知語として登録しておくこととする。
このように、記事の取得元を選択可能とし、記憶手段DBに記憶される知識用リソースデータベースを更新することで、例えば、放送局からの記事を選択すれば、放送番組の概要、ニュース等、タイムリな情報を知識として記憶することができ、新しい話題に関する質問に対して、適切な回答を得ることが可能になる。また、記事の取得元をインターネットとすることで、膨大なデータの中から回答を得ることができ、質問に対する回答の精度を高めることができる。あるいは、記事の取得元を新聞社や出版社が提供するデータベースとすることで、信頼度の高い回答を得ることが可能になる。
解析手段18は、入力された文字情報(テキストデータ)を解析するものであって、形態素解析手段18aと、構文解析手段18bと、概念解析手段18cとを備えている。
形態素解析手段18aは、入力されたテキストデータを品詞分解することで、そのテキストデータを形態素毎に分解するものである。なお、この形態素解析手段18aは、記憶手段DBに記憶されている、形態素の読み、品詞、活用型等を記憶した、図示していない形態素辞書を参照して、形態素解析を行う。
構文解析手段18bは、形態素解析手段18aで形態素に分解されたテキストデータにおいて、各形態素が、どのような修飾、被修飾(係り受け)関係を有しているかを解析するものである。これによって、テキストデータの中で、修飾される語句(先行詞)を特定することができる。
概念解析手段18cは、形態素解析手段18aで形態素に分解されたテキストデータにおいて、各形態素(単語)が、どのような概念を持っているのかを解析するものである。なお、この概念解析手段18cは、記憶手段DBに記憶されている、概念辞書DBcを参照することで、各単語がどの概念に含まれるかを特定する。
DB管理手段19は、記憶手段DBに記憶されている知識用リソースデータベースを管理するものである。例えば、記事DBaを追加、更新する場合は、このDB管理手段19に対して要求を行うことで、DB管理手段19が、記事DBaの追加、更新を行う。これによって、記憶手段DBに記憶されている知識用リソースデータベースが、一元管理されデータの整合性を保つことができる。
以上説明したように、質問応答装置1は、ユーザからの質問に対して、質問を構成する単語の概念に基づいて、知識用リソースデータベースとして記憶されている記事から、回答を推論するため、疑問詞や先行詞が省略された質問であっても、適切な回答を導き出すことができる。
以上、本発明に係る質問応答装置1の構成について説明したが、本発明はこれに限定されるものではない。例えば、記憶手段DBに記憶する知識用リソースを更新するための、記事の取得元が固定である場合は、取得元選択手段17aを構成から省略することができる。
また、ここでは、マイク2aやキーボード2bによって、質問が音声(音声信号)や、テキストデータ(文字情報)のいずれの場合であっても対応可能な構成としたが、いずれか一方のみに対応した構成としてもよい。例えば、音声による質問の入力を行わない場合は、音声認識手段10を構成から省略することができる。音声による回答の出力を行わない場合は、応答文生成手段14及び音声合成手段15を構成から省略することができる。また、文字情報による回答の出力を行わない場合は、画像合成手段16を構成から省略することができる。
さらに、入力手段2や出力手段3には、携帯電話を使用することとしてもよい。この携帯電話を使用する場合の質問応答装置の構成について、第二の実施の形態として後で説明を行うこととする。
なお、本発明に係る質問応答装置1は、単独の構成として動作させることも可能であるが、図1に示すように、一般的なテレビ受像機Tvに組み込むことで、ユーザが番組を視聴する際に、同時に放送波4を介して知識用リソースを取得することが可能になる。これによって、ユーザが、テレビ番組を視聴している段階で発生した質問に対して、最適な回答を生成し、ユーザに提示することができる。
(質問応答装置の動作)
次に、図6を参照(適宜図1参照)して、質問応答装置の動作について説明する。図6は、本発明における第一の実施の形態に係る質問応答装置の動作を示すフローチャートである。なお、ここでは、質問応答装置1において、予め記憶手段DBに知識用リソースデータベースが構築されており、音声(音声信号)によって質問が入力され、音声によって回答を出力する動作を例として、動作の説明を行う。
<質問入力ステップ>
まず、質問応答装置1は、音声認識手段10によって、音声信号として入力されるユーザの質問を音声認識し、テキストデータ(質問情報)に変換する(ステップS1)。
<質問特定ステップ>
そして、質問応答装置1は、質問特定手段11によって、質問情報が、どのような種別の質問であるかを示す質問種別を概念情報として特定する。
具体的には、質問応答装置1は、まず、疑問詞解析手段11aによって、質問情報を形態素解析手段18aによる形態素解析、及び、構文解析手段18bによる構文解析を行うことで、質問情報に疑問詞が含まれているかどうかを判定する(ステップS2)。そして、疑問詞が含まれている場合(ステップS2でYes)、疑問詞解析手段11aは、疑問詞に対して、概念解析手段18cにより概念解析を行うことで、疑問詞の概念情報を取得し質問種別とし(ステップS3)、ステップS7に進む。
一方、質問情報に疑問詞が含まれていない場合(ステップS2でNo)、質問応答装置1は、先行詞解析手段11bによって、ステップS2で形態素解析及び構文解析された結果により、質問情報に先行詞が含まれているかどうかを判定する(ステップS4)。そして、先行詞が含まれている場合(ステップS4でYes)、先行詞解析手段11bは、先行詞に対して、概念解析手段18cにより概念解析を行うことで、先行詞の概念情報を取得し質問種別とし(ステップS5)、ステップS7に進む。
また、一方、質問情報に先行詞が含まれていない場合(ステップS4でNo)、質問応答装置1は、種別分類手段11cによって、自立語の概念情報を学習した学習データDBdを参照することで質問種別を分類し、その結果を質問情報の質問種別とする(ステップS6)。
このように、ステップS2〜S6において、質問情報に対して、1つ以上の質問種別が生成されることになる。
<記事検索ステップ>
また、質問応答装置1は、記事検索手段12によって、質問情報に含まれる自立語を検索語(キーワード)として、質問情報に関連する記事(関連記事)を検索する(ステップS7)。
そして、質問応答装置1は、記事検索手段12において、関連記事が検索されたかどうかを判定し(ステップS8)、検索に成功、すなわち、関連記事が存在した場合(ステップS8でYes)、ステップS10に進む。一方、検索に失敗、すなわち、関連記事が存在しなかった場合(ステップS8でNo)、記事検索手段12は、ステップS7で用いた検索語の中で、idf値が小さいものを検索語から削除し(ステップS9)、ステップS7に戻って、再度検索を実行する。
そして、質問応答装置1は、記事検索手段12において、関連記事に含まれる検索語のidf値の合計(Σidf)が大きい順に、予め定めた個数を上限として関連記事を抽出
する(ステップS10)。
なお、この記事検索ステップにおいて、フローチャートとしては図示していないが、ステップS7において、質問情報に含まれる自立語が名詞の連続した複合語である場合、記事検索手段12は、その連続した複合語を1つの検索語として記事の検索を行い、連続した複合語を含んだ記事が存在しない場合は、その複合語を分割し、再検索を行うこととする。
<回答推論ステップ>
続けて、質問応答装置1は、推論手段13によって、質問特定ステップ(ステップS2〜S6)で特定された質問種別と、記事検索ステップ(ステップS7〜S10)で検索された関連記事に含まれる単語の概念情報とに基づいて、関連記事の中から回答となる単語を回答情報として推論する。
具体的には、質問応答装置1は、文抽出手段13aによって、idf値が最も大きい単語を含んでいる文を、関連記事の中から抽出する(ステップS11)。
また、質問応答装置1は、候補語抽出手段13bによって、質問特定ステップ(ステップS2〜S6)で特定された質問種別と、ステップS11で抽出された文の各単語を概念解析手段18cで解析することで得られる概念情報とに基づいて、質問種別に合致する概念情報を有している単語を、回答の候補となる候補語として抽出する(ステップS12)。
そして、質問応答装置1は、回答決定手段13cによって、ステップS12で抽出された候補語のidf値と、当該候補語及び検索語の形態素単位での距離dとに基づいて、スコア付け(前記(2)式参照)を行い、回答となる単語を決定(推定)する(ステップS13)。
<回答出力ステップ>
そして、質問応答装置1は、応答文生成手段14によって、ステップS13で決定された回答を整形することで、応答文を生成し(ステップS14)、音声合成手段15によって、その応答文を音声合成することで、音声(音声信号)に変換し出力する(ステップS15)。このとき、画像合成手段16によって、次候補の回答や、回答の根拠となる関連記事の出典等の文字情報を出力画像に合成することとしてもよい。
以上の動作によって、質問応答装置1は、ユーザが音声として発した質問に対して、音声によって、その回答を提示することができる。なお、質問が音声ではなく、テキストデータで入力される場合は、ステップS1を省略し、ステップS14及びS15の代わりに、画像合成手段16によって、回答を出力することができる。
[第二の実施の形態]
次に、図7を参照して、携帯電話を入出力機器とした質問応答装置の構成について説明する。図7は、本発明における第二の実施の形態に係る携帯電話を入出力機器とした質問応答装置の構成を示すブロック図である。ここでは、まず、質問応答装置に使用する携帯電話の構成についてその概略を説明し、その後、質問応答装置の構成について説明を行う。
(携帯電話の構成)
質問応答装置1Bに用いられる携帯電話6は、内線通話やデータ通信等が可能な一般的な携帯電話であって、音声入力手段60と、テキスト入力手段61と、テキスト表示手段62と、音声出力手段63と、制御手段64と、送受信手段65とを備えている。なお、図7の携帯電話6では、公衆回線との接続を行う手段については、図示を省略している。
音声入力手段60は、ユーザが発する音声データ(ここでは、質問)を入力するものであって、一般的なマイクである。この入力された音声データは、音声入力手段60においてデジタル化され、制御手段64に出力される。
テキスト入力手段61は、英数かな文字等が対応付けられたキーをユーザが押下することで、テキストデータ(ここでは、質問)を入力するものである。このテキスト入力手段61で入力されたテキストデータは、制御手段64に出力される。
テキスト表示手段62は、テキストデータ(ここでは、回答)を表示するものであって、一般的な液晶ディスプレイ(LCD:Liquid Crystal Display)等の表示装置である。このテキスト表示手段62に表示するテキストデータは、制御手段64から入力される。
音声出力手段63は、音声データ(ここでは、回答)を出力するものであって、一般的なスピーカである。この音声出力手段63は、制御手段64から入力されるデジタル化された音声信号をアナログ変換し、音声(音声データ)として出力する。
制御手段64は、携帯電話6全体の制御を行うものであって、CPUやメモリ等を備えたコンピュータにより、音声信号や、テキストデータ等の入出力を制御する信号処理部として機能するものである。
送受信手段65は、内線通話やデータ通信等によって、質問応答装置1Bとの間で、音声、テキストデータを無線によって送受信するものである。例えば、送受信手段65は、10ミリワット(mW)の特定省電力トランシーバ、レシーバとして、音声、テキストデータを送受信する。
このように、携帯電話6には、音声入力手段60、テキスト入力手段61、テキスト表示手段62及び音声出力手段63が備えられており、質問応答装置1Bに対する入出力手段として、最も適した構成を具備していると考えられる。
また、携帯電話6を用いることで、ユーザは、使い慣れた携帯電話による操作、例えば、文字入力操作によって、質問を行うことができる。
(質問応答装置の構成)
次に、同じく図7を参照して、携帯電話を入出力機器とした質問応答装置の構成について説明する。図7に示すように、質問応答装置1Bは、携帯電話6から入力された質問(質問情報)に対して、その回答(回答情報)を生成して、携帯電話6に出力するものである。質問応答装置1Bは、図1で説明した質問応答装置1から画像合成手段16を省き、送受信手段20を構成に含めている。その他の構成については、図1で説明した質問応答装置1と同じものであるため、同一の符号を付し、説明を省略する。
送受信手段20は、携帯電話6から送信される質問(質問情報)を受信し、制御手段CLにおいて生成された回答(回答情報)を携帯電話6に送信するものである。ここでは、送受信手段20は、受信手段20aと、送信手段20bとを備えている。
受信手段20aは、携帯電話6から送信される質問(質問情報)を受信するものである。この受信手段20aは、例えば、特定小電力レシーバとして、携帯電話6から送信される質問を無線で受信する。この受信手段20aで受信した質問が音声データ(音声信号)である場合、受信手段20aは、音声認識手段10にその音声信号を出力する。また、質問がテキストデータである場合、受信手段20aは、質問特定手段11にそのテキストデータを出力する。
送信手段20bは、制御手段CLにおいて生成された回答(回答情報)を携帯電話6に送信するものである。この送信手段20bは、例えば、特定小電力トランシーバとして、回答を無線で携帯電話6に送信する。なお、送信手段20bは、受信手段20aで受信した質問が音声データである場合、音声合成手段15で音声合成された回答を送信し、受信手段20aで受信した質問がテキストデータである場合、推論手段13で推論された回答(テキストデータ)を携帯電話6に送信することとする。もちろん、音声又はテキストデータのいずれか一方のみを、回答として固定的に送信することとしてもよい。
以上説明したように、質問応答装置1Bは、携帯電話6を用いて、ユーザからの質問に対して回答を行うことができるため、ユーザは、携帯電話における通話やメールの作成を行う操作と同様の操作で質問を行うことができる。
なお、質問応答装置1Bの動作については、図6で説明した質問応答装置1の動作と同様であるので説明を省略する。
本発明における第一の実施の形態に係る質問応答装置の構成を示すブロック図である。 疑問詞による質問種別を特定する手法を示した概念図である。 先行詞による質問種別を特定する手法を示した概念図である。 SVMによる質問種別を特定する手法を示した概念図である。 記事の取得元を選択するための選択画面の例を示す図である。 本発明における第一の実施の形態に係る質問応答装置の動作を示すフローチャートである。 本発明における第二の実施の形態に係る携帯電話を入出力機器とした質問応答装置の構成を示すブロック図である。
符号の説明
Tv テレビ受像機
DB 記憶手段(記事データ記憶手段、記事出現頻度記憶手段、概念辞書記憶手段)
DBa 記事
DBb 記事出現頻度
DBc 概念辞書
DBd 学習データ
1、1B 質問応答装置
10 音声認識手段
11 質問特定手段
11a 疑問詞解析手段
11b 先行詞解析手段
11c 種別分類手段
12 記事検索手段
13 推論手段
13a 文抽出手段
13b 候補語抽出手段
13c 回答決定手段
14 応答文生成手段
15 音声合成手段
16 画像合成手段
17 知識用リソース取得手段
17a 取得元選択手段
17b 記事取得手段
17c 記事更新手段
18 解析手段
18a 形態素解析手段
18b 構文解析手段
18c 概念解析手段
19 DB管理手段
20 送受信手段
20a 受信手段
20b 送信手段

Claims (10)

  1. 入力された質問を示す質問情報に対して、その回答となる回答情報を生成する質問応答装置であって、
    単語にその概念を示す概念情報を対応付けた概念辞書を記憶した概念辞書記憶手段と、
    この概念辞書記憶手段に記憶されている概念辞書に基づいて、前記質問の種別を示す質問種別の概念情報を特定する質問特定手段と、
    情報源となる記事を記憶した記事データ記憶手段と、
    前記記事に含まれる単語毎に、前記記事データ記憶手段に記憶されている全記事における、当該単語が出現する記事の割合を示す記事出現頻度を記憶した記事出現頻度記憶手段と、
    この記事出現頻度記憶手段に記憶されている記事出現頻度に基づいて、前記質問情報に含まれる単語を検索語として、前記記事データ記憶手段から前記質問情報に関連する記事を関連記事として検索する記事検索手段と、
    この記事検索手段で検索された関連記事に含まれる単語の概念情報と、前記質問特定手段で特定された質問種別とに基づいて、前記関連記事から回答となる単語を前記回答情報として推論する推論手段と、
    を備えていることを特徴とする質問応答装置。
  2. 前記質問特定手段は、前記質問情報を形態素解析することで、当該質問情報に含まれている疑問詞を特定し、その疑問詞に対応する概念情報を前記質問種別とする疑問詞解析手段を備えていることを特徴とする請求項1に記載の質問応答装置。
  3. 前記質問特定手段は、前記質問情報を構文解析することで、修飾語によって修飾された単語である先行詞を特定し、その先行詞に対応する概念情報を前記質問種別とする先行詞解析手段を備えていることを特徴とする請求項1又は請求項2に記載の質問応答装置。
  4. 前記質問特定手段は、少なくとも自立語の概念情報により質問種別を学習した学習データと、前記質問情報に含まれる自立語とに基づいて、当該質問情報の質問種別を特定する種別分類手段を備えていることを特徴とする請求項1乃至請求項3のいずれか一項に記載の質問応答装置。
  5. 前記推論手段は、
    前記関連記事の中から、前記記事出現頻度が最も少ない単語を含んだ文を抽出する文抽出手段と、
    この文抽出手段で抽出された文の各単語の概念情報と、前記質問種別とに基づいて、回答の候補となる候補語を抽出する候補語抽出手段と、
    この候補語抽出手段で抽出された候補語の前記記事出現頻度と、当該候補語及び前記検索語の形態素を単位とした単語間の距離とに基づいて、前記回答となる単語を決定する回答決定手段と、
    を備えていることを特徴とする請求項1乃至請求項4のいずれか一項に記載の質問応答装置。
  6. 前記質問情報を送信する機能を備えた携帯電話から、前記質問情報を受信する受信手段と、
    前記回答情報を前記携帯電話に送信する送信手段と、
    を備えていることを特徴とする請求項1乃至請求項5のいずれか一項に記載の質問応答装置。
  7. 放送波又は通信回線を介して、前記記事を取得する記事取得手段と、
    この記事取得手段で取得した記事に基づいて、前記記事データ記憶手段に記憶される記事及び前記記事出現頻度記憶手段に記憶される記事出現頻度を更新する記事更新手段と、
    を備えていることを特徴とする請求項1乃至請求項6のいずれか一項に記載の質問応答装置。
  8. 前記記事の取得元を選択する取得元選択手段を備えていることを特徴とする請求項7に記載の質問応答装置。
  9. 放送番組を提示するテレビ受像機において、
    請求項1乃至請求項8のいずれか一項に記載の質問応答装置を備えていることを特徴とするテレビ受像機。
  10. 単語にその概念を示す概念情報を対応付けた概念辞書を記憶した概念辞書記憶手段と、情報源となる記事を記憶した記事データ記憶手段と、前記記事に含まれる単語毎に、前記記事データ記憶手段に記憶されている全記事における、当該単語が出現する記事の割合を示す記事出現頻度を記憶した記事出現頻度記憶手段とを備えた質問応答装置において、入力された質問を示す質問情報に対して、その回答となる回答情報を生成するために、コンピュータを、
    前記概念辞書記憶手段に記憶されている概念辞書に基づいて、前記質問の種別を示す質問種別の概念情報を特定する質問特定手段、
    前記記事出現頻度記憶手段に記憶されている記事出現頻度に基づいて、前記質問情報に含まれる単語を検索語として、前記記事データ記憶手段から前記質問情報に関連する記事を関連記事として検索する記事検索手段、
    前記関連記事の中から、前記記事出現頻度が最も少ない単語を含んだ文を抽出する文抽出手段、
    この文抽出手段で抽出された文の各単語の概念情報と、前記質問種別とに基づいて、回答の候補となる候補語を抽出する候補語抽出手段、
    この候補語抽出手段で抽出された候補語の前記記事出現頻度と、当該候補語及び前記検索語の形態素単位での距離とに基づいて、前記回答となる単語を決定する回答決定手段、
    として機能させることを特徴とする質問応答プログラム。
JP2004351749A 2004-12-03 2004-12-03 質問応答装置及び質問応答プログラム、並びに、テレビ受像機 Pending JP2006163623A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004351749A JP2006163623A (ja) 2004-12-03 2004-12-03 質問応答装置及び質問応答プログラム、並びに、テレビ受像機

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004351749A JP2006163623A (ja) 2004-12-03 2004-12-03 質問応答装置及び質問応答プログラム、並びに、テレビ受像機

Publications (1)

Publication Number Publication Date
JP2006163623A true JP2006163623A (ja) 2006-06-22

Family

ID=36665596

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004351749A Pending JP2006163623A (ja) 2004-12-03 2004-12-03 質問応答装置及び質問応答プログラム、並びに、テレビ受像機

Country Status (1)

Country Link
JP (1) JP2006163623A (ja)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011232942A (ja) * 2010-04-27 2011-11-17 Casio Comput Co Ltd 検索装置、ならびに、コンピュータプログラム
JP2012133785A (ja) * 2010-12-23 2012-07-12 Nhn Corp 減少クエリを推薦する検索システムおよび検索方法
JP2013250926A (ja) * 2012-06-04 2013-12-12 Nippon Telegr & Teleph Corp <Ntt> 質問応答装置、方法、及びプログラム
JP2014056457A (ja) * 2012-09-13 2014-03-27 Fujitsu Ltd 検索装置、検索方法、及びプログラム
WO2017199433A1 (ja) * 2016-05-20 2017-11-23 三菱電機株式会社 情報提供制御装置、ナビゲーション装置、設備点検作業支援装置、会話ロボット制御装置、および、情報提供制御方法
WO2017199434A1 (ja) * 2016-05-20 2017-11-23 三菱電機株式会社 情報提供制御装置、ナビゲーション装置、設備点検作業支援装置、会話ロボット制御装置、および、情報提供制御方法
WO2017199431A1 (ja) * 2016-05-20 2017-11-23 三菱電機株式会社 情報提供制御装置、ナビゲーション装置、設備点検作業支援装置、会話ロボット制御装置、および、情報提供制御方法
JP2018180938A (ja) * 2017-04-13 2018-11-15 日本電信電話株式会社 回答候補生成装置、方法、及びプログラム
JP2018180937A (ja) * 2017-04-13 2018-11-15 日本電信電話株式会社 クラスタリング装置、回答候補生成装置、方法、及びプログラム
JP2019095940A (ja) * 2017-11-20 2019-06-20 ヤフー株式会社 情報処理装置、情報処理方法、および情報処理プログラム
WO2019244803A1 (ja) * 2018-06-18 2019-12-26 日本電信電話株式会社 回答学習装置、回答学習方法、回答生成装置、回答生成方法、及びプログラム
JP2020509486A (ja) * 2017-02-28 2020-03-26 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 適応可能な処理コンポーネント
JP2020074205A (ja) * 2020-01-27 2020-05-14 日本電信電話株式会社 回答候補生成装置、回答候補生成方法、及びプログラム
JPWO2019159559A1 (ja) * 2018-02-14 2020-12-03 株式会社Nttドコモ 対話システム
JP2021096710A (ja) * 2019-12-18 2021-06-24 トヨタ自動車株式会社 エージェント装置、エージェントシステム、及びエージェントプログラム

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011232942A (ja) * 2010-04-27 2011-11-17 Casio Comput Co Ltd 検索装置、ならびに、コンピュータプログラム
US9128982B2 (en) 2010-12-23 2015-09-08 Nhn Corporation Search system and search method for recommending reduced query
JP2012133785A (ja) * 2010-12-23 2012-07-12 Nhn Corp 減少クエリを推薦する検索システムおよび検索方法
KR101850886B1 (ko) 2010-12-23 2018-04-23 네이버 주식회사 감소 질의를 추천하는 검색 시스템 및 방법
JP2013250926A (ja) * 2012-06-04 2013-12-12 Nippon Telegr & Teleph Corp <Ntt> 質問応答装置、方法、及びプログラム
JP2014056457A (ja) * 2012-09-13 2014-03-27 Fujitsu Ltd 検索装置、検索方法、及びプログラム
WO2017199433A1 (ja) * 2016-05-20 2017-11-23 三菱電機株式会社 情報提供制御装置、ナビゲーション装置、設備点検作業支援装置、会話ロボット制御装置、および、情報提供制御方法
WO2017199431A1 (ja) * 2016-05-20 2017-11-23 三菱電機株式会社 情報提供制御装置、ナビゲーション装置、設備点検作業支援装置、会話ロボット制御装置、および、情報提供制御方法
JP6403927B2 (ja) * 2016-05-20 2018-10-10 三菱電機株式会社 情報提供制御装置、ナビゲーション装置、設備点検作業支援装置、会話ロボット制御装置、および、情報提供制御方法
WO2017199434A1 (ja) * 2016-05-20 2017-11-23 三菱電機株式会社 情報提供制御装置、ナビゲーション装置、設備点検作業支援装置、会話ロボット制御装置、および、情報提供制御方法
JP6403926B2 (ja) * 2016-05-20 2018-10-10 三菱電機株式会社 情報提供制御装置、ナビゲーション装置、設備点検作業支援装置、会話ロボット制御装置、および、情報提供制御方法
JP6388746B2 (ja) * 2016-05-20 2018-09-12 三菱電機株式会社 情報提供制御装置および情報提供制御方法
JPWO2017199431A1 (ja) * 2016-05-20 2018-11-22 三菱電機株式会社 情報提供制御装置、ナビゲーション装置、設備点検作業支援装置、会話ロボット制御装置、および、情報提供制御方法
JPWO2017199433A1 (ja) * 2016-05-20 2018-11-29 三菱電機株式会社 情報提供制御装置および情報提供制御方法
JPWO2017199434A1 (ja) * 2016-05-20 2018-12-06 三菱電機株式会社 情報提供制御装置、ナビゲーション装置、設備点検作業支援装置、会話ロボット制御装置、および、情報提供制御方法
JP2020509486A (ja) * 2017-02-28 2020-03-26 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 適応可能な処理コンポーネント
JP7089330B2 (ja) 2017-02-28 2022-06-22 インターナショナル・ビジネス・マシーンズ・コーポレーション 適応可能な処理コンポーネント
US11144718B2 (en) 2017-02-28 2021-10-12 International Business Machines Corporation Adaptable processing components
JP2018180938A (ja) * 2017-04-13 2018-11-15 日本電信電話株式会社 回答候補生成装置、方法、及びプログラム
JP2018180937A (ja) * 2017-04-13 2018-11-15 日本電信電話株式会社 クラスタリング装置、回答候補生成装置、方法、及びプログラム
JP2019095940A (ja) * 2017-11-20 2019-06-20 ヤフー株式会社 情報処理装置、情報処理方法、および情報処理プログラム
JPWO2019159559A1 (ja) * 2018-02-14 2020-12-03 株式会社Nttドコモ 対話システム
WO2019244803A1 (ja) * 2018-06-18 2019-12-26 日本電信電話株式会社 回答学習装置、回答学習方法、回答生成装置、回答生成方法、及びプログラム
JP2021096710A (ja) * 2019-12-18 2021-06-24 トヨタ自動車株式会社 エージェント装置、エージェントシステム、及びエージェントプログラム
JP2020074205A (ja) * 2020-01-27 2020-05-14 日本電信電話株式会社 回答候補生成装置、回答候補生成方法、及びプログラム

Similar Documents

Publication Publication Date Title
US10997370B2 (en) Hybrid classifier for assigning natural language processing (NLP) inputs to domains in real-time
US9251786B2 (en) Method, medium and apparatus for providing mobile voice web service
US8781840B2 (en) Retrieval and presentation of network service results for mobile device using a multimodal browser
JP2006163623A (ja) 質問応答装置及び質問応答プログラム、並びに、テレビ受像機
US8874590B2 (en) Apparatus and method for supporting keyword input
RU2488877C2 (ru) Идентификация семантических взаимоотношений в косвенной речи
US20080154871A1 (en) Method and Apparatus for Mobile Information Access in Natural Language
KR20090000442A (ko) 범용 대화서비스 장치 및 그 방법
US20180039632A1 (en) Information processing apparatus, information processing method, and computer program
JP2012027788A (ja) 文書検索システム、文書検索方法およびプログラム
EP3835993A2 (en) Keyword extraction method, apparatus and medium
US20040246237A1 (en) Information access method, system and storage medium
Palogiannidi et al. Valence, arousal and dominance estimation for English, German, Greek, Portuguese and Spanish lexica using semantic models.
CN117932022A (zh) 一种智能问答方法、装置、电子设备及存储介质
JP5890385B2 (ja) データ処理装置、及びデータ処理方法
KR20080049452A (ko) 시멘틱 웹을 이용한 목적지 검색 서비스 제공 방법 및시스템
KR20080049428A (ko) 질의어 분석을 이용한 유사 검색 서비스 제공 방법 및 장치
JP5688754B2 (ja) 情報検索装置及びコンピュータプログラム
CN115982322A (zh) 一种水利行业设计领域知识图谱的检索方法及检索系统
JP4795452B2 (ja) 検索システム及び検索プログラム
KR101026986B1 (ko) 언어 표현 해석에 기반한 정보 검색방법 및 정보 제공방법
JP2009151541A (ja) 検索システムにおける最適情報の提示方法
JP2008250893A (ja) 情報検索装置、情報検索方法およびそのプログラム
JP2004220226A (ja) 検索文書のための文書分類方法及び装置
US12039268B2 (en) Graph-based natural language optimization method and electronic apparatus