JP4252786B2 - 質問応答装置、質問応答方法、及び質問応答プログラム - Google Patents

質問応答装置、質問応答方法、及び質問応答プログラム Download PDF

Info

Publication number
JP4252786B2
JP4252786B2 JP2002298870A JP2002298870A JP4252786B2 JP 4252786 B2 JP4252786 B2 JP 4252786B2 JP 2002298870 A JP2002298870 A JP 2002298870A JP 2002298870 A JP2002298870 A JP 2002298870A JP 4252786 B2 JP4252786 B2 JP 4252786B2
Authority
JP
Japan
Prior art keywords
answer
question
question sentence
creation time
candidates
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2002298870A
Other languages
English (en)
Other versions
JP2004133771A (ja
Inventor
美代子 小出
Original Assignee
株式会社ジャストシステム
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社ジャストシステム filed Critical 株式会社ジャストシステム
Priority to JP2002298870A priority Critical patent/JP4252786B2/ja
Publication of JP2004133771A publication Critical patent/JP2004133771A/ja
Application granted granted Critical
Publication of JP4252786B2 publication Critical patent/JP4252786B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は質問応答装置などに関し、例えば、入力した質問に対して回答を出力するものに関する。
【0002】
【従来の技術】
従来は、何らかの質問事項があり、これに対する回答をコンピュータを用いて取得する場合、ユーザは、質問文をコンピュータに入力し、回答が得られそうな文書を検索することが一般に行われていた。
この場合、コンピュータは、ユーザから入力された質問文からキーワードを抽出し、それを用いて文書集合から文書を探し出す。そして、ユーザは、検索された文書を読み、必要な回答を得る。
【0003】
ところで、このような、情報検索システムの多くは「文書」検索システムであり、ユーザは検索された膨大な結果を読み取り、必要な情報を取り出さなければならなかった。
また、苦労してその結果を読み取ったとしても、その中にユーザが知りたい情報が含まれているとは限らないというのが現状である。
例えば、質問文として「○×球場がオープンしたのはいつ?」と入力した場合、ユーザが知りたい情報は、○×球場がオープンした日付だが、質問文から得られるキーワード゛「○×球場」、「オープン」で検索しても、結果にはオープンした日付が入っていない可能性がある。
【0004】
上記の例のように、質問文から抽出したキーワードだけでは意図する回答が得られない場合があることから、質問文を解析し回答を返す質問応答システムが考え出された。
質問応答システムは、ユーザがどのような情報が欲しいのかという検索意図を質問文から読み取り、ユーザの質問内容に合致する具体的な部分を抽出するシステムである。質問応答システムの動きを簡単に述べると以下のようになる。
まず、入力された質問文を解析して質問情報を抽出し、質問文に合致する文書の一部(パッセージと呼ばれる)を取得する。
そして、上記解析結果より質問文の回答を検索し、適切な回答を返す。
【0005】
【発明が解決しようとする課題】
この質問応答システムを用いることにより、回答の絞り込みがある程度可能となった。しかし、必ずしも、質問文に合致する回答が得られるとは限らなかった。更に、回答が複数あるものや、回答が数値など流動的なものである場合に、これらの回答を絞り込んで簡潔に表示することは行われていなかった。
【0006】
そこで、本発明の目的は、精度が高く、回答の見やすい質問応答装置などを提供することである。
【0007】
【課題を解決するための手段】
本発明は、前記目的を達成するために、請求項1に記載の発明では、質問文を取得する質問文取得手段と、前記取得した質問文から単語を抽出する単語抽出手段と、前記抽出した単語に含まれている疑問詞を用いて、前記質問文に対する回答が備えるべき属性を推定する推定手段と、前記抽出した単語のうち少なくとも1つと前記推定した属性を用いて、前記質問文に合致する回答候補を含む文書を検索する検索手段と、前記検索した文書に含まれる回答候補を集計し、重複した回答候補の各作成時間を取得して、最も多かった時間を当該重複した回答候補の作成時間とし、前記重複した回答候補を前記作成時間の順に並べることにより前記質問文に対する回答を生成する回答生成手段と、前記生成した回答を出力する回答出力手段と、を具備したことを特徴とする質問応答装置を提供する。
請求項2記載の発明では、回答を多い順に並べて表示する重複順表示と、作成時間順に表示する作成時間順表示を選択する表示形態選択手段を備え、前記回答生成手段は、前記作成時間順表示が選択された場合に、前記検索された文書中の回答候補を集計して、重複した回答候補の各作成時間を取得して、最も多かった時間を当該重複した回答候補の作成時間とし、前記重複した回答候補を前記作成時間の順に並べることにより前記質問文に対する回答を生成し、前記重複順表示が選択された場合に、前記検索された文書中の回答候補の重複数を集計し、前記回答候補を重複数の大きい順に並べることにより回答を生成することを特徴とする請求項1に記載の質問応答装置を提供する。
請求項3記載の発明では、前記作成時間順表示が選択された場合に、重複数の最も大きい回答候補の重複数が、前記検索された文書に含まれる回答候補の数の所定の割合に達した場合、前記回答生成手段は、最も重複数の大きい回答候補のみから回答を生成することを特徴とする請求項2に記載の質問応答装置を提供する。
請求項記載の発明では、質問文取得手段と、単語抽出手段と、推定手段と、検索手段と、回答生成手段と、回答出力手段と、を備えたコンピュータにおいて、前記質問文取得手段で質問文を取得する質問文取得ステップと、前記取得した質問文から、前記単語抽出手段で単語を抽出する単語抽出ステップと、前記抽出した単語に含まれている疑問詞を用いて、前記推定手段で、前記質問文に対する回答が備えるべき属性を推定する推定ステップと、前記抽出した単語のうち少なくとも1つと前記推定した属性を用いて、前記検索手段で、前記質問文に合致する回答候補を含む文書を検索する検索ステップと、前記回答生成手段で、前記検索した文書に含まれる回答候補を集計し、重複した回答候補の各作成時間を取得して、最も多かった時間を当該重複した回答候補の作成時間とし、前記重複した回答候補を前記作成時間の順に並べることにより前記質問文に対する回答を生成する回答生成ステップと、前記生成した回答を前記回答出力手段で出力する回答出力ステップと、から構成されたことを特徴とする質問応答方法を提供する。
請求項記載の発明では、質問文を取得する質問文取得機能と、前記取得した質問文から単語を抽出する単語抽出機能と、前記抽出した単語に含まれている疑問詞を用いて、前記質問文に対する回答が備えるべき属性を推定する推定機能と、前記抽出した単語のうち少なくとも1つと前記推定した属性を用いて、前記質問文に合致する回答候補を含む文書を検索する検索機能と、前記検索した文書に含まれる回答候補を集計し、重複した回答候補の各作成時間を取得して、最も多かった時間を当該重複した回答候補の作成時間とし、前記重複した回答候補を前記作成時間の順に並べることにより前記質問文に対する回答を生成する回答生成機能と、前記生成した回答を出力する回答出力機能と、をコンピュータで実現するための質問応答プログラムを提供する。
【0008】
【発明の実施の形態】
以下、本発明の好適な実施の形態について、図を参照して詳細に説明する。
(1)実施形態の概要
本実施の形態の質問応答装置1(図1)は、ユーザが作成した自然言語による質問文を取得し(質問入力手段3)、これを解析して単語を抽出する(質問解析手段5)。抽出した単語に疑問詞が含まれる場合は、抽出した他の単語とこの疑問詞から質問文に合致する回答が備えるべき属性(回答タイプ)を推定する。
例えば、質問文が「アフガニスタンの人口は何人ですか?」である場合、単語「アフガニスタン」、「人口」、及び疑問詞「何人」から、回答が「○○人(数詞+助数詞)」という属性を備えるべきというように回答の属性を例えば品詞レベルで推定する。
【0009】
そして、質問応答装置1は、抽出した単語と属性に合致する回答候補を文書データベース11で検索し、検索した文書データから回答候補を抽出する(文書検索手段9)。
次に、抽出した回答候補のうち、同じものが複数ある場合は、重複数を数えたり、また、回答候補の抽出元の文書データの作成時間を調べるなどして、抽出した回答候補を集計する(集計手段13)。
【0010】
最後に、抽出した回答候補を所定の方法により整理して出力し(回答出力手段15)、ユーザが見やすい形で回答を提示する。
回答の表示形態には、回答を多い順に並べて表示する重複順表示と、作成時間順に表示する作成時間順表示の2つが用意されており、ユーザは表示形態を選択することができる。
【0011】
(2)実施形態の詳細
図1は、本実施の形態の質問応答装置1の機能的な構成を示した図である。
質問応答装置1は、質問入力手段3、質問解析手段5、回答推定手段7、文書検索手段9、文書データベース11、集計手段13、回答出力手段15などの各構成要素から構成されている。
後述するように、これらの構成要素は、コンピュータで質問応答プログラムを実行することによりソフトウェア的に実現される。
【0012】
質問入力手段3は、ユーザからの質問文(クエリー)の入力を受け付ける。質問文の入力は、例えば、質問応答装置1のディスプレイに表示された質問文入力欄にキーボードなどを用いて入力することにより行われる。
質問入力手段3で入力される質問文は、「アメリカの第35代大統領はだれ?」とか、「昨年一番売れたCDは何?」などと、自然言語によって構成された5W1H型質問文である。
質問解析手段5は、質問入力手段3から入力された質問文から単語(ターム)の抽出を行い、疑問詞の有無を判定する。日本語のように分かち書きしていない言語では形態素解析や構文解析などの言語解析を行って単語の抽出を行う。
【0013】
回答推定手段7は、質問解析手段5で抽出された単語を用いて回答が備えているべき属性を推定する。
回答の属性の推定方法は、質問文中から抽出された単語に疑問詞(5W1H)がある場合とない場合で異なる。質問文中に疑問詞がある場合は、抽出した他の単語と疑問詞を用いて回答の属性を推定する。
例えば、「○×球場がオープンしたのはいつですか?」という質問文があったとする。
質問応答装置1は、この質問文に含まれる疑問詞「いつ」から、回答タイプは日時であると推定し、回答は属性として「年、月、日、時間」を含むものが対象となる。そして、検索した文書中に「○月○日(数詞+助数詞)」などと推定した属性と合致する語があった場合、この語が回答候補となる。
また、質問文が「○○株式会社の社長はだれ?」の場合、単語「社長」と疑問詞「だれ」から、回答が備えているべき属性は固有人名となる。
更に、質問文が「一番人口の多い国はどこ?」の場合、単語「国」と疑問詞「どこ」から、回答が備えているべき属性は国名となる。
【0014】
疑問詞が省略されている場合は、質問文の最後の単語(あるときはその単語の品詞)から回答タイプを決定する。例えば、「××自動車の社長の名前は?」という質問文があったとする。
この場合の質問文の最後の単語は「名前」である。「名前」の直前にある「社長」(人属性)より、回答が備えるべき属性は固有人名になる。
また、質問文が「一番古い寺は?」の場合、末尾の単語「寺」から、回答候補となるのは寺名となる。
【0015】
文書検索手段9は、質問解析手段5で抽出した単語から不要なストップワード(例えば疑問詞)を除去する。そして、これらの単語と回答推定手段7で推定した回答の属性を用いて、文書データベース11で文書の検索を行う。検索方法はベクトル空間法、ブーリアン検索などを用いる。文書データベース11は、回答を作成する元となる各種の文書データが蓄積されたデータベースである。
このように、検索条件に回答候補の属性を含めることにより、検索される文書にはユーザが要求している回答が含まれている。これにより、回答の精度が向上する。
【0016】
又は、質問解析手段5で抽出した単語を用いて文書を検索した後、回答推定手段7で推定した属性に合致した回答候補を含まない文書を除去するように構成しても良い。
この場合、検索された文書を、予め決定した回答候補を用いてフィルタリングするため、文書検索手段9から出力される文書にはユーザが要求している回答が含まれている。
【0017】
ここで、5W1H型を含む質問文の具体的な処理例について説明する。
質問入力手段3から質問文「○×球場はいつ開業しましたか?」が入力されたとする。
質問解析手段5は、この質問文から「○×球場」、「いつ」、「開業」などの単語を抽出する。そして、回答推定手段7は、抽出した単語に疑問詞が含まれるか否かを確認する。この場合、質問文には疑問詞「いつ」が含まれている。そこで、回答推定手段7は、回答タイプは日時を指す語と推定し、回答候補となるのは「○月○日(数詞+助数詞)」という属性を持った語であると判断する。
次に、文書検索手段9は、質問解析手段5が抽出した「○×球場」、「開業」などの単語と、回答推定手段7が推定した「○月○日(数詞+助数詞)」なる属性を持った語を含む文書を検索する。
【0018】
次に、5W1H型が省略された質問文の具体的な処理例について説明する。
質問入力手段3から質問文「ゲーム機○△の値段は?」が入力されたとする。
質問解析手段5は、この質問文から「ゲーム機○△」、「値段」などの単語を抽出する。そして、回答推定手段7は、抽出した単語に疑問詞が含まれているか否かを確認する。この質問文の場合、疑問詞が省略されているため、疑問詞は含まれていない。
【0019】
そこで、回答推定手段7は、質問文の末尾の単語「値段」より、回答タイプは金額を指す語と推定し、回答候補となるのは「○○円(数詞+助詞)」という属性を持った語であると判断する。
次に、文書検索手段9は、質問解析手段5が抽出した「ゲーム機○△」、「値段」などの単語と、「○○円(数詞+助詞)」なる属性を持った回答候補を含む文書を検索する。
【0020】
更に、5W1H型が省略された質問文の他の例として「アフガニスタンの人口は?」を考える。
この場合、回答推定手段7は、質問文に含まれる「人口」より、回答タイプは人数を指す語と推定し、回答候補となるのは「○○人(数詞+助詞)」なる属性を持った語であると判断する。そして、文書検索手段9は、「アフガニスタン」「人口」「○○人(数詞+助詞)」なる属性を持った語を含む文書を検索する。
【0021】
次に、集計手段13は、以上のようにして検索された文書から回答候補に合致する回答を取得し、これらを集計する。
本実施の形態では、集計方法として、回答の多い順に集計する場合と、文書が作成された時間順に集計する場合の2種類を用意し、ユーザが、何れかを選択することができるようにした。
回答出力手段15は、集計結果を用いて集計回答を出力する。出力された集計回答は、例えばディスプレイに表示されたり、あるいは印刷されたりなどして、ユーザに提示される。
【0022】
回答の多い順に集計する方法に関しては、検索結果より、1件の回答結果のみ集中して回答が返ってきた場合には、その回答のみを表示し、後は表示しない。これは、大多数の回答が正解に近いものだという判断によるものである。本実施の形態では、1位の集計数が全集計数の2分の1以上となった場合に1位の回答のみ出力することとした。ここで、2分の1という値は例であり、任意に変更が可能な値である。
【0023】
例えば、質問文「○×球場はいつ開業しましたか?」に対する回答を集計手段13が集計した結果、回答「3月31日」が90件、回答「3月25日」が5件、回答「4月29日」が5件であったとする。
この場合、回答「3月31日」が、全回答数の2分の1(この例の回答の場合、全回答数の100分の90である)以上を占めている。そこで、回答出力手段15は、回答「3月31日」を正解として出力する。他の回答「3月25日」と回答「4月29日」は出力しない。
【0024】
また、1件の回答結果に集中せずに、複数の回答が分散して返ってきた場合は、これらの回答を全て出力する。本実施の形態では、1位の集計数が全集計数の2分の1に満たない場合に、全回答を出力することとした。なお、2分の1という値は例であり、任意に変更が可能である。
【0025】
例えば、質問文「アフガニスタンの人口は?」に対する回答を集計した結果、回答「19、000、000人」が40件、回答「18、000、000人」が30件、回答「18、879、000人」が30件であったとする。この場合、1位の回答が回答数の2分の1以上でないので、全ての回答を出力する。
以上のように、質問応答装置1は、質問文に対する回答を多い順に表示することができるので、例えば、アンケート分析に利用することが可能である。
【0026】
一方、文書が作成された時間順に集計する場合には、集計手段13は、回答を取得する元となった文書が作成された日時情報を取得する。その際、各回答の中で最も多い日時情報をその回答の日時情報とする。その結果を日時の新しい順、又は古い順に並べ替えることで、回答を時間順に表示することが可能となる。
なお、ユーザは、オプションにより、並べ替え時間設定を年・月・日から選択できるものとする。
【0027】
例えば、質問文「アフガニスタンの人口は?」に対する回答を集計した結果、回答候補「19、000、000人」、「18、000、000人」、「18、879、000人」が得られ、各回答候補の取得元となった文書の作成年がそれぞれ1999年、1996年、1990年であったとする。
この場合、回答出力手段15は、回答候補が「19、000、000人」(1999年)、「18、000、000人」(1996年)、「18、879、000人」(1990年)の順でかつ作成時間を付与して表示されるように出力する。
【0028】
質問応答装置1のディスプレイには、アフガニスタンの人口の推移が文書の作成日付と共に表示される。
以上のように、質問応答装置1は、質問文に対する結果を回答の取得元である文書の作成時間順に表示することができるので、データの時間的推移、例えば人口などの統計の推移を見ることができる。
【0029】
図2は、質問応答装置1の動作を説明するためのフローチャートである。以下に説明する各構成要素の動作は、質問応答装置1に搭載されたCPU(Central Processing Unit)が質問応答プログラムに従って動作することにより行われるものである。
まず、質問入力手段3が、ユーザが入力した質問文を取得する(ステップ5)。この質問文は、質問応答装置1のディスプレイに表示された質問入力欄にユーザがキーボードなどを用いて入力した自然言語による質問文である。
次に、質問解析手段5が質問入力手段3から質問文を取得し、これを形態素解析などして単語を抽出する(ステップ10)。
【0030】
次に、回答推定手段7は、ステップ10で抽出された単語に疑問詞が含まれているか否かを確認する(ステップ15)。疑問詞が含まれている場合は(ステップ15;Y)、回答推定手段7は、疑問詞と、抽出された他の単語から質問文に合致する回答候補が備えるべき属性を決定する(ステップ20)。
また、疑問詞が含まれていない場合は(ステップ15;N)、回答推定手段7は、質問文の末尾の単語から質問文に合致する回答候補が備えるべき属性を決定する(ステップ25)。
【0031】
次に、文書検索手段9が、ステップ10で抽出した単語(疑問詞を除く)と、及びステップ20又はステップ25で決定した属性を有する回答候補を含む文書を文書データベース11で検索する(ステップ30)。なお、検索の際にステップ10で抽出した単語の全てを用いる必要は必ずしも無く、例えば、質問文に対して構文解析、及び意味解析を行い、その結果に応じて検索に利用する単語を取捨選択するように構成しても良い。
【0032】
次に、集計手段13は、検索した文書の中から回答候補を抽出し(ステップ35)、抽出した回答候補を集計する(ステップ40)。
これらの処理のうち、ステップ35の回答候補の抽出は、検索した文書中から、回答推定手段7が決定した属性を有する語を抽出することにより行う。例えば、回答が備えるべき属性が「○○円(数詞+助詞)」であった場合、文書中から「300円」などと、この属性に合致する語が抽出される。
【0033】
また、ステップ40の回答候補の集計は、抽出した回答候補の重複数をカウントしたり、また、回答候補の抽出元の文書の作成時間から回答候補に作成時間に関する情報を付与したりなどする。
例えば、回答候補「2千万人」に対して、作成時間が1999年のものが(ここでは、ユーザが作成時間として年を選択したものとする)100件あり、作成時間が1998年のものが5件あった場合、この回答候補に作成時間として多数を占める1999年を付与する。
【0034】
次に、回答出力手段15は、ユーザから入力された情報(ユーザは重複数の多い順又は作成時間順の何れかの表示形態を選択できる)を元に回答の表示形態を特定し(ステップ45)、特定した表示形態で回答が表示されるように回答を出力する(ステップ50、60)。
ユーザが選択できる表示形態には、回答候補を重複数が多い順に表示し、これを回答とする形態(重複順表示)と、回答候補を回答候補に付与された作成時間順に表示し、これを回答とする形態(作成時間順表示)がある。
ユーザが重複表示を選択した場合は、回答出力手段15は、回答候補の重複数の多い順に回答候補が表示されるように回答を出力し(ステップ50)、ユーザが作成時間順表示を選択した場合は、回答候補が時間順に表示されるように回答を出力する(ステップ60)。
【0035】
なお、以上に説明した作成時間順表示では、重複する回答候補を1つにまとめ、この1つのまとめた回答候補のグループに1つの作成時間を付与したが、作成時間順の集計方法は、これに限定するものではない。例えば、回答候補を同じ作成時間を持つものでグループ分けし、更に、各グループで重複する回答候補をまとめるようにしても良い。
また、回答結果からユーザは回答を含む文書を見ることができるように構成しても良い。
【0036】
図3は、質問応答装置1のハードウェア構成の一例を示した図である。
質問応答装置1は、例えばパーソナルコンピュータを用いて構成されており、CPU68にバスライン73を介して、ROM(Read Only Memory)70、RAM(Random Access Memory)72、入力装置74、出力装置78、通信制御装置82、記憶装置88、記憶媒体駆動装置76、入出力I/F(インターフェース)84などの周辺機器が接続して構成されている。
バスライン73は、CPU68と周辺機器の間で送受信される制御信号やデータ信号の送受信を媒介する。
【0037】
CPU68は、後述の質問応答プログラム50に従って質問文に対する回答を生成して表示したり、質問応答装置1全体を制御したりなど、各種情報処理や制御を行う。
ROM70は、CPU68が各種演算や制御を行うための各種プログラム、データ及びパラメータなどを格納した読み取り専用の記憶装置である。CPU68は、ROM70からプログラムやデータ、パラメータなどを読み込むことはできるが、これらを書き換えたり消去したりすることはできない。
【0038】
RAM72は、CPU68にワーキングメモリとして使用される読み書き可能な記憶装置である。CPU68は、RAM72にプログラムやデータなどを書き込んだり消去したりすることができる。本実施の形態では、RAM72には、質問文の入力を受け付けて解析したり、回答候補を含む文書を検索したり、回答を生成して表示したり、その他の各種情報処理を行ったりするためのエリアが確保可能となっている。
【0039】
入力装置74は、例えばキーボードやマウスなどの入力装置から構成されている。
キーボードは、質問応答装置1に対して文字や数字などの情報を入力するための装置である。
キーボードは、カナや英文字などを入力するためのキーや数字を入力するためのテンキー、各種機能キー、カーソルキー及びその他のキーによって構成されている。
ユーザは、キーボードを用いて質問応答装置1に質問文を自然言語で入力することができる。
【0040】
マウスは、ポインティングデバイスである。GUI(Graphical User Interface)などを用いて質問応答装置1を操作する場合、表示装置上に表示されたボタンやアイコンなどをマウスでクリックすることにより、所定の情報の入力を行うことができる。
例えば、ディスプレイ上に重複順表示ボタンと作成時間順表示ボタンを表示し、ユーザがマウス操作で何れかのボタンをクリックすることにより、表示形態を選択できるように構成することができる。
【0041】
出力装置78は、例えば表示装置、印刷装置などから構成されている。
表示装置は、例えばCRT(Cathode Ray Tube)ディスプレイ、液晶ディスプレイ、プラズマディスプレイなどのディスプレイで構成された情報を画面上に提示するための装置である。
表示装置は、質問文を入力するための質問入力欄や、生成された回答などを表示することができる。
【0042】
印刷装置は、例えば、集計回答などテキストの形で紙などの印刷媒体に印刷する装置である。印刷装置は、例えば、インクジェットプリンタ、レーザプリンタ、熱転写プリンタ、ドットプリンタなどの各種プリンタ装置によって構成されている。印刷装置を用いることにより、回答を印刷媒体に印刷することができる。印刷媒体に回答を印刷する場合も、重複順表示と作成時間順表示のうち、ユーザが選択した形態で印刷される。
【0043】
通信制御装置82は、通信回線を介して質問応答装置1をサーバ装置やその他の端末装置に接続するための装置であって、モデム、ターミナルアダプタ、その他の装置によって構成されている。
通信制御装置82を用いると、例えばインターネットやLAN(Local Area Network)などに接続しており、これらのネットワークに接続した他の端末装置あるいはサーバ装置に蓄積された文書データを検索することも可能である。
通信制御装置82はCPU68によって制御され、所定のプロトコルに従ってこれら端末装置やサーバ装置との信号及びデータの送受信を行う。
【0044】
記憶媒体駆動装置76は、着脱可能な記憶媒体を駆動してデータの読み書きを行うための駆動装置である。着脱可能な記憶媒体としては、例えば、光磁気ディスク、磁気ディスク、磁気テープ、半導体メモリ、データをパンチした紙テープ、CD−ROMなどがある。なお、CD−ROMや紙テープは、読み込みのみ可能である。
【0045】
記憶装置88は、読み書き可能な記憶媒体と、その記憶媒体に対してプログラムやデータを読み書きするための駆動装置によって構成されている。当該記憶媒体として主にハードディスクが使用されるが、その他に、例えば、光磁気ディスク、磁気ディスク、半導体メモリなどの他の読み書き可能な記憶媒体によって構成することも可能である。
【0046】
記憶装置88は、質問応答プログラム50、文書データベース11,その他のプログラム52、その他のデータ54などが記憶されている。
CPU68は、記憶装置88の駆動装置を駆動することにより、記憶装置88に対してプログラムやデータの読み込みや書き出しを行うことができる。
【0047】
質問応答プログラム50は、CPU68に質問応答機能を発揮させるためのプログラムである。質問応答プログラム50がCPU68に読み込まれて実行されることにより、図1に示した質問入力手段3〜回答出力手段15(文書データベース11を除く)の各構成要素がソフトウェア的に構成される。
文書データベース11は、回答候補を取得する元となる文書データが例えばテキストデータとして蓄積されている。
【0048】
その他のプログラム52は、例えば、通信制御装置82を制御し、質問応答装置1とネットワークでつながれた端末装置やサーバ装置との通信を維持する通信プログラムや、メモリ管理や入出力管理などの質問応答装置1を動作させるための基本ソフトウェアであるOS(Operating System)などの各種プログラムで構成されている。
その他のデータ54には、例えば、質問解析手段5が質問文を形態素解析するための形態素辞書や、更に構文解析、意味解析を行う場合は、これに使用する構文解析辞書、意味解析辞書などの辞書類、その他のデータが格納されている。
【0049】
入出力I/F84は、例えば、シリアルインターフェースやその他の規格のインターフェースにより構成されている。入出力I/F84に当該インターフェースに対応した外部機器を接続することにより、質問応答装置1の機能を拡張することができる。このような外部機器として例えば、ハードディスクなどの記憶装置、スピーカ、マイクロフォンなどがある。
【0050】
本実施の形態では、質問応答装置1をパーソナルコンピュータを用いてスタンドアロンとして構成したが、これに限定するものではなく、ネットワーク上で質問応答サービスを提供する質問応答サーバとして構築することもできる。
質問応答サーバの構成は、基本的に図3に示した質問応答装置1と同様である。これに、通信制御装置82を用いてユーザ端末から質問文を受信する質問文受信手段と、生成した回答を通信制御装置82を用いてこのユーザ端末に送信する回答送信手段を装備すると、質問応答サーバとして機能させることができる。
【0051】
次に、図4〜図9を用いて、質問文がハードウェアで処理される様子について説明する。
図4は、質問応答装置1のディスプレイに表示された質問入力画面を示した図である。図に示したように、質問入力画面では、「質問文を入力してください」という指示の下に質問文を入力するための質問入力欄が表示される。ユーザは、この質問入力欄に対してキーボードなどを用いて「東京都の人口は何人ですか?」などと質問文を入力する。
【0052】
更に、質問入力欄の下には、表示形態を選択するためのラジオボタンが設けられている。ラジオボタンをマウスなどでクリックすることにより、重複順表示と作成時間順表示の何れかを選択することができる。ラジオボタンは、一方が選択されると、既に選択されているラジオボタンの選択状態が解除されるようになっている。図では重複順表示が選択されている。
質問入力画面の下段部には実行ボタンが設けられており、質問入力欄に質問文を入力し、表示形態を選択した後、この実行ボタンをマウス操作でクリックすると、CPU68は、回答の生成を開始する。
【0053】
図5は、文書検索手段9が文書データベース11を、質問文から抽出した単語「東京都」、「人口」、と疑問詞から決定した回答候補の属性「○○人(数詞+助数詞)」を用いて検索した検索結果を集計手段13が整理した整理後のデータの論理的な構成の一例を示した図である。整理語のデータはRAM72に格納される。
検索された文書データは、文書IDをキーとして、作成時間、回答候補、文書データに整理される。文書IDは、各文書データを一意的に識別するために各文書データに付与された数字や記号などである。作成時間は、年月日時分秒の単位まで取得される。
回答候補は、文書データから、回答候補が備えるべき属性に合致する語を抽出したものである。
【0054】
図6は、集計手段13が図5の整理後のデータを集計した集計結果を棒グラフを用いて示した図である。この集計結果はRAM72に格納されている。
グラフの縦軸は各回答候補を表し、横軸は、各回答候補の重複数を表している。また、棒グラフの右端に示した数字はその回答候補に付与された作成時間を表している。
図7は、重複表示順に回答候補を並べて表示した回答表示画面の一例を示している。
【0055】
一方、図8は、作成時間順に回答候補を並べて表示した回答表示画面の一例を示している。作成時間順に回答候補を表示する場合、画面中にグラフ表示ボタンを設け、このボタンをマウス操作でクリックすると、回答候補の時間推移をグラフ表示することができる。
図9は、図8の回答表示画面でグラフ表示ボタンをクリックした場合に表示されるグラフ表示画面の一例を示した図である。グラフ表示により東京都の人口の推移を視覚的に提示することができる。
このように、グラフ表示画面は、例えば、原油の消費量の推移、経済成長率の推移など、対象の時間的推移を知りたい場合に特に有用である。
【0056】
以上に説明した質問応答装置1では、次のような効果を得ることができる。
文書を検索する際に、質問文に合致する回答候補を検索条件として設定するため、検索された文書には質問文に対する回答候補が含まれている。このため、回答の精度が向上する。
また、検索した文書から抽出した回答候補を集計し、ユーザに見やすい形で提示する。具体的には、回答候補を重複数の多い順に並べて表示したり、あるいは、回答候補に作成時間情報を付与し、この作成時間順に並べて表示することなどが可能である。
また、本実施の形態の質問応答装置1を携帯電話などの携帯装置に実装することも可能である。一般的に、文書検索などで条件に該当するものが多く見つかると表示する情報量が増えるために、例えば、画面が小さい携帯端末では、一覧性に欠ける場合がある。しかし、質問応答装置1を実装することにより、絞り込まれた回答候補を表示したり、あるいはグラフなど視覚化されたデータとして表示することができるので、携帯端末などでも容易に回答候補を確認することができる。
【0057】
以上、本発明の1実施形態について説明したが、本発明は説明した実施形態に限定されるものではなく、各請求項に記載した範囲において各種の変形を行うことが可能である。
【0058】
【発明の効果】
本発明によれば、精度が高く、回答の見やすい質問応答装置などを提供することができる。
【図面の簡単な説明】
【図1】本実施の形態の質問応答装置の機能的な構成を示した図である。
【図2】質問応答装置の動作を説明するためのフローチャートである。
【図3】質問応答装置のハードウェア構成の一例を示した図である。
【図4】質問入力画面の一例を示した図である。
【図5】集計手段が整理した整理後のデータの論理的な構成の一例を示した図である。
【図6】整理した情報を集計した結果を棒グラフで示した図である。
【図7】重複数順表示による回答表示画面の一例を示した図である。
【図8】作成時間順表示による回答表示画面の一例を示した図である。
【図9】作成時間順表示による回答をグラフ化したグラフ表示画面の一例を示した図である。
【符号の説明】
1 質問応答装置
3 質問入力手段
5 質問解析手段
7 回答推定手段
9 文書検索手段
11 文書データベース
13 集計手段
15 回答出力手段
50 質問応答プログラム
52 その他のプログラム
54 その他のデータ
68 CPU
70 ROM
72 RAM
73 バスライン
74 入力装置
76 記憶媒体駆動装置
78 出力装置
82 通信制御装置
84 入力I/F
88 記憶装置

Claims (5)

  1. 質問文を取得する質問文取得手段と、
    前記取得した質問文から単語を抽出する単語抽出手段と、
    前記抽出した単語に含まれている疑問詞を用いて、前記質問文に対する回答が備えるべき属性を推定する推定手段と、
    前記抽出した単語のうち少なくとも1つと前記推定した属性を用いて、前記質問文に合致する回答候補を含む文書を検索する検索手段と、
    前記検索した文書に含まれる回答候補を集計し、重複した回答候補の各作成時間を取得して、最も多かった時間を当該重複した回答候補の作成時間とし、前記重複した回答候補を前記作成時間の順に並べることにより前記質問文に対する回答を生成する回答生成手段と、
    前記生成した回答を出力する回答出力手段と、
    を具備したことを特徴とする質問応答装置。
  2. 回答を多い順に並べて表示する重複順表示と、作成時間順に表示する作成時間順表示を選択する表示形態選択手段を備え、
    前記回答生成手段は、
    前記作成時間順表示が選択された場合に、前記検索された文書中の回答候補を集計して、重複した回答候補の各作成時間を取得して、最も多かった時間を当該重複した回答候補の作成時間とし、前記重複した回答候補を前記作成時間の順に並べることにより前記質問文に対する回答を生成し、
    前記重複順表示が選択された場合に、前記検索された文書中の回答候補の重複数を集計し、前記回答候補を重複数の大きい順に並べることにより回答を生成することを特徴とする請求項1に記載の質問応答装置。
  3. 前記作成時間順表示が選択された場合に、重複数の最も大きい回答候補の重複数が、前記検索された文書に含まれる回答候補の数の所定の割合に達した場合、前記回答生成手段は、最も重複数の大きい回答候補のみから回答を生成することを特徴とする請求項2に記載の質問応答装置。
  4. 質問文取得手段と、単語抽出手段と、推定手段と、検索手段と、回答生成手段と、回答出力手段と、を備えたコンピュータにおいて、
    前記質問文取得手段で質問文を取得する質問文取得ステップと、
    前記取得した質問文から、前記単語抽出手段で単語を抽出する単語抽出ステップと、
    前記抽出した単語に含まれている疑問詞を用いて、前記推定手段で、前記質問文に対する回答が備えるべき属性を推定する推定ステップと、
    前記抽出した単語のうち少なくとも1つと前記推定した属性を用いて、前記検索手段で、前記質問文に合致する回答候補を含む文書を検索する検索ステップと、
    前記回答生成手段で、前記検索した文書に含まれる回答候補を集計し、重複した回答候補の各作成時間を取得して、最も多かった時間を当該重複した回答候補の作成時間とし、前記重複した回答候補を前記作成時間の順に並べることにより前記質問文に対する回答を生成する回答生成ステップと、
    前記生成した回答を前記回答出力手段で出力する回答出力ステップと、
    から構成されたことを特徴とする質問応答方法。
  5. 質問文を取得する質問文取得機能と、
    前記取得した質問文から単語を抽出する単語抽出機能と、
    前記抽出した単語に含まれている疑問詞を用いて、前記質問文に対する回答が備えるべき属性を推定する推定機能と、
    前記抽出した単語のうち少なくとも1つと前記推定した属性を用いて、前記質問文に合致する回答候補を含む文書を検索する検索機能と、
    前記検索した文書に含まれる回答候補を集計し、重複した回答候補の各作成時間を取得して、最も多かった時間を当該重複した回答候補の作成時間とし、前記重複した回答候補を前記作成時間の順に並べることにより前記質問文に対する回答を生成する回答生成機能と、
    前記生成した回答を出力する回答出力機能と、
    をコンピュータで実現するための質問応答プログラム。
JP2002298870A 2002-10-11 2002-10-11 質問応答装置、質問応答方法、及び質問応答プログラム Expired - Fee Related JP4252786B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002298870A JP4252786B2 (ja) 2002-10-11 2002-10-11 質問応答装置、質問応答方法、及び質問応答プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002298870A JP4252786B2 (ja) 2002-10-11 2002-10-11 質問応答装置、質問応答方法、及び質問応答プログラム

Publications (2)

Publication Number Publication Date
JP2004133771A JP2004133771A (ja) 2004-04-30
JP4252786B2 true JP4252786B2 (ja) 2009-04-08

Family

ID=32288165

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002298870A Expired - Fee Related JP4252786B2 (ja) 2002-10-11 2002-10-11 質問応答装置、質問応答方法、及び質問応答プログラム

Country Status (1)

Country Link
JP (1) JP4252786B2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006244262A (ja) * 2005-03-04 2006-09-14 Nec Corp 質問回答検索システム、方法およびプログラム
JP5498556B2 (ja) * 2012-10-24 2014-05-21 株式会社Nttドコモ 情報処理装置、情報処理システム、及び質問回答方法
JP6167029B2 (ja) * 2013-12-02 2017-07-19 株式会社Nttドコモ レコメンド情報生成装置およびレコメンド情報生成方法
JP7159778B2 (ja) * 2018-10-16 2022-10-25 日本電信電話株式会社 発話生成装置、方法、及びプログラム
JP7127570B2 (ja) * 2019-02-18 2022-08-30 日本電信電話株式会社 質問応答装置、学習装置、質問応答方法及びプログラム
CN110334199A (zh) 2019-07-09 2019-10-15 北京百度网讯科技有限公司 获得问题答案的方法和装置、电子设备、计算机可读介质
CN111984763B (zh) * 2020-08-28 2023-09-19 海信电子科技(武汉)有限公司 一种答问处理方法及智能设备

Also Published As

Publication number Publication date
JP2004133771A (ja) 2004-04-30

Similar Documents

Publication Publication Date Title
CN1670733B (zh) 用自然语言命令呈递表格
US8060357B2 (en) Linguistic user interface
US9069754B2 (en) Method, system, and computer readable medium for detecting related subgroups of text in an electronic document
US20030115192A1 (en) One-step data mining with natural language specification and results
WO2019158014A1 (zh) 由计算机实施的与用户对话的方法和计算机系统
EP2124173A2 (en) System and method for semi-automatic creation and maintenance of query expansion rules
US9092428B1 (en) System, methods and user interface for discovering and presenting information in text content
WO2009154153A1 (ja) 文書検索システム
US20120265779A1 (en) Interactive semantic query suggestion for content search
KR20160030943A (ko) 음성 입력에 기초한 표 데이터에 관한 연산의 수행 기법
US20170371965A1 (en) Method and system for dynamically personalizing profiles in a social network
US9424244B2 (en) Data filtering based on a cell entry
WO2002073531A1 (en) One-step data mining with natural language specification and results
JPH1115897A (ja) 対話型データ分析支援装置及び対話型データ分析支援プログラムを記録した媒体
US10073828B2 (en) Updating language databases using crowd-sourced input
CN112989010A (zh) 数据查询方法、数据查询装置和电子设备
JP4252786B2 (ja) 質問応答装置、質問応答方法、及び質問応答プログラム
JP2001216311A (ja) イベント分析装置、及びイベント分析プログラムが格納されたプログラム装置
KR100707725B1 (ko) 자동완성 질의어 제공 시스템, 방법 및 상기 방법을실행하기 위한 프로그램이 기록된 컴퓨터에서 판독 가능한기록 매체
JPH1145289A (ja) 文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法
US11720240B1 (en) Visual autocompletion for geospatial queries
JP7416665B2 (ja) 対話システム、及び対話システムの制御方法
JP4511892B2 (ja) 類義語検索装置、その方法、そのプログラム、および、情報検索装置
JP4098764B2 (ja) 文書処理装置及びプログラム
Chaichi et al. Deploying natural language processing to extract key product features of crowdfunding campaigns: the case of 3D printing technologies on kickstarter

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20051007

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080929

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081007

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081205

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090106

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090122

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120130

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130130

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees