JP4162223B2 - 自然文検索装置、その方法及びプログラム - Google Patents

自然文検索装置、その方法及びプログラム Download PDF

Info

Publication number
JP4162223B2
JP4162223B2 JP2003155561A JP2003155561A JP4162223B2 JP 4162223 B2 JP4162223 B2 JP 4162223B2 JP 2003155561 A JP2003155561 A JP 2003155561A JP 2003155561 A JP2003155561 A JP 2003155561A JP 4162223 B2 JP4162223 B2 JP 4162223B2
Authority
JP
Japan
Prior art keywords
search
document
question
text
search keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2003155561A
Other languages
English (en)
Other versions
JP2004355550A (ja
Inventor
昌明 永田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2003155561A priority Critical patent/JP4162223B2/ja
Publication of JP2004355550A publication Critical patent/JP2004355550A/ja
Application granted granted Critical
Publication of JP4162223B2 publication Critical patent/JP4162223B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、一般的には自然言語により表現された情報検索要求に応じて情報を検索する自然文検索装置に関し、特に、キーワード検索方式を利用して適合度の高い文書情報を獲得できる自然文検索装置に関する。
【0002】
【従来の技術】
従来の文書検索システムは、基本的にキーワード検索システムであり、キーワード集合で表現された情報検索要求を入力とし、それに適合する文書集合を検索結果として出力する。この際、適合度の尺度としては、TF−IDF法のようなキーワード集合と文書の類似度を使用し、入力されたキーワード集合との類似度が高い順番に文書を出力することが多い(例えば、非特許文献1を参照)。
【0003】
さらに、WWW(World Wide Web)上の文書を検索対象とするインターネット検索エンジンの場合には、多くのサイトからリンクを張られているサイトの情報は信頼できるというような、WWWのトポロジー(相互接続性)に基づくヒューリスティクスを利用することにより適合度の判定の精度を高めている。この方法はPageRankと呼ばれている(例えば、非特許文献2を参照)。
【0004】
しかし、例えば、「歴史上、一番背が高いアメリカの大統領は誰か?」というような自然言語により表現された質問文に対する回答を与える文書を検索したい場合、キーワード検索システムに入力すべきキーワード集合をこの質問文から作成するのは必ずしも容易ではない。
【0005】
そこで、キーワード集合ではなく自然言語で情報検索要求を文書検索システムに入力する方法が従来より研究されており、これはキーワード検索に対して自然文検索と呼ばれている。インターネット検索エンジンには、キーワード検索に加えて自然文検索が可能なものが存在する。
【0006】
自然文検索は、ユーザが知りたい情報を話し言葉で(しゃべるように)検索できるので、キーワード検索に比べてAND−ORなどの論理演算に関する専門知識を必要としないので、ユーザにとっては情報検索要求を自然に表現できるという利点がある。また、情報検索サービスを提供する側からみると、検索キーワードよりも自然文の方が、ユーザが欲しい情報をより正確に把握することができるという利点がある。
【0007】
従来の自然文検索の研究開発では、例えば以下の特許文献のように、自然言語で表現された情報検索要求、すなわち質問文から検索キーワードや検索式を作成する方法、および、シソーラス(同義語・関連語辞書)を利用してユーザが使用する語彙と検索対象となる文書で使用されている語彙の違いを吸収する方法(いわいる「概念検索」)などが考案されている(例えば、特許文献1)。
【0008】
また英語の自然文検索では、ユーザが入力した質問文に対して、システムがその意味を解釈して複数の言い換えの可能性を提示し、ユーザにその中から一つを選ばせることによって、システムが回答可能な質問へユーザを誘導する手法もある。
【0009】
しかし、従来の自然文検索では、質問文からユーザが何をどういう情報が知りたいかを判定し、その質問文に対する回答が文書中に含まれているかどうかを質問文と文書の適合度の尺度とするような方法は存在しない。
【0010】
近年、ユーザの質問文に対する回答をシステムが直接提示する質問応答システムが盛んに研究されている(例えば、特許文献2を参照)。
【0011】
質問応答システムでは、例えば、ユーザが「一番背が高いアメリカの大統領は誰ですか?」という質問文を入力すると、システムは、「一番背が高いアメリカの大統領」に関する文書を検索するのではなく、「リンカーン」という回答を出力する点に特徴がある。
【0012】
一般に、質問応答システムでは、質問文に対する回答を表示するだけではなく、以下の表示例のように、回答を抽出した文書もユーザに提示する。これは、例えば「一番背が高いアメリカの大統領は誰ですか?」という質問文に対して、「リンカーン」という回答だけが出力されても、ユーザは本当に「リンカーン」が正しい回答かどうかを確認できないからである。
(表示例)
「2月12日
…流血のカンザス事件」などが相次いで起った。リンカーン=ダグラス論争 1858年のアメリカ中間選挙でイリノイ州…リンカーンは身長が193.0cmもあり、歴代大統領で一番背が高かく、顔もかなり面長で端から見ると…」
従って、「回答および回答を抽出した文書の組」を出力する質問応答システムは、質問文を入力として文書を出力するところから、自然文検索システムの一種と見なせる。
【0013】
しかし、質問応答システムは、回答の尤もらしさが大きい順に、回答および回答を抽出した文書の組を出力するものであり、文書は、必ずしも質問文に対する適合度の順に出力されない。
【0014】
例えば、「一番背が高いアメリカの大統領は誰ですか?」という質問文に対して、「アメリカ」と「大統領」という2つのキーワードしか含まない(質問文に対する適合度が低い)文書が大量に存在し、その中に「ブッシュ」という人名が高頻度で出現した場合、質問応答システムでは、回答候補の第1位として「ブッシュ」が選択され、「ブッシュ大統領」に関する文書が回答の根拠として出力されてしまう可能性がある。
【0015】
すなわち、従来の質問応答システムでは、質問文解析、固有表現抽出、回答候補選択など、文書検索以外の様々な処理が原因となって回答を誤る場合が相当数あり、このような誤りが発生した場合には、非常に「的はずれ」な回答とともに、質問文に対する適合度が低い文書が表示されるという問題点がある。従って、質問応答システムを、そのまま自然文検索システムとして使用するには問題が多い。
【0016】
【非特許文献1】
北 研二,津田 和彦,獅々堀 正幹 著「情報検索アルゴリズム」共立出版、2002年。
【0017】
【非特許文献2】
Sergey Brin and Lawrence Page, The Anatomy of a Large-Scale Hypertextual Web Search Engine, Proceedings of the Seventh International World Wide Web Conference(WWW7),1998。
【0018】
【特許文献1】
特開2002−63203号公報。
【0019】
【特許文献2】
特開2002−132811号公報。
【0020】
【発明が解決しようとする課題】
従来の自然文検索システムでは、ユーザの質問文に対する回答を文書が含んでいるかどうかを質問文と文書の適合度の尺度とするものは存在しなかった。一方、従来の質問応答システムは、質問文に対する回答を出力することができるので、回答を抽出した文書を回答と同時に出力すれば、ユーザの質問文に対する回答を与えることができる文書を出力する自然文検索とみなすことができる。しかし、質問応答システムでは、質問文解析、固有表現抽出、回答候補選択など、文書検索以外の様々な処理が原因となって回答を誤る可能性を無視できず、もし誤った回答を質問応答システムが選択した場合には、質問文に対する適合度が低い文書が出力されるという問題があった。
【0021】
本発明は、このような事情に鑑みてなされたものであり、質問文から検索キーワード集合を作成してキーワード検索により文書集合を検索し、検索された文書における検索キーワードの周囲のテキストが質問文に対する回答を含むという事象の期待値が大きい順に、検索された文書と検索キーワードの周囲のテキストの組を表示することにより、検索キーワードの周囲のテキストが質問に対する回答および回答の根拠を含むと期待される文書を上位に順位付けて出力する自然文検索装置を提供することを目的とする。
【0022】
【課題を解決するための手段】
本発明の観点は、自然言語により表現された情報検索要求を入力とする自然文検索装置であって、特に、自然言語による質問文から検索キーワード集合を作成して、当該検索キーワード集合を用いて文書集合を検索する装置である。
【0023】
本発明の観点に従った自然文検索装置は、自然文で表現された情報検索要求として質問文を入力し、当該質問文に適合する文書集合を適合度の順に出力する自然文検索装置であって、入力された質問文から検索キーワード集合を作成し、その質問文が要求している回答の種類を検索キーワードの固有表現タイプに基づいて分類したものである質問タイプとして判別する質問解析手段と、前記作成された検索キーワード集合に基づいて、指定の文書検索エンジンから検索された文書集合、及び該文書検索エンジンにより抽出された当該各文書における検索キーワードの周囲のテキストを獲得する文書検索インターフェース手段と、前記検索キーワードの周囲のテキストから固有名詞や数値表現を抽出する固有表現抽出手段と、前記検索キーワードの周囲のテキストと質問文に同じ単語列が出現する頻度が高いほど大きくなる値と、前記質問タイプと同じ固有表現タイプを持つ検索キーワードの周囲のテキスト中の語句の異なり数とを足し合わせた値検索キーワードの周囲のテキストの長さで正規化したスコアを算出し、該スコアを前記質問文に対する文書の適合度の尺度として前記検索された文書を順位付けする文書再ランキング手段とを備えた構成である。
【0024】
【発明の実施の形態】
以下図面を参照して、本発明の実施の形態を説明する。
(システム構成)
図1は、本実施形態に関する自然文検索装置の原理的システム構成を示すブロック図である。
【0025】
本装置10は、文書データベース100と、質問解析部101と、文書検索部102と、文書再ランキング部103とを有する。
【0026】
文書データベース100は、検索対象となる文書情報を蓄積している情報記憶装置を主要素とする。質問解析部101は、ユーザが自然言語で表現した情報検索要求、すなわち質問文から検索キーワード集合を作成する。文書検索部102は、質問解析部101により作成された検索キーワード集合に基づいて、文書データベース100から文書を検索し、さらに、検索された文書から検索キーワードの周囲のテキスト(KWIC)を抽出する。文書再ランキング部103は、当該KWICが質問文に対する回答を含むという事象の期待値に基づいて、文書検索部102により検索された文書を順位付けて、当該文書とKWICとの組み合わせ情報を出力する。
【0027】
なお、本システムは、ソフトウェア及び当該ソフトウェアを実行するCPUとメモリからなるハードウエアを含むコンピュータシステムにより実現される。
(本実施形態の原理的動作)
以下図1に示すシステムの原理的動作を、図2に示すフローチャートを参照して説明する。
【0028】
まず、システム10に対して、ユーザが自然言語で質問文を入力する(ステップS201)。質問解析部101は、入力された質問文を形態素解析し、検索キーワード集合を作成する(ステップS202)。文書検索部102は、質問解析部101により作成された検索キーワード集合に基づいて、文書データベース100から文書を検索し、さらに、各文書から検索キーワードの周囲のテキスト(KWIC)を抽出する(ステップS203)。
【0029】
次に、文書再ランキング部103は、各文書のKWICを形態素解析し、質問文に対する回答が当該KWICの中に含まれている期待値を計算する。そして、文書再ランキング部103は、算出した期待値の大きさに基づいて、検索された文書の順位付け処理(再ランキング)を実行する(ステップS204)。最後に、文書再ランキング部103は、文書とKWICの組をステップ204で求めた期待値の大きい順に出力する(ステップ205)。
【0030】
以上要するに本実施形態のシステムによれば、ユーザが自然言語で入力した質問文に対して、文書データベース100から、期待値の大きい順に文書とKWICとの組み合わせを取得する事ができる。当該期待値は、当該KWICが質問文に対する回答を含むという事象の期待値であり、質問文に対する文書の適合度の尺度としてみることができる。
【0031】
従って、本システムであれば、ユーザからの質問文に対して、回答を含む期待値の大きい順に、即ち適合度の大きい順に、検索された文書と検索キーワードの周囲のテキスト(KWIC)の組を、例えばディスプレイ上に表示できる。この場合、KWICは、ユーザの質問に対する回答を含む期待値が大きい文書に関して、その回答の根拠を示す役割を果たす。
【0032】
また、従来の質問応答システムが回答の尤もらしさの順に文書を順位付ける方式に対して、本実施形態のシステムは、回答を含む可能性の大きさの順に文書を順位付けるので、回答選択などの処理における誤りの影響を受けることがなく、より質問文に対する適合度の高い文書を検索結果とすることができる。
(本実施形態を適用する具体例)
図3は、本実施形態のシステムを適用した具体的な自然文検索装置30のシステム構成を示すブロック図である。
【0033】
本システムは、質問解析部301と、文書検索インターフェース部302、文書再ランキング部303と、形態素解析器305と、固有表現抽出器306と、意味カテゴリ辞書307と、統計的分類器308とを有する。
【0034】
質問解析部301は、形態素解析器305を用いて、自然言語からなる質問文の単語分割および品詞付与などの処理を実行して、検索キーワード集合を抽出する。具体的には、名詞・形容詞・副詞などの内容語、及びカタカナ文字列、英文字列、数字列などのキーワードになりやすい未知語を検索キーワードとして抽出する。例えば、「M(選手名)とY(球団名)との契約金は?」という質問文に対しては、「M」、「Y」、「契約」、「金」が検索キーワード集合として抽出される。
【0035】
また、質問解析部301は、意味カテゴリ辞書307および統計的分類器308を用いて質問タイプを判定する。質問タイプは、質問文が要求している回答の種類に基づいて質問文を分類するもので、例えば「組織名、人名、地名、固有物名、日付、時間、金額、割合」の8種類を使用する。質問タイプの分類は、固有表現抽出器306が抽出する固有表現の分類と同じである。
【0036】
質問文の質問タイプを判定する問題は、基本的にはテキスト分類問題である。従って、質問文を大量に収集し、各質問文に対して人手により質問タイプを付与したデータを大量に用意すれば、これを学習データとして統計的分類器308を学習させることにより、任意の質問文に対して質問タイプを付与することができる。
【0037】
本実施形態の具体例としては、様々な語彙を含む質問文に対して高精度に質問タイプの分類を行うために、統計的分類器308としてサポートベクトルマシン(SVM)を使用する。SVMについては、例えば、文献「Vladimir N.Vapnik ,“The Nature of Statistical Learning Theory”,Springer,1995」に開示されている。また、統計的分類器308としては、サポートベクトルマシン以外に、最近隣法、ブースティング、最大エントロピー法、決定木などを使用した方法でもよい。
【0038】
また、サポートベクトルマシンの入力となる特徴ベクトルを質問文から作成する際には、名詞の意味カテゴリを特徴として利用するために意味カテゴリ辞書307を使用する。意味カテゴリ辞書307としては、例えば文献(NTTコミュニケーション科学研究所監修,“日本語語彙体系”,岩波書店,1997)に開示されている。この日本語語彙体系では、名詞を12段、2715カテゴリに分類し、1単語につき、最大5個のカテゴリが割り当てられている。
【0039】
意味カテゴリ辞書307と統計的分類器308(サポートベクトルマシン)を用いて、質問文の質問タイプを判定する方法については、例えば文献「鈴木潤,佐々木裕,前田英作,“統計的機械学習による質問タイプ同定”,情報科学技術フォーラム(FIT2002),情報技術レターズ,pp.89-90,2002」に開示されている。
【0040】
この開示されている方法では、各意味カテゴリに対応する2715次元の特徴ベクトルを作成し、あるカテゴリに所属する名詞が質問文中に出現したら、そのカテゴリおよびその上位のすべてのカテゴリに対応する特徴ベクトルの位置のビットに1を立てる。質問タイプの判定に使用する特徴ベクトルには、意味カテゴリ辞書307のカテゴリ以外に、必要に応じて、質問文の学習データに出現した高頻度の単語や、固有表現抽出器306を用いて抽出した固有表現の種類別での出現の有無などを使用してもよい。
【0041】
形態素解析器305および固有表現抽出器306としては、形態素解析(単語分割と品詞付与)および固有表現抽出(固有名詞および数値表現の認識と分類)ができるものならば何を使用してもよい。固有表現抽出器306としては、例えば文献「齋藤邦子,永田昌明,“HMMに基づく多言語固有表現抽出システムの開発”,言語処理学会 第9回年次大会 発表論文集,pp.5-8,2002」に開示されている隠れマルコフモデル(HMM)を用いた固有表現抽出器306が使用される。
【0042】
文書検索インターフェース部302は、質問解析部301が作成した検索キーワード集合を用いて、文書検索エンジン304を介して検索された文書及びKWIC(即ち、検索キーワードの周囲のテキスト)を獲得する。
【0043】
ここで、文書検索エンジン304は、例えばインターネット(Web)からWeb文書を検索するインターネット検索エンジンとして、本システム30の外部に設けられた要素である。また、文書検索エンジン304は、本システム30の内部に設けられて、内部または外部の文書データベースからキーワード検索を実行するテキスト検索システムに相当するものでもよい。要するに、文書検索エンジン304としては、文書データベースからキーワード検索が可能で、かつKWICを取得できるものならば何でもよい。
【0044】
ここでは、文書データベースとしてインターネット(Web)を使用し、文書検索エンジン304は、インターネット検索エンジンとして本システム30の外部要素の場合を想定する。
【0045】
ここで、KWICを抽出する方法は、一般的には「パッセージ検索」と呼ばれる方法であり、長い文書の中の関連する一部分を抜き出す技術を利用する。パッセージ検索の実現法については、例えば文献「Marcin Kaszkiel and Justin Zobel,“Passage Retrieval Revisited”,SIGIR-97,pp.178-185」に開示されている。
【0046】
文書再ランキング部303は、文書検索インターフェース部302により獲得された検索文書とKWICの組を入力として、当該KWICの中に正しい回答が含まれる期待値を算出し、この期待値が大きい順に文書を順位付けする。この処理は、文書検索エンジン304が出力する文書の順位とは別の順位を計算するため、「再ランキング」処理と呼ぶ。
【0047】
ここで、実際にはKWICの中に正しい回答が含まれる期待値を厳密に求めることは難しいので、様々なヒューリスティクスを用いてこれを近似する。最も単純なヒューリスティクスは、KWICが質問文により近い表現(同じ単語列)を含むほど、回答を含む可能性が高いというものである。
【0048】
本具体例では、まず質問文を形態素解析し、質問文中に含まれる単語のunigram,bigram,trigramを作成する。次に、以下の計算式(1)により各KWICに回答が含まれる期待値に相当するスコアSを算出する。
【0049】
【数4】
Figure 0004162223
【0050】
ここでNn (n=1,2,3)は、あるKWICに出現する質問文中のunigram,bigram,trigramの異なり数である。tfn はn-gramの出現頻度であり、idfは逆文書頻度である。wn はn-gramへの重みであり、より長いn-gramに対する重みを大きくするように実験的に設定する。Normalized_FactorはKWICの長さの違いを正規化する重みであり、より長いKWICほど大きくなるように実験的に設定する。
【0051】
逆文書頻度を計算する際に分母として必要な総文書数は、文書検索エンジン304から取得する文書数とする。本具体例では、当該文書検索エンジン304から取得する文書数を事前に設定できることを想定し、デフォルトでは例えば10件に設定することができる。
【0052】
また、本具体例では、質問タイプと一致する固有表現タイプを持つ語句がKWIC中に存在するかどうかを、期待値(スコア)の計算に反映させても良い。その場合には、あらかじめ質問解析部301において質問文の質問タイプを判定し、文書検索エンジン304が検索した各文書のKWICから固有表現抽出器306を用いて固有表現を抽出した上で、次式(2)をスコアの計算に用いる。
【0053】
【数5】
Figure 0004162223
【0054】
ここで、Nqtは質問タイプと同じ固有表現タイプを持つKWIC中の語句の異なり数を表す。wqtは質問タイプに対する重みであり、この重みの最適な値は実験的に決定される。
(検索結果の具体例)
図4は、本具体例のシステムにおける検索結果の例を示す機能ブロック図である。ここでは、「M(選手名)とY(球団名)の契約金は?」という質問文が入力された場合を例として示している。
【0055】
まずユーザは、質問文を入力し、インターネット検索エンジンとそこから検索する文書数を選択する(処理401)。この例ではインターネット検索エンジンとして「XXXXX」を選択し、検索件数として10件を指定している。
【0056】
質問解析部301は、入力された質問文から「M、Y、契約、金」というキーワード集合を抽出し、また質問タイプを「金額」と判定する(処理402)。
【0057】
文書検索インターフェース部302は、検索キーワードをインターネット検索エンジン304に送り、当該検索エンジン304から文書のURLおよびKWICを得る(処理403)。
【0058】
文書再ランキング部303は、文書検索インターフェース部302により獲得された検索文書とKWICの組(URLタイトル概要文に相当)を入力として、当該KWICの中に正しい回答が含まれる期待値を算出し、この期待値が大きい順に文書を順位付けを実行する。具体的には、質問文とKWICの類似度、および、質問タイプと同じタイプを持つ固有表現の有無に基づいて、文書を再ランキングし(処理404)、当該結果を例えばディスプレイ上に表示する(表示結果405)。
【0059】
この例では、インターネット検索エンジン304の検索結果では、例えば第9位にあった文書が、再ランキングの結果、「M、Y、契約」というキーワードを含み、かつ、例えば「約2100万ドル(約25億2000万円)」という金額の表現をKWICに含むことから第1位に順位付けられる。
【0060】
従って、ユーザからの例えば「M(選手名)とY(球団名)の契約金は?」という質問文に対して、「約2100万ドル(約25億2000万円)」という回答を含む文書を上位にランキングし、かつ、回答の根拠として当該文書と組となるKWICを表示することができる。
【0061】
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
【0062】
【発明の効果】
以上詳述したように本発明によれば、自然言語により表現された質問文を情報検索要求として入力し、当該質問文に対する回答を含むという事象の期待値に基づいて文書を順位付けする方式を実現することにより、質問文に対して適合度の高い文書を出力することができる自然文検索装置を提供できる。
【図面の簡単な説明】
【図1】 本発明の実施形態に関する自然文検索装置の原理的システム構成を示すブロック図。
【図2】 本実施形態の原理的動作を説明するためのフローチャート。
【図3】 本実施形態のシステムを適用した自然文検索装置の具体例のシステム構成を示すブロック図。
【図4】 同具体例のシステムに関する検索結果の表示例を示す図。
【符号の説明】
10…自然文検索装置、100…文書データベース、101…質問解析部、
102…文書検索部、103…文書再ランキング部。
301…質問解析部、302…文書検索インターフェース部、
303…文書再ランキング部、304…文書検索エンジン、
305…形態素解析器、306…固有表現抽出器、307…意味カテゴリ辞書
308…統計的分類器。

Claims (5)

  1. 自然文で表現された情報検索要求として質問文を入力し、当該質問文に適合する文書集合を適合度の順に出力する自然文検索装置であって、
    入力された質問文から検索キーワード集合を作成し、その質問文が要求している回答の種類を検索キーワードの固有表現タイプに基づいて分類したものである質問タイプとして判別する質問解析手段と、
    前記作成された検索キーワード集合に基づいて、指定の文書検索エンジンから検索された文書集合、及び該文書検索エンジンにより抽出された当該各文書における検索キーワードの周囲のテキストを獲得する文書検索インターフェース手段と、
    前記検索キーワードの周囲のテキストから固有名詞や数値表現を抽出する固有表現抽出手段と、
    前記検索キーワードの周囲のテキストと質問文に同じ単語列が出現する頻度が高いほど大きくなる値と、前記質問タイプと同じ固有表現タイプを持つ検索キーワードの周囲のテキスト中の語句の異なり数とを足し合わせた値検索キーワードの周囲のテキストの長さで正規化したスコアを算出し、該スコアを前記質問文に対する文書の適合度の尺度として前記検索された文書を順位付けする文書再ランキング手段と
    を具備したことを特徴とする自然文検索装置。
  2. 前記文書再ランキング手段は、前記スコア(Sとする)を算出する手段として、
    n(n=1,2,3)は検索キーワードの周囲のテキストに出現する質問文中のunigram,bigram,trigramの異なり数を示し、tfnはn-gramの出現頻度を示し、wnはn-gramへの重みを示し、Nqtは質問タイプと同じ固有表現タイプをもつ検索キーワードの周囲のテキスト中の語句の異なり数を示し、wqtは質問タイプに対する重みを示し、Normalized_Factorは検索キーワードの周囲のテキストの長さの違いを正規化する重みを示す下記式により算出することを特徴とする請求項1に記載の自然文検索装置。
    Figure 0004162223
  3. 自然文で表現された情報検索要求として質問文を入力し、当該質問文に適合する文書集合を適合度の順に出力する自然文検索装置に適用する検索方法であって、
    質問解析手段が、入力された質問文から検索キーワード集合を作成し、その質問文が要求している回答の種類を検索キーワードの固有表現タイプに基づいて分類したものである質問タイプとして判別する質問解析ステップと、
    文書検索インターフェース手段が、前記作成された検索キーワード集合に基づいて、指定の文書検索エンジンから検索された文書集合、及び該文書検索エンジンにより抽出された当該各文書における検索キーワードの周囲のテキストを獲得する文書検索ステップと、
    固有表現抽出手段が、前記検索キーワードの周囲のテキストから固有名詞や数値表現を抽出するステップと、
    文書再ランキング手段が、前記検索キーワードの周囲のテキストと質問文に同じ単語列が出現する頻度が高いほど大きくなる値と、前記質問タイプと同じ固有表現タイプを持つ検索キーワードの周囲のテキスト中の語句の異なり数とを足し合わせた値検索キーワードの周囲のテキストの長さで正規化したスコアを算出し、該スコアを前記質問文に対する文書の適合度の尺度として前記検索された文書を順位付けする文書再ランキングステップと
    を実行することを特徴とする検索方法。
  4. 前記文書再ランキングステップは、前記スコア(Sとする)を算出する手段として、
    n(n=1,2,3)は検索キーワードの周囲のテキストに出現する質問文中のunigram,bigram,trigramの異なり数を示し、tfnはn-gramの出現頻度を示し、wnはn-gramへの重みを示し、Nqtは質問タイプと同じ固有表現タイプをもつ検索キーワードの周囲のテキスト中の語句の異なり数を示し、wqtは質問タイプに対する重みを示し、Normalized_Factorは検索キーワードの周囲のテキストの長さの違いを正規化する重みを示す下記式により算出することを特徴とする請求項3に記載の検索方法。
    Figure 0004162223
  5. 質問解析手段、文書検索インターフェース手段、固有表現抽出手段、及び文書再ランキング手段を含み、自然文で表現された情報検索要求として質問文を入力し、当該質問文に適合する文書集合を適合度の順に出力する自然文検索装置をコンピュータにより構成し、当該コンピュータが実行するプログラムであって、
    前記質問解析手段により、入力された質問文から検索キーワード集合を作成し、その質問文が要求している回答の種類を検索キーワードの固有表現タイプに基づいて分類したものである質問タイプとして判別する手順と、
    前記文書検索インターフェース手段により、前記作成された検索キーワード集合に基づいて、指定の文書検索エンジンから検索された文書集合、及び該文書検索エンジンにより抽出された当該各文書における検索キーワードの周囲のテキストを獲得する手順と、
    前記固有表現抽出手段により、前記検索キーワードの周囲のテキストから固有名詞や数値表現を抽出する手順と、
    前記文書再ランキング手段により、前記検索キーワードの周囲のテキストと質問文に同じ単語列が出現する頻度が高いほど大きくなる値と、前記質問タイプと同じ固有表現タイプを持つ検索キーワードの周囲のテキスト中の語句の異なり数とを足し合わせた値検索キーワードの周囲のテキストの長さで正規化したスコアを算出し、該スコアを前記質問文に対する文書の適合度の尺度として前記検索された文書を順位付けする手順とを実行し、
    前記文書再ランキング手段は、前記スコア(Sとする)を算出する手段として、
    n(n=1,2,3)は検索キーワードの周囲のテキストに出現する質問文中のunigram,bigram,trigramの異なり数を示し、tfnはn-gramの出現頻度を示し、wnはn-gramへの重みを示し、Nqtは質問タイプと同じ固有表現タイプをもつ検索キーワードの周囲のテキスト中の語句の異なり数を示し、wqtは質問タイプに対する重みを示し、Normalized_Factorは検索キーワードの周囲のテキストの長さの違いを正規化する重みを示す下記式により算出することを特徴とするプログラム。
    Figure 0004162223
JP2003155561A 2003-05-30 2003-05-30 自然文検索装置、その方法及びプログラム Expired - Lifetime JP4162223B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003155561A JP4162223B2 (ja) 2003-05-30 2003-05-30 自然文検索装置、その方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003155561A JP4162223B2 (ja) 2003-05-30 2003-05-30 自然文検索装置、その方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2004355550A JP2004355550A (ja) 2004-12-16
JP4162223B2 true JP4162223B2 (ja) 2008-10-08

Family

ID=34049906

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003155561A Expired - Lifetime JP4162223B2 (ja) 2003-05-30 2003-05-30 自然文検索装置、その方法及びプログラム

Country Status (1)

Country Link
JP (1) JP4162223B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7920458B2 (en) 2005-04-27 2011-04-05 Ricoh Company, Ltd. Optical recording medium, and recording and reproducing method

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4526080B2 (ja) * 2005-05-20 2010-08-18 日本電信電話株式会社 方法説明検索装置およびプログラム
JP4640591B2 (ja) * 2005-06-09 2011-03-02 富士ゼロックス株式会社 文書検索装置
JP4592556B2 (ja) * 2005-10-07 2010-12-01 株式会社日立製作所 文書検索装置、文書検索方法および文書検索プログラム
JP5461388B2 (ja) * 2008-03-10 2014-04-02 国立大学法人横浜国立大学 Wwwを情報源として記述的な回答が可能な質問応答システム
US20110106849A1 (en) * 2008-03-12 2011-05-05 Nec Corporation New case generation device, new case generation method, and new case generation program
JP6353269B2 (ja) * 2014-05-12 2018-07-04 株式会社 ミックウェア 情報処理装置、情報処理方法、およびプログラム
JP6719082B2 (ja) * 2016-07-04 2020-07-08 パナソニックIpマネジメント株式会社 決定木生成装置、決定木生成方法、決定木生成プログラム及び質問システム
JP6739361B2 (ja) * 2017-01-18 2020-08-12 ヤフー株式会社 情報提供装置、情報提供方法、およびプログラム
JP2020123131A (ja) * 2019-01-30 2020-08-13 株式会社東芝 対話システム、対話方法、プログラム、及び記憶媒体
CN110377721B (zh) * 2019-07-26 2022-05-10 京东方科技集团股份有限公司 自动问答方法、装置、存储介质及电子设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7920458B2 (en) 2005-04-27 2011-04-05 Ricoh Company, Ltd. Optical recording medium, and recording and reproducing method

Also Published As

Publication number Publication date
JP2004355550A (ja) 2004-12-16

Similar Documents

Publication Publication Date Title
US7805303B2 (en) Question answering system, data search method, and computer program
JP5169816B2 (ja) 質問回答装置、質問回答方法および質問回答用プログラム
JP2810650B2 (ja) 自然言語ドキュメントのセンテンスからセンテンスの部分集合を自動的に抽出する方法及び装置
JP3429184B2 (ja) テキスト構造解析装置および抄録装置、並びにプログラム記録媒体
US20050080613A1 (en) System and method for processing text utilizing a suite of disambiguation techniques
US20080221863A1 (en) Search-based word segmentation method and device for language without word boundary tag
EP1675025A2 (en) Systems and methods for generating user-interest sensitive abstracts of search results
US20040117352A1 (en) System for answering natural language questions
US20100205198A1 (en) Search query disambiguation
JP5710581B2 (ja) 質問応答装置、方法、及びプログラム
JP2008537225A (ja) クエリについての検索システムおよび方法
KR20040018404A (ko) 데이터 처리 방법, 데이터 처리 시스템 및 프로그램
EP2206057A1 (en) Nlp-based entity recognition and disambiguation
KR101508070B1 (ko) 어휘지도를 이용한 용언의 다의어 의미 분석 방법
JP2011118689A (ja) 検索方法及びシステム
KR20010107111A (ko) 대화형 db, faq리스트, 웹사이트에 대한 통합형자연어 질의-응답 검색 시스템 및 방법
JP4162223B2 (ja) 自然文検索装置、その方法及びプログラム
JP3198932B2 (ja) 文書検索装置
Amaral et al. Priberam’s question answering system for Portuguese
KR100498574B1 (ko) 단락 단위의 실시간 응답 색인을 이용한 자연어 질의-응답검색시스템
JP4153843B2 (ja) 自然文検索装置、自然文検索方法、自然文検索プログラム及び自然文検索プログラム記憶媒体
KR20030006201A (ko) 홈페이지 자동 검색을 위한 통합형 자연어 질의-응답시스템
Ferilli et al. Automatic stopwords identification from very small corpora
Hkiri et al. Semantic and contextual enrichment of Arabic query leveraging NLP resources and association rules model
JP3985483B2 (ja) 言語文を用いた検索装置、検索システム、検索方法、プログラム、および記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050701

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080115

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080312

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080408

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080605

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080715

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7426

Effective date: 20080718

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080718

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110801

Year of fee payment: 3

R151 Written notification of patent or utility model registration

Ref document number: 4162223

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110801

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120801

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130801

Year of fee payment: 5

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term