JP4373478B2 - 文書検索装置及び文書検索方法 - Google Patents

文書検索装置及び文書検索方法 Download PDF

Info

Publication number
JP4373478B2
JP4373478B2 JP2008109517A JP2008109517A JP4373478B2 JP 4373478 B2 JP4373478 B2 JP 4373478B2 JP 2008109517 A JP2008109517 A JP 2008109517A JP 2008109517 A JP2008109517 A JP 2008109517A JP 4373478 B2 JP4373478 B2 JP 4373478B2
Authority
JP
Japan
Prior art keywords
search
document
word
extracted
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2008109517A
Other languages
English (en)
Other versions
JP2008181566A (ja
Inventor
真澄 成田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2008109517A priority Critical patent/JP4373478B2/ja
Publication of JP2008181566A publication Critical patent/JP2008181566A/ja
Application granted granted Critical
Publication of JP4373478B2 publication Critical patent/JP4373478B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、文書検索装置及び文書検索方法に係り、特に、電子化された文書情報から検索要求に合致する文書を検索するための文書検索装置及び文書検索方法に関する。
複数の文書情報を格納した文書データベースから特定の文書を検索するために文書検索装置が用いられる。このような文書検索装置は、入力された検索要求に合致する文書情報を文書データベースから抽出するものである。一般的に、入力された検索要求の内容をそのまま検索条件として使用することはできず、実際の検索に使用される検索条件は文書検索装置により生成される場合が多い。
たとえば、ユーザが入力する検索要求は、検索に不要な語句を含んでいる場合が多いので、入力された検索要求を言語解析して検索に不要な語句を除去するということが広く行われている。さらに、検索条件を生成する際に用いる要素として、単語だけでなく複数の単語からなるフレーズ(句)を採用する文書検索装置も多い。
特許文献1では、与えられた検索要求を言語解析することにより検索条件を生成する方法を開示している。この方法では、入力された検索要求文に対して形態素解析を適用して検索要求文中の各々の単語を識別し、識別した単語を活用形へ展開したり、複合語を分解したりして、検索要求の同義表現を生成する。そして、検索要求語およびその同義表現と文書データベースとを照合して文書検索を行い、ユーザの検索意図に合致した文書を検索するようにしている。
非特許文献1では、単語に加えてフレーズを検索語として用いる場合に、フレーズの有効な使い方として単語だけからなる検索語で初期検索を行い、その検索結果に対してフレーズを用いて検索文書の並べ替えを行うという手法を提案している。
また、入力される検索要求が複数のセクション記述から構成される場合の検索条件の生成法も提案されている。例えば、情報検索の国際的なコンテストであるTREC(Text REtrieval Conference)では、検索要求が表1の例に示すように<title>,<desc>,<narr>という3つのセクション記述で与えられる。実際の検索処理では複数のセクション記述を用いるように義務づけられているわけではないが、複数のセクション記述を用いることにより検索に使用できる情報量が増えるという利点があるので、上記のセクション記述を適宜組み合わせて検索条件を生成する場合が多い。
上記のように検索要求が複数のセクション記述から構成される場合の検索条件の生成では、いずれのセクションから抽出された語句であるかによってその語句に与える重み付けを変える。例えば、上記の例を用いると、<title>セクションから抽出された語句には高い重み付けを与え、<desc>セクションから抽出された語句には次に高い重み付けを与え、<narr>セクションから抽出された語句にはこの3つのセクションでは一番低い重み付けを与えるといったことがなされている(非特許文献2)。
また、検索条件として用いられる語句のなかで重要度の高い語句を検索処理を実行する前に指定しておくという手法に関して、特許文献2では、ユーザが検索文字列を重要度に応じて視覚的に強調表示する方法が開示されている。この方法では、検索文字列の強調度を重要度に対応させることにより、この重要度を用いて検索文字列と検索文書の間の関連度を判定し、関連度の高い文書を優先的に検索結果としている。
特開平6−75996号公報 特開平9−153061号公報 特開平6−5996号公報 M.Mitra,C.Buckley,A.Singhal,and C.Cardie.1997."An analysis of statistical and syntactic phrases."Proceedings of the Fifth RIAO Conference cf.S.E.Robertson,S.Walker,and M.Beaulieu.1999."Okapi at trec-7."Proceedings of the Seventh Text REtrieval Conference.
しかしながら、上述のような、従来の文書検索装置には次のような問題がある。特許文献3に記載の発明では、検索語とその同義表現に対して同じ重み付けで検索条件が設定されており、検索候補の文書の関連度の計算において用いられる情報が少なく、精度の高い検索結果を得ることができないという問題がある。検索語として用いられる単語やフレーズが同じレベルで処理されるため、検索結果中にノイズが発生しやすくなる。
単語だけで構成された検索条件による初期検索結果に対してフレーズを用いて検索文書の並べ替えをするという手法は、検索結果の再現率が低い場合には有効に働くという実験報告がなされているが、単語よりも意味的な情報がより凝縮されているとみなされるフレーズは初期検索においても有効に働くはずである。つまり、従来の手法は、検索語としてのフレーズの表現方法や重み付けに関して問題がある。
さらに、入力された検索要求が複数のセクション記述から構成される場合には、セクション情報に基づいて検索語の重み付けを変えるという従来の手法では、(1)複数のセクションに共通して出現している語句に対する重み付けが考慮されない上に、(2)複数のセクションに共通して出現している単語と名詞句との間で異なる重み付けをすることができないという問題がある。
このような問題を解決するためには、例えば、より重要度の高い語句は複数のセクションにわたって共通して使用されることが多いという考えに基づき、複数のセクション記述に共通する語句には重み付けを高くすると同時に、その場合でも共通する単語と名詞句とでは重み付けを高くする割合を調整する必要がある。
また、特許文献2では、ユーザが検索語の重要度を自分で判断して所望の検索語を強調表示することによって重要度を直接指定するという形態をとるが、入力に手間がかかるだけでなく、重要度を直観的に判断するのは難しいという問題がある。
本発明は、上述の問題点に鑑みなされたものであり、自然言語で入力された複数のセクション記述からなる検索要求を言語解析して検索に適切な単語と名詞句を抽出し、単語と名詞句の間で適切な重み付けの調整をすると同時に、複数のセクションに共通する単語や名詞句に対して重み付けを高くすることにより、精度の高い検索結果を得ることを目的とする。
さらに、名詞句に対して2通りの表記を与え、一方の名詞句表記を初期検索に用い、他方の名詞句表記を初期検索結果の文書順位の並べ替えに用いることにより、精度の高い検索結果を得るようにした。
第1の発明は、少なくとも1つの単語を含むセクションを、少なくとも2つ含む検索要求を入力する検索要求入力手段と、前記検索要求入力手段により入力された前記検索要求に含まれるセクションから抽出された単語と、該単語に対する重み付けとを含む検索条件を生成する検索条件生成手段と、前記検索条件生成手段により生成した前記検索条件に基づいて、検索対象である複数の文書から文書を検索する文書検索手段と、を備え、前記単語に対する重み付けは、前記各セクションから単語を抽出し、複数の前記セクションから共通して抽出された単語を特定し、該共通して抽出された単語の重み付けを、いずれかの前記セクションからのみ抽出された単語の重み付けより高くすることを特徴としたものである。
第2の発明は、一つの文および一つのキーワードから構成される検索要求を入力する検索要求入力手段と、前記検索要求入力手段により入力された前記検索要求を構成する前記文または前記キーワードから抽出された単語と、該単語に対する重み付けとを含む検索条件を生成する検索条件生成手段と、前記検索条件生成手段により生成した前記検索条件に基づいて、検索対象である複数の文書から文書を検索する文書検索手段と、を備え、前記単語に対する重み付けは、前記文および前記キーワードから単語を抽出し、前記文および前記キーワードから共通して抽出された単語を特定し、該共通して抽出された単語の重み付けを、いずれかの前記文または前記キーワードからのみ抽出された単語の重み付けより高くすることを特徴としたものである。
第3の発明は、検索要求入力手段と、検索条件生成手段と、文書検索手段とを含み、少なくとも1つの単語を含むセクションを、少なくとも2つ含む検索要求に基づいて検索対象である複数の文書から文書を検索する文書検索装置による文書検索方法であって前記検索要求入力手段は、前記検索要求を入力し、前記検索条件生成手段は、前記検索要求入力手段により入力された前記検索要求に含まれるセクションから抽出された単語と、該単語に対する重み付けとを含む検索条件を生成し、前記文書検索手段は、前記検索条件生成手段により生成した前記検索条件に基づいて、検索対象である複数の文書から文書を検索し、前記単語に対する重み付けは、前記各セクションから単語を抽出し、複数の前記セクションから共通して抽出された単語を特定し、該共通して抽出された単語の重み付けを、いずれかの前記セクションからのみ抽出された単語の重み付けより高くすることを特徴としたものである。
第4の発明は、検索要求入力手段と、検索条件生成手段と、文書検索手段とを含み、一つの文および一つのキーワードから構成される検索要求に基づいて検索対象である複数の文書から文書を検索する文書検索装置による文書検索方法であって、前記検索要求入力手段は、前記検索要求を入力し、前記検索条件生成手段は、前記検索要求入力手段により入力された前記検索要求を構成する前記文または前記キーワードから抽出された単語と、該単語に対する重み付けとを含む検索条件を生成し、前記文書検索手段は、前記検索条件生成手段により生成した前記検索条件に基づいて、検索対象である複数の文書から文書を検索し、前記単語に対する重み付けは、前記文および前記キーワードから単語を抽出し、前記文および前記キーワードから共通して抽出された単語を特定し、該共通して抽出された単語の重み付けを、いずれかの前記文または前記キーワードからのみ抽出された単語の重み付けより高くすることを特徴としたものである。
本発明によれば、検索要求入力手段により入力された検索要求のなかで複数のセクションから抽出され重複が除去された単語の重み付けをいずれか一つのセクションからのみ抽出された単語の重み付けより高くしたので、検索精度を向上させることができる。
また、本発明によれば、検索要求入力手段により入力された検索要求のなかで文およびキーワードから共通して抽出され重複が除去された単語の重み付けをいずれかの前記文または前記キーワードからのみ抽出された単語の重み付けより高くしたので、検索精度を高めることができる。
図1は、本発明が適用される文書検索装置の一例を説明するためのブロック図で、本発明の実施の形態による文書検索装置は、入力部1と、表示部2と、中央演算装置(CPU)を含む演算処理部3と、メモリ部4と、情報格納部5と、これらを接続するデータバス6よりなる。入力部1は、キーボード、マウス、タッチパネル等により構成され、ユーザが文書検索装置に情報を入力するために使用される。表示部2は、CRTディスプレイあるいは液晶ディスプレイ等よりなり、文書検索装置により得られた情報をユーザに対して表示したり、入力部1から入力された情報を表示する。演算処理部3は、所定のプログラムに基づいて文書検索処理を行う。メモリ部4は、演算処理部3が実行するプログラムを格納するROMと演算処理部が動作するときに必要な情報を一時的に格納するRAMとにより構成される。情報格納部5は、ハードディスク装置等の比較的大容量の記憶装置よりなり、検索対象となる文書群が登録された文書データベースやプログラムを格納する。
図2は、図1に示した文書検索装置の機能ブロック図で、図2における矢印は文書検索装置内の処理の流れを示している。検索要求入力手段11は、ユーザが検索したい文書の内容を記述した自然言語を入力する機能であり、入力部1の機能に相当する。ここで、自然言語とは、例えば日本語、英語、独語、仏語等のような言語を意味し、検索対象となる文書も自然言語で表記されたものとする。ここで、ユーザが検索したい文書の内容を記述した情報を検索要求と称する。検索要求は、ユーザの検索意図を表す単語(群)あるいは文としてユーザによって与えられる。検索入力手段11により入力された検索要求は言語解析手段12に供給される。
言語解析手段12は、演算処理部(CPU)3が所定のプログラムを実行することにより達成される。すなわち、言語解析手段12は、検索要求を形態素解析して検索要求中の各々の単語を認識し、認識した単語の中から検索条件に適当な単語を抽出する。また、言語解析手段12は、単語の品詞情報を基にした句分割規則を使用して、名詞句としてまとめられる単語群を抽出する。この処理は、名詞句分割と称される処理であり、言語解析の分野では周知の処理であるので、その説明は省略する。また、形態素解析処理も、言語解析の分野では周知の処理であり、その説明は省略する。
検索条件生成手段13は、言語解析手段12による処理結果を受け取り、抽出された単語及び名詞句を適切な演算子で結合して検索条件を生成する。検索条件生成手段13は、演算処理部(CPU)3が所定のプログラムを実行することにより達成される。検索条件生成手段13により生成された検索条件は、文書検索手段14に供給される。
文書検索手段14は、文書データベース15に登録された文書情報を検索して、供給された検索条件に合致する文書情報を抽出する。文書検索手段14は、演算処理部(CPU)3が所定のプログラムを実行することにより達成される。文書検索手段14により抽出された文書情報は、検索結果表示手段16に供給される。
検索結果表示手段16は、表示部2の機能に相当し、検索結果として抽出された文書情報を表示する。これにより、検索要求を入力したユーザは検索結果を表示画面上で確認することができる。また、表示部2にプリンタを設けることにより、検索結果を印刷してもよい。
次に、上述の言語解析手段12の処理結果について説明する。言語解析手段12の処理は、従来の言語解析手法を用いて行われるため、処理結果についてのみ説明する。ユーザは、入力部1(キーボード)を操作して検索要求を入力する。図3は、検索要求入力手段11によりユーザが検索要求を入力したときの画面の一例で、本実施例では、図3に示すように、ユーザが入力する検索要求(条件)はキーワード記述と要求文記述の2つのセクションから構成されている。今、検索要求としてキーワード記述には“cigar smoking”という語句が、要求文記述には“Find documents that discuss the popularity of cigar smoking.”という英語の文章がユーザによって入力されたとする。図3の画面において、「初期件数」は検索結果として検索条件に合致する文章を30件表示することを指定している。
言語解析手段12は、キーワード記述セクションに入力された語句と要求文記述セクションに入力された語句を独立して処理する。その際、検索要求には冠詞、前置詞、接続詞といった検索に必要のない単語が含まれているので、言語解析手段12は、入力された語句の中から検索に不要な語句を除去して検索に必要な語句のみを抽出する。不要な単語の除去は、予め作成しておいた不要語リストを参照しながら行われる。
不要語リストには、冠詞、前置詞、接続詞等の機能語や、ユーザの検索意図に関連しないと考えられる内容語が登録されている。すなわち、言語解析手段12は、検索要求の各々の単語に対して不要語リストと照合し、不要語リストに登録されている単語を除去する。一方、言語解析手段12による名詞句分割処理の結果として得られた名詞句については、名詞句を構成している単語に対して不要語リストとの照合が行われ、不要語リストに登録されている機能語のみが名詞句から除去される。これは、例えば、言語解析手段12によって同定された“the World Court”という名詞句から、不要語リストにある機能語“the”が除去されることを指す。
ここで、図3に示した検索要求に対する言語解析手段12の処理結果について説明する。まず、キーワード記述からは“cigar”と“smoking”の2つの単語と“cigar smoking”という名詞句が抽出される。一方、要求文記述は9個の単語で構成されているが、予め作成しておいた不要語リストと照合することにより適切な単語のみが抽出される。本実施の形態では、不要語リストに“find”,“document”,“that”,“discuss”,“the”,“of”が登録されているものとする。従って、これらの不要語リストと照合することにより、“popularity”,“cigar”,“smoking”の3つの単語が最終的に抽出され、名詞句としては “cigar smoking”が抽出される。
<キーワード記述から抽出された語句>
単語:cigar,smoking 名詞句:cigar smoking
<要求文記述から抽出された語句>
単語:popularity,cigar,smoking 名詞句:cigar smoking
このようにして、各セクション記述から抽出された単語と名詞句が検索条件を生成する要素となる。検索条件生成手段13は、2つのセクションから抽出された単語と名詞句を照合してセクション間で重複する単語と名詞句は除去した後、単語と名詞句にそれぞれ適当な重み付けを施し、演算子で結合することにより検索条件を生成する。演算子としては、AND,ORのような論理演算子が使用される。また、近傍演算子としてWINDOWが使用され、重み付け演算子としてSCALEが使用される。
演算子ANDは、検索される文書中にこの演算子で結合された単語の全てが含まれる場合にその文書を検索結果として抽出することを指定するための演算子である。演算子ORは、検索される文書中にこの演算子で結合された単語のいずれか1つが含まれる場合にその文書を検索結果として抽出することを指定するための演算子である。
また、演算子WINDOWは、名詞句を取り扱うために導入した演算子であり、この演算子で結合される2つの単語の間の距離と語順を指定する。例えば、#window[1,1,o]といった形式で表記される。括弧内の最初の数字と2番目の数字により単語の出現する範囲が規定され、3番目の文字は2つの単語の語順を表わしており、“o”は表記されたとおりの順序で2つの単語が出現することを指定している。すなわち、上記の例では2つの単語が表記された順番で隣接して出現することが指定される。
また、演算子SCALEは単語単位での検索条件と名詞句単位での検索条件とで重み付けの調整を行うための演算子である。例えば、#scale[0.5]というように表記した場合、これに続く検索条件の重み付けを0.5とすることを表わす。本実施の形態では、単語と名詞句とに異なる重み付けを施すことにより、検索結果の精度を向上させている。
本発明者は、様々な試行の結果、名詞句単位の検索条件に対する重み付けを単語単位の検索条件に対する重み付けより小さくすることにより、検索精度が向上することを見出した。本実施の形態では、各単語単位の検索条件に対する重み付けを1とし、名詞句単位の検索条件に対する重み付けを0.5としている。
上述の演算子を使用して、本実施の形態において上述の検索要求から生成した検索条件は以下のようになる。
#or(cigar,smoking,popularity,#scale[0.5](#window[1,1,o](cigar,smoking)))
検索条件生成手段13により上記のような検索条件が生成されると、文書検索手段14は文書データベース15に登録された文書のうち検索条件に合致する文書を抽出する。このとき、検索条件に対して重み付けを考慮して得られた各々の文書のスコアを比較し、スコアの高い文書を検索条件に合致した文書として抽出する。この手法は、文書検索処理として周知の文書検索処理を用いており、その説明は省略する。
文書検索処理が終了すると、検索結果表示手段16は、図4に示すように、検索結果としてスコアの高い文書から順番に画面に表示する。ここで、初期件数として30件を表示することが指定されているため、スコアの高い順から30件の文書を画面に表示する。図4の画面において、画面をスクロールすることにより、検索結果として抽出された30件の文書を閲覧することができる。
次に、本発明の他の実施形態について説明する。全体の機能構成は図2と同じであり、相違点は検索条件生成手段13において、言語解析手段12によって2つのセクションから抽出された単語と名詞句を照合した際に、セクション間で共通する単語と名詞句に対しては、いずれかのセクション記述にしか出現していない単語や名詞句よりも重み付けを高くすること、さらに、セクション間に共通する単語と名詞句とでは重み付けを高くする割合を変えるようにしたことにある。セクション間に共通する単語と名詞句は検索要求としての重要度が高い語句とみなされるため、これらの語句の重み付けを他の語句よりも高くすることで検索精度の向上がのぞめるからである。また、様々な試行の結果、セクション間に共通する単語と名詞句とでは、単語に対してより大きな重み付けを与えることにより検索精度が向上することを見い出した。このような重み調整を可能とするために、新たにLEVELという演算子を導入することにした。
図3に示した検索要求を例にとると、本実施の形態では、以下に示すようにセクション間に共通する単語に対する重み付けを3とし、セクション間に共通する名詞句に対する重み付けを1.5としている。
#or(#level[3](#or(cigar,smoking)),popularity,#level[1.5](#scale[0.5](#window[1,1,o](cigar,smoking))))
次に、本発明の更に他の実施形態について説明する。図5は、全体の機能構成を示す図で、検索要求入力手段21,言語解析手段22の機能は図2の検索要求入力手段11,言語解析手段12と同じである。相違点は検索条件生成手段23において名詞句に対する検索条件として名詞句を構成する単語が隣接して出現する条件と或る一定の距離内に離れて出現可能とする条件の両方を生成するために、各々の検索条件に対応する表記を与えるようにしたこと、さらには、初期文書検索手段24では後者の名詞句検索条件を用いて文書データベース25を検索して初期検索を行い、その検索結果を初期検索結果記憶手段26によって一時的に初期検索結果文書データベース27として格納しておき、この初期検索結果文書に対して文書再ランキング手段28は前者の名詞句検索条件を用いて文書順位の並べ替えを行うようにしたことである。
名詞句に対して後者の検索条件を新たに生成するのは、言語解析手段22によって抽出された名詞句を構成している単語と単語は検索要求に適合する文書において比較的近傍で共起する可能性が高いことを考慮に入れ、検索漏れを減らすためである。さらに、この検索条件を用いて初期検索を行うことによってユーザの検索意図に関連しそうな文書を多く抽出しておき、よりきつい制約が課される前者の検索条件を用いて文書の関連度を再計算して文書順位の並べ替えを行うことにより検索精度を向上させるためである。
例えば、前述の検索要求から言語解析手段22によって抽出された名詞句“cigar smoking”に対して、単語“cigar”と単語“smoking”がこの順序で隣接して出現する名詞句本来の検索条件とこれらの単語が或る一定の距離内に離れて出現可能とする検索条件を生成する。また、名詞句を構成する単語が出現順序を問わず離れて出現可能な距離は、本実施の形態では同一文中内と考え30語に設定している。
この結果、図3の検索要求に対して、初期検索に用いる検索条件と文書順位の並べ替えに用いる検索条件は以下のようになる。また、請求項2記載の発明の実施形態では、以下の検索条件に対してさらに LEVEL 演算子による重み付けがなされる。
<a.初期検索に用いる検索条件>
#or(cigar,smoking,popularity,#scale[0.5](#window[1,30,u](cigar,smoking)))
*#window[1,30,u](cigar, smoking)は、“cigar”と“smoking”が任意の順序で1〜30語の範囲に出現することを指定している。

<b.初期検索結果の文書順位の並べ替えに用いる検索条件>
#or(cigar,smoking,popularity,#scale[0.5](#window[1,1,o](cigar,smoking)))
初期文書検索手段24では、初期検索用に生成された検索条件aを用いて検索対象文書との関連度計算を行ない、各文書にスコアを与え、スコアの高い文書から指定された「初期件数」に相当する数(図3と図4の例では30件)の文書を初期検索結果として抽出する。関連度は、検索条件を構成している単語及び名詞句の当該文書内における出現頻度、これらの語句が出現する文書数、これらの語句に対する重み付け等を使って計算される。
次に、初期文書検索手段24によって抽出された30件の文書に対して、文書再ランキング手段28は前記bの検索条件を用いて検索条件との関連度を再計算する。関連度の再計算によって30件の各文書には新しいスコアが与えられ、スコアの高い順番に文書が並べ替えられる。
上述のように、本実施の形態では、ユーザが入力した複数のセクション記述からなる検索要求から言語解析手段によって検索条件の要素となる単語と名詞句を抽出し、これらの語句に適切な重み付けを施して演算子により結合して検索条件を生成するため、検索漏れを低減し、検索精度を高めることができる。また、複数のセクション記述に共通して使われている語句、すなわち、重要度がより高いとみなされる単語及び名詞句の重み付けを高くすると同時に、その場合でも、単語と名詞句の間で重み付けを高くする割合を変えることで、より検索精度を高めることができる。さらに、言語解析手段によって抽出された名詞句に対して2通りの検索条件としての表記を与え、一方の表記による初期検索を実施して得られた検索文書に対して他方の表記による文書順位の並べ替えを行って最終的な検索結果を得ることで、検索漏れを低減すると同時に検索精度を高めることができる。
なお、以上に説明した実施形態では、英文による文書を検索対象文書としたが、例えば、日本語、独語、仏語等の他の言語による文書でも本発明による文書検索を適用することもできる。
本発明が適用される文書検索装置の一例を説明するためのブロック図である。 図1に示した文書検索装置の機能ブロック図である。 検索要求入力の画面の一例を示す図である。 検索結果出力の画面の一例を示す図である。 本発明の他の実施例を説明するための機能ブロック図である。
符号の説明
1…入力部、2…表示部、3…演算処理部、4…メモリ部、5…情報格納部、6…データバス、11…検索入力手段、12…言語解析手段、13…検索条件生成手段、14…文書検索手段、15…文書データベース、16…検索結果表示手段、21…検索要求入力手段、22…言語解析手段、23…検索条件生成手段、24…初期文書検索手段、25…文書データベース、26…初期検索結果記憶手段、27…初期検索結果文書データベース、28…文書再ランキング手段、29…最終結果表示手段。

Claims (8)

  1. 少なくとも1つの単語を含むセクションを、少なくとも2つ含む検索要求を入力する検索要求入力手段と、
    前記検索要求入力手段により入力された前記検索要求に含まれるセクションから抽出された単語と、該単語に対する重み付けとを含む検索条件を生成する検索条件生成手段と、
    前記検索条件生成手段により生成した前記検索条件に基づいて、検索対象である複数の文書から文書を検索する文書検索手段と、を備え、
    前記単語に対する重み付けは、前記各セクションから単語を抽出し、複数の前記セクションから共通して抽出された単語を特定し、該共通して抽出された単語の重み付けを、いずれかの前記セクションからのみ抽出された単語の重み付けより高くすることを特徴とする文書検索装置。
  2. 一つの文および一つのキーワードから構成される検索要求を入力する検索要求入力手段と、
    前記検索要求入力手段により入力された前記検索要求を構成する前記文または前記キーワードから抽出された単語と、該単語に対する重み付けとを含む検索条件を生成する検索条件生成手段と、
    前記検索条件生成手段により生成した前記検索条件に基づいて、検索対象である複数の文書から文書を検索する文書検索手段と、を備え、
    前記単語に対する重み付けは、前記文および前記キーワードから単語を抽出し、前記文および前記キーワードから共通して抽出された単語を特定し、該共通して抽出された単語の重み付けを、いずれかの前記文または前記キーワードからのみ抽出された単語の重み付けより高くすることを特徴とする文書検索装置。
  3. 前記検索条件生成手段は、
    前記検索要求入力手段により入力された前記検索要求のなかで複数の前記セクションから抽出された単語を照合して該セクション間で重複する単語を除去すること、を特徴とする請求項1に記載の文書検索装置。
  4. 前記検索条件生成手段は、
    前記検索要求入力手段により入力された前記検索要求のなかで前記文および前記キーワードから抽出された単語を照合して前記文および前記キーワードで重複する単語を除去すること、を特徴とする請求項2に記載の文書検索装置。
  5. 前記文書検索手段は、
    前記検索条件生成手段により生成した前記検索条件に含まれる単語を用いて前記複数の文書を検索し、該複数の文書それぞれに対して前記検索条件に含まれる単語に対する重み付けに基づいたスコアを付与すること、を特徴とする請求項1から請求項4のいずれかに記載の文書検索装置。
  6. 前記文書検索手段は、
    前記各文書に付与されたスコアを比較し、該スコアの高い文書を前記検索条件に合致した文書として抽出することを特徴とする請求項5に記載の文書検索装置。
  7. 検索要求入力手段と、検索条件生成手段と、文書検索手段とを含み、少なくとも1つの単語を含むセクションを、少なくとも2つ含む検索要求に基づいて検索対象である複数の文書から文書を検索する文書検索装置による文書検索方法であって、
    前記検索要求入力手段は、前記検索要求を入力し、
    前記検索条件生成手段は、前記検索要求入力手段により入力された前記検索要求に含まれるセクションから抽出された単語と、該単語に対する重み付けとを含む検索条件を生成し、
    前記文書検索手段は、前記検索条件生成手段により生成した前記検索条件に基づいて、検索対象である複数の文書から文書を検索し、
    前記単語に対する重み付けは、前記各セクションから単語を抽出し、複数の前記セクションから共通して抽出された単語を特定し、該共通して抽出された単語の重み付けを、いずれかの前記セクションからのみ抽出された単語の重み付けより高くすることを特徴とする文書検索方法。
  8. 検索要求入力手段と、検索条件生成手段と、文書検索手段とを含み、一つの文および一つのキーワードから構成される検索要求に基づいて検索対象である複数の文書から文書を検索する文書検索装置による文書検索方法であって、
    前記検索要求入力手段は、前記検索要求を入力し、
    前記検索条件生成手段は、前記検索要求入力手段により入力された前記検索要求を構成する前記文または前記キーワードから抽出された単語と、該単語に対する重み付けとを含む検索条件を生成し、
    前記文書検索手段は、前記検索条件生成手段により生成した前記検索条件に基づいて、検索対象である複数の文書から文書を検索し、
    前記単語に対する重み付けは、前記文および前記キーワードから単語を抽出し、前記文および前記キーワードから共通して抽出された単語を特定し、該共通して抽出された単語の重み付けを、いずれかの前記文または前記キーワードからのみ抽出された単語の重み付けより高くすることを特徴とする文書検索方法。
JP2008109517A 2008-04-18 2008-04-18 文書検索装置及び文書検索方法 Expired - Lifetime JP4373478B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008109517A JP4373478B2 (ja) 2008-04-18 2008-04-18 文書検索装置及び文書検索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008109517A JP4373478B2 (ja) 2008-04-18 2008-04-18 文書検索装置及び文書検索方法

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2000336955A Division JP2002140357A (ja) 2000-11-06 2000-11-06 文書検索装置及び文書検索方法

Publications (2)

Publication Number Publication Date
JP2008181566A JP2008181566A (ja) 2008-08-07
JP4373478B2 true JP4373478B2 (ja) 2009-11-25

Family

ID=39725346

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008109517A Expired - Lifetime JP4373478B2 (ja) 2008-04-18 2008-04-18 文書検索装置及び文書検索方法

Country Status (1)

Country Link
JP (1) JP4373478B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5418051B2 (ja) * 2008-09-08 2014-02-19 株式会社リコー ワークフロー管理システム

Also Published As

Publication number Publication date
JP2008181566A (ja) 2008-08-07

Similar Documents

Publication Publication Date Title
JP3691844B2 (ja) 文書処理方法
JP4754247B2 (ja) 複合語を構成する単語を割り出す装置及びコンピュータ化された方法
JP3095552B2 (ja) 同一の論題に関係する文献を検索する方法
JP3759242B2 (ja) 特徴確率自動生成方法及びシステム
WO2018066445A1 (ja) 因果関係認識装置及びそのためのコンピュータプログラム
WO2008098507A1 (fr) Méthode de saisie permettant de combiner des mots de façon intelligente, système associé à la méthode de saisie et méthode de renouvellement
US11573989B2 (en) Corpus specific generative query completion assistant
JPH0520362A (ja) 文書テキスト間の連鎖自動作成システム
JP4426894B2 (ja) 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置
JPH11102377A (ja) データベースからドキュメントを検索する方法および装置
JP5718405B2 (ja) 発話選択装置、方法、及びプログラム、対話装置及び方法
JP2000200281A (ja) 情報検索装置および情報検索方法ならびに情報検索プログラムを記録した記録媒体
US10102199B2 (en) Corpus specific natural language query completion assistant
JP3596210B2 (ja) 関連語辞書作成装置
JP4065346B2 (ja) 単語間の共起性を用いたキーワードの拡張方法およびその方法の各工程をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP4373478B2 (ja) 文書検索装置及び文書検索方法
JP2009086903A (ja) 検索サービス装置
WO2009113289A1 (ja) 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム
JP2012104051A (ja) 文書インデックス作成装置
JP2007122525A (ja) 言い換え処理方法及び装置
JP4426893B2 (ja) 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置
JP2004258723A (ja) 話題抽出装置、話題抽出方法およびプログラム
JP2002140357A (ja) 文書検索装置及び文書検索方法
JP4389102B2 (ja) 技術文献検索システム
Malallah et al. Multi-document text summarization using fuzzy logic and association rule mining

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081216

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090213

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090512

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090611

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090901

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090903

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120911

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4373478

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130911

Year of fee payment: 4

EXPY Cancellation because of completion of term