JP3924894B2 - 文書検索装置および文書検索方法ならびに記録媒体 - Google Patents
文書検索装置および文書検索方法ならびに記録媒体 Download PDFInfo
- Publication number
- JP3924894B2 JP3924894B2 JP02745398A JP2745398A JP3924894B2 JP 3924894 B2 JP3924894 B2 JP 3924894B2 JP 02745398 A JP02745398 A JP 02745398A JP 2745398 A JP2745398 A JP 2745398A JP 3924894 B2 JP3924894 B2 JP 3924894B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- search
- document
- compound
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【発明の属する技術分野】
本発明は、文書検索装置および文書検索方法ならびに記録媒体に関し、特に、1つの検索語あるいは論理積演算子によって結合された複数の検索語により構成される検索式が入力され、その検索式に対応する文書を検索する文書検索装置および文書検索方法ならびにそのような検索処理をコンピュータに実行させるプログラムを記録した記録媒体に関する。
【0002】
【従来の技術】
パーソナルコンピュータの普及に伴って、オフィスなどでは、大量の電子文書(以下、単に文書と略記する)が扱われるようになってきた。
【0003】
従来において、大量の文書の中から目的となる文書を検索するためには、一般に、文書に含まれていると推測される単語(検索語)を、andやorなどの論理演算子を用いて結合し、得られた検索式により検索処理を行う場合が多い。
【0004】
しかし、このような方法では、検索式の生成の仕方によっては、検索漏れ(所望の文書が検索結果として出力されないこと)が生じる場合があった。
そこで、このような問題を解決するために、以下のような解決方法が開示されている。
【0005】
例えば、特開平03−286371号公報では、入力された検索条件によるヒット件数が少ない場合には、検索に用いたキーワードを構成要素の単語に分解して論理積演算子で結合したものを新たな検索条件とし、検索を再度実行する方法が開示されている。
【0006】
また、特開平06−75996号公報では、入力された検索要求文に含まれている複合語(複数の単語からなる語)を構成要素の単語に分解して論理積演算子で結合するとともに、検索要求文を構成する検索要求語に対して形態素解析を施し、同義表現を生成して論理和演算子で結合する。そして、このようにして生成された新たな検索要求文を用いて検索を行うことにより、検索要求語と類似する単語を含む文書を検索する方法が開示されている。
【0007】
【発明が解決しようとする課題】
しかしながら、以上のような方法では、検索式を構成する各検索語が特定する範囲(文書の数)を拡大するように構成されているので、検索漏れを減少させることは可能となるが、一方で、検索ノイズが増大するため、所望の文書を特定することが困難となるという問題点があった。
【0008】
特に、複合語は検索意図を適切に表現する検索語であり、複合語を単純に分解して検索した場合には、利用者の検索意図を反映しないぼやけた検索結果が得られるという問題点があった。
【0009】
本発明はこのような点に鑑みてなされたものであり、検索漏れを減少させることを可能とした文書検索装置および文書検索方法ならびにそのような文書検索をコンピュータに実行させるプログラムを記録した記録媒体を提供することを目的とする。
【0010】
また、本発明は、検索意図を的確に反映した文書検索を行うことが可能な文書検索装置および文書検索方法ならびにそのような文書検索をコンピュータに実行させるプログラムを記録した記録媒体を提供することを目的とする。
【0011】
【課題を解決するための手段】
本発明では上記課題を解決するために、1つの検索語あるいは論理積演算子によって結合された複数の検索語により構成される検索式が入力されると、検索式に該当する文書を検索する文書検索装置において、検索対象の文書集合に関する情報を格納する文書情報格納手段と、検索対象の文書集合に含まれる単語の索引を格納する単語索引格納手段と、検索対象の文書集合に含まれる複合語の索引を格納する複合語索引格納手段と、検索式を構成する検索語を抽出し、抽出した検索語が複合語である場合には当該複合語を構成要素である複数の単語に変換し、抽出した検索語が単語である場合には当該検索語を維持して、得られた単語集合を出力する入力検索語変換手段と、入力検索語変換手段によって出力された単語集合を構成する各単語について、当該単語を含む文書を、単語索引格納手段を参照して検索する単語検索手段と、単語検索手段によって検索された、単語集合を構成する各単語についての文書集合の間で論理積演算を実行して、単語集合を構成するすべての単語を含む文書を特定する論理積演算手段と、検索式に含まれる複合語を含む文書を、複合語索引格納手段を参照して検索する複合語検索手段と、論理積演算手段によって特定された、単語集合を構成するすべての単語を含む文書それぞれに対して、複合語検索手段の処理結果に基づいて、検索式に含まれる複合語を含む文書のスコアが高くなるようにスコアを付与する文書スコアリング手段と、論理積演算手段によって特定された、単語集合を構成するすべての単語を含む文書に関する情報を文書情報格納手段から取得し、文書スコアリング手段によって付与されたスコアが高い順に並べて提示する検索結果提示手段と、を有することを特徴とする文書検索装置が提供される。
【0012】
ここで、1つの検索語あるいは論理積演算子によって結合された複数の検索語により構成される検索式が入力されると、入力検索語変換手段は、検索式を構成する検索語を抽出し、抽出した検索語が複合語である場合には当該複合語を構成要素である複数の単語に変換し、抽出した検索語が単語である場合には当該検索語を維持して、得られた単語集合を出力する。単語検索手段は、入力検索語変換手段によって出力された単語集合を構成する各単語について、当該単語を含む文書を、単語索引格納手段を参照して検索する。論理積演算手段は、単語検索手段によって検索された、単語集合を構成する各単語についての文書集合の間で論理積演算を実行して、単語集合を構成するすべての単語を含む文書を特定する。また、複合語検索手段は、検索式に含まれる複合語を含む文書を、複合語索引格納手段を参照して検索する。その後、文書スコアリング手段は、論理積演算手段によって特定された、単語集合を構成するすべての単語を含む文書それぞれに対して、複合語検索手段の処理結果に基づいて、検索式に含まれる複合語を含む文書のスコアが高くなるようにスコアを付与する。そして、検索結果提示手段は、論理積演算手段によって特定された、単語集合を構成するすべての単語を含む文書に関する情報を文書情報格納手段から取得し、文書スコアリング手段によって付与されたスコアが高い順に並べて提示する。
【0013】
【発明の実施の形態】
以下、本発明の実施の形態を図面を参照して説明する。
図1は、本発明の第1の実施の形態の構成例を示すブロック図である。
【0014】
この図において、入力検索語変換手段1は、入力された検索式(少なくとも1つの検索語あるいは論理積演算子で結合された複数の検索語で構成されるもの)から検索語を抽出し、注目する検索語が複合語である場合には、その複合語を、それを構成する単語のリスト(以下、単に単語リストと略記する)に変換し、また、複合語ではない場合にはその検索語をそのまま出力する。なお、このような変換を行う方法としては、一般的に用いられている形態素解析技術を用いることができる。
【0015】
単語索引格納手段2は、検索対象である文書集合に対して形態素解析を施して抽出した単語と、その単語を含む文書を特定するための文書ポインタとにより構成される単語索引が格納されている。
【0016】
単語検索手段3は、入力検索語変換手段1から出力された各単語(単語リストを構成する単語および複合語以外の単語)を含む文書の文書ポインタを単語索引格納手段2を用いて検索する。
【0017】
論理積演算手段4は、各単語ごとに得られた文書ポインタ集合の間で論理積を求め、検索式に対する検索結果としての文書ポインタ集合を出力する。
複合語索引格納手段5は、検索対象である文書集合のそれぞれに含まれている複合語と、その複合語を含む文書を特定するための文書ポインタとにより構成される複合語索引が格納されている。なお、このような複合語索引は、先ず、検索対象である文書集合に対して形態素解析を施して抽出された単語のうち、例えば、その品詞が名詞であるような単語を、文書中の位置を示す情報と共に抽出する。次に、文書中に2つ以上連続して出現する単語の可能な組み合わせを全て抽出し、出現順序を考慮した上で合成して得られた複合語と、その複合語が出現する文書の文書ポインタとを関連づけることにより生成することができる。
【0018】
複合語検索手段6は、検索式に含まれている複合語を入力し、複合語索引格納手段5に格納されている複合語索引から該当する文書ポインタ集合を得る。
文書スコアリング手段7は、複合語検索手段6によって得られた文書ポインタ集合のそれぞれに該当する文書(論理積演算手段4の演算によって得られた文書集合)のスコアに“1”を加点する。ただし、全ての文書のスコアの初期値は、“0”であるとする。即ち、論理積演算手段4の演算によって得られた文書が、検索式に含まれている複合語を含んでいる場合には、そのスコアが1だけインクリメントされる。
【0019】
文書情報格納手段8は、文書ポインタとその文書ポインタに対応する文書情報とから構成され、文書ポインタにより一意に文書を特定するとともに、特定された文書に関する情報を得ることができる。なお、このとき取得する文書情報は、例えば、文書のタイトル/著者/発行年月日などである。
【0020】
検索結果提示手段9は、論理積演算手段4の演算の結果得られた文書ポインタ集合に対応する文書情報を、文書情報格納手段8から取得する。そして、取得した文書情報をリスト形式で表示する。なお、その際に、文書スコアリング手段7のスコアリング結果を参照して、スコアの高い文書がリストの先頭に表示されるようにする。あるいは、同じスコアをもつ文書集合のみをリスト表示し、スコアの高い順に段階的にリスト表示を切り替える。
【0021】
次に、以上の実施の形態の動作を図2に示すフローチャートを参照して説明する。
図2は、図1に示す実施の形態において実行される処理の一例を説明するフローチャートである。このフローチャートが開始されると、以下の処理が実行されることになる。
[S1]入力検索語変換手段1は、検索式を入力する。
【0022】
検索式の一例を以下の式(1)に示す。ここで、演算子「×」は論理積を示している。
【0023】
【数1】
検索結果×ランキング×表示 ・・・(1)
[S2]入力検索語変換手段1は、検索式に含まれている各検索語に対して形態素解析を施し、注目する検索語が複数の単語から構成される場合には、これを複合語であるとして、対応する単語リストを生成する。
【0024】
例えば、式(1)の例では、「検索結果」が「検索」および「結果」から構成される複合語であるので、図3に示すように、単語リストとして「検索、結果」が生成される。また、それ以外の検索語「ランキング」および「表示」は、複合語ではないのでそのまま出力される。
[S3]単語検索手段3は、ステップS2の処理の結果得られた単語リストと、他の単語とにそれぞれ対応する文書の文書ポインタを単語索引格納手段2から取得する。
【0025】
いまの例では、単語リスト「検索、結果」を構成する「検索」および「結果」、その他の単語(複合語ではない単語)である「ランキング」および「表示」のそれぞれの単語を含む文書の文書ポインタ集合が取得される。
[S4]論理積演算手段4は、単語検索手段3によって取得された各単語に対応する文書ポインタ集合の間で論理積演算を行い、全ての単語を含む文書の文書ポインタを抽出する。
【0026】
例えば、各単語が以下のような文書に含まれているとする。
「検索」 ・・・ 文書1、文書2、文書3
「結果」 ・・・ 文書1、文書2、文書3、文書4
「ランキング」 ・・・ 文書1、文書2、文書3、文書5
「表示」 ・・・ 文書1、文書2、文書3、文書4
このとき、これらの文書ポインタの論理積を演算すると、以下のような結果が得られる。
【0027】
【数2】
検索×結果×ランキング×表示=(文書1、文書2、文書3)・・・(2)
従って、論理積演算手段4からは、文書1、文書2、文書3が演算結果として出力される。
[S5]複合語検索手段6は、検索式に含まれている複合語を入力検索語変換手段1から取得し、取得された複合語を含む文書に対応する文書ポインタを複合語索引格納手段5から検索する。
【0028】
いまの例では、複合語は「検索結果」だけであるので、複合語検索手段6は、「検索結果」を含む文書に対応する文書ポインタを複合語索引格納手段5から取得する。例えば、文書1と文書3とが取得される。
[S6]文書スコアリング手段7は、論理積演算手段4から出力される文書ポインタ集合のうち、複合語検索手段6から出力された文書ポインタに対応するものには、そのスコアに値1を加算する。
【0029】
いまの例では、論理積演算手段4からは、文書1、文書2、文書3が出力され、また、複合語検索手段6からは、文書1、文書3が出力されているので、文書1および文書3のスコアは“1”となる。また、文書2のスコアは初期値の“0”のままとなる。
【0030】
なお、複合語が複数の場合には、それに応じて、文書スコアが加点されることになる。
[S7]検索結果提示手段9は、文書スコアリング手段7によるスコアリング結果を受けて、論理積演算手段4から供給される文書ポインタを、そのスコアが大きい順にソートする。
【0031】
いまの例では、文書1(=1点)、文書3(=1点)、文書2(=0点)の順にソートされることになる。
[S8]検索結果提示手段9は、ソートされた文書ポインタに対応する文書情報、例えば、文書のタイトル/文書内容などを、図示せぬCRT(Cathode Ray Tube)モニタなどに対して出力する。
【0032】
図4は、検索結果提示手段9によって、図示せぬCRTモニタなどに表示される画面の表示例である。この例では、画面の最上部にタイトルである「検索結果」が表示されている。また、その下には、ヒット件数(該当する文書数)として“57”が表示されている。更に、その下のウィンドウ内には、左から順に、「順位」、「スコア」、「情報のタイトル」が表示されている。例えば、順位が第1番目の文書としては、そのスコアが“8”である「文書検索装置」が表示されている。
【0033】
また、その下のウィンドウ内には、順位を表示するウィンドウ(上部のウィンドウ)内において、下線が施されている文書の内容が表示される。この例では、その順位が第1番目である「文書検索装置」の内容が表示されている。
【0034】
なお、この例では、検索式に含まれている検索語が強調表示(他の文字よりもサイズの大きいフォントにより表示)されている。
以上のような実施の形態によれば、検索式を構成する検索語によって、検索対象の文書が索引付けされているか否かが不明である場合に、それを意識せず検索語を指定した際にも、検索漏れの少ない検索結果を得ることができる。
【0035】
また、複合語はそれを構成する単語に分解されてから検索されることから、検索意図を示す複合語をそのまま入力するか、または、その複合語をそれを構成する個々の単語に分解してから入力すべきかを意識する必要がなくなる。
【0036】
更に、検索意図により適合する文書に多くのスコアを与えることにより、検索結果となる文書を、検索意図に近いものから順にアクセスすることが可能となる。
【0037】
次に、図5を参照して、本発明の第2の実施の形態の構成例について説明する。なお、この実施の形態において、図1の場合と対応する部分には、同一の符号を付してあるので、その説明は省略する。
【0038】
この実施の形態では、図1の場合と比較して、複合語生成手段20と複合語選択手段21とが新たに追加されている。それ以外の構成は、図1の場合と同様である。
【0039】
複合語生成手段20は、入力検索語変換手段1から出力された、単語リストに含まれている単語集合と他の単語から、2単語以上を組み合わせて生成される複合語のうち、複合語索引格納手段5に格納されているもののみを抽出し、複合語選択手段21に供給する。
【0040】
複合語選択手段21は、複合語生成手段20によって生成された複合語を図示せぬCRTモニタなどに対して表示させ、ユーザに対して、検索意図に適合している複合語を選択させる。そして、選択された複合語は、複合語検索手段6に供給される。
【0041】
複合語検索手段6は、複合語選択手段21から供給された複合語と、入力検索語変換手段1から供給される複合語(検索式に含まれている複合語)のそれぞれを含む文書の文書ポインタを複合語索引格納手段5から取得する。
【0042】
次に、以上の実施の形態の動作を簡単に説明する。
いま、検索式として(検索結果×ランキング×表示)が入力されたとすると、入力検索語変換手段1からは、単語リストとして「検索、結果」が出力され、また、その他の単語として「ランキング」および「表示」が出力される。
【0043】
複合語生成手段20は、これらの単語から、2単語以上を組み合わせて生成される複合語のうち、複合語索引格納手段5に格納されているものを抽出して複合語選択手段21に供給する。
【0044】
いまの例では、「ランキング結果」、「ランキング表示」、「ランキング検索」、「結果表示」、「表示結果」、「結果ランキング」、・・・などが生成され、その中から複合語索引格納手段5に格納されているものだけが抽出されて、複合語選択手段21に供給される。例えば、「ランキング結果」、「ランキング表示」、「結果表示」、「表示結果」が複合語選択手段21に供給される。
【0045】
複合語選択手段21は、図示せぬCRTモニタなどに、例えば、図6に示すような入力画面を表示させ、複合語の選択を受ける。
この表示例では、選択対象となる複合語として、「ランキング結果」、「ランキング表示」、「結果表示」、「表示結果」が表示されており、それぞれの複合語の右隣に表示されているボックス内をチェックすることにより、その複合語を選択することが可能となる。ユーザは、このような入力画面において提示された複合語の中から、検索意図に合致する複合語を選択することができる。なお、この例では、「ランキング表示」が選択されている。
【0046】
複合語検索手段6は、入力検索語変換手段1と複合語選択手段21から供給された複合語のそれぞれを含む文書の文書ポインタを複合語索引格納手段5から検索する。
【0047】
いまの例では、入力検索語変換手段1からは「検索結果」が供給され、また、複合語選択手段21からは「ランキング表示」が供給されているので、複合語検索手段6は、複合語索引格納手段5からこれらの複合語をそれぞれ含む文書の文書ポインタを取得する。
【0048】
それ以降の処理は、第1の実施例の場合と同様であるのでその説明は省略する。
図7は、以上のような処理の結果表示される画面の表示例である。この例では、図4の場合と同様に、上方のウィンドウ内には検索結果の文書がそのスコア順に表示されている。また、下方のウィンドウには、上方のウィンドウ内において、下線が施された文書の内容が表示されている。なお、この例では、検索式に含まれている複合語「検索結果」と、合成された複合語「ランキング表示」に対応する部分のフォントのサイズが他の文字よりも大きく設定してあるので、検索意図を示す複合語の位置が容易に理解できる。
【0049】
以上の実施の形態によれば、検索式に含まれている複合語やその他の単語から新たな複合語を生成し、生成された複合語の中からユーザの検索意図を的確に示すものを選択させて、これらの複合語に応じて検索結果の提示順序を変更するようにしたので、ユーザの検索意図を更に的確に反映した検索を行うことが可能となる。
【0050】
次に、図8を参照して、本発明の第3の実施の形態の構成例について説明する。なお、この実施の形態では、図1に示す実施の形態と比較して複合語生成手段20と検索式再構成手段30とが新たに追加されている。その他の構成は、図1に示す場合と同様である。
【0051】
複合語生成手段20は、図5に示す第2の実施の形態の場合と同様に、入力検索語変換手段1から供給された単語集合から2単語以上を組み合わせて生成される複合語のうち、複合語索引格納手段5に格納されている複合語を抽出して検索式再構成手段30に供給する。
【0052】
検索式再構成手段30は、複合語生成手段20によって生成された新たな複合語と、入力された検索式とから新たな検索式を生成し、入力検索語変換手段1に供給する。
【0053】
入力検索語変換手段1は、新たに生成された検索式に基づいて文書の検索を行う。
次に、以上の実施の形態の動作について簡単に説明する。
【0054】
いま、検索式として(検索×結果×ランキング×表示)が入力されたとする。入力検索語変換手段1は、入力された検索式から複合語を抽出し、対応する単語リストを生成して出力する。
【0055】
いまの例では、検索式に複合語は含まれていないので、複合語生成手段20は、検索式を構成する単語集合から、2単語以上を組み合わせて生成される複合語の中で、複合語索引格納手段7に格納されているものを抽出して検索式再構成手段30に供給する。
【0056】
いまの例では、例えば、「検索結果」や「ランキング結果」などが、検索式再構成手段30に供給される。
検索式再構成手段30は、複合語生成手段20から供給された複合語と、検索式に含まれている検索語(複合語または単語)を図示せぬCRTモニタに一覧表示させ、その中から、ユーザの検索意図に合致しているものを選択させる。その結果、検索式再構成手段30は、選択された検索語または複合語から新たな検索式を生成して、入力検索語変換手段1に供給する。
【0057】
いま、複合語として「検索結果」が選択され、また、検索式から「ランキング」および「表示」とが選択されたとすると、検索式再構成手段30は、新たな検索式として「検索結果×ランキング×表示」を生成して、入力検索式変換手段1に供給する。そして、この入力式に該当する文書が検索されて表示されることになる。
【0058】
以上の実施の形態によれば、ユーザが入力した検索式に含まれている複合語やその他の単語を適宜組み合わせて複合語を生成し、生成した複合語の中に検索意図に合致するとともに、複合語索引格納手段5に格納されているものがあればこれを用いて新たな検索式を再構成して検索を行うようにしたので、検索意図をより適切に表現する検索式を作成する支援をすることができる。
【0059】
なお、以上の処理機能は、コンピュータによって実現することができる。その場合、文書検索装置が有すべき機能の処理内容は、コンピュータで読み取り可能な記録媒体に記録されたプログラムに記述されており、このプログラムをコンピュータで実行することにより、上記処理がコンピュータで実現される。コンピュータで読み取り可能な記録媒体としては、磁気記録装置や半導体メモリ等がある。
【0060】
市場に流通させる場合には、CD−ROM(Compact Disk Read Only Memory) やフロッピーディスク等の可搬型記録媒体にプログラムを格納して流通させたり、ネットワークを介して接続されたコンピュータの記憶装置に格納しておき、ネットワークを通じて他のコンピュータに転送することもできる。コンピュータで実行する際には、コンピュータ内のハードディスク装置等にプログラムを格納しておき、メインメモリにロードして実行する。
【0061】
【発明の効果】
以上説明したように本発明では、1つの検索語あるいは論理積演算子によって結合された複数の検索語により構成される検索式が入力されると、入力検索語変換手段が、検索式を構成する検索語を抽出し、抽出した検索語が複合語である場合には当該複合語を構成要素である複数の単語に変換し、抽出した検索語が単語である場合には当該検索語を維持して、得られた単語集合を出力し、単語検索手段が、入力検索語変換手段によって出力された単語集合を構成する各単語について、当該単語を含む文書を、単語索引格納手段を参照して検索し、論理積演算手段が、単語検索手段によって検索された、単語集合を構成する各単語についての文書集合の間で論理積演算を実行して、単語集合を構成するすべての単語を含む文書を特定し、複合語検索手段が、検索式に含まれる複合語を含む文書を、複合語索引格納手段を参照して検索し、文書スコアリング手段が、論理積演算手段によって特定された、単語集合を構成するすべての単語を含む文書それぞれに対して、複合語検索手段の処理結果に基づいて、検索式に含まれる複合語を含む文書のスコアが高くなるようにスコアを付与し、検索結果提示手段が、論理積演算手段によって特定された、単語集合を構成するすべての単語を含む文書に関する情報を文書情報格納手段から取得し、文書スコアリング手段によって付与されたスコアが高い順に並べて提示することとした。
【0062】
これにより、検索式を構成する検索語として、索引に登録されている単語あるいは複合語を知らなくても、適切な検索語を得て、検索漏れの少ない文書検索を行うことができる。また、検索結果が利用者の検索意図により合致した形式で提示されるため、利用者は検索ノイズの少ない検索結果を得ることができる。
【図面の簡単な説明】
【図1】 本発明の第1の実施の形態の構成例を示すブロック図である。
【図2】 図1に示す実施の形態において実行される処理の一例を説明するフローチャートである。
【図3】 図1に示す入力検索語変換手段の動作を説明する図である。
【図4】 図1に示す実施の形態の処理によって表示される画面の表示例である。
【図5】 本発明の第2の実施の形態の構成例を示すブロック図である。
【図6】 図5に示す複合語選択手段によって表示される入力画面の表示例である。
【図7】 図5に示す実施の形態の処理によって表示される画面の表示例である。
【図8】 本発明の第3の実施の形態の構成例を示すブロック図である。
【符号の説明】
1 入力検索語変換手段
2 単語索引格納手段
3 単語検索手段
4 論理積演算手段
5 複合語索引格納手段
6 複合語検索手段
7 文書スコアリング手段
8 文書情報格納手段
9 検索結果提示手段
20 複合語生成手段
21 複合語選択手段
30 検索式再構成手段
Claims (5)
- 1つの検索語あるいは論理積演算子によって結合された複数の検索語により構成される検索式が入力されると、前記検索式に該当する文書を検索する文書検索装置において、
検索対象の文書集合に関する情報を格納する文書情報格納手段と、
前記検索対象の文書集合に含まれる単語の索引を格納する単語索引格納手段と、
前記検索対象の文書集合に含まれる複合語の索引を格納する複合語索引格納手段と、
前記検索式を構成する検索語を抽出し、抽出した検索語が複合語である場合には当該複合語を構成要素である複数の単語に変換し、抽出した検索語が単語である場合には当該検索語を維持して、得られた単語集合を出力する入力検索語変換手段と、
前記入力検索語変換手段によって出力された前記単語集合を構成する各単語について、当該単語を含む文書を、前記単語索引格納手段を参照して検索する単語検索手段と、
前記単語検索手段によって検索された、前記単語集合を構成する各単語についての文書集合の間で論理積演算を実行して、前記単語集合を構成するすべての単語を含む文書を特定する論理積演算手段と、
前記検索式に含まれる複合語を含む文書を、前記複合語索引格納手段を参照して検索する複合語検索手段と、
前記論理積演算手段によって特定された、前記単語集合を構成するすべての単語を含む文書それぞれに対して、前記複合語検索手段の処理結果に基づいて、前記検索式に含まれる複合語を含む文書のスコアが高くなるようにスコアを付与する文書スコアリング手段と、
前記論理積演算手段によって特定された、前記単語集合を構成するすべての単語を含む文書に関する情報を前記文書情報格納手段から取得し、前記文書スコアリング手段によって付与されたスコアが高い順に並べて提示する検索結果提示手段と、
を有することを特徴とする文書検索装置。 - 前記入力検索語変換手段によって出力された前記単語集合から2つ以上の単語を組み合わせて新たな複合語を生成し、生成した複合語のうち、前記複合語索引格納手段に格納されている複合語を抽出して出力する複合語生成手段と、
前記複合語生成手段によって生成された複合語のうち、検索意図に合致するものを選択する複合語選択手段と、を更に有し、
前記複合語検索手段は、前記複合語選択手段によって選択された複合語も検索の対象とすることを特徴とする請求項1記載の文書検索装置。 - 前記入力検索語変換手段によって出力された前記単語集合から2つ以上の単語を組み合わせて新たな複合語を生成し、生成した複合語のうち、前記複合語索引格納手段に格納されている複合語を抽出して出力する複合語生成手段と、
前記複合語生成手段によって生成された複合語のうち、検索意図に合致するものを用いて、検索式を再構成する検索式再構成手段と、を更に有することを特徴とする請求項1記載の文書検索装置。 - 1つの検索語あるいは論理積演算子によって結合された複数の検索語により構成される検索式が入力されると、前記検索式に該当する文書を検索するための文書検索プログラムが記録されたコンピュータ読み取り可能な記録媒体において、コンピュータを、
検索対象の文書集合に関する情報を格納する文書情報格納手段、
前記検索対象の文書集合に含まれる単語の索引を格納する単語索引格納手段、
前記検索対象の文書集合に含まれる複合語の索引を格納する複合語索引格納手段、
前記検索式を構成する検索語を抽出し、抽出した検索語が複合語である場合には当該複合語を構成要素である複数の単語に変換し、抽出した検索語が単語である場合には当該検索語を維持して、得られた単語集合を出力する入力検索語変換手段、
前記入力検索語変換手段によって出力された前記単語集合を構成する各単語について、当該単語を含む文書を、前記単語索引格納手段を参照して検索する単語検索手段と、
前記単語検索手段によって検索された、前記単語集合を構成する各単語についての文書集合の間で論理積演算を実行して、前記単語集合を構成するすべての単語を含む文書を特定する論理積演算手段、
前記検索式に含まれる複合語を含む文書を、前記複合語索引格納手段を参照して検索する複合語検索手段、
前記論理積演算手段によって特定された、前記単語集合を構成するすべての単語を含む文書それぞれに対して、前記複合語検索手段の処理結果に基づいて、前記検索式に含まれる複合語を含む文書のスコアが高くなるようにスコアを付与する文書スコアリング手段、
前記論理積演算手段によって特定された、前記単語集合を構成するすべての単語を含む文書に関する情報を前記文書情報格納手段から取得し、前記文書スコアリング手段によって付与されたスコアが高い順に並べて提示する検索結果提示手段、
として機能させることを特徴とする文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体。 - 検索対象の文書集合に関する情報を格納する文書情報格納手段と、前記検索対象の文書集合に含まれる単語の索引を格納する単語索引格納手段と、前記検索対象の文書集合に含まれる複合語の索引を格納する複合語索引格納手段とを備え、1つの検索語あるいは論理積演算子によって結合された複数の検索語により構成される検索式が入力されると、前記検索式に該当する文書を検索する文書検索装置による文書検索方法において、
入力検索語変換手段が、前記検索式を構成する検索語を抽出し、抽出した検索語が複合語である場合には当該複合語を構成要素である複数の単語に変換し、抽出した検索語が単語である場合には当該検索語を維持して、得られた単語集合を出力し、
単語検索手段が、前記入力検索語変換手段によって出力された前記単語集合を構成する各単語について、当該単語を含む文書を、前記単語索引格納手段を参照して検索し、
論理積演算手段が、前記単語検索手段によって検索された、前記単語集合を構成する各単語についての文書集合の間で論理積演算を実行して、前記単語集合を構成するすべての単語を含む文書を特定し、
複合語検索手段が、前記検索式に含まれる複合語を含む文書を、前記複合語索引格納手段を参照して検索し、
文書スコアリング手段が、前記論理積演算手段によって特定された、前記単語集合を構成するすべての単語を含む文書それぞれに対して、前記複合語検索手段の処理結果に基づいて、前記検索式に含まれる複合語を含む文書のスコアが高くなるようにスコアを付与し、
検索結果提示手段が、前記論理積演算手段によって特定された、前記単語集合を構成するすべての単語を含む文書に関する情報を前記文書情報格納手段から取得し、前記文書スコアリング手段によって付与されたスコアが高い順に並べて提示する、
ことを特徴とする文書検索方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP02745398A JP3924894B2 (ja) | 1998-02-09 | 1998-02-09 | 文書検索装置および文書検索方法ならびに記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP02745398A JP3924894B2 (ja) | 1998-02-09 | 1998-02-09 | 文書検索装置および文書検索方法ならびに記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH11224264A JPH11224264A (ja) | 1999-08-17 |
JP3924894B2 true JP3924894B2 (ja) | 2007-06-06 |
Family
ID=12221550
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP02745398A Expired - Lifetime JP3924894B2 (ja) | 1998-02-09 | 1998-02-09 | 文書検索装置および文書検索方法ならびに記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3924894B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4591947B2 (ja) * | 2004-05-13 | 2010-12-01 | 日本電信電話株式会社 | 情報フィルタリング装置及び方法 |
JP4511274B2 (ja) * | 2004-07-29 | 2010-07-28 | 三菱電機株式会社 | 音声データ検索装置 |
JP4972358B2 (ja) | 2006-07-19 | 2012-07-11 | 株式会社リコー | 文書検索装置、文書検索方法、文書検索プログラム及び記録媒体。 |
-
1998
- 1998-02-09 JP JP02745398A patent/JP3924894B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JPH11224264A (ja) | 1999-08-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20020184204A1 (en) | Information retrieval apparatus and information retrieval method | |
JP2001524717A (ja) | 情報管理及び検索 | |
US8015193B2 (en) | Method and system for accessing a file system | |
US20100257177A1 (en) | Document rating calculation system, document rating calculation method and program | |
JP2009289202A (ja) | キーワード入力支援装置、キーワード入力支援方法及びプログラム | |
JP2006178599A (ja) | 文書検索装置および方法 | |
JP3924894B2 (ja) | 文書検索装置および文書検索方法ならびに記録媒体 | |
JP2005128872A (ja) | 文書検索システム及び文書検索プログラム | |
JP2000067081A (ja) | 文書検索方法、そのプログラムを記録した記録媒体、及び文書検索装置 | |
JP4423385B2 (ja) | 文書分類支援装置およびコンピュータプログラム | |
JP2004246491A (ja) | テキストマイニング装置及びテキストマイニングプログラム | |
JP3222193B2 (ja) | 情報検索装置 | |
JP4525224B2 (ja) | ドキュメント管理プログラム、ドキュメント管理方法、及びドキュメント管理装置 | |
JPH08137895A (ja) | 類似文書検索システム | |
JP3710463B2 (ja) | 翻訳支援辞書装置 | |
JP2004152041A (ja) | 重要語句抽出装置、プログラムおよび記録媒体 | |
JPH08137892A (ja) | 文書検索方法及び文書検索装置 | |
JP3879330B2 (ja) | 文書要約装置、文書要約方法及び記録媒体 | |
JP4248828B2 (ja) | 文書処理装置、文書処理方法及び記録媒体 | |
JPH06195386A (ja) | データ検索装置 | |
JP3471666B2 (ja) | 複数テーブルにわたるキーワード検索方法 | |
JPH09305626A (ja) | 検索文書作成装置、検索文書記憶メディア、文書検索装置及び文書検索方法 | |
JP2003178057A (ja) | フレーズ生成装置、フレーズ生成方法、及びプログラム | |
JPH1145256A (ja) | 文書管理支援装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP2001229178A (ja) | 文書検索方法および装置およびこの方法を記録した記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20061027 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20061114 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070112 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070206 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070219 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110309 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120309 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130309 Year of fee payment: 6 |