JP4049543B2

JP4049543B2 - 文書検索装置、文書検索プログラム、記録媒体

Info

Publication number: JP4049543B2
Application number: JP2001054539A
Authority: JP
Inventors: 泰嗣小川; 博子真野
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2001-02-28
Filing date: 2001-02-28
Publication date: 2008-02-20
Anticipated expiration: 2021-02-28
Also published as: JP2002259385A

Description

【０００１】
【発明の属する技術分野】
本発明は、文書検索装置、文書検索プログラム、及びその記録媒体に関し、より詳細には、与えられた検索条件に対して適合する文書を選択する検索を行い、適合文書から抽出した、検索条件に関連した単語或いは索引単位によって検索条件を拡張し、拡張した検索条件で再検索する文書検索装置、文書検索プログラム、及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体に関する。
【０００２】
【従来の技術】
文書検索装置において、ユーザが入力した検索条件に適合する文書を探し出すために、検索条件中の各単語に重みをあたえ、それに基づいて検索対象の各文書の検索条件に対する適合の度合を求めるという方法が一般に行われている。
【０００３】
単語の重みの計算式には、例えば、本出願人による特願平１１−３１４４４２号明細書（以下、従来技術１と呼ぶ）に記載の計算式がある。この計算式は、Ｄを検索対象文書数（総文書数と呼ぶ）、ｄを各単語の出現する文書数（文書頻度と呼ぶ）、ｋ_４′を確率推定に基づく調整パラメータ（０より大きい実数）として、下式（１）で表される。
【０００４】
【数１】

【０００５】
各単語の重みが定まったら、各文書が各単語をどのくらい含んでいるかをもとに各文書の文書適合度を計算する。この文書適合度は、ｔｆを文書あたりの単語の出現数（文書内頻度と呼ぶ）、ｋ_１を調整パラメータとして、以下の計算式（２）で求める。
【０００６】
【数２】

【０００７】
さらに、ユーザが入力した検索条件を用いて検索した後、適合する文書中に出現する単語から入力検索条件に関連する単語を選出、元の検索条件に追加し、再度検索することでユーザの求めるものに近いものがより得られやすくなることも知られている。このようにして関連語を追加した場合、再検索時の重みづけには、例えば、適合文書、非適合文書の中での出現頻度などのフィードバック情報を利用し、以下の計算式（３）で求める。
【０００８】
【数３】

【０００９】
なお、上式（３）において、Ｒは適合文書数、ｒは適合文書集合の中で単語の出現する文書数、Ｓは非適合文書数、ｓは非適合文書集合の中で単語の出現する文書数、ｋ₅，ｋ₆は調整パラメータである。
【００１０】
また、検索条件関連語を選出するには、適合する文書から選出すべき関連語を選択するための関連度評価値ＴＳＶは、例えば、適合文書及び非適合文書での文書内頻度などのフィードバック情報を利用して、α，βを調整パラメータとして、以下の計算式（４）で求める。
【００１１】
【数４】

【００１２】
一方、日本語文書を対象に検索を行う場合、検索のための索引をどのように作成するかが問題となる。すなわち、英語では単語を索引単位として索引を作成するのが一般的であるが、日本語では英語のようにスペース／カンマ／ピリオドなどによって単語が区切られていない。そこで、英語同様に単語を索引単位とするためには形態素解析等を導入し単語を切り出す必要があるが、解析誤りや辞書整備の問題がある。そこで、ｎ−ｇｒａｍ（ｎ文字の連続）を索引単位とする方法（以下ｎ−ｇｒａｍ索引と呼ぶ）が使用される。この方法としては、例えば当出願人により先に提案された文書検索装置、文書検索装置及び記録媒体（以下、従来技術２と呼ぶ）が挙げられる。
【００１３】
【発明が解決しようとする課題】
しかしながら、ｎ−ｇｒａｍ索引を使用した場合には、文書検索装置に単語切り出し手段がないため、上で述べたように単純には検索条件拡張を適用できないという問題がある。
【００１４】
本発明、上述のごとき実情に鑑みてなされたものであり、ｎ−ｇｒａｍ索引を使用した場合にも検索条件拡張を可能とした文書検索装置、文書検索プログラム、及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体を提供することをその目的とする。
【００１５】
本発明は、また、検索条件拡張において単語を単位とするとＴＳＶなどの計算に時間がかかるといった問題を解消するために、近似的に計算した頻度を使用する文書検索装置、文書検索プログラム、及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体を提供することを他の目的とする。
【００１７】
【課題を解決するための手段】
請求項１の発明は、検索用に、ｎ個の連続される文字から構成される文字組であるｎ−ｇｒａｍを索引単位とするｎ−ｇｒａｍ索引を含み、ユーザが登録した文書を、文書データベースとして蓄積する文書蓄積手段と、ユーザが検索条件を入力するための検索条件入力手段と、該検索条件入力手段により入力された該検索条件により該文書蓄積手段に蓄積された文書をランキングする文書ランキング手段と、該文書ランキング手段によりランキングされた文書から単語を抽出する単語抽出手段と、該単語抽出手段により抽出された各単語を構成するｎ−ｇｒａｍをすべて含む文書数を文書頻度として計算し、前記単語抽出手段により抽出された単語の重みを求め、続いて、求められた重みと前記文書数とに基づき、前記単語抽出手段により抽出されたそれぞれの単語につき該検索条件との関連度を求め、さらに、求めた関連度が高い単語を選択し、選択した単語を前記検索条件に追加して新しい検索条件を作成する単語ランキング手段と、該単語ランキング手段で作成された該新しい検索条件に基づき、該文書蓄積手段に蓄積された文書を該文書ランキング手段で検索し、検索した文書を、該検索条件入力手段で入力された該検索条件に一致する文書として出力する文書出力手段と、を備えることを特徴とした文書検索装置である。
【００１８】
請求項２の発明は、検索用に、ｎ個の連続される文字から構成される文字組であるｎ−ｇｒａｍを索引単位とするｎ−ｇｒａｍ索引を含み、ユーザが登録した文書を、文書データベースとして蓄積する文書蓄積手段と、ユーザが検索条件を入力するための検索条件入力手段と、該検索条件入力手段により入力された該検索条件により該文書蓄積手段に蓄積された文書をランキングする文書ランキング手段と、該文書ランキング手段によりランキングされた文書から単語を抽出する単語抽出手段と、該単語抽出手段により抽出された各単語を構成するｎ−ｇｒａｍの索引単位の文書数の最小値を単語単位の文書数の最小値として計算し、前記単語抽出手段により抽出された単語の重みを求め、続いて、求められた重みと前記文書数の最小値とに基づき、前記単語抽出手段により抽出されたそれぞれの単語につき該検索条件との関連度を求め、さらに、求めた関連度が高い単語を選択し、選択した単語を前記検索条件に追加して新しい検索条件を作成する単語ランキング手段と、該単語ランキング手段で作成された該新しい検索条件に基づき、該文書蓄積手段に蓄積された文書を該文書ランキング手段で検索し、検索した文書を、該検索条件入力手段で入力された該検索条件に一致する文書として出力する文書出力手段と、を備えることを特徴とした文書検索装置である。
【００１９】
請求項３の発明は、検索用に、ｎ個の連続される文字から構成される文字組であるｎ−ｇｒａｍを索引単位とするｎ−ｇｒａｍ索引を含み、ユーザが登録した文書を、文書データベースとして蓄積する文書蓄積手段と、ユーザが検索条件を入力するための検索条件入力手段と、該検索条件入力手段により入力された該検索条件により該文書蓄積手段に蓄積された文書をランキングする文書ランキング手段と、該文書ランキング手段によりランキングされた文書から単語を抽出する単語抽出手段と、該単語抽出手段により抽出された各単語を構成するｎ−ｇｒａｍをすべて含む文書数を文書頻度として計算し、前記単語抽出手段により抽出された単語の重みを求め、続いて、求められた重みと前記文書数とに基づき、前記単語抽出手段により抽出されたそれぞれの単語につき該検索条件との関連度を求め、さらに、求めた関連度が高い単語を選択し、選択した単語を前記検索条件に追加して新しい検索条件を作成する単語ランキング手段と、該単語ランキング手段で作成された該新しい検索条件に基づき、該文書蓄積手段に蓄積された文書を該文書ランキング手段で検索し、検索した文書を、該検索条件入力手段で入力された該検索条件に一致する文書として出力する文書出力手段と、して、コンピュータを機能させることを特徴とした文書検索プログラムである。
【００２０】
請求項４の発明は、検索用に、ｎ個の連続される文字から構成される文字組であるｎ−ｇｒａｍを索引単位とするｎ−ｇｒａｍ索引を含み、ユーザが登録した文書を、文書データベースとして蓄積する文書蓄積手段と、ユーザが検索条件を入力するための検索条件入力手段と、該検索条件入力手段により入力された該検索条件により該文書蓄積手段に蓄積された文書をランキングする文書ランキング手段と、該文書ランキング手段によりランキングされた文書から単語を抽出する単語抽出手段と、該単語抽出手段により抽出された各単語を構成するｎ−ｇｒａｍの索引単位の文書数の最小値を単語単位の文書数の最小値として計算し、前記単語抽出手段により抽出された単語の重みを求め、続いて、求められた重みと前記文書数の最小値とに基づき、前記単語抽出手段により抽出されたそれぞれの単語につき該検索条件との関連度を求め、さらに、求めた関連度が高い単語を選択し、選択した単語を前記検索条件に追加して新しい検索条件を作成する単語ランキング手段と、該単語ランキング手段で作成された該新しい検索条件に基づき、該文書蓄積手段に蓄積された文書を該文書ランキング手段で検索し、検索した文書を、該検索条件入力手段で入力された該検索条件に一致する文書として出力する文書出力手段と、して、コンピュータを機能させることを特徴とした文書検索プログラムである。
【００２１】
請求項５の発明は、請求項３又は４記載の文書検索プログラムを記録したコンピュータ読み取り可能な記憶媒体である。
【００２７】
【発明の実施の形態】
図１は、本発明の一実施形態にかかわる文書検索装置の構成を示すブロック図である。本実施形態にかかわる文書検索装置２０は、検索条件入力部２１、文書ランキング部２２、単語抽出部２４、単語ランキング部２５、文書出力部２６及び文書データベース２３より構成される。文書データベース２３は、文書そのものを記録する文書ファイル２３ａと検索に使用するｎ−ｇｒａｍ索引２３ｂから構成される。検索条件入力部２１では、ユーザがキーボード等により、検索文字列となる検索条件１０を入力できる。文書ランキング部２２は、検索条件入力部２１で入力された検索条件１０に適合する文書（適合文書）の集合を、文書データベース２３の文書ファイル２３ａからｎ−ｇｒａｍ索引を参照しながら選定する。単語抽出部２４は適合文書中の単語を形態素解析等によって抽出する。単語ランキング部２５は、文書データベース２３のｎ−ｇｒａｍ索引２３ｂを参照して、適合文書中の単語の適合文書／非適合文書／登録文書の統計情報を利用して単語をランキングし、すなわち適合文書中の単語を関連度に応じて選出し、それらを検索条件関連語として元の検索条件に追加した新しい検索条件を作成する。この新しい検索条件のもと、文書ランキング部２２にて文書データベース２３から再度適合文書３０を選出する。文書出力部２６は、選出した適合文書３０を出力する。
【００２８】
文書登録は、図１には示されていない文書入力部によって文書データベースが更新されることにより行われる。すなわち、文書が文書ファイルに追加され、文書内容に応じてｎ−ｇｒａｍ索引の内容も更新される。
【００２９】
図２は、本発明の一実施形態にかかわる文書検索装置の動作を説明するためのフロー図である。図１の文書検索装置における文書検索処理は、図２のフローにしたがって行われる。ユーザによって検索条件入力部２１から検索条件１０が入力されると（ステップＳ１）、文書ランキング部２２は検索条件１０中の単語を重みづけして、文書をランキングし、適合文書を選出する（ステップＳ２）。次に、単語抽出部２４によりそれらの適合文書から単語を切り出す（ステップＳ３）。そして単語ランキング部２５により、適合文書中の単語をランキングし、重みづけし、関連語を選出し、新しい検索条件を作成する（ステップＳ４）。ここで作成した新検索条件に基づいて文書ランキング部２２により再度文書をランキングし（ステップＳ５）、その適合文書３０を出力する（ステップＳ６）。なお、ステップＳ２，Ｓ５において行うｎ−ｇｒａｍ索引を用いた文書ランキングは従来技術２の方法を用いればよい。ただし、ステップＳ５では単語の重みはステップＳ４で計算済みなので、単語重みの計算を行う必要はない。ステップＳ３の単語切り出しは形態素解析によって文書を単語に切ればよい。以下、ステップＳ４を詳しく説明する。
【００３０】
図３は、本発明にかかわる文書検索処理におけるｎ−ｇｒａｍ索引の参照方法を説明するための図である。
ステップＳ４では、適合文書中のすべての単語について、ｎ−ｇｒａｍ索引２３ｂを参照しながら、適合文書及び非適合文書での出現状況、すなわちフィードバック情報を反映させて、それぞれの単語の重みを求める。さらに、単語ランキング部は、この重みとフィードバック情報から適合文書中の各単語について、検索条件との関連度ＴＳＶを求める。以下、計算式は上述の従来技術１に記載のものを使用する。さらに、図３に示すように、ｎ−ｇｒａｍ索引の索引単位の長さはｎ＝２とし、適合文書は２つ、非適合文書はなし、「雨林」と「アマゾン」は１つの適合文書にのみ含まれており出現回数はそれぞれ３回と２回であり、総文書数は１０００であるとする。ここで、これらの単語の重みとＴＳＶの計算を説明する。
【００３１】
まず、「雨林」に関して以下の値が得られる。
Ｄ＝１０００，ｄ＝５０，Ｒ＝２，ｒ＝１，Ｓ＝０，ｓ＝０，ｔｆ＝３
このうち、「雨林」は索引単位と一致するので、ｄはｎ−ｇｒａｍ索引の「雨林」の文書頻度を読み出すことで得られる。上記値を式（３）に当てはめれば重みが、さらに重みを式（４）に当てはめればＴＳＶが計算できる。調整パラメータ（ｋ₁，ｋ₄′，ｋ₅，ｋ₆，α，β）がすべて１とすると、重みは２.９９、ＴＳＶは２.２４となる。
【００３２】
一方、「アマゾン」に関しては以下の値が得られる。
Ｄ＝１０００，ｄ＝７５，Ｒ＝２，ｒ＝１，Ｓ＝０，ｓ＝０，ｔｆ＝２
ここで面倒なのはｄの取得で、「雨林」とは異なり「アマゾン」は複数の索引単位に分割されるので、ｎ−ｇｒａｍ索引からは直接得られない。「アマ」「ゾン」の出現情報（文書ＩＤ，文書内頻度，文書内出現位置）を用いて、「アマゾン」が出現した文書数を求める必要がある。そのためには、「アマ」「ゾン」が両方出現し、かつその文書内出現位置が２文字ずれている文書を特定する。図３の例であれば、ＩＤ＝１の文書は両者が２文字はなれて出現しているので「アマゾン」を含み、ＩＤ＝２は両者が出現しているが文書内出現位置がばらばらなので「アマゾン」を含まないと判断できる。このような処理を続けることで、ｄを求めることができる。重みとＴＳＶの計算は「雨林」と同じで、重みは２.５７、ＴＳＶは１.７２となる。
【００３３】
ステップＳ４の最後では、ＴＳＶの高い単語を選択して、それを入力された検索条件に追加して新検索条件を生成する。入力された検索条件が「熱帯」であり、その重みが４.２１であったとする。この場合、新検索条件は、＃ＯＲをＯＲ演算子、＃ＷＥＩＧＨＴを重みを指定する演算子として、以下のようになる。
【００３４】
＃ＯＲ（＃ＷＥＩＧＨＴ［４.２１］（熱帯），＃ＷＥＩＧＨＴ［２.９９］（雨林），＃ＷＥＩＧＨＴ［２.５７］（アマゾン））
【００３５】
上述の実施形態においては、文書頻度ｄをもとめるのに文書内出現位置の検査が必要であり、処理に時間がかかる。そこで、本発明の他の実施形態としては、ステップＳ４において複数の索引単位に分割される単語については、ｄを求める際に文書内出現位置の検査を行わず、索引単位を含む文書数で代用するようにする。
【００３６】
例えば、「アマゾン」については、ＩＤ＝２の文書は「アマ」「ゾン」の出現しているので、文書内出現位置を無視して「アマゾン」を含むと判定する。この処理を続けることでｄを求める。
【００３７】
本発明の他の実施形態においては、上述のステップＳ４の処理を変更した実施形態における文書検索処理をさらに高速化する方法として、ステップＳ４で複数の索引単位に分割される単語については、ｄを求める際に索引単位の文書頻度の最小値で代用するようにする。
【００３８】
例えば、「アマゾン」については、「アマ」の文書頻度２００と「ゾン」の文書頻度１００の最小値である１００をｄとする。
【００３９】
図４は、本発明に関連する文書検索装置の構成を示すブロック図である。図４で示す文書検索装置２０′は、図１で説明した実施形態の文書検索装置２０と比較して単語抽出部２４がないこと、単語ランキング部２５が索引単位ランキング部２７に変わった点が異なる。
【００４０】
すなわち、文書検索装置２０′は、検索条件入力部２１、文書ランキング部２２、索引単位ランキング部２７、文書出力部２６及び文書データベース２３より構成される。文書データベース２３は、文書そのものを記録する文書ファイル２３ａと検索に使用するｎ−ｇｒａｍ索引２３ｂから構成される。検索条件入力部２１では、ユーザがキーボード等により、検索文字列となる検索条件１０を入力できる。文書ランキング部２２は、検索条件入力部２１で入力された検索条件１０に適合する文書（適合文書）の集合を、文書データベース２３の文書ファイル２３ａからｎ−ｇｒａｍ索引を参照しながら選定する。索引単位ランキング部２７は、文書データベース２３のｎ−ｇｒａｍ索引２３ｂにより、適合文書中のｎ−ｇｒａｍの適合文書／非適合文書／登録文書の統計情報を利用してｎ−ｇｒａｍをランキングし、すなわち適合文書中の索引単位をランキング、重みづけし、関連する索引単位を選出し、新しい検索条件を作成する。この新しい検索条件のもと、文書ランキング部２２にて文書データベース２３から再度適合文書３０′を選出する。文書出力部２６は、選出した適合文書３０′を出力する。また、文書登録は、図４には示されていない文書入力部によって文書データベースが更新されることにより行われる。すなわち、文書が文書ファイルに追加され、文書内容に応じてｎ−ｇｒａｍ索引の内容も更新される。
【００４１】
図５は、図４の文書検索装置の動作を説明するためのフロー図である。図４の文書検索装置における文書検索処理は、図５のフローにしたがって行われる。図２で説明した処理と比較すると、図２のステップＳ３の単語抽出がないことと、ステップＳ１３（図２のステップＳ４と対応する）の動作が異なる。すなわち、ユーザによって検索条件入力部２１から検索条件１０が入力されると（ステップＳ１１）、文書ランキング部２２は検索条件１０中の単語を重みづけして、文書をランキングし、適合文書を選出する（ステップＳ１２）。次に、索引単位ランキング部２７により、適合文書中の索引単位をランキングし、重みづけし、関連する索引単位を選出し、新しい検索条件を作成する（ステップＳ１３）。ここで作成した新検索条件に基づいて文書ランキング部２２により再度文書をランキングし（ステップＳ１４）、その適合文書３０′を出力する（ステップＳ１５）。なお、ステップＳ１２，Ｓ１４において行うｎ−ｇｒａｍ索引を用いた文書ランキングは従来技術２の方法を用いればよい。以下、ステップＳ１３を詳しく説明する。
【００４２】
ステップＳ１３では、適合文書中のすべての索引単位について、ｎ−ｇｒａｍ索引を参照しながら、適合文書及び非適合文書での出現状況、すなわちフィードバック情報を反映させて、それぞれの索引単位（＝ｎ−ｇｒａｍ）の重みを求める。さらに、索引単位ランキング部２７は、この重みとフィードバック情報から適合文書中の各索引単位について、検索条件との関連度ＴＳＶを求める。
【００４３】
図１で説明した実施形態との相違は、ランキングの対象が索引単位にかわったことである。したがって、図１の実施形態と同じく「雨林」はランキング対象になるが、「アマゾン」はランキング対象とはならずそこに含まれる「アマ」「マゾ」「ゾン」が対象とある。索引単位の重み、ＴＳＶの計算は、図１の実施形態における「雨林」の場合と全く同様に行えばよい。
【００４４】
本実施形態によれば、新検索条件を作成する際に重み、ＴＳＶを計算するのは全て索引単位となるため、文書頻度は単純にｎ−ｇｒａｍの文書頻度フィールドを読み出すだけで得られるため、検索条件作成が高速になる。
【００４５】
以上、本発明の各実施形態を文書検索装置として説明してきたが、文書検索装置の動作としても説明したように、本発明は文書検索方法としての形態も取り得ることはいうまでもない。さらに、本発明は、コンピュータに文書検索方法を実行させるための文書検索プログラムとしての形態も、その文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体としての形態も取り得る。
【００４６】
【発明の効果】
本発明によれば、単語抽出部（単語切り出し部）を設けることでｎ−ｇｒａｍ索引を用いた場合でも検索条件拡張を行うことができるようになる。
【００４７】
本発明によれば、近似的に計算した頻度を使用することにより、候補単語の重み、ＴＳＶ計算が単純になり、検索条件拡張が高速化される。
【００４８】
図４及び図５で説明した文書検索処理によれば、検索条件拡張において拡張する要素を単語ではなくｎ−ｇｒａｍとすることで、単語抽出部がなくともさらに高速化した検索条件拡張が可能となる。
【図面の簡単な説明】
【図１】本発明の一実施形態にかかわる文書検索装置の構成を示すブロック図である。
【図２】本発明の一実施形態にかかわる文書検索装置の動作を説明するためのフロー図である。
【図３】本発明にかかわる文書検索処理におけるｎ−ｇｒａｍ索引の参照方法を説明するための図である。
【図４】本発明に関連する文書検索装置の構成を示すブロック図である。
【図５】図４の文書検索装置の動作を説明するためのフロー図である。
【符号の説明】
１０…検索条件、２０，２０′…文書検索装置、２１…検索条件入力部、２２…文書ランキング部、２３…文書データベース、２３ａ…文書ファイル、２３ｂ…ｎ−ｇｒａｍ索引、２４…単語抽出部、２５…単語ランキング部、２６…文書出力部、２７…索引単位ランキング部、３０，３０′…適合文書。

Claims

検索用に、ｎ個の連続される文字から構成される文字組であるｎ−ｇｒａｍを索引単位とするｎ−ｇｒａｍ索引を含み、ユーザが登録した文書を、文書データベースとして蓄積する文書蓄積手段と、
ユーザが検索条件を入力するための検索条件入力手段と、
該検索条件入力手段により入力された該検索条件により該文書蓄積手段に蓄積された文書をランキングする文書ランキング手段と、
該文書ランキング手段によりランキングされた文書から単語を抽出する単語抽出手段と、
該単語抽出手段により抽出された各単語を構成するｎ−ｇｒａｍをすべて含む文書数を文書頻度として計算し、前記単語抽出手段により抽出された単語の重みを求め、続いて、求められた重みと前記文書数とに基づき、前記単語抽出手段により抽出されたそれぞれの単語につき該検索条件との関連度を求め、さらに、求めた関連度が高い単語を選択し、選択した単語を前記検索条件に追加して新しい検索条件を作成する単語ランキング手段と、
該単語ランキング手段で作成された該新しい検索条件に基づき、該文書蓄積手段に蓄積された文書を該文書ランキング手段で検索し、検索した文書を、該検索条件入力手段で入力された該検索条件に一致する文書として出力する文書出力手段と、
を備えることを特徴とする文書検索装置。
検索用に、ｎ個の連続される文字から構成される文字組であるｎ−ｇｒａｍを索引単位とするｎ−ｇｒａｍ索引を含み、ユーザが登録した文書を、文書データベースとして蓄積する文書蓄積手段と、
ユーザが検索条件を入力するための検索条件入力手段と、
該検索条件入力手段により入力された該検索条件により該文書蓄積手段に蓄積された文書をランキングする文書ランキング手段と、
該文書ランキング手段によりランキングされた文書から単語を抽出する単語抽出手段と、
該単語抽出手段により抽出された各単語を構成するｎ−ｇｒａｍの索引単位の文書数の最小値を単語単位の文書数の最小値として計算し、前記単語抽出手段により抽出された単語の重みを求め、続いて、求められた重みと前記文書数の最小値とに基づき、前記単語抽出手段により抽出されたそれぞれの単語につき該検索条件との関連度を求め、さらに、求めた関連度が高い単語を選択し、選択した単語を前記検索条件に追加して新しい検索条件を作成する単語ランキング手段と、
該単語ランキング手段で作成された該新しい検索条件に基づき、該文書蓄積手段に蓄積された文書を該文書ランキング手段で検索し、検索した文書を、該検索条件入力手段で入力された該検索条件に一致する文書として出力する文書出力手段と、
を備えることを特徴とする文書検索装置。
検索用に、ｎ個の連続される文字から構成される文字組であるｎ−ｇｒａｍを索引単位とするｎ−ｇｒａｍ索引を含み、ユーザが登録した文書を、文書データベースとして蓄積する文書蓄積手段と、
ユーザが検索条件を入力するための検索条件入力手段と、
該検索条件入力手段により入力された該検索条件により該文書蓄積手段に蓄積された文書をランキングする文書ランキング手段と、
該文書ランキング手段によりランキングされた文書から単語を抽出する単語抽出手段と、
該単語抽出手段により抽出された各単語を構成するｎ−ｇｒａｍをすべて含む文書数を文書頻度として計算し、前記単語抽出手段により抽出された単語の重みを求め、続いて、求められた重みと前記文書数とに基づき、前記単語抽出手段により抽出されたそれぞれの単語につき該検索条件との関連度を求め、さらに、求めた関連度が高い単語を選択し、選択した単語を前記検索条件に追加して新しい検索条件を作成する単語ランキング手段と、
該単語ランキング手段で作成された該新しい検索条件に基づき、該文書蓄積手段に蓄積された文書を該文書ランキング手段で検索し、検索した文書を、該検索条件入力手段で入力された該検索条件に一致する文書として出力する文書出力手段と、
して、コンピュータを機能させることを特徴とする文書検索プログラム。
検索用に、ｎ個の連続される文字から構成される文字組であるｎ−ｇｒａｍを索引単位とするｎ−ｇｒａｍ索引を含み、ユーザが登録した文書を、文書データベースとして蓄積する文書蓄積手段と、
ユーザが検索条件を入力するための検索条件入力手段と、
該検索条件入力手段により入力された該検索条件により該文書蓄積手段に蓄積された文書をランキングする文書ランキング手段と、
該文書ランキング手段によりランキングされた文書から単語を抽出する単語抽出手段と、
該単語抽出手段により抽出された各単語を構成するｎ−ｇｒａｍの索引単位の文書数の最小値を単語単位の文書数の最小値として計算し、前記単語抽出手段により抽出された単語の重みを求め、続いて、求められた重みと前記文書数の最小値とに基づき、前記単語抽出手段により抽出されたそれぞれの単語につき該検索条件との関連度を求め、さらに、求めた関連度が高い単語を選択し、選択した単語を前記検索条件に追加して新しい検索条件を作成する単語ランキング手段と、
該単語ランキング手段で作成された該新しい検索条件に基づき、該文書蓄積手段に蓄積された文書を該文書ランキング手段で検索し、検索した文書を、該検索条件入力手段で入力された該検索条件に一致する文書として出力する文書出力手段と、
して、コンピュータを機能させることを特徴とする文書検索プログラム。
請求項３又は４記載の文書検索プログラムを記録したコンピュータ読み取り可能な記憶媒体。