JP4049543B2 - 文書検索装置、文書検索プログラム、記録媒体 - Google Patents

文書検索装置、文書検索プログラム、記録媒体 Download PDF

Info

Publication number
JP4049543B2
JP4049543B2 JP2001054539A JP2001054539A JP4049543B2 JP 4049543 B2 JP4049543 B2 JP 4049543B2 JP 2001054539 A JP2001054539 A JP 2001054539A JP 2001054539 A JP2001054539 A JP 2001054539A JP 4049543 B2 JP4049543 B2 JP 4049543B2
Authority
JP
Japan
Prior art keywords
document
word
search
documents
ranking
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001054539A
Other languages
English (en)
Other versions
JP2002259385A (ja
Inventor
泰嗣 小川
博子 真野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2001054539A priority Critical patent/JP4049543B2/ja
Publication of JP2002259385A publication Critical patent/JP2002259385A/ja
Application granted granted Critical
Publication of JP4049543B2 publication Critical patent/JP4049543B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、文書検索装置、文書検索プログラム、及びその記録媒体に関し、より詳細には、与えられた検索条件に対して適合する文書を選択する検索を行い、適合文書から抽出した、検索条件に関連した単語或いは索引単位によって検索条件を拡張し、拡張した検索条件で再検索する文書検索装置、文書検索プログラム、及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体に関する。
【0002】
【従来の技術】
文書検索装置において、ユーザが入力した検索条件に適合する文書を探し出すために、検索条件中の各単語に重みをあたえ、それに基づいて検索対象の各文書の検索条件に対する適合の度合を求めるという方法が一般に行われている。
【0003】
単語の重みの計算式には、例えば、本出願人による特願平11−314442号明細書(以下、従来技術1と呼ぶ)に記載の計算式がある。この計算式は、Dを検索対象文書数(総文書数と呼ぶ)、dを各単語の出現する文書数(文書頻度と呼ぶ)、k′を確率推定に基づく調整パラメータ(0より大きい実数)として、下式(1)で表される。
【0004】
【数1】
Figure 0004049543
【0005】
各単語の重みが定まったら、各文書が各単語をどのくらい含んでいるかをもとに各文書の文書適合度を計算する。この文書適合度は、tfを文書あたりの単語の出現数(文書内頻度と呼ぶ)、kを調整パラメータとして、以下の計算式(2)で求める。
【0006】
【数2】
Figure 0004049543
【0007】
さらに、ユーザが入力した検索条件を用いて検索した後、適合する文書中に出現する単語から入力検索条件に関連する単語を選出、元の検索条件に追加し、再度検索することでユーザの求めるものに近いものがより得られやすくなることも知られている。このようにして関連語を追加した場合、再検索時の重みづけには、例えば、適合文書、非適合文書の中での出現頻度などのフィードバック情報を利用し、以下の計算式(3)で求める。
【0008】
【数3】
Figure 0004049543
【0009】
なお、上式(3)において、Rは適合文書数、rは適合文書集合の中で単語の出現する文書数、Sは非適合文書数、sは非適合文書集合の中で単語の出現する文書数、k5,k6は調整パラメータである。
【0010】
また、検索条件関連語を選出するには、適合する文書から選出すべき関連語を選択するための関連度評価値TSVは、例えば、適合文書及び非適合文書での文書内頻度などのフィードバック情報を利用して、α,βを調整パラメータとして、以下の計算式(4)で求める。
【0011】
【数4】
Figure 0004049543
【0012】
一方、日本語文書を対象に検索を行う場合、検索のための索引をどのように作成するかが問題となる。すなわち、英語では単語を索引単位として索引を作成するのが一般的であるが、日本語では英語のようにスペース/カンマ/ピリオドなどによって単語が区切られていない。そこで、英語同様に単語を索引単位とするためには形態素解析等を導入し単語を切り出す必要があるが、解析誤りや辞書整備の問題がある。そこで、n−gram(n文字の連続)を索引単位とする方法(以下n−gram索引と呼ぶ)が使用される。この方法としては、例えば当出願人により先に提案された文書検索装置、文書検索装置及び記録媒体(以下、従来技術2と呼ぶ)が挙げられる。
【0013】
【発明が解決しようとする課題】
しかしながら、n−gram索引を使用した場合には、文書検索装置に単語切り出し手段がないため、上で述べたように単純には検索条件拡張を適用できないという問題がある。
【0014】
本発明、上述のごとき実情に鑑みてなされたものであり、n−gram索引を使用した場合にも検索条件拡張を可能とした文書検索装置、文書検索プログラム、及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体を提供することをその目的とする。
【0015】
本発明は、また、検索条件拡張において単語を単位とするとTSVなどの計算に時間がかかるといった問題を解消するために、近似的に計算した頻度を使用する文書検索装置、文書検索プログラム、及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体を提供することを他の目的とする。
【0017】
【課題を解決するための手段】
請求項1の発明は、索用に、n個の連続される文字から構成される文字組であるn−gramを索引単位とするn−gram索引を含み、ユーザが登録した文書を、文書データベースとして蓄積する文書蓄積手段と、ユーザ検索条件を入力するための検索条件入力手段と、該検索条件入力手段により入力された該検索条件により該文書蓄積手段に蓄積された文書をランキングする文書ランキング手段と、該文書ランキング手段によりランキングされた文書から単語を抽出する単語抽出手段と、該単語抽出手段により抽出された各単語を構成するn−gramをすべて含む文書数を文書頻度として計算し、前記単語抽出手段により抽出された単語の重みを求め、続いて、求められた重みと前記文書数とに基づき、前記単語抽出手段により抽出されたそれぞれの単語につき該検索条件との関連度を求め、さらに、求めた関連度が高い単語を選択し、選択した単語を前記検索条件に追加して新しい検索条件を作成する単語ランキング手段と、該単語ランキング手段で作成された該新しい検索条件に基づき、該文書蓄積手段に蓄積された文書を該文書ランキング手段で検索し、検索した文書を、該検索条件入力手段で入力された該検索条件に一致する文書として出力する文書出力手段と、を備えることを特徴とした文書検索装置である。
【0018】
請求項2の発明は、検索用に、n個の連続される文字から構成される文字組であるn−gramを索引単位とするn−gram索引を含み、ユーザが登録した文書を、文書データベースとして蓄積する文書蓄積手段と、ユーザが検索条件を入力するための検索条件入力手段と、該検索条件入力手段により入力された該検索条件により該文書蓄積手段に蓄積された文書をランキングする文書ランキング手段と、該文書ランキング手段によりランキングされた文書から単語を抽出する単語抽出手段と、該単語抽出手段により抽出された各単語を構成するn−gramの索引単位の文書数の最小値を単語単位の文書数の最小値として計算し、前記単語抽出手段により抽出された単語の重みを求め、続いて、求められた重みと前記文書数の最小値とに基づき、前記単語抽出手段により抽出されたそれぞれの単語につき該検索条件との関連度を求め、さらに、求めた関連度が高い単語を選択し、選択した単語を前記検索条件に追加して新しい検索条件を作成する単語ランキング手段と、該単語ランキング手段で作成された該新しい検索条件に基づき、該文書蓄積手段に蓄積された文書を該文書ランキング手段で検索し、検索した文書を、該検索条件入力手段で入力された該検索条件に一致する文書として出力する文書出力手段と、を備えることを特徴とした文書検索装置である。
【0019】
請求項3の発明は、検索用に、n個の連続される文字から構成される文字組であるn−gramを索引単位とするn−gram索引を含み、ユーザが登録した文書を、文書データベースとして蓄積する文書蓄積手段と、ユーザが検索条件を入力するための検索条件入力手段と、該検索条件入力手段により入力された該検索条件により該文書蓄積手段に蓄積された文書をランキングする文書ランキング手段と、該文書ランキング手段によりランキングされた文書から単語を抽出する単語抽出手段と、該単語抽出手段により抽出された各単語を構成するn−gramをすべて含む文書数を文書頻度として計算し、前記単語抽出手段により抽出された単語の重みを求め、続いて、求められた重みと前記文書数とに基づき、前記単語抽出手段により抽出されたそれぞれの単語につき該検索条件との関連度を求め、さらに、求めた関連度が高い単語を選択し、選択した単語を前記検索条件に追加して新しい検索条件を作成する単語ランキング手段と、該単語ランキング手段で作成された該新しい検索条件に基づき、該文書蓄積手段に蓄積された文書を該文書ランキング手段で検索し、検索した文書を、該検索条件入力手段で入力された該検索条件に一致する文書として出力する文書出力手段と、して、コンピュータを機能させることを特徴とした文書検索プログラムである。
【0020】
請求項4の発明は、索用に、n個の連続される文字から構成される文字組であるn−gramを索引単位とするn−gram索引を含み、ユーザが登録した文書を、文書データベースとして蓄積する文書蓄積手段と、ユーザ検索条件を入力するための検索条件入力手段と、該検索条件入力手段により入力された該検索条件により該文書蓄積手段に蓄積された文書をランキングする文書ランキング手段と、該文書ランキング手段によりランキングされた文書から単語を抽出する単語抽出手段と、該単語抽出手段により抽出された各単語を構成するn−gramの索引単位の文書数の最小値を単語単位の文書数の最小値として計算し、前記単語抽出手段により抽出された単語の重みを求め、続いて、求められた重みと前記文書数の最小値とに基づき、前記単語抽出手段により抽出されたそれぞれの単語につき該検索条件との関連度を求め、さらに、求めた関連度が高い単語を選択し、選択した単語を前記検索条件に追加して新しい検索条件を作成する単語ランキング手段と、該単語ランキング手段で作成された該新しい検索条件に基づき、該文書蓄積手段に蓄積された文書を該文書ランキング手段で検索し、検索した文書を、該検索条件入力手段で入力された該検索条件に一致する文書として出力する文書出力手段と、して、コンピュータを機能させることを特徴とした文書検索プログラムである。
【0021】
請求項5の発明は、請求項3又は4記載の文書検索プログラムを記録したコンピュータ読み取り可能な記憶媒体である。
【0027】
【発明の実施の形態】
図1は、本発明の一実施形態にかかわる文書検索装置の構成を示すブロック図である。本実施形態にかかわる文書検索装置20は、検索条件入力部21、文書ランキング部22、単語抽出部24、単語ランキング部25、文書出力部26及び文書データベース23より構成される。文書データベース23は、文書そのものを記録する文書ファイル23aと検索に使用するn−gram索引23bから構成される。検索条件入力部21では、ユーザがキーボード等により、検索文字列となる検索条件10を入力できる。文書ランキング部22は、検索条件入力部21で入力された検索条件10に適合する文書(適合文書)の集合を、文書データベース23の文書ファイル23aからn−gram索引を参照しながら選定する。単語抽出部24は適合文書中の単語を形態素解析等によって抽出する。単語ランキング部25は、文書データベース23のn−gram索引23bを参照して、適合文書中の単語の適合文書/非適合文書/登録文書の統計情報を利用して単語をランキングし、すなわち適合文書中の単語を関連度に応じて選出し、それらを検索条件関連語として元の検索条件に追加した新しい検索条件を作成する。この新しい検索条件のもと、文書ランキング部22にて文書データベース23から再度適合文書30を選出する。文書出力部26は、選出した適合文書30を出力する。
【0028】
文書登録は、図1には示されていない文書入力部によって文書データベースが更新されることにより行われる。すなわち、文書が文書ファイルに追加され、文書内容に応じてn−gram索引の内容も更新される。
【0029】
図2は、本発明の一実施形態にかかわる文書検索装置の動作を説明するためのフロー図である。図1の文書検索装置における文書検索処理は、図2のフローにしたがって行われる。ユーザによって検索条件入力部21から検索条件10が入力されると(ステップS1)、文書ランキング部22は検索条件10中の単語を重みづけして、文書をランキングし、適合文書を選出する(ステップS2)。次に、単語抽出部24によりそれらの適合文書から単語を切り出す(ステップS3)。そして単語ランキング部25により、適合文書中の単語をランキングし、重みづけし、関連語を選出し、新しい検索条件を作成する(ステップS4)。ここで作成した新検索条件に基づいて文書ランキング部22により再度文書をランキングし(ステップS5)、その適合文書30を出力する(ステップS6)。なお、ステップS2,S5において行うn−gram索引を用いた文書ランキングは従来技術2の方法を用いればよい。ただし、ステップS5では単語の重みはステップS4で計算済みなので、単語重みの計算を行う必要はない。ステップS3の単語切り出しは形態素解析によって文書を単語に切ればよい。以下、ステップS4を詳しく説明する。
【0030】
図3は、本発明にかかわる文書検索処理におけるn−gram索引の参照方法を説明するための図である。
ステップS4では、適合文書中のすべての単語について、n−gram索引23bを参照しながら、適合文書及び非適合文書での出現状況、すなわちフィードバック情報を反映させて、それぞれの単語の重みを求める。さらに、単語ランキング部は、この重みとフィードバック情報から適合文書中の各単語について、検索条件との関連度TSVを求める。以下、計算式は上述の従来技術1に記載のものを使用する。さらに、図3に示すように、n−gram索引の索引単位の長さはn=2とし、適合文書は2つ、非適合文書はなし、「雨林」と「アマゾン」は1つの適合文書にのみ含まれており出現回数はそれぞれ3回と2回であり、総文書数は1000であるとする。ここで、これらの単語の重みとTSVの計算を説明する。
【0031】
まず、「雨林」に関して以下の値が得られる。
D=1000,d=50,R=2,r=1,S=0,s=0,tf=3
このうち、「雨林」は索引単位と一致するので、dはn−gram索引の「雨林」の文書頻度を読み出すことで得られる。上記値を式(3)に当てはめれば重みが、さらに重みを式(4)に当てはめればTSVが計算できる。調整パラメータ(k1,k4′,k5,k6,α,β)がすべて1とすると、重みは2.99、TSVは2.24となる。
【0032】
一方、「アマゾン」に関しては以下の値が得られる。
D=1000,d=75,R=2,r=1,S=0,s=0,tf=2
ここで面倒なのはdの取得で、「雨林」とは異なり「アマゾン」は複数の索引単位に分割されるので、n−gram索引からは直接得られない。「アマ」「ゾン」の出現情報(文書ID,文書内頻度,文書内出現位置)を用いて、「アマゾン」が出現した文書数を求める必要がある。そのためには、「アマ」「ゾン」が両方出現し、かつその文書内出現位置が2文字ずれている文書を特定する。図3の例であれば、ID=1の文書は両者が2文字はなれて出現しているので「アマゾン」を含み、ID=2は両者が出現しているが文書内出現位置がばらばらなので「アマゾン」を含まないと判断できる。このような処理を続けることで、dを求めることができる。重みとTSVの計算は「雨林」と同じで、重みは2.57、TSVは1.72となる。
【0033】
ステップS4の最後では、TSVの高い単語を選択して、それを入力された検索条件に追加して新検索条件を生成する。入力された検索条件が「熱帯」であり、その重みが4.21であったとする。この場合、新検索条件は、#ORをOR演算子、#WEIGHTを重みを指定する演算子として、以下のようになる。
【0034】
#OR(#WEIGHT[4.21](熱帯),#WEIGHT[2.99](雨林),#WEIGHT[2.57](アマゾン))
【0035】
上述の実施形態においては、文書頻度dをもとめるのに文書内出現位置の検査が必要であり、処理に時間がかかる。そこで、本発明の他の実施形態としては、ステップS4において複数の索引単位に分割される単語については、dを求める際に文書内出現位置の検査を行わず、索引単位を含む文書数で代用するようにする。
【0036】
例えば、「アマゾン」については、ID=2の文書は「アマ」「ゾン」の出現しているので、文書内出現位置を無視して「アマゾン」を含むと判定する。この処理を続けることでdを求める。
【0037】
本発明の他の実施形態においては、上述のステップS4の処理を変更した実施形態における文書検索処理をさらに高速化する方法として、ステップS4で複数の索引単位に分割される単語については、dを求める際に索引単位の文書頻度の最小値で代用するようにする。
【0038】
例えば、「アマゾン」については、「アマ」の文書頻度200と「ゾン」の文書頻度100の最小値である100をdとする。
【0039】
図4は、本発明に関連する文書検索装置の構成を示すブロック図である。図4で示す文書検索装置20′は、図1で説明した実施形態の文書検索装置20と比較して単語抽出部24がないこと、単語ランキング部25が索引単位ランキング部27に変わった点が異なる。
【0040】
すなわち、文書検索装置20′は、検索条件入力部21、文書ランキング部22、索引単位ランキング部27、文書出力部26及び文書データベース23より構成される。文書データベース23は、文書そのものを記録する文書ファイル23aと検索に使用するn−gram索引23bから構成される。検索条件入力部21では、ユーザがキーボード等により、検索文字列となる検索条件10を入力できる。文書ランキング部22は、検索条件入力部21で入力された検索条件10に適合する文書(適合文書)の集合を、文書データベース23の文書ファイル23aからn−gram索引を参照しながら選定する。索引単位ランキング部27は、文書データベース23のn−gram索引23bにより、適合文書中のn−gramの適合文書/非適合文書/登録文書の統計情報を利用してn−gramをランキングし、すなわち適合文書中の索引単位をランキング、重みづけし、関連する索引単位を選出し、新しい検索条件を作成する。この新しい検索条件のもと、文書ランキング部22にて文書データベース23から再度適合文書30′を選出する。文書出力部26は、選出した適合文書30′を出力する。また、文書登録は、図4には示されていない文書入力部によって文書データベースが更新されることにより行われる。すなわち、文書が文書ファイルに追加され、文書内容に応じてn−gram索引の内容も更新される。
【0041】
図5は、図4の文書検索装置の動作を説明するためのフロー図である。図4の文書検索装置における文書検索処理は、図5のフローにしたがって行われる。図2で説明した処理と比較すると、図2のステップS3の単語抽出がないことと、ステップS13(図2のステップS4と対応する)の動作が異なる。すなわち、ユーザによって検索条件入力部21から検索条件10が入力されると(ステップS11)、文書ランキング部22は検索条件10中の単語を重みづけして、文書をランキングし、適合文書を選出する(ステップS12)。次に、索引単位ランキング部27により、適合文書中の索引単位をランキングし、重みづけし、関連する索引単位を選出し、新しい検索条件を作成する(ステップS13)。ここで作成した新検索条件に基づいて文書ランキング部22により再度文書をランキングし(ステップS14)、その適合文書30′を出力する(ステップS15)。なお、ステップS12,S14において行うn−gram索引を用いた文書ランキングは従来技術2の方法を用いればよい。以下、ステップS13を詳しく説明する。
【0042】
ステップS13では、適合文書中のすべての索引単位について、n−gram索引を参照しながら、適合文書及び非適合文書での出現状況、すなわちフィードバック情報を反映させて、それぞれの索引単位(=n−gram)の重みを求める。さらに、索引単位ランキング部27は、この重みとフィードバック情報から適合文書中の各索引単位について、検索条件との関連度TSVを求める。
【0043】
図1で説明した実施形態との相違は、ランキングの対象が索引単位にかわったことである。したがって、図1の実施形態と同じく「雨林」はランキング対象になるが、「アマゾン」はランキング対象とはならずそこに含まれる「アマ」「マゾ」「ゾン」が対象とある。索引単位の重み、TSVの計算は、図1の実施形態における「雨林」の場合と全く同様に行えばよい。
【0044】
本実施形態によれば、新検索条件を作成する際に重み、TSVを計算するのは全て索引単位となるため、文書頻度は単純にn−gramの文書頻度フィールドを読み出すだけで得られるため、検索条件作成が高速になる。
【0045】
以上、本発明の各実施形態を文書検索装置として説明してきたが、文書検索装置の動作としても説明したように、本発明は文書検索方法としての形態も取り得ることはいうまでもない。さらに、本発明は、コンピュータに文書検索方法を実行させるための文書検索プログラムとしての形態も、その文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体としての形態も取り得る。
【0046】
【発明の効果】
本発明によれば、単語抽出部(単語切り出し部)を設けることでn−gram索引を用いた場合でも検索条件拡張を行うことができるようになる。
【0047】
本発明によれば、近似的に計算した頻度を使用することにより、候補単語の重み、TSV計算が単純になり、検索条件拡張が高速化される。
【0048】
図4及び図5で説明した文書検索処理によれば、検索条件拡張において拡張する要素を単語ではなくn−gramとすることで、単語抽出部がなくともさらに高速化した検索条件拡張が可能となる。
【図面の簡単な説明】
【図1】 本発明の一実施形態にかかわる文書検索装置の構成を示すブロック図である。
【図2】 本発明の一実施形態にかかわる文書検索装置の動作を説明するためのフロー図である。
【図3】 本発明にかかわる文書検索処理におけるn−gram索引の参照方法を説明するための図である。
【図4】 本発明に関連する文書検索装置の構成を示すブロック図である。
【図5】 図4の文書検索装置の動作を説明するためのフロー図である。
【符号の説明】
10…検索条件、20,20′…文書検索装置、21…検索条件入力部、22…文書ランキング部、23…文書データベース、23a…文書ファイル、23b…n−gram索引、24…単語抽出部、25…単語ランキング部、26…文書出力部、27…索引単位ランキング部、30,30′…適合文書。

Claims (5)

  1. 索用に、n個の連続される文字から構成される文字組であるn−gramを索引単位とするn−gram索引を含み、ユーザが登録した文書を、文書データベースとして蓄積する文書蓄積手段と、
    ユーザ検索条件を入力するための検索条件入力手段と、
    該検索条件入力手段により入力された該検索条件により該文書蓄積手段に蓄積された文書をランキングする文書ランキング手段と、
    該文書ランキング手段によりランキングされた文書から単語を抽出する単語抽出手段と、
    該単語抽出手段により抽出された各単語を構成するn−gramをすべて含む文書数を文書頻度として計算し、前記単語抽出手段により抽出された単語の重みを求め、続いて、求められた重みと前記文書数とに基づき、前記単語抽出手段により抽出されたそれぞれの単語につき該検索条件との関連度を求め、さらに、求めた関連度が高い単語を選択し、選択した単語を前記検索条件に追加して新しい検索条件を作成する単語ランキング手段と、
    該単語ランキング手段で作成された該新しい検索条件に基づき、該文書蓄積手段に蓄積された文書を該文書ランキング手段で検索し、検索した文書を、該検索条件入力手段で入力された該検索条件に一致する文書として出力する文書出力手段と、
    備えることを特徴とする文書検索装置。
  2. 検索用に、n個の連続される文字から構成される文字組であるn−gramを索引単位とするn−gram索引を含み、ユーザが登録した文書を、文書データベースとして蓄積する文書蓄積手段と、
    ユーザが検索条件を入力するための検索条件入力手段と、
    該検索条件入力手段により入力された該検索条件により該文書蓄積手段に蓄積された文書をランキングする文書ランキング手段と、
    該文書ランキング手段によりランキングされた文書から単語を抽出する単語抽出手段と、
    該単語抽出手段により抽出された各単語を構成するn−gramの索引単位の文書数の最小値を単語単位の文書数の最小値として計算し、前記単語抽出手段により抽出された単語の重みを求め、続いて、求められた重みと前記文書数の最小値とに基づき、前記単語抽出手段により抽出されたそれぞれの単語につき該検索条件との関連度を求め、さらに、求めた関連度が高い単語を選択し、選択した単語を前記検索条件に追加して新しい検索条件を作成する単語ランキング手段と、
    該単語ランキング手段で作成された該新しい検索条件に基づき、該文書蓄積手段に蓄積された文書を該文書ランキング手段で検索し、検索した文書を、該検索条件入力手段で入力された該検索条件に一致する文書として出力する文書出力手段と、
    を備えることを特徴とする文書検索装置。
  3. 検索用に、n個の連続される文字から構成される文字組であるn−gramを索引単位とするn−gram索引を含み、ユーザが登録した文書を、文書データベースとして蓄積する文書蓄積手段と、
    ユーザが検索条件を入力するための検索条件入力手段と、
    該検索条件入力手段により入力された該検索条件により該文書蓄積手段に蓄積された文書をランキングする文書ランキング手段と、
    該文書ランキング手段によりランキングされた文書から単語を抽出する単語抽出手段と、
    該単語抽出手段により抽出された各単語を構成するn−gramをすべて含む文書数を文書頻度として計算し、前記単語抽出手段により抽出された単語の重みを求め、続いて、求められた重みと前記文書数とに基づき、前記単語抽出手段により抽出されたそれぞれの単語につき該検索条件との関連度を求め、さらに、求めた関連度が高い単語を選択し、選択した単語を前記検索条件に追加して新しい検索条件を作成する単語ランキング手段と、
    該単語ランキング手段で作成された該新しい検索条件に基づき、該文書蓄積手段に蓄積 された文書を該文書ランキング手段で検索し、検索した文書を、該検索条件入力手段で入力された該検索条件に一致する文書として出力する文書出力手段と、
    して、コンピュータを機能させることを特徴とする文書検索プログラム。
  4. 索用に、n個の連続される文字から構成される文字組であるn−gramを索引単位とするn−gram索引を含み、ユーザが登録した文書を、文書データベースとして蓄積する文書蓄積手段と、
    ユーザ検索条件を入力するための検索条件入力手段と、
    該検索条件入力手段により入力された該検索条件により該文書蓄積手段に蓄積された文書をランキングする文書ランキング手段と、
    該文書ランキング手段によりランキングされた文書から単語を抽出する単語抽出手段と、
    該単語抽出手段により抽出された各単語を構成するn−gramの索引単位の文書数の最小値を単語単位の文書数の最小値として計算し、前記単語抽出手段により抽出された単語の重みを求め、続いて、求められた重みと前記文書数の最小値とに基づき、前記単語抽出手段により抽出されたそれぞれの単語につき該検索条件との関連度を求め、さらに、求めた関連度が高い単語を選択し、選択した単語を前記検索条件に追加して新しい検索条件を作成する単語ランキング手段と、
    該単語ランキング手段で作成された該新しい検索条件に基づき、該文書蓄積手段に蓄積された文書を該文書ランキング手段で検索し、検索した文書を、該検索条件入力手段で入力された該検索条件に一致する文書として出力する文書出力手段と、
    して、コンピュータを機能させることを特徴とする文書検索プログラム。
  5. 請求項3又は4記載の文書検索プログラムを記録したコンピュータ読み取り可能な記憶媒体。
JP2001054539A 2001-02-28 2001-02-28 文書検索装置、文書検索プログラム、記録媒体 Expired - Fee Related JP4049543B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001054539A JP4049543B2 (ja) 2001-02-28 2001-02-28 文書検索装置、文書検索プログラム、記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001054539A JP4049543B2 (ja) 2001-02-28 2001-02-28 文書検索装置、文書検索プログラム、記録媒体

Publications (2)

Publication Number Publication Date
JP2002259385A JP2002259385A (ja) 2002-09-13
JP4049543B2 true JP4049543B2 (ja) 2008-02-20

Family

ID=18914857

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001054539A Expired - Fee Related JP4049543B2 (ja) 2001-02-28 2001-02-28 文書検索装置、文書検索プログラム、記録媒体

Country Status (1)

Country Link
JP (1) JP4049543B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7346493B2 (en) 2003-03-25 2008-03-18 Microsoft Corporation Linguistically informed statistical models of constituent structure for ordering in sentence realization for a natural language generation system
JP4486324B2 (ja) * 2003-06-19 2010-06-23 ヤフー株式会社 類似単語検索装置、この方法、このプログラム、および情報検索システム
JP4513781B2 (ja) * 2006-05-24 2010-07-28 Sky株式会社 文書検索方法および文書検索装置

Also Published As

Publication number Publication date
JP2002259385A (ja) 2002-09-13

Similar Documents

Publication Publication Date Title
US20070244915A1 (en) System and method for clustering documents
JPH11203294A (ja) 情報検索システム、装置、方法及び記録媒体
US11573989B2 (en) Corpus specific generative query completion assistant
JPH08255172A (ja) 文書検索システム
JP2006099428A (ja) 文書要約作成システム、方法、及びプログラム
JP4237813B2 (ja) 構造化文書管理システム
JP2000200281A (ja) 情報検索装置および情報検索方法ならびに情報検索プログラムを記録した記録媒体
JP2006215717A (ja) 情報検索装置、情報検索方法および情報検索プログラム
JP4091146B2 (ja) 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP5204203B2 (ja) 用例翻訳システム、用例翻訳方法及び用例翻訳プログラム
JP2003323457A (ja) 文書検索装置、文書検索方法、プログラム及び記録媒体
JP2000020537A (ja) テキスト検索装置及びテキスト検索プログラムを記録したコンピュータ読み取り可能な記録媒体
JP4049543B2 (ja) 文書検索装置、文書検索プログラム、記録媒体
JP3331692B2 (ja) 異表記語辞書作成支援装置
JPH0844771A (ja) 情報検索装置
JP4813312B2 (ja) 電子文書検索方法、電子文書検索装置及びプログラム
JP2004192374A (ja) 文書検索装置、プログラムおよび記録媒体
JP3862059B2 (ja) 検索式拡張方法および検索システム
JP5364802B2 (ja) 文書検索システム、文書検索方法
JP4091586B2 (ja) 構造化文書管理システム、索引構築方法及びプログラム
JP2002117043A (ja) 文書検索装置、文書検索方法およびその方法を実施するためのプログラムを記録した記録媒体
JP5792871B1 (ja) 代表スポット出力方法、代表スポット出力装置および代表スポット出力プログラム
JP7428035B2 (ja) データ検索装置、データ検索方法およびプログラム
JP7272540B2 (ja) 情報提供システム、情報提供方法、及びデータ構造
JP2004133510A (ja) 技術文献検索システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041217

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070821

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071022

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20071127

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20071127

R150 Certificate of patent or registration of utility model

Ref document number: 4049543

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101207

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101207

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111207

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111207

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121207

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131207

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees