JP3816680B2 - 文書検索装置、文書検索方法及び該方法を実行させるためのプログラムを格納したコンピュータ読み取り可能な記録媒体 - Google Patents
文書検索装置、文書検索方法及び該方法を実行させるためのプログラムを格納したコンピュータ読み取り可能な記録媒体 Download PDFInfo
- Publication number
- JP3816680B2 JP3816680B2 JP31198698A JP31198698A JP3816680B2 JP 3816680 B2 JP3816680 B2 JP 3816680B2 JP 31198698 A JP31198698 A JP 31198698A JP 31198698 A JP31198698 A JP 31198698A JP 3816680 B2 JP3816680 B2 JP 3816680B2
- Authority
- JP
- Japan
- Prior art keywords
- occurrence
- search key
- document
- phrase
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【発明の属する技術分野】
本発明は文書検索装置、文書検索方法及び該方法を実行させるためのプログラムを格納したコンピュータ読み取り可能な記録媒体に関し、特にテキスト情報等の電子化文書を検索する装置及び方法に関する。
【0002】
【従来の技術】
情報インフラの整備に伴い、電子メールや業務用文書といった電子化文書に対して目的とする文書を検索キー(語句)によって検索する文書検索システムが提案されている。しかし、入力した検索キーに対し文書検索システムが検索結果として提示された文書集合が検索者の目的とする文書のみからなるとは限らない。
【0003】
そこで、従来例として、「G.Salton氏"Introduction to Modern Information Retrieval",pp.146−151,McGraw Hill社発行,1983年」には、検索結果である文書集合を検索キーとの関連度が大きい順にランキングして提示する技術が開示されている。
【0004】
【発明が解決しようとする課題】
しかしながら、上記従来例では、目的とする文書が上位にランキングされるとは限らず、結局のところ検索者は多くの文書内容を調べなければならない。
【0005】
本発明はこれらの問題点を解決するためのものであり、検索結果の更なるしぼり込みを効果的に支援できる、文書検索装置、文書検索方法及び該方法を実行させるためのプログラムを格納したコンピュータ読み取り可能な記録媒体を提供することを目的とする。
【0006】
【課題を解決するための手段】
前記問題点を解決するために、本発明は、検索キーを入力する入力部と、入力部により入力された検索キーに基づいて電子化文書の検索を実行し検索結果である文書集合を出力する文書検索部と、文書検索部により出力された文書集合から検索キーと共起する共起語句P、及び文書集合内での共起語句Pの共起頻度Fを求め、求められた共起頻度Fに基づいて、共起語句Pを新たな検索キーとして妥当か否かを判断し、妥当と判断された共起語句Pを新たな検索キーとして出力する検索キー出力部とを有する文書検索装置であって、検索キー出力部は、新たな検索キーとして出力済みの共起語句Qと妥当性判断前の共起語句Pとの文書集合内での共起頻度Cと、共起語句Pの共起頻度Fとから求められる相対共起頻度C/Fが所定値より小さい場合に、共起語句Pを新たな検索キーとして妥当と判断する。よって、検索結果の更なる絞り込みを効果的に支援できる。
【0007】
また、別の発明としての文書検索方法は、文書検索部が入力部により入力された検索キーに基づいて電子化文書の検索を実行するステップと、検索キー出力部が検索結果である文書集合から検索キーと共起する共起語句P、及び文書集合内での共起語句Pの共起頻度Fを求め、求められた共起頻度Fに基づいて、共起語句Pを新たな検索キーとして新たな検索キーとして出力済みの共起語句Qと共起語句Pとの文書集合内での共起頻度Cと、共起語句Pの共起頻度Fとから求められる相対共起頻度C/Fが所定値より小さい場合に、共起語句Pを新たな検索キーとして妥当と判断するステップとを実行する。よって、検索結果の更なる絞り込みを効果的に支援できる。
【0009】
更に、別の発明として、コンピュータに、入力された検索キーに基づいて電子化文書の検索を実行し検索結果である文書集合から検索キーと共起する共起語句P、及び文書集合内での共起語句Pの共起頻度Fを求める手順と、求められた共起頻度Fに基づいて、共起語句Pを新たな検索キーとして新たな検索キーとして出力済みの共起語句Qと共起語句Pとの文書集合内での共起頻度Cと、共起語句Pの共起頻度Fとから求められる相対共起頻度C/Fが所定値より小さい場合に、共起語句Pを新たな検索キーとして妥当と判断する手順とを実行させるためのプログラムを格納したコンピュータ読み取り可能な記録媒体に特徴がある。よって、既存のシステムを変えることなく、かつ文書検索装置を汎用的に使用することができる。
【0010】
【発明の実施の形態】
本発明の文書検索装置は、検索キーを入力する入力部と、入力部により入力された検索キーに基づいて電子化文書の検索を実行し検索結果である文書集合を出力する文書検索部と、文書検索部により出力された文書集合から検索キーと共起する共起語句P、及び文書集合内での共起語句Pの共起頻度Fを求め、求められた共起頻度Fに基づいて、共起語句Pを新たな検索キーとして妥当か否かを判断し、妥当と判断された共起語句Pを新たな検索キーとして出力する検索キー出力部とを有する文書検索装置であって、検索キー出力部は、新たな検索キーとして出力済みの共起語句Qと妥当性判断前の共起語句Pとの文書集合内での共起頻度Cと、共起語句Pの共起頻度Fとから求められる相対共起頻度C/Fが所定値より小さい場合に、共起語句Pを新たな検索キーとして妥当と判断する。
【0011】
【実施例】
以下、本発明の実施例を図面に基づいて説明する。
図1は本発明の一実施例に係る文書検索装置の構成を示すブロックである。同図に示す本実施例の文書検索装置は、検索キー、文書や処理指示などをキー入力するキーボード等からなる入力部11と、検索キーを入力として文書集合を出力する文書検索部12と、検索キーと文書検索部12の出力を入力とし新たな検索キーを出力する検索キー出力部13と、検索の過程や結果等表示するための表示部14とを含んで構成されている。なお、検索の対象となる文書集合は文書検索部12内に記憶されている。
【0012】
次に、本発明の一実施例における検索キーの候補提示に至る動作フローを示す図2に従って当該動作を説明する。
【0013】
先ず、検索キーKが図1の入力部11によって入力される(ステップS101)。検索終了か否かを判断した上で終了でないならば(ステップS102)、検索キーKを入力とした文書検索部12は関連文書の検索、例えば検索対象の文書集合に対してその集合に含まれる語句を索引として図3に示す転置表Tを利用することで高速に検索を行って出力し、一方検索終了ならば動作を終了する(ステップS102)。検索続行ならば、検索キー出力部13は検索キーKと文書検索部12の出力である検索結果、例えば文書集合Dを入力とし、以下を行う。文書集合D内で検索キーKと共起する共起語句Pを調べ、その頻度Fと共に転置表Tに記録する(ステップS103)。ここで、文書集合D内で共起語句Pが共起するか否かは、例えば所定数M(Mは正の整数)を定めておき、共起語句Pが検索キーKとM語の内の距離に位置するかどうかで判断する。ここで、表示済みの語句を記録するためにバッファBを空に初期化する(ステップS104)。
【0014】
次に、転置表Tから語句を高頻度順に一つ取り出して当該語句を共起語句Pとする(ステップS105)。共起語句PとバッファB中の各語句Qとの文書集合D内での共起頻度Cを求め、相対共起頻度C/Fが所定数Mより大きいQが存在するか否かを判断する(ステップS106)。存在すれば提示しないでステップS109に進む。存在しない場合は当該共起語句Pを図1の表示部14に表示して更にバッファBに追加格納する(ステップS107)。
【0015】
そして、語句の提示数が予め定めた最大提示数N(Nは正の整数)に達したら処理を終了する(ステップS108)。達していないならば、共起語句Pが転置表T中の最後の語句かどうかを判定して(ステップS109)、最後の語句であれば、処理を終了し、最後の語句でなければステップS105に戻って転置表Tの先の語句の次の語句について同様な処理を繰り返す。
【0016】
以上の動作を具体例として、「機械翻訳」という文書に関する情報を得る目的で行う文書検索をもって以下に説明する。
【0017】
先ず、検索キーKとして「機械翻訳」を入力する(ステップS101)。すると、図1の文書検索部12は関連文書の検索を行い、関連する文書集合Dを得る(ステップS102)。この例では文書集合Dの要素数が多く、検索者は検索を更に続行するものとする。文書集合D内で検索キーKと共起する語句を調べ、その頻度と共に図3に示すような転置表Tに記録する(ステップS103)。そして、表示済みのバッファBを空に初期化する(ステップS104)。転置表Tから語句を高頻度順に一つ取り出して共起語句Pとする(ステップS105)。この例では「構文解析」であり、その頻度Fは100である。次に、バッファBは空なので成立せず、第1の表示部14に図4のように共起語句P、つまり「構文解析」を表示しバッファBに追加格納する(ステップS106)。そこで語句の提示数は1なので予め定めた最大提示数N(この例では10とする)に達していないので続行する。共起語句Pが転置表T中の最後の語句でないので続行する。この例では共起語句Pは「パージング」であり頻度Fは80である。なお、共起語句P「パージング」とバッファB中の語句Q「構文解析」との文書集合D内での共起頻度Cが30だったとする。そして最大提示数Nを0.2とするとC/Fは30/100=0.3となり、最大提示数Nより大きいので共起語句P「パージング」は第1の表示部14に提示しない(ステップS108)。そして、共起語句Pは「形態素解析」となるが、バッファB中の語句Q「構文解析」との文書集合D内での共起頻度Cが10であるとすると、C/Fは10/50=0.2となり、最大提示数N(=0.2)に等しいので共起語句P「形態素解析」を図5のように表示する(ステップS109)。このように処理が続行し図1の表示部14には次のような語句が表示され、ステップS108,S109の条件を満たされて処理を終了したとする。
【0018】
そして、検索者はこの表示部の画面内容を見て「機械翻訳の商品化」に関する検索を行うべき、図6に示すように追加すべき検索キーとして「販売」を選び、再び検索を開始する。つまり新たな検索キーとして「機械翻訳 販売」を入力することとなる。
【0019】
次に、図7は本発明のシステム構成を示すブロック図である。つまり、同図は上記実施例における文書検索方法によるソフトウェアを実行するマイクロプロセッサ等から構築するハードウェアを示すものである。同図において、文書検索システムはインターフェース(以下I/Fと略す)71、CPU72、ROM73、RAM74、表示装置75、ハードディスク76、キーボード77及びCD−ROMドライブ78を含んで構成されている。また、汎用の処理装置を用意し、CD−ROM79などの読取可能な記録媒体には、本発明の文書検索方法を実行させるためのプログラムが記録されている。更に、I/F71を介して外部装置から制御信号が入力され、キーボード77によって操作者による指令又は自動的に本発明のプログラムが起動される。そして、CPU72は当該プログラムに従って上述の文書検索方法に伴う文書検索等の処理を施し、その処理結果をRAM74やハードディスク76等の記憶装置に格納し、必要により表示装置75などに出力する。以上のように、本発明の文書検索方法をマイクロプロセッサ等から構築されたコンピュータに実行させるためのプログラムを格納したコンピュータ読み取り可能な記録媒体を用いることにより、既存のシステムを変えることなく、かつ文書検索装置を汎用的に使用することができる。
【0020】
なお、本発明は上記実施例に限定されるものではなく、特許請求の範囲内に記載であれば多種の変形や置換可能であることは言うまでもない。
【0021】
【発明の効果】
以上説明したように、本発明は、検索キーを入力する入力部と、入力部により入力された検索キーに基づいて電子化文書の検索を実行し検索結果である文書集合を出力する文書検索部と、文書検索部により出力された文書集合から検索キーと共起する共起語句P、及び文書集合内での共起語句Pの共起頻度Fを求め、求められた共起頻度Fに基づいて、共起語句Pを新たな検索キーとして妥当か否かを判断し、妥当と判断された共起語句Pを新たな検索キーとして出力する検索キー出力部とを有する文書検索装置であって、検索キー出力部は、新たな検索キーとして出力済みの共起語句Qと妥当性判断前の共起語句Pとの文書集合内での共起頻度Cと、共起語句Pの共起頻度Fとから求められる相対共起頻度C/Fが所定値より小さい場合に、共起語句Pを新たな検索キーとして妥当と判断する。よって、検索結果の更なる絞り込みを効果的に支援できる。つまり、絞り込みのための検索キーを案出する必要がなく、検索目的がはっきり定まっていない場合やその文書の分野に精通していなくても提示される検索キーの場合を参考にして検索を続けることができる。
【0022】
また、別の発明としての文書検索方法は、文書検索部が入力部により入力された検索キーに基づいて電子化文書の検索を実行するステップと、検索キー出力部が検索結果である文書集合から検索キーと共起する共起語句P、及び文書集合内での共起語句Pの共起頻度Fを求め、求められた共起頻度Fに基づいて、共起語句Pを新たな検索キーとして新たな検索キーとして出力済みの共起語句Qと共起語句Pとの文書集合内での共起頻度Cと、共起語句Pの共起頻度Fとから求められる相対共起頻度C/Fが所定値より小さい場合に、共起語句Pを新たな検索キーとして妥当と判断するステップとを実行する。よって、検索結果の更なる絞り込みを効果的に支援できる。
【0024】
更に、別の発明として、コンピュータに、入力された検索キーに基づいて電子化文書の検索を実行し検索結果である文書集合から検索キーと共起する共起語句P、及び文書集合内での共起語句Pの共起頻度Fを求める手順と、求められた共起頻度Fに基づいて、共起語句Pを新たな検索キーとして新たな検索キーとして出力済みの共起語句Qと共起語句Pとの文書集合内での共起頻度Cと、共起語句Pの共起頻度Fとから求められる相対共起頻度C/Fが所定値より小さい場合に、共起語句Pを新たな検索キーとして妥当と判断する手順とを実行させるためのプログラムを格納したコンピュータ読み取り可能な記録媒体に特徴がある。よって、既存のシステムを変えることなく、かつ文書検索装置を汎用的に使用することができる。
【図面の簡単な説明】
【図1】本発明の一実施例に係る文書検索装置の構成を示すブロック図である。
【図2】本発明の一実施例に係る文書検索動作を示すフローチャートである。
【図3】本実施例における転置表を示す図である。
【図4】本実施例における表示部の画面内容とバッファ内の格納内容を示す図である。
【図5】本実施例における表示部の画面内容とバッファ内の格納内容を示す図である。
【図6】本実施例における表示部の画面内容を示す図である。
【図7】本発明のシステム構成を示すブロック図である。
【符号の説明】
11 入力部
12 文書検索部
13 検索キー出力部
14 表示部
Claims (3)
- 検索キーを入力する入力部と、
該入力部により入力された検索キーに基づいて電子化文書の検索を実行し検索結果である文書集合を出力する文書検索部と、
該文書検索部により出力された前記文書集合から前記検索キーと共起する共起語句P、及び前記文書集合内での前記共起語句Pの共起頻度Fを求め、求められた前記共起頻度Fに基づいて、前記共起語句Pを新たな検索キーとして妥当か否かを判断し、妥当と判断された前記共起語句Pを新たな検索キーとして出力する検索キー出力部とを有する文書検索装置であって、
前記検索キー出力部は、新たな検索キーとして出力済みの共起語句Qと妥当性判断前の前記共起語句Pとの前記文書集合内での共起頻度Cと、前記共起語句Pの前記共起頻度Fとから求められる相対共起頻度C/Fが所定値より小さい場合に、前記共起語句Pを新たな検索キーとして妥当と判断することを特徴とする文書検索装置。 - 文書検索部が、入力部により入力された検索キーに基づいて電子化文書の検索を実行するステップと、
検索キー出力部が、検索結果である文書集合から前記検索キーと共起する共起語句P、及び前記文書集合内での前記共起語句Pの共起頻度Fを求め、求められた前記共起頻度Fに基づいて、前記共起語句Pを新たな検索キーとして新たな検索キーとして出力済みの共起語句Qと前記共起語句Pとの前記文書集合内での共起頻度Cと、前記共起語句Pの前記共起頻度Fとから求められる相対共起頻度C/Fが所定値より小さい場合に、前記共起語句Pを新たな検索キーとして妥当と判断するステップと
を実行することを特徴とする文書検索方法。 - コンピュータに、
入力された検索キーに基づいて電子化文書の検索を実行し検索結果である文書集合から前記検索キーと共起する共起語句P、及び前記文書集合内での前記共起語句Pの共起頻度Fを求める手順と、
求められた前記共起頻度Fに基づいて、前記共起語句Pを新たな検索キーとして新たな検索キーとして出力済みの共起語句Qと前記共起語句Pとの前記文書集合内での共起頻度Cと、前記共起語句Pの前記共起頻度Fとから求められる相対共起頻度C/Fが所定値より小さい場合に、前記共起語句Pを新たな検索キーとして妥当と判断する手順とを実行させるためのプログラムを格納したコンピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP31198698A JP3816680B2 (ja) | 1998-11-02 | 1998-11-02 | 文書検索装置、文書検索方法及び該方法を実行させるためのプログラムを格納したコンピュータ読み取り可能な記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP31198698A JP3816680B2 (ja) | 1998-11-02 | 1998-11-02 | 文書検索装置、文書検索方法及び該方法を実行させるためのプログラムを格納したコンピュータ読み取り可能な記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2000137730A JP2000137730A (ja) | 2000-05-16 |
JP3816680B2 true JP3816680B2 (ja) | 2006-08-30 |
Family
ID=18023835
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP31198698A Expired - Fee Related JP3816680B2 (ja) | 1998-11-02 | 1998-11-02 | 文書検索装置、文書検索方法及び該方法を実行させるためのプログラムを格納したコンピュータ読み取り可能な記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3816680B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7917480B2 (en) | 2004-08-13 | 2011-03-29 | Google Inc. | Document compression system and method for use with tokenspace repository |
US8407239B2 (en) * | 2004-08-13 | 2013-03-26 | Google Inc. | Multi-stage query processing system and method for use with tokenspace repository |
JP6588405B2 (ja) * | 2016-08-10 | 2019-10-09 | 日本電信電話株式会社 | 提示装置および提示方法 |
-
1998
- 1998-11-02 JP JP31198698A patent/JP3816680B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2000137730A (ja) | 2000-05-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3666004B2 (ja) | 多言語対応文書検索システム | |
US6263329B1 (en) | Method and apparatus for cross-linguistic database retrieval | |
JPH0418673A (ja) | テキスト情報抽出方法および装置 | |
JP2001195404A (ja) | 句翻訳方法およびシステム | |
JP2005251115A (ja) | 連想検索システムおよび連想検索方法 | |
US6505198B2 (en) | Sort system for text retrieval | |
JP3918374B2 (ja) | 文書検索装置および方法 | |
Merkel et al. | Knowledge-lite extraction of multi-word units with language filters and entropy thresholds. | |
JP4092933B2 (ja) | 文書情報検索装置及び文書情報検索プログラム | |
JP2000200281A (ja) | 情報検索装置および情報検索方法ならびに情報検索プログラムを記録した記録媒体 | |
JP2004246440A (ja) | 形態素解析装置、自然言語処理装置、形態素解析方法及びプログラム | |
JP3816680B2 (ja) | 文書検索装置、文書検索方法及び該方法を実行させるためのプログラムを格納したコンピュータ読み取り可能な記録媒体 | |
JPH10269233A (ja) | 文書データベースの検索結果表示方法及び装置 | |
JP3006526B2 (ja) | 類似文書検索方法および類似文書検索装置 | |
JP3744136B2 (ja) | 訳語選択装置と記憶媒体 | |
JP2009059290A (ja) | 外国語文書作成支援装置、外国語文書作成支援方法および外国語文書作成支援プログラム | |
JP4135467B2 (ja) | 情報処理装置、システムおよびプログラム | |
JPH09198400A (ja) | 情報検索装置 | |
JPH10340271A (ja) | 文書抄録作成装置及び文書抄録作成プログラムを記録した記憶媒体 | |
JP4368550B2 (ja) | 文書検索装置、文書検索方法およびその方法をコンピュータに実行させるプログラム | |
JPH09305626A (ja) | 検索文書作成装置、検索文書記憶メディア、文書検索装置及び文書検索方法 | |
JP2003178057A (ja) | フレーズ生成装置、フレーズ生成方法、及びプログラム | |
JP2002183134A (ja) | 翻訳装置 | |
JP2005208852A (ja) | 要約登録装置、要約登録方法、プログラム | |
JPH10222540A (ja) | 文書検索方法、装置及び記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20051031 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20051122 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060120 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060322 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060327 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20060606 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20060608 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090616 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100616 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110616 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110616 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120616 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130616 Year of fee payment: 7 |
|
LAPS | Cancellation because of no payment of annual fees |