JP2000067081A - 文書検索方法、そのプログラムを記録した記録媒体、及び文書検索装置 - Google Patents

文書検索方法、そのプログラムを記録した記録媒体、及び文書検索装置

Info

Publication number
JP2000067081A
JP2000067081A JP10251818A JP25181898A JP2000067081A JP 2000067081 A JP2000067081 A JP 2000067081A JP 10251818 A JP10251818 A JP 10251818A JP 25181898 A JP25181898 A JP 25181898A JP 2000067081 A JP2000067081 A JP 2000067081A
Authority
JP
Japan
Prior art keywords
search
document
predetermined
condition
document set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10251818A
Other languages
English (en)
Inventor
Kai Itou
快 伊藤
Mitsuhiro Sato
光弘 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP10251818A priority Critical patent/JP2000067081A/ja
Priority to US09/379,937 priority patent/US6424963B1/en
Publication of JP2000067081A publication Critical patent/JP2000067081A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 検索条件の妥当性とその検索条件の検索結果
への影響を容易に判別することができ、検索処理の効率
化を図ることができる文書検索装置を提供する。 【解決手段】 本発明の文書検索装置は、記憶部106
に記憶されている検索対象文書集合の文書を入力された
検索語などの検索条件に基づいて検索する文書検索部1
01と、文書検索部101から出力される順位付けられ
た検索結果と記憶部102のサンプル文書集合表から出
現分布を算出する出現分布算出部103と、検索条件、
順位付き検索結果、及び出現分布を検索履歴として保存
する検索履歴保存部104と、記憶部105に記憶され
ている検索履歴をグラフ化処理などする検索履歴処理部
107を備える。サンプル文書集合ごとの出現分布を算
出することができるため、検索条件の妥当性とその検索
条件の検索結果への影響を容易に判別することができ
る。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、検索条件に対する
合致度に応じて検索結果を順位付けし出力する文書検索
方法、そのプログラムを記録した記録媒体、及び文書検
索装置に関し、特に、検索条件と検索結果の関係を容易
に判断することができる文書検索方法、そのプログラム
を記録した記録媒体、及び文書検索装置に関する。
【0002】
【従来の技術】近年、電子メールや電子カタログ、電子
出版物など、電子化された文書情報が大量に流通し始め
たことに伴って、それらの文書情報から所望の文書だけ
を検索する文書検索方法や文書検索装置に対する関心が
高まってきている。
【0003】そのような文書検索方法及び文書検索装置
の手法の一つとして、従来から文字や記号等(以下、単
に「語」ともいう)の出現頻度情報を利用して、検索結
果の順位付けをする文書検索の手法が現在までに数多く
提案されている。このような従来の文書検索方法におい
ては、一部の文書に多く出現している語の評価値を高く
し、他の文書に出現していない語の評価を低くするよう
な指標に基づいて、文書の順位付けを行っている。
【0004】例えば、従来の文書検索方法においては、
語の評価値eを算出するための標準的な指標としては、
以下の数式が用いられている。 <数式1> e=log(N/df) ここで、Nは全文書数、dfは注目している語(検索対
象となっている語、以下、単に「検索語」ともいう)が
出現する文書数を表す。
【0005】上述の場合、例えば、全文書数Nが100
0である文書群のうち、検索対象の語(検索語)Xが出
現する文書数が10の場合には、その検索語Xの評価値
exは、ex=log(1000/10)=2.0とな
り、検索語Yが出現する文書数が100の場合には、そ
の検索語Yの評価値eyは、ey=log(1000/
100)=1.0となる。
【0006】また、文書ごとの評価値Eは、全ての検索
語の集合に対して、ある検索語の評価値eとその検索語
の文書内の頻度(出現頻度)の積の総和で与えられる。
すなわち、ある検索語の文書内での出現頻度をtfとす
ると、その検索語に対する文書の評価値Eは、以下の数
式で求められる。 <数式2> E=Σ{tf×log(N/df)}
【0007】例えば、上述の検索語X及び検索語Yにお
ける、文書A及び文書Bの評価値EA及びEBの算出
は、以下のようにして行うことができる。先ず、文書A
及び文書Bごとの検索語X及び検索語Yの出現頻度tf
を求める。ここでは、文書Aでの検索語X及び検索語Y
の出現頻度tfAX及びtfAYがそれぞれtfAX=10及
びtfAY=5であり、文書Bでの検索語X及び検索語Y
の出現頻度tfBX及びtfBYがそれぞれtfBX=5及び
tfBY=10であるとする。この場合には、文書Aの評
価値EA と文書Bの評価値EB は、それぞれ数式2によ
り、以下のように算出することができる。 <数式3> EA =10×2.0+5×1.0=25.0 EB =5×2.0+10×1.0=20.0
【0008】以上のように、従来の文書検索方法におい
ては、文書の評価値Eを算出する場合に着目する語(検
索語)としては、検索条件に現れる語を利用する場合が
多い。すなわち、従来の文書検索方法によれば、上述の
ようにして得られた文書ごとの評価値Eに基づいて、文
書に対する検索結果の順位付けを行うことができる。
【0009】
【発明が解決しようとする課題】しかしながら、上述の
従来の文書検索方法においては、検索条件中の検索語の
出現頻度の情報を総合して、文書の検索結果の順位付け
を行なうため、文書の検索結果に対する各検索語ごとの
固有の影響が判別しにくいという問題があった。
【0010】特に、検索意図に沿った検索結果が得られ
なかった場合には、検索条件(検索語など)を修正して
再検索することになるが、その修正の影響が検索結果の
順位付けにどのように反映しているのかが解り難いとい
う問題があった。
【0011】本発明はこのような問題点に鑑みてなされ
たもので、その目的は、検索語などの検索条件の妥当性
とその検索条件の検索結果への影響を容易に判別するこ
とができ、検索処理の効率化を図ることができる文書検
索方法、そのプログラムを記録した記録媒体、及び文書
検索装置を提供することである。
【0012】
【課題を解決するための手段】上記課題を解決するた
め、本発明の第1の態様の文書検索方法は、1又は複数
の文書からなる文書集合を、入力された検索条件に基づ
いて検索する文書検索方法であって、文書集合に含まれ
る各文書を入力された検索条件に基づいて検索し、検索
条件に適合する頻度に応じて各文書ごとに順位付けをし
て検索結果を算出し、所定の文書集合と、該所定の文書
集合に含まれる所定の文書を指定し、検索結果に基づい
て、指定された所定の文書ごとに検索条件の出現頻度を
検出し、所定の文書ごとの出現頻度に基づいて、所定の
文書が含まれる文書集合に対する検索条件の出現分布を
算出することを特徴とする。また、所定の文書集合と所
定の文書を指定するステップは、算出された検索結果に
基づいて、所定の文書集合と所定の文書を指定するよう
にしてもよい。
【0013】また、上記課題を解決するため、本発明の
第2の態様の文書検索方法は、文書集合に含まれる各文
書を入力された検索条件に基づいて検索し、検索条件に
適合する頻度に応じて各文書ごとに順位付けをして検索
結果を算出し、入力された検索条件を細分化し、細分化
した単位の検索条件を任意に組み合わせて部分検索条件
を生成し、部分検索条件と検索結果に基づいて、所定の
文書集合と、該所定の文書集合に含まれる所定の文書を
指定し、検索結果に基づいて、指定された所定の文書ご
とに検索条件の出現頻度を検出し、所定の文書ごとの出
現頻度に基づいて、所定の文書が含まれる文書集合に対
する検索条件の出現分布を算出する、ことを特徴とす
る。
【0014】また、上記課題を解決するため、本発明の
第3の態様の文書検索方法は、文書集合に含まれる各文
書を入力された検索条件に基づいて検索し、検索条件に
適合する頻度に応じて各文書ごとに順位付けをして検索
結果を算出し、文書を所定の範囲で特定する属性条件を
準備し、属性条件と検索結果に基づいて、所定の文書集
合と、該所定の文書集合に含まれる所定の文書を指定
し、検索結果に基づいて、指定された所定の文書ごとに
検索条件の出現頻度を検出し、所定の文書ごとの出現頻
度に基づいて、所定の文書が含まれる文書集合に対する
検索条件の出現分布を算出する、ことを特徴とする。
【0015】また、本発明の第1の態様の文書検索方法
において、所定の文書集合と所定の文書を指定するステ
ップは、算出された検索結果に基づいて、所定の文書集
合と所定の文書を指定するか、入力された検索条件を細
分化し、細分化した単位の検索条件を任意に組み合わせ
て部分検索条件を生成し、部分検索条件と検索結果に基
づいて、所定の文書集合と所定の文書を指定するか、文
書を所定の範囲で特定する属性条件を準備し、属性条件
と検索結果に基づいて、所定の文書集合と所定の文書を
指定するか、の何れかを選択するようにすることができ
る。
【0016】また、上述の文書検索方法において、さら
に、複数の検索条件を準備し、複数の検索条件から1又
は複数の所定の検索条件を取得し、検索するステップか
ら記憶するステップまでの各ステップを、1又は複数の
所定の検索条件の全てについて実行するようにしてもよ
い。
【0017】また、上述の文書検索方法において、さら
に、検索条件、検索結果、及び出現分布を記憶し、記憶
された出現分布に基づいて、文書集合ごとの出現分布や
検索条件ごとの出現分布を生成することもできる。
【0018】また、上述で示したそれぞれの文書検索方
法をコンピュータに実行させるためのプログラムとし、
そのプログラムをコンピュータ読み取り可能な記録媒体
に記録することもできる。
【0019】また、上記課題を解決するため、本発明の
第1の態様の文書検索装置は、1又は複数の文書からな
る文書集合を検索条件に基づいて検索する文書検索装置
であって、文書集合に含まれる各文書を検索条件に基づ
いて検索し、検索条件に適合する頻度に応じて各文書ご
とに順位付けをして検索結果を算出する文書検索手段
と、所定の文書集合と所定の文書を関連付けたサンプル
文書集合表を記憶するサンプル文書集合表記憶手段と、
文書検索手段で算出される検索結果に基づいて、サンプ
ル文書集合表記憶手段に記憶されているサンプル文書集
合表の所定の文書ごとに検索条件の出現頻度を検出し、
所定の文書ごとの出現頻度に基づいて、所定の文書に関
連する所定の文書集合に対する検索条件の出現分布を算
出する出現分布算出手段と、を備えることを特徴とす
る。
【0020】また、上述の本発明の第1の態様の文書検
索装置において、さらに、文書検索手段で算出された検
索結果に基づいて、所定の文書集合と所定の文書を関連
付けて新たなサンプル文書集合表を生成し、サンプル文
書集合表記憶手段に記憶されているサンプル文書集合表
を新たなサンプル文書集合表に更新するサンプル文書集
合表生成手段を有する構成にすることができる。
【0021】また、上記課題を解決するため、本発明の
第2の態様の文書検索装置は、文書集合に含まれる各文
書を検索条件に基づいて検索し、検索条件に適合する頻
度に応じて各文書ごとに順位付けをして検索結果を算出
する文書検索手段と、所定の文書集合と所定の文書を関
連付けてサンプル文書集合表を生成するサンプル文書集
合表生成手段と、文書検索手段で算出された検索結果に
基づいて、サンプル文書集合表生成手段で生成されたサ
ンプル文書集合表の所定の文書ごとに検索条件の出現頻
度を検出し、所定の文書ごとの出現頻度に基づいて、所
定の文書に関連する所定の文書集合に対する検索条件の
出現分布を算出する出現分布算出手段と、を備えること
を特徴とする。ここで、サンプル文書集合表生成手段
は、文書検索手段で算出された検索結果に基づいて、所
定の文書集合と所定の文書を関連付けてサンプル文書集
合表を生成するようにしてもよい。
【0022】また、上記課題を解決するため、本発明の
第3の態様の文書検索装置は、文書集合に含まれる各文
書を検索条件に基づいて検索し、検索条件に適合する頻
度に応じて各文書ごとに順位付けをして検索結果を算出
する文書検索手段と、文書を所定の範囲で特定する属性
条件を記憶する記憶手段と、記憶手段に記憶されている
属性条件と文書検索手段で算出された検索結果に基づい
て、所定の文書集合と所定の文書を関連付けて、サンプ
ル文書集合表を生成するサンプル文書集合表生成手段
と、文書検索手段で算出された検索結果に基づいて、サ
ンプル文書集合表生成手段で生成されたサンプル文書集
合表の所定の文書ごとの出現頻度を検出し、所定の文書
ごとの出現頻度に基づいて、所定の文書に関連する所定
の文書集合に対する検索条件の出現分布を算出する出現
分布算出手段と、を備えることを特徴とする。
【0023】また、上述の本発明の第1乃至第3の態様
の文書検索装置において、さらに、複数の検索条件を記
憶する検索条件記憶手段と、検索条件記憶手段に記憶さ
れている複数の検索条件から1又は複数の所定の検索条
件を取得する検索条件取得手段と、を有し、検索条件取
得手段は、取得した所定の検索条件を所定のタイミング
で文書検索手段に入力するようにしてもよい。
【0024】また、上記課題を解決するため、本発明の
第4の態様の文書検索装置は、文書集合に含まれる各文
書を検索条件に基づいて検索し、検索条件に適合する頻
度に応じて各文書ごとに順位付けをして検索結果を算出
する文書検索手段と、検索条件を所定の単位の検索条件
に細分化し、細分化した所定の単位の検索条件を任意に
組み合わせて部分検索条件を生成する部分検索条件生成
手段と、部分検索条件生成手段で生成された部分検索条
件と文書検索手段で算出された検索結果に基づいて、所
定の文書集合と所定の文書を関連付けて、サンプル文書
集合表を生成するサンプル文書集合表生成手段と、文書
検索手段で算出された検索結果に基づいて、サンプル文
書集合表生成手段で生成されたサンプル文書集合表の所
定の文書ごとの出現頻度を検出し、所定の文書ごとの出
現頻度に基づいて、所定の文書に関連する所定の文書集
合に対する検索条件の出現分布を算出する出現分布算出
手段と、を備えることを特徴とする。
【0025】また、上述の本発明の第4の態様の文書検
索装置において、さらに、複数の検索条件を記憶する検
索条件記憶手段と、検索条件記憶手段に記憶されている
複数の検索条件から1又は複数の所定の検索条件を取得
する検索条件取得手段と、を有し、検索条件取得手段
は、取得した所定の検索条件を所定のタイミングで文書
検索手段及び部分検索条件生成手段に入力するようにし
てもよい。
【0026】また、上述のそれぞれの文書検索装置にお
いて、さらに、検索条件、検索結果、及び出現分布を検
索履歴として記憶する検索履歴記憶手段と、検索履歴記
憶手段に記憶された出現分布に基づいて、サンプル文書
集合表の文書集合ごとや検索条件ごとの出現分布を生成
する検索履歴処理手段と、を備える構成にすることもで
きる。
【0027】上記態様の本発明においては、検索条件に
対して得られた検索結果から、検索意図を代表するサン
プル文書集合の出現順位の分布を調べることができるの
で、異なる検索条件を用いて検索を行なった場合に、サ
ンプル文書集合の出現分布を比較することにより、サン
プル文書集合間の検索条件に対する合致度と、各検索条
件ごとの検索結果に対する影響を容易に判別できる。
【0028】また、順位付けられた検索結果に基づい
て、サンプル文書集合を作成、修正、削除できるので、
異なる検索条件を用いて検索を行なった場合に、複数の
サンプル文書集合の出現分布を比較することにより、検
索条件ごとの検索結果に対する影響を容易に判別でき
る。
【0029】また、検索条件を複数の検索条件に細分化
し、その細分化した検索条件ごとに、複数のサンプル文
書集合を生成するため、検索条件ごとの検索結果に与え
る影響を容易に予測できる。
【0030】また、検索結果中の文書の文書内容以外の
属性、例えば、特許出願明細書であれば国際特許分類や
出願公開目などに基づいて複数のサンプル文書集合を生
成するため、検索結果を複数の視点から容易に検討する
ことができる。
【0031】また、複数の検索条件を準備し、各検索条
件ごとにサンプル文書集合の出現順位分布を算出するた
め、同一の検索対象を繰り返し検索する場合の検索効率
が向上し、また、複数の検索条件を出現順位分布と対応
させて比較することができる。
【0032】また、検索条件、検索結果、出現分布など
の検索履歴からサンプル文書集合表の文書集合ごとや検
索条件ごとの出現分布を生成するため、各検索条件ごと
の検索結果に対する影響をさらに容易に判別し、予測す
ることができる。
【0033】
【発明の実施の形態】以下本発明の文書検索方法、その
プログラムを記録した記録媒体、及び文書検索装置につ
いて、図面を参照しつつ詳細に説明する。
【0034】図1は、本発明の実施の形態としての文書
検索装置の全体構成を示す概略図である。この文書検索
装置は、検索対象の文書を検索対象文書集合として記憶
する記憶部106と、記憶部106に記憶されている検
索対象文書集合の文書を入力された検索語などの検索条
件に基づいて検索する文書検索部101と、各文書を所
定のグループ(集合群)に選別してテーブル化したサン
プル文書集合表を記憶する記憶部102と、文書検索部
101から出力される順位付けられた検索結果と記憶部
102のサンプル文書集合表から出現分布を算出する出
現分布算出部103と、検索条件、順位付き検索結果、
及び出現分布を検索履歴として保存する検索履歴保存部
104と、検索履歴保存部104からの検索履歴を記憶
する記憶部105と、記憶部105に記憶されている検
索履歴をグラフ化処理などする検索履歴処理部107を
備えている。
【0035】ここで、記憶部106に記憶されている文
書集合には、予め各文書ごとに語の出現頻度を併記して
おくとよい。この語の出現頻度は、文書検索部101の
検索結果の順位付けに利用することができる。また、記
憶部102、105、106、及び検索履歴処理部10
7は、必ずしも文書検索装置内に備える必要はなく、例
えば、コンピュータネットワークなどを介して外部に個
別に設けることもできる。
【0036】次に、本発明の文書検索装置について、図
1〜図7を参照しつつその動作を説明する。まず、文書
検索部101は、入力された検索条件に基づいて記憶部
106に記憶されている検索対象文書集合の各文書を検
索し、その文書の検索結果を順位付けて出力する。例え
ば、文書検索部101は、検索対象文書集合の各文書か
ら検索条件で指定された検索語に合致する文書を検索
し、さらに、検索された文書ごとに検索条件との合致度
を基に順位付けをした結果を検索結果として出力する。
【0037】ここで、検索条件との合致度の算出方法と
しては、例えば、検索された各文書について、検索条件
を構成する検索語の特徴量と出現頻度の積の総和を合致
度とする、などの方法が考えられる。ここでの検索語の
特徴量とは検索対象全体に対する出現頻度の逆数とす
る。すなわち、検索語の特徴量e及び各文書ごとの合致
度Eは、検索対象となる文書数をN、検索語が出現する
文書数をdf、その検索語の各文書内での出現頻度をt
fとした場合、以下の数式で表すことができる。 <数式4> e=N/df E=Σ(tf×e)=Σ{tf×(N/df)}
【0038】ただし、検索条件と検索結果の合致度の算
出方法については、検索条件に応じて検索結果を順位付
けできればどのような方法であってもよく、上述した数
式1や数式2による算出方法やベクトル空間法などのそ
の他の算出方法であってもよい。
【0039】図2は、文書検索部101から出力される
順位付けされた検索結果の一例を示す図である。図2に
おいて、文書検索部101から出力される検索結果とし
ては、文書検索部101に入力された検索条件としての
検索条件式と、検索された各文書ごとの順位と、順位付
けに用いた合致度(図2においては、最大の合致度が1
00になるように正規化している)と、文書を特定する
ための文書番号(文書ID)とを示している。ここで、
検索条件式は、「A+B+C+D」で表されており、
「A」、「B」、「C」、及び「D」は各検索語を、
「+」記号は論理和結合(or条件)を表す。次に、出
現分布算出部103は、文書検索部101から出力され
た順位付けされた検索結果と記憶部102に記憶されて
いるサンプル集合表を参照して、各サンプル文書集合ご
とにその出現分布を算出する。
【0040】図3は、記憶部102に記憶されているサ
ンプル文書集合表の一例を示す図である。図3におい
て、サンプル文書集合表には、文書を特定するための文
書番号(文書ID)と、その文書のサンプル文書集合を
特走するための集合番号とが関連付けて記述されてい
る。また、図3においては、サンプル文書集合は2つで
あり、それぞれのサンプル文書集合には「1」及び
「2」という集合番号が付与されている。
【0041】なお、本実施の形態においては、文書集合
ごとの検索条件の出現分布を、最小出現順位、最大出現
順位、及び平均出現順位の3つの値のリストとして定義
することとする。ここで、文書集合ごとの検索条件の出
現分布は、サンプル文書集合ごとに比較ができるのであ
れば、どのような定義方法であってもよい。
【0042】図4は、出現分布算出部103における文
書集合ごとの検索条件の出現分布の算出方法を示すフロ
ーチャートである。以下、文書集合ごとの検索条件の出
現分布の算出方法について説明する。まず、出現分布算
出部103は、記憶部102に記憶されているサンプル
文書集合表(図3)を参照し、検索条件の出現分布を算
出していないサンプル文書集合があるかどうかを調べる
(ステップ401)。検索条件の出現分布を算出してい
ないサンプル文書集合があった場合には、そのサンプル
文書集合を選択する。したがって、最初の処理として
は、図3のサンプル文書集合表のうちサンプル文書集合
1(集合番号1)に属する各文書に関しての出現分布に
ついて調べることになる。
【0043】次に、出現分布算出部102は、サンプル
文書集合1の全ての文書IDについて、検索結果中での
出現順位を取得する(ステップ402及びステップ40
3)。すなわち、最初の処理においては、サンプル文書
集合1(図3の集合番号1)の最初のサンプル文書(文
書ID1001)について、図2に示した検索結果から
その出現順位を取得する(ステップ403)。図2にお
いて、文書ID1001のサンプル文書の順位は、第1
位となっている。同様にしてサンプル文書集合1に含ま
れる他の3つのサンプル文書(文書ID1002〜10
04)についても、図2の検索結果からそれぞれの出現
順位を取得する。出現分布算出部102は、4つのサン
プル文書(文書ID1001〜1004)の出現順位を
取得し終えたら(ステップ402)、それらの最小出現
順位、最大出現順位、及び平均出現順位を算出する(ス
テップ404)。ここで、文書ID1004のサンプル
文書には、検索条件式で示された検索語「A、B、C、
D」が出現していないので、出現分布算出部102は、
この文書ID1004のサンプル文書を検索対象外とし
て、他の3つのサンプル文書(文書ID1001〜10
03)から検索条件の出現分布を算出する。上述のサン
プル文書集合1の場合、(最小出現順位、最大出現順
位、平均出現順位)=(1、6、3.3)となる。
【0044】次に、サンプル文書集合2の検索条件の出
現分布についても同様に算出する(ステップ401〜4
04)。このサンプル文書集合2の場合、(最小出現順
位、最大出現順位、平均出現順位)=(5、25、1
5.0)となる。
【0045】なお、検索条件の出現分布としてサンプル
文書集合を比較できるような他の定義、例えば、サンプ
ル文書の再現率Rを考慮して、平均出現順位Aと再現率
Rの逆数の積(A/R)などを利用してもよい。
【0046】以上のようにして出現分布算出部103で
算出された検索条件の出現分布と、文書検索部101か
ら出力された順位付けされた検索結果と、文書検索部1
01に入力された検索条件は、検索履歴保存部104に
それぞれ送出される。検索履歴保存部104は、記憶部
105にこれらのデータを検索履歴として保存(記憶)
する。
【0047】次に、検索履歴処理部107は、記憶部1
05に記憶されている検索履歴に基づいて、各サンプル
文書集合ごとの検索条件の出現分布をグラフ化するなど
の処理を行う。この検索履歴処理部107での処理結果
は、ディスプレイやプリンタなどの表示装置や出力装置
(何れも図示せず)に表示、出力することができる。
【0048】図5は、記憶部105に保存されている上
述の検索履歴を基に、検索履歴処理部107で各サンプ
ル文書集合ごとの検索条件の出現分布をグラフ化した図
を示している。図5を参照すると、サンプル文書集合1
(集合番号1)の方がサンプル文書集合(集合番号2)
よりも検索条件式「A+B+C+D」に対して適合して
いることがわかる。
【0049】次に、検索条件を、検索条件式「A+B+
C+E」に変更した場合について説明する。この検索条
件(検索条件式「A+B+C+E」)は、上述で説明し
たのと同様に処理される。
【0050】図6は、検索条件である検索条件式を「A
+B+C+E」とした場合の文書検索部101から出力
される検索結果を表す。この検索結果に基づいて出現分
布算出部103は、上述と同様にして、サンプル文書集
合1及び2について、検索条件の出現分布を算出する。
出現分布算出部103で算出されたサンプル文書集合1
における検索条件の出現分布は、(最小出現順位、最大
出現順位、平均出現順位)=(1、4、2.5)とな
り、また、サンプル文書集合2における検索条件の出現
分布は、(最小出現順位、最大出現順位、平均出現順
位)=(18、31、24.7)となる。これらの検索
条件や算出結果は、上述と同様にして検索履歴保存部1
04によって、記憶部105に検索履歴として保存(記
憶)される。
【0051】図7は、記憶部105に保存されている上
述の検索履歴を基に、検索履歴処理部107で各サンプ
ル文書集合ごとの各検索条件の出現分布をグラフ化した
図を示している。図7において、検索条件式が「A+B
+C+D」の場合の出現分布と、「A+B+C+E」の
場合の出現分布を比較する。図7に示すように、サンプ
ル文書集合1及び2について、検索条件の検索語Dの代
わりに検索語Eを用いた場合の検索結果の影響が容易に
把握できる。
【0052】ここで、例えば、検索意図に合っている文
書の集合をサンプル集合1とし、検索意図に合っていな
い文書の集合をサンプル文書集合2とする。この場合、
サンプル文書集合1(集合番号1)においては、検索条
件式「A+B+C+D」よりも検索条件式「A+B+C
+E」の方がその出現分布の順位が上位になり、一方、
サンプル文書集合2(集合番号2)においては、検索条
件式「A+B+C+D」よりも検索条件式「A+B+C
+E」の方がその出現分布の順位が下位になっている。
したがって、図7から、検索条件の修正、すなわち、検
索語Dから検索語Eへの修正が、検索意図をより反映し
ていることが容易に判断することができる。
【0053】以上のように、本発明の実施の形態の文書
検索装置及び文書検索方法によれば、サンプル文書集合
ごとの出現分布を算出することができるため、検索条件
に対するサンプル文書集合ごとの適合度と、異なった検
索条件ごとの検索結果への影響を容易に比較し判断する
ことができる。
【0054】次に、本発明の他の実施の形態について、
図8〜図11を参照しつつ説明する。
【0055】図8は、本実施の形態における文書検索装
置の全体構成である。この文書検索装置は、検索対象の
文書を検索対象文書集合として記憶する記憶部106
と、記憶部106に記憶されている検索対象文書集合の
文書を入力された検索語などの検索条件に基づいて検索
する文書検索部101と、各文書を所定のグループ(集
合群)に選別してテーブル化したサンプル文書集合表を
記憶する記憶部102と、文書検索部101から出力さ
れる順位付けられた検索結果と記憶部102のサンプル
文書集合表から出現分布を算出する出現分布算出部10
3と、文書検索部101から出力される順位付けられた
検索結果及び出現分布算出部103から出力される出現
分布からサンプル文書集合表を生成するサンプル文書集
合表生成部202と、検索条件、順位付き検索結果、及
び出現分布を検索履歴として保存する検索履歴保存部1
04と、検索履歴保存部104からの検索履歴を記憶す
る記憶部105と、記憶部105に記憶されている検索
履歴をグラフ化処理などする検索履歴処理部107とを
備えている。ここで、図8において、図1に示した各構
成部と同一の機能を有するものは同一の符号を付してい
る。また、図8に示した文書検索装置と図1に示した文
書検索装置との相違点は、順位付けられた検索結果に応
じて、サンプル文書集合表を新たに生成するサンプル文
書集合表生成部202を備えている点である。
【0056】図8に示した構成の文書検索装置につい
て、その動作を説明する。まず、文書検索部101は、
図1〜7で説明したのと同様にして、入力された検索条
件と記憶部106の検索対象文書集合から検索結果を順
位付けて出力する。次に、出現分布算出部103も図1
〜7で説明したのと同様にして、文書検索部106から
の検索結果と記憶部102のサンプル文書集合表から出
現分布を算出する。以下、図1〜7で説明したのと同様
にして検索条件、順位付き検索結果、及び出現分布は、
検索履歴として検索履歴保存部104により記憶部10
5に記憶され、検索履歴処理部107によってグラフ化
などの処理が行われる。
【0057】一方、サンプル文書集合表生成部202
は、文書検索部101からの順位付き検索結果と出現分
布算出部103からの出現分布とに応じて、新たにサン
プル文書集合表を生成して記憶部102に追加し、又
は、記憶部102に記憶されているサンプル文書集合表
を更新する。
【0058】図9は、図8に示した文書検索装置のうち
主にサンプル文書集合表生成部202の動作を示すフロ
ーチャートである。先ず、サンプル文書集合表生成部2
02は、記憶部102を参照して、サンプル文書集合表
にサンプル文書集合が記述されているか否かを調べる
(ステップ901)。サンプル文書集合表にサンプル文
書集合が記述されている場合には、図4のステップ40
1〜404で示した処理と同様の処理によって出現分布
算出部103からサンプル文書集合ごとの出現分布が算
出されるのを待つ(ステップ902〜ステップ90
5)。算出された出現分布は、サンプル文書集合表生成
部202に転送される(ステップ906)。一方、出現
分布は、図5に示したように検索履歴処理部107で処
理されてグラフ化され、表示装置(図示せず)などに表
示される。
【0059】ユーザなどは、この出現分布の表示によっ
て、サンプル文書集合とその出現分布を比較することが
でき、それを基にサンプル文書集合表の修正や追加の検
討をすることができる。このとき、サンプル文書集合表
生成部202は、記憶部102に記憶されているサンプ
ル文書集合表の修正や追加の要求があるまで処理を待機
する(ステップ907)。また、ステップ901で、サ
ンプル文書集合表にサンプル文書集合が記述されていな
い場合には、サンプル文書集合表生成部202は、直ち
にサンプル文書集合表の修正や追加の要求待ちとなる
(ステップ907)。
【0060】次に、文書検索部101からの順位付き検
索結果と出現分布算出部103からの出現分布とに応じ
て、記憶部102に記憶されているサンプル文書集合表
の修正や追加の要求があった場合(ステップ908)に
は、サンプル文書集合表生成部202は、その要求の内
容に基づいて新たなサンプル文書集合表を生成し、記憶
部102に記憶されているサンプル文書集合表のサンプ
ル文書集合の修正や追加を行う(ステップ909)。こ
のサンプル文書集合表の修正や追加が生じた場合には、
出現分布算出部103は、新たなサンプル文書集合表に
基づいて、ステップ902〜ステップ905の処理を行
い、新たな出現分布を算出し、以下、上述と同様の処理
を行う(ステップ906以降の処理)。
【0061】一方、サンプル文書集合表の修正や追加の
要求がない場合には、サンプル文書集合表生成部202
の処理を終了する(ステップ908)。この終了は、サ
ンプル文書集合表生成部202に終了要求を送るように
してもよく、また、所定の時間経過までに修正や追加の
要求がない場合に終了するようにしてもよい。
【0062】図10は、出現分布算出部103が最初に
使用した記憶部102のサンプル文書集合表を表す。こ
のサンプル文書集合表の内容は上述した図3と同様の内
容である。このとき、図1〜7で示した場合と同様に、
例えば、サンプル文書集合1のうち、文書ID1004
のサンプル文書に検索条件式「A+B+C+D」で示し
た検索語が含まれていなかった場合、サンプル文書集合
表生成部202は、サンプル文書集合1の文書ID10
04を削除し、新たに文書ID1005のサンプル文書
をサンプル文書集合1に追加することができる。
【0063】図11は、図10のサンプル文書集合表に
修正を加えたサンプル文書集合表を表す。図11に示し
た例では、サンプル文書集合1から文書ID1004の
サンプル文書を削除し、新たに文書ID1005のサン
プル文書をサンプル文書集合1に追加している。また、
既存のサンプル文書集合を全く別の新たなサンプル文書
集合として構成することもできる。図11においては、
サンプル文書集合2から文書ID2001、文書ID2
002、及び文書ID2003(図10参照)を削除
し、新たに文書ID2101、文書ID2102、及び
文書ID2103を追加して、新たにサンプル文書集合
2を生成している。
【0064】上述の例として、検索意図に合っている文
書集合をサンプル文書集合1とし、検索意図に合ってい
ない文書集合をサンプル集合2とした場合、検索結果に
基づいて検索意図により近いサンプル文書(文書ID)
をサンプル文書集合の構成文書として選択(追加・修
正)することができ、サンプル文書集合表などの検索条
件の修正の影響をより的確に把握できるようになる。
【0065】以上のように、図8〜図11に示した文書
検索装置及び文書検索方法によれば、検索結果に基づい
て、サンプル文書集合表を修正し、より的確にサンプル
文書集合表を構成することができ、サンプル文書集合ご
との出現分布を算出することができるので、検索条件に
対する適合度と、異なった検索条件ごとの検索結果への
影響を容易に比較し判断することができる。
【0066】また、新たなサンプル文書集合表の生成
は、図9に示したように、サンプル文書集合表のサンプ
ル文書集合の追加や修正の要求によって行うこともで
き、また、図10及び図11に示したように、サンプル
文書集合1のサンプル文書のうち、検索条件で示した検
索語が含まれていないサンプル文書(図10の文書ID
1004)を自動的に削除し、新たに次の文書ID(図
11の文書ID1005)のサンプル文書をサンプル文
書集合1に追加するようにしてもよい。
【0067】次に、本発明の他の実施の形態について、
図12〜図15を参照しつつ説明する。
【0068】図12は、本実施の形態における文書検索
装置の全体構成である。この文書検索装置は、検索対象
の文書を検索対象文書集合として記憶する記憶部106
と、記憶部106に記憶されている検索対象文書集合の
文書を入力された検索語などの検索条件に基づいて検索
する文書検索部101と、文書検索部101から出力さ
れる検索結果を記憶する記憶部203と、検索条件を細
分化して部分検索条件を生成する部分検索条件生成部2
04と、記憶部203の検索結果と部分検索条件生成部
204で生成された部分検索条件とに基づいて、各文書
を所定のグループ(集合群)に選別してテーブル化した
サンプル文書集合表を生成するサンプル文書集合表生成
部302と、サンプル文書集合表生成部302で生成さ
れたサンプル文書集合表を記憶する記憶部102と、文
書検索部101から出力される順位付けられた検索結果
と記憶部102のサンプル文書集合表から出現分布を算
出する出現分布算出部103と、検索条件、順位付き検
索結果、及び出現分布を検索履歴として保存する検索履
歴保存部104と、検索履歴保存部104からの検索履
歴を記憶する記憶部105と、記憶部105に記憶され
ている検索履歴をグラフ化処理などする検索履歴処理部
107とを備えている。ここで、図12において、図1
に示した各構成部と同一の機能を有するものは同一の符
号を付している。
【0069】ここで、記憶部106に記憶されている文
書集合には、予め各文書ごとに語の出現頻度を併記して
おくとよい。この語の出現頻度は、文書検索部101の
検索結果の順位付けに利用することができる。また、記
憶部102、105、106、203、及び検索履歴処
理部107は、必ずしも文書検索装置内に備える必要は
なく、例えば、コンピュータネットワークなどを介して
外部に個別に設けることもできる。
【0070】図12のように構成された文書検索装置に
ついて、その動作を説明する。ここで、検索結果文書集
合を記憶する記憶部203と、部分検索条件生成部20
4と、サンプル文書集合表生成部302を除いた各構成
部101〜107の動作は、図1〜図7に示した動作と
ほぼ同様の動作を行う。
【0071】図12において、まず、文書検索部101
は、図1〜7で説明したのと同様にして、入力された検
索条件と記憶部106の検索対象文書集合から検索結果
を順位付けて出力する。この順位付けられた検索結果
は、出現分布算出部103に転送されると共に、記憶部
203にも転送され、記憶部203に検索結果文書集合
として記憶される。
【0072】一方、部分検索条件生成部204は、入力
された検索条件を解析し、検索条件を細分化して部分検
索条件を生成する。次に、サンプル文書集合表生成部3
02は、部分検索条件生成部204で生成された部分検
索条件と、記憶部203に記憶されている検索結果文書
集合とに基づいて新たにサンプル文書集合表を生成し、
記憶部102に記憶する。以下、この部分検索条件生成
部204とサンプル文書集合表生成部302の動作につ
いて詳述する。
【0073】図13は、部分検索条件生成部204とサ
ンプル文書集合表生成部302の処理を示すフローチャ
ートである。図13において、まず、部分検索条件生成
部204は、入力された検索条件を解析して細分化し、
部分検索条件に分割する(ステップ1301)。本実施
の形態の場合、上述したように、文書検索部101が検
索条件を構成する検索語の特徴量と出現頻度によって検
索結果を順位付けするため、部分検索条件生成部204
では、各検索語固有の影響が容易に判断できるように、
検索条件を各検索語ごとに分割する。すなわち、部分検
索条件生成部204は、入力された検索条件式を各検索
語のそれぞれの組み合わせの論理式単位に細分化する。
ただし、諭理積「×」(AND条件)で結合された検索
語については、検索語どうしの関連が強いと考えられる
ため、検索語の諭理積部分を分割せずに1つの検索語と
して処理することにする。
【0074】例えば、入力された検索条件が、検索条件
式「A+B+C×D」の場合(ここで、「+」は論理和
を表し、「×」は論理積を表す)、検索条件を構成する
検索語の最小単位は、「A」、「B」、及び「C×D」
の3つに分割される。したがって、部分検索条件として
は、これら3つの検索語と、それら3つの検索語を任意
に組み合わせて論理和結合したものとなる。
【0075】図14は、上述の検索条件から部分検索条
件生成部204が生成した部分検索条件を示す図であ
る。図14に示すように、この例では、部分検索条件は
7つの条件式に分割される。
【0076】次に、サンプル文書集合表生成部302
は、部分検索条件生成部204が生成した全ての部分検
索条件について以下の処理を行う(ステップ130
2)。まず、サンプル文書集合表生成部302は、最初
の部分検索条件(図14の「A+B+C×D」)を検索
条件として、記憶部203に記憶されている検索結果文
書集合からこの検索条件に合致する文書集合を得る(ス
テップ1303)。ここで、このステップ1303の処
理は、文書検索処理であるため、文書検索部101に部
分検索条件を入力して、文書検索部101で行うように
してもよい。この場合、検索結果の順位付けをする必要
はない。したがって、文書検索部101の代りに順位付
け機能を有しない文書検索部を別に設けるようにしても
よい。
【0077】このステップ1303の処理において、与
えられた部分検索条件に合致した文書が存在する場合
(ステップ1304)には、この部分検索条件に対応す
るサンプル文書集合として、記憶部102のサンプル文
書集合表に記述される(ステップ1305)。その後、
次の部分検索条件(図14の「A+B」)について上述
と同様の処理を行う(ステップ1301〜ステップ13
05)。
【0078】一方、ステップ1303の処理において、
与えられた部分検索条件に合致した文書が一つも存在し
ない場合(ステップ1304)には、次の部分検索条件
について上述と同様の処理を行う(ステップ1301〜
ステップ1305)。
【0079】以上のようにして、全ての部分検索条件に
ついて上述の処理(ステップ1301〜ステップ130
5)を行う。上述の例においては、図14示したよう
に、部分検索条件生成部204で生成された部分検索条
件は7つであるため、サンプル文書集合表生成部302
で生成されるサンプル文書集合表も7つとなる。なお、
同一の文書(同一の文書IDを有するサンプル文書)が
複数のサンプル文書集合に属しても構わない。
【0080】以上のようにして生成され、記憶部102
に記憶されているサンプル文書集合表を用いて、図1〜
図7で説明したのと同様にして、出現分布算出部103
は、サンプル文書集合ごとの出現分布を算出する。この
算出された出現分布と、文書検索部101からの検索結
果は、検索履歴保存部104に送られ、記憶部105に
検索履歴として記憶される。なお、本形態の実施におい
ては、検索条件からサンプル文書集合表を生成するた
め、特に、図1で示したように入力された検索条件を直
接検索履歴保存部104に転送する必要がないが、図1
と同様に入力された検索条件を直接検索履歴保存部10
4に転送してもよく、また、部分検索条件生成部204
から部分検索条件を直接検索履歴保存部104に転送す
るようにしてもよい。記憶部105に記憶された検索履
歴は、検索履歴処理部107で処理されてグラフ化さ
れ、表示装置(図示せず)などに表示される。
【0081】図15は、本実施の形態で生成されたサン
プル文書集合の出現分布をグラフ化して表した図であ
る。なお、図15においては、簡略化のため、それぞれ
の検索条件ごとの具体的な出現分布の順位(最小出現順
位、最大出現順位、平均出現順位)の明記は省略してい
る。図15に示されたように、上述の場合、部分検索条
件「A+B」と「C×D」の出現分布は、あまり一致し
ていなことが解る。このことから、「C×D」の論理式
部分を検索条件から削除しても、「A+B」の論理式に
よる検索結果には影響を与えないことが解る。
【0082】なお、本実施の形態では部分検索条件を複
数の検索語の論理和結合に基づいて生成したが、検索語
の順位付けに対する影響が判別できるのであれは、検索
条件をどのような分割方法で細分化してもよい。例え
ば、論理式の結合子(論理和や論理積)に係わらず各検
索語ごとに部分検索条件としてもよい。
【0083】以上のように、図12〜図15に示したよ
うな文書検索装置及び文書検索方法によれば、検索条件
に基づいてサンプル文書集合表を生成し、そのサンプル
文書集合ごとの出現分布を算出することができるため、
検索条件の各検索語ごとの検索結果に対する影響を容易
に把握することができる。また、検索語や論理式などの
検索条件を修正した場合、検索結果に対するその修正の
影響を、容易に予測することができる。
【0084】次に、本発明の他の実施の形態について、
図16〜図20を参照しつつ説明する。
【0085】図16は、本実施の形態における文書検索
装置の全体構成である。この文書検索装置は、各々に少
なくとも一つの文書属性が付与された検索対象の文書を
検索対象文書集合として記憶する記憶部406と、記憶
部406に記憶されている検索対象文書集合の文書を入
力された検索語などの検索条件に基づいて検索し、検索
条件に合致した度合いに応じて順位付けをして、各文書
ごとに文書属性を含む検索結果を出力する文書検索部4
01と、文書検索部401から出力される検索結果を記
憶する記憶部203と、サンプル文書集合番号と該サン
プル文書集合が満たすべき文書属性の条件を記述した属
性条件定義表を記憶する記憶部404と、記憶部203
の検索結果と記憶部404の属性条件定義表とに基づい
て、各文書を所定のグループ(集合群)に選別してテー
ブル化したサンプル文書集合表を生成するサンプル文書
集合表生成部402と、サンプル文書集合表生成部40
2で生成されたサンプル文書集合表を記憶する記憶部1
02と、文書検索部401から出力される順位付けられ
た検索結果と記憶部102のサンプル文書集合表から出
現分布を算出する出現分布算出部103と、検索条件、
順位付き検索結果、及び出現分布を検索履歴として保存
する検索履歴保存部104と、検索履歴保存部104か
らの検索履歴を記憶する記憶部105と、記憶部105
に記憶されている検索履歴をグラフ化処理などする検索
履歴処理部107とを備えている。ここで、図16にお
いて、図1又は図12に示した各構成部と同一の機能を
有するものは同一の符号を付している。
【0086】ここで、記憶部406に記憶されている文
書集合には、予め各文書ごとに語の出現頻度を併記して
おくとよい。この語の出現頻度は、文書検索部401の
検索結果の順位付けに利用することができる。また、記
憶部102、105、203、406、及び検索履歴処
理部107は、必ずしも文書検索装置内に備える必要は
なく、例えば、コンピュータネットワークなどを介して
外部に個別に設けることもできる。
【0087】図16のように構成された文書検索支援装
置について、その動作を説明する。ここで、検索結果文
書集合を記憶する記憶部203と、文書検索部401
と、サンプル文書集合表生成部402と、属性条件定義
表を記憶する記憶部404と、検索対象文書集合を記憶
する記憶部406を除いた各構成部102〜105、1
07の動作は、図1〜図7に示した動作とほぼ同様の動
作を行う。
【0088】図16において、まず、文書検索部401
は、入力された検索条件と記憶部406の検索対象文書
集合から検索結果を順位付けて出力する。このとき、各
文書に付与されている文書属性(例えば、サンプル文書
が特許公開公報の場合には国際特許分類や出願人など)
もこの検索結果に含めて出力する。この順位付けられた
検索結果は、出現分布算出部103に転送されると共
に、記憶部203にも転送され、記憶部203に検索結
果文書集合として記憶される。
【0089】図17は、記憶部406に記憶されている
検索対象の文書を特許公開公報とし、国際特許分類(I
PC)のセクション、クラス、サブクラスを文書属性と
して併記した検索結果を表す図である。図17に示した
ように、文書検索部401は、サンプル文書ごとに検索
条件に合致した度合いで順位付けをし、その文書IDと
IPCや出願人などの文書属性を併記して検索結果とし
て出力する。
【0090】次に、サンプル文書集合表生成部402
は、記憶部404の属性条件定義表に基づいて、記憶部
203の検索結果文書集合を検索し、新たなサンプル文
書集合表を生成する。以下、このサンプル文書集合表の
生成処理について説明する。
【0091】図18は、サンプル文書集合表生成部40
2の処理を示すフローチャートである。また、図19
は、記憶部404に記憶されている属性条件定義表を示
す図である。図19に示した属性条件定義表には、新た
に生成されるサンプル文書集合番号と該サンプル文書集
合が満たすべき条件としての属性条件とが1レコードと
して記述されている。図19に示した最初のレコード
(集合番号1)においては、「×」が論理積を示し、括
弧内の「:」の左側の記述が文書属性、右側の記述が属
性値を示している。ここで、括弧は必ずしも必要でな
く、また、2番目のレコード(集合番号2)のように文
書属性が1つの場合には、括弧を付ける必要はない。
【0092】図18において、サンプル文書集合表生成
部402は、記憶部404に記憶されている属性条件定
義表を読み出し、属性条件定義表に記述されている全て
のレコードについて以下の処理を行う。まず、サンプル
文書集合表生成部402は、属性条件定義表に記述され
ているサンプル文書集合番号と属性条件から成るレコー
ドのうち未処理のレコードが有るかどうかを判断し(ス
テップ1801)、そのサンプル文書集合番号と属性条
件を取り出す。図19に示した例では、最初に取り出さ
れるレコードは、新たに生成されるサンプル文書集合1
(集合番号1)の満たすべき条件(属性条件)は、「I
PCがG06Fで、且つ出願人がABCである」ことを
示している。なお、属性条件定義表における属性条件の
記述は、例えば、自然言語による記述などの文書の属性
(例えば、文書の内容以外の特徴的記載など)が満たす
べき条件を示すものであればよい。
【0093】次に、サンプル文書集合表生成部402
は、記憶部203に記憶されている検索結果文書集合を
属性条件に基づいて検索し、その属性条件に合致する文
書を取得する。この取得された文書の集合が、新たなサ
ンプル文書集合1になる(ステップ1802)。ここ
で、このステップ1802の処理は、文書検索処理であ
るため、文書検索部401に属性条件を入力して処理す
るようにしてもよい。この場合、検索結果の順位付けを
する必要はない。したがって、文書検索部401の代り
に順位付け機能を有しない文書検索部を別に設けるよう
にしてもよい。
【0094】このステップ1802の処理において、与
えられた属性条件に合致した文書が存在する場合(ステ
ップ1803)には、この属性条件に対応する新たなサ
ンプル文書集合1として、記憶部102のサンプル文書
集合表に記述される(ステップ1804)。その後、次
のレコード(属性条件)について上述と同様の処理を行
う(ステップ1801〜ステップ1804)。
【0095】一方、ステップ1802の処理において、
与えられた属性条件に合致した文書が一つも存在しない
場合(ステップ1803)には、次の属性条件について
上述と同様の処理を行う(ステップ1801〜ステップ
1804)。
【0096】以上のようにして、全てのレコード(属性
条件)について上述の処理(ステップ1801〜ステッ
プ1804)を行う。
【0097】図20は、上述のようにして各国際特許分
類ごとに新たに生成したサンプル文書集合表を示す図で
ある。図20において、集合番号1でグループ化された
文書ID1001、9001、・・・の文書が、属性条
件「IPCがG06Fで、且つ出願人がABCである」
を満たすサンプル文書集合1を構成している。また、集
合番号2でグループ化された文書ID4001、200
1、2002、・・・の文書が、属性条件「IPCがG
15F」を満たすサンプル文書集合2を構成している。
【0098】以上のようにして生成され、記憶部102
に記憶されているサンプル文書集合表を用いて、図1〜
図7で説明したのと同様にして、出現分布算出部103
は、サンプル文書集合ごとの出現分布を算出する。この
算出された出現分布と、文書検索部401からの検索結
果は、検索履歴保存部104に送られ、記憶部105に
検索履歴として記憶される。なお、本形態の実施におい
ては、検索条件からサンプル文書集合表を生成するた
め、特に、図1で示したように入力された検索条件を直
接検索履歴保存部104に転送する必要がないが、図1
と同様に入力された検索条件を直接検索履歴保存部10
4に転送してもよい。記憶部105に記憶された検索履
歴は、検索履歴処理部107で処理されてグラフ化さ
れ、表示装置(図示せず)などに表示される。
【0099】なお、本実施の形態では文書内容以外の属
性としてIPCと出願人を用いたが、この他に例えば、
出願公開日などの検索対象の文書に付与されている属性
であれば、どのような属性を用いてもよい。
【0100】以上のように、図16〜図20に示したよ
うな文書検索装置及び文書検索方法によれば、検索結果
から、注目したい文書属性に応じて、サンプル文書集合
を生成し、そのサンプル文書集合ごとの出現分布を算出
することができるため、検索結果を複数の視点から容易
に検討することができる。
【0101】次に、本発明の他の実施の形態について、
図21〜図24を参照つつ説明する。
【0102】図21は、本実施の形態における文書検索
装置の全体構成である。この文書検索装置は、文書に対
する検索語などの検索条件を検索条件表として記憶する
記憶部501と、記憶部501に記憶されている検索条
件表から所定の検索条件を取得する検索条件取得部50
2と、検索対象の文書を検索対象文書集合として記憶す
る記憶部106と、記憶部106に記憶されている検索
対象文書集合の文書を検索条件取得部502から入力さ
れた検索条件に基づいて検索する文書検索部101と、
各文書を所定のグループ(集合群)に選別してテーブル
化したサンプル文書集合表を記憶する記憶部102と、
文書検索部101から出力される順位付けられた検索結
果と記憶部102のサンプル文書集合表から出現分布を
算出する出現分布算出部103と、検索条件取得部50
2からの検索条件、文書検索部101からの順位付き検
索結果、及び出現分布算出部103からの出現分布を検
索履歴として保存する検索履歴保存部104と、検索履
歴保存部104からの検索履歴を記憶する記憶部105
と、記憶部105に記憶されている検索履歴をグラフ化
処理などする検索履歴処理部107とを備えている。こ
こで、図21において、図1に示した各構成部と同一の
機能を有するものは同一の符号を付している。また、図
21に示した文書検索装置と図1に示した文書検索装置
との相違点は、文書に対する検索語などの検索条件を検
索条件表として記憶する記憶部501と、記憶部501
に記憶されている検索条件表から所定の検索条件を取得
する検索条件取得部502とを備えている点である。
【0103】次に、本発明の文書検索装置について、図
21〜図24を参照しつつその動作を説明する。
【0104】図22は、本発明の文書検索装置における
文書検索処理を示すフローチャートである。また、図2
3は、記憶部501に記憶されている検索条件表の内容
の一例を示す図である。図23においては、検索条件を
識別するための検索条件番号、及びその検索条件番号に
対応する検索条件が記述されている。ここで、検索条件
表にはできる限り多くの検索条件を記述することが望ま
しい。また、この検索条件表の作成方法としては、検索
語などの検索条件の最小単位を入力すると、入力された
各検索語の最小単位が任意に組み合わされて自動的に検
索条件表が作成されるようにしてもよい。
【0105】図22において、検索条件取得部502
は、記憶部501に記憶されている検索条件表を読み出
し、この検索条件表に記述されている全ての検索条件に
ついて以下の処理を行う(ステップ2201)。まず、
検索条件取得部502は、読み出した検索条件表から検
索条件を取り出す。本実施の形態では、図23に示した
ように最初の検索条件番号1の検索条件「A」が取り出
される(ステップ2202)。文書検索部101は、こ
の検索条件「A」に基づいて記憶部106に記憶されて
いる検索対象文書集合の各文書を検索し、その検索結果
を順位付けて出力する(ステップ2203)。出現分布
算出部103は、記憶部102に記憶されているサンプ
ル文書集合表を参照し、上述の図1〜図7に示した場合
と同様にして、検索条件に対する各サンプル文書集合ご
との出現分布を算出する(ステップ2204)。
【0106】次に、出現分布算出部103で算出された
検索条件の出現分布と、文書検索部101から出力され
た順位付けされた検索結果と、検索条件取得部502か
ら入力された検索条件「A」は、検索履歴保存部104
にそれぞれ送出される。検索履歴保存部104は、記憶
部105にこれらのデータを検索履歴として保存する。
以下、検索条件表に記述されている全ての検索条件につ
いて、上述の処理を行う(ステップ2201〜ステップ
2205)。
【0107】次に、検索履歴処理部107は、記憶部1
05に記憶されている検索履歴に基づいて、各検索条件
ごとの出現分布をグラフ化するなどの処理を行う。この
検索履歴処理部107での処理結果は、ディスプレイや
プリンタなどの表示装置や出力装置(何れも図示せず)
に表示、出力することができる。
【0108】図24は、記憶部105に保存されている
上述の検索履歴を基に、検索履歴処理部107で1つの
サンプル文書集合に対する各検索条件ごとの出現分布を
グラフ化した図を示している。図24を参照すると、検
索条件が「A+B+C+D」の場合にこのサンプル文書
集合の分布が最も上位に配置されることが解る。したが
って、対象としたこのサンプル文書集合については、検
索条件「A+B+C+D」が、最も検索意図に合ってい
る検索条件であることが解る。
【0109】以上のように図21〜図24で示した文書
検索装置及び文書検索方法によれば、予め準備した複数
の検索条件に対して、サンプル文書集合ごとに出現分布
を連続して算出することができるため、検索条件を変化
させながら同じサンプル文書集合を繰り返し検索する場
合の処理が効率よく実行できる。また、複数の検索条件
の各検索条件ごとに検索結果に対する影響を容易に比較
することができ、検索結果を複数の視点から容易に検討
することができる。
【0110】以上、本発明の幾つかの実施の形態を示し
たが、図8、図12、及び図16に示した各サンプル文
書集合生成部や図12に示した部分検索条件生成部の機
能を、それぞれの文書検索装置に任意の組合せとして適
用することができる。また、図8、図12、及び図16
に示した機能を全て備えて、選択的に各機能を作動させ
るようにしてもよい。
【0111】また、図21に示した文書検索装置の記憶
部501と、検索条件取得部502、及びその機能を、
図8、図12、及び図16で示した文書検索装置及びそ
の任意の組合わせに適用することができる。
【0112】また、各記憶部102、105、106、
203、404、406、501に記憶されるそれぞれ
のデータは、1つの記憶媒体(記録媒体を含む)に複数
の記憶領域を設けて、各記憶領域に記憶するようにして
もよく、複数の記憶媒体に所定のグループに分けて又は
個別に記憶するようにしてもよい。
【0113】また、上述した文書検索方法を、コンピュ
ータが実行できるようなプログラムとすることができ、
このプログラムをフロッピーディスク、CDROM(Co
mpact Disk Read Only Memory )、HD(Hard Disk )
などの記録媒体に記録することができる。
【0114】
【発明の効果】以上述べたとおり、本発明の文書検索方
法、そのプログラムを記録した記録媒体、及び文書検索
装置によれば、サンプル文書集合ごとの出現分布を算出
することができるため、検索条件に対するサンプル文書
集合ごとの適合度と、異なった検索条件ごとの検索結果
への影響を容易に比較し判断することができるようにな
った。
【0115】また、検索結果に基づいて、サンプル文書
集合表を修正してより的確にサンプル文書集合表を構成
することができ、新たなサンプル文書集合ごとの出現分
布を算出することができるので、検索条件に対する適合
度と、異なった検索条件ごとの検索結果への影響を容易
に比較し判断することができるようになった。
【0116】また、検索条件に基づいてサンプル文書集
合表を生成し、そのサンプル文書集合ごとの出現分布を
算出するため、検索条件の各検索語ごとの検索結果に対
する影響を容易に把握することができるようになった。
また、検索語や論理式などの検索条件を修正した場合、
検索結果に対するその修正の影響を、容易に予測するこ
とができるようになった。
【0117】また、検索結果から、注目したい文書属性
に応じて、サンプル文書集合を生成し、そのサンプル文
書集合ごとの出現分布を算出することができるため、検
索結果を複数の視点から容易に検討することができるよ
うになった。
【0118】また、予め準備した複数の検索条件に対し
て、サンプル文書集合ごとに出現頻度を連続して算出す
ることができるため、検索条件を変化させながら同じサ
ンプル文書集合を繰り返し検索する場合の処理が効率よ
く実行できる。また、複数の検索条件の各検索条件ごと
に検索結果に対する影響を容易に比較することができ、
検索結果を複数の視点から容易に検討することができ
る。
【図面の簡単な説明】
【図1】本発明の文書検索装置の全体構成を示す図であ
る。
【図2】図1の文書検索装置における検索結果の一例を
示す図である。
【図3】図1の文書検索装置におけるサンプル文書集合
表の一例を示す図である。
【図4】図1の文書検索装置における出現分布の算出処
理を示すフローチャートである。
【図5】図1の文書検索装置における出現分布の一例を
示す図である。
【図6】図1の文書検索装置における検索結果の一例を
示す図である。
【図7】図1の文書検索装置における出現分布の一例を
示す図である。
【図8】本発明の文書検索装置の全体構成を示す図であ
る。
【図9】図8の文書検索装置における検索処理を示すフ
ローチャートである。
【図10】図8の文書検索装置におけるサンプル文書集
合表の一例を示す図である。
【図11】図8の文書検索装置におけるサンプル文書集
合表の一例を示す図である。
【図12】本発明の文書検索装置の全体構成を示す図で
ある。
【図13】図12の文書検索装置におけるサンプル文書
集合表の生成処理を示すフローチャートである。
【図14】図12の文書検索装置における分割された部
分検索条件の一例を示す図である。
【図15】図12の文書検索装置における出現分布の一
例を示す図である。
【図16】本発明の文書検索装置の全体構成を示す図で
ある。
【図17】図16の文書検索装置における検索結果の一
例を示す図である。
【図18】図16の文書検索装置におけるサンプル文書
集合表の生成処理を示すフローチャートである。
【図19】図16の文書検索装置における属性条件の一
例を示す図である。
【図20】図16の文書検索装置におけるサンプル文書
集合表の一例を示す図である。
【図21】本発明の文書検索装置の全体構成を示す図で
ある。
【図22】図21の文書検索装置における検索処理を示
すフローチャートである。
【図23】図21の文書検索装置における検索条件の一
例を示す図である。
【図24】図21の文書検索装置における出現分布の一
例を示す図である。
【符合の説明】
101、401 文書検索部 102、105、106、203、404、406、5
01 記憶部 103 出現分布算出部 104 検索履歴保存部 107 検索履歴処理部 202、302、402 サンプル文書集合表生成部 204 部分検索条件生成部 502 検索条件取得部

Claims (29)

    【特許請求の範囲】
  1. 【請求項1】 1又は複数の文書からなる文書集合を、
    入力された検索条件に基づいて検索する文書検索方法で
    あって、 文書集合に含まれる各文書を入力された検索条件に基づ
    いて検索し、 検索条件に適合する頻度に応じて各文書ごとに順位付け
    をして検索結果を算出し、 所定の文書集合と、該所定の文書集合に含まれる所定の
    文書を指定し、 前記検索結果に基づいて、指定された所定の文書ごとに
    前記検索条件の出現頻度を検出し、 前記所定の文書ごとの前記出現頻度に基づいて、前記所
    定の文書が含まれる文書集合に対する前記検索条件の出
    現分布を算出する、 ことを特徴とする文書検索方法。
  2. 【請求項2】 前記所定の文書集合と所定の文書を指定
    するステップは、算出された検索結果に基づいて、前記
    所定の文書集合と前記所定の文書を指定することを特徴
    とする請求項1記載の文書検索方法。
  3. 【請求項3】 1又は複数の文書からなる文書集合を、
    入力された検索条件に基づいて検索する文書検索方法で
    あって、 文書集合に含まれる各文書を入力された検索条件に基づ
    いて検索し、 検索条件に適合する頻度に応じて各文書ごとに順位付け
    をして検索結果を算出し、 入力された前記検索条件を細分化し、細分化した単位の
    検索条件を任意に組み合わせて部分検索条件を生成し、 前記部分検索条件と前記検索結果に基づいて、所定の文
    書集合と、該所定の文書集合に含まれる所定の文書を指
    定し、 前記検索結果に基づいて、指定された所定の文書ごとに
    前記検索条件の出現頻度を検出し、 前記所定の文書ごとの前記出現頻度に基づいて、前記所
    定の文書が含まれる文書集合に対する前記検索条件の出
    現分布を算出する、 ことを特徴とする文書検索方法。
  4. 【請求項4】 1又は複数の文書からなる文書集合を、
    入力された検索条件に基づいて検索する文書検索方法で
    あって、 文書集合に含まれる各文書を入力された検索条件に基づ
    いて検索し、 検索条件に適合する頻度に応じて各文書ごとに順位付け
    をして検索結果を算出し、 文書を所定の範囲で特定する属性条件を準備し、 前記属性条件と前記検索結果に基づいて、所定の文書集
    合と、該所定の文書集合に含まれる所定の文書を指定
    し、 前記検索結果に基づいて、指定された所定の文書ごとに
    前記検索条件の出現頻度を検出し、 前記所定の文書ごとの前記出現頻度に基づいて、前記所
    定の文書が含まれる文書集合に対する前記検索条件の出
    現分布を算出する、 ことを特徴とする文書検索方法。
  5. 【請求項5】 前記所定の文書集合と所定の文書を指定
    するステップは、 算出された検索結果に基づいて、前記所定の文書集合と
    前記所定の文書を指定するか、 入力された前記検索条件を細分化し、細分化した単位の
    検索条件を任意に組み合わせて部分検索条件を生成し、
    前記部分検索条件と前記検索結果に基づいて、前記所定
    の文書集合と前記所定の文書を指定するか、 文書を所定の範囲で特定する属性条件を準備し、前記属
    性条件と前記検索結果に基づいて、前記所定の文書集合
    と前記所定の文書を指定するか、 の何れかを選択することができることを特徴とする請求
    項1記載の文書検索方法。
  6. 【請求項6】 さらに、複数の検索条件を準備し、 前記複数の検索条件から1又は複数の所定の検索条件を
    取得し、 前記検索するステップから前記記憶するステップまでの
    各ステップは、前記1又は複数の所定の検索条件の全て
    について実行される、 ことを特徴とする請求項1乃至5記載の文書検索方法。
  7. 【請求項7】 さらに、前記検索条件、前記検索結果、
    及び前記出現分布を記憶し、 記憶された前記出現分布に基づいて、前記文書集合ごと
    の出現分布を生成する、ことを特徴とする請求項1乃至
    6記載の文書検索方法。
  8. 【請求項8】 さらに、前記検索条件、前記検索結果、
    及び前記出現分布を記憶し、 記憶された前記出現分布に基づいて、前記検索条件ごと
    の出現分布を生成する、 ことを特徴とする請求項1乃至6記載の文書検索方法。
  9. 【請求項9】 さらに、前記検索条件、前記検索結果、
    及び前記出現分布を記憶し、 記憶された前記出現分布に基づいて、前記検索条件及び
    前記文書集合ごとの出現分布を生成する、 ことを特徴とする請求項1乃至6記載の文書検索方法。
  10. 【請求項10】 文書集合に含まれる各文書を入力され
    た検索条件に基づいて検索するステップと、 検索条件に適合する頻度に応じて各文書ごとに順位付け
    をして検索結果を算出するステップと、 所定の文書集合と、該所定の文書集合に含まれる所定の
    文書を指定するステップと、 前記検索結果に基づいて、指定された所定の文書ごとに
    前記検索条件の出現頻度を検出するステップと、 前記所定の文書ごとの前記出現頻度に基づいて、前記所
    定の文書が含まれる文書集合に対する前記検索条件の出
    現分布を算出するステップと、 を有する特徴とする文書検索方法をコンピュータに実行
    させるためのプログラムを記録したコンピュータ読み取
    り可能な記録媒体。
  11. 【請求項11】 前記所定の文書集合と所定の文書を指
    定するステップは、検索結果を算出するステップで算出
    された検索結果に基づいて、前記所定の文書集合と前記
    所定の文書を指定するステップであることを特徴とする
    請求項10記載の記録媒体。
  12. 【請求項12】 文書集合に含まれる各文書を入力され
    た検索条件に基づいて検索するステップと、 検索条件に適合する頻度に応じて各文書ごとに順位付け
    をして検索結果を算出するステップと、 入力された前記検索条件を細分化し、細分化した単位の
    検索条件を任意に組み合わせて部分検索条件を生成する
    ステップと、 前記部分検索条件と前記検索結果に基づいて、所定の文
    書集合と、該所定の文書集合に含まれる所定の文書を指
    定するステップと、 前記検索結果に基づいて、指定された所定の文書ごとに
    前記検索条件の出現頻度を検出するステップと、 前記所定の文書ごとの前記出現頻度に基づいて、前記所
    定の文書が含まれる文書集合に対する前記検索条件の出
    現分布を算出するステップと、 を有する特徴とする文書検索方法をコンピュータに実行
    させるためのプログラムを記録したコンピュータ読み取
    り可能な記録媒体。
  13. 【請求項13】 文書集合に含まれる各文書を入力され
    た検索条件に基づいて検索するステップと、 検索条件に適合する頻度に応じて各文書ごとに順位付け
    をして検索結果を算出するステップと、 文書を所定の範囲で特定する属性条件を準備するステッ
    プと、 前記属性条件と前記検索結果に基づいて、所定の文書集
    合と、該所定の文書集合に含まれる所定の文書を指定す
    るステップと、 前記検索結果に基づいて、指定された所定の文書ごとに
    前記検索条件の出現頻度を検出するステップと、 前記所定の文書ごとの前記出現頻度に基づいて、前記所
    定の文書が含まれる文書集合に対する前記検索条件の出
    現分布を算出するステップと、 を有する特徴とする文書検索方法をコンピュータに実行
    させるためのプログラムを記録したコンピュータ読み取
    り可能な記録媒体。
  14. 【請求項14】 前記所定の文書集合と所定の文書を指
    定するステップは、算出された検索結果に基づいて、前
    記所定の文書集合と前記所定の文書を指定するステッ
    プ、 又は、 入力された前記検索条件を細分化し、細分化した単位の
    検索条件を任意に組み合わせて部分検索条件を生成し、
    前記部分検索条件と前記検索結果に基づいて、前記所定
    の文書集合と前記所定の文書を指定するステップ、 又は、 文書を所定の範囲で特定する属性条件を準備し、前記属
    性条件と前記検索結果に基づいて、前記所定の文書集合
    と前記所定の文書を指定するステップ、 の何れかを選択して実行するステップであることを特徴
    とする請求項10記載の記録媒体。
  15. 【請求項15】 さらに、複数の検索条件を準備するス
    テップと、 前記複数の検索条件から1又は複数の所定の検索条件を
    取得するステップと、 を有し、 前記検索するステップから前記記憶するステップまでの
    各ステップは、前記1又は複数の所定の検索条件の全て
    について実行される、 ことを特徴とする請求項10乃至14記載の記録媒体。
  16. 【請求項16】 さらに、前記検索条件、前記検索結
    果、及び前記出現分布を記憶するステップと、 記憶された前記出現分布に基づいて、前記文書集合ごと
    の出現分布を生成するステップと、 を有することを特徴とする請求項10乃至15記載の記
    録媒体。
  17. 【請求項17】 さらに、前記検索条件、前記検索結
    果、及び前記出現分布を記憶するステップと、 記憶された前記出現分布に基づいて、前記検索条件ごと
    の出現分布を生成するステップと、 を有することを特徴とする請求項10乃至15記載の記
    録媒体。
  18. 【請求項18】 さらに、前記検索条件、前記検索結
    果、及び前記出現分布を記憶するステップと、 記憶された前記出現分布に基づいて、前記検索条件及び
    前記文書集合ごとの出現分布を生成するステップと、 を有することを特徴とする請求項10乃至15記載の記
    録媒体。
  19. 【請求項19】 1又は複数の文書からなる文書集合を
    検索条件に基づいて検索する文書検索装置であって、 文書集合に含まれる各文書を検索条件に基づいて検索
    し、前記検索条件に適合する頻度に応じて前記各文書ご
    とに順位付けをして検索結果を算出する文書検索手段
    と、 所定の文書集合と所定の文書を関連付けたサンプル文書
    集合表を記憶するサンプル文書集合表記憶手段と、 前記文書検索手段で算出される前記検索結果に基づい
    て、前記サンプル文書集合表記憶手段に記憶されている
    前記サンプル文書集合表の前記所定の文書ごとに前記検
    索条件の出現頻度を検出し、前記所定の文書ごとの前記
    出現頻度に基づいて、前記所定の文書に関連する前記所
    定の文書集合に対する前記検索条件の出現分布を算出す
    る出現分布算出手段と、 を備えることを特徴とする文書検索装置。
  20. 【請求項20】 さらに、前記文書検索手段で算出され
    た検索結果に基づいて、所定の文書集合と所定の文書を
    関連付けて新たなサンプル文書集合表を生成し、前記サ
    ンプル文書集合表記憶手段に記憶されている前記サンプ
    ル文書集合表を前記新たなサンプル文書集合表に更新す
    るサンプル文書集合表生成手段を有する構成の請求項1
    9記載の文書検索装置。
  21. 【請求項21】 1又は複数の文書からなる文書集合を
    検索条件に基づいて検索する文書検索装置であって、 文書集合に含まれる各文書を検索条件に基づいて検索
    し、前記検索条件に適合する頻度に応じて前記各文書ご
    とに順位付けをして検索結果を算出する文書検索手段
    と、 所定の文書集合と所定の文書を関連付けてサンプル文書
    集合表を生成するサンプル文書集合表生成手段と、 前記文書検索手段で算出された前記検索結果に基づい
    て、前記サンプル文書集合表生成手段で生成された前記
    サンプル文書集合表の前記所定の文書ごとに前記検索条
    件の出現頻度を検出し、前記所定の文書ごとの前記出現
    頻度に基づいて、前記所定の文書に関連する前記所定の
    文書集合に対する前記検索条件の出現分布を算出する出
    現分布算出手段と、 を備えることを特徴とする文書検索装置。
  22. 【請求項22】 前記サンプル文書集合表生成手段は、
    前記文書検索手段で算出された検索結果に基づいて、所
    定の文書集合と所定の文書を関連付けてサンプル文書集
    合表を生成することを特徴とする請求項21記載の文書
    検索装置。
  23. 【請求項23】 1又は複数の文書からなる文書集合を
    検索条件に基づいて検索する文書検索装置であって、 文書集合に含まれる各文書を検索条件に基づいて検索
    し、前記検索条件に適合する頻度に応じて前記各文書ご
    とに順位付けをして検索結果を算出する文書検索手段
    と、 文書を所定の範囲で特定する属性条件を記憶する記憶手
    段と、 前記記憶手段に記憶されている前記属性条件と前記文書
    検索手段で算出された検索結果に基づいて、所定の文書
    集合と所定の文書を関連付けて、サンプル文書集合表を
    生成するサンプル文書集合表生成手段と、 前記文書検索手段で算出された前記検索結果に基づい
    て、前記サンプル文書集合表生成手段で生成された前記
    サンプル文書集合表の前記所定の文書ごとの出現頻度を
    検出し、前記所定の文書ごとの前記出現頻度に基づい
    て、前記所定の文書に関連する前記所定の文書集合に対
    する前記検索条件の出現分布を算出する出現分布算出手
    段と、 を備えることを特徴とする文書検索装置。
  24. 【請求項24】 さらに、複数の検索条件を記憶する検
    索条件記憶手段と、 前記検索条件記憶手段に記憶されている前記複数の検索
    条件から1又は複数の所定の検索条件を取得する検索条
    件取得手段と、 を有し、 前記検索条件取得手段は、取得した前記所定の検索条件
    を所定のタイミングで前記文書検索手段に入力する、 ことを特徴とする請求項19乃至23記載の文書検索装
    置。
  25. 【請求項25】 1又は複数の文書からなる文書集合を
    検索条件に基づいて検索する文書検索装置であって、 文書集合に含まれる各文書を検索条件に基づいて検索
    し、前記検索条件に適合する頻度に応じて前記各文書ご
    とに順位付けをして検索結果を算出する文書検索手段
    と、 前記検索条件を所定の単位の検索条件に細分化し、細分
    化した前記所定の単位の検索条件を任意に組み合わせて
    部分検索条件を生成する部分検索条件生成手段と、 前記部分検索条件生成手段で生成された前記部分検索条
    件と前記文書検索手段で算出された検索結果に基づい
    て、所定の文書集合と所定の文書を関連付けて、サンプ
    ル文書集合表を生成するサンプル文書集合表生成手段
    と、 前記文書検索手段で算出された前記検索結果に基づい
    て、前記サンプル文書集合表生成手段で生成された前記
    サンプル文書集合表の前記所定の文書ごとの出現頻度を
    検出し、前記所定の文書ごとの前記出現頻度に基づい
    て、前記所定の文書に関連する前記所定の文書集合に対
    する前記検索条件の出現分布を算出する出現分布算出手
    段と、 を備えることを特徴とする文書検索装置。
  26. 【請求項26】 さらに、複数の検索条件を記憶する検
    索条件記憶手段と、 前記検索条件記憶手段に記憶されている前記複数の検索
    条件から1又は複数の所定の検索条件を取得する検索条
    件取得手段と、 を有し、 前記検索条件取得手段は、取得した前記所定の検索条件
    を所定のタイミングで前記文書検索手段及び前記部分検
    索条件生成手段に入力する、 ことを特徴とする請求項25記載の文書検索装置。
  27. 【請求項27】 さらに、前記検索条件、前記検索結
    果、及び前記出現分布を検索履歴として記憶する検索履
    歴記憶手段と、 前記検索履歴記憶手段に記憶された前記出現分布に基づ
    いて、前記サンプル文書集合表の前記文書集合ごとの出
    現分布を生成する検索履歴処理手段と、 を備える構成の請求項19乃至26記載の文書検索装
    置。
  28. 【請求項28】 さらに、前記検索条件、前記検索結
    果、及び前記出現分布を検索履歴として記憶する検索履
    歴記憶手段と、 前記検索履歴記憶手段に記憶された前記出現分布に基づ
    いて、前記検索条件ごとの出現分布を生成する検索履歴
    処理手段と、 を備える構成の請求項19乃至26記載の文書検索装
    置。
  29. 【請求項29】 さらに、前記検索条件、前記検索結
    果、及び前記出現分布を検索履歴として記憶する検索履
    歴記憶手段と、 前記検索履歴記憶手段に記憶された前記出現分布に基づ
    いて、前記検索条件及び前記サンプル文書集合表の前記
    文書集合ごとの出現分布を生成する検索履歴処理手段
    と、 を備える構成の請求項19乃至26記載の文書検索装
    置。
JP10251818A 1998-08-24 1998-08-24 文書検索方法、そのプログラムを記録した記録媒体、及び文書検索装置 Pending JP2000067081A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP10251818A JP2000067081A (ja) 1998-08-24 1998-08-24 文書検索方法、そのプログラムを記録した記録媒体、及び文書検索装置
US09/379,937 US6424963B1 (en) 1998-08-24 1999-08-24 Document retrieval having retrieval conditions that shuffles documents in a sequence of occurrence

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10251818A JP2000067081A (ja) 1998-08-24 1998-08-24 文書検索方法、そのプログラムを記録した記録媒体、及び文書検索装置

Publications (1)

Publication Number Publication Date
JP2000067081A true JP2000067081A (ja) 2000-03-03

Family

ID=17228384

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10251818A Pending JP2000067081A (ja) 1998-08-24 1998-08-24 文書検索方法、そのプログラムを記録した記録媒体、及び文書検索装置

Country Status (2)

Country Link
US (1) US6424963B1 (ja)
JP (1) JP2000067081A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013200591A (ja) * 2012-03-23 2013-10-03 Fujifilm Corp データベース検索装置、方法、及び、プログラム

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3870666B2 (ja) * 2000-06-02 2007-01-24 株式会社日立製作所 文書検索方法および装置並びにその処理プログラムを記録した記録媒体
US7395222B1 (en) * 2000-09-07 2008-07-01 Sotos John G Method and system for identifying expertise
US20050149388A1 (en) * 2003-12-30 2005-07-07 Scholl Nathaniel B. Method and system for placing advertisements based on selection of links that are not prominently displayed
US7752200B2 (en) 2004-08-09 2010-07-06 Amazon Technologies, Inc. Method and system for identifying keywords for use in placing keyword-targeted advertisements
US8108386B2 (en) * 2004-09-07 2012-01-31 Stuart Robert O More efficient search algorithm (MESA) using alpha omega search strategy
US7792808B2 (en) * 2004-09-07 2010-09-07 Stuart Robert O More efficient search algorithm (MESA) using virtual search parameters
US7546294B2 (en) * 2005-03-31 2009-06-09 Microsoft Corporation Automated relevance tuning
JP4940116B2 (ja) * 2007-12-06 2012-05-30 キヤノン株式会社 画像処理装置、画像処理方法、およびプログラム
WO2012115031A1 (ja) * 2011-02-22 2012-08-30 三菱電機株式会社 検索システム、検索システムの検索方法、情報処理装置、検索プログラム、対応キーワード管理装置および対応キーワード管理プログラム

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5469354A (en) * 1989-06-14 1995-11-21 Hitachi, Ltd. Document data processing method and apparatus for document retrieval
JP3282937B2 (ja) 1995-01-12 2002-05-20 日本アイ・ビー・エム株式会社 情報検索方法及びシステム
JP3040945B2 (ja) * 1995-11-29 2000-05-15 松下電器産業株式会社 文書検索装置
JP3249743B2 (ja) 1996-05-29 2002-01-21 松下電器産業株式会社 文書検索システム
JPH1049549A (ja) * 1996-05-29 1998-02-20 Matsushita Electric Ind Co Ltd 文書検索装置
US5987460A (en) * 1996-07-05 1999-11-16 Hitachi, Ltd. Document retrieval-assisting method and system for the same and document retrieval service using the same with document frequency and term frequency
JP3143079B2 (ja) * 1997-05-30 2001-03-07 松下電器産業株式会社 辞書索引作成装置と文書検索装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013200591A (ja) * 2012-03-23 2013-10-03 Fujifilm Corp データベース検索装置、方法、及び、プログラム

Also Published As

Publication number Publication date
US6424963B1 (en) 2002-07-23

Similar Documents

Publication Publication Date Title
JP5344715B2 (ja) コンテンツ検索装置およびコンテンツ検索プログラム
JP3225912B2 (ja) 情報検索装置、方法及び記録媒体
US8983965B2 (en) Document rating calculation system, document rating calculation method and program
US20070244881A1 (en) System, method and user interface for retrieving documents
JP2011060182A (ja) コンテンツ選択システム
JP2000067081A (ja) 文書検索方法、そのプログラムを記録した記録媒体、及び文書検索装置
JP2010049473A (ja) リンク情報抽出装置、リンク情報抽出方法およびプログラム
JP2003323457A (ja) 文書検索装置、文書検索方法、プログラム及び記録媒体
JPH1145257A (ja) Web文書の検索支援装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
KR20200109515A (ko) 빅데이터를 이용한 교육 콘텐츠 생성 방법
JPH08287086A (ja) 適合度順画像強調表示方法及び装置
JP4118571B2 (ja) 文書検索装置、文書検索方法および記録媒体
JP2002288189A (ja) 文書分類方法及び文書分類装置並びに文書分類処理プログラムを記録した記録媒体
JPH07121552A (ja) 文書群分析装置
JP2000200285A (ja) 情報検索方法、情報検索装置及び情報検索プログラムを記録した記録媒体
JP3924894B2 (ja) 文書検索装置および文書検索方法ならびに記録媒体
JP5417359B2 (ja) 文書評価支援システム、及び文書評価支援方法
JP2001290826A (ja) 文書分類装置、文書分類方法及び文書分類プログラムを記録した記録媒体
JP5178347B2 (ja) 素性語選別装置と分類装置とから構成されるシステム、方法及びプログラム
JPH1145238A (ja) 文書管理システムおよびそのシステムとしてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2002366577A (ja) 情報検索システム、情報検索方法、情報検索プログラム、情報検索プログラムを記録した記録媒体、出力情報選択装置、出力情報選択方法、出力情報選択プログラム及び出力情報選択プログラムを記録した記録媒体
JP2004310199A (ja) 文書分類方法及び文書分類プログラム
JPH10307849A (ja) 検索用のキーワードの決定方法及び装置、文書検索装置、記録媒体
JP3597026B2 (ja) 特徴量選択装置
JP2001325293A (ja) 全文検索方法及び装置及び全文検索プログラムを格納した記憶媒体

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040224

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040810