JPH1069490A - 文書絞り込み検索装置、文書絞り込み検索方法及び文書検索装置 - Google Patents

文書絞り込み検索装置、文書絞り込み検索方法及び文書検索装置

Info

Publication number
JPH1069490A
JPH1069490A JP8227068A JP22706896A JPH1069490A JP H1069490 A JPH1069490 A JP H1069490A JP 8227068 A JP8227068 A JP 8227068A JP 22706896 A JP22706896 A JP 22706896A JP H1069490 A JPH1069490 A JP H1069490A
Authority
JP
Japan
Prior art keywords
search
document
search key
search target
target document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8227068A
Other languages
English (en)
Inventor
Yasuo Tanosaki
康雄 田野崎
Yukio Nakamoto
幸夫 中本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Computer Engineering Corp
Original Assignee
Toshiba Corp
Toshiba Computer Engineering Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Computer Engineering Corp filed Critical Toshiba Corp
Priority to JP8227068A priority Critical patent/JPH1069490A/ja
Publication of JPH1069490A publication Critical patent/JPH1069490A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 本発明は、検索キーの出現回数と文書容量と
の正規化を行うことができ、多種、多様の検索対象文書
に対しても効率よく所望の文書の絞り込み検索を行うこ
とができる文書絞り込み検索装置を提供する。 【解決手段】 検索対象文書に対し検索キーを使用して
絞り込み検索を行う文書絞り込み検索装置において、少
なくとも検索キーが入力できる入力装置2と、この入力
装置2から入力した検索キーを用いて外部記憶装置4に
記憶している検索対象文書を検索し、検索対象文書中の
検索キーの出現回数を算出する検索キー出現回数カウン
タ207と、検索対象文書の文書容量を求める検索対象
文字列カウント部211と、前記検索対象文書中の検索
キーの出現回数の検索対象文書の文書容量に対する割合
により、検索対象文書の絞り込みを行う出現検索キー含
有率算出部212とを具備するものである。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書絞り込み検索
装置、文書絞り込み検索方法及び文書検索装置に関す
る。
【0002】
【従来の技術】従来、検索対象文章中の任意の文字列に
よって検索することができるフルテキストサーチ方式の
文書検索装置が存在している。この文書検索装置の場
合、大量の検索対象文書を高速に検索するために、前処
理でインデックスを作成する。このインデックスとは、
全検索対象文章中から全ての単語や文字を抽出し、これ
らの単語や文字が含まれている検索対象文書を簡略に表
現したものである。
【0003】そして、ユーザは検索したい文書に含まれ
ているであろう単語や文字を検索キーとし、この検索キ
ーが文書中のどこか一箇所にでも含まれている文書を検
索結果として受け取っていた。
【0004】また、検索対象文書が大量になると、ひと
つの検索キーでは絞り込むことはできないため、複数の
検索キーを論理演算子を含めて作成した検索式によって
絞り込みを行うことも行われている。しかし、複数の検
索キーが含まれているか否かによって検索された結果で
あるため、ユーザが意図する文書であるかどうかは、ユ
ーザが検索された全文書の内容を参照しなければ判断で
きなかった。
【0005】また、ユーザの意図する文書であるかどう
かを判断する際に、検索キーの出現位置や出現回数から
順位付けを行う検索装置も存在する。
【0006】
【発明が解決しようとする課題】しかしながら、上記し
た従来技術においては、検索結果の件数を絞り込むため
に、文書中に含まれているであろう単語や文字を複数の
文字列を検索キーとしなければならない。
【0007】検索キーが含まれているか否かによって検
索する方法は、検索キーを論理積又は論理和を用いた検
索式によって行なわなければ検索結果の件数を絞り込む
ことができない。同じ検索キーを用いても、論理積や論
理和を使い方によって、検索結果の件数を絞り込むこと
ができなかったり、逆に絞り込み過ぎる結果となる場合
がある。
【0008】さらに、検索キーが含まれているか否かに
よって得られた検索結果であるため、ユーザが意図する
文書であるか否かは、一文書毎に内容を参照しなけけれ
ば分からない。検索結果は、文書の登録順や日付順等で
出力されているため、先頭に出力されているものがユー
ザの意図する文書であるとは限らないからである。
【0009】また、検索キーの出現位置からユーザの意
図する文書であるかどうかの判断を行うのは、検索対象
文書が全て同書式でなければならないという課題があ
る。
【0010】さらに、検索キーの出現回数からの判断で
は、検索対象の各文書容量に応じて異なるため、検索キ
ーの出現回数と文書容量という異なるものの正規化を行
わなければならなかった。そのため、検索結果が絞り込
まれなかった場合でも全ての文書を参照しなければなら
ないという課題があった。
【0011】そこで、本発明は、上記の課題を解決する
ためになされたものであり、検索キーの出現回数と文書
容量との正規化を行うことができ、多種、多様の検索対
象文書に対しても効率よく所望の文書の絞り込み検索を
行うことができる文書絞り込み検索装置及び文書絞り込
み検索方法、さらには、この文書絞り込み検索装置を利
用した文書検索装置を提供することを目的とする。
【0012】
【課題を解決するための手段】本発明は、検索対象文書
に対し検索キーを使用して絞り込み検索を行う文書絞り
込み検索装置において、少なくとも検索キーが入力でき
る入力手段と、この入力手段から入力した検索キーを用
いて検索対象文書を検索し、検索対象文書中の検索キー
の出現回数を算出する手段と、検索対象文書の文書容量
を求める手段と、前記検索対象文書中の検索キーの出現
回数の検索対象文書の文書容量に対する割合により、検
索対象文書の絞り込みを行う手段とを有することを特徴
とするものである。
【0013】この文書絞り込み検索装置によれば、検索
キーの出現回数の検索対象文書の文書容量に対する割合
により正規化して、検索対象文書の絞り込みを行うもの
であるから、文書登録順、日付、検索キーの出現位置等
文書内容と直接関係ない事項が省かれ、多種、多様の検
索対象文書に対して効率よく所望の文書の絞り込み検索
を行うことが可能となる。
【0014】また、本発明は、上述した構成において、
検索対象文書の絞り込みは、検索対象文書の検索対象文
字数に対するこの検索対象文書に出現する検索キー文字
数の割合を示す出現検索キー含有率を用いて行い、又
は、検索対象文書の検索対象文字数に対するこの検索対
象文書に出現する予め重みの軽重を付けた検索キー文字
数の割合を示す重み出現検索キー含有率を用いて行うよ
うにすることもできる。
【0015】このような文書絞り込み検索装置によれ
ば、出現検索キー含有率、重み出現検索キー含有率を利
用してユーザーが意図するであろう文書をより効率のよ
い絞り込み検索を行うことが可能となる。
【0016】さらに、前記文書絞り込み検索装置におい
て、前記検索キーの出現回数の割合の値のうち予め指定
した値以上に対応する文書のみを検索対象文書の絞り込
み結果とすることにより、ユーザーが意図するであろう
文書の参照数を少なくし、検索対象文書の絞り込み作業
時間を短縮でき、絞り込み作業率を向上できる。
【0017】また、前記文書絞り込み検索装置におい
て、前記検索キーの出現回数の割合の値に応じて検索対
象文書の絞り込み結果の順序を入れ替えることで、ユー
ザーが意図するであろう文書を前記検索キーの出現回数
の割合の値の大きい順に参照することが可能となり、所
望の文書の絞り込み作業率を一段と向上できる。
【0018】本発明の文書絞り込み検索方法によれば、
上述した文書絞り込み検索装置を使用して、文書登録
順、日付、検索キーの出現位置等文書内容と直接関係な
い事項を省き、多種、多様の検索対象文書に対して効率
よく所望の文書の絞り込み検索を行うことが可能とな
る。
【0019】また、本発明は、検索対象文書に対し検索
キーを使用して絞り込み検索を行う文書検索装置におい
て、少なくとも検索キーが入力できる入力手段と、この
入力手段から入力した検索キーを用いて検索対象文書を
検索し、検索対象文書中の検索キーの出現回数を算出す
る手段と、検索対象文書の文書容量を求める手段と、前
記検索対象文書中の検索キーの出現回数の検索対象文書
の文書容量に対する割合により、検索対象文書の絞り込
みを行う手段と、この絞り込みを行う手段による絞り込
み結果を出力する出力手段とを有することを特徴とする
ものである。
【0020】この文書検索装置によれば、検索キーの出
現回数の検索対象文書の文書容量に対する割合により正
規化して、検索対象文書の絞り込みを行うものであるか
ら、文書登録順、日付、検索キーの出現位置等文書内容
と直接関係ない事項が省かれ、多種、多様の検索対象文
書に対して効率よく所望の文書の絞り込みを行って、そ
の結果を出力手段から得ることができる。
【0021】
【発明の実施の形態】以下、本発明の文書絞り込み検索
装置の実施の形態を図面を参照しながら説明する。
【0022】図1は、本実施の形態の文書絞り込み検索
装置のブロック図であり、CPU、メモリーから構成さ
れる制御装置1と、キーボード等の入力装置2と、各種
検索データ、テキストデータ等を表示する表示装置3
と、文書容量が異なる多種、多様の検索対象文書等を格
納する外部記憶装置4とを有して構成されている。
【0023】図2、図3は、前記制御装置3の詳細構成
例を示したブロック図である。この制御装置3は、制御
部100とメモリ部110とを具備している。
【0024】前記制御部100は、各種制御や処理を実
行する部分で、メイン処理部200、初期化部201、
入力部202、出力部203、検索キー入力部204、
検索キー重み設定部205、検索部206、検索キー出
現回数カウント部207、検索キー文字列カウント部2
08、出現検索キー文字数カウント部209、重み出現
検索キー文字数カウント部210、検索対象文字列カウ
ント部211、出現検索キー含有率算出部212、重み
出現検索キー含有率算出部213、出現検索キー文字数
出力部214、出現検索キー含有率出力部215、重み
出現検索キー含有率出力部216、閾値設定部217等
から構成されている。
【0025】前記メモリ部110は、検索キー文字列バ
ッファ部231、検索回答バッファ部232、検索キー
出現回数バッファ部233、検索キー文字列長バッファ
部234、出現検索キー文字数バッファ部235、重み
出現検索キー文字数バッファ部236、検索対象文字列
バッファ部237、出現検索キー含有率バッファ部23
8、重み出現検索キー含有率バッファ部239、検索キ
ー重みバッファ部240、閾値バッファ部241、作業
バッファ部250等から構成されている。
【0026】ここで、初期化部201は、前記各バッフ
ァ部の初期化を行う。また、入力部202は、入力装置
2からのユーザの任意のキーワードから構成されている
検索キーの入力、本文書検索絞り込み装置の操作指示を
行う。
【0027】出力部203は、入力部202により行っ
た検索キー、文書内容や検索回答を表示装置3に出力す
る。
【0028】検索キー入力部204は、入力装置2から
入力された検索キーを検索キー文字列バッファ部231
に格納する。
【0029】検索キー重み設定部205は、入力装置2
から入力された各検索キーの重みを検索キー重みバッフ
ァ部240に格納する。
【0030】検索部206は、検索キー文字列バッファ
部231に格納されている検索式に該当する文書を外部
記憶装置4から検索し、その文書数および合致した文書
ID(文書識別情報)を検索回答バッファ部232に格
納する。
【0031】検索キー出現回数カウント部207は、検
索回答バッファ部232に格納されている文書IDに対
応する各文書について、検索キー文字列バッファ部23
1に格納されている検索式の各検索キーの出現回数をカ
ウントし、各検索キー別の出現回数を検索キー出現回数
バッファ部233に格納する。
【0032】検索キー文字列カウント部208は、検索
キー文字列バッファ部231に格納されている検索式の
各検索キーの文字列長をカウントし、検索キー文字列長
バッファ部234に格納する。
【0033】出現検索キー文字数カウント部209は、
検索された文書毎に、各検索キー別の出現回数が格納さ
れている検索キー出現回数バッファ部233と、各検索
キーの文字列長が格納されている検索キー文字列長バッ
ファ部234とから各検索キーの出現回数と各検索キー
の文字列長とを読み出し、検索キーの出現回数にその検
索キーの文字列長を乗算した値を出現検索キー文字数バ
ッファ部235に格納する。
【0034】そして、各文書毎に各検索キーの値を総和
し、出現検索キー文字数バッファ部235に格納する。
【0035】重み出現検索キー文字数カウント部210
は、各検索キーの重みが格納されている検索キー重みバ
ッファ部240と、検索キーの出現回数にその検索キー
の文字列長を乗算した値が格納されている出現検索キー
文字数バッファ部235とを参照し、出現検索キー文字
数バッファ部235に格納されている各値に、その検索
キーの重みを乗算した値を重み出現検索キー文字数バッ
ファ部236に格納する。そして、文書毎に各検索キー
の値を総和し、出現検索キー文字数バッファ部236に
格納する。
【0036】検索対象文字列カウント部211は、検索
回答バッファ部232に格納されている文書IDに対応
する文書中の総文字列長を検索対象文字列バッファ部2
37に格納する。
【0037】出現検索キー含有率算出部212は、文書
毎に各検索キーの文字列長の総和が格納されている出現
検索キー文字数バッファ部235と、文書中の総文字列
長が格納されている検索対象文字列バッファ部237と
を参照し、文書毎に各検索キーの文字列長の総和をその
文書中の総文字列長で除算した値を出現検索キー含有率
バッファ部238に格納する。
【0038】重み出現検索キー含有率算出部213は、
出現検索キー文字数バッファ部236と、文書中の総文
字列長が格納されている検索対象文字列バッファ部23
7とを参照し、文書毎に各検索キーの文字列長の総和を
その文書中の総文字列長で除算した値である重み出現検
索キー含有率を重み出現検索キー含有率バッファ部23
9に格納する。
【0039】出現検索キー文字数出力部214は、出現
検索キー文字数バッファ部235に格納されている検索
キーの出現回数にその検索キーの文字列長を乗算した値
を出力装置3に出力する。
【0040】出現検索キー含有率出力部215は、出現
検索キー含有率バッファ部238に格納されている値を
出力装置3に出力する。
【0041】重み出現検索キー含有率出力部216は、
重み出現検索キー含有率バッファ部239に格納されて
いる重み出現検索キー含有率の値を出力装置3に出力す
る。閾値設定部217は、ユーザが入力装置2より、検
索結果として得る各文書の閾値を設定する。この閾値以
上の文書を検索結果とする。また、閾値は、閾値バッフ
ァ部241に格納される。
【0042】この閾値は、ユーザの意図する文書である
度合いを示すものであり、各文書に対してその文書に含
まれている検索キーの文字数の割合を示す値である。
【0043】次に本実施の形態の動作について説明す
る。
【0044】出現検索キー文字数カウントによる検索の
流れを図4に、出現検索キー含有率による検索の流れを
図5に、重み出現検索キー含有率による検索の流れを図
6に各々示して説明する。
【0045】まず、出現検索キー文字数カウントによる
検索の流れを図4を参照して説明する。前記初期化部2
01が起動し、全バッファ部231乃至250をクリア
する(ステップS401)。次に、検索キー入力部20
4が起動し、入力装置2により、図17に示すように、
検索式を入力すると、入力された検索キーはそのまま図
7に示すように検索キー文字列バッファ部231に格納
される(ステップS402)。
【0046】また、ステップS402において、閾値設
定部217が起動し、検索結果の目安とする閾値の設定
を行うと、その閾値情報が閾値バッファ部241に格納
される。
【0047】続いて、検索部206が起動し、検索キー
文字列バッファ部231の検索式を取り出し、外部記憶
装置4に保存されている検索対象文章中からこの検索式
に合致する文書を検索し、その件数とその文書IDを図
8に示すように検索回答バッファ部232に格納する
(ステップS403)。
【0048】図8に示す例では、回答件数が28件、文
書ID=3,42,355,…であったことを表してい
る。
【0049】そして、検索キー出現回数カウント部20
7が起動し、検索キー文字列バッファ部231から検索
キーを取り出し、検索回答バッファ部232に格納され
ている文書IDに対応する文書について外部記憶装置4
を参照することにより前記各検索キーの出現回数を求
め、その求めた値を図9に示すように検索キー出現回数
バッファ部233に格納する(ステップS404)。
【0050】次に、検索キー文字列カウント部208が
起動し、検索キー文字列バッファ部231から検索キー
を取り出し、各検索キーの文字列長をカウントして求
め、その求めた値を図10に示すように検索キー文字列
長バッファ部234に格納する(ステップS405)。
【0051】続いて、出現検索キー文字数カウント部2
09が起動し、検索キー出現回数バッファ部233と、
検索キー文字列長バッファ部234を参照して、各文書
における各検索キーの総出現文字列長をカウントして求
め、図11に示すように出現検索キー文字数バッファ部
235に格納する(ステップS406)。図11に示す
例では、文書ID=3においては、検索キー「画像」
「解析」「機」がそれぞれ1回、2回、6回出現してい
ることから、検索キーの文字列長はそれぞれ4、8、1
2となり、総和が28になっている。
【0052】そして、出現検索キー文字数出力部214
が起動し、出現検索キー文字列バッファ部235に格納
されている検索結果を出力装置3に出力する(ステップ
S407)。ステップS407で、閾値バッファ241
に閾値が設定されていれば、その閾値に合致する文書I
Dのみを検索結果として出力する。また、閾値の値に応
じて出力順位を変えることできる。
【0053】次に、出現検索キー含有率による検索の流
れを図5を参照して説明する。
【0054】まず、初期化部201が起動し、各バッフ
ァ部231乃至250をクリアにする(ステップS50
1)。また、検索キー入力部204が起動し、図17に
示すように入力装置2より検索式を入力すると、入力さ
れた検索キーはそのまま図13に示すように検索キー文
字列バッファ部237に格納される(ステップS50
2)。
【0055】次に、ステップS502において、閾値設
定部217が起動し、検索結果とする閾値の設定を行う
と、その閾値情報が閾値バッファ部241に格納され
る。続いて、検索部206が起動し、検索キー文字バッ
ファ部231の検索式を取り出し、外部検索装置4に保
存されている検索対象文章中からこの検索式に合致する
文書を検索して(ステップS503)、その件数とその
文書IDを図8に示すように検索回答バッファ部232
に格納する。
【0056】図8に示す例では、回答件数が28件、文
書ID=3,42,355,…であったことを表してい
る。そして、検索キー出現回数カウント部207が起動
し、検索キー文字列バッファ数231から検索キーを切
り出し、検索回答バッファ部232に格納されている文
書IDの文書を外部検索装置4から取り出し、各検索キ
ーの出現回数を求め、その求めた値を図9に示すように
検索キー出現回数バッファ部233に格納する(ステッ
プS504)。
【0057】次に、検索キー文字列カウント部208が
起動し、検索キー文字列バッファ部231から検索キー
を切り出し、各検索キーの文字列長を求め、その求めた
値を図10に示すように検索キー文字列長バッファ部2
34に格納する(ステップS505)。続いて、出現検
索キー文字数カウント部209が起動し、検索キー出現
回数バッファ部233と、検索キー文字列長バッファ部
234を参照して、各文書における検索キーの総出現文
字列長を求め、図11に示すように出現検索キー文字列
バッファ部235に格納する(ステップS506)。
【0058】図11に示す例では、文書ID=3におい
ては、検索キー「画像」「解析」「機」がそれぞれ1
回、2回、6回出現していることから検索キーの文字列
長はそれぞれ4、8、12となり、総和が28になって
いる。
【0059】そして、検索対象文字列カウント部211
が起動し、検索回答バッファ部232に格納されている
文書IDにおける文書の総文字列数を図13に示すよう
に検索対象文字列バッファ部237に格納する(ステッ
プS507)。次に、出現検索キー含有率算出部212
が起動し、文書ID毎総出現検索キー文字数をその文書
文字数で除算した値を出現検索キー含有率として、図1
4に示すように出現検索キー含有率バッファ部238に
格納する(ステップS508)。
【0060】そして、出現検索キー含有率出力部215
起動し、出現検索キー含有率バッファ部238に格納さ
れている検索結果を図19に示すように出力装置3に出
力する(ステップS509)。ステップS509におい
て、閾値バッファ241に閾値が設定されていれば、そ
の閾値に合致する文書IDのみを検索結果として出力す
る。また、閾値で出力順位を変えることもできる。
【0061】次に、重み出現検索キー含有率による検索
の流れを図6を参照して説明する。
【0062】まず、初期化部201が起動し各バッファ
部231乃至250をクリアにする(ステップS60
1)。検索キー入力部204が起動し、図17に示すよ
うに、入力装置2より検索式を入力し、入力された検索
式はそのまま図7に示すように検索キー文字列バッファ
部231に格納される(ステップS602)。
【0063】次に、閾値設定部217が起動し、検索結
果とする閾値(例えば0.1)の設定を行うと、その閾
値情報が図20に示すように閾値バッファ部241に格
納される。そして、検索キー重み設定部205が起動し
て、検索キー文字列バッファ部231に格納されている
検索キーについて、ユーザは特に重要と思われる検索キ
ーに他の検索キーよりも重みを置いて検索することがで
き、入力装置2より図18に示すように重み(画像=
3、解析=2、機=1)を各検索キーに設定し、検索条
件を設定すると、その重みは図16に示すように検索キ
ー重みバッファ部240に格納される(ステップS60
3)。
【0064】続いて、検索部206が起動し、検索キー
文字列バッファ部231の検索式を取り出し、外部記憶
装置4に保存されている検索対象文章中からこの検索式
に合致する文書を取り出しその件数とその文書IDを図
8に示す検索回答バッファ部232に格納する(ステッ
プS604)。図8に示す例では、回答件数が28件、
文書ID=3,42,355,…あることを表してい
る。
【0065】そして、検索キー出現回数カウント部20
7が起動し、検索キー文字列バッファ部231から検索
キーを取り出し、検索回答バッファ部232に格納され
ている文書IDの文書を外部記憶装置4から取り出し、
各検索キーの出現回数を求め、その求めた値を図9に示
すように検索キー出現回数バッファ部233に格納する
(ステップS605)。
【0066】次に、検索キー文字列カウント部208が
起動し、検索キー文字列バッファ部231から検索キー
を切り出し、各検索キーの文字列長を求め、その求めた
値(画像=4、解析=4、機=2)を図10に示すよう
に検索キー文字列長バッファ部234に格納する(ステ
ップS606)。続いて、重み出現検索キー文字数カウ
ント部210が起動し、検索キー出現回数バッファ部2
33と、検索キー文字列長バッファ部234を参照し
て、各文書における検索キーの総出現文字列長を求め、
これに検索キー重みバッファ部240に格納される各検
索キーの重みを乗算してその値を図12に示すように重
み出現検索キー文字列バッファ部236に格納する(ス
テップS607)。
【0067】図12に示す例では、文書ID=3におい
ては、検索キー「画像」「解析」「機」がそれぞれ1
回、2回、6回出現しているので、検索キーの文字列長
はそれぞれ4、8、12となり、さらに各検索キーの重
み図18に示すようにそれぞれ3、2、1とした場合、
その重みを乗算し、それぞれ12、16、12となり、
その総和が40になっている。
【0068】そして、検索対象文字列カウント部211
が起動し、検索回答バッファ部232に格納されている
文書IDにおける文書の総文字列数を図13に示すよう
に検索対象文字列バッファ部237に格納する(ステッ
プS608)。
【0069】次に、重み出現検索キー含有率算出部21
3が起動し、文書ID毎に総重み出現検索キー文字数を
その文書文字数で除算した値(文書ID3=0.20、
文書ID42=0.38、文書ID233=0.112
5)を図15に示すように重み出現検索キー含有率とし
て、重み出現検索キー含有率バッファ部239に格納す
る(ステップS609)。
【0070】そして、重み出現検索キー含有率出力部2
16が起動し、重み出現検索キー含有率バッファ部23
9に格納されている検索結果を出力装置3に出力する
(ステップS610)。ステップS610において、閾
値バッファ241に閾値が指定されていれば、その閾値
に合致する文書IDのみを検索結果として出力する。ま
た、閾値で出力順位を変えることもできる。
【0071】尚、上述した実施の形態では、検索キーで
ある画像、解析、機を論理積結合した場合について説明
したが、これらの検索キーを論理和結合して文書検索を
行う場合においても本発明は適用可能である。
【0072】
【発明の効果】以上説明した本発明によれば、以下の効
果を奏する。
【0073】本発明によれば、検索キーの出現回数の検
索対象文書の文書容量に対する割合により正規化して、
検索対象文書の絞り込みを行うものであるから、文書登
録順、日付、検索キーの出現位置等文書内容と直接関係
ない事項が省かれ、多種、多様の検索対象文書に対して
効率よく所望の文書の絞り込み検索を行うことが可能な
文書絞り込み検索装置を提供することができる。
【0074】また、本発明の文書絞り込み検索方法によ
れば、上述した文書絞り込み検索装置を使用して、文書
登録順、日付、検索キーの出現位置等文書内容と直接関
係ない事項を省き、多種、多様の検索対象文書に対して
効率よく所望の文書の絞り込み検索を行うことが可能と
なる。
【0075】さらに、本発明によれば、検索キーの出現
回数の検索対象文書の文書容量に対する割合により正規
化して、検索対象文書の絞り込みを行うものであるか
ら、文書登録順、日付、検索キーの出現位置等文書内容
と直接関係ない事項が省かれ、多種、多様の検索対象文
書に対して効率よく所望の文書の絞り込みを行って、そ
の結果を出力手段から得ることができる文書検索装置を
提供することができる。
【図面の簡単な説明】
【図1】本発明の実施の形態装置の概略構成を示すブロ
ック図である。
【図2】本発明の実施の形態装置の制御部及びメモリ部
の構成を示すブロック図である。
【図3】本発明の実施の形態装置の全体の詳細な構成を
示すブロック図である。
【図4】本発明の実施の形態装置の出現検索キー文字数
カウントによる検索の流れを示すフローチャートであ
る。
【図5】本発明の実施の形態装置の出現検索キー含有率
による検索の流れを示すフローチャートである。
【図6】本発明の実施の形態装置の重み出現検索キー含
有率による検索の流れを示すフローチャートである。
【図7】本発明の実施の形態装置の検索キー文字列バッ
ファ部の格納例を示す説明図である。
【図8】本発明の実施の形態装置の検索回答バッファ部
の格納例を示す説明図である。
【図9】本発明の実施の形態装置の検索キー出現回数バ
ッファ部の格納例を示す説明図である。
【図10】本発明の実施の形態装置の検索キー文字列数
バッファ部の格納例を示す説明図である。
【図11】本発明の実施の形態装置の出現検索キー文字
数バッファ部の格納例を示す説明図である。
【図12】本発明の実施の形態装置の重み出現検索キー
文字数バッファ部の格納例を示す説明図である。
【図13】本発明の実施の形態装置の検索対象文字列数
バッファ部の格納例を示す説明図である。
【図14】本発明の実施の形態装置の出現検索キー含有
率バッファ部の格納例を示す説明図である。
【図15】本発明の実施の形態装置の重み出現検索キー
含有率バッファ部の格納例を示す説明図である。
【図16】本発明の実施の形態装置の検索キー重みバッ
ファ部の格納例を示す説明図である。
【図17】本発明の実施の形態装置の検索式入力画面を
示す説明図である。
【図18】本発明の実施の形態装置の検索キー重みつけ
と閾値設定画面を示す説明図である。
【図19】本発明の実施の形態装置の検索結果出力画面
を示す説明図である。
【図20】本発明の実施の形態装置の閾値バッファ部の
格納例を示す説明図である。
【符号の説明】
1 制御装置 2 入力装置 3 表示装置 4 外部記憶装置 100 制御部 110 メモリ部 200 メイン処理部 204 検索キー入力部 205 検索キー重み設定部 206 検索部 207 検索キー出現回数カウント部 208 検索キー文字列カウント部 209 出現検索キー文字数カウント部 210 重み出現検索キー文字数カウント部 212 出現検索キー含有率算出部 215 出現検索キー含有率出力部 217 閾値設定部 231 検索キー文字列バッファ部 233 検索キー出現回数バッファ部 235 出現検索キー文字数バッファ部 237 検索対象文字列バッファ部 238 出現検索キー含有率バッファ部 239 重み出現検索キー含有率バッファ部 240 検索キー重みバッファ部 241 閾値バッファ部

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 検索対象文書に対し検索キーを使用して
    絞り込み検索を行う文書絞り込み検索装置において、 少なくとも検索キーが入力できる入力手段と、 この入力手段から入力した検索キーを用いて検索対象文
    書を検索し、検索対象文書中の検索キーの出現回数を算
    出する手段と、 検索対象文書の文書容量を求める手段と、 前記検索対象文書中の検索キーの出現回数の検索対象文
    書の文書容量に対する割合により、検索対象文書の絞り
    込みを行う手段と、 を有することを特徴とする文書絞り込み検索装置。
  2. 【請求項2】 前記検索対象文書の絞り込みは、検索対
    象文書の検索対象文字数に対するこの検索対象文書に出
    現する検索キー文字数の割合を示す出現検索キー含有率
    を用いて行うことを特徴とする請求項1記載の文書絞り
    込み検索装置。
  3. 【請求項3】 前記検索対象文書の絞り込みは、検索対
    象文書の検索対象文字数に対するこの検索対象文書に出
    現する予め重みの軽重を付けた検索キー文字数の割合を
    示す重み出現検索キー含有率を用いて行うことを特徴と
    する請求項1記載の文書絞り込み検索装置。
  4. 【請求項4】 前記文書絞り込み検索装置において、前
    記検索キーの出現回数の割合の値のうち予め指定した値
    以上に対応する文書のみを検索対象文書の絞り込み結果
    とすることを特徴とする請求項1乃至3のいずれかに記
    載の文書絞り込み検索装置。
  5. 【請求項5】 前記文書絞り込み検索装置において、前
    記検索キーの出現回数の割合の値に応じて検索対象文書
    の絞り込み結果の順序を入れ替えることを特徴とする請
    求項1乃至3のいずれかに記載の文書絞り込み検索装
    置。
  6. 【請求項6】 検索対象文書に対し検索キーを使用して
    絞り込み検索を行う文書絞り込み検索方法において、 入力手段により少なくとも検索キーを入力し、この入力
    手段から入力した検索キーを用いて検索対象文書を検索
    し、検索対象文書中の検索キーの出現回数を算出すると
    ともに、検索対象文書の文書容量を求め、前記検索対象
    文書中の検索キーの出現回数の検索対象文書の文書容量
    に対する割合により、検索対象文書の絞り込みを行うこ
    と、 を特徴とする文書絞り込み検索方法。
  7. 【請求項7】 前記検索対象文書の絞り込みは、検索対
    象文書の検索対象文字数に対するこの検索対象文書に出
    現する検索キー文字数の割合を示す出現検索キー含有率
    又は検索対象文書の検索対象文字数に対するこの検索対
    象文書に出現する予め重みの軽重を付けた検索キー文字
    数の割合を示す重み出現検索キー含有率を用いて行うこ
    とを特徴とする請求項4記載の文書絞り込み検索方法。
  8. 【請求項8】 検索対象文書に対し検索キーを使用して
    絞り込み検索を行う文書絞り込み検索装置において、 少なくとも検索キーが入力できる入力手段と、 この入力手段から入力した検索キーを用いて検索対象文
    書を検索し、検索対象文書中の検索キーの出現回数を算
    出する手段と、 検索対象文書の文書容量を求める手段と、 前記検索対象文書中の検索キーの出現回数の検索対象文
    書の文書容量に対する割合により、検索対象文書の絞り
    込みを行う手段と、 この絞り込みを行う手段による絞り込み結果を出力する
    出力手段と、 を有することを特徴とする文書検索装置。
JP8227068A 1996-08-28 1996-08-28 文書絞り込み検索装置、文書絞り込み検索方法及び文書検索装置 Pending JPH1069490A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8227068A JPH1069490A (ja) 1996-08-28 1996-08-28 文書絞り込み検索装置、文書絞り込み検索方法及び文書検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8227068A JPH1069490A (ja) 1996-08-28 1996-08-28 文書絞り込み検索装置、文書絞り込み検索方法及び文書検索装置

Publications (1)

Publication Number Publication Date
JPH1069490A true JPH1069490A (ja) 1998-03-10

Family

ID=16855036

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8227068A Pending JPH1069490A (ja) 1996-08-28 1996-08-28 文書絞り込み検索装置、文書絞り込み検索方法及び文書検索装置

Country Status (1)

Country Link
JP (1) JPH1069490A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002333819A (ja) * 2001-05-10 2002-11-22 Nec Corp 学習項目編成システム、学習項目特定装置、および学習項目特定プログラム
JP2015022568A (ja) * 2013-07-19 2015-02-02 富士通株式会社 情報処理プログラム、装置、及び方法
JP2016015179A (ja) * 2015-10-28 2016-01-28 ヤフー株式会社 検索装置、及び検索方法
JP2016536659A (ja) * 2013-09-30 2016-11-24 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. 内容ベースの医療マクロのソート及び検索システムのためのシステム及び方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002333819A (ja) * 2001-05-10 2002-11-22 Nec Corp 学習項目編成システム、学習項目特定装置、および学習項目特定プログラム
JP2015022568A (ja) * 2013-07-19 2015-02-02 富士通株式会社 情報処理プログラム、装置、及び方法
JP2016536659A (ja) * 2013-09-30 2016-11-24 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. 内容ベースの医療マクロのソート及び検索システムのためのシステム及び方法
JP2016015179A (ja) * 2015-10-28 2016-01-28 ヤフー株式会社 検索装置、及び検索方法

Similar Documents

Publication Publication Date Title
US20060106767A1 (en) System and method for identifying query-relevant keywords in documents with latent semantic analysis
KR970076328A (ko) 문서 정보 검색 시스템
JPH11120203A (ja) データベースを合併する方法およびデータベースからドキュメントを検索する装置
JP2872706B2 (ja) 情報検索装置
JPH1069490A (ja) 文書絞り込み検索装置、文書絞り込み検索方法及び文書検索装置
JPH064584A (ja) 文章検索装置
JPH0773197A (ja) 異表記語辞書作成支援装置
JP3162907B2 (ja) 文書データ検索装置
JP2732661B2 (ja) テキスト型データベース装置
JPS6325774A (ja) 情報登録検索装置
JP4024906B2 (ja) タグ付文書検索システム
JPH06325091A (ja) 類似度評価型データベース検索装置
JP2682448B2 (ja) 索引検索方式
JPH10232871A (ja) 検索装置
JPH10124524A (ja) 文書検索装置及び文書検索方法
JP2002117043A (ja) 文書検索装置、文書検索方法およびその方法を実施するためのプログラムを記録した記録媒体
JPH06195386A (ja) データ検索装置
JPH0535798A (ja) データベース検索装置
JP3446866B2 (ja) データベース作成装置および方法
JPH0514304B2 (ja)
JPH08305695A (ja) 文書処理装置
JPH08249341A (ja) 文書データベースの文書格納・検索装置
JPH11126208A (ja) データ処理装置
JP2000172716A (ja) 文書検索装置および文書検索方法
JPH05128153A (ja) 情報検索装置