JPH0241564A - 文書検索装置 - Google Patents

文書検索装置

Info

Publication number
JPH0241564A
JPH0241564A JP63190585A JP19058588A JPH0241564A JP H0241564 A JPH0241564 A JP H0241564A JP 63190585 A JP63190585 A JP 63190585A JP 19058588 A JP19058588 A JP 19058588A JP H0241564 A JPH0241564 A JP H0241564A
Authority
JP
Japan
Prior art keywords
file
search
keyword
document
accuracy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP63190585A
Other languages
English (en)
Inventor
Yasutsugu Ogawa
泰嗣 小川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP63190585A priority Critical patent/JPH0241564A/ja
Publication of JPH0241564A publication Critical patent/JPH0241564A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は文書検索装置、とくに、検索時に利用者の感覚
に近いキーワード群を生成でき、さらに、検索結果が利
用者の検索要求に近い順序で検索評価が得られる柔軟で
高速な文書検索装置に関する。
(従来の技術) 従来の文書検索装置は、その登録・検索方式の違いによ
って以下の2種類に大別される。
1)文書登録時に登録オイレータが適切と思われるキー
ワードを選択し、書誌的事項と共に登録を行い、文書検
索時には検索装置利用者がシソーラス(キーワード集)
の中から適切と思われるキーワードを指示することによ
って検索を行う装置。
2)文書登録時には書誌的事項と文書内容のみを登録し
ておき、文書検索時に検索利用者がフリーキーワード検
索を行う装置。
上記2種類の装置のうち、1)はインノ々−テッドファ
イルを持たせることもでき、高速検索が可能である。し
かし、キーワードのための記憶容量負担がかかることや
登録オイレータが選択するキーワードの妥当性、シソー
ラスによる分類・更新作業の煩雑性および妥当性が大き
な問題となっている。また、2)は記憶容量負担が小さ
くて済み、指示されたキーワードを含む文書の有無が明
確であり、分類作業が不要であるなどの利点を持つが、
全文検索であるため検索時間がかかり同義語処理などの
あいまい検索に向いていない。さらに、従来の文書検索
装置は、利用者が指定した検索条件を満たしているか否
かだけが各ファイルの評価の基準となっている。
(発明が解決しようとする課題) 従来の文書検索装置はファイルが“ある”“ない”の2
値論理で構成されているので、利用者が指定した検索条
件を完全ではないがほぼ満たしているような文書を検索
するのにもう一度検索を実行しなければならない、およ
び利用者が指定した検索条件を満たすものがまったく無
い場合、検索条件に最も近い文書を検索することができ
なく極めて面倒である々どの欠点がある。また、登録・
検索方式がキーワード指定方式では上述のように記憶容
量が大きくなり、作業性が悪くなる。フリーキーワード
式では、検索時間が長くなシ、あいまい検索に適しない
という欠点がある。
本発明はこのような従来の技術の欠点を解消し、検索時
に利用者の感覚に近いキーワード群を生成し、利用者の
検索要求に近い順序で検索結果を出力し、柔軟かつ高速
な文書検索ができる文書検索装置を提供することを目的
とする。
(課題を解決するための手段) 上記の目的を達成するために、本発明は、登録文書およ
びその文書情報がファイルに登録される際、文書情報よ
りキーワードを抽出するキーワード抽出手段と、登録文
書とキーワードとの間の関連を示すインバーテツドファ
イルを作成するインバーテツドファイル作成手段と、キ
ーワード間の関連情報を記述したキーワードコネクショ
ン表を作成し、既に記録されている関連情報の値を変更
し、新規関連情報を生成するキーワードコネクション表
処理手段と、入力されたキーワードによりキーワードコ
ネクション表およびインバーテツドファイルから検索条
件に合致した文書を選出する文書選出手段とを有する文
書検索装置において、文書選出手段が、特定のキーワー
ド群と各ファイル内の登録文書のキーワード群間の関連
の強さを示す値をファイル確度と定義し、キーワードコ
ネクション表、インバーテツドファイルおよび所定の方
法でキーワード間の関連度を求め、関連度を利用者の指
定する検索式に入力してファイル確度を計算するファイ
ル確度計算手段と、入力されたファイル確度を閾値とし
、閾値以上のファイルを検索し、各ファイルの検索結果
をファイル確度の大きさの順に出力する閾値制御ファイ
ル検索手段と、入力されたファイル確度およびファイル
数よりこのファイル確度以上のファイルを検索し、検索
結果をファイル確度の大きさの順にファイル数だけ出力
するファイル数制御ファイル検索手段とを有し、検索式
とファイル確度またはファイル数が入力されると、ファ
イル確度以上のファイルを検索し、その結果を出力する
閾値型あいまい検索、またはファイル確度以上の検索結
果を上位より前記ファイル数だけ出力するファイル数型
あいまい検索を行なうことを特徴とする。
(作 用) 利用者が入力する登録文書およびその文書情報カラキー
ワードを抽出して、キーワード間の関連を示すキーワー
ドコネクション表と、登録文書とキーワード間の関連を
示すインパテラドファイルを備え、キーワードと文書の
登録・検索が行われる文書検索装置において、ファイル
確度計算手段は、利用者が入力する検索式に従い、キー
ワードコネクション表およびインバーテツドファイルを
用いて特定のキーワードに対するファイル確度を計算す
る。ファイル確度は閾値制御ファイル検索手段およびフ
ァイル数制御ファイル数検索手段に入力される。前者は
利用者が指定するファイル確度以上のファイル検索を行
ない、ファイル確度の大きさの順に出力する。後者はフ
ァイル確度以上のファイル検索の結果をファイル確度の
大きさの順に、かつ利用者の指定する数だけ出力する。
利用者は検索式とファイル確度を入力する閾値型あいま
い検索およびこれにファイル数を付加したファイル数型
あいまい検索を行なうことができる。
(実施例) 次に、本発明の文書検索装置の実施例を添付図面を参照
して説明する。
本発明では、動的キーワードコネクションという新しい
概念を導入した。次に、動的キーワードコネクションと
文書データベースの概念を示す第2図を用いて本発明の
詳細な説明する。
第2図に示すように文書データベース中の各文書(41
,$2.$3.・・・ +N)は、インバーテツドファ
イル4によって文書≠19文書≠2.・・・1文書≠N
中に含まれるキーワード3aと対応づけられている。さ
らに、キーワード層3はキーワード3aとキーワードコ
ネクション3bと呼ばれるキーワード間の関連情報とか
ら構成されている。関連情報は、関係名・重み(数値)
・方向(重みの符号)等から成9、個係名の例としては
「同義語」「類義語」「同−文書内に有りJrIS−A
関係J r l5−PART−OF関係」等々が用いら
れる。また、重み・方向は関係の強さ・方向を表し、検
索利用者のキーワードアクセスによって数値が変更され
ていく。
これらの数値はアクセス頻度・履歴等に応じて変更され
るため、頻繁に使用されるキーワード3mや使われかた
の具合によって、キーワード層3全体として次第に検索
利用者の語粟・感覚に近づいてゆく。すなわち、キーワ
ードコネクジョン3bが動的キーワード0コネクシヨン
として次第に形成される。
ここで、任意の2つのキーワード38間の関連度が、キ
ーワードコネクション3b上に実在するコネクション(
直接コネクション)の重みと関係名の情報を用いて定義
できる。さらに検索者の指定したキーワード群と各キー
ワードとの関係の強さ(キーワード確度)や、検索者の
指定したキーワード群と各ファイルとの関係の強さ(フ
ァイル確度)も前述の重みの関数として定義できる。任
意の2キ一ワード間の関連度やキーワード確度・ファイ
ル確度が得られると、検索しようとする文書に適したキ
ーワード群を選択する際、検索利用者は文書検索装置と
の対話によりキーワード群を主題に適して洗練させてい
くことができるのが特徴である。
この動的キーワードコネクションは第5図に示すキーワ
ードコネクション表で管理することができる。次に、本
発明の文書検索装置の具体的な一実施例を第1図のブロ
ック図により説明する。登録される文書の一例を第4図
(、)、その書誌情報の例を同図(b)に示す。
キーワード抽出部10は、登録文書11を入力すると、
そのキーワードを抽出し、キーワードおよび登録文書1
1を文書情報管理部20、キーワード38間・ジョン表
処理部30、インバーテツドファイル作成部40へ出力
する。
文書情報管理部20は、キーワードと書誌情報をファイ
ル21に格納し、検索時に利用可能な形にデータベース
化する。ファイル21は第2の文書データベース2に対
応している。
キーワードコネクション表処理部30は、必要なキーワ
ードとキーワードコネクション(以下関連情報と呼ぶ)
を評価したキーワードコネクション表を作成して、ファ
イル31に格納スる。このファイルは第4図のキーワー
ド層3に対応している。さらに、要求処理部54からの
要求があれば、関連情報の重みを変更する。具体的には
、ファイル31のキーワードコネクション表は次のよう
に洗練される。第7図の文書登録前のキーワードコネク
ション表は、第8図の登録後のコネクション表となり、
間接コネクションとその関連度が加えられると第9図の
表となる。関連情報の重みの変更方法は、現在のコネク
ション表を第9図とすると、指定されたキーワード群が
(R社、通信、画像、神経細胞)であると、第9図に第
10図の薄いメツシュ部分には+5の、濃いメツシュ部
分には+10の加重を施して第10図の表を作成する。
また、キーワードコネクション表には変更時に検索要求
以前存在しなかった新しいコネクションの生成も行われ
る。
文書選出部50は各部51〜59よりなる。
要求処理部54は、受理したキーワードあるいは複数の
キーワードによって表現された検索式と関連のあるキー
ワードをキーワードコネクション表の中から選択するた
めにキーワード関連度・確度計算部52に対して、また
は、検索要求にあったファイルを検索するためにファイ
ル確度計算部51に対して、受理した検索式を転送する
。同時に、必要があれば、最終的なキーワード群に関す
る関連情報の重みの変更をキーワードコネクション表処
理部30に指示する。
キーワード間開速度・確度計算部52は、キーワードコ
ネクション上に実在するコネクション(直接コネクショ
ン)の関連度と関係名とから任意の2キ一ワード間の関
連度を計算し、キワードコネクション表に格納する。そ
の際、直接的な関連情報は存在しないが他のキーワード
を介して間接的に関連が存在する(1つ以上の径路が存
在する)場合、それら2キ一ワード間には間接コネクシ
ョンが存在するといい、キーワード間開速度の計算式に
基づいて間接コネクションの関連度が計算できる。直接
コネクションも間接コネクションも存在しないような2
キ一ワード間には関連がないものとし、関連度は“O″
とする。
キーワードソート部56はキーワード関連度・確度計算
部52が各キーワードごとに求めたキーワードの確度の
大きい順に全キーワードをソ−卜する。
ファイル確度計算部51は利用者の指定した検索条件(
検索式)に基づいて、各ファイルごとにファイル確度を
計算する。検索式は正規化されたキーワード関連度で記
述されているので、まずキーワード関連度を正規化する
作業を行なう。ファイル確度の計算法を以下に説明する
ただし、次の2つの点が前提条件として仮定されている
1) 任意のキーワード関連度を求めることができる 2)任意のキーワード関連度は0から1の範囲の実数値
を取るよう正規化されている1)の条件のもとでは、任
意のキーワード関連度は表を引くという単純作業により
求めることができる。検索装置内でキーワードコネクシ
ョン表が完全なグラフとして保持されていない場合、本
山、願人の昭和63年7月27日付特許出願(代理人香
取孝雄)に記載の直接コネクシ□ンが存在していないキ
ーワード間のキーワード関連度の求め方に従い、全キー
ワード間のキーワード関連度を求めておく。2)の条件
のもとでは、ファイル確度の計算に用いる一般化和演算
・−膜化積演算・否定演算の計算を行うことができる。
具体的には次のように計算される。
・−膜化和演算 max(xsy)      ’論理和X■y = x
 + y −x y       :代数和m1n(1
,x+y)    ”限界和・二股化積演算 min (x p ’! )      :論理積X■
y=xy          :代数積max(0*x
+y−1)   ’限界積・否定演算 !x=1−x しかし一般にキーワード関連度は正の実数であシ2)の
条件を満たしていないので、以下の方法によりOから1
の範囲にする。Sijは正規化する前の1番目のキーワ
ードと3番目のキーラド間のキーワード関連度、siJ
は正規化したキーワード関連度、以下では正規化キーワ
ード関連度と呼ぶ。キーワード関連度正規化方式を以下
に示す。
○ 方式1 全キーワード開速度の最大値で各キーワード関連度を割
る。
○ 方式2 ある特定のキーワードに関係したキーワード関連度の最
大値で、そのキーワードに関係したキーワード関連度を
割る。
s ij = S ij / MAX  Skj○ 方
式3 値域がOから1の範囲となる関数を正規化関数として、
キーワード関連度の正規化関数の値を正規化キーワード
関連度とする。
sij = f (Sij ) f (x)は正規化関数であり、例えば次のようなもの
が考えられる。
ここで、Tは正規化のパラメータである。
キーワードを指定することによって利用者は検索を行う
。検索したい対象を1語で表現するキーワードが無い場
合、利用者は検索したい対象を複数のキーワードを用い
て検索式によって表現する。例えば、「中古外車」とい
うキーワードが検索装置内に存在していない場合、検索
装置内に存在しているキーワード「自動車」「国産」「
中古」を用いたAND (積集合)・OR(和集合)・
NOT (否定)の計算式として次のように表現する。
「中古外車」=「中古J&Nr国産」)&「自動車」こ
こで、“&”はAND、  °゛!”は否定を表す。
また、“≠”でORを表すこととする。
このように複数のキーワードを用いた検索式に対する各
ファイル確度の計算法を説明する。
以下で、i番目のキーワードをKi、i番目のファイル
をFiで表わす。また、利用者が指定する検索式をKC
LIST、ファイルFiに含まれている複数のキーワー
ドをKFLISTで表す。
3項以上のANDloRの計算は2項のものの組合せと
して計算できるので、2つのキーワードのANDloR
という形の検索式に対するファイル確度の計算法を説明
する。具体的な計算方式にはつぎの2つがある。ファイ
ル確度計算方式を以下に示す。
O方式1 まず、ファイル内のキーワード群KFLISTと検索式
KCLIST内の各キーワードKCiの関連度R1を求
める。つぎに、その結果のANDloRの計算を行いキ
ーワード群KFLISTと検索式KCLISTの関連度
、すなわちファイル確度FCを求める。
ア) AND : KCLIST = KCI & K
O2の場合R1[KFLIST、KCi〕=ΣKREL
[KFj、KCi ]FC(KFLIST、KCLIS
T)=R1[KFLIST、KCII■R1[KFLI
ST、KC2] ただし、 ΣXj=X1■X2■ −・eXn である。(○、■はそれぞれ一般化和演算・−膜化積演
算である。) イ) OR:KCLIST = KCI≠KC2の場合
R1[KFLIST、KCi 、:l =ΣKREL[
KFj、KCi]FC[KFLIST、KCLIST]
=R1(KFLIST、KCl)eRl(KFLIST
、KO2,:1 注) R1(:KFLIST、KCilの計算法はア)
の場合と同じである。
○ 方式2 まず、ファイル内のキーワード群KFLIST内の各キ
ーワードKFiと検索式K CLI STの関連度R2
をANDloRの計算を行い求める。つぎに、その結果
のキーワード群K FL I STに関する一般化和演
算を計算しファイル確度FCを求める。
ア) AND : KCLIST = KCI & K
O2の場合R2(KFi 、KCLIST ) = K
REL[KFi 、KCII(iiilKREL[KF
i 、KO2:1 FC(KFLIST、KCLISTI =’f: R2
[:KFi 、KCLIST:]ィ) OR:KCLI
ST=KC1+KC2の場合R2[:KFi、KCLI
ST]=KREL[KFl、KCIIΦKREL(KF
I、KO2) FC(KFLIST、KCLIST、:l =ΣR2[
KFi 、KCLISTI以上が本発明における2つの
ファイル確度の計算方式である。−膜化和演算では結合
側が成シ立つので、検索式がORの場合の結果は方式1
・2で等しい。
つぎにファイル確度計算を具体例を用いて説明する。い
ま、4つのキーワードがあシ、それらの正規化キーワー
ド関連度Sijは2次元配列Wを用いて、 sij =W [Ki 、 Kj  ]と参照できる。
ここで、配列Wは次の表の通シである。
また、ファイルF1・F2・F3内のキーラド群がそれ
ぞれ(Kl、に2)  (Kl、に3)・(K3.に4
)である。このとき、F1〜F3のファイル確度を以下
の検索式に対して求める。
以下の例では、−膜化和演算・−膜化積演算としてそれ
ぞれ代数和・代数積を用いた。また。
キーワード関連度K RELは正確には前述の本山頻人
による特許出願「文書検索装置」に記載されている。
KREL(Ki、Kj)=sijXAMP(Nij) 
  −(1)と計算される。ここでは簡単のためAMP
(Nij)=1とする。
例題1 検索式: Kl &に2 ・方式I R1((Kl、に2)、に1]=W(Kl、Kl)■W
CK2.に1〕=1.0の0.2 = 1.0 R1((Kl、に2)、に2)=1.0、°、  Fc
[(K1.K2)、Kl&に2]=R1[(Kl、に2
)、Kl)■R1〔(K1.に2)、に2〕=1.0の
1.0 = 1.0 同様にして。
FC((Kl、に3)、Kl&に2)=1.0■0.4
4 = 0.44FC((K3.に4)、Kl&に2]
=0.1 @0.37=0.037・方式2 %式% 例題2 検索式: K2Sに2 ・方式I RIC(Kl、に2)、Kl)、R1((Kl、に2)
、に2)は例題1と同じ 、゛、 FC((Kl、に2)、に1#に2)=R1(
(Kl、に2)、Kl〕■R1((Kl 、 K2) 
、に2E= 1.0 e 1.0 = 1.0 同様にして、 FCC(Kl 、に3)、に1#に2) =1.0の0
.44=1.0FCC(K3 、 K4 ) 、 K2
Sに2) = 0.1の0.37 = 0.433・方
式2 %式%) ] この方式2の結果は方式1の結果と等しくなっている。
例題3 検索式: (Kl&に2)#(K2&に3)#
(K3&に1)これは3つのキーワードのうち少なくと
も2つのキーワードを含むものの検索である。(中間結
果は表に示すだけとする。) ・方式1 ・方式2 2つのファイル確度計算方式を比較した場合、方式lの
結果はANDloRを集合の積/和とする従来の検索の
結果に近い。一方、方式1は各ファイルごと独立にファ
イル確度を計算するのに対し、方式2は、まず全キーワ
ードについて検索式とのキーワード関連度を求め1次に
各ファイルごとにファイル確度を累計として計算する。
したがって、方式2は複数ファイルが同一キーワードを
保持している場合に計算量を節約できる。
ファイルノート部53はファイル確度計算部51で各フ
ァイノしごとに求めたファイル確度の大きい順に全ファ
イルをソートする。
閾(直制御部58は利用者が指定した閾値以上のファイ
ル確度リファイルを検索し、検索結果を表示管理部59
へ送出する。表示管理部58ば、利用者が自分の欲しい
ファイルに対しはつきシした質的要求を持っている場合
に有効であシ、例えば質の悪い記事は欲しくない場合、
閾値を高くしておけばよい。利用者が閾値制御型あいま
い検索を行う場合に使用される。
ファイル数制御部55は利用者が指定したファイル数だ
けのファイルをファイル確度の大きい順に選択する。利
用者が自分の欲しいファイルに対しはつきシした質的要
求を持っている場合に有効である。ファイルの選択方式
には次の2つがある。
・方式1 ファイル確度の大きい順に、利用者が指定した数取下で
かつ最大個数のファイルを選択する。
・方式2 ファイル確度の大きい順に、利用者が指定した数取上で
かつ最小個数のファイルを選択する。
ファイル確度がすべてのファイルで異なっている場合、
上の2つの方式の結果に差はない。
しかし、同じファイル確度を持つファイルが複数ある場
合、上の2つの方式の結果に差が生じる。
後者の場合を具体例によって説明する。F1〜F5の5
つのファイルがあシ、各々のファイル確度が次のように
求められているとする。
FC(Fl 、 KCLIST〕=0.9FCCF2 
、 KCLIST)=0.8FC(F3 、 KCLI
ST)=0.7FC(F4 、 KCLIST) =0
.7FC(F5 、 KCLIST]=0.5ここで、
利用者が必要なファイル数を3と指定したとする。する
と、ファイル確度の3番目に大きいファイルがF3・F
4と2つある。したがって、ファイル選択方式1ではF
l・F2の2つのファイルが実際の検索結果として表示
されるが、ファイル選択方式2でばF1〜F4の4つの
ファイルが実際の検索結果として表示される。
ファイル数制御部55は、利用者がファイル数制御型あ
いまい検索を行う場合に使用され、ファイルソート部5
3から渡されたファイル確度の大きさの順にソートされ
た検索結果を上から指定された数だけ選択して表示管理
部59へ送る。表示管理部59は、ファイル数制御55
または閾値制量部58から送られた検索結果をデイスプ
レィ70に表示する。
次に、第1図で第1の実施例の動作を説明する。キーボ
ード60または図示しない文書リーグから入力される登
録文書11とその書誌的情報12は文書情報管理部20
に入力され、ファイル21に文書情報データベースとし
て収容される。この際、キーワード抽出部10より登録
文書11とそれから抽出されたキーワードが。
キーワードコネクション表処理部30とインバーテツド
ファイル作成部40に入力される。前者では「同一文書
に有シ」などの関係によりキーワードコネクション表(
第7図)に新しい関連情報が追加され、第8図のキーワ
ードコネクション表となる。後者では、ファイル41の
インバーテツドファイルに新しいキーワード抽出部の対
応関係が追加される。
利用者からの検索要求は4通シあり、■検索式に用いる
検索用キーワードの生成、■検索式による通常のファイ
ル検索、■検索式とファイル確度を指定する閾値型あい
まい検索、■同条件に要求ファイル数を指定するファイ
ル数型あいまい検索がある。
■では、要求処理部54が、利用者が入力するキーワー
ド群をキーワード関連度・確度計算部52に渡す。凹部
52はファイル31のキーワードコネクション表を引き
、入力キーワード群と各キーワードとの関係の強さを求
める。キーワード間の関連度はキーワードソート部56
で関連度の大きさのr釦−)され利用者に表示される。
利用者はキーワード群を検索用のキワード群に次第に洗
練させていく。次に、利用者は検索用キーワード群KF
LISTを含むファイル確度計算用の検索式KCLIS
Tを作成しキーが一ドロ0より入力し、■のファイル検
索を行なう。ファイル確度計算部52では要求処理部5
2から検索式を受は取シ、各ファイルのファイル確度を
検索し、その検索結果をファイルソート部53に出力す
る。検索結果はここで大きさの順にソートされファイル
数制御部55、表示管理部59に渡され、デイスプレィ
7oに表示される。
■の閾値あいまい検索では検索式とファイル確度の閾値
が入力され、■のファイル数あいまい検索では■の条件
にファイル数が付加されて入力される。■、■の場合、
ファイル確度計算部51で閾値によるファイル検索が行
われ、検索結果がファイルソート部53でファイル確度
の順にソートされ、閾値制御部58またはファイル数制
御部55へ渡される。閾値制御部58は閾値以上の検索
結果を出力する。ファイル数制御部55は閾値以上で、
かつ指定された数の検索結果を出力する。これらの出力
は表示管理部59によりブイスプレイ70に表示される
次に、第2の実施例を説明する。本発明の特徴とする動
的キーワードコネクションという慨念を利用し1文書登
録時にはシソーラスなどに基づいた煩雑な分類作業を必
要とせず、文書検索時には利用者の検索要求に近いもの
ほど大きな値を持つようなファイル確度という評価値を
導入し、そのファイル確度の大小をもとに利用者が要求
を満たす文書を柔軟に検索できる文書検索装置を提供す
ることを目的とする。さらに、利用者の指定した検索式
による検索結果数が利用者の必要とする文書数より多す
ぎる場合、利用者は新たに検索式を始めから作成・入力
する必要がなく、前回の検索結果に対して新たな検索条
件を付加する。具体的には、前回の検索に使用した検索
式に付加する検索式のみを作成・入力することにより、
前回の検索結果に対する文書を絞り込むことができる文
書検索装置を提供する。このような検索を絞り込み検索
と呼ぶ。
本実施例の検索装置の構成は第1図に示した第1の実施
例と同じであるが、要求処理部54、ファイル確度計算
部51での処理に新たな機能が付加されているので、以
下で説明する。
要求処理部54は、受理した検索式と関連のあるキーワ
ードをキーワードコネクション表カら選択するためにキ
ーワード関連度・確度計算部52に対して、または、検
索要求に適したファイルを検索するためにファイル確度
計算部51に対して、受理した検索式を転送する。同時
に、必要があれば、最終的なキーワード群に関する関連
情報の重みの変更をキーワードコネクション表処理部3
oに指示する。さらK、検索要求が前回の検索結果に対
する絞り込み検索要求であれば、前回の検索結果を付加
検索式と共にファイル確度計算部51に伝送する。
ファイル確度計算部51は利用者の指定した検索条件に
基づいて、各ファイル21,31゜41ごとにファイル
確度を計算する。通常の検索要求に対するファイル確度
計算法は第1の実施例に説明されている通シである。絞
り込み検索て対するファイル確度の計算法を以下で説明
する。ただし、第1の実施例と同様に次の2つの点が前
提条件として仮定されている。
l)任意のキーワード関連度を求めることができる。
2)任意のキーワード関連度は0から1の範囲の実数r
直を取るよう正規化されている。
前回の検索の検索式KCLISTIに対するi番目のフ
ァイルのファイル確度をFCI(KFLISTi。
K CLISTI 〕とする。ここで、KFLZSTi
はi番目のファイルに付けられているキーワード群であ
る。また、絞り込み検索の付加検索式KCLIST2ニ
対スルファイル確度f F C2(KFLISTi 。
KCLIST2)とする。FC2は第1の実施例のファ
イル確度計算方式により計算される。このとき、絞り込
み検索の結果としての今回のファイル確度はFClとF
C2の一般化積として求められる。すなわち、絞り込み
検索の結果としてのファイル確度をF’CCK FLI
STi 、 K CLISTIK CLIST2 )で
表すと、次式のように計算される。
FC(KFIJSTi、KCLJSTI I KCLI
ST2E=FC1[KFIJSTi 、KCIJSTI
 )■FC2CKFLISTi、KCLIST2)ここ
で、■は一般化積を表し、具体的には次のように計算さ
れる。
上記の方式(以下では標準方式と呼ぶ)によれば、ファ
イル確度計算部51でFC2およびFCの計算が全ファ
イルについて行われ、それにともない、ファイルソート
部53で全ファイルがFCをキーとしてソートされる。
PCIの小サイファイルにおいて、もしそのファイルの
FC2が十分大きければ、そのファイルのFCが他のフ
ァイルと比較して相対的に大きくなる可能性がある。す
なわち、絞り込み検索の結果。
前回の検索の結果と比較して、各ファイルの順位は大き
く変わる可能性がある。したがって、絞り込み検索を厳
密に行うためにはFC2およびFCの計算を全ファイル
について行う必要がある。一方、はとんどの場合、前回
の検索でファイル確度がある閾値以下であったファイル
は絞り込み検索の結果として小さなファイル確度を持つ
ので、全ファイルについてFC2およびFCの計算・ソ
ートを行うととては無駄が多い。
そこで、計算・ソートの無、駄を省く次のような高速計
算方式を提供し、利用者は目的に合わせて標準方式・高
速計算方式を自由に選択できるようにした。
高速計算方式における絞り込み検索のファイル確度の計
算は以下のように行われる。高速計算方式では、前回の
検索においてファイル確度がファイル選択の基準となる
閾値以上か否かで絞)込み検索の結果としてのファイル
確度の決め方が異なる。前回の検索のファイル確度PC
Iが閾値以上のファイルに対しては、付加検索式に対す
るファイル確度FC2を計算し、それとPCIの一般化
積を求めたものを絞り込み検索の結果としてのファイル
確度FCとする。また、PCIが閾値以下のファイルに
対しては、FC2を計算せずFCfI:Oとする。すな
わち、次式のように計算される。
FC(KFIJSTi 、KCLISTI I KCL
IST2 〕標準方式と高速計算方式のファイル確度計
算フローを第3図・第4図に示す。
第3図の絞勺込み検索時のファイル確度標準方式では、
ステップ100で絞り込み付加検索方式に対するファイ
ル確度FC2を計算し、ステップ101にてそれと前回
のファイル確度PCIの一般化積である今回のファイル
確度FCを求める。
第4図の絞り込み検索時の高速計算方式では、ステップ
200にて前回のファイル確度F’CIが閾値以上であ
るか否かを調べる。そうであれば、ステップ201にて
、FC2を計算し、ステップ201にてそれとPCIの
一般化積である今回のファイル確度FCを求める。否で
あればステップ203にて、今回のファイル確度FCを
0とする。このように利用者は新たに検索式を始から作
成入力する必要がなく、前回の検索式に付加する検索式
のみを作成して入力し、検索の絞り込みができる。
次に、第3の実施例を説明する。本実施例は動的キーワ
ードコネクションという概念を利用し、文書゛登録時に
はシソーラスなどに基づいた煩雑な分類作業を必要とせ
ず、文書検索時には利用者の検索要求に近いものほど大
きな値を持つようなファイル確度という評価値を導入し
、そのファイル確度の大小をもとに利用者が要求を満た
す文書を柔軟に検索できる文書検索装置を提供すること
を目的とする。さらに、検索しτ たい対象をキーワー4す場合にキーワードをANDlo
Rの論理演算で結合させた検索式を利用者に作成させる
手間を省き、ファイル確度計算部51にキーワードより
フアイル確度を正規化する関数を設け、この関数により
フアイル確度を計算する。利用者は、単に関連があると
思われるキーワードをリストアツブするだけで、適切と
思われる文書に高いファイル確度が与えられるような文
書検索装置を提供することを目的とする。
第3の実施例の文書検索装置の構成は、第1図に示した
第1の実施例と同じである。ただし、ファイル確度を計
算するファイル確度計算部51だけが異なっているので
、以下で説明する。
ファイル確度計算部51は利用者の指定した検索条件に
基づいて、各ファイルごとにファイル確度を計算する。
ファイル確度の計算法は以下に説明する通シである。た
だし、次の2つの点が前提条件として仮定されている。
■ 任意のキーワード関連度を求めることができる。
■ 任意のキーワード関連度はOから1の範囲の実数値
を取るよう正規化されている。
■の条件のもとでは、計算部51が任意のキーワード関
連度は表を引くという単純作業により求めることができ
る。検索装置内でキーワードいない場@。
のキー ワード関連度計算式の説明第2項の直接コネクションが
存在していないキーワード間のキーワード関連度の求め
方に従い、全キーワード間のキーワード関連度を求めて
おく。一般にキーワ法により0から1の範囲にする。S
ijは正規化する前のi番目のキーワードとj番目のキ
ーワード間のキーワード関連度、Sijは正規化したキ
ーワード関連度(正規化キーワード関連度)である。
キーワードを指定することによって利用者は検索を行う
。検索したい対象を1語で表現するキーワードが無い場
合、利用者は検索したい対象を複数のキーワードを用い
て表現する。例えば、「中古外車」というキーワードが
検索装置内に存在していない場合、検索装置内に存在し
ているキーワード「自動車」「外国製」「中古」を用い
て次のように表現する。
「中古外車」=「中古」、「外国製」、「自動車」この
ように複数のキーワードを用いた場合の各ファイル確度
の計算法を説明する。以下で、i番目のキーワードをK
i、i番目のファイルをFi、利用者が指定したキーワ
ードをK CLIST、ファイルFiに含まれている(
複数の)キーワードをKFLIST 、2つのキーワー
ド間のキーワード関連度をK RELで表す。さらに、
利用者が指定したキーワード数をNとする。
R(KFLIST、KCLIST) =ΣΣKREL[
KFi、KCj〕l くる−膜化和演算であシ、 △ ΣXj=X1eX2Φ −eXn である。ファイル確度は次のようになる。
FC(KFLIST、KCLISTI =f(R(KF
LIST、KCLIST)、N)ただし、f()はファ
イル確度正規化のための次のような関数である。
](−0 この関数の特徴は、 ■ f(0,n)=0 ■ f (n 、 n ) =: 1 ■ f(m+2. n)−f (m+1 、 n)=2
 (f (m + 1 + n ) ’ (m+ n月
(0=m≦n−2) である。これらの特徴を要約すると次のようになる。
■ ヒツトするキーワードが1つもなければファイル確
度は0である。
■ 利用者が指定したキーワードの全てがヒツトすれば
ファイル確度は1である。
■ ヒツトするキーワード数が1つ増えることによるフ
ァイル確度に対する貢献の大きさ(ファイル確度の増分
)は、ヒントした数が増えるごとに半分になる。
つぎにファイル確度計算を具体例を用いて説明する。い
ま、4つのキーワードがあシ、それらの正規化キーワー
ド関連度sijは2次元配列Wを用いて、 si j =W (Ki + Kj )と参照できる。
ここで、配列Wは次の表の通シ与えられる。
また、ファイルF1・F2・F3内のキーワード群がそ
れぞれ(Kl、に2)・(Kl、に3)・(F3.に4
)である。このとき、F1〜F3のファイル確度を以下
の検索式に対して求める。
以下の例では、−膜化和演算・−膜化積演算としてそれ
ぞれ代数和・代数積を用いた。また、キーワード関連度
K RELは正確には前述の第1の実施例の(1)式を
用いる。
KREL[Ki 、Kj )=sij XAMP (N
ij ’)と計算される。ここでは簡単のためAMP(
N i j )=1とする。
例題1 検索キーワード:KI R((K1.に2)、に1)=W(Kl、Kl)eW(
F2 、 Kl )=1.0の0.2=1.0 FC((K1.に2)、に1)=f(1,0、1)=1
.0同様にして、 FC((Kl、に3)、Kl:]=f (1,0,1)
=1.0FC((F3.に4)、に1:]=f (0,
1、1)=0.1339例題2 検索キーワード: (
Kl、に2)R((Kl、に2)、 (Kl、に2)]
=(W(Kl、Kl)eW[F2 、 Kl ’] ’
)+(W(Kl、に2)eW(F2.に2))= (1
,0■0.2)+(0,11,0)=2.0FCC(K
l 、に2) 、 (Kl 、に2))=r(2,o 
、 2)=1.0同様にして、 FC((Kl 、に3)、 (Kl 、に2))=f(
1,44、2)=0.8419PCIJK3.に4)、
(Kl、に2)]=f(0,47,2)=0.3707
例題3 検索キーワード: (Kl、に2.に3)R(
(Kl、に2)、(Kl、に2.に3)、1=(Wll
:Kl、Kl)eW[F2.Kl:])+(W(Kl、
に2)eW(F2.に2))+(W(Kl、、に3)e
W(F2.に3))= (1,0の0.2)+(0,2
e1.O)+(0,0Φ0.3 > = 2.3FC(
(K1.に2)、(K1.に2))=f(2,3,3)
=0.9108同様にして、 PC((Kl、に3)、 (Kl、に2.に3))=j
(2,44、3)= 0.9322 FC((F3.に4)、 (Kl、に2.に3))=f
(1,47,3)=0.7303 利用者がキーワード群をキーボード60より入力すれば
、ファイル確度計算部51に設けた前述の函数などの計
算手段により、過去の利用者のキーワード使用状況から
みて、適切と思われる文書に高いファイル確度を与える
計算が行われ、そのファイル確度を用いた検索結果が閾
値制御部58、表示管理部59よりディスプレイア0に
表示される。
(発明の効果) 以上説明したように本発明は各ファイルが検索条件に一
致するか否かの評価が、一致するか否かの2値ではなく
、連続の値によって利用者に知らされる。したがって、
利用者は自分の基準/判断で必要なファイルを選択する
ことができるので、次のような効果がある。
(1)閾値制御型あいまい検索が可能 閾値制御型あいまい検索により、利用者は必要なファイ
ルをある閾値以上のファイル確度を持つファイルである
と指定し、その閾値以上のファイル確度を持つファイル
のみを検索結果として表示させることができる。
(2)  ファイル数制御型あいまい検索が可能ファイ
ル数制御型あいまい検索により、利用者は必要なファイ
ル数を指定し、そのファイル数あるいはそのファイル数
に最も近いファイル数だけのファイルを検索結果として
表示させることができる。
(3)利用者の要求に応じたファイル確度計算方式を選
択可能 2つのファイル確度検索方式がある。方式1では従来の
集合演算に基づく検索に近いあいまい検索ができ、方式
2では高速応答性を持つあいまい検索ができる。利用者
は要求に合わせて何れかを選択できる。
(4)絞り込み検索が可能 利用者の指定した検索式による検索結果が利用者の必要
とする文書として不必要に多すぎる場合、利用者は新た
に検索式を始めから作成・入力する必要がなく、前回の
検索に使用した検索式に追加する条件のみを作成・入力
することにより、前回の検索結果に対する文書の絞り込
みができる。
(5)高速計算方式が選択可能 絞り込み検索時のファイル確度計算方式に標準方式と高
速計算方式があシ、利用者は自由に選択できる。高速計
算方式を選択すれば、絞り込み検索時の計算時間を減ら
すことができる。
(6)  あいまいな検索が可能 各ファイルが検索条件に一致するか否かの評価が、一致
するか否かの2値ではなく、連続の値によって利用者に
知らされる。したがって、利用者は自分の基準/判断で
必要なファイルを選択することができる。
(7)検索対象の指定が簡単 利用者が検索対象を指定する際に、キーワードをAND
・ORの論理演算で結合させた検索式を作成する手間を
かけなくても、利用者は関連があると思われるキーワー
ドをリストアノブするだけでよい。すると、本発明の文
書検索装置により自動的に、過去の利用者のキーワード
使用状況から適切と思われる文書に高いファイル確度が
与えられる。
【図面の簡単な説明】
第1図は本発明の文書検索装置の実施例を示す機能ブロ
ック図、 第2図は絞り込み検索時の標準方式のフロー図。 第3図は絞り込み検索時の高速計算方式のフロー図、 第4図は、キーワードコネクションと文書データベース
の概念図、 第5図はキーワードコネクション表の例を示す図、 第6図(a)は文書登録例、同(b)は書誌情報例、同
(c)はキーワード例を示す説明図、第7図は第6図の
文書登録前のコネクション表の例を示す図、 第8図は第6図の文書登録後のコネクション表の例を示
す図、 第9図は第8図から求めた間接コネクションとその関連
度を示す図、 第10図は第9図に対してキーワード群による加重を行
なった後のコネクション表の例を示す図である。 10・・・キーワード抽出部 11・・・登録文書 12・・・書誌情報 20・・・文書情報管理部 21.31.しト・・ファイル 30・・・キーワードコネクション表処理部40・・・
インバーテツドファイル作成部50・・・文書選出部 51・・・ファイル確度計算部 52・・・キーワード間開速度・確度計算部53・・・
ファイルソート部 54・・・要求処理部 55・・・ファイル数制御部 56・・・キーワードソート部 58・・・閾値制御部 59・・・表示管理部 60・・・キーゲート 70・・・デイスプレー

Claims (1)

  1. 【特許請求の範囲】 1、登録文書およびその文書情報がファイルに登録され
    る際、該文書情報よりキーワードを抽出するキーワード
    抽出手段と、 前記登録文書と前記キーワードとの間の関連を示すイン
    バーテッドファイルを作成するインバーテッドファイル
    作成手段と、 前記キーワード間の関連情報の関連度を記述したキーワ
    ードコネクション表を作成し、既に記録されている関連
    情報の前記関連度の値を変更し、新規関連情報を生成す
    るキーワードコネクション表処理手段と、 入力されたキーワードにより前記キーワードコネクショ
    ン表および前記インバーテッドファイルから検索条件に
    合致した文書を選出する文書選出手段とを有する文書検
    索装置において、該文書選択手段は、 特定のキーワード群と各ファイル内の登録文書のキーワ
    ード群との間の関連の強さを示す値をファイル確度と定
    義し、前記キーワードコネクション表、前記インバーテ
    ッドファイルおよび所定の方法でキーワード間の前記関
    連度を求め、該関連度を利用者の指定する検索式に入力
    してファイル確度を計算するファイル確度計算手段と、 入力された前記ファイル確度を閾値とし、該閾値以上の
    ファイルを検索し、各ファイルの検索結果をファイル確
    度の大きさの順に出力する閾値制御ファイル検索手段と
    、 入力されたファイル確度およびファイル数より該ファイ
    ル確度以上のファイルを検索し、検索結果をファイル確
    度の大きさの順に前記ファイル数だけ出力するファイル
    数制御ファイル検索手段とを有し、 前記検索式とファイル確度またはファイル数が入力され
    ると、該ファイル確度以上のファイルを検索し、その結
    果を出力する閾値型あいまい検索、または、該ファイル
    確度以上の検索結果を上位より前記ファイル数だけ出力
    するファイル数型あいまい検索を行なうことを特徴とす
    る文書検索装置。 2、請求項1に記載の文書検索装置において、該装置は
    、 前記ファイル確度計算手段内にキーワード群に対するフ
    ァイル確度を、該キーワード群の各キーワードごとのフ
    ァイル確度を構成する、一般化積など形式による演算で
    算出する計算手段を有し、検索結果が多すぎて前回のフ
    ァイル確度を絞り込む場合、利用者が新たなキーワード
    によるファイル確度を計算する検索式を作成、入力する
    と、前記計算手段は、前回のファイル確度と前記検索式
    で計算したファイル確度より今回のファイル確度を求め
    、検索結果を表示することを特徴とする文書検索装置。 3、請求項1に記載の文書検索装置において、前記ファ
    イル確度計算手段は、過去の利用者のキーワード使用状
    況に基き、所定の文書に対して高いファイル確度を与え
    る計算手段を含み、該計算手段は、利用者がキーワード
    のみを入力することによりファイル確度を計算し、該フ
    ァイル確度を用いて適切な文書を検索することを特徴と
    する文書検索装置。
JP63190585A 1988-08-01 1988-08-01 文書検索装置 Pending JPH0241564A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63190585A JPH0241564A (ja) 1988-08-01 1988-08-01 文書検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63190585A JPH0241564A (ja) 1988-08-01 1988-08-01 文書検索装置

Publications (1)

Publication Number Publication Date
JPH0241564A true JPH0241564A (ja) 1990-02-09

Family

ID=16260513

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63190585A Pending JPH0241564A (ja) 1988-08-01 1988-08-01 文書検索装置

Country Status (1)

Country Link
JP (1) JPH0241564A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05101106A (ja) * 1991-05-16 1993-04-23 Internatl Business Mach Corp <Ibm> 質問回答システム
JPH05108004A (ja) * 1991-10-14 1993-04-30 Matsushita Electric Ind Co Ltd ナビゲーシヨンシステムの地名検索方法
JPH0785097A (ja) * 1993-09-17 1995-03-31 Hamamatsu Photonics Kk 情報検索装置
JPH07334516A (ja) * 1994-06-03 1995-12-22 Sharp Corp 情報検索装置
JPH1063685A (ja) * 1996-08-19 1998-03-06 Nec Corp 情報検索システム
US6076086A (en) * 1997-03-17 2000-06-13 Fuji Xerox Co., Ltd. Associate document retrieving apparatus and storage medium for storing associate document retrieving program
JP2003522993A (ja) * 1999-07-16 2003-07-29 エイジェントアーツ インコーポレイテッド 自動化された代替内容推奨を作成する方法及びシステム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62191925A (ja) * 1986-02-18 1987-08-22 Matsushita Electric Ind Co Ltd 情報登録検索装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62191925A (ja) * 1986-02-18 1987-08-22 Matsushita Electric Ind Co Ltd 情報登録検索装置

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05101106A (ja) * 1991-05-16 1993-04-23 Internatl Business Mach Corp <Ibm> 質問回答システム
JPH05108004A (ja) * 1991-10-14 1993-04-30 Matsushita Electric Ind Co Ltd ナビゲーシヨンシステムの地名検索方法
JPH0785097A (ja) * 1993-09-17 1995-03-31 Hamamatsu Photonics Kk 情報検索装置
JPH07334516A (ja) * 1994-06-03 1995-12-22 Sharp Corp 情報検索装置
JPH1063685A (ja) * 1996-08-19 1998-03-06 Nec Corp 情報検索システム
US6014672A (en) * 1996-08-19 2000-01-11 Nec Corporation Information retrieval system
US6076086A (en) * 1997-03-17 2000-06-13 Fuji Xerox Co., Ltd. Associate document retrieving apparatus and storage medium for storing associate document retrieving program
JP2003522993A (ja) * 1999-07-16 2003-07-29 エイジェントアーツ インコーポレイテッド 自動化された代替内容推奨を作成する方法及びシステム
JP4743740B2 (ja) * 1999-07-16 2011-08-10 マイクロソフト インターナショナル ホールディングス ビー.ブイ. 自動化された代替コンテンツ推奨を作成する方法及びシステム

Similar Documents

Publication Publication Date Title
US7801887B2 (en) Method for re-ranking documents retrieved from a document database
US7454393B2 (en) Cost-benefit approach to automatically composing answers to questions by extracting information from large unstructured corpora
US7603353B2 (en) Method for re-ranking documents retrieved from a multi-lingual document database
KR100295354B1 (ko) 문서 정보 검색 시스템
US20090094223A1 (en) System and method for classifying search queries
US20030061209A1 (en) Computer user interface tool for navigation of data stored in directed graphs
JPH1125108A (ja) 関連キーワード自動抽出装置、文書検索装置及びこれらを用いた文書検索システム
JPH021057A (ja) 文書検索装置
US20110191335A1 (en) Method and system for conducting legal research using clustering analytics
Pong et al. A comparative study of two automatic document classification methods in a library setting
US8380731B2 (en) Methods and apparatus using sets of semantically similar words for text classification
US20120130999A1 (en) Method and Apparatus for Searching Electronic Documents
JPH0241564A (ja) 文書検索装置
JPH08272806A (ja) データベース検索システム
Azari et al. Actions, answers, and uncertainty: A decision-making perspective on web-based question answering
JPH0394375A (ja) 文書検索装置
JPH0227478A (ja) 文書管理装置
WO2002037328A2 (en) Integrating search, classification, scoring and ranking
JPH03294964A (ja) 文書検索方法
Pemawat et al. Hindi-English based cross language information retrieval system for Allahabad Museum
JPH02125363A (ja) 文書検索装置
JPH08305726A (ja) 情報検索装置
WO2000051024A1 (en) Method and apparatus for dynamically displaying a set of documents organized by a hierarchy of indexing concepts
JPH02287876A (ja) テキスト型データベース装置
JPH04135278A (ja) 文書検索装置