JPH03131973A - 文書検索装置 - Google Patents

文書検索装置

Info

Publication number
JPH03131973A
JPH03131973A JP1271158A JP27115889A JPH03131973A JP H03131973 A JPH03131973 A JP H03131973A JP 1271158 A JP1271158 A JP 1271158A JP 27115889 A JP27115889 A JP 27115889A JP H03131973 A JPH03131973 A JP H03131973A
Authority
JP
Japan
Prior art keywords
document
keyword
keywords
accuracy
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP1271158A
Other languages
English (en)
Inventor
Yasutsugu Ogawa
泰嗣 小川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP1271158A priority Critical patent/JPH03131973A/ja
Publication of JPH03131973A publication Critical patent/JPH03131973A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 産業上の利用分野 本発明は、文書検索装置、特に、検索時に利用者の感覚
に近いキーワード群を生成でき、さらに、検索結果が利
用者の検索要求に近いものほど大きな値を持つ評価値に
よって順序付けられるような柔軟で高速な文書検索装置
に関する。
従来の技術 従来の文書検索装置では、文書登録時に登録オペレータ
が適切と思われるキーワードを選択し、シソーラスによ
り適切に分類し、キーワードの追加、削除に伴いシソー
ラスを更新する作業がかなり煩雑である。また、検索時
に、利用者が指定した検索条件を概ね満たす文書を検索
するためには、検索条件を検討し直した上で再度の検索
が必要となる。
このような問題を解決するため、キーワード間の関連情
報なるキーワードコネクションを利用し、文書検索時に
は利用者の検索要求に近いものほど大きな値を持つ文書
確度という評価値を導入し、文書確度を基に利用者が要
求を満たす文書を柔軟に検索できるようにした文書検索
装置が、本出願人により特願昭63−8291号として
提案されている。また、利用者の判断・指示に基づいて
キーワードコネクションの各重みを変更し、次の検索時
にその判断を検索結果に反映させる学習機能を持たせた
ものも特願昭63−197988号として提案されてい
る。さらには、利用者の文書検索条件として、複数のキ
ーワードを論理積・論理和・否定なる演算子の任意の組
合せで結合させた検索式に対しても文書確度が計算でき
るよう改良し、適切な学習機能を持たせたものも提案さ
れている。
発明が解決しようとする課題 ところが、このようなキーワードコネクションを用いた
提案内容においては、キーワードコネクション表中でキ
ーワード間の直接関連(1段の関連)しか記述されてお
らず、文書確度の計算も単純に1回だけしかキーワード
間の関連を用いていないものである。このため、例えば
キーワードKlとに2、キーワードに2とに3との間に
は各々強い関連があってもキーワードKlとに3との間
に関連がない場合には、K3がキーワードとして付いて
いる文書をキーワードに1だけを含む検索条件式から検
索できない。よって、検索条件式の設定がシビアとなっ
たり、複数回の検索を要するものとなる。
課題を解決するための手段 登録文書及びその書誌的情報を文書データベースに登録
する際に前記登録文書からキーワードを抽出するキーワ
ード抽出手段と、前記登録文書と前記キーワードとの間
の関連を示すインバーテツドファイルを作成するインバ
ーテツドファイル作成手段と、前記キーワード間の関連
情報を記述したキーワードコネクション表を作成すると
ともに既に登録されている関連情報を修正し新規関連情
報を生成するキーワードコネクション表処理手段とを設
け、利用者が入力した検索条件式に含まれるキーワード
と各ファイル内の登録文書のキーワード群との間の関連
の強さを示す値を文書確度と定義して前記キーワードコ
ネクション表、インバーテツドファイル及び所定の方法
により文書確度を計算する文書確度計算手段と、算出さ
れた文書確度の大きさの順に検索結果の文書を出力する
文書ソート・表示管理手段と、検索結果内の文書毎に与
えられている文書確度を利用者が対話的に適切か否か判
断指示した時に所定の方法によりキーワードコネクショ
ンの重みを変更させる学習管理手段とを有して前記検索
条件式に合致した文書を選出する文書選出手段を設け、
検索条件式中のキーワードに対しキーワードコネクショ
ン表内にキーワード間の直接関連がない時にはキーワー
ド間の関連を複数回辿って間接関連度を計算し、この間
接関連度を用いて文書確度を算出して検索するようにし
た。
作用 検索条件式中に含まれるキーワードに対して、キーワー
ドコネクション表内にキーワード間の直接関連が記述さ
れていない場合であっても、キーワード間の関連を複数
回辿って間接関連度を計算し、この間接関連度を用いて
文書確度を#r算することにより、直接関連のない文書
であっても適切に検索可能となり、検索効率のよいもの
となる。
実施例 本発明の一実施例を図面に基づいて説明する。
まず、本発明の文書検索装置では、前述した既提案方式
と同様に、キーワードコネクションという概念を用いる
ことを前提とする。また、各文書に対し利用者の検索要
求に近いものほど大きな値を持つような文書確度という
評価値なる概念も導入し、文書検索時にはその文書確度
の大小を基に利用者が要求を満たす文書を柔軟に選択で
きるようにしたものである。キーワードコネクションと
は、キーワード間の関連を記述したものである。
具体的に、本実施例のキーワードコネクションでは関連
の大きさをOから1までの範囲とし、Oはキーワード間
に関係がないこと、0以上の値は関係があり、特に1で
関係の大きさが最大であることを表現するものである。
i番目のキーワードと5番目のキーワードとの関連情報
(以下、これを「重み」という)はWijで表現できる
このような前提において、本発明の文書検索装置は第1
図のように構成される。まず、キーワード抽出部lは登
録文書2を入力すると、その文書中からキーワードを抽
出し、キーワード及び登録文書2を文書情報管理部3、
キーワードコネクション表処理部4、インバーテツドフ
ァイル作成部5へ出力するものである。文書情報管理部
3はキーワードと書誌的情報6とをファイル7に格納し
、検索時に利用可能な形にデータベース化するものであ
る。キーワードコネクション表処理部4はキーワード間
の関連情報を記述したキーワードコネクション表を作成
しファイル8に格納する。さらに、学習管理部9からの
要求があればキーワードコネクションの重みを変更する
。インバーテツドファイル作成部5はキーワードと登録
文書との間の関連を示すインバーテツドファイルを作成
しファイル10に格納する。
文書選出部11は曲記学習管理部9、文書確度計算部1
2、要求処理部13、文書ソート部14及び表示管理部
15よりなる。まず、文書確度計算部12は要求処理部
13から転送されてきたキーワードからなる検索条件式
に基づき、ファイル8に格納されているキーワードコネ
クション表内の必要な皆報を用いて各文書毎に文書確度
を計算する。この計算力式は後述する。文書ソート部1
4は文書確度計算部12で算出された文書確度の大きい
順にファイル7に格納されている全文書をソートし、表
示管理部15に転送する。要求処理部13は利用者がキ
ーボード16から入力した検索条件式を文書確度計算部
12に対して転送する。
また、デイスプレィ17による検索結果の表示時に、利
用者が入力した表示指示を表示管理部15に転送する。
さらに、利用者の指示があればキーワードコネクション
の学習に関する情報を学習管理部9に転送する。学習管
理部9は要求処理部13から与えられる利用者の指示に
従いキーワードコネクションの学習を行う。即ち、学習
管理部9ではキーワードコネクションの各重みの変化量
の計算を行うが、実際の重み値の変更はキーワードコネ
クション表処理部4に指示を与えることにより行われる
。学習方式は後述する。表示管理部15は要求処理部1
3から与えられる利用者の指示に従い検索結果をデイス
プレィ17に表示させる。
文書検索処理は、利用者の要求に従い適切な文書を検索
表示することを目的とするものであり、そのための文書
選択処理が文書選出部11によす(テわれる。
ここに、検索条件はキーワードの指定及びその他書誌的
情報に対する条件設定により行われる。
まず、各文書のキーワード以外の条件設定が満たされて
いるか否かが判定される。条件が満たされている場合、
その文書の文書確度の計算が後述のように行われる。条
件が満たされていない場合、その文書の文書確度の計算
は行われず、値はOとされる。
キーワードの指定は、利用者の得たい情報を表現するキ
ーワードからなる検索条件式によって行う。検索条件式
とは、1つのキーワード或いは複数のキーワードをAN
D (論理積)・OR(論理和)・NOT (否定)で
結合させたものである。
複数のキーワードの結合が用いられるのは、文書管理装
置内に利用者が得ようとしている情報を表現する1語の
キーワードが存在していない場合である。
次に、本実施例の特徴とする文書確度の計算方式の説明
に先立ち、前述した既提案内容に含まれる検索条件式、
文書確度の計算方式及びキーワードコネクションの学習
方式について個別に説明する。
A、検索条件式 本文書検索装置が入力として受は付ける検索条件式は、
キーワードがAND (論理積)・OR(論理和)・N
OT (否定)の演算子で結合されたものである。これ
により、例えば「キーワードAがない文書」 「キーワ
ードAと8とがともにある文書」等の検索を行うことが
できる。キーワードをAND、OR,NOTで任意に結
合した検索条件式は、キーワードをOR,NOTで結合
した副検索条件式のANDで結合した形式の積標準形に
変換できる。この変換は要求処理部13で行われる。積
標準形の検索条件式は、 Query = SQ(1)l−I 5Q(N)   
 −−(1)で表される。ここに、II * IIはA
NDを表し、N≧1である。また、5Q(h)はORと
NOTのみで構成される副検索条件式 %式% (2) を表す。ここで、” K Q 1″′はQ+番日のキー
ワード、 II +IIは0R1It I IIはNO
Tを表し、n≧0、m≧1、n+m≧lである。否定の
付かないキーワードの集合をQ”(h)、否定の付くキ
ーワードの集合をQlh)とすると、 Q”(h) = (Kq、、  ・・・・・・・・・・
・・、 K(1゜)Q (h) = (Kq−++−−
−−−、Kqn+−)となる。ただし、Q+(h)、Q
ih)に同時に含まれるキーワードはないものとする。
このチエツクは要求処理部13で待い、同時に含まれる
キーワードがあった場合、その旨がデイスプレィ17に
表示され、利用者に注意を喚起する。
B1文書確度の計算方式 文書確度とは、文書データベース内の各文書のキーワー
ド群と利用者が指定する検索条件式中のキーワードとの
間の関連の強さを示す数値として定義され、文書確度計
算部12で計算される。
文書確度は、次の2ステツプで求められる。
a、副検索条件式に対する文書確度(これを、副文書確
度と呼ぶ)を計算する。
b、全開検索条件式に対する副文書確度の積を求め、文
書確度とする。
文書確度は全文書について計算され、利用者の指定に従
って閾値処理等により適切な文書が選択され、検索結果
が求められる。
上記の2ステツプについて説明する。まず、最初のステ
ップである副検索条件式に対する副文書確度の計算は、
h番目の副文書確度をri(h)とすると、次の(3)
式に従い行われる。
ただし、Aiをi番目の文書に索引として付されている
キーワードの集合とした時、RlJとSIJは次の(4
)(5)式により計算される。
Sij =  1 − Rij =  rT  (1−Wjk )   −−(
5)EAi ただし、Wjkは5番目のキーワードとに番目のキーワ
ードとの間の関連度の大きさを示す。
Q”(h)或いはQih)が空集合(φ)の場合、(3
)式の代わりに、各々次の(6)(7)式が用いられる
JεQ−(h) 2番目のステップとして、N個の副検索条件式に対する
副文書確度を全て計算した後、文書確度を、(8)式に
より計算する。
ri =  n  ri(h)       ・・・・
・・・・・・・・・・・・・・・・・(8)h=1 C,キーワードコネクションの学習方式キーワードコネ
クションの学習は学習管理部9で行われる。キーワード
コネクションの学習方式は、例えば本出願人既提案の特
願平1−132696号記載の学習方式が用いられる。
即ち、学習時の検索結果に対する利用者の判断を、正解
ならば「l」、不正解ならば[0」に割当て、曖昧な判
断は[0,1]間の実数値で表現する。文書確度Xに対
する利用者の判断を表す評価値をLとすると、評価関数
は次のように定義される。
e(X)= ■ 2(t−x)”    ・・・・・・・・・・・・・・
・・・・(9)1回の学習では、いま注目している文書
(ここでは、i番目の文書とする)に対し、その文書に
対する文書確度の評価関数の値e(rj)を小さくする
ように、キーワードコネクションの全ての重みが変更さ
れる。即ち、 Wmn ←g(Wmn + aΔWmn )・・・・・
・・・・・・・・・(10)となる。
ここに、 aは正の実数の学習係数であり、 gは変更後のキーワードコネクションの値が[0゜ l]の範囲となるための正規化関数である。
・・・・・・・・・・・・・・・・・・・・・・・・(
11)最急降下法を用いて変化分ΔWmnは(12)式
のように計算すればよい。
・・・・・・・・・・・・・・・・・・(12)ここで
、 (8)式より、 従って、 lWmn 5.t、に#h ・・・・・・・・・・・・・・・・・・・・・・・・(
14)変化分ΔWmnを求める計算式(14)において
、a r i (h)/ aWmnは後述する(15)
 〜(17)式によって計算される。従って、 mEQuery  かつ nEAi である(m、n)の組合せ以外ではΔWmn=0となる
ので、△Wmnの計算を行う必要があるのは、mE:Q
uery  かつ nEAi である(m、n)の組合せだけである。
ΔWmnを計算するためには、ri(h)のWmnによ
る偏微分が計算できなければならない。ここに、Q”(
h)とQ−(h)とに同時に含まれるキーワードはない
、という仮定から、ri(h)のWmnによる偏微分は
次の3つの場合に分けて計算できる。
1 。
mc:Q”(h)の場合 ・・・・・・・・・・(15) 2、mc:Q−(h)の場合 ・・・・・・・・・・・・・・・・・・・・・(16)
3゜ n4”Q”(h)又はm申Q−(h)の場合δri(h
)= θWmn ・・・・・・・・・・・・・・・・・・・・・(17)
(I5)〜(I7)式で計算される結果を(14)式に
代入すればΔWmnは求められるが、 (14)式をさらに簡 単にできる。
その場合、 1==oか否かによって 計算式が異なるので、 以下では2つの場合に分け て説明する。
1 。
≠Oの場合 この時、 全てのh (l≦h≦N) に対して 1(h)≠0なので、 (8)式より と書換えることができるので、 (13)式は次のよう になる。
従って、 ・・・・・・・・・・・・・・・・・・・・・・・・(
20)■。
二〇の場合 0の時、 1(h) Oであるhの個数に より計算式が変る。
hの個数が1個の場合、その hをh*とすると、 (13)式は次のようになる。
従って、 ・・・・・・・・・・・・・・・・・・・・・・・・(
22)hの個数が2個以上の場合、(13)式は次のよ
うになる。
ar1=O・・・・・・・・・・・・・・・・・・・・
・・・・(23)Wmn 従って、 △Wmn = O・・・・・・・・・・・・・・・・・
・・・・・・・(24)しかして、前述したような文書
確度の計算力式をベースとし、本実施例ではどのように
キーワード間の間接関連度を計算し、これに基づきどの
ように文書確度を計算するかを説明する。ここでも、前
述した場合と同様に2つのステップにより文書確度が計
算される。
まず、副検索条件式に対する副文書確度は次式により計
算される。
・・・・・・・・・・・・・・・・・・・・・・・・(
25)ココテ、R(m) i J トS ”’ I J
 ハ、−1r −17−トairyジョン表内のキーワ
ード間の関連をm回辿った場合の、1番目の文書とj番
目のキーワードとの間の関連度(直接関連度又は間接関
連度)を表しており、次のように計算される。
・m=1の場合。
R””ij = Rij          ・・・・
・・・・・・・・・・・・・・・・・・・・(26)R
””ij = Rij          ・・・・・
・・・・・・・・・・・・・・・・・・・(27)・m
)lの場合 ・・・・・・・・・・・・・・・・・・・・・・・・(
28)S(m)1j=l−R(m)lJ ・・・・・・・・・・・・・・・・・・・・・・・・(
29)(28) (29)式において、■ではR(m−
1)ik> 0であるキーワードの集合の要素をとる。
Q”(h)或いはQ−(h)が空集合(φ)の場合、(
25)式に代えて各々(30)(31)式が用いられる
・・・・・・・・・・・・・・・・・・・・・・・・(
30)r i”’ (h) =  1 (n  R(m’ij)  :  Q’(h) = φ
jEQ−(hl ・・・・・・・・(31) 2番目のステップとして、N個の副検索条件式に対する
副文書確度を全て計算した後、文書確度を、(32)式
により計算する。
次に、文書確度がどのように計算されるかを例題を挙げ
て説明する。
例題:キーワードKlが索引として付いている文書(文
書番号を1とする)の文書確度を検索条件式Query
= K 3に対して求める。ただし、キーワードコネク
ションは第2図に示すように与えられているものとする
。キーワードコネクションは対称であるので、図示の如
く、下三角行列の形式で表現できる。
ここで、 R,、=W、、=1.OS=0.0 R,、=W、、=0.2 3.、=0.8R,、=W、
、=0. OS、、=1. OR,、=W、4=O0I
   S、、=0.9であり、検索条件式が単純構造(
1つの副検索条件式から+1が成されている)なので、
既提案方式による(8)式によりこの文書の文書確度を
計算すると、 r=1.O−3,、=l、O−1.0=0.0となる。
しかるに、本実施例方式によると、 R(2)  =1.0− (1,0−W、R,、)(1
,0−W、、R,、)X (1,0−W、4R,、) 
=  1.0S(21−0,0 R(21= 0.3664    S”、  = 0.
633/4R(2)  =0,107    S”  
=0.893R”=0.107   3(2)、=0.
893であるので、 r(2)= 1.0−0.893 = 0.107とな
る。つまり、既提案方式によると文書確度がOとなり検
索不可能であった文書でも、検索可能となる。
発明の効果 本発明は、上述したように構成したので、キーワードコ
ネクションを用いた文書検索装置の基本的な効果に加え
、検索条件式中に含まれるキーワードに対して、キーワ
ードコネクション表内にキーワード間の直接関連が記述
されていない場合であっても、キーワード間の関連を複
数回辿って間接関連度を計算し、この間接関連度を用い
て文書確度を計算することにより、直接関連のない文書
であってもそれに応じた文書確度を得て適切な検索が可
能となり、1回の検索で済む効率のよいものとなるもの
である。
【図面の簡単な説明】
図面は本発明の一実施例を示すもので、第1図はブロッ
ク図、第2図はキーワードコネクションの内容を示す説
明図である。 l・・・キーワード抽出手段、2・・・登録文書、4・
・・キーワードコネクション表処理手段、5・・・イン
バーテツドファイル作成手段、9・・・学習管理手段、
11・・・文書選出手段、12・・・文書確度計算手段
、14・・・ソート手段、15・・・表示管理手段量 願 人 株式会社 リ コ

Claims (1)

    【特許請求の範囲】
  1. 登録文書及びその書誌的情報を文書データベースに登録
    する際に前記登録文書からキーワードを抽出するキーワ
    ード抽出手段と、前記登録文書と前記キーワードとの間
    の関連を示すインバーテッドファイルを作成するインバ
    ーテッドファイル作成手段と、前記キーワード間の関連
    情報を記述したキーワードコネクシヨン表を作成すると
    ともに既に登録されている関連情報を修正し新規関連情
    報を生成するキーワードコネクシヨン表処理手段とを設
    け、利用者が入力した検索条件式に含まれるキーワード
    と各ファイル内の登録文書のキーワード群との間の関連
    の強さを示す値を文書確度と定義して前記キーワードコ
    ネクシヨン表、インバーテッドファイル及び所定の方法
    により文書確度を計算する文書確度計算手段と、算出さ
    れた文書確度の大きさの順に検索結果の文書を出力する
    文書ソート・表示管理手段と、検索結果内の文書毎に与
    えられている文書確度を利用者が対話的に適切か否か判
    断指示した時に所定の方法によりキーワードコネクシヨ
    ンの重みを変更させる学習管理手段とを有して前記検索
    条件式に合致した文書を選出する文書選出手段を設け、
    検索条件式中のキーワードに対しキーワードコネクシヨ
    ン表内にキーワード間の直接関連がない時にはキーワー
    ド間の関連を複数回辿って間接関連度を計算し、この間
    接関連度を用いて文書確度を算出して検索するようにし
    たことを特徴とする文書検索装置。
JP1271158A 1989-10-18 1989-10-18 文書検索装置 Pending JPH03131973A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1271158A JPH03131973A (ja) 1989-10-18 1989-10-18 文書検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1271158A JPH03131973A (ja) 1989-10-18 1989-10-18 文書検索装置

Publications (1)

Publication Number Publication Date
JPH03131973A true JPH03131973A (ja) 1991-06-05

Family

ID=17496146

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1271158A Pending JPH03131973A (ja) 1989-10-18 1989-10-18 文書検索装置

Country Status (1)

Country Link
JP (1) JPH03131973A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5761496A (en) * 1993-12-14 1998-06-02 Kabushiki Kaisha Toshiba Similar information retrieval system and its method
US8005665B2 (en) 1998-09-28 2011-08-23 Schukhaus Group Gmbh, Llc Method and apparatus for generating a language independent document abstract

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5761496A (en) * 1993-12-14 1998-06-02 Kabushiki Kaisha Toshiba Similar information retrieval system and its method
US8005665B2 (en) 1998-09-28 2011-08-23 Schukhaus Group Gmbh, Llc Method and apparatus for generating a language independent document abstract

Similar Documents

Publication Publication Date Title
JPH021057A (ja) 文書検索装置
JPH03129472A (ja) 文書検索装置における処理方法
US20110016118A1 (en) Method and apparatus for determining relevant search results using a matrix framework
US20110191335A1 (en) Method and system for conducting legal research using clustering analytics
EP1218831A1 (en) System and method for performing similarity searching
US20030212663A1 (en) Neural network feedback for enhancing text search
CN109582849A (zh) 一种基于知识图谱的网络资源智能检索方法
CN114817575B (zh) 基于扩展模型的大规模电力事理图谱处理方法
Ai et al. Sensory: Leveraging code statement sequence information for code snippets recommendation
JPH0486950A (ja) 文書検索方法
Peng et al. Construction of hierarchical knowledge graph based on deep learning
Daniłowicz Modelling of user preferences and needs in Boolean retrieval systems
JPH03131973A (ja) 文書検索装置
JP2859771B2 (ja) 動的概念辞書を用いた類似検索方法及びその装置
JPH04127272A (ja) 文書検索装置におけるキーワードコネクション処理方法
JP3088805B2 (ja) 文書管理装置
JPH03131970A (ja) 文書検索装置
JP2639804B2 (ja) データベース検索装置
JPH03131971A (ja) 文書検索装置
RU2818494C1 (ru) Система и способ поиска информации
JP2011159231A (ja) 文書検索システム及び文書活用度評価システム
JPH06259479A (ja) 文献検索支援方式
Feng et al. Extracting Meaningful Correlations among Heterogeneous Datasets for Medical Question Answering with Domain Knowledge
Traina Jr et al. Support to content-based image query in object-oriented databases
JPH02227773A (ja) 文書検索装置