JPH0394375A - 文書検索装置 - Google Patents

文書検索装置

Info

Publication number
JPH0394375A
JPH0394375A JP1190519A JP19051989A JPH0394375A JP H0394375 A JPH0394375 A JP H0394375A JP 1190519 A JP1190519 A JP 1190519A JP 19051989 A JP19051989 A JP 19051989A JP H0394375 A JPH0394375 A JP H0394375A
Authority
JP
Japan
Prior art keywords
document
keyword
user
search
accuracy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP1190519A
Other languages
English (en)
Other versions
JP2829745B2 (ja
Inventor
Yasutsugu Ogawa
泰嗣 小川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to US07/528,490 priority Critical patent/US5020019A/en
Publication of JPH0394375A publication Critical patent/JPH0394375A/ja
Application granted granted Critical
Publication of JP2829745B2 publication Critical patent/JP2829745B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [産業上の利用分野] 本発明は、文書検索装置、とくに,文書検索時に検索結
果において各文書が利用者の検索要求に近いものほど大
きな値を持つ評価値によって順序づけられ,さらに、そ
の順序っけが利用者の判断・支持により変更可能な柔軟
で高速な文書検索装置に関する. [従来の技術] 従来の文書検索装置は、文書登録時に登録オペレータが
適切なキーワードを選択・登録を行い、文書検索時には
検索装置利用者がシソーラスの中から適切と思われるキ
ーワードを指示し検索を行う.この方法は高速検索が可
能であるが、次のような問題があった.キーワードのた
めの記憶容量の負担。登録才ベレータが選択するキーワ
ードの妥当性.シソーラスによる分類・更新作業の煩雑
さおよび妥当性.利用者が指定した検索条件を完全では
ないがほぼ満たしているような文書を検索するのにもう
一度検索を実行しなければならなl/). これらの問題を解決する方法として、第4回ファジィシ
ステムシンポジウム( 1988年4月)の論文、「フ
ァジィ集合に基づくデータベースの索引語関係の生成と
情報検索への応用J (三宅輝久他2名)がある。この
論文ではキーワード間の関係を数値で表現する方法が考
えられている。しかし,これには学習機能がなく、実際
の文書検索装置のシステムとするには不十分である。本
出願人は,従来技術の欠点を解消するため、キーワード
間の関連を数値化したキーワードコネクションを利用し
、文書検索時には利用者の検索要求に近いものほど大き
な数値を持つ文書確度という評価値を導入し、これをも
とに利用者が要求を満たす文書を柔軟に検索できる文書
検索装置特願昭63−829l号を出願した。さらに、
検索結果において各文書が利用者の要求に一致している
か否か判断してもらい、その評価値に基づいてキーワー
ドコネクションの各重みを変更し、次の検索時にその判
断を検索結果に反映させる学習方式を有する文書検索装
置、特願昭63−187988号を出願した。
[発明が解決しようとする課題] 従来の学習方式では、文書が利用者の要求に一致してい
るか否かを判断した評価値を2値で表現していた。しか
し,利用者は必ずしも、自分が欲しい文書をはっきりし
た要求として持っているとは限らない。また、ある文書
を見た場合、その文書が自分の検索要求と合っているか
否かを二者択一的にはっきり答えられないことも多い.
従来の学習方式は利用者のこのようなあいまい判断に対
処できないという問題がある。
本発明は、上記のような従来のキーワードコネクション
の学習方式の問題点を解決し、利用者の検索結果に対す
る判断が「だいたいふさわしいJ ・ 「あまりふさわ
しくない」と言ったあいまいな判断であっても受け付け
ることができるように評価値を導入し、この評価値と文
書確度の差異を少くする学習機能を有する文書検索装置
を提供することを目的とする。
[課題を解決するための手段] 本発明は上述の課題を解決するために、文書検索装置は
登録文書とその書誌的情報を格納・管理する文書情報管
理手段と、キーワード間の関連を記述するキーワードコ
ネクションを格納・管理するキーワードコネクション管
理手段と、利用者の登録要求に従い文書の登録・更新・
削除をおこなう文書登録手段と、利用者の検索要求に従
い前記キーワードコネクションを用いて検索要求に適合
する文書を選択する文書選択手段と、入出力の管理をお
こなう入出力管理手段とを有し,文書検索時に前記キー
ワードコネクションから所定の計算によって、各文書と
f+1用者が指定するキーワード群との関連度の大きさ
を示す文書確度を求めるとともに、該文書確度と利用者
の判断を基に所定の方法によりキーワードコネクション
を変更する機能を有し,その判断を「合っているJか「
合っていない」の2値に限らず多値も認めることにより
利用者の曖昧な判断を反映させることを特徴とする6 [作用] 本発明による文書検索装置は、利用者の検索質問文(以
下検索式と呼ぶ)に対し装置内の各文書がどの程度検索
式を満たしているかその程度を表わす文書確度を計算し
、文書を文書確度の大きい順にソートして利用者に提示
する.利用者は検索結果の文書タイトルと文書確度の一
覧表からさらに詳しく見たい文書を選択し、文書内容を
見ることができる。利用者は一覧表の内容から今見てい
る文書が自分の検索式にふさわしいか否か判断する。こ
のような利用者の判断に基づく学習によりキーワードコ
ネクションを変更し、次の検索時にその判断が検索結果
に反映されるようにすることができる. [実施例J 次に本発明の文書検索装置の実施例を添付図面を参照し
て説明する, 先願の文書検索装置(特願昭63−8291号)は、キ
ーワード間の関連の強さを示すキーワードコネクション
と、キーワードと文書間の関連を表わすインバーテッド
ファイルを有する。キーワードから構成される検索式と
登録文書に付与されているキーワード群からキーワード
コネクションを用いて計算される文書確度が表示され、
この値は検索式と検索結果が近いほど大きな値となる。
しかし、検索結果に対する利用者の評価を反映する学習
機能がなかった。
また、先願の文書検索装置(特願昭63−187988
号)では、利用者の評価を適,不適の2値[1.01で
表わす評価値と文書確度の差異を表わす評価関数を導入
し,評価関数の値を小さくし、差異を少なくする学習機
能を付加している。本発明は評価値を2値ではなく多値
で表わし,利用者のあいまい判断を文書検索装置に反映
させる学習機能を設けた点が従来例と異なる. 本発明の文書検索装置はキーワード間の関連を記述する
キーワードコネクションを用いる.各文書に対し利用者
の検索要求に近いちのほど大きな値を持つような文書確
度という評価値を導入し、文書検索時にはその文書確度
の大小を基に利用者が要求を満たす文書を柔軟に選択す
る。
キーワードコネクションは,キーワード間の関連を記述
したものである。キーワードコネクションでは,関連の
大きさを0〜lの範囲とし、0はキーワード間に関係が
ないこと、0以上の値は関係があること、さらに、lは
関係の大きさが最大であることを表現するものとする。
i番目のキーワードと.i番目のキーワードの関連度は
Wi[Kjlあるいはもっと簡単にWijで表現される
第1図に本発明の文書検索装置の一実施例を示す6キー
ワード抽出部10は、登録文書11を入力すると,その
キーワードを抽出し,キーワードおよび登録文書11を
文書情報管理部20、キーワードコネクション表処理部
30,インバーテッドファイル作成部40へ出力する. 文書情報管理部20は、キーワードと書誌的情報をファ
イル・2lに格納し、検索時に利用可能な形にデータベ
ース化する。
キーワードコネクション表処理部20は,必要なキーワ
ードとキーワードコネクション(以下関連情報と呼ぶ)
を記述したキーワードコネクション表を作成して、ファ
イル31に格納する。さらに,要求処理部53からの要
求があれば、関連情報の重みを変更する. 文書選出部50は各部5l〜55よりなる。
文書確度計算部5lは要求処理部53から転送されてき
た検索式に基づき、ファイル3lに格納されているキー
ワードコネクション表内の必要な情報を用いて各文書ご
とに文書確度を計算する。計算方式は後で詳しく説明す
る。
文書ソート部52は文書確度計算部5lで計算された文
書確度の大きい順にファイル2lに格納されている文書
をソートし、表示管理部55に転送する。
表示管理部55は要求処理部53から与えられる利用者
の支持に従い検索結果を表示する。
学習管理部54は要求処理部53から与えられる利用者
の指示に従いキーワードコネクションの学習を行なう。
学習管理部54ではキーワードコネクションの各重みの
変化量の計算を行ない、実際の変更はキーワードコネク
ション表処理部30が実施する。学習方式は後で説明す
る。
要求処理部53は、検索要求にあった文書を検索するた
めに文書確度計算部5lに対して、受理した検索式を転
送する。同時に必要があれば、最終的なキーワード群に
関する関連情報の重みの変更をキーワードコネクション
表処理部30に支持する. 文書検索処理は利用者の要求に従い、適切な文書を検索
表示することを目的としている。文書選択処理は文書選
出部50で行われる。
検索条件はキーワードの指定およびその他書誌的情報に
対する条件設定により行われる.まず,各文書のキーワ
ード以外の条件設定が満たされているか否かが判定され
る。条件が満たされている場合、その文書の文書確度の
計算が行われ、条件が満たされていない場合,その文書
の文書確度の計算は行われず値は0とされる. キーワードの指定は、利用者の得たい情報を表現するキ
ーワード式によって行う.キーワード式とは1つのキー
ワードあるいは複数のキーワードをOR(和演算)で結
合させたものである.複数のキーワードの結合が用いら
れるのは文書管理装置内に利用者が得ようとしている情
報を表現する1語のキーワードが存在していない場合で
ある。
つぎに、キーワード式Quaryに対する各文書確度の
計算法を示す(実際の計算は文書選出部50内の文書確
度計算部で行われる). 本発明による文書確度の計算において代数和■を用いる
. x FBy = x +y − xy==1−(1−x
Hl−yl   −  (1)また、 ■Xj=  Xi■x2■・・・■Xn=1−I1(1
−Xj)    −  (21jj である。
文書確度とは,各文書と利用者の指定した検索式の関連
の強さを表す数値である.本発明のキーワードコネクシ
ョンの学習法は検索式がキーワードが1つあるいは複数
のキーワードの倫理和である場合を対象としているので
、その場合の計算法を説明する。まず、各キーワードに
ついてキーワードコネクションの重みの検索式に含まれ
るキーワードの集合に関する代数和を求める。つぎに,
その結果のm番目の文書に含まれるキーワードの集合K
L (+a)に関する代数和を求め、それを文書確度と
する. FC  [  KL(m),QLIERY  ]  =
   ΦΦ lliji EKL(a+)  j εQ
UERYここで、iはいま注目しているm番目の文書に
ついているキーワードの集合KL (ffl)の要素、
jは検索式に含まれるキーワードの集合QLIERYの
要素をとる。さらに、(2)式の関係を用いることで、
次のように変形できる。
FC[KL(m).QUERY] =l−n [1  
(1− wij )iεKL(a+) j EQUER
Y 文書選出部50の文書確度計算部5lで全文書の文書確
度が計算されたならば、次に、文書選出部50の文書ソ
ート部52で全文書を文書確度の大きい順にソートする
。そして、その結果が表示管理部55に送られ利用者に
表示される。
本発明によるキーワードコネクションの学習方式を適用
できるキーワードコネクションは、各重みが0〜lの範
囲内の値を取り、l=jの場合、重みが1に固定される
ものである。
学習の方法はつぎの通りである。検索結果がどの程度利
用者の判断に近いかを評価する、すなわち、文書の文書
確度と利用者の判断との相違を数値化する評価関数Eを
あらかじめ設定しておく。
この学習方式における評価関数は後に具体的に示す。キ
ーワードコネクションの学習において,キーワードコネ
クションの重みをいま定義した評価関数Eの値を小さく
するように変更する.ここで.Wmnはキーワードコネ
クションのm番目とn番目のキーワード間の重み、αは
正の定数で学習の速度を決定する学習係数である.変更
量ΔWIInの決定は最急降下法に基づいて行われ、次
式で与えられる. 評価関数Eは、文書検索装置が検索式により検索したあ
る文書の文書確度とこれに対する利用者の判断との相異
度を数値化したものである.従来の学習方式では利用者
の判断を適切(正解)か不適切(不正解)の2値で表わ
し,適切である文書に対してはl、不適切である文書に
は0を与え、文書確度との差を2乗したものを評価間数
Eとしていた。
キーワードコネクションの重みの変化分ΔWmnここで
、Biはi番目の文書に対する文書確度である。
しかし、実際に利用者が検索結果を見ても上にあげた2
値で判断することは難しく、「だいたいふさわしい」、
rあまりふさわしくない」と言ったあいまいな判断にな
ることは避けられない。そこで本実施例では従来正解・
文書正解だけだった利用者の判断を、適切を“l”不適
切を“0“に割当て、中間のあいまいな判断は[0,1
]間の実数値“t”で表現する。この場合、評価関数は
、ある文書の文書確度と利用者の判断を数値化した“t
”の差の2乗としてつぎのように定義される。
ここで、KL(i)はi番目の文書(いま利用者が評価
を行った文書)にインデックスとして付いているキーワ
ードの集合, QUERYは検索式である。上の式の2
番目の積の計算(“■”で示される部分)では、(1−
Wjk)の(j.k)の組合せが(m,n)となる場合
を除いた、jがQLIERYの要素、kがKL(i)の
要素をそれぞれ取った場合の組合せ全ての積を計算する
。ここで,j=lは従来の方式の「正解として学習J.
t=Oは「不正解として学習」に相当している. 以上のようにΔWIIInが求められる。実際のキーワ
ードコネクションの重みの変更はΔW@nがOでない場
合についてのみ行えば良い.ただし、m=nの場合重み
の値はlに固定なのでキーワードコネクションの重みの
変更を行う必要はない.学習のフローチャートを第2図
に示す.評価関数Eの値を小さくする学習を開始する。
文書iについているキーワードの1つをmとし(100
 ) .検索式に含まれているキーワードの1つをnと
する(102) . m = nか否かを判断し(10
4)m=nの場合は、キーワードコネクションはlに固
定されるので計算を行わないでステップttaヘジャン
プする.m≠nの場合は、次のステップ106に進む.
Wmn=1か否かを判断し、変更された(3)式のキー
ワードコネクションWmnが■のときステップ110に
進み、Wmn#lのとき(4)式によりWmnを求める
(1081。前者の場合、A式を計算し+1101 .
  15)式にAを代入しΔWmnを求め、{3}式よ
りWmnを求める。Wmn==1の場合は. (31.
(41式よりWmnを求める(108) . Wmnが
0より小さいか否かを判断し(114) . Oより小
さいときはWmn=Oとする(116)   1より大
きいときはWmn=1とする(1171 . Wanが
Oより大きいときはその値とする。
以上の計算をmを固定し、検索式に含まれているすべて
のキーワードをnに用い、処理!102〜116)を繰
り返し,終了すると(118) .文書iについている
全てのキーワードを順番にmとして処理を繰り返し(1
2’01 .評価関数の値を小さくする学習を終了する
. [発明の効果] 本発明によれば、検索結果に対する利用者の評価値を多
値で表わすことにより利用者のあいまい判断を検索結果
に反映させることができる。その結果、利用者が過去に
必要とした文書が必要とした程度に応じて上位にランク
されるようになり、検索を効率化できる。利用者が過去
に不必要とした文書が不必要とした程度に応じて下位に
ランクされるようになり、検索を効率化できる。利用者
が用いないキーワードは不必要として取り除くことが可
能であり、記憶装置の効率f11用ができる。
【図面の簡単な説明】
第1図は本発明による文書検索装置の一実施例を示すブ
ロック図、 第2図は第1図の装置における学習方式を示すフローチ
ャートである。 主.部 の″″一の説明 IO・・・キーワード抽出部 11・・・登録文書 l2・・・書誌情報 20・・・文書情報管理部 21.31.41−ファイル 30・・−キーワードコネクション表処理部40・・・
インバーテッドファイル作成部50・・・文書選出部 5l・・・文書確度計算部 52・・・文書ソート.部 53・・・要求処理部 54・・一学習管理部 55・・一表示管理部 60・・・キーボード 70・・・ディスプレイ

Claims (1)

  1. 【特許請求の範囲】 1、登録文書およびその文書情報がファイルに登録され
    る際、該文書情報によりキーワードを抽出するキーワー
    ド抽出手段と、 前記登録文書と前記キーワードとの間の関連を示すイン
    バーテッドファイルを作成するインバーテッドファイル
    作成手段と、 前記キーワード間の関連情報の関連度を記述したキーワ
    ードコネクション表を作成し、既に記録されている関連
    情報の前記関連度の値を変更し、新規関連情報を生成す
    るキーワードコネクション表処理手段と、 入力されたキーワードにより前記キーワードコネクショ
    ン表および前記インバーテッドファイルから検索条件に
    合致した文書を選出する文書選出手段とを有する文書検
    索装置において、該文書選択手段は、利用者が入力する
    キーワードから成る検索式と各ファイル内の登録文書の
    キーワード群との間の関連の強さを示す値を文書確度と
    定義し、前記キーワードコネクション表、前記インバー
    テッドファイルおよび所定の方法で文書確度を計算する
    文書確度計算手段とを有し、 前記検索式が入力されると文書確度の大きさの順に検索
    結果の文書を出力し、その検索結果内の文書ごとに与え
    られている該文書確度を利用者が対話的に適切か否か判
    断した場合に所定の方法によりキーワードコネクション
    を変更する学習機能を有し、 その判断を「合っている」か「合っていない」かの2値
    ではなく、多値とすることによって利用者の曖昧な判断
    を反映させることを特徴とする文書検索装置。
JP1190519A 1989-05-29 1989-07-25 文書検索装置 Expired - Lifetime JP2829745B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US07/528,490 US5020019A (en) 1989-05-29 1990-05-25 Document retrieval system

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP1-132696 1989-05-29
JP13269689 1989-05-29

Publications (2)

Publication Number Publication Date
JPH0394375A true JPH0394375A (ja) 1991-04-19
JP2829745B2 JP2829745B2 (ja) 1998-12-02

Family

ID=15087408

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1190519A Expired - Lifetime JP2829745B2 (ja) 1989-05-29 1989-07-25 文書検索装置

Country Status (1)

Country Link
JP (1) JP2829745B2 (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06251072A (ja) * 1993-02-27 1994-09-09 Omron Corp 文書処理装置および方法
JPH07129593A (ja) * 1993-09-08 1995-05-19 Toshiba Corp テキスト選定装置
JPH08234987A (ja) * 1995-02-28 1996-09-13 Mitsubishi Electric Corp ファジィシソーラス生成装置
JPH09179881A (ja) * 1995-12-27 1997-07-11 Matsushita Electric Ind Co Ltd 学習判断装置及び方法
JPH09231241A (ja) * 1996-02-28 1997-09-05 Nec Corp 学習型情報処理システム
JPH10260975A (ja) * 1997-03-18 1998-09-29 Minolta Co Ltd 情報処理装置および情報処理方法
JP2001337986A (ja) * 2001-05-28 2001-12-07 Matsushita Electric Ind Co Ltd 情報フィルタ装置及び情報フィルタリング方法
US6408288B1 (en) 1997-02-24 2002-06-18 Nec Corporation Information filtering method and device, and storage medium storing information filtering program
JP2006189972A (ja) * 2004-12-28 2006-07-20 Chugoku Electric Power Co Inc:The 情報管理システム

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06251072A (ja) * 1993-02-27 1994-09-09 Omron Corp 文書処理装置および方法
JPH07129593A (ja) * 1993-09-08 1995-05-19 Toshiba Corp テキスト選定装置
JPH08234987A (ja) * 1995-02-28 1996-09-13 Mitsubishi Electric Corp ファジィシソーラス生成装置
JPH09179881A (ja) * 1995-12-27 1997-07-11 Matsushita Electric Ind Co Ltd 学習判断装置及び方法
JPH09231241A (ja) * 1996-02-28 1997-09-05 Nec Corp 学習型情報処理システム
US6408288B1 (en) 1997-02-24 2002-06-18 Nec Corporation Information filtering method and device, and storage medium storing information filtering program
JPH10260975A (ja) * 1997-03-18 1998-09-29 Minolta Co Ltd 情報処理装置および情報処理方法
JP2001337986A (ja) * 2001-05-28 2001-12-07 Matsushita Electric Ind Co Ltd 情報フィルタ装置及び情報フィルタリング方法
JP2006189972A (ja) * 2004-12-28 2006-07-20 Chugoku Electric Power Co Inc:The 情報管理システム
JP4623635B2 (ja) * 2004-12-28 2011-02-02 中国電力株式会社 社内情報管理システム

Also Published As

Publication number Publication date
JP2829745B2 (ja) 1998-12-02

Similar Documents

Publication Publication Date Title
EP0704075B1 (en) Method and apparatus for indexing searching and displaying data
US5020019A (en) Document retrieval system
Mork et al. 12 years on–Is the NLM medical text indexer still useful and relevant?
CN109829104B (zh) 基于语义相似度的伪相关反馈模型信息检索方法及系统
Glover et al. Improving category specific web search by learning query modifications
US5960422A (en) System and method for optimized source selection in an information retrieval system
CN102456075B (zh) 响应来自用户的查询的方法和系统
AU781157B2 (en) Document-classification system, method and software
Pazzani et al. Learning from hotlists and coldlists: Towards a WWW information filtering and seeking agent
US6418432B1 (en) System and method for finding information in a distributed information system using query learning and meta search
CN109213864A (zh) 基于深度学习的刑事案件预判系统及其构建和预判方法
US20010016846A1 (en) Method for interactively creating an information database including preferred information elements, such as, preferred-authority, world wide web pages
JPH0675265B2 (ja) 情報検索方法及びシステム
Mostafa et al. Automatic classification using supervised learning in a medical document filtering application
US7743061B2 (en) Document search method with interactively employed distance graphics display
JPH0394375A (ja) 文書検索装置
Aas A survey on personalized information filtering systems for the world wide web
Vellino et al. A hybrid, multi-dimensional recommender for journal articles in a scientific digital library
Bordogna et al. Soft approaches to distributed information retrieval
CN107679112B (zh) 一种面向设计知识推送的加权特征知识适用概率匹配方法
Alsaffar et al. Enhancing concept-based retrieval based on minimal term sets
CN114528469A (zh) 推荐方法、装置、电子设备、存储介质
Huang et al. Rough-set-based approach to manufacturing process document retrieval
KR20200065640A (ko) 독자 신뢰 패턴 기반 문서 추천 방법 및 시스템
JPH02125363A (ja) 文書検索装置