JP2829745B2 - 文書検索装置 - Google Patents

文書検索装置

Info

Publication number
JP2829745B2
JP2829745B2 JP1190519A JP19051989A JP2829745B2 JP 2829745 B2 JP2829745 B2 JP 2829745B2 JP 1190519 A JP1190519 A JP 1190519A JP 19051989 A JP19051989 A JP 19051989A JP 2829745 B2 JP2829745 B2 JP 2829745B2
Authority
JP
Japan
Prior art keywords
document
keyword
search
user
keywords
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP1190519A
Other languages
English (en)
Other versions
JPH0394375A (ja
Inventor
泰嗣 小川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to US07/528,490 priority Critical patent/US5020019A/en
Publication of JPH0394375A publication Critical patent/JPH0394375A/ja
Application granted granted Critical
Publication of JP2829745B2 publication Critical patent/JP2829745B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】 [産業上の利用分野] 本発明は、文書検索装置、とくに、文書検索時に検索
結果において各文書が利用者の検索要求に近いものほど
大きな値を持つ評価値によって順序づけられ、さらに、
その順序づけが利用者の判断・指示により変更可能な柔
軟で高速な文書検索装置に関する。
[従来の技術] 従来の文書検索装置は、文書登録時に登録オペレータ
が適切なキーワードを選択・登録を行い、文書検索時に
は検索装置利用者がシソーラスの中から適切と思われる
キーワードを指示し検索を行う。この方法は高速検索が
可能であるが、次のような問題があった。登録オペレー
タが選択するキーワードの妥当性。シソーラスによる分
類・更新作業の煩雑さおよび妥当性。利用者が指定した
検索条件を完全ではないがほぼ満たしているような文書
を検索するのにもう一度検索を実行しなければならな
い。
これらの問題を解決する方法として、第4回ファジィ
システムシンポジウム(1988年4月)の論文、「ファジ
ィ集合に基づくデータベースの索引語関係の生成と情報
検索への応用」(三宅輝久他2名)がある。この論文で
はキーワード間の関係を数値で表現する方法が考えられ
ている。しかし、これには学習機能がなく、実際の文書
検索装置のシステムとするには不十分である。本出願人
は、従来技術の欠点を解消するため、キーワード間の関
連を数値化したキーワードコネクションを利用し、文書
検索時には利用者の検索要求に近いものほど大きな数値
を持つ文書確度という評価値を導入し、これをもとに利
用者が要求を満たす文書を柔軟に検索できる文書検索装
置特願昭63−8291号を出願した。さらに、検索結果にお
いて各文書が利用者の要求に一致しているか否か判断し
てもらい、その評価値に基づいてキーワードコネクショ
ンの各重みを変更し、次の検索時にその判断を検索結果
に反映させる学習方式を有する文書検索装置、特願昭63
−187988号を出願した。
[発明が解決しようとする課題] 従来の学習方式では、文書が利用者の要求に一致して
いるか否かを判断した評価値を2値で表現していた。し
かし、利用者は必ずしも、自分が欲しい文書をはっきり
とした要求で持っているとは限らない。また、ある文書
を見た場合、その文書が自分の検索要求と合っているか
否かを二者択一的にはっきり答えられないことも多い。
従来の学習方式は利用者のこのようなあいまい判断に対
処できないという問題がある。
本発明は、上記のような従来のキーワードコネクショ
ンの学習方式の問題点を解決し、利用者の検索結果に対
する判断が「だいたいふさわしい」・「あまりふさわし
くない」と言ったあいまいな判断であっても受け付ける
ことができるように評価値を導入し、この評価値と文書
確度の差異を少なくする学習機能を有する文書検索装置
を提供することを目的とする。
[課題を解決するための手段] 本発明は上述の課題を解決するために、文書検索装置
は登録文書とその書誌的情報を格納・管理する文書情報
管理手段と、キーワード間の関連を記述するキーワード
コネクションを格納・管理するキーワードコネクション
管理手段と、利用者の登録要求に従い文書の登録・更新
・削除をおこなう文書登録手段と、利用者の検索要求に
従い前記キーワードコネクションを用いて検索要求に適
合する文書を選択する文書選択手段と、入出力の管理を
おこなう入出力管理手段とを有し、文書検索時に前記キ
ーワードコネクションから所定の計算によって、各文書
と利用者が指定するキーワード群との関連度の大きさを
示す文書確度を求めるとともに、該文書確度と利用者の
判断を基に所定の方法によりキーワードコネクションを
変更する機能を有し、その判断を「合っている」か「合
っていない」の2値に限らず多値も認めることにより利
用者の曖昧な判断を反映させることを特徴とする。
[作用] 本発明による文書検索装置は、利用者の検索質問文
(以下検索式と呼ぶ)に対し装置内の各文書がどの程度
検索式を満たしているかその程度を表す文書確度を計算
し、文書を文書確度の大きい順にソートして利用者に提
示する。利用者は検索結果の文書タイトルと文書確度の
一覧表からさらに詳しく見たい文書を選択し、文書内容
を見ることができる。利用者は一覧表の内容から今見て
いる文書が自分の検索式にふさわしいか否か判断する。
このような利用者の判断に基づく学習によりキーワード
コネクションを変更し、次の検索時にその判断が検索結
果に反映させることができる。
[実施例] 次に本発明の文書検索装置の実施例を添付図面を参照
して説明する。
先願の文書検索装置(特願昭63−8291号)は、キーワ
ード間の関連の強さを示すキーワードコネクションと、
キーワードと文書間の関連を表わすインバーテッドファ
イルを有する。キーワードから構成される検索式と登録
文書に付与されているキーワード群からキーワードコネ
クションを用いて計算される文書確度が表示され、この
値は検索式と各文書の内容が近いほど大きな値となる。
しかし各文書の内容に対する利用者の評価を反映する学
習機能がなかった。
また、先願の文書検索装置(特願昭63−187988号)で
は、利用者の評価を適、不適の2値[1,0]で表わす評
価値と文書確度の差異を表わす評価関数を導入し、評価
関数の値を小さくし、差異を少なくする学習機能を付加
している。本発明は評価値を2値ではなく多値で表わ
し、利用者のあいまい判断を文書検索装置に反映させる
学習機能を設けた点が従来例と異なる。
本発明の文書検索装置はキーワード間の関連を記述す
るキーワードコネクションを用いる。各文書に対し利用
者の検索要求に近いものほど大きな値を持つような文書
確度という評価値を導入し、文書検索時にはその文書確
度の大小を基に利用者が要求を満たす文書を柔軟に選択
する。
キーワードコネクションは、キーワード間の関連を記
述したものである。キーワードコネクションでは、関連
の大きさを0〜1の範囲とし、0はキーワード間に関係
がないこと、0以上の値は関係があること、さらに、1
は関係の大きさが最大であることを表現するものとす
る。
i番目のキーワードとj番目のキーワードの関連度
(以下、重みと称す)はWi〔Kj〕あるいはもっと簡単に
Wijで表現される。
第1図に本発明の文書検索装置の一実施例を示す。キ
ーワード抽出部10は、登録文書11を入力すると、そのキ
ーワードを抽出し、キーワードおよび登録文書11を文書
情報管理部20、キーワードコネクション表処理部30、イ
ンバーテッドファイル作成部40へ出力する。
文書情報管理部20は、キーワードと書誌的情報をファ
イル21に格納し、検索時に利用可能な形にデータベース
化する。
キーワードコネクション表処理部20は、必要なキーワ
ードとキーワードコネクション(以下関連情報と呼ぶ)
を記述したキーワードコネクション表を作成して、ファ
イル31に格納する。さらに、要求処理部53からの要求が
あれば、関連情報の重みを変更する。
文書選出部50は各部51〜55よりなる。
文書確度計算部51は要求処理部53から転送されてきた
検索式に基づき、ファイル31に格納されているキーワー
ドコネクション表内の必要な情報を用いて各文書ごとに
文書確度を計算する。計算方式は後で詳しく説明する。
文書ソート部52は文書確度計算部51で計算された文書
確度の大きい順にファイル21に格納されている文書をソ
ートし、表示管理部55に転送する。
表示管理部55は要求処理部53から与えられる利用者の
支持に従い検索結果を表示する。
学習管理部54は要求処理部53から与えられる利用者の
指示に従いキーワードコネクションの学習を行なう。学
習管理部54ではキーワードコネクションの各重みの変化
量の計算を行ない、実際の変更はキーワードコネクショ
ン表処理部30が実施する。学習方式は後で説明する。
要求処理部53は、検索要求にあった文書を検索するた
めに文書確度計算部51に対して、受理した検索式を転送
する。同時に必要があれば、最終的なキーワード群に関
する関連情報の重みの変更をキーワードコネクション表
処理部30に指示する。
文書検索処理は利用者の要求に従い、適切な文書を検
索表示することを目的としている。文書選択処理は文書
選出部50で行われる。
検索条件はキーワードの指定およびその他書誌的情報
に対する条件設定により行われる。まず、各文書のキー
ワード以外の条件設定が満たされているか否かが判定さ
れる。条件が満たされている場合、その文書の文書確度
の計算が行われ、条件が満たされていない場合、その文
書の文書確度の計算は行われず値は0とされる。
キーワードの指定はい、利用者の得たい情報を表現す
る検索式によって行う。検索式とは1つのキーワードあ
るいは複数のキーワードをOR(和演算)で結合させたも
のである。複数のキーワードの結合が用いられるのは文
書管理装置内に利用者が得ようとしている情報を表現す
る1語のキーワードが存在していない場合である。
つぎに検索式Quaryに対する各文書確度の計算法を示
す(実際の計算は文書選出部50内の文書確度計算部で行
われる)。
本発明による文書確度の計算において代数和を用い
る。
xy=x+y−xy=1−(1−x)(1−y) …(1) また、 である。
文書確度とは、各文書と利用者の指定した検索式の関
連の強さを表す数値である。本発明のキーワードコネク
ションの学習法は検索式がキーワードが1つあるいは複
数のキーワードが倫理和である場合を対象としているの
で、その場合の計算法を説明する。まず、各キーワード
についてキーワードコネクションの重みの検索式に含ま
れるキーワードの集合に関する代数和を求める。つぎ
に、その結果のm番目の文書に含まれるキーワードの集
合KL(m)に関する代数和を求め、それを文書確度とす
る。
ここで、iはいま注目しているm番目の文書について
いるキーワードの集合KL(m)の要素、jは検索式に含
まれるキーワードの集合QUERYの要素をとる。さらに、
(2)式の関係を用いることで、次のように変形でき
る。
文書選出部50の文書確度計算部51で全文書の文書確度
が計算されたならば、次に、文書選出部50の文書ソート
部52で全文書を文書確度の大きい順にソートする。そし
て、その結果が表示管理部55に送られ利用者に表示され
る。
本発明によるキーワードコネクションの学習方式を適
用できるキーワードコネクションは、各重みが0〜1の
範囲内の値を取り、i=jの場合、重みが1に固定され
るものである。
学習の方法はつぎの通りである。検索結果がどの程度
利用者の判断に近いかを評価する、すなわち、文書の文
書確度と利用者の判断との相違を数値化する評価関数E
をあらかじめ設定しておく。この学習方式における評価
関数は後に具体的に示す。キーワードコネクションの学
習において、キーワードコネクションの重みをいま定義
した評価関数Eの値を小さくするように変更する。
ここで、Wmnはキーワードコネクションのm番目とn
番目のキーワード間の重み、αは正の定数で学習の速度
を決定する学習係数である。変更量ΔWmnの決定は最急
降下法に基づいて行われ、次式で与えられる。
評価関数Eは、文書検索装置が検索式により検索した
ある文書の文書確度とこれに対する利用者の判断との相
異度を数値化したものである。従来の学習方式では利用
者の判断を適切(正解)か不適切(不正解)の2値で表
わし、適切である文書に対しては1、不適切である文書
には0を与え、文書確度との差を2乗したものを評価関
数Eとしていた。
ここで、Biはi番目の文書に対する文書確度である。
しかし、実際に利用者が検索結果を見ても上にあげた
2値で判断することは難しく、「だいたいふさわし
い」、「あまりふさわしくない」と言ったあいまいな判
断になることは避けられない。そこで本実施例では従来
正解・文書正解だけだった利用者の判断を、適切を“1"
不適切を“0"に割当て、中間のあいまいな判断は[0,
1]間の実数値で表現する。この場合、評価関数は、あ
る文書の文書確度と利用者の判断を数値化した“t"の差
の2乗としてつぎのように定義される。
キーワードコネクションの重みの変化分ΔWmnは、具
体的には次式で与えられる。
ここで、KL(i)はi番目の文書(いま利用者が評価
を行った文書)にインデックスとして付いているキーワ
ードの集合、QUERYは検索式である。上の式の2番目の
積の計算(“Π”で示される部分)では、(1−Wjk)
の(j,k)の組合せが(m,n)となる場合を除いた、jが
QUERYの要素、kがKL(i)の要素をそれぞれ取った場
合の組合せ全ての積を計算する。ここで、t=1は従来
の方式の「正解として学習」、t=0は「不正解として
学習」に相当している。
以上のようにΔWmnが求められる。実際のキーワード
コネクションの重みの変更はΔWmnが0でない場合につ
いてのみ行えば良い。ただし、m=nの場合重みの値は
1に固定なのでキーワードコネクションの重みの変更を
行う必要はない。
学習のフローチャートを第2図に示す。
評価関数Eの値を小さくする学習を開始する。文書i
についているキーワードの1つをmとして(100)、検
索式に含まれているキーワードの1つをnとする(10
2)。m=nか否かを判断し(104)m=nの場合は、キ
ーワードコネクションは1に固定されるので計算を行わ
ないでステップ118へジャンプする。m≠nの場合は、
次のステップ106に進む。Wmn=1か否かを判断し、変更
された(3)式のキーワードコネクションWmnが1のと
きステップ110に進み、Wmn≠1のとき(4)式によりWm
nを求める(108)。前者の場合、A式を計算し(11
0)、(5)式にAを代入しΔWmnを求め、(3)式より
Wmnを求める。Wmn=1の場合は、(3),(4)式より
Wmnを求める(108)。Wmnが0より小さいか否かを判断
し(114)、0より小さいときはWmn=0とする(11
6)。1より大きいときはWmn=1とする(117)。Wmnが
0より大きいときはその値とする。
以上の計算をmを固定し、検索式に含まれているすべ
てのキーワードをnに用い、処理(102〜116)を繰り返
し、終了すると(118)、文書iについている全てのキ
ーワードを順番にmとして処理を繰り返し(120)、評
価関数の値を小さくする学習を終了する。
[発明の効果] 本発明によれば、検索結果に対する利用者の評価値を
多値で表わすことにより利用者のあいまい判断を検索結
果に反映させることができる。その結果、利用者が過去
に必要とした文書が必要とした程度に応じて上位にラン
クされるようになり、検索を効率化できる。利用者が過
去に不必要とした文書が不必要とした程度に応じて下位
にランクされるようになり、検索を効率化できる。利用
者が用いないキーワードは不必要として取り除くことが
可能であり、記憶装置の効率利用ができる。
【図面の簡単な説明】
第1図は本発明による文書検索装置の一実施例を示すブ
ロック図、 第2図は第1図の装置における学習方式を示すフローチ
ャートである。 主要部分の符号の説明 10……キーワード抽出部 11……登録文書 12……書誌情報 20……文書情報管理部 21、31、41……ファイル 30……キーワードコネクション表処理部 40……インバーテッドファイル作成部 50……文書選出部 51……文書確度計算部 52……文書ソート部 53……要求処理部 54……学習管理部 55……表示管理部 60……キーボード 70……ディスプレイ
フロントページの続き (56)参考文献 森田、小川、小林「動的キーワードコ ネクション方式を用いた文書検索システ ム」、昭和63年電子情報通信学会春季全 国大会講演論文集(D−389)p.D− I−132(昭63−3−28) 岩井、中村「あいまい情報検索」.オ ペレーションズ・リサーチ,Vol. 26,No.12,p.705−711,1981 (58)調査した分野(Int.Cl.6,DB名) G06F 17/30 JICST科学技術文献ファイル

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】登録文書およびその文書情報がファイルに
    登録される際、登録文書よりキーワードを抽出するキー
    ワード抽出手段と、 前記登録文書と前記キーワードとの間の関連を示すイン
    バーテッドファイルを作成するインバーテッドファイル
    作成手段と、 前記キーワード間の関連情報の関連度を記述したキーワ
    ードコネクション表を作成し、既に記録されている関連
    情報の前記関連度の値を必要に応じて変更し、新規関連
    情報を生成するキーワードコネクション表処理手段と、 入力されたキーワードにより前記キーワードコネクショ
    ン表および前記インバーテッドファイルを用いて検索式
    に合致した文書を選出する文書選出手段とを有する文書
    検索装置において、 該文書選出手段は、利用者が入力するキーワードからな
    る検索式と各ファイル内の登録文書のキーワード群との
    間の関連の強さを示す値を文書確度とし、前記キーワー
    ドコネクション表、前記インバーテッドファイルおよび
    所定の方法により文書確度を計算する文書確度計算手段
    を有し、 前記文書選出手段は、前記検索式が入力されると文書確
    度の大きさの順に検索結果の文書を出力し、その検索結
    果内の文書ごとに与えられている該文書確度を利用者が
    対話的に適切か否か判断した場合に所定の方法によりキ
    ーワードコネクションを変更する学習機能を有し、 その判断を「合っている」か「合っていない」かの2値
    ではなく、多値とすることによって利用者の曖昧な判断
    を反映させることを特徴とする文書検索装置。
JP1190519A 1989-05-29 1989-07-25 文書検索装置 Expired - Lifetime JP2829745B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US07/528,490 US5020019A (en) 1989-05-29 1990-05-25 Document retrieval system

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP1-132696 1989-05-29
JP13269689 1989-05-29

Publications (2)

Publication Number Publication Date
JPH0394375A JPH0394375A (ja) 1991-04-19
JP2829745B2 true JP2829745B2 (ja) 1998-12-02

Family

ID=15087408

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1190519A Expired - Lifetime JP2829745B2 (ja) 1989-05-29 1989-07-25 文書検索装置

Country Status (1)

Country Link
JP (1) JP2829745B2 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3368301B2 (ja) * 1993-02-27 2003-01-20 オムロン株式会社 文書処理装置および方法
JP3469302B2 (ja) * 1993-09-08 2003-11-25 株式会社東芝 テキスト選定装置
JP3275612B2 (ja) * 1995-02-28 2002-04-15 三菱電機株式会社 ファジィシソーラス生成装置
JPH09179881A (ja) * 1995-12-27 1997-07-11 Matsushita Electric Ind Co Ltd 学習判断装置及び方法
JPH09231241A (ja) * 1996-02-28 1997-09-05 Nec Corp 学習型情報処理システム
JP3116851B2 (ja) 1997-02-24 2000-12-11 日本電気株式会社 情報フィルタリング方法及びその装置
JPH10260975A (ja) * 1997-03-18 1998-09-29 Minolta Co Ltd 情報処理装置および情報処理方法
JP2001337986A (ja) * 2001-05-28 2001-12-07 Matsushita Electric Ind Co Ltd 情報フィルタ装置及び情報フィルタリング方法
JP4623635B2 (ja) * 2004-12-28 2011-02-02 中国電力株式会社 社内情報管理システム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
岩井、中村「あいまい情報検索」.オペレーションズ・リサーチ,Vol.26,No.12,p.705−711,1981
森田、小川、小林「動的キーワードコネクション方式を用いた文書検索システム」、昭和63年電子情報通信学会春季全国大会講演論文集(D−389)p.D−I−132(昭63−3−28)

Also Published As

Publication number Publication date
JPH0394375A (ja) 1991-04-19

Similar Documents

Publication Publication Date Title
US5020019A (en) Document retrieval system
US5634051A (en) Information management system
US6725217B2 (en) Method and system for knowledge repository exploration and visualization
USRE43753E1 (en) Graphic user interface for database system
US6701310B1 (en) Information search device and information search method using topic-centric query routing
US7693910B2 (en) Method of searching documents and a service for searching documents
US5926808A (en) Displaying portions of text from multiple documents over multiple databases related to a search query in a computer network
US20010016846A1 (en) Method for interactively creating an information database including preferred information elements, such as, preferred-authority, world wide web pages
US5544352A (en) Method and apparatus for indexing, searching and displaying data
US5168565A (en) Document retrieval system
US7673234B2 (en) Knowledge management using text classification
US6738764B2 (en) Apparatus and method for adaptively ranking search results
US8275773B2 (en) Method of searching text to find relevant content
US20070050356A1 (en) Query construction for semantic topic indexes derived by non-negative matrix factorization
JPH0675265B2 (ja) 情報検索方法及びシステム
CN110633407B (zh) 信息检索方法、装置、设备及计算机可读介质
US7743061B2 (en) Document search method with interactively employed distance graphics display
JP3143532B2 (ja) 画像検索装置及び方法
JP2829745B2 (ja) 文書検索装置
JPH07152771A (ja) 利用者情報管理装置、情報フィルタ、情報分類装置、情報再生装置、情報検索装置及び仮名漢字変換装置
JPH08305724A (ja) 設計支援情報文書管理装置
JP2954949B2 (ja) 文書検索装置
CN116414940A (zh) 标准问题的确定方法、装置及相关设备
JP3526198B2 (ja) データベース類似検索方法及び装置及び類似検索プログラムを格納した記憶媒体
JPH0227478A (ja) 文書管理装置