JP2954949B2 - 文書検索装置 - Google Patents

文書検索装置

Info

Publication number
JP2954949B2
JP2954949B2 JP1186051A JP18605189A JP2954949B2 JP 2954949 B2 JP2954949 B2 JP 2954949B2 JP 1186051 A JP1186051 A JP 1186051A JP 18605189 A JP18605189 A JP 18605189A JP 2954949 B2 JP2954949 B2 JP 2954949B2
Authority
JP
Japan
Prior art keywords
document
keyword
search
user
accuracy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP1186051A
Other languages
English (en)
Other versions
JPH02125363A (ja
Inventor
泰嗣 小川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Publication of JPH02125363A publication Critical patent/JPH02125363A/ja
Application granted granted Critical
Publication of JP2954949B2 publication Critical patent/JP2954949B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は文書検索装置、とくに、文書検索時、検索結
果において各文書が、利用者の検索要求に近いものほど
大きな値を持つ評価値によって順序づけられ、さらに、
その順序づけが利用者の判断・指示により変更可能な柔
軟で高速な文書検査装置に関する。
〔従来の技術〕
従来の文書検索装置においては、文書登録時に登録オ
ペレータが適切と思われるキーワードの選択・登録を行
い、文書検索時には検索装置利用者がシソーラスの中か
ら適切と思われるキーワードを指示することによって検
索を行っている。この方法によれば高速検索が可能であ
る。
〔発明が解決しようとする課題〕
上記のような従来の装置によれば、登録オペレータが
選択するキーワードの妥当性の問題がある。また、シソ
ーラスによる分類・更新作業が繁雑であり、これらの妥
当性についても問題点がある。
さらに、従来の文書検索装置は、利用者が指定した検
索条件を満たしているか否かだけを調べるので、検索条
件をどの程度満たしているかについてのあいまい検索が
できない。そのため、利用者が指定した検索条件を完全
ではないがほぼ満たしているような文書を検索するのに
もう一度検査を実行しなければならない。また、利用者
が指定した検索条件を満たすものがまったく無い場合、
検索条件に最も近い文書を検索することが極めて面倒で
あるという問題点もある。
これらの問題を解決する方法として、キーワード間の
関係を数値で表現する方法が考えられている。しかし、
具体的な数値による表現方法が示されていない。また、
学習機能がないため、実際の文書検索装置としてシステ
ムにするには不十分であった。
本発明はこのような従来技術の欠点を解消し、動的キ
ーワードコネクションという概念を利用し、文書登録時
にはシソーラスなどに基づいた煩雑な分類作業を必要と
せず、文書検索時には利用者の検索要求に近いものほど
大きな値を持つような文書確度という評価値を導入し、
その文書確度の大小をもとに利用者が要求を満たす文書
を柔軟に検索できる文書検索装置を提供することを目的
とする。本発明は、特に検索質問文がキーワード1つあ
るいは複数のキーワードの論理和であるような場合に、
利用者の判断・指示に基づいてキーワードコネクション
を変更し、次の検索時に利用者の判断が検索結果に反映
されるようにするキーワードコネクションの学習方式を
備えた文書検索装置を提供することを目的とする。
〔課題を解決するための手段〕
本発明は上述の課題を解決するために、登録文書およ
びその文書情報がファイルに登録される際、登録文書に
よりキーワードを抽出するキーワード抽出手段と、登録
文書と前記キーワードとの間の関連を示すインバーテッ
ドファイルを作成するインバーテードファイル作成手段
と、キーワード間の関連情報の関連度を記述したキーワ
ードコネクション表を作成し、既に記録されている関連
情報の関連度の値を必要に応じて変更し、新規関連情報
を生成するキーワードコネクション表処理手段と、入力
されたキーワードにより前記キーワードコネクション表
およびインバーテッドファイルを用いて検索式に合致し
た文書を選出する文書選出手段と有する文書検索装置に
おいて、文書選出手段は、特定のキーワード群と各ファ
イル内の登録文書のキーワード群との間の関連の強さを
示す値を文書確度とし、キーワードコネクション表、イ
ンバーテッドファイルおよび所定の方法により文書確度
を計算する文書確度計算手段を有し、文書選出手段は、
検索式が入力されると文書確度の大きさの順に検索結果
の文書を出力し、文書ごとの文書確度の可否が入力され
ると、所定の方法によりキーワードコネクションを変更
する。
〔作用〕
本発明による文書検索装置は、利用者の検索質問文
(以下検索式と呼ぶ)に対し装置内の各文書がどの程度
検索式を満たしているかその程度を表す文書確度を計算
し、文書を文書確度の大きい順にソートして利用者に提
示する。利用者は検索結果の文書タイトルと文書確度の
一覧表からさらに詳しく見たい文書を選択し、文書内容
を見ることができる。利用者は一覧表の内容から、いま
見ている文書が自分の検索式にふさわさしいか否かを判
断する。このような利用者の判断に基づく学習によりキ
ーワードコネクションを変更し、次の検索時にその判断
が検索結果に反映されるようにすることができる。
〔実施例〕
次に、本発明の文書検索装置の実施例を添付図面を参
照して説明する。
本発明の文書検索装置はキーワードと各登録文書間の
関連を記述するキーワードコネクショを用いる。各文書
に対し利用者の検索要求に近いものほど大きな値を持つ
ような文書確度という評価値を導入し、文書検査時には
その文書確度の大小をもとに利用者が要求を満たす文書
を柔軟に選択する。
キーワードコネクションは、キーワード間の関連を記
述したものである。キーワードコネクションでは、関連
の大きさを0〜1の範囲とし、0はキーワード間に関係
がないこと、0以上の値は関係があること、さらに、1
は関係の大きさが最大であることを表現するものとす
る。
キーワードコネクションは2次元配列として捉えるこ
ともできる。その場合、i番目のキーワードとj番目の
キーワードの関連度(以下、重みと称す)はWi〔Kj〕あ
るいはもっと簡単にWijで表現される。
本発明の文書検査装置の構成を第1図に示す。キーワ
ード抽出部10は、登録文書11を入力すると、そのキーワ
ードを抽出し、キーワードおよび登録文書11を文書情報
管理部20、キーワードコネクション表処理部30、インバ
ーテッドファイル作成部40へ出力する。
文書管理部20、キーワードコネション表処理部30、イ
ンバーテッドファイル作成部40は、それぞれファイル2
1,31,41を有する。文書情報管理部20は、キーワードと
書誌的情報をファイル21に格納し、検索時に利用可能な
形にデータベース化する。
キーワードコネクション表管理部20は、必要なキーワ
ードとキーワードコネクションを記述したキーワードコ
ネクション表を作成し、ファイル31に格納する。さら
に、要求処理部54からの要求があれば、キーワードコネ
クションの重みを変更する。
インバーテッドファイル作成部40は、キーワードと文
書の関係を記述し、ファイル41に格納する。
文書選出部50は各部51〜55によりなる。文書確度計算
部51は要求処理部54から転送されてきた検索式に基づ
き、ファイル31に格納されているキーワードコネクショ
ン表内の必要な情報を用いて各文書毎に文書確度を計算
する。計算方式は後で詳しく説明する。
文書ソート部52は文書確度計算部51で計算された文書
確度の大きい順にファイル21に格納されている文書を整
列し、表示管理部55に転送する。
表示管理部55は要求処理部53から与えられる利用者の
指示に従い検索結果を表示する。
学習管理部54は要求処理部53から与えられる利用者の
指示に従いキーワードコネクションの学習を行う。学習
管理部54ではキーワードコネクションの各重みをどの程
度変化させるかの計算を行い、実際の値の変更はキーワ
ードコネクション表処理部30に指示を与えることで実現
される。学習方式は後で詳しく説明する。
要求処理部53は、検索要求にあった文書を検索するた
めに文書確度計算部51に対して、受理した検索式を転送
する。同時に必要があれば、最終的なキーワード群に関
する関連情報の重みの変更をキーワードコネクション表
処理部30に指示する。
文書検査処理は利用者の要求に従い、適切な文書を検
索表示することを目的としている。文書選択処理は文書
選出部50で行われる。
検索条件はキーワードの指定およびその他書誌的情報
に対する条件設定により行われる。まず、各文書のキー
ワード以外の条件設定が満たされているか否かが判定さ
れる。条件が満たされている場合、その文書の文書確度
の計算が行われ、条件が満たされていない場合、その文
書の文書確度の計算は行われず値は0とされる。
キーワードの指定は、利用者の得たい情報を表現する
検索式によって行う。検索式とは1つのキーワードある
いは複数のキーワードをOR(和演算)により結合させた
ものである。複数のキーワードの結合が用いられるのは
文書管理装置内に利用者が得ようとしている情報を表現
する1語のキーワードが存在していない場合である。
つぎに、検索式Queryに対する各文書確度の計算法を
示す(実際の計算は文書選出部50内の文書確度計算部で
行われる)。
本発明による文書確度の計算において代数和を用い
る。
xy=x+y−xy=1−(1−x)(1−y) また、 である。
文書確度とは、各文書と利用者の指定した検索式の関
連の強さを表す数値である。本発明のキーワードコネク
ションの学習法は検索式がキーワードが1つあるいは複
数のキーワードの論理和である場合を対象としているの
で、その場合の計算法を説明する。まず、各キーワード
についてキーワードコネクションの重みの検索式に含ま
れるキーワードの集合に関する代数和を求める。つぎ
に、その結果のm番目の文書に含まれるキーワードの集
合KL(m)に関する代数和を求め、それを文書確度とす
る。
ここで、iはいま注目しているm番目の文書について
いるキーワードの集合KL(m)の要素、jは検索式に含
まれるキーワードの集合QUERYの要素をとる。さらに、
(A2)式の関係を用いることで、次のように変形する。
文書選出部50の文書確度計算部51で文書確度が計算さ
れたならば、次に、文書選出部50の文書ソート部52で文
書を文書確度の大きい順にソートする。そして、その結
果が表示管理部55に送られ利用者に表示される。
本発明によるキーワードコネクションの学習方式を適
用できるキーワードコネクションは、各重みが0〜1の
範囲内の値を取り、i=jの場合、重みが1に固定され
るものである。
学習の方法はつぎの通りである。検索結果がどの程度
利用者の判断に近いかを評価する、すなわち、文書の文
書確度と利用者の判断との相違を数値化する評価関数E
をあらかじめ設定しておく。この学習方式における評価
関数は後に具体的に示す。キーワードコネクションの学
習において、キーワードコネクションの重みをいま定義
した評価関数Eの値を小さくするように変更する。
ここで、 また、αの正の定数で学習の速度を決定する学習定数で
ある。変更量ΔWijの決定は最急降下法に基づいて行わ
れる。すなわち、 以下で、2つの学習方式1・2で評価関数Eがどのよう
に与えられ、それに基づいてキーワードコネクションの
変更量ΔWijがどのように与えられるか詳しく説明す
る。
(学習方式1) 学習方式1では、ある1つの文書が検索式に対し適切
あるいは不適切であるか利用者によって判断される。評
価関数Eは、ある文書の文書確度と利用者の判断を数値
化したもの(適切である文書に対しては1、不適切であ
る文書に対しては0が与えられる)の差の2乗として、
つぎのように与えられる。
ここで、FCmはm番目の文書の文書確度である。
以下で文書が適切と判断された場合、文書が不適
切と判断された場合で変更量ΔWijの計算式が異なるの
で、2つの場合に分けて計算式を詳細に説明する。
文書が適切と判断された場合 まず、評価関数Eの重みWijによる偏微分は (A4)式より、 ここで、kは注目しているm番目の文書についているキ
ーワードの集合KL(m)の要素、1は検索式に含まれる
キーワードの集合QUERYの要素をとる。ただし、(k,l)
が(i,j)となる組合せは除く。
(6)式において、Wij≠lの場合、 と書き換えることができ、偏微分の計算量を減らすこと
ができる。Wij=1の場合、変更量は正となり、一方キ
ーワードコネクションの重みは0から1の範囲になけれ
ばならないので、実際に値を変更することはできない。
したがって、 となる。
文書が不適切と判断された場合 まず、先ほどの指標Eiの重みWijによる偏微分は FCmのWijによる偏微分は、先ほどの(6)式で与えられ
る。しかし、で計算を省略可能だったWij=1の場
合、今回は省略せずに計算しなければならない。したが
って、 となる。
さて、以上のように・の場合にそれぞれΔWijが
求められる。実際の重みの変更はΔWijが0でない場合
についてのみ行えばよく、またi=jの場合重みの値は
1に固定なので、キーワードコネクションの学習のフロ
ーチャートは第2図および第3図の示す通りになる。
この学習方式によれば、利用者の判断、指示に基づい
てキーワードコネクションを変更し、次の検索時にその
判断、指示を検索結果に反映させることができる。しか
も高速で検索できるから対話処理に適している。この方
式によれば、日常検索時にキーワードコネクションを少
しづつ改良することができる。
(学習方式2) 学習方式2では、全文書が1文書ごとに検索式に対し
適切あるいは不適切であるか利用者によって判断され
る。評価関数Eは、ある文書のファイル確度と利用者の
判断を数値化した (利用者の適切・不適切の判断を表し、適切である文書
に対しては1、不適切である文書に対しては0が与えら
れる)の差の2乗の全文書に対する和として、つぎのよ
うに与えられる。
実際には、 を与える際に利用者は適切であるものだけを検索装置に
教えればよい。また、mは全文書の集合ALLDOCの中の要
素を取る。
まず、評価関数Eの重みWijによる偏微分は FCmのWijによる偏微分は、前記(6)式で与えられる。
(6)式によれば、m番目の文書についているキーワー
ドにi番目のキーワードが含まれていない場合その偏微
分は0となるので、(12)式でmは全文書の集合の要素
を取るとせず、i番目のキーワードを含む文書の集合DO
C(i)の要素を取るとできる。
Wij≠1の場合、(7)式の書換えができる。Wij=1
の場合、省略せずに計算しなければならない。したがっ
て、 となる。
以上のようにΔWijが求められる。実際の重みの変更
はΔWijが0でない場合についてのみ行えば良く、また
i=jの場合重みの値は1に固定なので、キーワードコ
ネクションの学習のフローチャートは第4図〜第6図に
示す通りになる。
この学習方式の場合にも、利用者の判断、指示に基づ
いてキーワードコネクションを変更し、次の検索時にそ
の判断、指示を検索結果に反映させることができる。こ
の方式による処理は比較的低速であるため、バッチ処理
に適し、キーワードコネクションの初期設定時などに用
いられる。
〔発明の効果〕
本発明によれば、あいまい検索が可能であり、利用者
の判断、指示に基づいてキーワードコネクションを変更
し、次の検索時にその判断、指示を検索結果に反映させ
ることができる。その結果、利用者が過去に必要とした
文書が上位にランクされるようになり、検索を効率化で
きる。逆に、利用者が過去に不必要とした文書は下位に
ランクされるようになり、検索を効率化できる。さら
に、利用者が用いないキーワードは不必要として取り除
くことが可能であり、記憶装置の効率利用が可能であ
る。
【図面の簡単な説明】
第1図は本発明による文書検索装置の一実施例を示すブ
ロック図、 第2図、第3図は本発明による文書検索装置において行
われる学習方式を示すフローチャート、 第4図、第5図、第6図は本発明による文書検索装置に
おいて行われる他の学習方式を示すフローチャートであ
る。 主要部分の符号の説明 10……キーワード抽出部 11……登録文書 12……書誌情報 20……文書情報管理部 21、31、41……ファイル 30……キーワードコネクション表処理部 40……インバーテッドファイル作成部 50……文書選出部 51……文書確度計算部 52……文書ソート部 53……要求処理部 54……学習管理部 55……表示管理部 60……キーボード 70……ディスプレイ
フロントページの続き (56)参考文献 森田、小川、小林「動的キーワードコ ネクション方式を用いた文書検索システ ム」昭和63年電子情報通信学会春季全国 大会講演論文集(D−389),p.D− 1−132(昭63−3−28) 岩井、中村「あいまい情報検索」オペ レーションズ・リサーチ,Vol.26, No.12,1981,p.708−711(昭56− 12) D.E.Rumelhart,J. L.McClelland and P DP Rcscarch Group. PARALLEL DISTRIBUT ED PROCESSING Expl orations in the Mi crostructure of Co gnition Volume I:F oundations.The MIT PRESS,1986.p.322−328 (58)調査した分野(Int.Cl.6,DB名) G06F 17/30 G06F 15/18 JICST科学技術文献ファイル

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】登録文書およびその文書情報がファイルに
    登録される際、登録文書よりキーワードを抽出するキー
    ワード抽出手段と、 前記登録文書と前記キーワードとの間の関連を示すイン
    バーテッドファイルを作成するインバーテッドファイル
    作成手段と、 前記キーワード間の関連度を記憶するキーワードコネク
    ション表を作成し、既に記録されている前記キーワード
    コネクション表の関連度の値を必要に応じて変更するキ
    ーワードコネクション表処理手段と、 利用者が入力した検索式に指定されたキーワード群によ
    り前記キーワードコネクション表および前記インバーテ
    ッドファイルを用いて該検索式に合致した文書を選出す
    る文書選出手段とを有する文書検索装置において、 該文書選出手段は、利用者が入力した検索式に指定され
    たキーワード群と各ファイル内の登録文書のキーワード
    群との間の関連の強さを示す値を文書確度とし、それら
    のキーワード間の関連度を前記キーワードコネクション
    表から得て所定の方法により文書確度を計算する文書確
    度計算手段と、前記文書確度計算手段によって計算され
    た文書毎の文書確度を勘案してその文書の可否を利用者
    が入力したとき、この可否に対応して異なる所定の演算
    式に前記キーワードコネクション表の関連度と該文書毎
    の文書確度とを適用し、キーワードコネクションの関連
    度を学習する学習手段とを有し、前記キーワードコネク
    ション表処理手段は、前記学習手段によって学習された
    キーワードコネクションの関連度を既に記録されている
    キーワードコネクション表に反映させることによってキ
    ーワードコネクション表を更新し、利用者による判断が
    次の検索時に反映されるようにしたことを特徴とする文
    書検索装置。
JP1186051A 1988-07-29 1989-07-20 文書検索装置 Expired - Lifetime JP2954949B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP63-187988 1988-07-29
JP18798888 1988-07-29

Publications (2)

Publication Number Publication Date
JPH02125363A JPH02125363A (ja) 1990-05-14
JP2954949B2 true JP2954949B2 (ja) 1999-09-27

Family

ID=16215656

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1186051A Expired - Lifetime JP2954949B2 (ja) 1988-07-29 1989-07-20 文書検索装置

Country Status (1)

Country Link
JP (1) JP2954949B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2804403B2 (ja) * 1991-05-16 1998-09-24 インターナショナル・ビジネス・マシーンズ・コーポレイション 質問回答システム
JP3244005B2 (ja) * 1995-09-04 2002-01-07 松下電器産業株式会社 情報フィルタ装置及び情報フィルタリング方法
JPH11259504A (ja) * 1998-03-11 1999-09-24 Mitsubishi Electric Corp データベース作成装置およびデータベース検索装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
D.E.Rumelhart,J.L.McClelland and PDP Rcscarch Group.PARALLEL DISTRIBUTED PROCESSING Explorations in the Microstructure of Cognition Volume I:Foundations.The MIT PRESS,1986.p.322−328
岩井、中村「あいまい情報検索」オペレーションズ・リサーチ,Vol.26,No.12,1981,p.708−711(昭56−12)
森田、小川、小林「動的キーワードコネクション方式を用いた文書検索システム」昭和63年電子情報通信学会春季全国大会講演論文集(D−389),p.D−1−132(昭63−3−28)

Also Published As

Publication number Publication date
JPH02125363A (ja) 1990-05-14

Similar Documents

Publication Publication Date Title
US5819259A (en) Searching media and text information and categorizing the same employing expert system apparatus and methods
Croft Knowledge-based and statistical approaches to text retrieval
Chen et al. Generating, integrating, and activating thesauri for concept-based document retrieval
US5297042A (en) Keyword associative document retrieval system
US5020019A (en) Document retrieval system
US5168565A (en) Document retrieval system
JP3282937B2 (ja) 情報検索方法及びシステム
US20010016846A1 (en) Method for interactively creating an information database including preferred information elements, such as, preferred-authority, world wide web pages
EP0704075A1 (en) Method and apparatus for indexing searching and displaying data
JP2003529814A (ja) データ整理のための方法及びシステム
JPS603056A (ja) 情報整理装置
Smith Artificial intelligence in information retrieval systems
US9298818B1 (en) Method and apparatus for performing semantic-based data analysis
US7743061B2 (en) Document search method with interactively employed distance graphics display
JP2829745B2 (ja) 文書検索装置
JP2954949B2 (ja) 文書検索装置
JPH0227478A (ja) 文書管理装置
JP2939841B2 (ja) データベース検索装置
JP3088805B2 (ja) 文書管理装置
Golub Automatic subject indexingand evaluation: An introduction: Talk at the Huminfra seminar" AI and the Library: Subject Descriptions in the Era of Artificial Intelligence", Borås, 29 January 2024
Kalna-Dubinyuk et al. PRINCIPLES OF FORMATION OF E-NETWORK KNOWLEDGE BASES IN THE FORMAT OF OPERATIONALLY STRUCTURED SCENARIOS.
JPS63157228A (ja) 階層形ブラウジング方式
Kopackova et al. Text-based decision making with artificial immune systems.
Prajapati et al. Performance Evaluation of Heart Disease Disorder Diagnosis Using Intelligent Supervised Machine Learning Classifiers
WO1999064945A9 (en) Computer systems and computer-implemented processes for knowledge management using relevancy to search for, acquire and organize information for multiple users