JPH08320879A - 適合フィードバック装置 - Google Patents

適合フィードバック装置

Info

Publication number
JPH08320879A
JPH08320879A JP7128050A JP12805095A JPH08320879A JP H08320879 A JPH08320879 A JP H08320879A JP 7128050 A JP7128050 A JP 7128050A JP 12805095 A JP12805095 A JP 12805095A JP H08320879 A JPH08320879 A JP H08320879A
Authority
JP
Japan
Prior art keywords
search
record
word
item
determined
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP7128050A
Other languages
English (en)
Other versions
JP2773682B2 (ja
Inventor
Kanako Kubo
加奈子 久保
Mikiya Tani
幹也 谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP7128050A priority Critical patent/JP2773682B2/ja
Publication of JPH08320879A publication Critical patent/JPH08320879A/ja
Application granted granted Critical
Publication of JP2773682B2 publication Critical patent/JP2773682B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 適合/不適合の判定がなされた検索結果が入
力されたとき、自動的に検索語を選択し、重みを算出し
て新たな検索を行い、その結果を適合度順に出力する適
合フィードバック方式を提供する。 【構成】 判定別出現レコード表作成部は適合判定済み
レコードファイル101から判定別出現レコード表10
3を作成する。検索語選択部104は判定別出現レコー
ド表103から、不適合レコードがない場合には項目知
識105を用いて検索語と検索項目を選択する。検索語
重み算出部106は検索語の重みを判定別出現レコード
表103と不適合レコードがない場合には項目知識10
5を用いて算出する。検索式生成部107は検索語と検
索項目を用いて検索式を生成し、検索実行部108は検
索を実行して検索結果を得る。レコード適合度算出部1
09は検索結果の各レコードの適合度を算出してソート
し、適合度順検索結果110を出力する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、情報検索システムで、
検索結果が検索者の要求に適合しているかどうかという
適合判定をもとに、新たに検索を行って新たな検索結果
を適合度順に出力する適合フィードバック装置に関す
る。
【0002】
【従来の技術】従来の情報検索システムでデータベース
のレコードの検索を行う際には、検索者が検索式を作成
し、検索を行っていた。そして、その検索結果に満足で
きない場合には、検索者が検索式を再度作成し、あるい
は前の検索式を一部修正するなどして検索をやり直すの
が一般的であったが、検索に不慣れな検索者にとっては
検索式の作成は困難であり、検索をやり直しても要求に
適合するレコードを得られないことが多かった。
【0003】そこで、検索者の結果に対する適合判定を
検索式に反映させ自動的に検索式を修正、あるいは再度
作成する適合フィードバックの方式が提案されている。
例えば、“Relevance Weighting
of Search Terms”(S.E.Robe
rtson,Karen Sparck Jones
著,Journal of the American
Society for Information
Science,vol.26,p.129−146,
1976年)(以下、文献1)では、検索者が検索され
た結果であるレコードを、適合レコードと不適合レコー
ドかを入力し、該適合/不適合レコードを調べて、ある
語が適合レコード中に出現している確率を計算し、その
値からその語があるレコードに出現しているときそのレ
コードが適合レコードとなる確率を求めている。この確
率の値は、その語の適合レコードを検索する能力を示す
重みとして考えることができ、次のように算出される。
【0004】予め検索者によって、適合/不適合の判定
がなされたレコード集合から検索要求中のある語につい
て、 a:適合レコードで、その語が出現しているレコード数 b:適合レコードで、その語が出現していないレコード数 c:不適合レコードで、その語が出現しているレコード数 d:不適合レコードで、その語が出現していないレコード数 を調べ、その語の重みを log((a+0.5)(d+0.5))/((c+0.5)(b+0.5)) としている。さらに文献1では、この重み付けの方法を
他の重み付けの方法と実験によって比較した結果、最も
検索効率がよいことを示している。
【0005】また、特開平02−245971号公報
「情報検索処理方法および装置」(以下、文献2)に記
載の発明では、検索した結果に検索者の要求に適合して
いるかどうかという判定情報から、適合レコードに出現
して、不適合レコードに出現していない語を抽出し、そ
の抽出された語から検索語として有効な単語を選び、検
索式にその単語を新たな検索語として追加し、検索を行
っている。
【0006】特開平05−151271号公報「情報検
索装置」(以下、文献3)に記載の発明では、検索結果
であるレコードの、適合レコードと不適合レコードを数
件ずつ検索者が入力し、適合レコード中に出現する確率
が適合レコードと不適合レコードに出現する確率よりも
高い語を検索語として選択し、新たな検索式を生成する
技術が記載されている。
【0007】
【発明が解決しようとする課題】しかしながら、上述の
文献1から3に記載されている手法には以下のような問
題がある。
【0008】まず、文献1から3では、適合レコード中
のどの語を検索語とするかの選択基準が曖昧である。例
えば、データベース内が、「タイトル」、「抄録」、
「本文」の項目から構成されている場合に、タイトル中
に出現している語のほうが抄録中に出現している語より
も重要度が高いと考えられるが、これらの手法ではこの
点は考慮されていない。
【0009】また、特に文献2では、検索語はタイト
ル、抄録などのその文献の内容を示すテキスト中の語を
対象にしており、検索語の重み付けも語の文字列として
の一致度、出現頻度、シソーラス上の関係など、テキス
ト中の語に特有の方法をとっているが、検索者にとって
適合か否かを決定する要素として著者、著者の所属、雑
誌論文ならばそれを収録している雑誌名なども考えられ
るが、これらの要素は検索語の選択、重み付けにおいて
も考慮されていない。
【0010】さらにまた、文献1から3では、不適合レ
コードが入力されない場合が考慮されていない。不適合
レコードがなければ適合レコード中の語が全て検索語と
して選択されることになるが、データベース中に多く出
現する語、例えば情報学データベースにおける「情報」
のような一般的に多く出現される語も検索語として選択
されてしまう。
【0011】そして、文献3では、検索者はかならず適
合レコードと不適合レコードを入力しなければならず、
適合レコードのみの入力では検索語を選択することがで
きなく、検索語の重みを算出することもできない。
【0012】このように、従来の適合フィードバック方
式には検索語の選択、および不適合レコードがない場合
の対応など解決すべき課題があった。
【0013】本発明の目的は、上述の問題点を解決し、
検索語の対象をタイトル、抄録などのテキスト項目に限
らず、著者、著者の所属などにまで拡げ、さらには不適
合レコードが入力されていない場合でも検索語の選択、
重み付けが可能な適合フィードバック装置を提供するこ
とにある。
【0014】
【課題を解決するための手段】本発明、第1の発明は、
検索者が検索式を作成し、前記検索式によりデータベー
スを検索して検索結果を出力するデータベース検索シス
テムで、前記検索結果が前記検索者にとって、適合か不
適合かの判定がなされた適合判定済みレコードファイル
を作成し、前記適合判定済みレコードファイルにより再
度検索式を作成して前記データベースを検索しなおす適
合フィードバック装置において、前記適合判定済みレコ
ードファイル内で、適合と判定された検索結果に出現し
ている語と前記語が所属している項目を取り出し、前記
語が前記適合判定済みレコードファイルの前記項目中に
どのくらいの割合で出現しているかを記載した判定別出
現レコード表を作成する判定別出現レコード表作成部
と、前記判定別出現レコード表を参照して前記データベ
ースを検索しなおすための検索語と検索項目を選択する
検索語選択部と、前記検索語と前記検索項目と前記判定
済みレコードファイルから新しい検索式を作成する検索
式生成部と、前記検索式から検索を実行して検索結果を
得る検索実行部とを有することを特徴とする。
【0015】また、第2の発明は、第1の発明におい
て、前記検索語選択部で選択された検索語の重みを前記
判定別出現レコード表を参照して算出する検索語重み算
出部と、前記検索式実行部で得られた検索結果に、前記
検索語選択部で選択された検索語がどのくらい存在して
いるかを抽出し、前記検索語ごとの重みを前記検索語重
み算出部を参照して入力し、前記検索結果に存在してい
る検索語ごとの重みを全て加算した値を前記検索結果の
適合度とし、前記適合度順にソートした検索結果である
適合度順検索結果を出力するレコード適合度算出部とを
有することを特徴とする。
【0016】さらに、第3の発明は、検索者が検索式を
作成し、前記検索式によりデータベースを検索して検索
結果を出力するデータベース検索システムで、前記検索
結果が前記検索者にとって、適合か不適合かの判定がな
された適合判定済みレコードファイルを作成し、前記適
合判定済みレコードファイルにより再度検索式を作成し
て前記データベースを検索しなおす適合フィードバック
装置において、前記適合判定済みレコードファイル内
で、適合と判定された検索結果に出現している語と前記
語が所属している項目を取り出し、前記語が前記適合判
定済みレコードファイルの前記項目中にどのくらいの割
合で出現しているかを記載した判定別出現レコード表を
作成する判定別出現レコード表作成部と、前記データベ
ースの各項目の重み係数を保持した項目知識と、前記判
定別出現レコード表または前記項目知識の重み係数を参
照して前記データベースを検索しなおすための検索語と
検索項目を選択する検索語選択部と、前記検索語と前記
検索項目と前記判定済みレコードファイルから新しい検
索式を生成する検索式生成部と、前記検索式から検索を
実行して検索結果を得る検索実行部とを有することを特
徴とする。
【0017】さらに、第4の発明は、第3の発明におい
て、前記検索語選択部で選択された検索語の重みを前記
判定別出現レコード表と前記項目知識を参照して算出す
る検索語重み算出部と、前記検索式実行部で得られた検
索結果に、前記検索語選択部で選択された検索語がどの
くらい存在しているかを抽出し、前記検索語ごとの重み
を前記検索語重み算出部を参照して入力し、前記検索結
果に存在している検索語ごとの重みを全て加算した値を
前記検索結果の適合度とし、前記適合度順にソートした
検索結果である適合度順検索結果を出力するレコード適
合度算出部とを有することを特徴とする。
【0018】さらに、第5の発明は、第3、第4の発明
において、前記検索語選択部が検索語を選択する際に、
前記適合判定済みレコードファイルに不適合レコードが
存在するかを判断し、不適合レコードがある場合は前記
判定別出現レコード表を参照して検索語を選択し、不適
合レコードがない場合は、前記項目知識を参照して検索
語を選択することを特徴とする。
【0019】
【実施例】次に、本発明の実施例について、図面を参照
して説明する。
【0020】図1は本発明における適合フィードバック
装置の構成の一実施例を示すブロック図である。図2は
適合判定されたある語の出現状況の一例を示す表であ
る。図3は図1の検索語選択部104の処理の流れの一
例を示す図である。図4は図1の検索語重み算出部10
6の処理の流れの一例を示す図である。図5と図8は図
1の判定別出現レコード表103の一例である。図6と
図10は図1の検索語重み算出部106で算出される重
みの一例である。図7と図11は図1の検索式生成部1
08で生成される検索式の一例である。図9は図1の項
目知識105の一例である。
【0021】図1において、適合判定済みレコードファ
イル101は、検索者が一旦検索を行って得た結果の各
レコードに対して、適合/不適合の判定を下したもので
ある。
【0022】判定別出現レコード表作成部102は適合
判定済みレコードファイル101を読み込んで、適合レ
コードに出現している語を取り出す。このとき、語を取
り出す項目として何を選択するかについては、データベ
ース管理者、あるいは、データベース検索システム管理
者が予め決めておく。
【0023】ここで選択される項目は、それぞれのレコ
ードの持つ特性を表現している項目であればよい。例え
ば、雑誌論文のデータベースであれば、タイトル、著
者、著者所属、雑誌名、抄録、キーワードなどであり、
また、会社に関するデータベースであれば、会社名、役
員名、業種、系列などであり、それぞれのレコードのレ
コードIDのような項目は不適切である。
【0024】また、項目を選択する際には、タイトルや
抄録などのようなテキストで、一度自然言語解析などを
用いて不要語を取り除かなくてはならない項目と、著
者、所属、雑誌名などのように項目の値そのものを一つ
の語として取り出す項目を選別しておく。そして、実際
に適合レコードに出現している語を取り出す際には、予
め決められた項目からその項目に適した方法で語を取り
出す。
【0025】次に、それぞれの語について項目別に適合
/不適合レコードに出現しているレコード数を数える。
以下、それぞれの数を、図2のようにa,b,c,dと
する。 a:適合レコードで、その語がその項目に出現している
レコード数 b:適合レコードで、その語がその項目に出現していな
いレコード数 c:不適合レコードで、その語がその項目に出現してい
るレコード数 d:不適合レコードで、その語がその項目に出現してい
ないレコード数 最後に判定別出現レコード表作成部102は取り出した
語について、a,b,c,dの数を記載した判定別出現
レコード表103を作成する。判定別出現レコード表に
ついては、さらに詳しく後述する。
【0026】また、本実施例で文献1と同様な重み付け
の方法を採用したのは、文献1に紹介されている実験で
示されているように、他の重み付けの方法に比べて性能
がよい。また、重み付けの際に必要となるのは、適合/
不適合レコードに語が出現しているかいないかだけであ
り、それ以上に何回出現しているかなどの頻度の情報は
いらないため、非常に簡易である。以上の点を考慮し、
本実施例での重み付けの方法は文献1と同様なものとし
た。
【0027】検索語選択部104は判定別出現レコード
表103と項目知識105を用いて、新しい検索式を作
成するための検索項目と検索語を選択する。また、適合
判定済みレコードファイルに不適合レコードがある場合
とない場合とで、次のように処理が異なる。
【0028】まず、不適合レコードがない場合には、項
目知識105を参照して重み係数があるしきい値以上の
項目を検索項目とし、その検索項目に出現する語を検索
語とする。
【0029】項目知識105は、データベースを構成す
るタイトル、抄録、著者などの項目と、その項目が適合
レコードを検索するのにどのくらい有用であるかを示す
重み係数を記載している。この重み係数はデータベース
管理者が任意に入力してもよいし、その項目に出現する
語の種類などを考慮して計算してもよい。
【0030】また、不適合レコードがある場合には、判
定別出現レコード表103中のすべての語と項目につい
て適合レコードに出現する確率、すなわち (適合レコード中に出現しているレコード数)/(適合レコード数) =a/(a+b)・・・(A) と、適合判定済みの全レコードに出現する確率、すなわ
ち (適合あるいは不適合レコード中に出現しているレコード数)/(適合レコード 数+不適合レコード数)=(a+c)/(a+b+c+d)・・・(B) とを計算する。
【0031】適合レコードに出現する確率が適合レコー
ドおよび不適合レコードに出現する確率よりも大きけれ
ば、あらたに適合レコードを検索できる可能性が大きい
と考えられるので、 a/(a+b)>(a+c)/(a+b+c+d)・・・(C) を満たす語と項目の組合せを探し、それらを新しい検索
語と検索項目として選択し出力する。
【0032】検索語重み算出部106は検索語選択部1
04で選択された検索語の重みを算出する。まず検索語
重み算出部106は判定別出現レコード表103で各検
索語の検索項目におけるa,b,c,dの値を得る。こ
の重みは、各検索語が、新たな適合レコードを検索でき
る可能性の高さを示すものである。そこで、適合レコー
ドに多く出現して、不適合レコードには出現していない
語が新たな適合レコードを検索する可能性が高いと考え
られる。すなわち、a、dの値ができるだけ大きく、
b、cの値ができるだけ小さい検索語が望ましいので、
以下のような重み付けの方法が考えられる。どの重み付
け式を用いるかはデータベース管理者あるいは検索者が
選択してよい。 (a+0.5)(d+0.5)・・・(1) ((a+0.5)(d+0.5))/((c+0.5)(b+0.5))・・・ (2) log((a+0.5)(d+0.5))/((c+0.5)(b+0.5)) ・・・(3) この場合、不適合レコードがない場合にはc=0、d=
0となり、(1)式では、すべての検索語の重みは等し
くなってしまう。さらに適合レコードが1件しかない場
合にはb=0となるので、(1)、(2)、(3)のど
の式を用いても全ての検索語の重みは等しくなってしま
う。
【0033】であるから、図4の処理の流れに示したよ
うに、適合判定済みレコードファイル101中に、不適
合レコードがなくて適合レコードが1件だけの場合に
は、aの値に項目知識105中の重み係数を乗じて重み
とする。不適合レコードがなくて、適合レコードが2件
以上ある場合には、b≠0となる語もありうるので、
(2)式、(3)式のどちらかで重みを計算し、さらに
その検索項目の重み係数を乗じて重みとする。
【0034】また、適合判定済みレコードファイル10
1中に不適合レコードがある場合には、(1)、
(2)、(3)式のいずれかで重みを計算すればよい
が、上記各式の特徴は以下の通りであり、どの重み付け
式を用いるかは、データベース管理者や、検索システム
管理者、または検索者などが自由に選択してよい。
【0035】(1)式は単純にaとbを乗じたものであ
る。a+b=適合レコード数、c+d=不適合レコード
数で、これらの値はどの検索語でも同じである。従っ
て、aの値が大きいほどbの値は小さく、dの値が大き
いほどcの値は小さくなるので、単純にaとbを乗じた
値でも、この値が大きければ大きいほど適合レコードに
多く出現しているといえる。
【0036】(2)式は(1)式の値をさらにbとcと
の積で除したものである。(1)式と同様、a+b=適
合レコード数、c+d=不適合レコード数で、これらの
値はどの検索語でも同じであり、よって、aとdの値が
大きいほどbとcの値は小さくなる。bとcの値が小さ
いほど分母の値も小さくなり、結果として重みも大きく
なる。
【0037】(3)式は(2)式の値の対数(10を底
とする)をとったものである。対数をとることによっ
て、(2)式で差別化された値では、10より大きい
値、例えば、200と300ではそれぞれ2.301と
2.477となり、その差の比率は小さく、また10よ
り小さい値、例えば2と3では、0.301と0.47
7になり、その差の比率はほぼ保たれる。すなわち、
(2)式の値から飛び抜けて大きい値の重みがなくなっ
て約0〜3の範囲に収まり、(2)式の値で10より小
さい範囲での値の差の比率は、ほぼ保たれる特徴があ
る。
【0038】一方、検索式生成部107は検索語選択で
選択された検索語と検索項目を受けとり、検索式を生成
する。検索式においては、同一の検索項目に複数の検索
語がある場合はORで連結し、異なる項目間もORで連
結する。
【0039】また、検索式の生成の際、適合判定済みレ
コードファイル101を参照し、一度検索者によって不
適合判定がなされたレコードを結果に含まないように、
検索式を生成する。
【0040】検索実行部108は検索式生成部107で
生成された検索を用いて検索を行い、検索結果を得る。
【0041】レコード適合度算出部109は検索実行部
108で得られた検索結果の各レコードの適合度を、そ
のレコードに含まれる検索語の重みの総和とする。詳し
くは、検索語選択部104で選択された検索項目に同じ
く選択された検索語があれば、検索語重み算出部106
で得られたその重みを加算して算出する。
【0042】ここで一例を挙げて説明する。説明上、検
索対象は図書館情報学関係の雑誌論文のデータベースで
あり、データベースの項目として、「タイトル」、「抄
録」、「著者」、「所属」、「雑誌名」の項目があり一
般的な図書館情報学関係のデータベースの例である。ま
た、適合判定済みレコードファイル101には検索者が
適合レコードとした10件と不適当レコードとした10
件の計20件のレコードが記載されているものとする。
【0043】判定別出現レコード表作成部102は、こ
の適合判定済みレコードファイル101中の10件の適
合レコードから、予めデータベース管理者あるいはデー
タベース検索システム管理者によって決められた項目に
ついて決められた取り出し方で語を項目別に取り出す。
この例では取り出す項目は、「タイトル」「抄録」「著
者」「所属」「雑誌名」である。「著者」「所属」「雑
誌名」の項目については、項目の値そのものを語として
取り出す。
【0044】また、一般的に「タイトル」や「抄録」は
テキスト項目であるので、自然言語解析を用いて、不要
語を削除し、残った語を取り出すものとする。本実施例
の自然言語解析は、例えば、「自然言語処理の基礎技
術」(野村浩郷著、電子情報通信学会発行、1988
年)の第1章、第2章に記載されているような、自然言
語解析を行い、ここでの不要語を活用語尾、助動詞、連
体助詞、終助詞、副助詞、格助詞、並列助詞とする。
【0045】そして、取り出された語について、図2の
a,b,c,dに相当するレコード数を適合レコードお
よび不適合レコードの計20件でカウントし、図5
(a)に記載の判定別出現レコード表103を作成す
る。図5(a)によれば「大学図書館」という語はタイ
トル項目において適合レコード中の10件中8件に出現
しており、不適合レコードのタイトル項目の10件中に
は出現していない。抄録項目において適合レコードで9
件、不適合レコードで2件に出現している。また、「山
田太郎」という著者は適合レコードの10件中5件に出
現しており、不適合レコード10件中には出現していな
いことを示している。
【0046】検索語選択部104では図3の処理の流れ
にしたがい、図5(a)の判定別出現レコード表103
から検索語と検索項目を選択するため図5(b)の判定
別出現レコード表を作成する。
【0047】その処理について詳しく説明する。今、適
合判定済みレコードファイル101には不適合レコード
が存在するので、それぞれの語について適合レコードに
出現する確率と適合判定済みの全レコードに出現する確
率を上述の(A)式および(B)式で計算する。例えば
図5のタイトル項目中の「大学図書館」という語では適
合レコードに出現する確率は8/10=0.8、全レコ
ードに出現する確率は(8+0)/20=0.4で適合
レコードに出現する確率の方が高い。よってタイトル項
目中の「大学図書館」は検索語として選択される。
【0048】同様にタイトル項目中の「公共図書館」に
ついて計算すると、適合レコードに出現する確率は1/
10=0.1、全レコードに出現する確率は(1+3)
/20=0.2で全レコードに出現する確率の方が高
く、検索語には選択されない。このように取り出された
語について、(C)式を計算して検索語と検索項目を選
択した図5(b)の判定別出現レコード表を作成する。
ここで選択された検索語と検索項目は検索式生成部10
7と検索語重み算出部106に渡される。
【0049】検索語重み算出部106は、図5(b)
(検索語選択部104)によって選択された検索語の重
みを図4の処理の流れに従って算出する。その処理内容
について詳しく説明する。今、不適合レコードがあるの
で、検索語の重みは上述の(1)、(2)、(3)式の
いずれかを用いて計算する。例えばタイトル項目中の
「大学図書館」は(1)式によれば8.5×10.5=
89.25となり、(2)式によれば(8.5×10.
5)/(2.5×0.5)=71.4、(3)式によれ
ばlog((8.5×10.5)/(2.5×0.
5))=1.85となる。同様に、他の語についても重
みを計算すると、図6のようになる。
【0050】一方、検索式生成部107では図5(b)
の検索語とその検索項目を調べ、検索項目に検索語が存
在するレコードを検索できるように検索式を生成する。
同じ検索項目、例えばタイトル項目での検索語「大学図
書館」と「ネットワーク」をOR演算子で連結する。同
様に抄録項目で「大学図書館」と「ネットワーク」、著
者項目で「山田太郎」と「田中花子」をORで連結し
て、検索項目間もORで連結する。さらに、最初に適合
判定済みファイルと検索結果に重複するレコードが検索
されないように、適合判定済みファイルに含まれるレコ
ード番号をNOT演算子で連結する。図7は検索式生成
部107で生成された検索式の一例である。この検索式
は検索実行部108に渡され、データベースでの検索が
行われる。
【0051】レコード適合度算出部109は図7の検索
式で検索された結果のレコードについて検索語が検索項
目に存在すればその重みをレコードの適合度とする。例
えば、タイトル項目中に「大学図書館」と「ネットワー
ク」が出現しているレコードの適合度は、検索語の重み
付け式が(3)であれば1.85+0.49=2.34
になる。以下同様に適合度を計算してその適合度の順に
レコードをソートして適合度検索結果110を出力す
る。
【0052】さらに、もう一例を挙げて説明する。説明
上、適合判定済みレコードファイル101には適合レコ
ード1件のみが記載されているものとする。判定別出現
レコード表作成部102はこの適合判定済みレコードフ
ァイル101を受けとって、適合レコード中に存在する
語を取り出し、図8(a)の判定別出現レコード表10
3を作成する。検索語選択部104は、不適合レコード
がないため、図3の不適合レコードがない場合の処理の
流れにしたがって、図9の項目知識105において重み
係数がしきい値以上の項目を検索項目、そこに出現して
いる語を検索語とする。ここでしきい値を0.8とすれ
ば、検索項目はタイトル、抄録、著者、引用文献とな
り、検索語として選択されるのは図8(b)で○のつい
たものになる。
【0053】検索語重み算出部106は図8(b)の検
索語について、図4に記載の処理の流れにそって重みを
算出する。今、不適合レコードがなく、適合レコードも
1件だけなので、重みはaの値1に図9の項目知識10
5に記載の重み係数をかけた値となる。
【0054】例えば、抄録項目中の「レファレンス」の
重みは1×0.8=0.8となる。図10は検索語とこ
のように計算された重みである。また、検索式生成部1
07は検索語選択部104で選択された図8の検索語と
検索項目をOR演算子で連結して検索式を生成する。こ
のとき、適合判定済みレコードファイル101に記載さ
れている適合レコードのレコード番号を#21とすれ
ば、このレコードが検索結果に含まれないようにNOT
演算子で連結する。図11は以上のようにして生成され
た検索式の一例である。
【0055】検索実行部108では図11の検索式を実
行して検索結果をうけとり、レコード適合度算出部10
9で、図10の検索語の重みによって検索結果の各レコ
ードの適合度を算出し、適合度順にソートした適合度順
検索結果110を出力する。
【0056】出力した結果に対して検索者が再度適合判
定を行えば、その情報を判定別出現レコード表103に
追加して新たな検索を行い、検索者が満足するまで処理
を続ける。
【0057】
【発明の効果】以上に説明したように、本発明によれ
ば、検索者は適合/不適合の判定を行うだけで、新たに
適合度順に配列された検索結果を得ることができる。
【0058】また、適合度の計算においては、タイト
ル、抄録などの語の他に著者や著者の所属などの項目の
語についても項目ごとに検索語の重みを算出すること
で、より正確な適合度を得ることが可能である。
【0059】さらに、項目知識を用いることにより不適
合レコードが入力されない場合や適合レコードが1件だ
け入力された場合にも検索語の選択、重み付けが可能で
ある。
【図面の簡単な説明】
【図1】本発明における構成図を示すブロック図であ
る。
【図2】適合判定別の語の出現状況を示す図である。
【図3】検索語選択部の処理の流れを示す図である。
【図4】検索語重み算出部の処理の流れを示す図であ
る。
【図5】判定別出現レコード表の一例である。
【図6】検索語重み算出部で算出される重みの一例であ
る。
【図7】検索式生成部で生成される検索式の一例であ
る。
【図8】判定別出現レコード表の一例である。
【図9】項目知識の一例である。
【図10】検索語重み算出部で算出される重みの一例で
ある。
【図11】検索式生成部で生成される検索式の一例であ
る。
【符号の説明】
101 適合判定済みレコードファイル 102 判定別出現レコード表作成部 103 判定別出現レコード表 104 検索語選択部 105 項目知識 106 検索語重み算出部 107 検索式生成部 108 検索実行部 109 レコード適合度算出部 110 適合度順検索結果

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】検索者が検索式を作成し、前記検索式によ
    りデータベースを検索して検索結果を出力するデータベ
    ース検索システムで、前記検索結果が前記検索者にとっ
    て、適合か不適合かの判定がなされた適合判定済みレコ
    ードファイルを作成し、前記適合判定済みレコードファ
    イルにより再度検索式を作成して前記データベースを検
    索しなおす適合フィードバック装置において、 前記適合判定済みレコードファイル内で、適合と判定さ
    れた検索結果に出現している語と前記語が所属している
    項目を取り出し、前記語が前記適合判定済みレコードフ
    ァイルの前記項目中にどのくらいの割合で出現している
    かを記載した判定別出現レコード表を作成する判定別出
    現レコード表作成部と、 前記判定別出現レコード表を参照して前記データベース
    を検索しなおすための検索語と検索項目を選択する検索
    語選択部と、 前記検索語と前記検索項目と前記判定済みレコードファ
    イルから新しい検索式を作成する検索式生成部と、 前記検索式から検索を実行して検索結果を得る検索実行
    部とを有することを特徴とする適合フィードバック装
    置。
  2. 【請求項2】前記検索語選択部で選択された検索語の重
    みを前記判定別出現レコード表を参照して算出する検索
    語重み算出部と、 前記検索式実行部で得られた検索結果に、前記検索語選
    択部で選択された検索語がどのくらい存在しているかを
    抽出し、前記検索語ごとの重みを前記検索語重み算出部
    を参照して入力し、前記検索結果に存在している検索語
    ごとの重みを全て加算した値を前記検索結果の適合度と
    し、前記適合度順にソートした検索結果である適合度順
    検索結果を出力するレコード適合度算出部とを有するこ
    とを特徴とする請求項1に記載の適合フィードバック装
    置。
  3. 【請求項3】検索者が検索式を作成し、前記検索式によ
    りデータベースを検索して検索結果を出力するデータベ
    ース検索システムで、前記検索結果が前記検索者にとっ
    て、適合か不適合かの判定がなされた適合判定済みレコ
    ードファイルを作成し、前記適合判定済みレコードファ
    イルにより再度検索式を作成して前記データベースを検
    索しなおす適合フィードバック装置において、 前記適合判定済みレコードファイル内で、適合と判定さ
    れた検索結果に出現している語と前記語が所属している
    項目を取り出し、前記語が前記適合判定済みレコードフ
    ァイルの前記項目中にどのくらいの割合で出現している
    かを記載した判定別出現レコード表を作成する判定別出
    現レコード表作成部と、 前記データベースの各項目の重み係数を保持した項目知
    識と、 前記判定別出現レコード表または前記項目知識の重み係
    数を参照して前記データベースを検索しなおすための検
    索語と検索項目を選択する検索語選択部と、 前記検索語と前記検索項目と前記判定済みレコードファ
    イルから新しい検索式を生成する検索式生成部と、 前記検索式から検索を実行して検索結果を得る検索実行
    部とを有することを特徴とする適合フィードバック装
    置。
  4. 【請求項4】前記検索語選択部で選択された検索語の重
    みを前記判定別出現レコード表と前記項目知識を参照し
    て算出する検索語重み算出部と、 前記検索式実行部で得られた検索結果に、前記検索語選
    択部で選択された検索語がどのくらい存在しているかを
    抽出し、前記検索語ごとの重みを前記検索語重み算出部
    を参照して入力し、前記検索結果に存在している検索語
    ごとの重みを全て加算した値を前記検索結果の適合度と
    し、前記適合度順にソートした検索結果である適合度順
    検索結果を出力するレコード適合度算出部とを有するこ
    とを特徴とする請求項3に記載の適合フィードバック装
    置。
  5. 【請求項5】前記検索語選択部が検索語を選択する際
    に、前記適合判定済みレコードファイルに不適合レコー
    ドが存在するかを判断し、不適合レコードがある場合は
    前記判定別出現レコード表を参照して検索語を選択し、
    不適合レコードがない場合は、前記項目知識を参照して
    検索語を選択することを特徴とする請求項3または4に
    記載の適合フィードバック装置。
JP7128050A 1995-05-26 1995-05-26 適合フィードバック装置 Expired - Lifetime JP2773682B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7128050A JP2773682B2 (ja) 1995-05-26 1995-05-26 適合フィードバック装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7128050A JP2773682B2 (ja) 1995-05-26 1995-05-26 適合フィードバック装置

Publications (2)

Publication Number Publication Date
JPH08320879A true JPH08320879A (ja) 1996-12-03
JP2773682B2 JP2773682B2 (ja) 1998-07-09

Family

ID=14975266

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7128050A Expired - Lifetime JP2773682B2 (ja) 1995-05-26 1995-05-26 適合フィードバック装置

Country Status (1)

Country Link
JP (1) JP2773682B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10240762A (ja) * 1997-02-28 1998-09-11 Matsushita Electric Ind Co Ltd 情報フィルタ装置とデータベース再構築装置及び情報フィルタリング方法と初期化方法
JP2000315212A (ja) * 1999-04-30 2000-11-14 Ntt Data Corp 情報選別方法及びシステム、記録媒体
JP2001117937A (ja) * 1999-10-20 2001-04-27 Hitachi Ltd 文書検索方法および装置
JP2004514193A (ja) * 2000-04-26 2004-05-13 オラクル コーポレーション データベースサーバにおけるリレーショナルデータベース内の行へのアクセスの選択的な監査
JP2017010514A (ja) * 2015-06-18 2017-01-12 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 検索エンジン及びその実現方法
JP6156763B1 (ja) * 2016-11-24 2017-07-05 剛一 尾和 特許文献の検索方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02245971A (ja) * 1989-03-20 1990-10-01 Nippon Telegr & Teleph Corp <Ntt> 情報検索処理方法及び装置
JPH03294963A (ja) * 1990-04-12 1991-12-26 Ricoh Co Ltd 文書検索装置
JPH04281565A (ja) * 1991-03-08 1992-10-07 Toshiba Corp 文書検索装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02245971A (ja) * 1989-03-20 1990-10-01 Nippon Telegr & Teleph Corp <Ntt> 情報検索処理方法及び装置
JPH03294963A (ja) * 1990-04-12 1991-12-26 Ricoh Co Ltd 文書検索装置
JPH04281565A (ja) * 1991-03-08 1992-10-07 Toshiba Corp 文書検索装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10240762A (ja) * 1997-02-28 1998-09-11 Matsushita Electric Ind Co Ltd 情報フィルタ装置とデータベース再構築装置及び情報フィルタリング方法と初期化方法
JP2000315212A (ja) * 1999-04-30 2000-11-14 Ntt Data Corp 情報選別方法及びシステム、記録媒体
JP2001117937A (ja) * 1999-10-20 2001-04-27 Hitachi Ltd 文書検索方法および装置
JP2004514193A (ja) * 2000-04-26 2004-05-13 オラクル コーポレーション データベースサーバにおけるリレーショナルデータベース内の行へのアクセスの選択的な監査
JP4716635B2 (ja) * 2000-04-26 2011-07-06 オラクル・インターナショナル・コーポレイション データベースサーバにおけるリレーショナルデータベース内の行へのアクセスの選択的な監査
JP2017010514A (ja) * 2015-06-18 2017-01-12 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 検索エンジン及びその実現方法
JP6156763B1 (ja) * 2016-11-24 2017-07-05 剛一 尾和 特許文献の検索方法
JP2018085082A (ja) * 2016-11-24 2018-05-31 剛一 尾和 特許文献の検索方法

Also Published As

Publication number Publication date
JP2773682B2 (ja) 1998-07-09

Similar Documents

Publication Publication Date Title
US7966332B2 (en) Method of generating a distributed text index for parallel query processing
US6915295B2 (en) Information searching method of profile information, program, recording medium, and apparatus
US6098066A (en) Method and apparatus for searching for documents stored within a document directory hierarchy
Popescul et al. Statistical relational learning for link prediction
US5926808A (en) Displaying portions of text from multiple documents over multiple databases related to a search query in a computer network
EP1225517B1 (en) System and methods for computer based searching for relevant texts
US8341159B2 (en) Creating taxonomies and training data for document categorization
Frakes Introduction to information storage and retrieval systems
US6286000B1 (en) Light weight document matcher
US20020002550A1 (en) Process for enabling flexible and fast content-based retrieval
US6363374B1 (en) Text proximity filtering in search systems using same sentence restrictions
US6112204A (en) Method and apparatus using run length encoding to evaluate a database
JP3577972B2 (ja) 類似度判定方法及び文書検索装置及び文書分類装置及び文書検索プログラムを格納した記憶媒体及び文書分類プログラムを格納した記憶媒体
US6785669B1 (en) Methods and apparatus for flexible indexing of text for use in similarity searches
JP2004178421A (ja) 文書検索装置、文書検索方法、プログラムおよび記録媒体
JPH08320879A (ja) 適合フィードバック装置
JPH01145721A (ja) 文献の検索妥当性判定方式
JP2004310561A (ja) 情報検索方法、情報検索システム及び検索サーバ
JP4212347B2 (ja) 文書検索装置、プログラムおよび記録媒体
JP2003216634A (ja) 情報検索システム
JP3418876B2 (ja) データ・ベース検索装置および方法
JPH02245971A (ja) 情報検索処理方法及び装置
JP3578045B2 (ja) 全文検索方法及び装置及び全文検索プログラムを格納した記憶媒体
Liu et al. Intelligent search methods for software maintenance
JP2715981B2 (ja) 検索結果評価装置

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 19980324