JPH0496177A - 文書検索方法及びそのキーワード関連度表作成装置 - Google Patents

文書検索方法及びそのキーワード関連度表作成装置

Info

Publication number
JPH0496177A
JPH0496177A JP2211180A JP21118090A JPH0496177A JP H0496177 A JPH0496177 A JP H0496177A JP 2211180 A JP2211180 A JP 2211180A JP 21118090 A JP21118090 A JP 21118090A JP H0496177 A JPH0496177 A JP H0496177A
Authority
JP
Japan
Prior art keywords
keyword
relevance
keywords
file
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2211180A
Other languages
English (en)
Inventor
Mitsuhisa Kaneya
光久 金矢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2211180A priority Critical patent/JPH0496177A/ja
Publication of JPH0496177A publication Critical patent/JPH0496177A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 産業上の利用分野 本発明は、利用者が指定した検索条件によって文書デー
タベースより文書を検索する際、検索結果の適切さに基
づいて出力することにより適量・適質検索の可能な文書
検索方法及びそのキーワード関連度表作成装置に関する
従来の技術 従来、文書検索装置においては種々の検索方式があるが
、その一つとして各キーワード間の関連情報を記述した
キーワード関連度表を用いてファイル確度(利用者の検
索要求に近いものほど大きな値を持つ評価値)を計算し
、この結果に基づいて文書を検索するようにしたものが
、重比願人により例えば特願昭63−8291号「文書
検索装置」等により提案されている。このような文書検
索装置にあっては、使用者が正確なキーワードを覚えて
いなくてもキーワード関連度表を使ったあいまい検索を
行なうことにより、適量・適量な検索結果を得ることが
できる。
発明が解決しようとする課題 ところが、このようなキーワード関連度表を利用したあ
いまい検索法にあっても、従来のシソーラス等に導入さ
れている相互関係(上位語・下位語、参照語、同義語等
)のうち、上位語・下位語関係を表現できないため、次
のような問題がある。
例えば、上位語として「食品」というキーワードがあり
、その下位語として「食品」の一種類である「豆腐」と
いうキーワードがあったとする。
上位語は下位語に比べてより一般的であるので出現頻度
が高く (理由1)、また、下位語が出現する文書中に
はその上位語が出現する確率は高い(理由2)。従って
、文書全体集合における「食品」をキーワードとして持
つ文書、及び「豆腐」をキーワードとして持つ文書の集
合の関係を図示すると第5図(a)に示すようになる。
仮に、同(b)に示すように、理由1により「食品」 
(キーワードiとする)をキーワードとして持つ文書数
N1を995件、「豆腐」 (キーワードJとする)を
キーワードとする文書数Njを30件とし、理由2によ
り「豆腐」をキーワードとして持つ文書で「食品」もキ
ーワードとして持っている文書数NIJを25件とする
。すると、キーワード関連度の初期値計算方法として、
例えば情報処理学会第39回(平成元年後期)全国大会
における論文集中の[ファジィ文書検索システム(1)
〜実験システムと評価〜」 (以下、文献という)等に
より、一般的によく知られている親近性尺度を用いた計
算式によりキーワード関連度WIJを算出すると、 ・・・・・・・・・・・・・・・・・・・・(1)とな
る。キーワード関連度WIJは最大値1、最小値Oであ
り、この値(Wij=0.025)は一般的に非常に小
さいといえる(キーワード間の連想は困難)。これは、
上位語「食品」から下位語「豆腐」を連想する場合に妥
当な値かもしれない。
しかし、「豆腐」をキーワードとして持つ文書30件の
うちの大部分の文書(25件)は「食品」もキーワード
として持っている訳であるから、「豆腐」というキーワ
ードから「食品」というキーワードは容易に連想される
べきであるのに実際は連想が困難であり、これは使用者
の感覚と非常に隔たりがあるといえる。
このような間運点は、下位語がキーワードとして付けら
れている文書のうち、上位語もキーワードとして付けら
れている文書の割合が高いほと、また、下位語がキーワ
ードとして付けられている文書数が上位語かキーワード
として付けられている文書数に比べ少ないほど、顕著に
現れる。
即ち、第6図(a)に示すように、キーワード「A」と
キーワードrB」との間に上位語・下位語の関係が存在
しない場合には、上記問題は生じない。同図(b)に示
すようにキーワード「A」とキーワードrBJとの間に
上位語・下位語の関係が存在する場合に上記問題が現れ
、特に同図(c)に示すようにキーワードrBJの文書
集合がキーワード「A」の文書集合に完全に包含されて
いる場合(即ち、完全な上位語・下位語関係が成立する
場合)に最も顕著に現れる。
課題を解決するための手段 キーワード等の検索条件を入力とし、キーワード間の関
係の強さを示すキーワード関連度等の情報を用いた所定
の計算式から、入力された前記検索条性に対する各文書
の評価値をファイル確度として求め、その文書と求めら
れたファイル確度とを検索結果とする検索を行なうよう
にした文書検索方法において、各キーワード間に向きを
異ならせて設定した1組の方向付きキーワード関連度を
用いてファイル確度を求めるようにした。
作用 キーワード関連度に方向性を持たせた方向付きキーワー
ド関連度を用いることにより、キーワードの上位語・下
位語関係を表現できるため、利用者のきめ細かな要求に
応えることができ、より一層利用者の感覚に近づいたあ
いまい検索が可能となる。
実施例 本発明の一実施例を第1図ないし第4図に基づいて説明
する。
まず、本発明が適用される文書検索装置の概要を第2図
のブロック図を参照して説明する。キーワード抽出部1
は登録文書2を入力するとそのキーワードを抽出し、キ
ーワード及び登録文書2の情報を文書情報管理部3、キ
ーワードコネクション表処理部4及びインバーテツドフ
ァイル作成部5へ出力する。文書情報管理部3は抽出さ
れたキーワードと書誌的情報6とをファイル7に格納し
、検索時に利用可能な形にデータベース化する。キーワ
ードコネクション表処理部4は必要なキーワードととも
に関連性のあるキーワード同士のつながり及びその関連
度を記述したキーワードコネクション(キーワード関連
度)表を作成しファイル9に格納するものである。ここ
に、キーワードコネクション表は例えばリスト構造とさ
れ、関連度の大きい順にソートされる。インバーテツド
ファイル作成部5は各キーワードと登録文書2とを対応
付けるインバーテツドファイルを作成し、ファイル11
に格納するものである。即ち、インバーテツドファイル
はキーワードからそのキーワードを含む文書を指すポイ
ンタを集合させたものである。
ついで、文書選出部12が設けられている。この文書選
出部12は検索利用者の要求主題・要求概念により近い
文書ファイルをキーワード群によって抽出することを目
的としたもので、キーボード13からアクセスする利用
者に対してキーワード−覧表をデイスプレィ14に出力
する。その中から利用者は要求主題に必要なキーワード
を選択するか、自由キーワードを選択して、再びキーボ
ード13から表示検索要求を入力するものである。
このような文書選出部12は、要求処理部15とソート
部16と表示管理部17とキーワード間関連度計算部1
8とファイル確度計算部19とよりなる。要求処理部1
5はキーボード13がら受理したキーワードをキーワー
ド間関連度計算部18に転送する。キーワード間関連度
計算部18では転送されたキーワードに関する関連キー
ワードとその関連情報をキーワードコネクション表から
抽出する。抽出されたキーワード群は関連の強い順にソ
ート部16でソートされて表示管理部17へ出力される
。表示管理部17はこの関連キーワード群をデイスプレ
ィ14に出力し、利用者に対して表示する。この表示に
従い、利用者がさらに必要なキーワードを選択入力する
ことにより、最終的なキーワード群が文書選択要求とと
もに要求処理部15へ送られる。
要求処理部15では文書選択要求を受けると、ファイル
確度計算部19にキーワード群を転送させる。同時に、
最終的なキーワード群に関する関連情報の重み変更を行
うようにキーワードコネクション表処理部4に指示する
。ファイル確度計算部19では受理したキーワード群と
キーワードコネクション表及びインバーテツドファイル
を用いて、登録文書2のファイル7についてファイル確
度を計算し、結果をソート部16に転送する。必要なフ
ァイル確度の計算が終了すると、ソート部16によるソ
ートを経てデイスプレィ14に表示され、検索結果とさ
れる。
ここに、キーワードコネクション表処理部4では、前述
した既提案方式では、2つのキーワードi+jについて
、キーワードiからキーワードJへの関連度WIJと、
キーワードjからキーワード1への関連度WJ1とが同
一に扱われているが、本実施例ではこれらの関連度W 
i j 、 W j iを別々に計算してファイル9に
書き出すものである。また、キーワード間開速度計算部
18の要求に対しても、既提案方式では関連度W i 
j 、 W j iを等しい値として出力していたが、
本実施例ではこれらの関連度W i j 、 W j 
iを区別して出力する。よって、既提案方式では、ファ
イル9には関連度WIJとWJiとが同一の値(又は、
何れか一方の値)が書込まれていたが、本実施例では関
連度WIJとWJiとが別々の値として書込まれている
。この結果、ファイル確度計算部19の処理についても
、既提案方式によれば、関連度W1jを用いて計算を行
うようにしているが、本実施例では関連度W i j 
、 W j iの何れか一方又は両方を用いて計算を行
いファイル確度を求めることになる。
即ち、本実施例によるキーワード関連度の概念を図示す
ると第1図(a、)に示すようになり、同図(b)に対
比して示す既提案方式のキーワード関連度の概念との違
いが判る。即ち、同図(b)の場合、関連度の値は各キ
ーワード間で1つであったが、本実施例の場合には各キ
ーワード間で向きの異なる1組のキーワード関連度を持
ち、キーワードiからキーワードJへの関連度W1jと
、キーワードJからキーワードlへの関連度WJ1とが
区別される。図中、矢印の線の太さが関連度の大小を示
す。
また、これに対応して本実施例によるキーワード関連度
表20を図示すると、第3図(a)に示すようになる。
即ち、同図(b)に対比して示す既提案方式のキーワー
ド関連度表20aによれば、各キーワード間にはWIJ
で示すように1つの関連情報しか格納されていないが、
本実施例のキーワード関連度表20によれば各キーワー
ド間でW i j 。
WJlで示すようにその方向毎に関連情報が格納されて
いることが判る。
ここに、このような方向性を持ったキーワード関連度表
20の作成について説明する。キーワード関連度表20
の初期値計算として、前述した文献等に示されるように
一般的な親近性尺度を用いた計算式によると、関連度W
IJは(1)式によりWij=Wjiとして求められる
。ところが、本実施例では、これらの関連度W i j
 、 W j iの初期値は各々下記の(2)(3)式
により別個に求められる。
即ち、キーワード】がらキーワードJl\の関連度WI
Jは、 により求められ、キーワードJからキーワード1への関
連度Wjiは、 により求められる。これらの式は、親近性尺度を用いた
計算式(1)に、各キーワードl+  Jを持つ文書の
相互の出現比率Nj/Ni、Ni/Njを加味した計算
式といえる。
このようなキーワード関連度表20の作成は、第4図に
示すようなキーワード関連度表作成装置21により作成
される。この作成装置21は第2図中のキーワードコネ
クション表処理部4として機能し得る他、単体でも動作
し得るものである。
第4図中、実線矢印はデータの流れを示し、破線矢印は
制御信号の流れを示す。まず、キーワード抽出部1等の
外部モジュールとのデータの入出力を行う入出力部22
が設けられている。また、ファイル9との間でデータの
入出力を行うファイル入出力部23が設けられている。
これらの入出力部22.23間には各データに基づき上
述したキーワード関連度の計算を行うキーワード関連度
計算部24が設けられている。さらに、外部からの制御
信号に基づき各部22,23.24を制御する制御部2
5が設けられている。
このような構成により、入出力部22はキーワード抽出
部1からキーワード情報i、j、Ni。
Nj、Nijを受取りキーワード関連度計算部24へ送
る。そこで、このキーワード関連度計算部24は各情報
に基づき(2)(3)式によりキーワード関連度W i
 j 、 W j iを計算し、ファイル入出力部23
へ送る。これにより、キーワード関連度W i j 。
WJlはファイル9中のキーワード関連度表20に書込
まれる。一方、入出力部22は要求キーワードLJを受
は取るとファイル入出力部23へ送り、要求に対応する
キーワード関連度W i j 、 W j iをファイ
ル9中から読出し、入出力部22へ渡す。
これを受けて入出力部22は、キーワード関連度W i
 j 、 W j iを要求元へ出力し、ファイル確度
計算等に供される。
二のように、方向付きキーワード関連度を用いることに
より、キーワードの上位語・下位語の関係を表現できる
ため、利用者のきめ細かな要求に応えることができる。
よって、より利用者の感覚に近づいたあいまい検索が可
能となる。ちなみに、第5図(b)に示した前例を用い
て(2)(3)式を計算すると、 となる。仮に、キーワード間開速度・確度計算部24が
線形関数を用いるものとすると、連想量の比は、 となる。これにより、より利用者の感覚を反映したもの
となり、より適量・適量な検索結果を得ることが可能と
なる。
ところで、本実施例において(2)(3)式により求め
られるキーワード関連度Wij、 Wjiは、なる関係
を有する。即ち、1組の方向付きキーワード関連度W 
i j 、 W j iの積は(1)式に示した周知の
親近性尺度を用いた計算式によるキーワード関連度に等
しいものとなる。従って、本実施例によるキーワード関
連度表20は、2つのキーワード間に張られた向きの異
なる開速度同士を掛は合わせることにより簡単に既提案
方式の検索にも利用できる互換性を持つ。よって、1つ
のキーワード関連度表20で本実施例のキーワード関連
度と既提案方式のキーワード関連度とを場合によって使
い分けたり、さらには、両方の関連度値を用いることに
より、より高精度な検索が可能となる。
発明の効果 本発明は、上述したようにキーワード間で方向性を持た
せた方向付きキーワード関連度を用いるようにしたので
、キーワードの上位語・下位語関係を表現でき、利用者
のきめ細かな要求に応えることができ、より一層利用者
の感覚に近づいたあいまい検索が可能となり、特に、こ
の場合、方向付きキーワード関連度が各キーワードを持
つ文書数の相互の出現比率を加味した計算式により算出
されるため、1組の方向付きキーワード関連度の積を親
近性尺度を用いて算出されるキーワード関連度に等しく
して互換性を持たせることもでき、融通性のよい検索方
法となる。
【図面の簡単な説明】
図面は本発明の一実施例を示すもので、第1図は既提案
例と対比して示すキーワード関連度の概意図、第2図は
検索装置全体の構成を示すブロック図、第3図は既提案
例と対比して示すキーワード関連度表の概念図、第4図
はキーワード関連度表作成装置を示すブロック図、第5
図及び第6図はキーワードの上位語・下位語関係を示す
概念図である。 20・・・キーワード関連度表 1.1 図 出 願 人   株式会社   リ コ代 理 人 相 木 明

Claims (1)

  1. 【特許請求の範囲】 1、キーワード等の検索条件を入力とし、キーワード間
    の関係の強さを示すキーワード関連度等の情報を用いた
    所定の計算式から、入力された前記検索条件に対する各
    文書の評価値をファイル確度として求め、その文書と求
    められたファイル確度とを検索結果とする検索を行なう
    ようにした文書検索方法において、各キーワード間に向
    きを異ならせて設定した1組の方向付きキーワード関連
    度を用いてファイル確度を求めるようにしたことを特徴
    とする文書検索方法。 2、親近性尺度を用いた所定の計算式に、各キーワード
    を持つ文書数による相互の出現比率を加味した計算式に
    より1組の方向付きキーワード関連度の初期値を算出し
    てキーワード関連度表を作成することを特徴とするキー
    ワード関連度表作成装置。
JP2211180A 1990-08-08 1990-08-08 文書検索方法及びそのキーワード関連度表作成装置 Pending JPH0496177A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2211180A JPH0496177A (ja) 1990-08-08 1990-08-08 文書検索方法及びそのキーワード関連度表作成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2211180A JPH0496177A (ja) 1990-08-08 1990-08-08 文書検索方法及びそのキーワード関連度表作成装置

Publications (1)

Publication Number Publication Date
JPH0496177A true JPH0496177A (ja) 1992-03-27

Family

ID=16601741

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2211180A Pending JPH0496177A (ja) 1990-08-08 1990-08-08 文書検索方法及びそのキーワード関連度表作成装置

Country Status (1)

Country Link
JP (1) JPH0496177A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06251072A (ja) * 1993-02-27 1994-09-09 Omron Corp 文書処理装置および方法
JP2000137738A (ja) * 1998-11-03 2000-05-16 Nec Corp 複数の細分度のインデックス付けとクエリ―処理を効果的に用いてクエリ―の拡張を支援する方法、及び装置
JP2007257420A (ja) * 2006-03-24 2007-10-04 Sachio Hirokawa データマップ作成サーバ、データマップ作成方法、およびデータマップ作成プログラム
JP2010191962A (ja) * 2009-02-13 2010-09-02 Fujitsu Ltd オントロジーの類似性行列の効率的な計算

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH021057A (ja) * 1988-01-20 1990-01-05 Ricoh Co Ltd 文書検索装置
JPH021059A (ja) * 1988-06-07 1990-01-05 Hitachi Ltd 連想検索システム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH021057A (ja) * 1988-01-20 1990-01-05 Ricoh Co Ltd 文書検索装置
JPH021059A (ja) * 1988-06-07 1990-01-05 Hitachi Ltd 連想検索システム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06251072A (ja) * 1993-02-27 1994-09-09 Omron Corp 文書処理装置および方法
JP2000137738A (ja) * 1998-11-03 2000-05-16 Nec Corp 複数の細分度のインデックス付けとクエリ―処理を効果的に用いてクエリ―の拡張を支援する方法、及び装置
JP2007257420A (ja) * 2006-03-24 2007-10-04 Sachio Hirokawa データマップ作成サーバ、データマップ作成方法、およびデータマップ作成プログラム
JP2010191962A (ja) * 2009-02-13 2010-09-02 Fujitsu Ltd オントロジーの類似性行列の効率的な計算

Similar Documents

Publication Publication Date Title
US5701399A (en) Integration of case-based search engine into help database
US5020019A (en) Document retrieval system
JP2832988B2 (ja) データ検索システム
US20050165819A1 (en) Document tabulation method and apparatus and medium for storing computer program therefor
JP2003345810A (ja) 文書検索方法、文書検索システム及び文書検索結果示方システム
JPH10134075A (ja) 文書処理装置、単語抽出装置、単語抽出方法、及び単語抽出プログラムを記録した記録媒体
JPH03122770A (ja) キーワード連想文書検索方法
JP3584848B2 (ja) 文書処理装置、項目検索装置及び項目検索方法
JP3820878B2 (ja) 情報検索装置,スコア決定装置,情報検索方法,スコア決定方法及びプログラム記録媒体
JPH0496177A (ja) 文書検索方法及びそのキーワード関連度表作成装置
JP3373086B2 (ja) 情報検索装置
JP2872706B2 (ja) 情報検索装置
JPH04152468A (ja) 文書検索装置
JPH03294963A (ja) 文書検索装置
CN112100330B (zh) 一种基于人工智能技术的主题搜索方法及其系统
JP2732661B2 (ja) テキスト型データベース装置
JPH03294964A (ja) 文書検索方法
JPH0241564A (ja) 文書検索装置
JP3652086B2 (ja) 速読支援装置
JPH03122769A (ja) キーワード連想検索装置
JP2000105769A (ja) 文書表示方法
JPH02125363A (ja) 文書検索装置
JPH03294965A (ja) 文書検索方法
JPH04135278A (ja) 文書検索装置
JP3518777B2 (ja) マニュアル情報の分割提供システム