JPH03296863A - キーワード関係辞書管理装置 - Google Patents

キーワード関係辞書管理装置

Info

Publication number
JPH03296863A
JPH03296863A JP2100108A JP10010890A JPH03296863A JP H03296863 A JPH03296863 A JP H03296863A JP 2100108 A JP2100108 A JP 2100108A JP 10010890 A JP10010890 A JP 10010890A JP H03296863 A JPH03296863 A JP H03296863A
Authority
JP
Japan
Prior art keywords
keyword
dictionary
keywords
information
relationship
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2100108A
Other languages
English (en)
Inventor
Tetsuya Morita
哲也 森田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2100108A priority Critical patent/JPH03296863A/ja
Publication of JPH03296863A publication Critical patent/JPH03296863A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 産業上の利用分野 本発明は、キーワードと各キーワード間の関係情報を保
持する知識ベースを、利用者の判断により変更し得るよ
うにした情報検索システムにおけるキーワード関係辞書
管理装置に関する。
従来の技術 情報検索システムにおいて、キーワードは重要な役割を
果たす。ここに、キーワードを用いた従来の検索システ
ムは、シソーラス型とフリー・キーワード型とに分類さ
れる。
前者は、文書登録時に登録オペレータが適切と思われる
キーワードを選択し、書誌的事項とともに登録し、検索
時にはシステム利用者がシソーラス中から適切と思われ
るキーワードを指示することにより行うものである。こ
れによれば、インバーテツドファイルを持たせることが
でき、高速検索が可能である。しかし、キーワード用の
記憶容量負荷が大きく、かつ、登録オペレータが選択す
るキーワードの妥当性、シソーラスによる分類・更新作
業の煩雑性、妥当性が大きな問題となっている。
後者は、文IF登録時には書誌的事項と文書内容のみを
登録しておき、検索時にシステム利用者がフリー・キー
ワードで検索を行うというものである。これによれば、
余分な記憶容量負荷が小さくて済み、かつ、指示された
キーワードを含む文書の有無が明確であり、さらには、
分類作業も不要である。しかし、全文検索のため検索時
間がかかり、また、同義語処理等の曖昧検索には向かな
し1ものである。
このような2方式の欠点をなくすため、最近では、「動
的キーワードコネクション」という概念を導入し、文書
登録時には煩雑な分類作業を必要とせず、かつ、文書検
索時には検索利用者の感覚に近い曖昧検索を高速ででき
るようにしたものが考えられている。これは、キーワー
ドコネクションと呼ばれるキーワード間の関係情報を保
持する知識ベースを用いて関連キーワード検索や曖昧検
索を実現したものである。ここに、関連情報は、関係糸
・重み(数値)・方向(重みの符号)等からなる。関係
糸は、例えば「同義語」 「類義語」「同−文書内にあ
り]といった関係である。重み・方向は関係の強さ、方
向を表す。このようなキーワードコネクションは、検索
実行、即ち検索利用者のキーワードアクセスによってそ
の数値が変更されるものである。特に、これらの数値は
アクセス頻度・履歴等に応じて変更されるため、頻繁に
使用されるキーワードやキーワードの使われ方によって
、知識ベース全体として次第に検索利用者の諸費感覚に
近づき、ここに動的キーワードコネクションが次第に形
成されるというものである。
発明が解決しようとする課題 しかし、このような方式の場合、新規キーワード登録や
学習により、コネクションの数が増大してしまう。即ち
、最大コネクション数はキーワード数に対して(キーワ
ード数)′のオーダで増加するため、膨大な辞書容量を
要する等、コネクションの管理が問題となる。
課題を解決するための手段 キーワードと各キーワード間の関係情報を格納したキー
ワード関係辞書、又は、標準となる文書と各々の文書に
おけるキーワードの共出現頻度値を用いて各キーワード
間の関係の強さを予め算出し、算出されたこの関係の強
さをキーワード間の関係情報としてキーワードとともに
格納したキーワード関係辞書を用い、キーワードを含む
入力条件に適した関連キーワードの検索や関連文書の曖
昧検索を行なう情報検索システムにおいて、指定された
キーワードに対して前記キーワード関係辞書中から所定
の閾値以上の関係情報を持つキーワードを検索する閾値
処理部を設け、閾値処理部で検索されたキーワード群と
これらのキーワード群間の関係情報とをグループ化した
グループリストを作成して前記キーワード関係辞書中の
関係情報を変更する関係情報変更部を設けた。
作用 利用者があるキーワードを指定すると、閾値処理部によ
りキーワード関係辞書中がら所定の閾値以上の関係を持
つ一群のキーワードが検索される。
検索されたこれらのキーワード群とその関係情報とは関
係情報変更部により1つのグループとしてグループ化さ
れグループリストが作成され、これに応じてキーワード
関係辞書中の関係情報の削除・追加といった変更を行な
う。このように、関係情報の内容に応じて複数個の関係
情報がグループ化されて変更されるため、辞書容量が縮
lJXするものとなり、関係情報数が増えても効率的な
辞書容量管理が可能となる。さらに、同一グループに属
するキーワードについては高速でその関係情報値を検索
できるものともなる。
実施例 本発明の一実施例を図面に基づいて説明する。
第1図は本実施例の構成を示すブロック図であり、まず
、キーワード関係辞書1が設けられている。このキーワ
ード関係辞書1は各キーワードとともに各キーワード間
の関係の強さを示す関係情報(以下、本実施例では、 
「コネクションJという)を保持するものである。キー
ワード関係辞書1にはキーワード関速度計算部2が接続
されている。キーワード関速度計算部2は前記キーワー
ド関係辞書1に含まれるキーワードの内、利用者が入力
した検索キーワードに関連のあるキーワード(関連キー
ワード)のキーワード関速度を後述する所定の計算式に
より算出するためのものである。
さらに、キーワード関速度計算部2は、関連キーワード
と算出されたキーワード関速度とを対とした降順リスト
によるキーワード関速度順リストを作成し、表示・入力
部(図示せず)に転送する。
しかして、本実施例では前記キーワード関係辞書1を管
理するために、閾値処理部3とコネクション変更部(関
係情報変更部)4とが設けられている。閾値処理部3は
指定されたキーワードに対して近接するキーワードとの
間のコネクション値が予め設定された所定の閾値以上の
キーワードを探すためのものである。また、コネクショ
ン変更部4は複数のコネクションとキーワードとの情報
をグループ化しグループリストを追加してキーワード関
係辞書1の内容(関係情報)を更新するためのものであ
る。
このような構成において、まず、利用者が少なくとも1
つの検索キーワードを入力すると、キーワード関速度計
算部2では、キーワード関係辞書1中に含まれる全ての
キーワードについてこの検索キーワードとのキーワード
関速度を計算する。
ここに、検索キーワードの集合Qが与えられた時のキー
ワードjのキーワード関速度Riは、コネクション値W
を用いると、(1)式のように表せる。
コネクション値Wは[0,1]の値をとることができ、
Oは無関係、lは関係の最大値を意味する。
また、WiJはキーワードiとキーワードjとのコネク
ション値を示す。
Ri=ΦWij = 1− n (1−Wij)  ・
・・・・・・・・・・・・・・(1)JεQ     
        jεQ第2図は、例えば、検索キーワ
ード入力として「人工知能」が与えられた場合に算出・
作成されたキーワード関速度リスト5の一例を示す。こ
のようなキーワード関速度リスト5は表示部により利用
者に対して表示される。
ついで、キーワード関係辞書1の更新について説明する
。第3図(a)は本実施例によるグループ化を行なう前
のキーワード関係辞書Iの内容を具体的に表したもので
ある。ここで、コネクションの閾値を0.95とする。
閾値処理部3では指定されたキーワードに対して閾値0
.95以上のコネクション値を持つキーワードを検索す
る。例えば、「人工知能」というキーワードを閾値処理
部3に入力すると、閾値0,95以上のコネクション値
を持つキーワードとして「エキスパートシステム」とr
AIJとがコネクション変更部4に対して検索出力され
る。コネクション変更部4ではこれらの結果からF人工
知能J 「エキスパートシステムJrAIjなるキーワ
ードをグループ化して、キーワード関係辞書1の辞書情
報の圧縮を行なう。グループ化の具体的な処理としては
、例えばこれらの3つのキーワードと1つの値(例えば
、閾値0.95)とを持つリストをグループリストとし
てキーワード関係辞書1に追加すればよい。
キーワード関速度計算の際に検索キーワードとして指定
されたものでグループリスト中にあるキーワードについ
てはコネクション値がキーワード関係辞書1内を見るこ
となしに高速に検索できる。
このようなグループ化処理により、第3図(a)に示し
た変更前のキーワード関係辞書1の内容は、同図(b)
に示すように変更される。網かけ図示部分、即ち、「人
工知能」 「エキスパートシステム」rAIJなるキー
ワード間のコネクション値の領域は、情報が不要となり
削除されたことを示す。
つまり、複数のコネクションの内容に応じたグループ化
によりコネクション数が適宜変更され、キーワード関係
辞書1の辞書容量が圧縮・縮小化されるものとなり、増
大するコネクション数に対しても効率的な辞書容量管理
を行なうことができる。
なお、キーワード関係辞書lについては、標準となる多
数の文書と各々の文書におけるキーワードの共出現頻度
値を用いてキーワード間の関係の強さを予め計算してキ
ーワード関係辞書を作成しておいたものでもよい。
発明の効果 本発明は、上述したように指定されたキーワードに対し
て閾値処理部によりキーワード関係辞書中から所定の閾
値以上の関係情報を持つキーワードを検索し、検索され
たキーワード群とこれらのキーワード群間の関係情報と
を関係情報変更部でグループ化したグループリストを作
成してキーワード関係辞書中の関係情報を変更するよう
にしたので、関係情報数が増えてもその関係情報の内容
に応じて複数個の関係情報がグループ化されるためキー
ワード関係辞書の辞書容量を縮小させることができ、効
率的な辞書容量管理が可能となり、さらには、同一グル
ープに属するキーワードについては高速でその関係情報
値を検索できるものともなる。
3」 図
【図面の簡単な説明】
図面は本発明の一実施例を示すもので、第1図はブロッ
ク図、第2図はキーワード関速度順リストを示す説明図
、第3図は変更前・後のキーワード関係辞書の格納内容
例を示す説明図である。

Claims (1)

  1. 【特許請求の範囲】 1、キーワードと各キーワード間の関係情報を格納した
    キーワード関係辞書を用い、キーワードを含む入力条件
    に適した関連キーワードの検索や関連文書の曖昧検索を
    行なう情報検索システムにおいて、指定されたキーワー
    ドに対して前記キーワード関係辞書中から所定の閾値以
    上の関係情報を持つキーワードを検索する閾値処理部を
    設け、閾値処理部で検索されたキーワード群とこれらの
    キーワード群間の関係情報とをグループ化したグループ
    リストを作成して前記キーワード関係辞書中の関係情報
    を変更する関係情報変更部を設けたことを特徴とするキ
    ーワード関係辞書管理装置。 2、標準となる文書と各々の文書におけるキーーワード
    の共出現頻度値を用いて各キーワード間の関係の強さを
    予め算出し、算出されたこの関係の強さをキーワード間
    の関係情報としてキーワードとともに格納したキーワー
    ド関係辞書を用い、キーワードを含む入力条件に適した
    関連キーワードの検索や関連文書の曖昧検索を行なう情
    報検索システムにおいて、指定されたキーワードに対し
    て前記キーワード関係辞書中から所定の閾値以上の関係
    情報を持つキーワードを検索する閾値処理部を設け、閾
    値処理部で検索されたキーワード群とこれらのキーワー
    ド群間の関係情報とをグループ化したグループリストを
    作成して前記キーワード関係辞書中の関係情報を変更す
    る関係情報変更部を設けたことを特徴とするキーワード
    関係辞書管理装置。
JP2100108A 1990-04-16 1990-04-16 キーワード関係辞書管理装置 Pending JPH03296863A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2100108A JPH03296863A (ja) 1990-04-16 1990-04-16 キーワード関係辞書管理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2100108A JPH03296863A (ja) 1990-04-16 1990-04-16 キーワード関係辞書管理装置

Publications (1)

Publication Number Publication Date
JPH03296863A true JPH03296863A (ja) 1991-12-27

Family

ID=14265185

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2100108A Pending JPH03296863A (ja) 1990-04-16 1990-04-16 キーワード関係辞書管理装置

Country Status (1)

Country Link
JP (1) JPH03296863A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11184880A (ja) * 1997-12-24 1999-07-09 Sharp Corp 音声認識装置及びコンピュータ読み取り可能な記録媒体
JPH11328221A (ja) * 1998-05-14 1999-11-30 Nippon Telegr & Teleph Corp <Ntt> データ検索方法、その装置および記録媒体

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11184880A (ja) * 1997-12-24 1999-07-09 Sharp Corp 音声認識装置及びコンピュータ読み取り可能な記録媒体
JPH11328221A (ja) * 1998-05-14 1999-11-30 Nippon Telegr & Teleph Corp <Ntt> データ検索方法、その装置および記録媒体

Similar Documents

Publication Publication Date Title
CN103425672B (zh) 一种数据库索引的建立方法及装置
Lin et al. ACIRD: intelligent Internet document organization and retrieval
AU2011210742A1 (en) Method and system for conducting legal research using clustering analytics
JPH07152771A (ja) 利用者情報管理装置、情報フィルタ、情報分類装置、情報再生装置、情報検索装置及び仮名漢字変換装置
Mali Spam Detection Using Bayesian with Pattern Discovery
JPH0248772A (ja) 類似画像検索方式
CN113449522A (zh) 一种文本模糊匹配方法和装置
JPH03296863A (ja) キーワード関係辞書管理装置
JP2985805B2 (ja) 情報検索装置
JPH08305724A (ja) 設計支援情報文書管理装置
JPH04152468A (ja) 文書検索装置
Harish et al. Text document classification: an approach based on indexing
Subbaiah Extracting knowledge using probabilistic classifier for text mining
JP2859771B2 (ja) 動的概念辞書を用いた類似検索方法及びその装置
CN114706962A (zh) 信息检索的方法及装置、知识图谱构建的方法及装置
Hendry et al. INSTRUCT: a teaching package for experimental methods in information retrieval. Part II. Computational aspects
Alsaffar et al. Concept based retrieval by minimal term sets
JPH08320879A (ja) 適合フィードバック装置
JPH0644309A (ja) データベース管理方式
Torres-Parejo et al. Obtaining WAPO-structure through inverted indexes
JPH04127272A (ja) 文書検索装置におけるキーワードコネクション処理方法
Gondaliya et al. Journey of Information Retrieval to Information Retrieval Tools-IR&IRT A Review
JPS62198929A (ja) デ−タベ−ス検索システム
JPH04135278A (ja) 文書検索装置
JPH02125363A (ja) 文書検索装置