JPH02235176A - 概念検索装置 - Google Patents

概念検索装置

Info

Publication number
JPH02235176A
JPH02235176A JP1054922A JP5492289A JPH02235176A JP H02235176 A JPH02235176 A JP H02235176A JP 1054922 A JP1054922 A JP 1054922A JP 5492289 A JP5492289 A JP 5492289A JP H02235176 A JPH02235176 A JP H02235176A
Authority
JP
Japan
Prior art keywords
keyword
document
concept
search
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP1054922A
Other languages
English (en)
Inventor
Tetsuya Morita
哲也 森田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP1054922A priority Critical patent/JPH02235176A/ja
Publication of JPH02235176A publication Critical patent/JPH02235176A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [産業上の利用分野] 本発明は、複数の分類からなるキーワード集(シソーラ
ス)を用いてキーワード付けがされた文書データベース
から利用者の指定する検索条件のキーワードと各文書の
概念的な距離を計算することにより検索を行なう概念検
索装置に関する。
[従来の技術] 近年、新聞・雑誌・単行本・論文誌などの文書情報の増
大によってJOIS,NEEDS−IR,DIALOG
等の大規模データベースの利用者か急激に増加している
。これらのデータベースはその情報の種類によって,人
物情報、辞書、百科辞典、住所録等を含む1次情報デー
タベース(ファクトデータベース)と,新聞、雑誌、単
行本、論文誌等を含む2次情報データベース(テキスト
データベース)に大別される.ファクトデータベースで
は、検索キーが与えられると結果が一意的に決定される
.しかし,テキストデータベースでは、利用者の要求概
念に対して検索結果が常に最適であるとは限らない。こ
こでは検索条件におけるキーワード選択の適切さ、およ
び各文書とキーワードを対応させるキーワード付けの適
切さが検索結果の品質を左右する。
一般にテキストデータベースでは、キーワードの多数の
分類を持つシソーラスと呼ばれるキーワード集の中から
キーワードを選択して検索を行なう統制キーワード方式
と,これと異なり自由なキーワード付けを許す自由キー
ワード方式と呼ばれるキーワード管理方式とがある。
[発明が解決しようとする課題] 上記のテキストデータベースでは検索条件としてキーワ
ードとAND. OR. NOTからなるプール論理式
を使用し,結果として検索条件を満たす文書集合を検索
する。このような検索方式には以下のような欠点があっ
た。
シソーラスに精通していない一般利用者にとつて最適な
プール論理式を作成するのは困難であり,専任サーチャ
ーでさえ再現率・適合率は70%前後である。また、適
質・適量検索が困難である,これはプール論理式による
検索結果が、「ある」 「ない」の2値で与えられるこ
とによる。さらに、指定するキーワードに優先度や重み
(重要度)の情報を付加できない。
これらの問題点を解決する手段として“適合情報利用に
よるオンライン高性能自動文献探索法一情報管理vo1
、27.No.8,Nov. 1984.に記載された
方法がある。
この方法では、あらかじめ選出された適合文献に含まれ
るキーワード全てをリストアップし、この中からユーザ
が選んだlO語前後の検索語候補の重み値を適合文献と
検索対象データベース中の使用頻度から算出し,前記適
合文献の内で最低となる得点をしきい値と定め、これ以
上を与えるプール論理式を作成し検索を実行する方式を
提案している. しかし,この方式は.あらかじめ適合文献を選出してお
く必要があり,また検索結果の再現率・適合率がこの適
合文献に大きく依存する等の問題がある。
本発明は上記のような問題点を解決するため、体系的に
語翁分類されたシソーラスや,多数の標準文書を統計的
処理することによって作成された語量分類等を概念空間
と考え、文書ごとの概念的特徴を定量的に扱うことによ
って文書検索を行なう概念検索装置を提供することを目
的とする。
[課題を解決するための手段] 本発明は上記目的を達成するために、概念検索装置は,
利用者が選択した検索用キーワード群と文書データベー
ス内の各文書の内のキーワード群と、あらかじめ所定の
キーワード分類に基づいて分類されたキーワード集すな
わちシソーラスとを使用する。各キーワードの出現確率
がキーワード分類に対して独立であると仮定したとき,
特定のキーワードが特定の分類に出現する確率をキーワ
ードの理論経験確率と定義する.この理論経験確率を求
める理論経験確率算出手段と、理論経験確率を用いて,
文書が各キーワード分類に属する度合いを表わす帰属度
を所定の計算式を用いてキーワード分類ごとに計算し、
キーワード分類の帰属度を要素とするベクトルによって
検索用キーワードと文書データベース内の各文書の概念
を代表させ、両者間のベクトルの距離により文書の概念
検索を行なう文書検索手段とを有する.[作 用] 本発明によれば、利用者が選択した検索用キーワード群
と文書データベース内の各文書の内のキーワード群と、
あらかじめ所定のキーワード分類に基づいて分類された
キーワード集(シソーラス)とを使用して、各キーワー
ドの出現確率がキーワード分類に対して独立であると仮
定したとき、特定のキーワードが特定の分類に出現する
確率をキーワードの理論経験確率と定義し、理論経験確
率算出手段がキーワードの理論経験確率を求め、文書検
索手段が理論経験確率を用いて,文書が各キーワード分
類に属する度合いを示す帰属度を所定の計算式を用いて
キーワード分類ごとに計算し、キーワード分類数の帰属
度を要素とするベクトルによって検索用キーワードと文
書データベース内の各文書の概念を代表させ,両者間の
ベクトルの距離により文書の概念検索を行なうことがで
きる. [実施例1 次に本発明の概念検索装置の実施例を詳細に説明する. 保有するキーワードをN個の分類に分類したシソーラス
はN次元の空間を形成する。語曾や文書がN個の分類に
帰属する度合を,空間におけるN個のベクトルの集合で
表わす6この集合を文書の概念を表わす概念表示ベクト
ルとする.検索の際は、検索式をこのベクトルで表わし
,文書ファイル内の各文書のベクトルとベクトル距離で
文書をソートすれば、文書の概念検索を行なうことがで
きる。
キーワード集(シソーラス)は第2図に示すようにキー
ワードとその分類で構成されている。シソーラスはキー
ワードを要素事象とする有限標本空間と,分類を要素事
象とする有限標本空間との直積標本空間である。ここで
、キーワードの種類の数をM、キーワード分類集の分類
の数をNとするとこの直積標本空間はM*N個の事象を
持つ.いまキーワードの標本空間と分類の標本空間が独
立であると仮定したときのM*N事象の経験確率を理論
経験確率と呼び、個々のキーワードの経験確率と個々の
分類の経験確率とを用いて以下のように求めることがで
きる. 分類kとキーワードjのそれぞれの経験確率PC(k)
.PKfjl は、分類kに含まれるキーワードの出現
度数をNG(kl .キーワードjの出現度数をNK(
j)、キーワードの延べ出現度数をSとするとNC (
kl PC(kl =            ・・・(l)
S Nκlj) PK(j)  =                 
 ・−・(21S で表わされる. 分類kにおいてキーワードjが出現する理論経験確率P
。(k.jli5よび理論出現頻度N。fk.j)は次
式で表わされる。
P  (k.jl = PC(k)  * PKfj)
     ・・・(3)N  fk, J) = P 
o (k. Jl * S=PClkl  *Pκfj
l*s  ・−14)キーワードの集合である分類を1
つの次元と考えれば、N個の分頚で構成されるシソーラ
スは、N次元のユークリッド空間R0として定義できる
6このユークリッド空間R0上の点(位置)はN要素か
らなるベクトルで指し示され、語僧や文書に対してもこ
の空間上の位置関係を定義することができる.ここでは
、このようなユークリッド空間を概念特徴量空間と呼ぶ
.概念特徴量空間では、語曾や文書がN個の各分類に対
してどれだけ帰属しているかを示すN個の数値(帰属度
と呼ぶ)からなるN次元ベクトルCF6:R0によって
、それらの語蕾や文書の概念的位置が定められる. キーワード集の分類数をN、文書iが分類kへ帰属する
度合いをR%il とすると、文書iの概念特徴量ベク
トル(:F(ilは次式のように表現できる. CF(i) = [R (i1、R2(i1、・・・R
kfi)・= − RN (il ]・・・(5) ここで,文書iの分類kへの帰属度R%i)の計算方式
の例としては以下のようないくつかの方式が考えられる
.文書iに含まれるキーワードの種類の数をq 、文書
i中のキーワードjの出現度r 数をNKI (J)とすると 方式1:文書iにおける分類kのキーワードの出現頻度
の総和をキーワードの延べ出 現頻度数で正規化したもの. 方式2:文書iにおける分類kのキーワードの出現頻度
と理論出現頻度との差にカイ 自乗値を掛けたもの. R(i)={NKI(j)一No{k.j}}*xk2
k ={NKl(jl −po(k.j) *qrl *x
k2x,2:分gkにおけるキーワード出現頻度のカイ
自乗値 カイ自乗値とは、体系的に語量分類されたシソーラスを
用いて,キーワード等が各分類に出現する偏りを求める
カイ自乗検定と呼ばれる統計的手法において使用される
.これは語盆をあらかじめ設定した分類へ自動的に分類
する方式である.カイ自乗検定ではまずキーワードの出
現頻度の分類による偏りを示す指標としてカイ自乗値を
求める.カイ自乗値は、各キーワードの出現頻度値と各
分類ごとの総キーワード数が独立事象であると仮定した
場合のキーワードの出現頻度値を理論度数とし、実測値
との差を求め正規化したものである. 第1図に、本発明によるキーワード分類による概念検索
装置の実施例を示す.本概念検索装置30では,登録文
書とシソーラスとを用いて、キーワードの標本空間と分
類の標本空間が独立であると仮定したときのM*N事象
の経験確率(理論経験確率)を求める. 理論経験確率計算部lOおよび文書検索部30は、互い
に接続されるとともに、理論経験確率計算部lOはシソ
ーラスファイル20および文書データベースファイル2
2に,文書検索部12は文書データベースファイル22
および表示部2に、それぞれ接続されている.理論経験
確率計算部IOは、シソーラス20と標本文書から全て
のキーワードの各分類における理論経験確率を計算し、
各文書ごとの概念特徴ベクトルを求める。ここで、標準
文書とは、複数の分類に属するキーワードが一様に出現
するような文書であるが,文書データベース22に登録
されている文書の中から無作為にかつ十分大量の文書を
選択して使用すれば良い. 文書検索部l2は、利用者が指定したキーワード群の特
徴ベクトルを求め、理論経験確率計算部10で求められ
た各文書ごとの特徴ベクトルとの距離を計算し,距離の
値をキーとして文書を昇順にソートし表示部2に表示す
る. 本装置30は,理論経験確率と、概念特徴ベクトル量を
求め、利用者が入力する検索式により登録文書の検索を
行なう。理論経験確率計算部10は第3図に示すフロー
によって理論経験確率を求める。
ます、登録文書lとして標準文書を読み込み、キーワー
ドを抽出し(100) .抽出したキーワードをシソー
ラスファイル20に登録する(1021   ファイル
20の分類kに属するキーワードの出現度数をカウント
し(1)式のNC(klに代入する(104)  シソ
ーラスファイル20に属するキーワードjの出現度数を
カウントして(2)式のNKfjl に代入する(10
61  キーワードjの延べ出現度数を(11. +2
1式のSに代入し、経験確率PC fk+ . PK 
(j)を求めるf108) .理論経験確率Pglk.
jl=PCfk) *PK(jlを計算する. 理論経験確率計算部IOはさらに,第4図に示すフロー
によって概念特徴量ベクトルを求める.まず,文書iを
入力し(120) .キーワードjを抽出し(1221
 .文書i中のキーワードjの出現度数NKI fjt
を計算するf1241 .次に文書iの分類kにおける
帰属度RK(11を(6)または(7)式で計算し(1
26) .文書iの概念特微量ベクトルCFli)を1
5)式を用いて求める1128) 文書検索部l2は、第5図に示すフローにより利用者が
入力した検索条件式(キーワード)から実際に検索を行
なう.まず次の検索条件式(8)が入力される(130
) QUERY = [(KEY1、Wl) (KEY2.
il21 −・・・・・fKEYp.Wpl ・−・ 
  1  ・・・(8)この検索条件式QUERYは、
利用者が選択したlまたは複数のキーワード(KE Y
p)とその重み[Wp)のペアで与えられる.この式を
人力する際、利用者は選択したキーワードに優先順位や
重み(重要度)を付けることが可能である6 次にこの検索式QUERYのKEYpとNpから分類k
に帰属する帰属度Rh(qlを次の(9)式で求めるT
l32+ Rk”’  ”IFEY,HpeL9k・・・(9) 次に、QUERYの概念特徴量ベクトルCF(q)を次
の(10)式で求める(134) . CFiq) = [R lq),R lq),・・・.
 Rk(q)・= . RNfq) ]・−1101 検索条件式QUERYおよび各文書の概念特徴量ベクト
ルCF (q)が求められると、それらの間の概念距離
を計算できる(1361 .計算方法の一例としてユー
クリッド距離を用いると概念距雌D (i,qlは、次
式で求められる. このD (i.q)を全ての文書について求める.概念
距離をキーとして昇順にソートし,検索結果として距離
の小さい文書順に表示する(138) .以上によって
利用者は、自分の要求概念に近い順に検索結果を得るこ
とができる. [発明の効果] 以上説明したように、本発明によれば,検索条件の持つ
要求概念に近いキーワード群を有する文書が、その概念
距離の近い順に得られるため,適質検索が可能である.
さらに、利用者が選択したキーワードに優先度や重み(
重要度)の情報を付加することにより,より的確な検索
条件式を構築できる。これにより検索性能(再現率・適
合率)を向上させることができる.
【図面の簡単な説明】
第1図は本発明の概念検索装置の一実施例を示す機能ブ
ロック図, 第2図はシソーラスの構成列の説明図、第3図は理論経
験確率を求める動作を示すフロー図、 第4図は文書の概念特徴ベクトルを求める動作を示すフ
ロー図、 第5図は検索条件式による検索動作を示すフロー図であ
る. 口 の.−V旺 1−・・登録文書 2−・表示部 lO・・・理論経験確率計算部 1 2−・・文書検索部 20・・・シソーラスファイル 22・・・文書データベースファイル 30・・・文書検索部

Claims (1)

  1. 【特許請求の範囲】 1、利用者が選択した検索用キーワード群と文書データ
    ベース内の各文書の内のキーワード群と、あらかじめ所
    定のキーワード分類に基づいて分類されたシソーラスと
    を使用し、 各キーワードの出現確率が前記キーワード分類に対して
    独立であると仮定した場合に、特定のキーワードが特定
    の分類に出現する確率としての理論経験確率を求める理
    論経験確率算出手段と、 前記理論経験確率算出手段により算出された前記理論経
    験確率を用いて、文書が各キーワード分類に属する度合
    いを表わす帰属度を所定の計算式を用いてキーワード分
    類ごとに計算し、キーワード分類の帰属度を要素とする
    ベクトルによって前記検索用キーワードと文書データベ
    ース内の各文書の概念を代表させ、両者間のベクトルの
    距離により文書の概念検索を行なう文書検索手段とを有
    することを特徴とする概念検索装置。 2、利用者が検索用キーワード群と、各キーワードの優
    先順位および重み値のいずれかを指示し、あらかじめ所
    定のキーワード分類に基づいて分類されたシソーラスを
    用い、各キーワードの出現確率が前記キーワード分類に
    対して独立であると仮定した場合に、特定のキーワード
    が特定の分類に出現する確率としての理論経験確率を求
    める理論経験確率算出手段と、 前記理論経験確率算出手段により算出された前記理論経
    験確率および各キーワードの優先順位および重み値のい
    ずれかとを用いて、検索用キーワード群および文書デー
    タベース内の各文書が各キーワード分類に属する度合い
    を表わす帰属度を所定の計算式を用いてキーワード分類
    ごとに計算し、キーワード分類数の帰属度を要素とする
    ベクトルによって前記検索用キーワード群と文書データ
    ベース内の各文書の概念を代表させ、両者間のベクトル
    の距離により文書の概念検索を行なう文書検索手段とを
    有することを特徴とする概念検索装置。
JP1054922A 1989-03-09 1989-03-09 概念検索装置 Pending JPH02235176A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1054922A JPH02235176A (ja) 1989-03-09 1989-03-09 概念検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1054922A JPH02235176A (ja) 1989-03-09 1989-03-09 概念検索装置

Publications (1)

Publication Number Publication Date
JPH02235176A true JPH02235176A (ja) 1990-09-18

Family

ID=12984112

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1054922A Pending JPH02235176A (ja) 1989-03-09 1989-03-09 概念検索装置

Country Status (1)

Country Link
JP (1) JPH02235176A (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05101107A (ja) * 1991-10-07 1993-04-23 Hitachi Ltd 適合率を用いた絞り込みデータ検索装置及び方法
JPH05158991A (ja) * 1991-12-02 1993-06-25 Mitsubishi Electric Corp 情報検索システム
JPH06251084A (ja) * 1993-02-26 1994-09-09 Toshiba Corp 電子ファイリング装置
JPH06274548A (ja) * 1993-03-22 1994-09-30 A T R Jido Honyaku Denwa Kenkyusho:Kk 類似度計算装置
JPH0973464A (ja) * 1995-09-07 1997-03-18 Fujitsu Ltd 類似事例検索装置
JPH1049543A (ja) * 1996-08-02 1998-02-20 Matsushita Electric Ind Co Ltd 文書検索装置
JPH10105571A (ja) * 1996-10-02 1998-04-24 Hitachi Ltd 検索システム
JP2007535048A (ja) * 2004-04-28 2007-11-29 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 情報の再生のための方法および装置
WO2011070832A1 (ja) * 2009-12-09 2011-06-16 インターナショナル・ビジネス・マシーンズ・コーポレーション 検索キーワードから文書データを検索する方法、並びにそのコンピュータ・システム及びコンピュータ・プログラム

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05101107A (ja) * 1991-10-07 1993-04-23 Hitachi Ltd 適合率を用いた絞り込みデータ検索装置及び方法
JPH05158991A (ja) * 1991-12-02 1993-06-25 Mitsubishi Electric Corp 情報検索システム
JPH06251084A (ja) * 1993-02-26 1994-09-09 Toshiba Corp 電子ファイリング装置
JPH06274548A (ja) * 1993-03-22 1994-09-30 A T R Jido Honyaku Denwa Kenkyusho:Kk 類似度計算装置
JPH0973464A (ja) * 1995-09-07 1997-03-18 Fujitsu Ltd 類似事例検索装置
JPH1049543A (ja) * 1996-08-02 1998-02-20 Matsushita Electric Ind Co Ltd 文書検索装置
JPH10105571A (ja) * 1996-10-02 1998-04-24 Hitachi Ltd 検索システム
JP2007535048A (ja) * 2004-04-28 2007-11-29 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 情報の再生のための方法および装置
US7937357B2 (en) 2004-04-28 2011-05-03 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Method and device for reproduction of information
WO2011070832A1 (ja) * 2009-12-09 2011-06-16 インターナショナル・ビジネス・マシーンズ・コーポレーション 検索キーワードから文書データを検索する方法、並びにそのコンピュータ・システム及びコンピュータ・プログラム
CN102640152A (zh) * 2009-12-09 2012-08-15 国际商业机器公司 根据检索关键词检索文档数据的方法及其计算机系统、计算机程序
GB2488925A (en) * 2009-12-09 2012-09-12 Ibm Method of searching for document data files based on keywords,and computer system and computer program thereof
US8380714B2 (en) 2009-12-09 2013-02-19 International Business Machines Corporation Method, computer system, and computer program for searching document data using search keyword
JP5448105B2 (ja) * 2009-12-09 2014-03-19 インターナショナル・ビジネス・マシーンズ・コーポレーション 検索キーワードから文書データを検索する方法、並びにそのコンピュータ・システム及びコンピュータ・プログラム
US9122747B2 (en) 2009-12-09 2015-09-01 International Business Machines Corporation Method, computer system, and computer program for searching document data using search keyword

Similar Documents

Publication Publication Date Title
US8024331B2 (en) Construction of trainable semantic vectors and clustering, classification, and searching using trainable semantic vectors
US6701318B2 (en) Multiple engine information retrieval and visualization system
US6772170B2 (en) System and method for interpreting document contents
US8341159B2 (en) Creating taxonomies and training data for document categorization
US6665661B1 (en) System and method for use in text analysis of documents and records
US5802515A (en) Randomized query generation and document relevance ranking for robust information retrieval from a database
AU781157B2 (en) Document-classification system, method and software
US8266077B2 (en) Method of analyzing documents
US20040249808A1 (en) Query expansion using query logs
US20060218140A1 (en) Method and apparatus for labeling in steered visual analysis of collections of documents
Noaman et al. Naive Bayes classifier based Arabic document categorization
CN111506727B (zh) 文本内容类别获取方法、装置、计算机设备和存储介质
US7743061B2 (en) Document search method with interactively employed distance graphics display
JPH02235176A (ja) 概念検索装置
JP3654850B2 (ja) 情報検索システム
WO1998049632A1 (en) System and method for entity-based data retrieval
CN107992524B (zh) 一种专家信息搜索及领域评分计算方法
JP2840664B2 (ja) 意味分類方法
Vadivel et al. An Effective Document Category Prediction System Using Support Vector Machines, Mann-Whitney Techniques
Oghli et al. Comparison of basic information retrieval models
Williams Results of classifying documents with multiple discriminant functions
CN112765311A (zh) 一种裁判文书的搜索方法
CN109977269B (zh) 一种针对xml文件的数据自适应融合方法
RU2266560C1 (ru) Способ поиска информации в политематических массивах неструктурированных текстов
CN116414939A (zh) 基于多维度数据的文章生成方法