JP3428060B2 - データ・ベース検索装置および方法 - Google Patents

データ・ベース検索装置および方法

Info

Publication number
JP3428060B2
JP3428060B2 JP06740993A JP6740993A JP3428060B2 JP 3428060 B2 JP3428060 B2 JP 3428060B2 JP 06740993 A JP06740993 A JP 06740993A JP 6740993 A JP6740993 A JP 6740993A JP 3428060 B2 JP3428060 B2 JP 3428060B2
Authority
JP
Japan
Prior art keywords
search
importance
extracted
keyword
document information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP06740993A
Other languages
English (en)
Other versions
JPH06259482A (ja
Inventor
太志 林
敏巳 工藤
太治 十河
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Omron Corp
Original Assignee
Omron Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Omron Corp filed Critical Omron Corp
Priority to JP06740993A priority Critical patent/JP3428060B2/ja
Publication of JPH06259482A publication Critical patent/JPH06259482A/ja
Application granted granted Critical
Publication of JP3428060B2 publication Critical patent/JP3428060B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】
【0001】
【技術分野】この発明は,データ・ベース検索装置およ
び方法に関する。
【0002】
【従来技術とその問題点】従来,文書情報を有するデー
タ・ベースの検索を行なう場合,検索条件として入力さ
れたキーワードを含む文書情報が検索される。しかしな
がら,このような検索方法では,データ・ベースから多
数の文書が検索されるので,利用者が検索された文書情
報の内容を理解して,その文書情報の中から所望の文書
情報を取捨選択しなければならないという問題点があっ
た。
【0003】また検索条件と検索された文書情報とがど
の程度一致しているかを表わす合致度を出力する検索方
法が特開平2-27478 号公報に記載されている。この技術
においては,データ・ベースに登録されている文書情報
について,各文書情報のキーワードの重要度が,文書情
報の登録時に算出してキーワードとともにデータ・ベー
スに登録される。しかしながら,このような方法では,
公知のデータ・ベースの多くは文書情報のキーワードの
重要度を記憶する機能を持たないので,データ・ベース
の構成を文書情報のキーワードおよびその重要度が登録
できるように変更しなければならないまたは文書情報の
キーワードおよびそのキーワード重要度が登録できるデ
ータ・ベースに移し替えなければならないという問題点
があった。
【0004】
【発明の開示】第1の発明は,文書情報を有する公知の
データ・ベースが利用できるようにするとともに検索条
件と検索された文書情報との合致度を得られるようにす
ることを目的としている。
【0005】第1の発明によるデータベース検索装置
は,多数の文書情報を有するデータ・ベース,および所
与のデータ・ベース検索条件に基づいて上記データ・ベ
ースの検索を行なうデータ・ベース管理システムを備え
たデータ・ベース・システムにおいて,相互に関連する
検索キーワードからなる複数のキーワード群,上記検索
キーワードの関連度と重視度,および上記キーワード群
を結合する結合演算子からなる入力検索条件を入力する
検索条件入力手段,入力された上記入力検索条件に基づ
いてデータ・ベース検索条件を作成し,作成したデータ
・ベース検索条件にしたがって上記データ・ベース・シ
ステムから文書情報を検索する検索手段,検索により得
られた文書情報から抽出語を抽出し,抽出した抽出語の
統計情報に基づいてその抽出語の重要度を算出する重要
度演算手段,入力された上記入力検索条件と検索により
得られた文書情報との検索条件合致度を,上記重要度演
算手段により算出された重要度に基づいて算出する合致
度演算手段,ならびに検索により得られた文書情報に関
するデータと,上記合致度演算手段により算出された検
索条件合致度とを対応させて記憶する検索結果記憶手段
を備えている。
【0006】第1の発明によるデータ・ベース検索方法
は,多数の文書情報を有するデータ・ベース,および所
与のデータ・ベース検索条件に基づいて上記データ・ベ
ースの検索を行なうデータ・ベース管理システムを備え
たデータ・ベース・システムにおいて,相互に関連する
検索キーワードからなる複数のキーワード群,上記検索
キーワードの関連度と重視度,および上記キーワード群
を結合する結合演算子からなる入力検索条件を受付け,
入力された上記入力検索条件に基づいてデータ・ベース
検索条件を作成し,作成したデータ・ベース検索条件に
したがって上記データ・ベース・システムから文書情報
を検索し,検索により得られた文書情報から抽出語を抽
出し,抽出した抽出語の統計情報に基づいてその抽出語
の重要度を算出し,入力された上記入力検索条件と検索
により得られた文書情報との検索条件合致度を,算出さ
れた重要度に基づいて算出し,検索により得られた文書
情報に関するデータと,算出された検索条件合致度とを
対応させて記憶するものである。
【0007】第1の発明によると,データ・ベースから
検索により得られた文書情報に現われる検索キーワード
についてその文書情報における重要度が算出され,この
重要度に基づいて入力検索条件と検索された文書情報と
の検索条件合致度が算出される。したがって,文書情報
のキーワードとそのキーワード重要度をデータ・ベース
に記憶しておく必要はないので,公知の文書情報を有す
るデータ・ベースを利用できる。また,入力検索条件と
検索された文書情報との検索条件合致度が算出されるの
で,利用者はこの検索条件合致度に基づいて必要な文書
情報を選択できる。また検索キーワードは相互に関連す
るキーワードが入力できるので,検索洩れがなくなる。
【0008】第1の発明の好ましい実施態様において
は,上記重要度演算手段は,検索された上記文書情報か
ら抽出語を抽出し,抽出された上記抽出語に関する抽出
語統計情報を作成する抽出語統計情報作成手段,重要度
評価規則およびメンバーシップ関数があらかじめ登録さ
れている重要度評価規則辞書,上記重要度評価規則およ
びメンバーシップ関数にしたがって,上記抽出語統計情
報作成手段により作成された上記抽出語統計情報に基づ
いて,上記抽出語統計情報作成手段により抽出された上
記抽出語の抽出語重要度を算出する抽出語重要度評価手
段,ならびに上記入力された検索キーワードと一致する
上記抽出語の抽出語重要度を上記検索キーワードの重要
度とする手段からなる。
【0009】これにより,検索された文書情報から抽出
した抽出語の抽出語重要度が検索キーワードの重要度と
されるので,その文書情報に見合った検索キーワードの
重要度を得ることができる。
【0010】第1の発明の他の実施態様においては,上
記重要度演算手段は,検索された上記文書情報から抽出
語を抽出し,抽出された上記抽出語に関する抽出語統計
情報を作成する抽出語統計情報抽出手段,複数の見出し
語,および上記見出し語のそれぞれに関する同義語があ
らかじめ登録されている同義語辞書,抽出された抽出語
について,上記同義語辞書を参照して,同義語として登
録されている抽出語により同義語グループを構成し,同
一の同義語グループに属する抽出語の上記抽出語統計情
報の少くとも一部について同義語グループごとに総計
し,総計された抽出語統計情報を,入力された文書情報
についての全体情報を用いて正規化する抽出語統計情報
正規化手段,重要度評価規則およびメンバーシップ関数
があらかじめ登録されている重要度評価規則辞書,上記
重要度評価規則およびメンバーシップ関数にしたがっ
て,上記抽出語統計情報正規化手段により正規化された
情報を含む上記抽出語統計情報に基づいて,上記抽出語
統計情報作成手段により抽出された上記抽出語の抽出語
重要度を算出する抽出語重要度評価手段,ならびに上記
入力された検索キーワードと一致する上記抽出語の抽出
語重要度を上記検索キーワードの重要度とする手段から
なる。
【0011】これにより,検索された文書情報から抽出
した抽出語の抽出語重要度が抽出語の同義語を考慮して
算出され,この抽出語重要度が検索キーワードの重要度
とされるので,その文書情報に見合った検索キーワード
の重要度を得ることができる。
【0012】第1の発明のさらに好ましい実施態様にお
いては,上記合致度演算手段は,入力された上記関連度
と算出された上記重要度とに基づいて,上記検索キーワ
ード毎の第1のキーワード合致度を算出する第1のキー
ワード合致度演算手段,算出された上記第1のキーワー
ド合致度に基づいて,上記キーワード群毎の第2のキー
ワード合致度を算出する第2のキーワード合致度演算手
段,ならびに入力された上記結合演算子および重視度と
算出された第2のキーワード合致度とに基づいて,上記
検索条件合致度を算出する検索条件合致度演算手段から
なる。
【0013】これにより,入力された検索キーワードの
関連語および重要度と,算出された検索キーワードの重
要度とに基づいて,検索条件合致度を算出することがで
きる。
【0014】第2の発明は,第1の発明と同様に文書情
報を有する公知のデータ・ベースが利用できるようにす
るとともに検索条件と検索された文書情報との合致度を
得られるようにすることを目的としている。
【0015】第2の発明によるデータ・ベース検索装置
は,多数の文書情報を有するデータ・ベース,および所
与のデータ・ベース検索条件に基づいて上記データ・ベ
ースの検索を行なうデータ・ベース管理システムを備え
たデータ・ベース・システムにおいて,複数の検索キー
ワード,上記検索キーワードの重視度および上記検索キ
ーワードを結合する結合演算子からなる入力検索条件を
入力する検索条件入力手段,入力された上記入力検索条
件に基づいてデータ・ベース検索条件を作成し,作成し
たデータ・ベース検索条件にしたがって上記データ・ベ
ース・システムから文書情報を検索する検索手段,検索
により得られた文書情報から抽出語を抽出し,抽出した
抽出語の統計情報に基づいてその抽出語の重要度を算出
する重要度演算手段,入力された上記入力検索条件と検
索により得られた文書情報との検索条件合致度を,上記
重要度演算手段により算出された重要度に基づいて算出
する合致度演算手段,ならびに検索により得られた文書
情報に関するデータと,上記合致度演算手段により算出
された検索条件合致度とを対応させて記憶する検索結果
記憶手段を備えている。
【0016】第2の発明によるデータ・ベース検索方法
は,多数の文書情報を有するデータ・ベース,および所
与のデータ・ベース検索条件に基づいて上記データ・ベ
ースの検索を行なうデータ・ベース管理システムを備え
たデータ・ベース・システムにおいて,複数の検索キー
ワード,上記検索キーワードの重視度および上記検索キ
ーワードを結合する結合演算子からなる入力検索条件を
受付け,入力された上記入力検索条件に基づいてデータ
・ベース検索条件を作成し,作成したデータ・ベース検
索条件にしたがって上記データ・ベース・システムから
文書情報を検索し,検索により得られた文書情報から抽
出語を抽出し,抽出した抽出語の統計情報に基づいてそ
の抽出語の重要度を算出し,入力された上記入力検索条
件と検索により得られた文書情報との検索条件合致度
を,算出された重要度に基づいて算出し,検索により得
られた文書情報に関するデータと,算出された検索条件
合致度とを対応させて記憶するものである。
【0017】第2の発明によると,データ・ベースから
検索により得られた文書情報に現われる検索キーワード
についてその文書情報における重要度が算出され,この
重要度に基づいて入力検索条件と検索された文書情報と
の検索条件合致度が算出される。したがって,文書情報
のキーワードとそのキーワード重要度をデータ・ベース
に記憶しておく必要はないので,公知の文書情報を有す
るデータ・ベースを利用できる。また,入力検索条件と
検索された文書情報との検索条件合致度が算出されるの
で,利用者はこの検索条件合致度に基づいて必要な文書
情報を選択できる。
【0018】第2の発明の好ましい実施態様において
は,上記重要度演算手段は,検索された上記文書情報か
ら抽出語を抽出し,抽出された上記抽出語に関する抽出
語統計情報を作成する抽出語統計情報作成手段,重要度
評価規則およびメンバーシップ関数があらかじめ登録さ
れている重要度評価規則辞書,上記重要度評価規則およ
びメンバーシップ関数にしたがって,上記抽出語統計情
報作成手段により作成された上記抽出語統計情報に基づ
いて,上記抽出語統計情報作成手段により抽出された上
記抽出語の抽出語重要度を算出する抽出語重要度評価手
段,ならびに上記入力された検索キーワードと一致する
上記抽出語の抽出語重要度を上記検索キーワードの重要
度とする手段からなる。
【0019】これにより,検索された文書情報から抽出
した抽出語の抽出語重要度が検索キーワードの重要度と
されるので,その文書情報に見合った検索キーワードの
重要度を得ることができる。
【0020】第2の発明の他の実施態様においては,上
記重要度演算手段は,検索された上記文書情報から抽出
語を抽出し,抽出された上記抽出語のうち,入力された
上記検索キーワードと一致する上記抽出語に関する抽出
語統計情報を作成する抽出語統計情報作成手段,重要度
評価規則およびメンバーシップ関数があらかじめ登録さ
れている重要度評価規則辞書,上記重要度評価規則およ
びメンバーシップ関数にしたがって,上記抽出語統計情
報作成手段により作成された上記抽出語統計情報に基づ
いて,上記検索キーワードと一致する上記抽出語の抽出
語重要度を算出する抽出語重要度評価手段,ならびに上
記検索キーワードと一致する上記抽出語の抽出語重要度
を上記検索キーワードの重要度とする手段からなる。
【0021】これにより,検索された文書情報が抽出し
た抽出語のうち検索キーワードと一致する抽出語のみ重
要度が算出されるので,不要な抽出語の重要度演算を行
なわなくてもよい。
【0022】第2の発明のさらに好ましい実施態様にお
いては,上記合致度演算手段は,入力された上記重視度
と算出された上記重要度とに基づいて,上記検索キーワ
ード毎のキーワード合致度を算出するキーワード合致度
演算手段,ならびに算出された上記キーワード合致度と
入力された上記結合演算子とに基づいて,上記検索条件
合致度を算出する検索条件合致度演算手段からなる。
【0023】これにより,入力された検索キーワードの
重要度と,算出された検索キーワードの重要度とに基づ
いて,検索条件合致度を算出することができる。
【0024】
【実施例の説明】
第1実施例 図1は第1実施例におけるデータ・ベース検索装置の全
体的構成を示すブロック図である。
【0025】このデータ・ベース検索装置はそのすべて
をハードウェア・アーキテクチャにより実現することも
できるし,プログラムされたコンピュータ・システムに
より実現することもできる。またデータ・ベース検索装
置の一部をハードウェアにより,他の部分をソフトウェ
アにより実現することもできる。
【0026】データ・ベース1およびデータ・ベース管
理システム2には,公知のシステムを用いることができ
る。
【0027】データ・ベース1は,テキスト型データ・
ベースであり,多数の電子化された文書ファイル(文書
情報または文書データ)があらかじめ登録されている。
データ・ベース1に登録されている文書ファイルの一例
が図2に示されている。
【0028】データ・ベース管理システム2は,データ
・ベース1の管理を行なうものであり,データ・ベース
1からの文書ファイルの検索のみならず,文書ファイル
の登録その他の処理を行なう。データ・ベース1に対し
て文書ファイルの検索を行なう場合,データ・ベース管
理システム2には,検索条件として1つのキーワード
(検索キーワード),または複数の検索キーワードとこ
れらの検索キーワードの間の関係を示す結合演算子から
なる検索条件が与えられる。
【0029】データ・ベース管理システム2は,検索条
件が与えられると,その検索条件に基づいてデータ・ベ
ース1に対して全文検索を行ない,検索条件と合致する
文書ファイルに関するデータを出力する。
【0030】検索条件入力装置11は,検索条件を入力す
るものであり,キーボード等により実現される。検索条
件入力装置11から入力された検索条件は,検索条件記憶
装置12に記憶される。
【0031】入力される検索条件の一例が図3に示され
ている。
【0032】検索条件には次の態様がある。その1は,
相互に関連する検索キーワードを一群として与えるもの
である。その2は,それぞれが検索キーワードからなる
複数のキーワード群とこれらのキーワード群を結合する
結合演算子とによって検索条件を構成するものである
(キーワード群のいくつかは一つの検索キーワードから
なるものであってもよい)。
【0033】たとえば,検索条件入力装置11から入力さ
れる検索条件の検索条件式は次のようなものである。
【0034】 [(「パラメータ」,「パラメータ調整」,「パラメータ設定」) 関連度 1.0 0.8 0.6 重視度 0.8 0.8 0.8 AND「設計」]MEAN[「ファジィ制御」,「ファジィ制御系」] 1.0 1.0 0.8 0.8 1.0 1.0 …(1)
【0035】ここで,「AND」および「MEAN」は
結合演算子である。結合演算子は「AND」および「M
AEN」の他に「OR」を設定することもできる。
【0036】各検索キーワードには,関連度および重視
度が付随する。関連度は相互に関連する一群を構成する
検索キーワードのうちのいずれかを基準として他の検索
キーワードの関連の度合いを表わすものである。重視度
は検索キーワードをどの程度重要視するかを表わすもの
である。重視度は結合演算子「MEAN」について有効
である。関連度および重視度は0.0 〜1.0 の値で設定さ
れる。このような関連度および重視度もユーザによって
検索条件入力装置11から入力される。
【0037】たとえば,検索条件式(1) において,検索
キーワード「パラメータ」,「パラメータ調整」および
「パラメータ設定」が一群を形成し,「パラメータ」が
基準となっている。基準となる「パラメータ」の関連度
は,「1.0 」である。「パラメータ調整」および「パラ
メータ設定」の関連度はそれぞれ「0.8 」および「0.6
」である。
【0038】検索条件記憶装置12は,検索条件入力装置
11から入力される検索条件を記憶するものである。
【0039】検索条件入力装置11から検索条件記憶装置
12に入力された検索条件は,ポーランド記法で記述され
る。ポーランド記法は,引数が前,演算子がその引数の
後に来るようなプリオーダ系列で記述する方式である。
【0040】図3に検索条件記憶装置12に記憶されるデ
ータの一例が示されている。
【0041】式(1) で表わされる検索条件がユーザによ
って検索条件入力装置11から入力されると,検索条件記
憶装置12により演算子コード,制御コード1および制御
コード2が設定される。
【0042】演算子コードは結合演算子に関するもので
あり,各検索キーワードについては「NULL」コード
が設定され,結合演算子についてはその演算コードが設
定される。たとえば,検索キーワード「パラメータ」の
演算子コードは「NULL」コードであり,結合演算子
「AND」の演算子コードは「AND」コードである。
【0043】制御コード1は,キーワード群(検索キー
ワード)の終了を表わすものであり,一つのキーワード
群を形成する最後の検索キーワードのみに「END」コ
ードが設定される。たとえば,検索キーワード「パラメ
ータ」,「パラメータ調整」および「パラメータ設定」
からなるキーワード群についてはこのキーワード群の最
後の検索キーワード「パラメータ設定」の制御コード1
に「END」コードが設定されている。また一つの検索
キーワード「設計」からなるものについては,この検索
キーワードの制御コード1に「END」コードが設定さ
れている。
【0044】制御コード2は検索条件式の終了を表すも
のであり,検索条件式の最後の結合演算子のみに「EN
D」コードが設定される。たとえば,結合演算子「ME
AN」の制御コード2に「END」コードが設定されて
いる。
【0045】重要度は,データ・ベース1から検索され
た文書ファイルについて,検索キーワードの文書におけ
る関連の度合いまたは重要度の度合いを表わすものであ
る。この重要度は重要度演算装置20により生成される。
【0046】検索条件記憶装置12はまた,検索条件入力
装置11から検索条件が入力されると,入力された検索条
件に基づいてデータ・ベース管理システム2に入力可能
なフォーマットのデータ・ベース検索条件を作成する。
作成されたデータ・ベース検索条件は検索条件記憶装置
12からデータ・ベース管理システム2に与えられる。
【0047】データ・ベース管理システム2は,検索条
件記憶装置12から与えられるデータ・ベース検索条件に
したがって,データ・ベース1から文書ファイルを検索
する。
【0048】データ・ベース1から検索により得られた
文書ファイルはデータ・ベース管理システム2から重要
度演算装置20に与えられる。
【0049】重要度演算装置20は,検索条件に基づいて
得られた文書ファイルについて,重要度を算出するもの
である。
【0050】図4は重要度演算装置20の内部構成を示す
ブロック図である。
【0051】文書入力装置21は,データ・ベース管理シ
ステム2から与えられる文書ファイル(以下,文書情報
という)を格納しておくバッファである。文書情報は1
文書毎に文書入力装置21から統計情報抽出装置22に与え
られる。
【0052】図5にデータ・ベース1から検索された文
書情報の一例が示されている。
【0053】文書情報の一例として科学技術論文が図示
されている。文書情報には「タイトル」,「抄録」,
「本文」等の項目が付加されている。
【0054】抽出語統計情報抽出装置22は,文書入力装
置21から与えられた文書情報から抽出語を抽出し,この
抽出した抽出語のそれぞれについて抽出語統計情報を作
成するものである。
【0055】抽出語の抽出には最長一致法,構文解析等
が用いられる。例えば,抽出語の抽出処理は次のように
して行なわれる。
【0056】まず,入力さた文書情報によって表わされ
る文書の中から『が,は,に,を,の,な,など,など
の』等の助詞を持つ文節(「単語+助詞」)が探し出さ
れる。また『。,、,
・,{},「」,〔〕,(),[]』等の記号を持つ文
節(「単語+記号」)が探し出される。探し出された文
節は文章中から取り出される。取り出された文節から助
詞または記号が削除され,単語すなわち抽出語が抽出さ
れる。
【0057】上述のようにして,図5に示されるファイ
ル名AAA.TXTの文書情報から抽出された抽出語が
図6に示されている。
【0058】抽出された抽出語のそれぞれについての抽
出語統計情報の作成は次のように行なわれる。
【0059】抽出語統計情報の種類には文字数,文字種
類,単語種類,出現回数,出現位置,強調表現回数,文
法情報等が含まれる。
【0060】文字数は抽出語を構成する文字列に含まれ
る文字数を表わす。たとえば,抽出語「ファジィ制御
系」の文字数は「7」である。
【0061】文字種類は抽出語を構成する文字列に含ま
れる文字の種類を表わす。文字の種類としては,漢字,
ひらがな,カタカナ,アルファベット,数字等がある。
たとえば,抽出語「ファジィ制御系」の文字種類は「カ
タカナ,漢字混じり」となる。
【0062】単語種類は抽出語である単語の種類(文法
上の品詞またはこれに類するもの)を表わす。単語の種
類としては,一般名詞,企業名,人名などがある。たと
えば,抽出語「ファジィ制御系」の単語種類は「一般名
詞」である。
【0063】出現回数は入力された一つの文書情報の中
で同一の抽出語が現われた回数を表わす。たとえば,抽
出語「ファジィ制御系」の出現回数は「5」である。
【0064】出現位置は入力された文字情報の中で抽出
語がどのような位置に出現したかを表わす。出現位置は
上述した,タイトル,サブタイトル,抄録,本文等の項
目によって表現される。たとえば,抽出語「ファジィ制
御系」はタイトル,抄録,および本文に出現している。
【0065】強調表現回数は,抽出語に強調表現(たと
えば,『「」,[],“”』等)が付加されている回数
を表わす。たとえば,抽出語「ファジィ制御系」には強
調表現がないので,強調表現回数は「0」である。
【0066】文法情報は抽出語の直後に『が,は,に,
を』等の助詞が付く回数を表わす。たとえば,抽出語
「ファジィ制御系」の直後には助詞「を」が1回,
「の」が4回付いている。
【0067】図6に示す抽出語のいくつかについての抽
出語統計情報の一例が図7,8に示されている。
【0068】抽出語統計情報抽出装置22において作成さ
れた抽出語統計情報は抽出語統計情報正規化装置23に与
えられる。
【0069】多くの文書においては,同一用語(抽出
語)が繰返し出現することを避けるために,またはニュ
アンスが異なった表現をするために,その用語と同じ意
味を持つ用語(同義語)が用いられることがある。した
がって,抽出語の重要度を評価するにあたっては同義語
についてはそれらを一つのグループとして取扱い,一グ
ループに属する同義語の出現回数および強調表現回数を
考慮する必要がある。しかも,出現回数や強調表現回数
は文書の長さ(大きさ)に応じて大きく変動するので,
これらの回数の絶対数よりもむしろ,一文書情報におけ
る抽出語の総出現回数に対する割合(割合を求めること
を正規化という)としてとらえることが妥当である。
【0070】重要度演算装置20は同義語の存在を考慮
し,かつそれらの出現回数や強調表現回数について正規
化処理を行なって,抽出語の重要度を求めるものであ
る。
【0071】抽出語統計情報正規化装置23には抽出語統
計情報抽出装置22から抽出語統計情報が与えられ,同義
語辞書24を参照して,抽出語の抽出語統計情報に含まれ
る出現回数および強調表現回数を正規化し,正規化され
た抽出語統計情報を出力するとともに,正規化処理で用
いた正規化情報を出力する。
【0072】図10に同義語辞書24の一例が示されてい
る。同義語辞書24はハード・ディスク,ROM等のメモ
リにより実現される。同義語辞書24には同義語がグルー
プ化されてあらかじめ登録されている。すなわち,同義
語グループ名に対応してそのグループに属する同義語が
記憶されている。
【0073】図9は,抽出語統計情報正規化装置23の内
部構成を示すブロック図である。抽出語統計情報正規化
装置23は,共有化部25および正規化部26からなる。
【0074】共有化部25は,与えられる抽出語統計情報
を用い,同義語辞書24を参照して正規化情報を作成する
とともに,与えられる抽出語統計情報に基づいて同義語
辞書24を参照して一つの同義語グループに含まれる抽出
語によって共有化された抽出語統計情報を作成する。正
規化部25は共有化された抽出語統計情報を正規化情報を
用いて正規化するものである。
【0075】共有化部25によって作成された正規化情報
の一例が図11に示されている。正規化情報には,抽出語
に関する全体情報と同義語グループ情報とがある。
【0076】全体情報には,一つの文書に現われる抽出
語の種類数と抽出語の総出現回数とがある。
【0077】同義語グループ情報には,一つの文書に現
われる同義語グループの数と,各同義語グループに関す
る情報(各同義語グループ情報)とが含まれる。各同義
語グループ情報は,同義語グループ毎に,その同義語グ
ループに属する抽出語の種類数および同義語グループに
属する抽出語の総出現回数からなる。
【0078】図12は抽出語統計情報の共有化および正規
化の処理手順を示すフロー・チャートである。
【0079】共有化部25は,抽出語統計情報抽出装置22
から与えられる抽出語をカウントすることにより,一つ
の文書情報に含まれている抽出語の種類数および抽出語
の総出現回数を得る(ステップ101 )。これにより全体
情報が作成される。
【0080】共有化部25は同義語辞書24を検索し,与え
られた抽出語のそれぞれについて,その抽出語と同じ用
語がいずれかの同義語グループ内に存在するかどうかを
判断し,同義語をグループ化する(ステップ102 )。
【0081】たとえば,図10に示す同義語辞書24を参照
すると,抽出語統計情報中の抽出語「ファジィ制御系」
と「ファジィ制御」はグループ名「ファジィ」に属する
ので,これらの2つの抽出語が一つのグループを構成す
る。同じように抽出語統計情報中の抽出語の「パラメー
タ調整手順」,「パラメータ」および「パラメータ調
整」は同義語辞書24を参照するとグループ名「パラメー
タ」のグループに含まれることが判明するので一つのグ
ループを構成するものと判断される。
【0082】このようにして,与えられた抽出語統計情
報に含まれる抽出語のすべてについてグループ化が終了
すると,各同義語グループに属する抽出語の種類数が計
数されるとともに,各同義語グループに属するすべての
抽出語の出現回数の総和(総出現回数)が算出される。
このようにして図11に示す正規化情報のうちの同義語グ
ループ情報が作成される(ステップ103 )。
【0083】また,与えられた抽出語統計情報中の各抽
出語の出現回数が総出現回数で置きかえられる。さらに
各抽出語の強調表現回数も同一同義語グループに属する
抽出語の強調表現回数の総和で置きかえられ,文法情報
についても同一同義語グループに属する文法情報の集合
で置きかえられる。
【0084】たとえば,抽出語「ファジィ制御系」と
「ファジィ制御」とは一つの同義語グループを構成する
ので,それらの出現回数は5+1=6となり,強調表現
回数は0+0=0となり,文法情報は『「を」:1,
「の」:4+1=5』となる。
【0085】以上が抽出語統計情報の共有化処理であ
る。
【0086】同一の同義語グループに属する2以上の抽
出語がない場合にはこの共有化処理は必要ない。
【0087】共有化された抽出語統計情報(共有化処理
されないものも含む)は,作成された正規化情報ととも
に正規化部26に与えられる。
【0088】正規化部26による正規化処理は出現回数お
よび強調表現回数について行なわれる。すなわち,共有
化処理された各抽出語については,それらの出現回数お
よび強調表現回数がそれぞれ抽出語の総出現回数で除算
される。たとえば,抽出語「ファジィ制御系」の出現回
数および強調表現回数はそれぞれ「6」および「0」で
あり,全体情報中の抽出語の総出現回数は「52」である
から,正規化後のこれらのデータはそれぞれ「6/52」
および「0/52」となる。
【0089】共有化処理されない抽出語についても同じ
ように正規化される。たとえば抽出語「メンバーシップ
関数」の出現回数および強調表現回数はそれぞれ「1/
52」および「0/52」に正規化される(ステップ105
)。
【0090】このようにして抽出語統計情報正規化装置
23により共有化されかつ正規化された抽出語の抽出語統
計情報が図13,14に示されている。
【0091】正規化された抽出語統計情報は抽出語重要
度評価装置27に与えられる。
【0092】抽出語重要度評価装置27は,重要度評価規
則辞書28に登録されている重要度評価規則にしたがっ
て,抽出語統計情報正規化装置23から与えられた抽出語
毎の正規化された抽出語統計情報に基づいて抽出語の重
要度を算出(または評価)するものである。
【0093】重要度評価規則辞書28には,重要度評価規
則,および抽出語統計情報の種類,これに関連する項目
等に関するメンバーシップ関数があらかじめ登録されて
いる。重要度評価規則辞書28はハード・ディスク,RO
M等のメモリにより実現される。
【0094】一組の重要度評価規則の例を次に示す。
【0095】重要度評価規則1 IF 文字数 =少ない 文字種類 =* 単語種類 =一般名詞 出現回数 =少ない 出現位置 =* 強調表現回数=少ない 文法情報 (「が」の回数+「は」の回数)/(出現
回数)=少ない (「に」の回数+「を」の回数)/(出現回数)=少な
い THEN 重要度 =0.2 重要度評価規則2 IF 文字数 =少ない 文字種類 =漢字,ひらがな混じり 単語種類 =一般名詞 出現回数 =少ない 出現位置 =* 強調表現回数=少ない 文法情報 (「が」の回数+「は」の回数)/(出現
回数)=少ない (「に」の回数+「を」の回数)/(出現回数)=普通 THEN 重要度 =0.4 重要度評価規則3 IF 文字数 =普通 文字種類 =* 単語種類 =* 出現回数 =普通 出現位置 =* 強調表現回数=普通 文法情報 (「が」の回数+「は」の回数)/(出現
回数)=普通 (「に」の回数+「を」の回数)/(出現回数)=普通 THEN 重要度 =0.6 重要度評価規則4 IF 文字数 =多い 文字種類 =* 単語種類 =企業名,個人名 出現回数 =多い 出現位置 =タイトル,抄録 強調表現回数=多い 文法情報 (「が」の回数+「は」の回数)/(出現
回数)=多い (「に」の回数+「を」の回数)/(出現回数)=普通 THEN 重要度 =0.8 重要度評価規則5 IF 文字数 =多い 文字種類 =カタカナ,漢字混じり,アルファベッ
ト,漢字混じり 単語種類 =企業名,個人名 出現回数 =多い 出現位置 =タイトル,抄録 強調表現回数=多い 文法情報 (「が」の回数+「は」の回数)/(出現
回数)=多い (「に」の回数+「を」の回数)/(出現回数)=普通 THEN 重要度 =1.0
【0096】重要度評価規則1〜5の前件部(IF)お
ける*は,その抽出語統計情報が使用されないことを表
わす。
【0097】文法情報については助詞「が」または
「は」が付いて主語として用いられる回数と,助詞
「に」または「を」が付いて目的語として用いられる回
数とが別個に考慮されている。しかも,これらの回数は
出現回数で除すことにより,主語として用いられる回数
の割合,目的語として用いられる回数の割合が重要度評
価規則における前件部の変数となっている。
【0098】これらの重要度評価規則から分るように,
前件部の変数「文字数」,「出現回数」,「強調表現回
数」,「(「が」の回数+「は」の回数)/(出現回
数)」(主語として用いられる回数の割合)および
「(「に」の回数+「を」の回数)/(出現回数)」
(目的語として用いられる回数の割合)はファジィ集合
表現で表わされている。これに対して,前件部の変数
「文字種類」,「単語種類」,「出現位置」および後件
部の「重要度」はクリスプ集合表現で表わされている。
【0099】ファジィ集合表現で表わされる変数につい
てはメンバーシップ関数があらかじめ用意され,上述の
ように重要度評価規則辞書28に登録されている。図15
(A) 〜(E) はこれらのメンバーシップ関数の例を示すも
のである。(A) ,(B) ,(C) ,(D) および(E) はそれぞ
れ,文字数,出現回数,強調表現回数,(「が」の回数
+「は」の回数)/(出現回数)および(「に」の回数
+「を」の回数)/(出現回数)に関して,言語情報
「少ない」,「普通」および「多い」の3つのメンバー
シップ関数を表わしている。
【0100】抽出語重要度の演算処理手順を示すフロー
・チャートが図16に示されている。
【0101】抽出語統計情報正規化装置23から与えられ
る抽出語統計情報が抽出語毎に抽出語重要度評価装置27
に取込まれる(ステップ111 )。
【0102】重要度評価規則辞書28に登録されている重
要度評価規則にしたがって,メンバーシップ関数で表わ
されるファジィ変数については,そのメンバーシップ関
数に対する抽出語統計情報(またはこれらを加工して得
られた情報)の適合度が算出される。クリスプ集合表現
の変数(すなわち,文字種類,単語種類および出現位
置)については,与えられた抽出語統計情報が評価規則
の前件部の条件と一致していれば適合度が「1.0 」,不
一致であれば「0.0 」とされる(ステップ112 )。
【0103】重要度評価規則毎にマッチングによって得
られた前件部適合度の総和が算出される(ステップ113
)。
【0104】このようにして得られた抽出語「ファジィ
制御系」についてのマッチング結果および適合度の総和
が図17に示されている。図18において,*は重要度評価
規則の前件部で使用されていないことを表わしている。
【0105】算出された適合度の総和の中で,最大値と
2番目に大きい値が探し出されるとともに,それらを生
じさせた重要度評価規則の後件部に記述された重要度が
取出される(ステップ114 )。
【0106】得られた適合度の総和の最大値と2番目に
大きい値,およびそれらに対応する重要度に基づいて,
次式で示される加重平均により抽出語の抽出語重要度が
算出される(ステップ115 )。
【0107】 抽出語重要度=[(適合度の最大値)×(最大値に対応する重要度)+ (適合度の2番目に大きい値)×(2番目に大きい値に対応する 重要度)]/[(適合度の最大値)+(適合度の2番目に大きい値)] …(2)
【0108】図17に示された抽出語「ファジィ制御系」
の適合度の最大値は「4.7 」,2番目に大きい値は「3.
7 」であり,それらに対応する重要度はそれぞれ「1.0
」および「0.8 」である。したがって,式(2) により
抽出語「ファジィ制御系」の抽出語重要度は[(4.7 ×
1.0 )+(3.7 ×0.8 )]/[4.7 +3.7 ]=0.88とな
る。
【0109】このようにして,抽出されたすべての抽出
語の抽出語重要度が算出される。抽出度重要度は,検索
条件に含まれる検索キーワードと一致する抽出語のみに
ついて算出するようにしてもよい。
【0110】抽出語は,入力された文書情報の抽出語と
して算出された抽出語重要度とともに重要度記憶装置29
に与えられ,記憶される。抽出された抽出語のすべてを
抽出語として重要度記憶装置29に登録してもよいし,抽
出語重要度の大きい順に適数個または所定値以上の抽出
語重要度をもつもののみを重要度記憶装置29に抽出語と
して登録してもよい。
【0111】重要度記憶装置29に記憶される情報の一例
が図18に示されている。記憶されている情報は,検索に
より得られた文書のファイル名タイトル,および文書か
ら抽出された抽出語とその抽出語重要度である。
【0112】検索により得られた文書情報について抽出
語の抽出語重要度が算出されると,その文書情報に関す
るデータとともに重要度記憶装置29から検索条件記憶装
置12に与えられる。
【0113】図19は,重要度演算装置20の処理概要を示
すフロー・チャートである。
【0114】検索により得られた文書情報がデータ・ベ
ース管理システム2から文書入力装置21に与えられる
(ステップ121 )。
【0115】抽出語統計情報抽出装置22は,与えられた
文書情報から抽出語を抽出し,抽出した抽出語につい
て,抽出語統計情報を作成する(ステップ122 )。
【0116】抽出語統計情報正規化装置23は,抽出語統
計情報を用い,同義語辞書24を参照して正規化情報を作
成し,一つの同義語グループに含まれる抽出語によって
共有化される抽出語統計情報を作成するとともに,共有
化された抽出語統計情報を正規化情報を用いて正規化す
る(ステップ123 )。
【0117】抽出語重要度評価装置27は,重要度評価規
則辞書28に登録されている重要度評価規則およびメンバ
ーシップ関数にしたがって,正規化された抽出語統計情
報に基づいて抽出語の抽出語重要度の評価を行なう(ス
テップ124 )。
【0118】重要度記憶装置29は検索により得られた文
書情報に関するデータおよびその文書情報から抽出した
抽出語の抽出語重要度を記憶するとともにこれらの情報
を検索条件記憶装置12に与える(ステップ125 )。
【0119】検索条件記憶装置12は,重要度演算装置20
から与えられた文書情報から抽出した抽出語の抽出語重
要度を,その抽出語と一致する検索キーワードの重要度
として設定する。
【0120】検索により得られたファイル名AAA.T
XTの文書情報について,図3に示される検索条件が,
図20に示されている。
【0121】検索キーワード「パラメータ」,「パラメ
ータ調整」,「設計」,「ファジィ制御」および「ファ
ジィ制御系」の各重要度は,文書情報から抽出した各抽
出語の抽出度重要度「0.89」,「0.9 」,「0.65」,
「0.75」および「0.88」となる。検索キーワード「パラ
メータ設定」は抽出語がないので,この検索キーワード
の重要度は「0.0 」となる。
【0122】重要度が設定された検索条件は,キーワー
ド合致度演算装置13および検索結果記憶装置17に与えら
れる。
【0123】図21は,2つのキーワードAおよびB,そ
のキーワード合致度μA,μBについて,結合演算子
「AND」,「MEAN」および「OR」のそれぞれに
おける演算方法の一例を示している。図21において,平
均演算子については重みが省略されている。
【0124】この実施例においては,各結合演算子「A
ND」,「MEAN」,「OR」に対して論理和,算術
平均,論理和を用いる。
【0125】結合演算子「MEAN」においては,重視
度が検索条件として入力された場合,この重要度を重み
として加重平均を行なう。
【0126】キーワード合致度演算装置13は,入力され
た検索キーワードのうち検索された文書情報に現われて
いるキーワード群のキーワード合致度を関連度および重
要度に基づいて算出するものである。
【0127】キーワード合致度演算装置13は,キーワー
ド合致度演算部14および15からなる。
【0128】キーワード合致度演算部14は,各検索キー
ワードのキーワード合致度を,関連度と重要度とのMI
N演算により算出するものである。
【0129】 キーワード合致度 =MIN{(検索キーワードの関連度),(検索キーワードの重要度)} …(3)
【0130】図22はキーワード合致度演算部14の内部構
成を示すブロック図であり,図23はキーワード合致度演
算部14におけるCPU41の処理手順を示すフロー・チャ
ートである。
【0131】CPU41は検索条件記憶装置12から検索キ
ーワードまたは結合演算子に1列分の関連度,重要度,
重視度,演算子コード,制御コード1および制御コード
2のデータを,入力部42を介してバッファ・メモリ40
(1) ,(2) ,(3) ,(4) ,(5)および(6) に読込む(ス
テップ131 )。
【0132】CPU41はバッファ・メモリ40(4) に読込
まれた演算子コードが「NULL」コードであるか判断
する(ステップ132 )。
【0133】ステップ132 でYES と判定されると,バッ
ファ・メモリ40に読込まれたデータは検索キーワードの
データであるので,バッファ・メモリ40(1) と(3) のそ
れぞれに読込まれた関連語と重要度とのMIN演算がM
IN演算回路43により行なわれる。算出されたMIN演
算結果,すなわち検索キーワードのキーワード合致度は
バッファ・メモリ40(1) に格納される(ステップ133
)。
【0134】バッファ・メモリ40のデータが,出力部44
を介してキーワード合致度演算部15に出力される(ステ
ップ134 )。
【0135】ステップ132 でNOと判定されると,バッフ
ァ・メモリ40に読込まれたデータは結合演算子のデータ
であるので,MIN演算は行なわれずそのまま出力部44
を介して適合度演算部15に出力される。
【0136】CPU41は,バッファ・メモリ40(6) の制
御コード2が「END」コードであるかを判断する(ス
テップ135 )。
【0137】ステップ134 でNOと判定されると,処理す
べきデータが残っているので,ステップ131 に戻り,ス
テップ131 〜134 の処理が行なわれる。
【0138】ステップ135 でNOと判定されると,CPU
41は処理を終了する。
【0139】上述のようにして,図20に示される検索条
件についての処理結果が図24に示されている。
【0140】たとえば,検索キーワード「パラメータ」
の関連度は「1.0 」,重要度は「0.89」であるので,こ
れらについてMIN演算を行なうと,検索キーワード
「パラメータ」のキーワード合致度はMIN{1.0 ,0.
89}=0.89となる。
【0141】キーワード合致度演算部15は,キーワード
合致度演算部14により算出された各検索キーワードのキ
ーワード合致度に基づいて,キーワード群の検索キーワ
ードの間でMAX演算を行ない,キーワード群のキーワ
ード合致度を算出するものである。
【0142】図24はキーワード合致度演算部15の内部構
成を示すブロック図である。図25はキーワード合致度演
算部15におけるCPU51の処理手順を示すフロー・チャ
ートである。
【0143】 キーワード合致度 =MAX{(検索キーワードのキーワード合致度),…} …(4)
【0144】CPU51は,キーワード合致度演算部14か
ら与えられるデータを入力部52を介してバッファ・メモ
リ50に読込む(ステップ141 )。
【0145】CPU51はバッファ・メモリ50(4) に読込
まれた演算子コードが「NULL」コードであるか判断
する(ステップ142 )。
【0146】ステップ142 でYES と判定されると,読込
まれたデータは検索キーワードのデータであるので,M
AX演算回路によりバッファ・メモリ50(1) のデータと
バッファ・メモリ54のデータとのMAX演算が行なわれ
る。算出されたMAX演算結果,すなわちキーワード群
のキーワード合致度はバッファ・メモリ54に格納される
(ステップ143 )。
【0147】CPU51は,バッファ・メモリ50(5) に読
込まれた制御コード1が「END」コードであるか判断
する(ステップ144 )。
【0148】ステップ144 でNOと判定されると,一つの
キーワード群について次の検索キーワードが存在するの
で,ステップ141 に戻り,キーワード合致度演算部14か
ら与えられる次のデータがバッファ50に読込まれる。
【0149】ステップ144 でYES と判定されると,一つ
のキーワード群についてMAX演算が終了したことにな
るので,バッファ・メモリ54のデータがバッファ・メモ
リ50(1) に格納される(ステップ145 )。バッファ・メ
モリ54はクリアされる(ステップ146 )。
【0150】バッファ・メモリ50のデータは出力部55を
介して検索条件合致度演算部16に出力される(ステップ
147 )。
【0151】ステップ142 でNOと判定されると,バッフ
ァ・メモリ50に読込まれたデータは結合演算子のデータ
であるので,MAX演算は行なわれずそのまま出力部55
を介して検索条件合致度演算部16に出力される。
【0152】CPU51は,バッファ・メモリ50(6) の制
御コード2が「END」コードであるかを判断する(ス
テップ148 )。
【0153】ステップ148 でNOと判定されると,処理す
べきデータが残っているので,ステップ141 に戻り,ス
テップ141 〜147 の処理が行なわれる。
【0154】ステップ148 でNOと判定されると,CPU
51は処理を終了する。
【0155】上述のようにして,図24に示す検索条件に
ついての処理結果が図27に示されている。
【0156】たとえば,検索キーワード「パラメー
タ」,「パラメータ調整」および「パラメータ設定」か
らなるキーワード群のキーワード合致度は,各検索キー
ワードのキーワード合致度がそれぞれ「0.89」,「0.8
」および「0.0 」であるので,式(4) を用いて,MA
X{0.89,0.8 ,0.0 }=0.89となる。
【0157】検索条件合致度演算装置16はキーワード群
のキーワード合致度および検索条件に基づいて文書情報
と検索条件との検索条件合致度を算出するものである。
【0158】図28は,検索条件合致度演算装置16の内部
構成を示すブロック図であり,図29は検索条件合致度演
算装置16におけるCPU61の処理手順を示すフロー・チ
ャートである。
【0159】キーワード合致度演算部15から与えられる
データが出力部62を介してバッファ・メモリ60に読込ま
れる(ステップ151 )。
【0160】CPU61はバッファ・メモリ60(4) に読込
まれた演算子コードが「NULL」コードであるかを判
断する(ステップ152 )。
【0161】ステップ152 でYES と判定されると,読込
まれたデータは検索キーワードのデータであるので,バ
ッファ・メモリ60(1) および(2) のデータがそれぞれス
タック63(1) および(3) にプッシュされ(ステップ153
),カウンタ64がインクリメントされる(ステップ154
)。
【0162】この後,ステップ151 に戻り,キーワード
合致度演算部15から与えられる次のデータが読込まれ
る。
【0163】ステップ152 でNOと判定されると,読込ま
れたデータは結合演算子のデータであるので,バッファ
・メモリ60(6) に読込まれた制御コード2が「END」
コードであるか判断される(ステップ155 )。
【0164】ステップ155 でNOと判定されると,カウン
タ64の計数分のデータがスタック63(1) および(3) から
演算回路65にホップされる(ステップ156 )。
【0165】演算回路65によりバッファ・メモリ60(4)
の演算子コードで表わされる演算が行なわれる(ステッ
プ157 )。演算結果は,スタック63にプッシュされ(ス
テップ158 ),カウンタ64がクリアされる(ステップ15
9 )。
【0166】この後,ステップ151 に戻り,キーワード
合致度演算部15から与えられる次のデータが読込まれ
る。
【0167】ステップ155 においてYES と,読込まれた
データは検索条件の最後のデータであるから,スタック
63にプッシュされているデータを演算回路65にホップ
し,バッファ・メモリ60(4) に読込まれた演算子コード
で表わされる演算が行なわれる(ステップ161 )。
【0168】カウンタ64がクリアされ(ステップ162
),演算回路65により算出された検索条件合致度が出
力部66を介して検索結果記憶装置17に出力される(ステ
ップ163)。
【0169】たとえば,図27に示される検索条件におい
ては,次のような演算が行なわれる。
【0170】 検索条件合致度 =[MIN(0.89,0.65)×0.8 +0.85×1.0 ]/[0.8 +1.0 ] =0.76 …(5)
【0171】キーワード合致度演算装置13および検索条
件合致度演算装置16におけるデータの演算処理は,パイ
プライン処理される。これにより検索条件合致度を高速
に算出できる。
【0172】検索結果記憶装置17は,検索条件記憶装置
12から与えられる文書情報に関するデータと検索条件合
致度演算装置16から与えられるその文書情報の検索条件
合致度とを対応させて記憶するものである。
【0173】図30は検索結果記憶装置17に記憶される情
報の一例が示されている。検索結果記憶装置17には,検
索により得られた文書情報のファイル名,タイトルおよ
び検索条件合致度が記憶される。
【0174】検索された全ての文書情報について検索条
件合致度が算出されると,検索条件合致度の大きい順に
文書情報のファイル名,タイトルおよび検索条件合致度
が適当な出力装置を通して出力される。これにより,ユ
ーザは必要な文書情報を容易に選択できる。
【0175】図31は,データ・ベース検索装置の処理概
要を示すフロー・チャートである。
【0176】それぞれが検索キーワードからなる複数の
キーワード群,これらを結合する結合演算子および各検
索キーワードに関する関連度および重視度からなる検索
条件が検索条件設定装置11から検索条件記憶装置12に入
力される(ステップ171 )。
【0177】入力された検索条件に基づいてデータ・ベ
ース管理システム2に入力可能なフォーマットの検索条
件が作成され,データ・ベース管理システム2に与えら
れる。データ・ベース管理システム2は,与えられる検
索条件に応じてデータ・ベース1から文書情報が検索さ
れる(ステップ172 )。
【0178】検索により得られた文書情報は重要度演算
装置20に与えられ,その文書情報から抽出語が抽出さ
れ,その抽出語重要度が算出される(ステッフ173 )。
【0179】算出された抽出語重要度は,入力された検
索条件に含まれる各検索キーワードの重要度として検索
条件記憶装置12に設定される。各検索キーワードの関連
度および重要度に基づいて各キーワード群についてのキ
ーワード合致度がキーワード合致度演算装置13により算
出され,算出されたキーワード合致度おび重視度に基づ
いて検索条件合致度が算出される(ステップ174 )。算
出された検索条件合致度は,検索結果記憶装置17に検索
された文書情報に関するデータとともに記憶される。
【0180】検索された全ての文書情報について,ステ
ップ173 および174 の処理が行なわれると,検索結果記
憶装置17に記憶された文書情報に関するデータとその検
索条件合致度とが出力される(ステップ175 ,176 )。
【0181】図32は,第1実施例における変形例を示す
ブロック図である。
【0182】この実施例におけるデータ・ベースは文書
情報が登録された文書ファイル1と,この文書情報に関
するデータ,キーワードおよびそのキーワード重要度
(キーワード・インデックス)が登録されているキーワ
ード・インデックス・ファイル1Aとを有する。
【0183】図33は,図2に示される文書情報に対応す
るキーワード・インデックス・ファイル1Aの一例を示
す。
【0184】データ・ベース管理システム2は,与えら
れるデータ・ベース検索条件に応じてデータ・ベース
1,1Aを検索する。検索により得られた文書ファイル
およびそのキーワード・インデックス・ファイルから検
索条件記憶装置12に与えられる。
【0185】検索条件記憶装置12は,データ・ベース管
理システム2から検索により得られたキーワード・イン
デックス・ファイルに含まれるキーワードのキーワード
重要度を,検索キーワードの重要度として,以下同様の
処理が行なわれる。
【0186】第2実施例 図34は第2実施例におけるデータ・ベース検索装置の全
体的構成を示すブロック図である。
【0187】第2実施例におけるデータ・ベース検索装
置は,第1実施例におけるデータ・ベース検索装置と同
様にそのすべてをハードウェア・アーキテクチャにより
実現することもできるし,プログラムされたコンピュー
タ・システムにより実現することもできる。またデータ
・ベース検索装置の一部をハードウェアにより,他の部
分をソフトウェアにより実現することもできる。
【0188】図34において図1に示すものと同一物には
同一符号を付し,詳細な説明は省略する。
【0189】検索条件入力装置11Aは,検索条件を入力
するものであり,キーボード等により実現される。
【0190】検索条件は,複数の検索キーワード,これ
らを結合する結合演算子からなるものである。たとえ
ば,次のような検索条件が入力される。
【0191】 (「ファジィ制御」OR「ファジィ推論」)AND「パラメータ」 0.95 0.60 0.85 …(6)
【0192】ここで「ファジィ制御」,「ファジィ推
論」および「パラメータ」は検索キーワードであり,
「OR」および「AND」は結合演算子である。各検索
キーワードの下に付されている数値「0.95」,「0.60」
および「0.85」はその検索キーワードの重視度である。
【0193】結合演算子は,「OR」および「AND」
の他に「MEAN」等が用いられる。
【0194】重要視度は,検索キーワードをどの程度重
要視するかを表わす度合いであり,0.0 〜1.0 の数値で
入力される。
【0195】図35は,検索条件をポーランド記法により
示した図である。
【0196】検索条件(b) は,データ・ベース管理シス
テム2,キーワード重要度演算装置20Aおよび合致度演
算装置30に入力され,重視度は合致度演算装置30に入力
される。
【0197】データ・ベース管理システム2は,検索条
件入力装置11Aから入力される検索条件に応じて,デー
タ・ベース1から文書ファイルを検索する。
【0198】検索により得られた文書ファイルはデータ
・ベース管理システム2から重要度演算装置20Aに与え
られる。
【0199】重要度演算装置20Aは,検索して得られた
文書ファイルについて,重要度を算出するものである。
【0200】図36は重要度演算装置20Aの内部構成を示
すブロック図である。
【0201】図36において図4に示すものと同一物には
同一符号を付し,詳細な説明は省略する。
【0202】重要度評価規則辞書28Aには,重要度評価
規則,および抽出語統計情報の種類,これに関連する項
目,分野別重要度等に関するメンバーシップ関数があら
かじめ登録されている。重要度評価規則辞書28Aはハー
ドディスク,ROM等のメモリにより実現される。
【0203】一組の重要度評価規則の例を次に示す。
【0204】重要度評価規則1 IF 文字数 =少ない 文字種類 =* 単語種類 =一般名詞 出現回数 =少ない 出現位置 =* 強調表現回数=少ない 文法情報 (「が」の回数+「は」の回数)/(出現
回数)=少ない (「に」の回数+「を」の回数)/(出現回数)=少な
い THEN 重要度 =0.2 重要度評価規則2 IF 文字数 =少ない 文字種類 =漢字,ひらがな混じり 単語種類 =一般名詞 出現回数 =少ない 出現位置 =* 強調表現回数=少ない 文法情報 (「が」の回数+「は」の回数)/(出現
回数)=少ない (「に」の回数+「を」の回数)/(出現回数)=普通 THEN 重要度 =0.4 重要度評価規則3 IF 文字数 =普通 文字種類 =* 単語種類 =* 出現回数 =普通 出現位置 =* 強調表現回数=普通 文法情報 (「が」の回数+「は」の回数)/(出現
回数)=普通 (「に」の回数+「を」の回数)/(出現回数)=普通 THEN 重要度 =0.6 重要度評価規則4 IF 文字数 =多い 文字種類 =* 単語種類 =企業名,個人名 出現回数 =多い 出現位置 =タイトル,抄録 強調表現回数=多い 文法情報 (「が」の回数+「は」の回数)/(出現
回数)=多い (「に」の回数+「を」の回数)/(出現回数)=普通 THEN 重要度 =0.8 重要度評価規則5 IF 文字数 =多い 文字種類 =カタカナ,漢字混じり アルファベット,漢字混じり 単語種類 =企業名,個人名 出現回数 =多い 出現位置 =タイトル,抄録 強調表現回数=多い 文法情報 (「が」の回数+「は」の回数)/(出現
回数)=多い (「に」の回数+「を」の回数)/(出現回数)=普通 THEN 重要度 =1.0
【0205】重要度評価規則1〜5の前件部(IF)お
ける*は,その抽出語統計情報が使用されないことを表
わす。
【0206】文法情報については助詞「が」または
「は」が付いて主語として用いられる回数と,助詞
「に」または「を」が付いて目的語として用いられる回
数とが別個に考慮されている。しかも,これらの回数は
出現回数で除すことにより,主語として用いられる回数
の割合,目的語として用いられる回数の割合が重要度評
価規則における前件部の変数となっている。
【0207】これらの重要度評価規則から分るように,
前件部の変数「文字数」,「出現回数」,「強調表現回
数」,「(「が」の回数+「は」の回数)/(出現回
数)」(主語として用いられる回数の割合)および
「(「に」の回数+「を」の回数)/(出現回数)」
(目的語として用いられる回数の割合)はファジィ集合
表現で表わされている。これに対して,前件部の変数
「文字種類」,「単語種類」,「出現位置」および後件
部の「重要度」はクリスプ集合表現で表わされている。
【0208】ファジィ集合表現で表わされる変数につい
てはメンバーシップ関数があらかじめ用意され,上述の
ように重要度評価規則辞書28Aに登録されている。図37
(A)〜(E) はこれらのメンバーシップ関数の例を示すも
のである。(A) ,(B) ,(C),(D) および(E) はそれぞ
れ,文字数,出現回数,強調表現回数,(「が」の回数
+「は」の回数)/(出現回数)および(「に」の回数
+「を」の回数)/(出現回数)に関して,言語情報
「少ない」,「普通」および「多い」の3つのメンバー
シップ関数を表わしている。
【0209】抽出語重要度評価装置27は,図16に示され
る処理手順にしたがって,重要度評価規則辞書28Aに登
録されている重要度評価規則およびメンバーシップ関数
を用いて,抽出語統計情報抽出装置22から与えられる抽
出語統計情報に基づいて,抽出した抽出語の抽出語重要
度の算出(または評価)を行う。
【0210】算出された抽出語重要度は抽出語とともに
重要度記憶装置29に与えられ,文書情報毎に記憶され
る。同一の文書に含まれる抽出語の抽出語重要度の評価
が終了すると,抽出語重要度はその検索キーワードの重
要度として文書情報毎に合致度演算装置30に出力され
る。
【0211】図38は,重要度演算装置20の処理概要を示
すフロー・チャートである。
【0212】検索により得られた文書情報がデータ・ベ
ース管理システム2から文書入力装置21に与えられる
(ステップ121 )。
【0213】抽出語統計情報抽出装置22は,入力された
文書情報から抽出語を抽出し,抽出した抽出語につい
て,抽出語統計情報を作成する(ステップ122 )。
【0214】抽出語重要度評価装置27は,重要度評価規
則辞書28Aに登録されている重要度評価規則およびメン
バーシップ関数にしたがって,作成された抽出語統計情
報に基づいて抽出語の抽出語重要度の評価を行なう(ス
テップ124 )。
【0215】重要度記憶装置29は検索により得られた文
書情報に関するデータおよびその文書情報から抽出した
抽出語の抽出語重要度を記憶するとともにこれらの情報
を合致度演算装置30に与える(ステップ125 )。
【0216】図39は重要度演算装置20Aの変形例を示す
ブロック図である。
【0217】図39において,図36に示すものと同一物に
は同一符号を付し,詳細な説明を省略する。
【0218】抽出語統計情報抽出装置22Aは,文書入力
装置21から与えられた文書情報から抽出語を抽出し,こ
の抽出した抽出語と検索キーワード一致するキーワード
候補について抽出語統計情報を作成するものである。
【0219】抽出語の抽出には最長一致法,構文解析等
が用いられる。例えば,抽出語の抽出処理は次のように
して行なわれる。
【0220】まず,入力さた文書情報によって表わされ
る文書の中から『が,は,に,を,の,な,など,など
の』等の助詞を持つ文節(「単語+助詞」)が探し出さ
れる。また『。,、,
・,{},「」,〔〕,(),[]』等の記号を持つ文
節(「単語+記号」)が探し出される。探し出された文
節は文章中から取り出される。取り出された文節から助
詞または記号が削除され,単語すなわち抽出語が抽出さ
れる。
【0221】上述のようにして,図5に示されるファイ
ル名AAA.TXTの文書情報から抽出された抽出語が
図6に示されている。
【0222】抽出された抽出語のそれぞれについての抽
出語統計情報の作成は次のように行なわれる。
【0223】抽出語統計情報抽出装置20Aは,検索条件
入力装置11Aから与えられる検索条件を得る。
【0224】抽出された抽出語と,与えられてた検索条
件に含まれる検索キーワードとを比較し,一致するキー
ワード(抽出語,検索キーワード)を求める。
【0225】ファイル名AAA.TXTについてのキー
ワードの一覧が図40に示されている。図40から分るよう
に抽出した抽出語と,検索条件に含まれる検索キーワー
ドと一致する抽出語は「ファジィ制御」および「パラメ
ータ」である。
【0226】抽出語統計情報抽出装置22Aは一致した抽
出語について,抽出語統計情報を作成する。
【0227】一致した抽出語のそれぞれについての抽出
語統計情報の作成は次のように行なわれる。
【0228】抽出語統計情報の種類には文字数,文字種
類,単語種類,出現回路,出現位置,強調表現回数,文
法情報等が含まれる。
【0229】文字数は抽出語を構成する文字列に含まれ
る文字数を表わす。たとえば,抽出語「ファジィ制御」
の文字数は「6」である。
【0230】文字種類は抽出語を構成する文字列に含ま
れる文字の種類を表わす。文字の種類としては,漢字,
ひらがな,カタカナ,アルファベット,数字等がある。
たとえば,抽出語「ファジィ制御」の文字種類は「カタ
カナ,漢字混じり」となる。
【0231】単語種類は抽出語である単語の種類(文法
上の品詞またはこれに類するもの)を表わす。単語の種
類としては,一般名詞,企業名,人名などがある。たと
えば,抽出語「ファジィ制御」の単語種類は「一般名
詞」である。
【0232】出現回数は入力された一つの文書情報の中
で同一の抽出語が現われた回数を表わす。たとえば,抽
出語「ファジィ制御」の出現回数は「1」である。
【0233】出現位置は入力された文字情報の中で抽出
語がどのような位置に出現したかを表わす。出現位置は
上述した,タイトル,サブタイトル,抄録,本文等の項
目によって表現される。たとえば,抽出語「ファジィ制
御」は本文に出現している。
【0234】強調表現回数は,抽出語に強調表現(たと
えば『「」,[],“”』等)が付加されている回数を
表わす。たとえば,抽出語「ファジィ制御」には強調表
現がないので,強調表現回数は「0」である。
【0235】文法情報は抽出語の直後に「が,は,に,
を』等の助詞が付く回数を表わす。たとえば,抽出語
「ファジィ制御」の直後には助詞「の」が1回付いてい
る。
【0236】このようにして,検索条件に含まれる検索
キーワードと一致する抽出語について抽出語統計情報が
作成される。
【0237】一致した抽出語,すなわち「ファジィ制
御」および「パラメータ」の抽出語統計情報が図41に示
されている。
【0238】これらの抽出語統計情報は抽出語重要度評
価装置27に与えられる。
【0239】抽出語重要度評価装置27は,図16に示され
る処理手順にしたがって,重要度評価規則辞書28Aに登
録されている重要度評価規則およびメンバーシップ関数
にしたがって,抽出語統計情報抽出装置22Aから抽出語
統計情報に基づいて,一致した抽出語についてのみ抽出
語重要度の算出(または評価)を行う。
【0240】算出された抽出語重要度は抽出語とともに
重要度記憶装置29に与えられ,文書情報毎に記憶され
る.算出された重要度が図42に示されている。同一の文
書に含まれる検索キーワードと一致した抽出語の抽出語
重要度の評価が終了すると,抽出語重要度はその検索キ
ーワードの重要度として文書情報毎に合致度演算装置30
に出力される。
【0241】図43は,重要度演算装置20Aの変形例の処
理概要を示すフロー・チャートである。
【0242】検索により得られた文書情報がデータ・ベ
ース管理システム2から文書入力装置21に与えられる
(ステップ121 )。
【0243】抽出語統計情報抽出装置22Aは,文書情報
から抽出語を抽出する(スップ181)。
【0244】検索条件式が検索条件入力装置11Aから抽
出語統計情報抽出装置22Aに入力される(ステップ182
)。
【0245】検索条件式に含まれる検索キーワードと抽
出した抽出語とを比較し(ステップ183 ),一致した抽
出語についてのみ,抽出語統計情報を作成する(ステッ
プ184 )。
【0246】抽出語重要度評価装置27は,重要度評価規
則辞書28Aに登録されている重要度評価規則およびメン
バーシップ関数にしたがって,作成された抽出語統計情
報に基づいて検索キーワードと一致した抽出語の抽出語
重要度の評価を行なう(ステップ185 )。
【0247】重要度記憶装置29は検索により得られた文
書情報に関するデータおよびその文書情報から抽出した
抽出語の抽出語重要度を記憶するとともにこれらの情報
を合致度演算装置30に出力する(ステップ186 )。
【0248】合致度演算装置30は,重要度演算装置20A
から与えられる抽出語重要度および検索条件入力装置51
から与えられる検索条件とに基づいて,データ・ベース
14から検索により得られた文書情報と入力された検索条
件との検索条件合致度を算出するものである。また,検
索条件合致度は0.0 〜1.0 の数値であり,合致度が大き
いほど文書の内容が検索条件に近いことを表わしてい
る。
【0249】合致度演算装置30の内部構成を示すブロッ
ク図が図44に示されている。
【0250】重要度入力装置31は,重要度演算装置20A
から与えられる抽出語との抽出語重要度受け取り,キー
ワード合致度演算装置32に与える。
【0251】キーワード合致度演算装置32は,検索によ
り得られた文書情報について算出された抽出語重要度
と,検索条件入力装置11Aから入力される重視度とに基
づいて,検索キーワードに関するキーワード合致度を算
出するものである。
【0252】キーワード合致度演算装置32は,検索キー
ワードと一致する抽出語の抽出語を検索キーワードの重
要度として次式により各検索キーワードのキーワード合
致度を算出する。
【0253】 キーワード合致度=重視度×重要度 …(7)
【0254】検索により得られた文書情報の中に検索キ
ーワードが含まれていない場合,すなわち抽出語重要度
が算出されていない検索キーワードについては,その検
索キーワードの重要度は「0.0 」に設定される。
【0255】また重視度が検索条件として入力されない
場合には,各検索キーワードの重視度は「1.0 」に設定
される。
【0256】たとえば,ファイル名AAA.TXTにつ
いて,式(6) に示される検索条件に含まれる各検索キー
ワードのキーワード合致度は式(7) を用いて算出する
と,次のようになる。
【0257】 「ファジィ制御」のキーワード合致度=0.95×0.75=0.
71 「ファジィ推論」のキーワード合致度=0.60×0.00=0.
00 「パラメータ」のキーワード合致度=0.85×0.89=0.75
【0258】このようにして算出された各検索キーワー
ドのキーワード合致度は検索条件合致度演算装置33に与
えられる。
【0259】検索条件合致度演算装置34は,キーワード
合致度演算装置32から与えられる各検索キーワード毎の
キーワード合致度と,検索条件入力装置11Aから与えら
れる検索条件式に基づいて,検索により得られた文書情
報と検索条件との検索条件合致度を算出する。
【0260】検索条件合致度演算装置34においては検索
条件に含まれる結合演算子「AND」および「OR」
は,それぞれMIN演算およびMAX演算が行なわれ
る。式(6) で示される検索条件式についての検索条件合
致度の演算は以下の演算式で表わすことができる。
【0261】 合致度=MIN[MAX{「ファジィ制御」のキーワード合致度, 「ファジィ推論のキーワード合致度}, 「パラメータ」のキーワード合致度] …(8)
【0262】したがってファイル名AAA.TXTの検
索条件合致度は,式(8) を用いてMIN[MAX(0.7
1,0.80),0.75]=0.71となる。
【0263】算出された検索条件合致度は,検索された
ファイル名,タイトルとともに合致度記憶装置34に与え
られ,記憶される。合致度記憶装置34は検索された全て
の文書情報について検索条件合致度が算出されると,検
索条件合致度の大きい順に文書情報のファイル名,タイ
トルおよび検索条件合致度が適当な出力装置を通して出
力される。これによりユーザは必要な文書ファイルを容
易に選択できる。
【0264】図45は,合致度演算装置30における処理概
要を示すフロー・チャートである。
【0265】抽出語重要度が,重要度演算装置20Aから
重要度入力装置に入力され,キーワード合致度演算装置
32に与えられる(ステップ191 )。
【0266】検索条件が検索条件入力装置11Aからキー
ワード合致度演算装置32および検索条件合致度演算装置
33に入力される(ステップ192 )。
【0267】キーワード合致度演算装置32は,検索条件
に含まれる検索キーワードについて,入力されるその検
索キーワードの抽出語重要度および重視度に基づいて,
キーワード合致度を算出する(ステップ193 )。
【0268】検索条件合致度演算装置33は,検索条件式
にしたがって算出された各検索キーワードのキーワード
合致度に基づいて,検索された文書情報の検索条件合致
度を算出する(ステップ194 )。
【0269】算出された検索条件合致度は,その文書情
報のファイル名およびタイトルとともに合致度記憶装置
34に記憶され,検索された全ての文書情報について,検
索条件合致度が算出されると,これらの文書情報のファ
イル名,タイトルおよび検索条件合致度が出力される
(ステップ195 )。
【0270】図46は,第2実施例のデータ・ベース検索
装置における処理概要を示すフロー・チャートである。
【0271】検索キーワード,重視度および結合演算子
からなる検索条件が,検索条件入力装置11Aから入力さ
れる(ステップ201 )。
【0272】入力される検索条件に応じて,データ・ベ
ース1から文書情報が検索される(ステップ202 )。
【0273】検索された文書ファイル毎に抽出語が抽出
され,その抽出語重要度が演算される(ステップ203
)。
【0274】重視度,重要度および結合演算子に基づい
て,検索された文書フィイルと入力された検索条件との
検索条件合致度が演算される(ステップ203 )。
【0275】検索された文書ファイル毎に関するデータ
およびその検索条件合致度が出力される(ステップ205
)。
【図面の簡単な説明】
【図1】第1実施例におけるデータ・ベース検索装置の
全体的構成を示すブロック図である。
【図2】データ・ベースに登録されている文書ファイル
の例を示す。
【図3】検索条件の一例を示す。
【図4】重要度演算装置の内部構成を示すブロック図で
ある。
【図5】文書情報の一例を示す。
【図6】文書情報から抽出された抽出語の一例を示す。
【図7】抽出語統計情報の一例を示す。
【図8】抽出語統計情報の一例を示す。
【図9】抽出語統計情報正規化装置の内部構成を示すブ
ロック図である。
【図10】同義語辞書の一例を示す。
【図11】正規化情報の一例を示す。
【図12】抽出語統計情報正規化処理の処理手順を示す
フロー・チャートである。
【図13】正規化された抽出語統計情報の一例を示す。
【図14】正規化された抽出語統計情報の一例を示す。
【図15】(A) ,(B) ,(C) ,(D) および(E) は,文字
数,出現回数,強調表現回数,(「が」の回数+「は」
の回数)/(出現回数)および(「に」の回数+「を」
の回数)/(出現回数)に関して,言語情報「少な
い」,「普通」および「多い」のメンバーシップ関数を
それぞれ示す。
【図16】抽出語重要度演算の処理手順を示すフロー・
チャートである。
【図17】抽出語統計情報とメンバーシップ関数とのマ
ッチング結果の一例を示す。
【図18】抽出語とその抽出語重要度の一例を示す。
【図19】重要度演算装置の全体的な処理手順を示すフ
ロー・チャートである。
【図20】検索条件の一例を示す。
【図21】結合演算子の演算方法の一例を示す。
【図22】キーワード合致度演算部14の内部構成を示す
ブロック図である。
【図23】キーワード合致度演算部14におけるCPU41
の処理手順を示すフロー・チャートである。
【図24】各検索キーワードのキーワード合致度の一例
を示す。
【図25】キーワード合致度演算部15の内部構成を示す
ブロック図である。
【図26】キーワード合致度演算部15におけるCPU51
の処理手順を示すフロー・チャートである。
【図27】各キーワード群のキーワード合致度の一例を
示す。
【図28】検索条件合致度演算装置の内部構成を示すブ
ロック図である。
【図29】検索条件合致度演算装置におけるCPU61の
処理手順を示すフロー・チャートである。
【図30】検索結果の一例を示す。
【図31】第1実施例におけるデータ・ベース検索装置
の全体的な処理手順を示すフロー・チャートである。
【図32】第1実施例におけるデータ・ベース検索装置
の変形例を示すブロック図である。
【図33】キーワード・インデックス・ファイルに登録
されているキーワード・インデックスの一例を示す。
【図34】第2実施例におけるデータ・ベース検索装置
の全体的構成を示すブロック図である。
【図35】検索条件の一例を示す。
【図36】重要度演算装置の内部構成を示すブロック図
である。
【図37】(A) ,(B) ,(C) ,(D) および(E) は,文字
数,出現回数,強調表現回数,(「が」の回数+「は」
の回数)/(出現回数)および(「に」の回数+「を」
の回数)/(出現回数)に関して,言語情報「少な
い」,「普通」および「多い」のメンバーシップ関数を
それぞれ示す。
【図38】重要度演算装置の全体的な処理手順を示すフ
ロー・チャートである。
【図39】重要度演算装置の変形例を示すブロック図で
ある。
【図40】キーワード一覧の一例を示す。
【図41】一致した抽出語の抽出語統計情報の一例を示
す。
【図42】一致した抽出語とその抽出語重要度の一例を
示す。
【図43】重要度演算装置の変形例の処理手順を示すフ
ロー・チャートである。
【図44】合致度演算装置の内部構成を示すブロック図
である。
【図45】合致度演算処理の処理手順を示すフロー・チ
ャートである。
【図46】第2実施例におけるデータ・ベース検索装置
の全体的な処理手順を示すフロー・チャートである。
【符号の説明】
1,1A データ・ベース 2 データ・ベース管理システム 11,11A 検索条件入力装置 12 検索条件記憶装置 13 キーワード合致度演算装置 14,15 キーワード合致度演算部 16 検索条件合致度演算装置 17,17A 検索結果記憶装置 20,20A 重要度演算装置 21 文書入力装置 22,22A 抽出語統計情報抽出装置 23 抽出語統計情報正規化装置 24 同義語辞書 25 共有化部 26 正規化部 27 抽出語重要度評価規則 28,28A 重要度評価規則辞書 29 重要度記憶装置 30 合致度演算装置 31 重要度入力装置 32 キーワード合致度演算装置 33 検索条件合致度演算装置 34 合致度記憶装置 40,50,54,60 バッファ・メモリ 41,51,61 CPU 42,52,62 入力部 43 MIN演算回路 44,45,46 出力部 53 MAX演算回路 63 スタック 64 カウンタ 65 演算回路
フロントページの続き (56)参考文献 特開 平4−135278(JP,A) 熊本、中嶋,ファジィデータベースラ イブラリ,OMRON TECHNIC S,日本,オムロン株式会社,1992年 3月25日,Vol.32,No.1,p p.64−69. 中嶋 宏,ファジィデータベース言 語:Fuzzy SQL,OMRON TECHNICS,日本,オムロン株式 会社,1992年 9月30日,Vol.32, No.3,pp.235−240. (58)調査した分野(Int.Cl.7,DB名) G06F 17/30 350 G06F 17/30 180 G06F 17/30 210 G06F 17/30 320 JICSTファイル(JOIS)

Claims (4)

    (57)【特許請求の範囲】
  1. 【請求項1】 多数の文書情報を有するデータ・ベー
    ス,および所与のデータ・ベース検索条件に基づいて上
    記データ・ベースの検索を行なうデータ・ベース管理シ
    ステムを備えたデータ・ベース・システムにおいて, 相互に関連する検索キーワードからなる複数のキーワー
    ド群,上記検索キーワードの関連度と重視度,および上
    記キーワード群を結合する結合演算子からなる入力検索
    条件を入力する検索条件入力手段, 入力された上記入力検索条件に基づいてデータ・ベース
    検索条件を作成し,作成したデータ・ベース検索条件に
    したがって上記データ・ベースシステムから文書情報
    を検索する検索手段, 検索により得られた文書情報から抽出語を抽出し,抽出
    した抽出語の統計情報に基づいてその抽出語の重要度を
    算出する重要度演算手段, 入力された上記入力検索条件と検索により得られた文書
    情報との検索条件合致度を,上記重要度演算手段により
    算出された重要度に基づいて算出する合致度演算手段,
    ならびに検索により得られた文書情報に関するデータ
    と,上記合致度演算手段により算出された検索条件合致
    度とを対応させて記憶する検索結果記憶手段, を備えたデータ・ベース検索装置。
  2. 【請求項2】 多数の文書情報を有するデータ・ベー
    ス,および所与のデータ・ベース検索条件に基づいて上
    記データ・ベースの検索を行なうデータ・ベース管理シ
    ステムを備えたデータ・ベース・システムにおいて, 相互に関連する検索キーワードからなる複数のキーワー
    ド群,上記検索キーワードの関連度と重視度,および上
    記キーワード群を結合する結合演算子からなる入力検索
    条件を受付け, 力された上記入力検索条件に基づいてデータ・ベース
    検索条件を作成し,作成したデータ・ベース検索条件に
    したがって上記データ・ベースシステムから文書情報
    を検索し, 索により得られた文書情報から抽出語を抽出し,抽出
    した抽出語の統計情報に基づいてその抽出語の重要度を
    算出し, 入力された上記入力検索条件と検索により得られた文書
    情報との検索条件合致度を,算出された重要度に基づい
    算出し, 検索により得られた文書情報に関するデータと,算出さ
    れた検索条件合致度とを対応させて記憶する, データ・ベース検索方法。
  3. 【請求項3】 多数の文書情報を有するデータ・ベー
    ス,および所与のデータ・ベース検索条件に基づいて上
    記データ・ベースの検索を行なうデータ・ベース管理シ
    ステムを備えたデータ・ベース・システムにおいて, 複数の検索キーワード,上記検索キーワードの重視度お
    よび上記検索キーワードを結合する結合演算子からなる
    入力検索条件を入力する検索条件入力手段, 入力された上記入力検索条件に基づいてデータ・ベース
    検索条件を作成し,作成したデータ・ベース検索条件に
    したがって上記データ・ベース・システムから文書情報
    を検索する検索手段, 検索により得られた文書情報から抽出語を抽出し,抽出
    した抽出語の統計情報に基づいてその抽出語の重要度を
    算出する重要度演算手段, 入力された上記入力検索条件と検索により得られた文書
    情報との検索条件合致度を,上記重要度演算手段により
    算出された重要度に基づいて算出する合致度演算手段,
    ならびに検索により得られた文書情報に関するデータ
    と,上記合致度演算手段により算出された検索条件合致
    度とを対応させて記憶する検索結果記憶手段, を備えたデータ・ベース検索装置。
  4. 【請求項4】 多数の文書情報を有するデータ・ベー
    ス,および所与のデータ・ベース検索条件に基づいて上
    記データ・ベースの検索を行なうデータ・ベース管理シ
    ステムを備えたデータ・ベース・システムにおいて, 複数の検索キーワード,上記検索キーワードの重視度お
    よび上記検索キーワードを結合する結合演算子からなる
    入力検索条件を受付け, 力された上記入力検索条件に基づいてデータ・ベース
    検索条件を作成し,作成したデータ・ベース検索条件に
    したがって上記データ・ベース・システムから文書情報
    を検索し, 索により得られた文書情報から抽出語を抽出し,抽出
    した抽出語の統計情報に基づいてその抽出語の重要度を
    算出し, 入力された上記入力検索条件と検索により得られた文書
    情報との検索条件合致度を,算出された重要度に基づい
    算出し, 検索により得られた文書情報に関するデータと,算出さ
    れた検索条件合致度とを対応させて記憶する, データ・ベース検索方法。
JP06740993A 1993-03-04 1993-03-04 データ・ベース検索装置および方法 Expired - Fee Related JP3428060B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP06740993A JP3428060B2 (ja) 1993-03-04 1993-03-04 データ・ベース検索装置および方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP06740993A JP3428060B2 (ja) 1993-03-04 1993-03-04 データ・ベース検索装置および方法

Publications (2)

Publication Number Publication Date
JPH06259482A JPH06259482A (ja) 1994-09-16
JP3428060B2 true JP3428060B2 (ja) 2003-07-22

Family

ID=13344100

Family Applications (1)

Application Number Title Priority Date Filing Date
JP06740993A Expired - Fee Related JP3428060B2 (ja) 1993-03-04 1993-03-04 データ・ベース検索装置および方法

Country Status (1)

Country Link
JP (1) JP3428060B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11250097A (ja) * 1998-03-05 1999-09-17 Nippon Telegr & Teleph Corp <Ntt> キーワード抽出方法及び装置及びキーワード抽出プログラムを格納した記憶媒体
US7447626B2 (en) 1998-09-28 2008-11-04 Udico Holdings Method and apparatus for generating a language independent document abstract
WO2010076897A1 (en) * 2008-12-29 2010-07-08 Julien Yuki Hamonic A method for document retrieval based on queries that are composed of concepts and recommended terms
JP5591622B2 (ja) * 2010-08-10 2014-09-17 日本電信電話株式会社 文書検索方法、文書検索システム、文書検索プログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04135278A (ja) * 1990-09-27 1992-05-08 Ricoh Co Ltd 文書検索装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
中嶋 宏,ファジィデータベース言語:Fuzzy SQL,OMRON TECHNICS,日本,オムロン株式会社,1992年 9月30日,Vol.32,No.3,pp.235−240.
熊本、中嶋,ファジィデータベースライブラリ,OMRON TECHNICS,日本,オムロン株式会社,1992年 3月25日,Vol.32,No.1,pp.64−69.

Also Published As

Publication number Publication date
JPH06259482A (ja) 1994-09-16

Similar Documents

Publication Publication Date Title
Moldovan et al. Using wordnet and lexical operators to improve internet searches
US5265065A (en) Method and apparatus for information retrieval from a database by replacing domain specific stemmed phases in a natural language to create a search query
US5488725A (en) System of document representation retrieval by successive iterated probability sampling
Turtle Text retrieval in the legal world
EP0597630B1 (en) Method for resolution of natural-language queries against full-text databases
US7483892B1 (en) Method and system for optimally searching a document database using a representative semantic space
Varma et al. IIIT Hyderabad at TAC 2009.
JPH021057A (ja) 文書検索装置
WO2004114163A2 (en) Method and system for enhanced data searching
JPH03172966A (ja) 類似文書検索装置
Nguyen et al. A math-aware search engine for math question answering system
Mao et al. Automatic keywords extraction based on co-occurrence and semantic relationships between words
JP3428068B2 (ja) 文書処理装置および方法,ならびにデータ・ベース検索装置および方法
JP3198932B2 (ja) 文書検索装置
Keikha et al. Rich document representation and classification: An analysis
JP3428060B2 (ja) データ・ベース検索装置および方法
JPH06282587A (ja) 文書の自動分類方法及び装置並びに分類用の辞書作成方法及び装置
JP3368301B2 (ja) 文書処理装置および方法
JP2773682B2 (ja) 適合フィードバック装置
JPH06208588A (ja) 文書検索方式
Malallah et al. Multi-document text summarization using fuzzy logic and association rule mining
Zheng et al. An improved focused crawler based on text keyword extraction
JPH11154160A (ja) データ検索システム
JPH03189870A (ja) データベースのマッチング方法
RU2266560C1 (ru) Способ поиска информации в политематических массивах неструктурированных текстов

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090516

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees