JPH086970A - 情報検索装置 - Google Patents

情報検索装置

Info

Publication number
JPH086970A
JPH086970A JP6155501A JP15550194A JPH086970A JP H086970 A JPH086970 A JP H086970A JP 6155501 A JP6155501 A JP 6155501A JP 15550194 A JP15550194 A JP 15550194A JP H086970 A JPH086970 A JP H086970A
Authority
JP
Japan
Prior art keywords
search
condition
retrieval
notation
fuzzy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP6155501A
Other languages
English (en)
Other versions
JP3527540B2 (ja
Inventor
Takeshi Nakamura
健 中村
Yoichi Ueishi
陽一 上石
Toshihide Fujimaki
俊秀 藤巻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ADO IN KENKYUSHO KK
Original Assignee
ADO IN KENKYUSHO KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ADO IN KENKYUSHO KK filed Critical ADO IN KENKYUSHO KK
Priority to JP15550194A priority Critical patent/JP3527540B2/ja
Publication of JPH086970A publication Critical patent/JPH086970A/ja
Application granted granted Critical
Publication of JP3527540B2 publication Critical patent/JP3527540B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 (修正有) 【目的】 簡単な操作で、適切な検索結果を迅速に得る
ことができるようにする。 【構成】 複数の異なる表記を一定の表記に変換する規
則に基づいて、表記の変換を行って検索を行う。また、
入力された検索条件を検索条件ファジィ化部102によ
りファジィ化する。検索キー及びデータベースの情報
は、表記変換部106,108で統一された表記、例え
ばローマ字表記に変換される。変換された検索条件及び
検索キーを用いて、検索部110により検索が行われ
る。その検索の結果は、合致度のような定量指標ととも
に得られる。充分な個数のデータが得られなかったとき
又はデータが多すぎるときには、検索キー及び検索条件
を変更部113により拡大又は縮小して、自動的に再検
索する。検索キーの変更は、検索キー間の類似度、上位
概念と下位概念との関係等の情報を用いて行い、検索条
件の変更は、ファジィ条件の拡大縮小によって行う。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、コンピュータシステム
上に構築されたデータベースシステムの検索装置に関す
る。検索の対象は、主として、文字列を主体とするデー
タベースであるが、文字列以外のデータを含むデータベ
ースでも文字列部分を対象とすることで適用は可能であ
る。文字列を主体としたデータベースとしては、報告
書、文献情報、特許出願情報など非常に分野が広い。
【0002】
【従来の技術とその問題点】従来の主な検索手法とその
問題点に関して説明する。 (1) 全文一致検索(キーワード検索) 全文一致検索は、ユーザが入力した文字列を含むデー
タ、あるいは入力した文字列に合致する文字列が使用さ
れている部分を、対象とするデータの中から抽出する。
合致の検出の方法としては、完全一致,部分一致(前方
一致,後方一致など)がある。この全文一致検索におけ
る合致検出の基本は、文字列間の比較なので、例えば下
記のような異なる文字列で表された事項の場合には、内
容的には一致していても合致とは見なされない。 本日:ほんじつ、 スピード:すぴーど また、対象とするデータ全体との文字列照合を行なうの
で、対象とするデータの量に比例して処理時間が掛か
る。
【0003】(2) 索引検索(キーワード検索) 索引検索は、全文一致検索の処理速度を改善するための
手法であり、検索を行なうためあるいは検索処理を支援
するための索引(シソーラス)を持たせておく方法であ
る。索引生成の手法は色々なものがある。この索引検索
は、データを生成した場合、あるいはデータを更新した
場合には索引を生成もしくは修正する必要があるので、
そのための処理に時間が掛かる。
【0004】(3) 条件検索 条件検索は、データが複数の部分に分割されている場合
(例えば、報告書を複数取り込んだ形のデータ)には、
キーワード以外に下記のような条件を設定し、検索を行
なう、あるいはキーワード検索を実施する範囲を限定す
ることが行なわれる。 ・データの作成日時/更新日時 ・データの容量 ・データの作成者 ・データの守秘レベル etc. この条件検索によれば、例えば、作成日時の場合には、
今年の2月頃に作成したデータを対象としようとした場
合、2/1以降に作成されかつ3/1よりも前に作成さ
れたという条件を設定し検索範囲を限定することにな
る。しかし、目的とするデータが実際には1/31に作
成されたデータであった場合、この条件設定での検索で
は目的とするデータは検出されず、柔軟性に欠ける。
【0005】本発明は、上記のような従来技術の問題を
解消することを課題とするものである。即ち、本発明
は、種々の表記が混在する情報の検索においても、検索
の抜けが生じないようにすることを目的とする。また、
本発明は、簡単な操作で、適切な検索結果を迅速に得る
ことができるようにすることを目的とする。また、本発
明は、操作者が、様々な背景要因などを考慮したり試行
錯誤によったりしておこなっていた検索条件の設定を、
誰でも容易にできるようにすることを目的とする。
【0006】
【課題を解決するための手段および作用】本発明(請求
項1)は、ほぼ同じ表音のなされる同一の語に対して複
数の異なる表記が存在する情報の検索装置において、前
記複数の異なる表記(例えば半角と全角の表記の相違あ
るいは英語とローマ字とカタカナ)を一定の表記(例え
ばローマ字表記)に変換する変換規則を保持する変換規
則保持手段(105)と、前記変換規則に基づいて表記
の変換を行う表記変換手段(106,109)と、前記
変換された表記に基づいて情報の検索を行う検索手段
(110)とを有する。従来技術では、例えば漢字表記
の「本日」とかな表記の「ほんじつ」は表記が異なるの
で合致とはみなされず、どちらか一方で検索すれば検索
の抜けが生じてしまうが、本発明によれば、表記は例え
ばローマ字表記の「honjitu」に統一して変換さ
れるなど検索キーの表記に柔軟性を持たせることができ
るので、検索の抜けを回避することができる。
【0007】本発明(請求項2)は、検索キーを入力す
る検索キー入力手段(104)と、検索条件を入力する
検索条件入力手段(101)と、前記入力された検索キ
ーと検索条件により情報の検索を行う検索手段(11
0)と、検索結果を評価する検索結果評価手段(11
2)と、前記検索結果評価手段の評価結果に応じて再検
索をする際に、検索キー間の関係を定義した情報に基づ
いて、検索キーの拡張または縮小を行う変更手段(11
3)とを備えたことを特徴とする。キーワード間の関係
の強度を数値属性(類似度)として定義する、あるいは
キーワード間の意味構造をネットワークとして保有し定
義し、これらの情報を検索処理時のキーワードの拡張
や、検索結果の順位付け(合致強度の算出)を行なう。
従来の検索手法では、適当な検索キーが設定されない
と、意図した検索が行なえない。例えば、”車”をキー
として検索を行なっても、”くるま”,”自動車”とい
ったキーを含む情報を取得できない。この問題を回避す
るためには、操作者が同義に近い語を和条件で検索キー
として設定し検索を行なうなど、検索対象のデータベー
スに合わせる形(操作者が工夫する形態)で運用されて
いる。本発明(請求項1、請求項2)によれば、操作者
が試行錯誤的に設定したり、操作者の知識に基づいて設
定されたりしていた検索キーの設定のための負荷を、操
作者から検索処理系へと移行させることがでる。このこ
とによって、操作者の試行回数を低減でき、また操作者
に高い熟練を必要とすることも減少する。
【0008】本発明(請求項3)は、検索キーを入力す
る検索キー入力手段(104)と、検索条件を入力する
検索条件入力手段(101)と、前記検索条件をファジ
ィ化する検索条件ファジィ化手段(102)と、前記入
力された検索キーとファジィ検索条件により情報の検索
を行い、検索結果を合致度として得る検索手段(11
0)と、検索結果を評価する検索結果評価手段(11
2)と、前記検索結果評価手段の評価結果に応じて再検
索をする際に、ファジィ条件の拡張または縮小を行う変
更手段(113)とを備えたことを特徴とする。本発明
は、条件範囲がファジィ表記可能となることによって、
従来クリスプな条件指定で検索から洩れていた情報も拾
い上げられる可能性が高くなる。また、設定する条件の
不正確さ,曖昧さを、ファジィ条件がある程度吸収可能
となり、操作者が、様々な背景要因などを考慮したり試
行錯誤によったりして実施していた条件設定の負荷を低
減することができる。
【0009】また、検従来の検索手法では通常、検索結
果として得られるものは、合致したか否かという2値情
報で、全体集合を特定の条件によって2つの集合に分割
するという形態になる。例えば、ある条件で合致が得ら
れたデータが100件あったとする。より小数の対象に
絞り込むために、積条件を追加して再検索を実施したと
する。そうすると今度は合致した件数が3件になり、こ
れでは少ないので一部の条件を甘くする(範囲条件であ
れば範囲を広げる,一部の特定の条件結合を積から和に
変更する)という試行錯誤が発生する可能性が大であ
る。
【0010】本発明によれば、検索結果取得されたデー
タ毎に合致度(類似度)といった定量指標が付与され
る。これによって、その値の降順に結果を表示すること
も可能となる。例えば、検索の結果少しでも合致度が得
られたものが200件あったとしても、上位から目的と
する件数だけの情報を取得することができる。また、一
定の合致度を閾値として、2群分離することも可能であ
る。このように、検索後に合致度という指標によって対
象データを絞り込むなどの操作が容易となる。
【0011】本発明(請求項4)は上記各発明(請求項
1〜請求項3)の全部または一部を組み合わせてなる情
報検索装置である。
【0012】本発明(請求項5)は、検索条件指定の履
歴を保持し、操作者の検索条件指定の傾向、特性を学習
する学習手段(116)を設けたことを特徴とする。本
発明によれば、学習手段によりファジィ条件やファジィ
化辞書の学習を行うようにしたので、ユーザが指定し
た、あるいはシステムが最適化したファジィ条件をシス
テムが把握しているので、通常の検索条件指定にファジ
ィ性を自動的に付加することができる。従って、ユーザ
が毎回ファジィ条件を記述する必要がなく、検索条件設
定のためのユーザの負担を軽減することができる。
【0013】
【実施例】CD−ROM上に格納された文字列情報が主
体のデータベース(ここでは、新製品情報を想定する)
を対象とした実施例に関して説明する。図1は本実施例
の構成を示す機能ブロック図である。この実施例の検索
装置は、図1に示すように、検索条件を入力する検索条
件入力部101と、検索条件入力部101から入力され
たクリスプな条件やシンボルをファジィ化辞書103を
参照してファジィ条件を生成するファジィ条件生成部1
02と、検索キーを入力する検索キー入力部104と、
検索キー入力部104より入力された漢字、ひらがな、
英字などにより標記された検索キーを表記変換規則10
5により統一した表記例えばローマ字表記に変換する検
索キー表記変換部106と、以上のように入力、作成、
変換された検索条件や検索キーを保持する検索条件保持
部107と、CD−ROM等の大容量の蓄積媒体上に格
納された文字列が主体のデータベース108と、データ
ベースの表記を変換するデータベース表記変換部109
と、検索条件保持部107に保持された検索条件と検索
キーによりデータベース108の蓄積情報を検索処理す
る検索処理部110と、検索結果を一時的に保持する検
索結果保持部111と、検索結果が妥当であるか否かを
評価する検索結果評価部112と、検索結果の評価が妥
当でないと判定されたときに、再検索のために検索条件
を変更する検索条件変更部113と、検索結果得られた
個数など検索結果を評価するための情報や表示のための
ソート方法などを入力する補助検索条件入力部114
と、検索結果評価部112の評価結果が良好であったと
きに検索結果を表示する検索結果表示部115からなっ
ている。
【0014】図2は図1に示す各部の機能を実現するた
めの機器構成を示すものである。この装置は、主処理装
置201、主記憶装置202、入出力制御系203、表
示装置204、入力装置205、検索処理系206、表
記変換系207、CD−ROM制御系208、CD−R
OM209からなっている。入出力制御系203、検索
処理系206、および表記変換系207はそれぞれ主処
理装置201とは独立して処理を行う並列動作の機器と
して構成され、これにより全体の処理速度の向上をはか
っている。主処理装置201は入出力制御、検索処理、
表記変換以外の処理と全体の制御を行う。入力装置20
5は、図1の検索条件入力部101および検索キー入力
部104の機能を果たす装置である。表示装置204は
図1の検索結果表示部115の機能を果たし、検索処理
系206は図1の検索処理部110の機能を果たし、表
記変換系207は図1の検索キー表記変換部106およ
びデータベース表記変換部109の機能を果たす装置で
ある。CD−ROMとその制御系208,209は図1
のデータベース108を格納する記録装置である。
【0015】以上のように構成された本実施例の動作に
ついて説明する。操作者からの入力は、検索条件入力部
101からの検索条件、検索キー入力部104からの検
索キー、および補助検索条件入力部104からの補助検
索条件である。
【0016】(表記の変換)検索キーは、ここでは、言
語表記されたシンボル情報を意味する。例えば、ひらが
な、カタカナ、漢字、アルファベット、数字などで記述
される単語である。入力を受けた語は、まず検索キー表
記変換部106により表記の統一のための変換処理を受
ける。単語の表記には、一般に、ひらがな、カタカナ、
漢字やそれらを混合である日本語表記(表意言語)と、
英語、仏語その他の外国語表記(表音言語)が含まれ
る。表記の変換においては、日本語表記は「読み」(ロ
ーマ字)に変換し、外国語表記は無変換とする。表記の
変換は表記変換規則105として用意された一定のルー
ルに基づいて処理される。 <子音を鍵とする読みの定型(パターン)表による変換
>外国語のカタカナ表記は、子音を基礎としたパターン
に分解することができる。子音若くは連続する子音を抽
出し、母音を組み合わせることにより、最小限の例外処
理で外国語と日本語(カタカナ表記)の相互変換を行な
うことが可能となる。 <有限オートマトンへの変換>正規表現等で適用される
有限オートマトンによる文字列照合は通常、最長一致を
原則とするが、本検索では一致語数を極力絞り込むこと
が要求される為、最短一致を原則とする。 <変換例> ”テレコム” → テ, レ, コ, ム → t* {l|r}* {c|k}* m* … ”telcom”と合致 … ”tele−communication”と合致 ”neural” → neu, ra, l → {ナニヌネノ}* {ラリルレロ}* {ラリル
レロ}* … ”ニューラル”と合致 ”threshold” → th, re,
sho, l, d→ {サシスセソザジズゼゾダヂ
ヅデド}* {ラリルレロ}*{シャシュショ}*
{ラリルレロ}* {ダジズデド}* … ”スレッショルド”と合致 … ”スレッシュホールド”と合致
【0017】図3のステップS31ないしステップS3
5は上述の表記変換処理の一例を示す。検索キー入力部
104から入力された(ステップS31)検索文字列
は、検索キー表記変換部106で表記変換が行われる。
即ち、検索表記変換部106において、表記変換規則1
05を参照して入力文字列をローマ字へ変換し(ステッ
プS32)、その変換により得られたローマ字中から子
音を抽出する(ステップS33)。英文との照合などの
ため一部の子音は拡張する(ステップS34)。このよ
うにして生成された子音を基に、検索用正規表現を生成
する(ステップS35)。例えば、入力文字列が「テレ
コム」であったとき、これをローマ字te,le,k
o,muに変換し、さらにそれから子音t,l,k,m
を抽出し、lとkについては拡張してrとcを加え、検
索用正規表現「t* {l|r}* {c|k}* m
*」を生成する。このような表記変換処理を行うことに
よって検索キーにより索出できる範囲を広げることがで
きる。上記「テレコム」の例で言えば、従来ならば「テ
レコム」を含むデータのみが索出されるが、本実施例の
表記変換を施すことにより「テレコム」「てれこむ」
「telcom」「tele−communicati
on」等を含むデータが索出できる。検索キー表記変換
部106により変換された語は検索処理系へ伝達され
る。ここでは、まず検索条件保持部107に一時的に保
持される。
【0018】(検索条件の設定)検索条件入力部101
から操作者によって入力される検索条件は、2つに大別
される。1つは定量指標に対する検索条件、もう1つは
この狭義の検索条件および検索キーの結合条件である。
定量指標に対する検索条件は、シンボル、クリスプ条
件、およびファジィ条件の3つに分類される。シンボル
とは例えば「若い」といった単語であり、ファジィ化辞
書103を用いたファジィ条件生成部102によって、
例えば年齢という定量指標に対するファジィ条件に変換
される。クリスプ条件とは通常の範囲指定などを意味す
る。これもファジィ化辞書103を用いたファジィ条件
生成部102によって、範囲指定に対するファジィ条件
に変換される。図4(a)は日付を範囲として指定した
クリスプ条件を示しており、同図(b)はそのクリスプ
条件をファジィ化したファジィ条件の例を示している。
結合条件は、和条件/積条件など一般的な集合の結合条
件と同様である。即ち、複数の検索キーが指定されたと
きに、それらのキーの和で検索するか積で検索するかを
指定するものである。なお、結合自体をファジィ化する
ことも可能である。
【0019】補助検索条件入力部114から操作者によ
って入力される補助検索条件は、検索結果として求める
最小データ個数や検索結果の表示のためのソート方法な
どである。基本的な検索処理には直接的な関係を持たな
いので、必ずしも処理開始時に入力されている必要はな
い。
【0020】(検索処理)検索処理部110では、入力
された検索キーや検索条件に応じて、データベース10
8との照合を行う(ステップS37)。データベース側
の情報がローマ字表記では無い場合、検索と同時にある
いは検索以前に、データベース側の情報のローマ字表記
への変換処理を行う(ステップS36)。本実施例にお
いては、データベース全体がローマ字表記では無い場合
が存在するため、検索処理を行う処理系即ち検索処理部
110とは別に検索処理と並列して表記変換を実施する
処理系としてデータベース表記変換部109を設け検索
に必要な総合の時間を短縮している。本実施例では、検
索条件としてファジィ条件を用いるので、合致判定に関
して、類似度あるいは合致度という定量指標を得ること
が出来る。また、これらの合致度を(数式処理で)合成
して、総合評価としての合致度を算出することができ
る。これらにより、最終的な合致判定が2値ではなく、
合致度という連続値として得ることができる。この違い
は、検索の操作性の向上と言う点で非常に大きな意味を
持つ。所定の合致度を越えるデータを検索結果のデータ
とする。なお、この所定の合致度は、後述するように検
索結果評価に基づく再検索の段階で変更が加えられるこ
とがある。検索が終了すると、検索結果を検索結果保持
部111に保持する。
【0021】(検索結果の評価と再検索)検索結果評価
部112は、補助検索条件が入力されている場合は、検
索個数など要求条件が満たされているかどうかの判定を
行い、条件に合致していなければシステムが以下のよう
な形態で自動的に再検索を行う。例えば検索結果の数が
不足している場合は、検索条件変更部113により、フ
ァジィ検索条件の底辺を拡大する(図5(a)参照)、
類似語に関するデータを用いて検索キーを増やす、一部
の結合条件を積から和に変更するなどによって条件を緩
くする。そのために、検索キー間の関係の強度を数値属
性(類似度)として定義する、あるいは検索キー間の意
味構造をネットワークとして保有し定義し、これらの情
報を検索処理時の検索キーの拡張や、検索結果の順位付
け(合致強度の算出)を行なう。逆に、検索結果の数が
過大である場合は、ファジィ検索条件を絞り込む(図5
(b)参照)、表記変換の制約を強くするなどして、デ
ータを絞り込む。
【0022】図6は、検索条件変更部113における、
検索結果の数が不足している場合に検索条件を緩和する
ための処理のフローを示す図である。検索キー、ファジ
ィ条件を含む検索条件、および補助検索条件などを入力
し(ステップS61)、検索を実行する(ステップS6
2)。検索結果評価部112において検索結果の評価を
行い(ステップS63)、個数が補助検索条件として与
えられた所定の個数を満たしていないときには、拡張可
能なファジィ条件が存在するか否かを調べ(ステップS
64)、存在する場合にはファジィ条件の底辺を拡大す
る(ステップS65)。ファジィ検索条件は、図5
(a)に示すように、中心値と分散値を持つ台形状のメ
ンバーシップ関数(MF)によって表される。同図にお
いて元のファジィ条件を破線で、底辺の拡大後のファジ
ィ条件を実線で示している。拡張可能なファジィ条件が
なかったときには緩和可能な結合条件が存在するか否か
を調べ(ステップS67)、存在する場合には結合条件
を変更する(ステップS68)。ステップS65あるい
はステップS68で検索条件の変更を行ったら、変更し
た検索条件によりステップS62以下の処理を再度実行
する。ステップS63の評価の結果、検索個数が充分で
あったとき、または、拡張可能なファジィ条件も、緩和
可能な結合条件も存在しなかったときには、結果をソー
トして表示する(ステップS69)。
【0023】図7は検索条件変更部113における、検
索結果の数が不足している場合に、前述のキーワード間
の意味構造をネットワークとして保有し定義し、これを
用いて検索キーワードの概念を拡大することにより検索
の範囲を広げる処理のフローを示す図である。この処理
は、検索結果の個数を増やすための処理として、図6の
処理と共に用いる。例えば、図6の処理を行っても検索
結果の個数を充分に得られなかったときに、図7の処理
を切り替えて用いるようにする。なお、図6の処理と図
7の処理のいずれか一方のみを用いるように実施例を構
成してもよい。ここで、検索キーワードの概念の拡張に
ついて説明する。これはキーワード間の関係を意味構造
のネットワークとして記述したキーワード概念情報を用
いる。
【0024】例えば、図8(a)に示すような構造で、
キーワードを上位概念から下位概念へ至る構造へと展開
し記述する。併せて(必要があれば)同義語も並列して
記述する。検索時には、例えば下記のような形態でこの
情報を利用する。 ・「セダン」というキーワードを与えられて検索が行な
われた。 ・「セダン」を検索キーとして照合して、充分な数のデ
ータが検索されれば、検索処理は終了する。 ・「セダン」を検索キーとして照合して、充分な数のデ
ータが検索されなければ、セダンの上位概念である「乗
用車」をキーとして検索を行なう。これでも、充分な数
が得られなければ、「乗用車」の他の下位概念即ち検索
キー「セダン」の並列概念である「ワゴン」「スポーツ
カー」をキーとして検索を行なう。 ・初期状態で1.0の合致度(類似性)を与えておき、
上位概念を採用する際に0.8を乗じその下位概念即ち
並列概念を採用する際に0.5を乗ずるなどして、合致
度の評価を行なう。 ・結果の表示(優先)順位は、類似性によって合致度を
生成し、その合致度の降順とする。
【0025】図7は以上に例示した処理の一般的な処理
手順を示すもので、検索キーワード、検索条件、補助検
索条件等を設定し(ステップS70)、検索を実行し、
検索結果を得る(ステップS71)。再検索の場合には
再検索の結果を以前の検索結果に追加する。検索結果評
価部112において検索結果の評価を行い(ステップS
72)、個数が補助検索条件として与えられた所定の個
数を満たしていないときには、未使用の上位概念がある
か否かを調べ(ステップS73)、未使用の上位概念の
キーワードがあったときにはその未使用の上位概念をキ
ーワードに追加し(ステップS74)、ステップS71
に戻りその新たな上位概念のキーワードにより再検索を
する。ステップS73の判定で、未使用の上位概念が存
在しなかったときには、未使用の並列概念が存在するか
否かを調べ(ステップS75)、未使用の並列概念があ
ればそれをキーワードに追加し(ステップS76)、再
検索を行う。ステップS75の判定で、未使用の並列概
念が存在しなかったときには、キーワードに上位概念が
あるか否かを調べ(ステップS77)、上位概念がある
ときには元のキーワードを上位概念に置き換えて(ステ
ップS78)、検索を実行する(ステップS71)。ス
テップS72の評価の結果、検索個数が充分であったと
き、または、ステップ77で判定がNOであったとき即
ち未使用の上位概念も並列概念もなくまた置き換えるべ
き上位概念もなかったときには、結果をソートして表示
する(ステップS79)。なお、ステップS74、ステ
ップS76、ステップS78の処理を通過する毎に、合
致度の低減値を大きくする。例えば、前述したように、
例えば、初期状態で1.0の合致度(類似性)を与えて
おき、上位概念を採用する際に0.8を乗じ、並列概念
を採用する際に0.5を乗ずる。
【0026】次に、前述のキーワード間の関係の強度を
数値属性(類似度)として定義し、これを用いて検索条
件の変更を行う処理について説明する。この処理は、図
6や図7に示した処理と共に用いても、あるいは単独に
用いるようにしてもよい。キーワード間の関係定義とし
てキーワード間の類似性の定量指標化を行う。例えば、
図8(b)に示すような構造で、キーワード間の類似性
を定量指標化しておく。検索時には、例えば下記のよう
な形態でこの情報を利用する。 (1) 「乗用車」というキーワードを与えられて検索
が行なわれた。 (2) 「乗用車」を検索キーとして照合して、充分な
数のデータが検索されれば、検索処理は終了。 (3) 「乗用車」を検索キーとして照合して、充分な
数のデータが検索されなければ、類似性の最も高い語
「車」で検索を行なう。これでも、充分な数が得られな
ければ、次に類似性の高い語で検索を行なう。 (4) 結果の表示(優先)順位は、類似性によって合
致度を生成し、その合致度の降順とする。その際、結果
の表示準位は類似性の値をそのまま適用することもでき
る。検索キーが複数の場合は、類似性の最小値、あるい
は類似性の算術積を取るなどの方法を用いる。
【0027】(検索条件などに対する学習)検索条件の
指定は、検索対象とするデータ(の分野など)、検索を
実施する操作者などに依存して、一定の傾向を示す場合
がある。この傾向を学習処理によって捕捉し、検索を実
施する際の検索条件の指定、変更時の支援に利用でき
る。そのために学習部116を設ける。
【0028】(ファジィ条件の学習)ファジィ条件の学
習を、日付とという項目に対するファジィ検索条件を学
習する場合の例について説明する。日付に対するファジ
ィ条件は、図4(b)のような形で定義される。この場
合のファジィ条件は、中心値、上底、下底のパラメータ
で記述される。中心値は検索毎に異なった値をとるため
学習(記憶)の対象とはなりにくいが、検索条件の幅即
ち冗長性や曖昧性を規定する指標である上底、下底の長
さ(あるいは上底と下底の長さの差)は、検索毎に大き
く変化するものではなく、ある程度固定的となることが
想定される。図4(b)を例に取れば、「2月」=「2
/1〜2/28」という区間の指定は、検索条件として
明示的に外部から指定されるものとなる。これは、当然
ながら、検索が実行される毎に変化するものであり学習
の対象とはなり得ない。ファジィ性を記述する部分であ
る上底と下底の長さの差(図4(b)で言えば台形の斜
めの傾斜の部分)は、日付(期間)の指定という事象
(条件)の曖昧性を記述するものでこの曖昧性は毎回の
検索によって大きく変化するものではなく、ある程度固
定的なものと考えることもできる。ある程度固定的とい
うことは、その値を学習することに意味があり、また学
習可能であるということになる。
【0029】学習の具体的な処理としては以下のような
形態となる。ユーザが規定したファジィ条件、あるいは
それをシステムが条件の拡大または縮小などを行って得
たファジィ条件(要するに最終的に用いられた検索条
件)を取り込む。取り込んだファジィ条件の上底と下底
の長さの差を取得する。この処理を複数回繰り返すこと
で、この長さの母集団ができ、この母集団の平均値を用
いることができる。検索処理において日付(期間)が指
定された場合に、期間(指定された値域)を拡大する際
に、前述の平均値によってファジィ区間を生成すること
ができる。ユーザは、期間を単に指定するだけで、ファ
ジイ検索が実施できることになる。このように、ファジ
ィ条件となるパラメータの値が保持されている場合、シ
ステムはそのパラメータを用いて自動的にファジィ条件
を構築することにより、操作者の操作の負荷を低減でき
る。また、操作者が入力したファジィ条件を直接学習す
る方式の他に、システムが自動で行う検索条件の修正→
再検索処理の過程で最終的に適用された条件を学習時の
教師信号(教師データ)として用いる方式も可能であ
る。
【0030】(ファジィ化辞書の学習)ファジィ化辞書
103を持ち、シンボルとして入力された条件(例えば
「若い」など)をファジィ条件生成部102によりファ
ジィ条件に変換する場合、このファジィ化辞書103に
記述される変換法則を学習することもできる。操作者が
「若い」という条件を入力し検索を行った場合で、生成
された条件を操作者が変更した結果の条件、自動再検索
処理で適用された条件を教師信号として用いることが可
能である。方式的には前述のファジィ条件の学習の場合
と同様である。
【0031】(再検索処理の最適化)再検索処理での条
件の変更には、前述のように、ファジィ条件拡大/縮小
の戦略(方法)、キーワード間の関係を利用した条件の
拡大/縮小の処理を用いる。この際の拡大/縮小の手順
などは一様ではなく、複数の手順の中から一つの手順を
選択して処理を実施する形態となる。学習処理として
は、選択された手順(あるいは手順を選択するための条
件)を、自動再検索処理で適用されたものを教師信号と
して取り込む形態で処理する。
【0032】
【発明の効果】本発明によれば、操作者が試行錯誤的に
設定したり、操作者の知識に基づいて設定されたりして
いた検索キーの設定のための負荷を、操作者から検索処
理系へと移行させることがでる。このことによって、操
作者の試行回数を低減でき、また操作者に高い熟練を必
要とすることも減少する。
【0033】また、本発明によれば、条件範囲がファジ
ィ表記可能となるので、従来クリスプな条件指定で検索
から洩れていた情報も拾い上げられる可能性が高くな
る。また、設定する条件の不正確さ,曖昧さを、ファジ
ィ条件がある程度吸収可能となり、操作者が、様々な背
景要因などを考慮したり試行錯誤によったりして実施し
ていた条件設定の負担を低減することができる。
【0034】また、本発明によれば、検索の結果取得さ
れたデータ毎に合致度(類似度)といった定量指標が付
与される。これによって、その値の降順に結果を表示す
ることも可能となる。例えば、検索の結果少しでも合致
度が得られたものが200件あったとしても、上位から
目的とする件数だけの情報を取得することができる。ま
た、一定の合致度を閾値として、2群分離することも可
能である。このように、検索後に合致度という指標によ
って対象データを絞り込むなどの操作が容易となる。
【0035】また、本発明によれば、ファジィ条件やフ
ァジィ化辞書の学習を行うようにした場合には、ユーザ
が指定した、あるいはシステムが最適化したファジィ条
件(ファジィ条件を規定する指標)をシステムが学習に
より把握しているので、通常の検索条件指定にファジィ
性を自動的に付加することができる。従って、ユーザが
毎回ファジィ条件を記述する必要がなく、検索条件設定
のためのユーザの負担を軽減することができる。
【図面の簡単な説明】
【図1】 本発明の実施例のCD−ROM情報検索シス
テムの処理系の構成を示すブロック図
【図2】 実施例のCD−ROM情報検索システムの機
器構成を示す図
【図3】 表記変換の処理フローを示す図
【図4】 (a)は曖昧性の無い検索条件、(b)はフ
ァジィ検索条件を説明するための図
【図5】 ファジィ検索条件の拡大、縮小を説明するた
めの図
【図6】 検索結果の数が不足している場合に検索条件
を緩和するための処理のフローを示す図
【図7】 検索結果の数が不足している場合に、検索キ
ーワードの概念を拡大することにより検索の範囲を広げ
る処理のフローを示す図
【図8】 (a)は検索キーワード間の意味構造のネッ
トワーク記述を示す図、(b)はキーワード間の類似性
を定量指標化した例を示す図。
【符号の説明】
101…検索条件入力部、102…ファジィ条件生成
部、103…ファジィ化辞書保持部、104…検索キー
入力部、105…表記変換規則保持部、106…検索キ
ー表記変換部、107…検索条件保持部、108…デー
タベース、109…データベース表記変換部、110…
検索処理部、111…検索結果保持部、112…検索結
果評価部、113…検索条件変更部、114…補助検索
条件入力部、115…検索結果表示部、116…学習
部。

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 ほぼ同じ表音のなされる同一の語に対し
    て複数の異なる表記が存在する情報の検索装置におい
    て、 前記複数の異なる表記を一定の表記に変換する変換規則
    を保持する変換規則保持手段と、 前記変換規則に基づいて表記の変換を行う表記変換手段
    と、 前記変換された表記に基づいて情報の検索を行う検索手
    段とを有する情報検索装置。
  2. 【請求項2】 検索キーを入力する検索キー入力手段
    と、 検索条件を入力する検索条件入力手段と、 前記入力された検索キーと検索条件により情報の検索を
    行う検索手段と、 検索結果を評価する検索結果評価手段と、 前記検索結果評価手段の評価結果に応じて再検索をする
    際に、検索キー間の関係を定義した情報に基づいて、検
    索キーの拡張または縮小を行う変更手段とを備えたこと
    を特徴とする情報検索装置。
  3. 【請求項3】 検索キーを入力する検索キー入力手段
    と、 検索条件を入力する検索条件入力手段と、 前記検索条件をファジィ化する検索条件ファジィ化手段
    と、 前記入力された検索キーとファジィ検索条件により情報
    の検索を行い、検索結果を合致度として得る検索手段
    と、 検索結果を評価する検索結果評価手段と、 前記検索結果評価手段の評価結果に応じて再検索をする
    際に、ファジィ条件の拡張または縮小を行う変更手段と
    を備えたことを特徴とする情報検索装置。
  4. 【請求項4】 検索キーを入力する検索キー入力手段
    と、 検索条件を入力する検索条件入力手段と、 複数の異なる表記を一定の表記に変換する変換規則に基
    づいて検索キーや検索対象の情報の表記の変換を行う表
    記変換手段と、 前記変換された表記による検索キーと検索条件に基づい
    て情報の検索を行う検索手段と、 検索結果を評価する検索結果評価手段と、 前記検索結果評価手段の評価結果に応じて再検索をする
    際に、(a)検索キー間の関係を定義した情報に基づい
    て、検索キーの拡張または縮小を行う変更処理、および
    (b)ファジィ条件の拡張または縮小を行う変更処理の
    いずれか一方または両方の処理を実行する変更手段とを
    備えたことを特徴とする情報検索装置。
  5. 【請求項5】 検索条件指定の履歴を保持し、操作者の
    検索条件指定の傾向、特性を学習する学習手段を設けた
    ことを特徴とする請求項3または請求項4記載の情報検
    索装置。
JP15550194A 1994-06-15 1994-06-15 情報検索装置 Expired - Lifetime JP3527540B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP15550194A JP3527540B2 (ja) 1994-06-15 1994-06-15 情報検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP15550194A JP3527540B2 (ja) 1994-06-15 1994-06-15 情報検索装置

Publications (2)

Publication Number Publication Date
JPH086970A true JPH086970A (ja) 1996-01-12
JP3527540B2 JP3527540B2 (ja) 2004-05-17

Family

ID=15607433

Family Applications (1)

Application Number Title Priority Date Filing Date
JP15550194A Expired - Lifetime JP3527540B2 (ja) 1994-06-15 1994-06-15 情報検索装置

Country Status (1)

Country Link
JP (1) JP3527540B2 (ja)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10198697A (ja) * 1997-01-14 1998-07-31 Fuji Xerox Co Ltd 構造化文書検索装置
KR20020023737A (ko) * 2001-12-14 2002-03-29 최범기 퍼지 관계 방법을 이용한 검색 방법 및 장치
JP2005158064A (ja) * 2003-11-24 2005-06-16 Xerox Corp 文書管理システム
JP2006243950A (ja) * 2005-03-01 2006-09-14 Canon System Solutions Inc 情報処理装置及びその制御方法、プログラム
JP2008234519A (ja) * 2007-03-23 2008-10-02 Toyota Central R&D Labs Inc 情報検索システム、情報検索装置、情報検索方法、及びそのプログラム。
JP2009025968A (ja) * 2007-07-18 2009-02-05 Fujifilm Corp 関連語辞書作成装置、方法、及びプログラム、並びにコンテンツ検索装置
JP2009531776A (ja) * 2006-03-29 2009-09-03 オラクル・インターナショナル・コーポレイション 協調環境の状況検索
JP2010134810A (ja) * 2008-12-08 2010-06-17 Nomura Research Institute Ltd 宛先正否判定システム
CN101930437A (zh) * 2009-06-19 2010-12-29 日电(中国)有限公司 与特定查询相关的不一致和不确定本体的推理方法和设备
JP2011076264A (ja) * 2009-09-29 2011-04-14 Ntt Communications Kk 検索制御装置、検索制御方法、及びプログラム
JP2011113289A (ja) * 2009-11-26 2011-06-09 Ntt Docomo Inc 文書装飾支援システムおよび文書装飾支援方法
US8224838B2 (en) 2005-09-09 2012-07-17 Fujitsu Limited Database search method, program, and apparatus
JP2017033387A (ja) * 2015-08-04 2017-02-09 Kddi株式会社 入力支援装置、プログラムおよび入力支援方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6211932A (ja) * 1985-07-10 1987-01-20 Hitachi Ltd 情報検索方法
JPS63261424A (ja) * 1987-04-17 1988-10-28 Matsushita Electric Ind Co Ltd 文書検索装置
JPH02189680A (ja) * 1989-01-18 1990-07-25 Nec Corp 情報検索方式
JPH02227773A (ja) * 1989-03-01 1990-09-10 Ricoh Co Ltd 文書検索装置
JPH04281562A (ja) * 1991-03-11 1992-10-07 Meidensha Corp ファジィ推論による検索装置
JPH05135110A (ja) * 1991-04-12 1993-06-01 Fujitsu Ltd 情報検索におけるキーワード展開装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6211932A (ja) * 1985-07-10 1987-01-20 Hitachi Ltd 情報検索方法
JPS63261424A (ja) * 1987-04-17 1988-10-28 Matsushita Electric Ind Co Ltd 文書検索装置
JPH02189680A (ja) * 1989-01-18 1990-07-25 Nec Corp 情報検索方式
JPH02227773A (ja) * 1989-03-01 1990-09-10 Ricoh Co Ltd 文書検索装置
JPH04281562A (ja) * 1991-03-11 1992-10-07 Meidensha Corp ファジィ推論による検索装置
JPH05135110A (ja) * 1991-04-12 1993-06-01 Fujitsu Ltd 情報検索におけるキーワード展開装置

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10198697A (ja) * 1997-01-14 1998-07-31 Fuji Xerox Co Ltd 構造化文書検索装置
KR20020023737A (ko) * 2001-12-14 2002-03-29 최범기 퍼지 관계 방법을 이용한 검색 방법 및 장치
JP2005158064A (ja) * 2003-11-24 2005-06-16 Xerox Corp 文書管理システム
JP2006243950A (ja) * 2005-03-01 2006-09-14 Canon System Solutions Inc 情報処理装置及びその制御方法、プログラム
US8224838B2 (en) 2005-09-09 2012-07-17 Fujitsu Limited Database search method, program, and apparatus
JP2009531776A (ja) * 2006-03-29 2009-09-03 オラクル・インターナショナル・コーポレイション 協調環境の状況検索
JP2008234519A (ja) * 2007-03-23 2008-10-02 Toyota Central R&D Labs Inc 情報検索システム、情報検索装置、情報検索方法、及びそのプログラム。
JP2009025968A (ja) * 2007-07-18 2009-02-05 Fujifilm Corp 関連語辞書作成装置、方法、及びプログラム、並びにコンテンツ検索装置
JP2010134810A (ja) * 2008-12-08 2010-06-17 Nomura Research Institute Ltd 宛先正否判定システム
CN101930437A (zh) * 2009-06-19 2010-12-29 日电(中国)有限公司 与特定查询相关的不一致和不确定本体的推理方法和设备
JP2011008782A (ja) * 2009-06-19 2011-01-13 Nec (China) Co Ltd 特定のクエリに関する不確定かつ不整合オントロジの推論方式および装置
JP2011076264A (ja) * 2009-09-29 2011-04-14 Ntt Communications Kk 検索制御装置、検索制御方法、及びプログラム
JP2011113289A (ja) * 2009-11-26 2011-06-09 Ntt Docomo Inc 文書装飾支援システムおよび文書装飾支援方法
JP2017033387A (ja) * 2015-08-04 2017-02-09 Kddi株式会社 入力支援装置、プログラムおよび入力支援方法

Also Published As

Publication number Publication date
JP3527540B2 (ja) 2004-05-17

Similar Documents

Publication Publication Date Title
US5210868A (en) Database system and matching method between databases
JP3981734B2 (ja) 質問応答システムおよび質問応答処理方法
US6411962B1 (en) Systems and methods for organizing text
CN111611361A (zh) 抽取式机器智能阅读理解问答系统
US5523945A (en) Related information presentation method in document processing system
US20050154690A1 (en) Document knowledge management apparatus and method
JPH08241335A (ja) ファジー非決定性有限オートマトンを使用したあいまいな文字列検索方法及びシステム
JP3527540B2 (ja) 情報検索装置
JPH04357568A (ja) テキスト情報抽出装置とテキスト類似照合装置とテキスト検索システムとテキスト情報抽出方法とテキスト類似照合方法、及び、質問解析装置
JP2010287020A (ja) 同義語展開システム及び同義語展開方法
Manjari Extractive summarization of Telugu documents using TextRank algorithm
US7346614B2 (en) Information searching method, information searching program, and computer-readable recording medium on which information searching program is recorded
JP3178421B2 (ja) テキスト検索装置及びテキスト検索プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2005038395A (ja) データベース検索装置
JP4931114B2 (ja) データ表示装置、データ表示方法及びデータ表示プログラム
JP2008243024A (ja) 情報取得装置、そのプログラム及び方法
US20050240583A1 (en) Literature pipeline
JP2000331012A (ja) 電子化文書検索方法
Heidary et al. Automatic Persian text summarization using linguistic features from text structure analysis
Georgantopoulos MSc in Speech and Language Processing Dissertation: Automatic summarising based on sentence extraction: A statistical approach
Zulkhazhav et al. Kazakh text summarization using fuzzy logic
JP3578045B2 (ja) 全文検索方法及び装置及び全文検索プログラムを格納した記憶媒体
Katsadaki et al. Topic modeling and association rule mining to discover geospatial semantic information from unstructured data sources
JPH07210565A (ja) 情報検索方法及び装置
Ea et al. Cyberbullying Messages Detection: A Comparative Study of Machine Learning Algorithms

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040119

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040210

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040220

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100227

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110227

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110227

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120227

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120227

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130227

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130227

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140227

Year of fee payment: 10

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term