JPH06325091A - 類似度評価型データベース検索装置 - Google Patents
類似度評価型データベース検索装置Info
- Publication number
- JPH06325091A JPH06325091A JP5111360A JP11136093A JPH06325091A JP H06325091 A JPH06325091 A JP H06325091A JP 5111360 A JP5111360 A JP 5111360A JP 11136093 A JP11136093 A JP 11136093A JP H06325091 A JPH06325091 A JP H06325091A
- Authority
- JP
- Japan
- Prior art keywords
- search
- similarity
- data
- attribute
- character string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
(57)【要約】
【目的】 検索キーワード集合と属性キーワード集合と
が完全に一致しない場合でも両者の類似度に基づいて検
索キーワード集合にできるだけ類似したデータを抽出し
得る類似度評価型データベース検索装置を提供する。 【構成】 検索用端末装置6のキーボードから入力され
た検索キーワード集合をデータベース1に蓄積されてい
る属性キーワード集合と比較抽出部2で比較して文字列
の特徴を抽出し、この特徴に基づいて両キーワード集合
の類似度を類似度評価部3で評価し、この類似度に基づ
いて検索キーワード集合に対して類似したデータをデー
タ抽出部4でデータベース1から抽出する。
が完全に一致しない場合でも両者の類似度に基づいて検
索キーワード集合にできるだけ類似したデータを抽出し
得る類似度評価型データベース検索装置を提供する。 【構成】 検索用端末装置6のキーボードから入力され
た検索キーワード集合をデータベース1に蓄積されてい
る属性キーワード集合と比較抽出部2で比較して文字列
の特徴を抽出し、この特徴に基づいて両キーワード集合
の類似度を類似度評価部3で評価し、この類似度に基づ
いて検索キーワード集合に対して類似したデータをデー
タ抽出部4でデータベース1から抽出する。
Description
【0001】
【産業上の利用分野】本発明は、文字列を属性値とする
データからなるデータベース検索装置に関し、更に詳し
くは、検索条件の文字列集合とデータベースの各データ
の属性値文字列集合とが完全に一致しない場合でも両者
の類似度に基づいて類似したデータを抽出するあいまい
検索機能を有する類似度評価型データベース検索装置に
関する。
データからなるデータベース検索装置に関し、更に詳し
くは、検索条件の文字列集合とデータベースの各データ
の属性値文字列集合とが完全に一致しない場合でも両者
の類似度に基づいて類似したデータを抽出するあいまい
検索機能を有する類似度評価型データベース検索装置に
関する。
【0002】
【従来の技術】一般にデータベースはデータ及びそのデ
ータの持つ属性とその値(属性値)の組から構成されて
おり、属性値には数値や文字列が使用される。図5に文
字列を属性値とするデータベースの例として、電話番号
データベースの例を示す。ここで、表中の電話番号がデ
ータであり、『姓』や『町村』などが属性、『スズキ』
や『ミドリチョウ』などが属性値である。以下では、こ
のような各属性に対する文字列属性値を属性キーワード
と呼び、一つのデータに対する属性キーワードの全体を
属性キーワード集合と呼ぶことにする。
ータの持つ属性とその値(属性値)の組から構成されて
おり、属性値には数値や文字列が使用される。図5に文
字列を属性値とするデータベースの例として、電話番号
データベースの例を示す。ここで、表中の電話番号がデ
ータであり、『姓』や『町村』などが属性、『スズキ』
や『ミドリチョウ』などが属性値である。以下では、こ
のような各属性に対する文字列属性値を属性キーワード
と呼び、一つのデータに対する属性キーワードの全体を
属性キーワード集合と呼ぶことにする。
【0003】データベースにおいて属性値を手がかりに
して特定のデータを抽出する操作を検索と呼ぶ。一般に
文字列を属性値とするデータを検索する機能は、検索者
が検索条件として与えた属性及びそれに対応した文字列
(以下、検索キーワードと呼ぶ)を検索対象となる各デ
ータの当該属性の属性キーワードと比較し、一致したデ
ータを抽出することによって実現されている。また、検
索条件が複数の属性と検索キーワードの組(以下、検索
キーワード集合と呼ぶ)として与えられた場合は、それ
ぞれの属性について検索キーワードと属性キーワードが
一致するデータを検索し、それらの結果の積集合を結果
とする。なお、和集合を結果とする検索方法もあるが、
ここでは対象としない。
して特定のデータを抽出する操作を検索と呼ぶ。一般に
文字列を属性値とするデータを検索する機能は、検索者
が検索条件として与えた属性及びそれに対応した文字列
(以下、検索キーワードと呼ぶ)を検索対象となる各デ
ータの当該属性の属性キーワードと比較し、一致したデ
ータを抽出することによって実現されている。また、検
索条件が複数の属性と検索キーワードの組(以下、検索
キーワード集合と呼ぶ)として与えられた場合は、それ
ぞれの属性について検索キーワードと属性キーワードが
一致するデータを検索し、それらの結果の積集合を結果
とする。なお、和集合を結果とする検索方法もあるが、
ここでは対象としない。
【0004】例えば、図5の電話番号データベースにお
いて、図6(a)に示すような検索キーワード集合aを
検索条件として検索を行なった場合、番号8のデータが
結果として図6(b)に示すように得られる。
いて、図6(a)に示すような検索キーワード集合aを
検索条件として検索を行なった場合、番号8のデータが
結果として図6(b)に示すように得られる。
【0005】ところが、このような検索方法を行なった
場合、検索キーワード集合を完全に包含する属性キーワ
ード集合をもつデータが存在する場合にのみ検索解が得
られるため、検索キーワードの一部が誤っているなどの
不一致があった場合は、解が得られないという問題が生
じる。例えば、上記電話番号データベースにおいて、図
7(a)の条件bや図8(a)の条件cのような検索キ
ーワード集合が与えられた場合には、それぞれ条件bは
属性『町村』の属性キーワード、条件cは属性『町村』
と『名』の属性キーワードが一致しないために、解が得
られない。しかし、大規模なデータベースでは、検索者
が正確な検索キーワード集合を知らない場合もしばしば
生ずる。
場合、検索キーワード集合を完全に包含する属性キーワ
ード集合をもつデータが存在する場合にのみ検索解が得
られるため、検索キーワードの一部が誤っているなどの
不一致があった場合は、解が得られないという問題が生
じる。例えば、上記電話番号データベースにおいて、図
7(a)の条件bや図8(a)の条件cのような検索キ
ーワード集合が与えられた場合には、それぞれ条件bは
属性『町村』の属性キーワード、条件cは属性『町村』
と『名』の属性キーワードが一致しないために、解が得
られない。しかし、大規模なデータベースでは、検索者
が正確な検索キーワード集合を知らない場合もしばしば
生ずる。
【0006】そこで、従来のデータベース検索装置にお
いてはあいまい検索と呼ばれる方法が行なわれてきた。
あいまい検索の方法はいくつか提案されているが、ここ
では以下の2つの方法を対象とする。
いてはあいまい検索と呼ばれる方法が行なわれてきた。
あいまい検索の方法はいくつか提案されているが、ここ
では以下の2つの方法を対象とする。
【0007】検索キーワード集合を完全に包含する属性
キーワード集合を持つデータが存在しない場合、 1.検索キーワード集合中から、1つ以上の検索キーワ
ードを比較対象から除き、残りを新たな検索キーワード
集合として再び検索を行なう。
キーワード集合を持つデータが存在しない場合、 1.検索キーワード集合中から、1つ以上の検索キーワ
ードを比較対象から除き、残りを新たな検索キーワード
集合として再び検索を行なう。
【0008】2.ある検索キーワードの文字列を包含す
る属性キーワード文字列も、当該検索キーワードと一致
したものと見なして検索を行なう。また、文字列全体を
包含する属性キーワード文字列が存在しない場合は、検
索キーワードの文字列中の1つ以上の文字を比較から除
外し、それを新たな検索キーワードとする検索キーワー
ド集合によって再び検索を行なう。
る属性キーワード文字列も、当該検索キーワードと一致
したものと見なして検索を行なう。また、文字列全体を
包含する属性キーワード文字列が存在しない場合は、検
索キーワードの文字列中の1つ以上の文字を比較から除
外し、それを新たな検索キーワードとする検索キーワー
ド集合によって再び検索を行なう。
【0009】なお、上記方法2において検索キーワード
の文字列中の文字を比較から除外する方法としては、例
えば文字列の末尾の文字を除くなどの方法により、検索
キーワードの文字列長自体が変化する方法と、文字列長
は変化せず、検索キーワード中の特定位置の特定個数の
文字が、属性キーワード中の当該位置の任意の文字と一
致すると見なす(ワイルドカード文字)方式がある。
の文字列中の文字を比較から除外する方法としては、例
えば文字列の末尾の文字を除くなどの方法により、検索
キーワードの文字列長自体が変化する方法と、文字列長
は変化せず、検索キーワード中の特定位置の特定個数の
文字が、属性キーワード中の当該位置の任意の文字と一
致すると見なす(ワイルドカード文字)方式がある。
【0010】従来のデータベース検索装置においては、
検索キーワード集合に完全に一致する検索解が得られな
い場合には、これらの方法の一方または両方を適当な回
数適用することにより、検索解を得てきた。例えば、図
7(a)に示す検索キーワード集合bから、属性『町
村』『番地』の検索キーワードを削除した図7(b)に
示す検索キーワード集合b’(方法1)によるあいまい
検索では、図7(c)に示す結果が得られる。また、図
8(a)に示す検索キーワード集合cの場合は、方法1
によって属性『町村』『番地』の検索キーワードを削除
しただけでは解が得られないため、さらに属性『名』の
検索キーワードにおいて先頭2文字のみ残して削除した
図8(b)に示す検索キーワード集合c’(方法2)に
よってあいまい検索を行ない、図8(c)に示す結果が
得られる。
検索キーワード集合に完全に一致する検索解が得られな
い場合には、これらの方法の一方または両方を適当な回
数適用することにより、検索解を得てきた。例えば、図
7(a)に示す検索キーワード集合bから、属性『町
村』『番地』の検索キーワードを削除した図7(b)に
示す検索キーワード集合b’(方法1)によるあいまい
検索では、図7(c)に示す結果が得られる。また、図
8(a)に示す検索キーワード集合cの場合は、方法1
によって属性『町村』『番地』の検索キーワードを削除
しただけでは解が得られないため、さらに属性『名』の
検索キーワードにおいて先頭2文字のみ残して削除した
図8(b)に示す検索キーワード集合c’(方法2)に
よってあいまい検索を行ない、図8(c)に示す結果が
得られる。
【0011】なお、上述したようなあいまい検索方法を
採用しているデータベース検索装置は、例えば文献:宮
部博、大山実、有山裕孝「電子番号案内方式の研究」、
研究実用化報告第32巻第1号、1983年に記載され
ている。
採用しているデータベース検索装置は、例えば文献:宮
部博、大山実、有山裕孝「電子番号案内方式の研究」、
研究実用化報告第32巻第1号、1983年に記載され
ている。
【0012】
【発明が解決しようとする課題】上述した従来のあいま
い検索の原理は、複数の検索条件を満たす検索解が存在
しない場合に、条件の一部を緩和することにある。従っ
て、あいまい検索の結果得られる解には、検索者が目的
とする真の解以外に、緩和された条件に対応して多数の
偽の解が抽出される場合が多い。図7や図8の結果から
も分かるように、正確な検索条件が与えられなかった場
合は、検索条件が緩和されるに従って、多数の偽の解が
抽出される。
い検索の原理は、複数の検索条件を満たす検索解が存在
しない場合に、条件の一部を緩和することにある。従っ
て、あいまい検索の結果得られる解には、検索者が目的
とする真の解以外に、緩和された条件に対応して多数の
偽の解が抽出される場合が多い。図7や図8の結果から
も分かるように、正確な検索条件が与えられなかった場
合は、検索条件が緩和されるに従って、多数の偽の解が
抽出される。
【0013】しかし、従来のあいまい検索では、検索キ
ーワードと属性キーワードの、全体または部分の文字列
が一致するかどうかのみを判定の基準としているため、
あいまい検索で得られた解(以下、候補と呼ぶ)のどれ
がより検索者の検索条件を満たす解(真の解)に近いか
を判定することができなかった。そのため、全ての候補
が平等に検索者に提示され、検索者はいったんそれらの
あいまい検索の候補を全て得た後、自分自身で検索キー
ワード集合と個々の候補の属性キーワード集合を比較し
て類似度を評価し、最も真の解に近いと思われる候補を
選択する必要があった。
ーワードと属性キーワードの、全体または部分の文字列
が一致するかどうかのみを判定の基準としているため、
あいまい検索で得られた解(以下、候補と呼ぶ)のどれ
がより検索者の検索条件を満たす解(真の解)に近いか
を判定することができなかった。そのため、全ての候補
が平等に検索者に提示され、検索者はいったんそれらの
あいまい検索の候補を全て得た後、自分自身で検索キー
ワード集合と個々の候補の属性キーワード集合を比較し
て類似度を評価し、最も真の解に近いと思われる候補を
選択する必要があった。
【0014】本発明は、上記に鑑みてなされたもので、
その目的とするところは、検索キーワード集合と属性キ
ーワード集合とが完全に一致しない場合でも両者の類似
度に基づいて検索キーワード集合にできるだけ類似した
データを抽出し得る類似度評価型データベース検索装置
を提供することにある。
その目的とするところは、検索キーワード集合と属性キ
ーワード集合とが完全に一致しない場合でも両者の類似
度に基づいて検索キーワード集合にできるだけ類似した
データを抽出し得る類似度評価型データベース検索装置
を提供することにある。
【0015】
【課題を解決するための手段】上記目的を達成するた
め、本発明の類似度評価型データベース検索装置は、文
字列を属性値とするデータを蓄積したデータベースと、
該データベースに対する検索条件として1つ以上の属性
と文字列の組合せからなる検索キーワード集合を入力す
る入力手段と、該入力手段から入力された検索キーワー
ド集合を前記データベース内の各データが有する属性の
属性値文字列からなる属性キーワード集合と比較し、文
字列の特徴を抽出する比較抽出手段と、該比較抽出手段
が抽出した前記特徴に基づいて前記検索キーワード集合
に対する前記属性キーワード集合の類似度を評価する類
似度評価手段と、該類似度評価手段で評価された類似度
に基づいて前記検索キーワード集合に類似したデータを
抽出するデータ抽出手段とを有することを要旨とする。
め、本発明の類似度評価型データベース検索装置は、文
字列を属性値とするデータを蓄積したデータベースと、
該データベースに対する検索条件として1つ以上の属性
と文字列の組合せからなる検索キーワード集合を入力す
る入力手段と、該入力手段から入力された検索キーワー
ド集合を前記データベース内の各データが有する属性の
属性値文字列からなる属性キーワード集合と比較し、文
字列の特徴を抽出する比較抽出手段と、該比較抽出手段
が抽出した前記特徴に基づいて前記検索キーワード集合
に対する前記属性キーワード集合の類似度を評価する類
似度評価手段と、該類似度評価手段で評価された類似度
に基づいて前記検索キーワード集合に類似したデータを
抽出するデータ抽出手段とを有することを要旨とする。
【0016】
【作用】本発明の類似度評価型データベース検索装置で
は、検索キーワード集合を属性キーワード集合と比較し
て文字列の特徴を抽出し、この特徴に基づいて両キーワ
ード集合の類似度を評価し、この類似度に基づいて検索
キーワード集合に類似したデータを抽出する。
は、検索キーワード集合を属性キーワード集合と比較し
て文字列の特徴を抽出し、この特徴に基づいて両キーワ
ード集合の類似度を評価し、この類似度に基づいて検索
キーワード集合に類似したデータを抽出する。
【0017】
【実施例】以下、図面を用いて本発明の実施例を説明す
る。
る。
【0018】図1は、本発明の一実施例に係わる類似度
評価型データベース検索装置の構成を示すブロック図で
ある。同図において、1は文字列を属性値とするデータ
を蓄積し、本検索装置の要求に応じて個々のデータおよ
び該データに付加されている属性キーワード集合を出力
する機能を有するデータベースであり、6は検索者が検
索キーワード集合を入力したり、検索者に対して検索結
果の候補を表示する検索用端末装置であり、例えばキー
ボードおよびディスプレイから構成される。
評価型データベース検索装置の構成を示すブロック図で
ある。同図において、1は文字列を属性値とするデータ
を蓄積し、本検索装置の要求に応じて個々のデータおよ
び該データに付加されている属性キーワード集合を出力
する機能を有するデータベースであり、6は検索者が検
索キーワード集合を入力したり、検索者に対して検索結
果の候補を表示する検索用端末装置であり、例えばキー
ボードおよびディスプレイから構成される。
【0019】また、図1において、2はデータベース1
内の各データについて、属性キーワード集合と検索キー
ワード集合中の対応する属性の各検索キーワードと属性
キーワードを比較し、それらの文字列の特徴(キーワー
ドの属性、文字列長、一致文字列長、不一致文字列長、
一致の形態など)を抽出する比較抽出部であり、3は抽
出された各検索キーワード、属性キーワードのもつ特徴
に基づいて、当該データの属性キーワード集合と検索キ
ーワード集合との類似度を評価する類似度評価部であ
り、4は類似度の評価結果に基づいて一定の条件を満た
す類似度のデータを抽出するデータ抽出部であり、5は
抽出したデータを各データ毎の類似度の相対的あるいは
絶対的大きさが検索者に理解され得る表現形式に変換す
る表現変換部である。
内の各データについて、属性キーワード集合と検索キー
ワード集合中の対応する属性の各検索キーワードと属性
キーワードを比較し、それらの文字列の特徴(キーワー
ドの属性、文字列長、一致文字列長、不一致文字列長、
一致の形態など)を抽出する比較抽出部であり、3は抽
出された各検索キーワード、属性キーワードのもつ特徴
に基づいて、当該データの属性キーワード集合と検索キ
ーワード集合との類似度を評価する類似度評価部であ
り、4は類似度の評価結果に基づいて一定の条件を満た
す類似度のデータを抽出するデータ抽出部であり、5は
抽出したデータを各データ毎の類似度の相対的あるいは
絶対的大きさが検索者に理解され得る表現形式に変換す
る表現変換部である。
【0020】次に、図1に示した類似度評価型データベ
ース検索装置の作用について電話番号データベースの検
索を行う場合を例として説明する。
ース検索装置の作用について電話番号データベースの検
索を行う場合を例として説明する。
【0021】図1に示す検索装置において、データベー
ス1は電話番号をデータとして蓄積しており、上述した
図5に示すような属性と属性キーワードの文字列の組か
ら成る属性キーワード集合を付与されたデータから成
り、比較抽出部2およびデータ抽出部4の要求に応じて
格納されたデータ及びその属性キーワード集合を1デー
タ分ずつ出力することができるものとする。
ス1は電話番号をデータとして蓄積しており、上述した
図5に示すような属性と属性キーワードの文字列の組か
ら成る属性キーワード集合を付与されたデータから成
り、比較抽出部2およびデータ抽出部4の要求に応じて
格納されたデータ及びその属性キーワード集合を1デー
タ分ずつ出力することができるものとする。
【0022】また、検索者は図6(a)に示すような属
性と検索キーワードの文字列の組から成る検索キーワー
ド集合を検索用端末装置6のキーボードから入力した
後、検索開始を指示するものとする。
性と検索キーワードの文字列の組から成る検索キーワー
ド集合を検索用端末装置6のキーボードから入力した
後、検索開始を指示するものとする。
【0023】比較抽出部2は検索キーワード集合及び1
データ分の属性キーワード集合の文字列を記憶するため
の一時記憶装置(バッファ)と、このバッファに記憶さ
れた文字列に対し、文字の比較や部分文字列の取り出し
といった処理を行なう演算装置とからなり、C言語の文
字列処理関数程度の文字列処理機能を有する。なお、検
索キーワードと属性キーワードは比較抽出部2に入力さ
れる以前に文字コード(JIS,EUCなど)や、文字
種(カタカナ、ローマ字など)などに関して比較可能な
共通の表現形式に正規化されているものとする。
データ分の属性キーワード集合の文字列を記憶するため
の一時記憶装置(バッファ)と、このバッファに記憶さ
れた文字列に対し、文字の比較や部分文字列の取り出し
といった処理を行なう演算装置とからなり、C言語の文
字列処理関数程度の文字列処理機能を有する。なお、検
索キーワードと属性キーワードは比較抽出部2に入力さ
れる以前に文字コード(JIS,EUCなど)や、文字
種(カタカナ、ローマ字など)などに関して比較可能な
共通の表現形式に正規化されているものとする。
【0024】検索者が検索キーワード集合を入力し、検
索開始を指示すると、比較抽出部2は検索キーワード集
合を受け取り、検索キーワードを属性ごとにバッファに
保存する。続いて、比較抽出部2はデータベース1に要
求して1つのデータの属性キーワード集合を受け取り、
その属性キーワードを属性毎にバッファに保存した後、
各属性毎に検索キーワードと属性キーワードの文字列を
1文字ずつ比較して、その検索キーワードと属性キーワ
ードに関する特徴量を算出する。特徴量は類似度の評価
方法に合わせて様々に定義できるが、例えば以下のよう
なものが利用できる。
索開始を指示すると、比較抽出部2は検索キーワード集
合を受け取り、検索キーワードを属性ごとにバッファに
保存する。続いて、比較抽出部2はデータベース1に要
求して1つのデータの属性キーワード集合を受け取り、
その属性キーワードを属性毎にバッファに保存した後、
各属性毎に検索キーワードと属性キーワードの文字列を
1文字ずつ比較して、その検索キーワードと属性キーワ
ードに関する特徴量を算出する。特徴量は類似度の評価
方法に合わせて様々に定義できるが、例えば以下のよう
なものが利用できる。
【0025】(1)属性:比較したキーワードの属性。
【0026】(2)検索キーワード長:検索キーワード
の文字列長。
の文字列長。
【0027】(3)属性キーワード長:属性キーワード
の文字列長。
の文字列長。
【0028】(4)一致文字列長1:両方の文字列中に
共通に含まれる部分文字列のうち、最長のものの文字列
長。
共通に含まれる部分文字列のうち、最長のものの文字列
長。
【0029】(5)一致文字列長2:両方の文字列中に
共通に含まれる文字の数。
共通に含まれる文字の数。
【0030】(6)不一致文字列長:検索キーワード長
または属性キーワード長のうち、大きい方から、一致文
字列長を引いた長さ。
または属性キーワード長のうち、大きい方から、一致文
字列長を引いた長さ。
【0031】(7)一致開始位置:両方の文字列中に共
通に含まれる部分文字列の先頭文字の、検索キーワード
または属性キーワードにおける先頭から数えた位置。
通に含まれる部分文字列の先頭文字の、検索キーワード
または属性キーワードにおける先頭から数えた位置。
【0032】(8)一致形式:文字列の一致の形態。例
えば完全一致、部分一致、包含一致など。
えば完全一致、部分一致、包含一致など。
【0033】なお、ここでいう文字列長とは、ある文字
列に含まれる文字の個数と定義する。本実施例では、こ
のうち検索キーワード長、属性キーワード長、一致文字
列長1(以下、一致文字列長と呼ぶ)、不一致文字列長
のみを算出する。これらの関係と算出例を図2に示す。
比較抽出部2は、検索キーワード集合の全属性の検索キ
ーワードについて特徴量の算出が終了すると、それらを
類似度評価部3に送る。
列に含まれる文字の個数と定義する。本実施例では、こ
のうち検索キーワード長、属性キーワード長、一致文字
列長1(以下、一致文字列長と呼ぶ)、不一致文字列長
のみを算出する。これらの関係と算出例を図2に示す。
比較抽出部2は、検索キーワード集合の全属性の検索キ
ーワードについて特徴量の算出が終了すると、それらを
類似度評価部3に送る。
【0034】類似度評価部3は文字列の特徴量に基づい
て検索キーワード集合および属性キーワード集合間の類
似度を評価する評価式と演算装置から成り、比較抽出部
2から受けとった特徴量を使って、各データに対する類
似度を計算する。検索キーワードkの類似度pk の評価
式を次式(1),(2)に示す。
て検索キーワード集合および属性キーワード集合間の類
似度を評価する評価式と演算装置から成り、比較抽出部
2から受けとった特徴量を使って、各データに対する類
似度を計算する。検索キーワードkの類似度pk の評価
式を次式(1),(2)に示す。
【0035】
【数1】 検索キーワードkの類似度pk は式(2)に示すように
その検索キーワードの一致文字列長lm 、不一致文字列
長lu 、文字列長Lを使って定義される。ここで式中の
a,bは検索キーワード毎に決まる定数である。また、
l’m は一致文字列長lm が正の場合はlm に等しく、
lm =0の場合は正定数cを用いるものとする。
その検索キーワードの一致文字列長lm 、不一致文字列
長lu 、文字列長Lを使って定義される。ここで式中の
a,bは検索キーワード毎に決まる定数である。また、
l’m は一致文字列長lm が正の場合はlm に等しく、
lm =0の場合は正定数cを用いるものとする。
【0036】式(2)によって各検索キーワード毎の類
似度を求めた後、検索キーワード集合全体の類似度Pを
求める。検索キーワード集合の類似度は、次に示す式
(3)のように各検索キーワードkの類似度pk の関数
として定義できるが、本実施例では式(4)のように各
検索キーワード毎の類似度の線形結合によって定義し
た。ここで式中のjk は検索キーワード毎に決まる定数
とする。
似度を求めた後、検索キーワード集合全体の類似度Pを
求める。検索キーワード集合の類似度は、次に示す式
(3)のように各検索キーワードkの類似度pk の関数
として定義できるが、本実施例では式(4)のように各
検索キーワード毎の類似度の線形結合によって定義し
た。ここで式中のjk は検索キーワード毎に決まる定数
とする。
【0037】
【数2】 これらの評価式を使って、図8(a)に示す検索条件c
の検索キーワード集合に対し、図5に示した各データ毎
の類似度を計算した結果を図3(b)に示す。ただし、
本実施例では、式(2)においてa=b=1、c=0.
1、また式(4)においてjk ≡1とした。類似度の計
算が終了すると、類似度評価部3はデータ抽出部4に各
データ毎の類似度を送る。
の検索キーワード集合に対し、図5に示した各データ毎
の類似度を計算した結果を図3(b)に示す。ただし、
本実施例では、式(2)においてa=b=1、c=0.
1、また式(4)においてjk ≡1とした。類似度の計
算が終了すると、類似度評価部3はデータ抽出部4に各
データ毎の類似度を送る。
【0038】データ抽出部4は類似度評価部3から受け
とった各データの類似度を元に、予め定められた選択条
件を満たすデータのみを候補としてデータベース1から
取り出し、表現変換部5を介して検索者が理解し易い表
示形式に変換してから端末装置6のディスプレイに表示
する。選択条件の例としては、類似度が一定の閾値を越
えるデータという条件や、類似度の高い方から一定個数
の範囲に含まれるデータという条件などを利用できる。
たとえば、図3(b)に示す結果に対し、類似度最大の
候補という条件を課した場合、番号8の解のみを検索結
果として検索者に提示することが可能である。なお、表
現変換部5を設けることなく、データ抽出部4の出力を
直接ディスプレイに表示してもよい。
とった各データの類似度を元に、予め定められた選択条
件を満たすデータのみを候補としてデータベース1から
取り出し、表現変換部5を介して検索者が理解し易い表
示形式に変換してから端末装置6のディスプレイに表示
する。選択条件の例としては、類似度が一定の閾値を越
えるデータという条件や、類似度の高い方から一定個数
の範囲に含まれるデータという条件などを利用できる。
たとえば、図3(b)に示す結果に対し、類似度最大の
候補という条件を課した場合、番号8の解のみを検索結
果として検索者に提示することが可能である。なお、表
現変換部5を設けることなく、データ抽出部4の出力を
直接ディスプレイに表示してもよい。
【0039】しかし本発明の検索装置は、検索キーワー
ド集合を完全に包含する属性キーワード集合をもつデー
タが存在しない場合でも、真の解にできるだけ類似した
候補を抽出することが目的であり、このような場合に
は、検索者に与えられた検索キーワード集合の精度が不
十分なため、それに基づいて計算した類似度最大の候補
が必ずしも真の解とは限らない可能性がある。従って、
このような場合は候補を一定の類似度の範囲内に絞り込
む選択条件(例えば、類似度0以上)を使用するのが妥
当である。この場合、図3(b)の例では番号7,8,
9の3候補が検索者に提示される。
ド集合を完全に包含する属性キーワード集合をもつデー
タが存在しない場合でも、真の解にできるだけ類似した
候補を抽出することが目的であり、このような場合に
は、検索者に与えられた検索キーワード集合の精度が不
十分なため、それに基づいて計算した類似度最大の候補
が必ずしも真の解とは限らない可能性がある。従って、
このような場合は候補を一定の類似度の範囲内に絞り込
む選択条件(例えば、類似度0以上)を使用するのが妥
当である。この場合、図3(b)の例では番号7,8,
9の3候補が検索者に提示される。
【0040】前記表現変換部5は、データ抽出部4から
の出力をいったん蓄積し、各データの類似度を検索者が
容易に理解し得るような表示形式に変換してから、端末
装置6のディスプレイに供給する。このような表示形式
の例としては、以下のような方法がある。
の出力をいったん蓄積し、各データの類似度を検索者が
容易に理解し得るような表示形式に変換してから、端末
装置6のディスプレイに供給する。このような表示形式
の例としては、以下のような方法がある。
【0041】(1)データに類似度を示す数値を付加し
て表示する。
て表示する。
【0042】(2)類似度に応じて表示位置を変える。
例えば、類似度の高い順にデータを並べて表示する。
例えば、類似度の高い順にデータを並べて表示する。
【0043】(3)類似度に応じて表示文字の属性、例
えば色や大きさなどを変えて表示する。
えば色や大きさなどを変えて表示する。
【0044】例えば、類似度順の表示方法を使用した場
合、図3(b)に基づいて、検索結果を図4(b)のよ
うに表示される。これを、従来のあいまい検索による検
索結果の図4と比較すると、類似度の低い候補は除かれ
ている上に、最も真の解に近い候補(番号8)が最上段
に表示されるため、検索者は、最上段の候補が真の解か
どうかをチェックするのみで真の解を得ることができ
る。
合、図3(b)に基づいて、検索結果を図4(b)のよ
うに表示される。これを、従来のあいまい検索による検
索結果の図4と比較すると、類似度の低い候補は除かれ
ている上に、最も真の解に近い候補(番号8)が最上段
に表示されるため、検索者は、最上段の候補が真の解か
どうかをチェックするのみで真の解を得ることができ
る。
【0045】以上のように、本検索装置を用いることに
より、従来のあいまい検索によるデータベース検索装置
よりも高い精度で、検索者の与えた検索キーワード集合
に類似した属性キーワード集合を持つデータを、検索候
補として抽出することが可能であり、更に検索者が類似
度情報に基づいて容易に真の解を判定することが可能で
ある。
より、従来のあいまい検索によるデータベース検索装置
よりも高い精度で、検索者の与えた検索キーワード集合
に類似した属性キーワード集合を持つデータを、検索候
補として抽出することが可能であり、更に検索者が類似
度情報に基づいて容易に真の解を判定することが可能で
ある。
【0046】また、データベース内の全データの類似度
を本装置によって評価した場合、従来のあいまい検索に
比較して検索時間がかかることが予想される。しかし、
図3からも分かるように、従来のあいまい検索において
棄却される候補が本装置においても必ず棄却されるよう
な類似度評価式としきい値をそれぞれ類似度評価部3お
よびデータ抽出部4で用いることが可能である。これに
より、いったん従来のあいまい検索方式で検索を行な
い、その結果の候補集合に対して本装置による検索を行
なうことによって、全データの類似度評価を行なう場合
に比べ、より高速な検索を行なうことが可能である。
を本装置によって評価した場合、従来のあいまい検索に
比較して検索時間がかかることが予想される。しかし、
図3からも分かるように、従来のあいまい検索において
棄却される候補が本装置においても必ず棄却されるよう
な類似度評価式としきい値をそれぞれ類似度評価部3お
よびデータ抽出部4で用いることが可能である。これに
より、いったん従来のあいまい検索方式で検索を行な
い、その結果の候補集合に対して本装置による検索を行
なうことによって、全データの類似度評価を行なう場合
に比べ、より高速な検索を行なうことが可能である。
【0047】
【発明の効果】以上説明したように、本発明によれば、
検索キーワード集合を属性キーワード集合と比較して文
字列の特徴を抽出し、この特徴に基づいて両キーワード
集合の類似度を評価し、この類似度に基づいて検索キー
ワード集合に対して類似したデータを抽出するので、従
来のあいまい検索では除くことができなかった偽の解を
類似度に基づいて検索候補から除去することができ、よ
り精度の高い検索を行うことができる。また、検索結果
を類似度情報を付加することにより検索条件に最も近い
候補を容易に得ることができる。更に、従来のあいまい
検索方式を組み合わせることによりあいまい検索の精度
を効率的に高めることができる。
検索キーワード集合を属性キーワード集合と比較して文
字列の特徴を抽出し、この特徴に基づいて両キーワード
集合の類似度を評価し、この類似度に基づいて検索キー
ワード集合に対して類似したデータを抽出するので、従
来のあいまい検索では除くことができなかった偽の解を
類似度に基づいて検索候補から除去することができ、よ
り精度の高い検索を行うことができる。また、検索結果
を類似度情報を付加することにより検索条件に最も近い
候補を容易に得ることができる。更に、従来のあいまい
検索方式を組み合わせることによりあいまい検索の精度
を効率的に高めることができる。
【図1】本発明の一実施例に係わる類似度評価型データ
ベース検索装置の構成を示すブロック図である。
ベース検索装置の構成を示すブロック図である。
【図2】図1の検索装置で使用する文字列の特徴量の概
念および特徴量の例を示す説明図である。
念および特徴量の例を示す説明図である。
【図3】図1の検索装置による類似度評価結果の例を示
す図である。
す図である。
【図4】図1の検索装置による検索結果提示例を示す図
である。
である。
【図5】本発明を適用し得る文字列を属性値に有するデ
ータベースの例を示す図である。
ータベースの例を示す図である。
【図6】従来方式によるデータ検索例を示す図である。
【図7】検索キーワードの一部削除による従来のあいま
い検索方法による検索の例を示す図である。
い検索方法による検索の例を示す図である。
【図8】検索キーワードの一部削除に加えて検索キーワ
ード文字列の一部削除を行う従来のあいまい検索方法に
よる検索例を示す図である。
ード文字列の一部削除を行う従来のあいまい検索方法に
よる検索例を示す図である。
1 データベース 2 比較抽出部 3 類似度評価部 4 データ抽出部 5 表現変換部 6 検索用端末装置
Claims (3)
- 【請求項1】 文字列を属性値とするデータを蓄積した
データベースと、 該データベースに対する検索条件として1つ以上の属性
と文字列の組合せからなる検索キーワード集合を入力す
る入力手段と、 該入力手段から入力された検索キーワード集合を前記デ
ータベース内の各データが有する属性の属性値文字列か
らなる属性キーワード集合と比較し、文字列の特徴を抽
出する比較抽出手段と、 該比較抽出手段が抽出した前記特徴に基づいて前記検索
キーワード集合に対する前記属性キーワード集合の類似
度を評価する類似度評価手段と、 該類似度評価手段で評価された類似度に基づいて前記検
索キーワード集合に類似したデータを抽出するデータ抽
出手段とを有することを特徴とする類似度評価型データ
ベース検索装置。 - 【請求項2】 前記データ抽出手段で抽出したデータを
各データ毎の類似度の相対的または絶対的大きさが検索
者に容易に理解され得る表現形式に変換する表現変換手
段を有することを特徴とする請求項1記載の類似度評価
型データベース検索装置。 - 【請求項3】 前記比較抽出手段が抽出する文字列の特
徴は、キーワードの属性、キーワードの文字列長、キー
ワード間で一致する部分の文字列長、キーワード間で一
致しない部分の文字列長、一致開始位置、一致の形態の
うちの1つまたは複数を有することを特徴とする請求項
1または2記載の類似度評価型データベース検索装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP5111360A JPH06325091A (ja) | 1993-05-13 | 1993-05-13 | 類似度評価型データベース検索装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP5111360A JPH06325091A (ja) | 1993-05-13 | 1993-05-13 | 類似度評価型データベース検索装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH06325091A true JPH06325091A (ja) | 1994-11-25 |
Family
ID=14559228
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP5111360A Pending JPH06325091A (ja) | 1993-05-13 | 1993-05-13 | 類似度評価型データベース検索装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH06325091A (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09190451A (ja) * | 1996-01-09 | 1997-07-22 | Oki Electric Ind Co Ltd | 情報検索装置 |
JPH10105578A (ja) * | 1996-09-09 | 1998-04-24 | Korea Telecommun | 点数を利用した類似単語検索方法 |
JPH10228484A (ja) * | 1997-02-17 | 1998-08-25 | Nippon Telegr & Teleph Corp <Ntt> | データベース検索装置および方法 |
JPH11353316A (ja) * | 1998-06-04 | 1999-12-24 | Oki Electric Ind Co Ltd | 省略語補完装置 |
US9442901B2 (en) | 2011-04-28 | 2016-09-13 | Fujitsu Limited | Resembling character data search supporting method, resembling candidate extracting method, and resembling candidate extracting apparatus |
JP2017151776A (ja) * | 2016-02-25 | 2017-08-31 | 日本電信電話株式会社 | 情報管理装置、情報管理方法および情報管理プログラム |
-
1993
- 1993-05-13 JP JP5111360A patent/JPH06325091A/ja active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09190451A (ja) * | 1996-01-09 | 1997-07-22 | Oki Electric Ind Co Ltd | 情報検索装置 |
JPH10105578A (ja) * | 1996-09-09 | 1998-04-24 | Korea Telecommun | 点数を利用した類似単語検索方法 |
JPH10228484A (ja) * | 1997-02-17 | 1998-08-25 | Nippon Telegr & Teleph Corp <Ntt> | データベース検索装置および方法 |
JPH11353316A (ja) * | 1998-06-04 | 1999-12-24 | Oki Electric Ind Co Ltd | 省略語補完装置 |
US9442901B2 (en) | 2011-04-28 | 2016-09-13 | Fujitsu Limited | Resembling character data search supporting method, resembling candidate extracting method, and resembling candidate extracting apparatus |
JP2017151776A (ja) * | 2016-02-25 | 2017-08-31 | 日本電信電話株式会社 | 情報管理装置、情報管理方法および情報管理プログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP0510634B1 (en) | Data base retrieval system | |
US8055498B2 (en) | Systems and methods for building an electronic dictionary of multi-word names and for performing fuzzy searches in the dictionary | |
JP2742115B2 (ja) | 類似文書検索装置 | |
US9798776B2 (en) | Systems and methods for parsing search queries | |
JPH09259140A (ja) | 情報検索方法、情報検索装置及び情報検索プログラムを格納する媒体 | |
JP2669601B2 (ja) | 情報検索方法及びシステム | |
JP2009193219A (ja) | インデックス作成装置、その方法、プログラム及び記録媒体 | |
JP3361563B2 (ja) | 形態素解析装置及びキーワード抽出装置 | |
JPH05225238A (ja) | データベース検索システム | |
JPH06325091A (ja) | 類似度評価型データベース検索装置 | |
JPH0773197A (ja) | 異表記語辞書作成支援装置 | |
JPH064584A (ja) | 文章検索装置 | |
JP3558267B2 (ja) | 文書検索装置 | |
JP3249743B2 (ja) | 文書検索システム | |
US9846739B2 (en) | Fast database matching | |
KR20020054254A (ko) | 사전구조를 이용한 한국어 형태소 분석방법 | |
JPH03260869A (ja) | データ検索装置及びデータ検索方法 | |
JPH07105237A (ja) | 索引作成方法およびその装置と文書検索装置 | |
JP2732661B2 (ja) | テキスト型データベース装置 | |
JPH05128159A (ja) | キーワード抽出方法及び装置 | |
JPH0991297A (ja) | 文字列検索方法及び装置 | |
JPH04340164A (ja) | マルチキーワード情報検索処理方式および検索ファイル作成装置 | |
JPH0785069A (ja) | データベース検索支援装置 | |
JPH07296005A (ja) | 日本語テキスト登録・検索装置 | |
JP3115459B2 (ja) | 文字認識辞書の構成方法及び検索方法 |