JPH10228484A - データベース検索装置および方法 - Google Patents

データベース検索装置および方法

Info

Publication number
JPH10228484A
JPH10228484A JP9032301A JP3230197A JPH10228484A JP H10228484 A JPH10228484 A JP H10228484A JP 9032301 A JP9032301 A JP 9032301A JP 3230197 A JP3230197 A JP 3230197A JP H10228484 A JPH10228484 A JP H10228484A
Authority
JP
Japan
Prior art keywords
characters
character string
database search
search key
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9032301A
Other languages
English (en)
Inventor
Tomosada Hayashi
智定 林
Masahiro Oku
雅博 奥
Ryosuke Noda
良輔 野田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP9032301A priority Critical patent/JPH10228484A/ja
Publication of JPH10228484A publication Critical patent/JPH10228484A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 無意味な候補を検索対象から外し効率化す
る。 【解決手段】 利用者よりの文字列を、単語又は文字単
位に区切られた検索キーと比較し(S2)、入力文字列
の文字数、文字のならびがキーの一部と一致すると一致
箇所が、単語又は文字区切りに挟まれている場合は、そ
のキーでデータベースを検索する(S3)。完全に一致
してなく、一部一致しているが区切りに挟まれていない
場合は、入力文字列を末尾から1文字又は区切り単位で
比較対象から外して(S4)、ステップS2に戻る。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、利用者から入力
された曖昧な情報に基づいて所望の情報をデータベース
から検索するデータベース検索装置および方法に係わ
り、特に非効率的な検索と不要な検索候補を排除すると
ともに、検索可能範囲を広げることを可能としようとす
るものである。
【0002】
【従来の技術】データベース検索装置において、利用者
が入力した情報を検索条件としてデータベース検索を行
う場合、検索方法としてはインデックス等に代表される
データベース検索キーとなる情報(以降、データベース
検索キー)と利用者が入力した情報との比較を行い、一
致するデータベース検索キーを得た後、その検索キーに
基づいてデータベースを検索する方法が一般的である。
この方法の場合、従来は、先ず利用者が入力した情報
と、文字数、文字のならびとも完全に一致するデータベ
ース検索キーを探し、完全に一致するデータベース検索
キーが存在しなかった場合は、利用者が入力した情報を
一部として含むデータベース検索キーを探すために、全
データベース検索キーとの間で一文字ずつずらしながら
一致しているか否かを確認する必要があった。
【0003】例えば、利用者が「日本海底火災株式会
社」に関する情報を得ようとするケースを例に考える。
この場合のデータベース検索キーを「日本海底火災株式
会社」とし、これに対して利用者が「海底火災」と入力
したが、「海底火災」と完全に一致するデータベース検
索キーが存在せず、「海底火災」を一部に含むデータベ
ース検索キー(この場合は「日本海底火災株式会社」)
を探す手順は概ね以下の通りとなる。
【0004】(1)「日本海底火災株式会社」の先頭の
文字から順に「海底火災」と比較し、一致しているか否
かを確認する。この場合、「日本海底」との比較となり
不一致であることは明らかである。 (2)上記(1)の結果が不一致であったため、今度は
「日本海底火災株式会社」の先頭から二文字目から順に
「海底火災」と比較を行う。「本海底火」との比較とな
り不一致であることは明らかである。
【0005】(3)上記(2)と同様に、今度は「日本
海底火災株式会社」の先頭から3文字目から順に「海底
火災」との比較を行う。ここで「海底火災」との一致が
確認できる。
【0006】
【発明が解決しようとする課題】しかしながら、上記の
ような方法では以下のような問題が生じる。 (1)利用者が入力した情報とデータベース検索キーと
の間で、一文字ずつずらしながら比較する必要があるた
め、非常に多くの時間および計算機リソースを必要とす
る。最悪のケースとして、一致するデータベース検索キ
ーが存在しない場合は、すべてのデータベース検索キー
に対して上記の手順での比較が必要となり、特に大規模
なデータベース検索システムにおいて深刻な問題となっ
ていた。
【0007】(2)利用者が入力した情報とデータベー
ス検索キーとの間で、単純に一文字ずつずらしながら比
較しているため、無意味な候補が得られることがあっ
た。例えば、「日本田園株式会社」や「本田電話電信会
社」のようなデータベース検索キーが存在している場合
に、利用者が後者を検索する意図で「本田」と入力する
と前者までもが候補となってしまう等である。
【0008】(3)利用者が入力した情報の全体が、デ
ータベース検索キーの一部に含まれている場合は検索が
可能であるが、利用者が入力した情報の一部のみがデー
タベース検索キーの一部に含まれる場合は、検索が不可
能であった。例えば、「日本海底火災株式会社」に対し
て「海底火災」と利用者が入力した場合は上記の通り検
索が可能であったが、「海底火事火災」や「海底火災火
事」といった入力が行われた場合は、「火事」の部分が
不一致となり検索ができない。これは、利用者が情報を
入力するうえで非常に大きな制約となっていた。
【0009】(4)利用者が入力した文字数がデータベ
ース検索キーの文字数よりも長い場合は、検索が不可能
であった。例えば、「株式会社日本海底火災」に対して
「株式会社日本海底火災火事」や「株式会社大日本海底
火災」といった入力が行われた場合は、検索が不可能で
あった。これも上記(3)と同様に利用者が情報を入力
するうえで非常に大きな制約となっていた。
【0010】この発明は上記の点に鑑みなされたもの
で、利用者からの曖昧な情報に基づいて所望の情報をデ
ータベースから検索する際に、単語区切り、文字区切り
を利用して非効率的な検索と不要な検索候補を排除する
とともに、利用者からの入力情報とデータベース検索キ
ーとの比較文字数を必要に応じて減らすことにより、検
索可能範囲を広げることができるデータベース検索装置
および方法を提供することを目的とする。
【0011】
【課題を解決するための手段】図1はこの発明の装置の
原理機能構成図である。この発明は、利用者から入力さ
れた表記文字列あるいは、読み文字列に基づいて所望の
情報をデータベースから検索するデータベース検索装置
1において、データベース検索に必要な利用者から入力
される表記文字列あるいは読み文字列を受け付ける入力
手段2と、入力手段2により入力された表記文字列ある
いは読み文字列に対して、必要に応じて単語区切りある
いは文字区切りを付与する区切り付与手段4と、予め単
語単位あるいは文字単位に区切られたデータベース検索
キーを複数保持したデータベース検索キー部7と、区切
り付与手段3の作用の結果として得られる入力文字列と
データベース検索キー7とを比較する比較手段5と、比
較手段5により比較した結果に基づいて利用者からの入
力文字列の比較対象文字数を削減する比較対象文字数削
減手段9と、データベース検索キーに基づいてデータベ
ースから情報を検索する検索手段6と、検索手段6で検
索された検索候補を出力する手段10とを有する。
【0012】また、上記の区切り付与手段4は、必要に
応じて単語区切りあるいは文字区切りを付与する手段を
含む他、なんら区切りを付与しないように振る舞う手段
も含む。また、上記の比較手段5は、利用者から入力さ
れた表記文字列あるいは読み文字列と、予め単語単位あ
るいは文字単位に区切られたデータベース検索キーとの
間で、文字数、文字のならびを比較する手段を含むとと
もに、入力された文字列がデータベース検索キーに付与
されている単語区切りあるいは文字区切りに挟まれてい
るか否かを確認する手段も含む。
【0013】また、上記の比較対象文字数削減手段9
は、比較手段5による比較の結果、文字数、文字のなら
びとも完全に一致するデータベース検索キーが存在せ
ず、且つ、部分的に一致する場合であっても単語区切り
あるいは文字区切りに挟まれたものが存在しない場合も
しくは、利用者から入力された文字数がデータベース検
索キーの文字数よりも多い場合に、区切り付与手段4に
より単語区切りが付与されているときには、利用者から
入力された文字列を末尾から一単語ずつ比較対象文字列
から外す手段と、区切り付与手段4により文字区切りが
付与されているときには、利用者から入力された文字列
を末尾から一文字ずつ比較対象文字列から外す手段と、
区切り付与手段4により単語区切り、文字区切りのいず
れも付与されていないときには、利用者から入力された
文字列を末尾から機械的に一文字ずつ比較対象文字列か
ら外す手段を有する。
【0014】図2はこの発明の方法の原理手順を説明す
るための流れ図である。この発明は、利用者から入力さ
れた表記文字列あるいは読み文字列に基づき所望の情報
をデータベースから検索するデータベース検索方法にお
いて、利用者から入力された表記文字列あるいは読み文
字列を受け付け(ステップ1)、予め単語単位あるいは
文字単位に区切られたデータベース検索キーと、ステッ
プ1で受け付けた文字列との比較を行い(ステップ
2)、その比較した結果、上記のデータベース検索キー
と利用者から入力された文字列が文字数、文字のならび
とも完全に一致する場合は、そのデータベース検索キー
に基づいてデータベースを検索し(ステップ3)、比較
した結果、利用者から入力された文字列の文字数、文字
のならびが、上記のデータベース検索キーの一部と一致
する場合は、一致箇所が単語区切りかあるいは文字区切
りに挟まれている場合にのみ、そのデータベース検索キ
ーに基づいてデータベースを検索し(ステップ3)、検
索した結果を出力する(ステップ5)。
【0015】上記のステップ2において、利用者から入
力された表記文字列あるいは読み文字列と、予め単語単
位あるいは文字単位に区切られたデータベース検索キー
との比較を行った結果、文字数、文字のならびとも完全
に一致するデータベース検索キーが存在せず、且つ、部
分的に一致する場合であっても単語区切りあるいは文字
区切りに挟まれたものが存在しない場合もしくは、利用
者から入力された文字数がデータベース検索キーの文字
数よりも多い場合には、利用者から入力された文字列を
末尾より比較対象から外し比較対象文字数を減らした後
(ステップ4)、ステップ2およびステップ3の手順に
従って、データベースを検索することを、所望の情報が
得られる迄かあるいは、比較対象文字数が無くなるか、
比較対象文字数が予め決めておいた文字数に達するまで
繰り返す。
【0016】上記のステップ4において、利用者から入
力された文字列を末尾より比較対象から外す際に、利用
者から入力された文字列に対して単語区切りが付与され
ているときには、その単語区切りに従って末尾より一単
語ずつ比較対象文字列から外し、利用者から入力された
文字列に対して文字区切りが付与されているときには、
その文字区切りに従って末尾より一文字ずつ比較対象文
字列から外し、単語区切り、文字区切りのいずれも付与
されていないときには、機械的に末尾より一文字ずつ比
較対象文字列から外す。
【0017】
【作用】上記のように、この発明では、利用者から検索
条件となる文字列を受け付けると、この文字列と予め単
語単位あるいは文字単位に区切られたデータベース検索
キーとの比較を行い、データベース検索に必要となる検
索キーの特定を試みるが、利用者から入力された文字列
と、文字数および文字のならびともに完全に一致するデ
ータベース検索キーが存在しない場合には、利用者が入
力した文字列を一部として含むデータベース検索キーの
探索を行う。このとき、予め付与された単語区切りある
いは文字区切りに挟まれた一致箇所を有するデータベー
ス検索キーのみを有効とする。
【0018】有効となるデータベース検索キーが存在し
なかった場合および、利用者が入力した文字数がデータ
ベース検索キーの文字数よりも多い場合には、利用者か
ら入力された文字列を末尾より比較対象から外すことに
より、比較対象文字数を削減した後、再び上記の手順に
則ってデータベース検索に必要となる検索キーの探索を
所望の情報が得られるまでかあるいは、比較対象文字が
なくなるか、比較対象文字数が予め決めておいた文字数
に達するまで繰り返す。比較対象文字数を削減する際に
は、利用者が入力した文字列に対して単語区切りが付与
されている場合には単語区切りに則って一単語ずつ、文
字区切りが付与されている場合には文字区切りに則って
一文字ずつ、また、何等区切りが付与されていない場合
には機械的に一文字ずつ削減する。
【0019】このように、単語区切りや文字区切り単位
に文字列の比較を行うので、比較に必要な時間および、
マシンリソースの節約が可能になる他、無意味な候補を
検索対象から外すことが可能となる。また、利用者が入
力した文字列の末尾を少しずつ検索対象から外しなが
ら、データベース検索キーの探索を行うため、利用者が
入力した文字列の一部のみがデータベース検索キーの一
部に含まれる場合や、利用者が入力した文字数がデータ
ベース検索キーよりも多い場合も検索が可能となる。
【0020】
【発明の実施の形態】図3は、この発明のデータベース
検索装置の機能構成を示す。同図に示すデータベース検
索装置1は、入力部2、区切り付与部4、比較部5、デ
ータベース検索部6、データベース検索キー部7、デー
タベース8、文字削減部9、出力部10から構成され
る。さらに比較部5は文字数比較部5aと文字列比較部
5bから構成される。文字削減部9は、単語区切り単位
削減部9a、文字区切り単位削減部9b、機械的削減部
9cから構成される。
【0021】入力部2は、キーボード等の入力装置3か
ら入力される文字列を受け付ける。区切り付与部4は、
入力部2で受け付けた文字列に対して区切りを付与す
る。この区切り付与部4は、単語区切り付与部4aと文
字区切り付与部4bから構成されていて、単語区切り付
与部4aは、入力部2で受け付けた文字列に対して単語
単位に区切りの付与を行う。文字区切り付与部4bは、
入力部2で受け付けた文字列に対して文字単位に区切り
の付与を行う。また、この区切り付与部4は上記のとお
り、単語区切り付与部4aや文字区切り付与部4bの機
能により、区切りの付与を行うように動作する他、区切
りの付与を一切行わないようにも動作する。なお、入力
された文字列を単語単位に区切る方法としては、形態素
解析と呼ばれる技術、すなわち、複数の単位が結合され
て成る複合語を、構成要素である複数の単語に区切る手
法が知られており、その技術を用いることができる。
【0022】データベース検索キー部7は、データベー
ス部8から所望の情報を検索するためのデータベース検
索キーを複数保持しており、各検索キーは必要に応じ
て、予め単語区切りか文字区切りの何れか一方もしく
は、両方を付与されている。比較部5は、データベース
検索キー部7に保持されているデータベース検索キー
と、区切り付与部4あるいは文字削減部9からの文字列
との比較を行い、データベース検索に必要なデータベー
ス検索キーの特定を行う。このとき、文字数比較部5a
により、先ず区切り付与部4からの文字列の文字数が最
小検索文字数以上であることを確認する。文字列の文字
数が最小検索文字数よりも少なかった場合は、その旨を
出力部10に送出し、データベース検索に関わる一連の
処理を終了する。また、文字数がデータベース検索キー
部7に保持されている各検索キーの最大文字数を越える
場合は文字削減部9に文字列を送る。
【0023】文字数が各検索キーの最大文字数以下の場
合、文字列比較部5bにより文字のならびの比較を行
う。この結果、文字数、文字のならびともに完全に一致
するデータベース検索キーが存在するときは当該検索キ
ーを用いてデータベース検索を行うようにデータベース
検索部6の制御を行う。完全に一致するデータベース検
索キーが存在しない場合で且つ、文字列全体がデータベ
ース検索キーの一部と一致するときは、一致箇所が単語
区切りもしくは文字区切りに挟まれている場合にのみ当
該検索キーを用いてデータベース検索を行うようにデー
タベース検索部6の制御を行う。
【0024】完全に一致するデータベース検索キーが存
在せず且つ、文字列全体がデータベース検索キーの一部
とも一致しない場合には、当該文字列を文字削減部9に
送る。文字削減部9は、比較部5から入力された文字列
を末尾から削減する。このとき、区切り付与部4におい
て単語区切りが付与されている場合は、単語区切り単位
削減部9aにより単語区切りに従って末尾から一単語削
減し、また、文字区切りが付与されている場合は、文字
区切り単位削減部9bにより文字区切りに従って末尾か
ら一文字削減し、単語区切り、文字区切りのいずれも付
与されていない場合には、機械的削減部9cによって末
尾から機械的に一文字削減する。文字数を削減した後、
文字列は比較部5に送出される。
【0025】データベース検索部6は、比較部5からの
制御により所定のデータベース検索キーを用いて、デー
タベース部8から必要な情報を検索し、出力部10へ送
る。出力部10は、データベース検索部6で検索した結
果を出力装置11から出力する。
【0026】
【実施例】以下、図面とともに、この発明の実施例を説
明する。先ず、図4、図5に示すデータベース検索キー
となる情報(以下、データベース検索キーと記す)につ
いて説明する。図4は、単語区切りが付与されたデータ
ベース検索キーの例である。
【0027】同図に示すように、データベース検索キー
の1レコードは、読み文字列に対する検索キー41aと
表記文字列に対する検索キー41b、正式名称42、デ
ータベース実体へのポインタ43から構成される。ま
た、41a、41bには予め単語区切りが付与されてい
る。同様に図5は、文字区切りが付与されたデータベー
ス検索キーの例である。
【0028】同図に示すように、データベース検索キー
の1レコードは、読み文字列に対する検索キー51aと
表記文字列に対する検索キー51b、正式名称52、デ
ータベース実体へのポインタ53から構成される。ま
た、51a、51bには予め文字区切りが付与されてい
る。また、単語区切りによる文字列とデータベース検索
キーの比較例について、表記文字列との比較例を図6
に、読み文字列との比較例を図7に示す。さらに、文字
区切りによる比較例については、図8に読み文字列との
比較例を示す。以下に、これらについて具体的に説明す
る。単語区切りを利用して検索する場合 (1)利用者から入力された表記文字列全体が検索キー
の一部と一致する場合いま、利用者が正式名称:「日本
海底火災株式会社」に関する情報を得るため、表記文字
列で「日本海底」と入力したとする。この「日本海底」
は入力部2を通して区切り付与部4に送られる。区切り
付与部4は単語区切りか文字区切りのいずれかを付与す
るか、もしくは何等区切りを付与しないように動作する
が、この例では、何も動作しない場合を考える。
【0029】区切り付与部4に送られた「日本海底」と
いう文字列は、そのまま比較部5に送られ、文字数比較
部5aにより文字数のチェックが行われる。先ず、文字
数が予め登録されている最小検索文字数(ここでは3文
字とする)以上であることを確認する。最小検索文字数
よりも少ない場合は、その旨を出力部10に送出しデー
タベース検索に関わる一連の処理を終了する。この例で
は、文字列の文字数が4文字であり最小検索文字数より
も多いため、次いで、データベース検索キー部7に保持
されている検索キーの最大文字数を越えるか否かのチェ
ックが行われる。最大文字数を越える場合は、入力され
た文字列は文字削減部9へ送られるが、この例では4文
字であり、最大文字数よりも少ないことは明らかである
ことから、表記文字列に対する検索キー41bとの間で
一致する検索キーの探索を行う。この例では「日本海
底」という文字列を一部に含む検索キーは項番1の「/
日本/海底/火災/株式/会社/」と項番2の「/日本
/海底温/保存/会社/」の2件が存在するが、これら
のうち、単語区切りに挟まれた箇所が一致しているの
は、項番1の「/日本/海底/火災/株式/会社/」で
ある。項番2の「/日本/海底温/保存/会社/」は、
文字列そのものは一致するものの、区切り位置が異なっ
ている。この様子を図6に例として示す。
【0030】利用者が入力した文字列「日本海底」を一
部に含む検索キーの特定が完了したため、当該検索キ
ー:「/日本/海底/火災/株式/会社/」を用いてデ
ータベース検索を行うよう、データベース検索部6に検
索要求を出す。データベース検索部6は、その検索要求
に従ってデータベース8の検索を行い、検索した情報を
出力部10を通して出力装置に出力する。 (2)利用者から入力された表記文字列の一部が検索キ
ーの一部と一致する場合いま、利用者が正式名称:「日
本海底火災株式会社」に関する情報を得るため、表記文
字列で「日本海底付近」と入力したとする。この「日本
海底付近」は入力部2を通して区切り付与部4に送られ
る。区切り付与部4は単語区切りか文字区切りのいずれ
かを付与するか、もしくは何等区切りを付与しないよう
に動作するが、上記(1)と同様、何も動作しない場合
を考える。
【0031】区切り付与部4に送られた「日本海底付
近」という文字列は、そのまま比較部5に送られ、上記
(1)と同様に最少検索文字数(3文字とする)以上か
否かおよび、データベース検索キー部7に保持されてい
る検索キーの最大文字数を越えるか否かのチェックが行
われる。この例では6文字であり、最少検索文字数より
も多く且つ、最大文字数よりも少ないことは明らかであ
ることから、表記文字列に対する検索キー41bとの間
で一致する検索キーの探索を行う。この例では「日本海
底付近」という文字列を一部に含む検索キーは存在しな
いため、この文字列は文字削減部9に送られる。
【0032】文字削減部9では、送られてきた文字列に
単語区切りが付与されていれば単語単位削減部9aによ
り単語区切りに沿って一単語削減され、文字区切りが付
与されていれば文字単位削減部9bにより文字区切りに
沿って一文字削減される。また、何等区切りが付与され
ていない場合は機械的削減部9cにより末尾から機械的
に一文字削減される。
【0033】この例では、何等区切りが付与されていな
いため、機械的削減部9cにより末尾から一文字削減さ
れ、入力された文字列は「日本海底付」となる。この文
字列を再び比較部5に送り、上記と同様に最少検索文字
数以上であるか否かのチェックの後、検索キー41bと
の間で一致する検索キーの探索を行うが、文字列「日本
海底付」を一部に含む検索キーは存在しないため、再
度、文字削減部9に送られ、機械的削減部9cにより末
尾から一文字削減される。この結果、文字列は「日本海
底」となり、再度、比較部5に送られる。
【0034】比較部5に送られてきた文字列「日本海
底」は、上記と同様な手順で、最少検索文字数以上であ
るか否かのチェックの後、41bとの間で一致する検索
キーの探索を行う。この結果、「日本海底」を一部に含
む検索キーとして、項番1の「/日本/海底/火災/株
式/会社/」と項番2の「/日本/海底温/保存/会社
/」の2件が存在するが、上記(1)と同様、項番1の
「/日本/海底/火災/株式/会社/」をデータベース
検索キーとして得ることができ、この検索キーを用いて
データベース検索を行うよう、データベース検索部6に
検索要求を出す。
【0035】データベース検索部6は、この検索要求に
従ってデータベース8の検索を行い、検索した情報を出
力部10を通して出力装置に出力する。なお、利用者が
入力した文字数が、データベース検索キー部7に保持さ
れているデータベース検索キーの最大文字数を越える場
合の一連の手順(文字数削減〜検索キー探索)も、本手
順と同様であるため省略する。 (3)利用者から入力された読み文字列全体が検索キー
の一部と一致する場合いま、利用者が正式名称:「日本
海底火災株式会社」に関する情報を得るため、読み文字
列で「ニホンカイテイ」と入力したとする。この「ニホ
ンカイテイ」は入力部2を通して区切り付与部4に送ら
れる。区切り付与部4は単語区切りか文字区切りのいず
れかを付与するか、もしくは何等区切りを付与しないよ
うに動作するが、この例では、何も動作しない場合を考
える。
【0036】区切り付与部4に送られた「ニホンカイテ
イ」という文字列は、そのまま比較部5に送られ、上記
(1)、(2)と同様に、最少検索文字数(3文字とす
る)以上か否かおよび、データベース検索キー部7に保
持されている検索キーの最大文字数を越えるか否かをチ
ェックされる。この例では4文字であり、最少検索文字
数よりは多く且つ、最大文字数よりも少ないことは明ら
かであることから、読み文字列に対する検索キー41a
との間で一致する検索キーの探索を行う。この例では
「ニホンカイテイ」という文字列を一部に含む検索キー
は項番1の「/ニホン/カイテイ/カサイ/カブシキ/
カイシャ/」と項番2の「/ニホン/カイテイオン/ホ
ゾン/カイシャ」の2件が存在するが、これらのうち、
単語区切りに挟まれた箇所が一致しているのは、項番1
の「/ニホン/カイテイ/カサイ/カブシキ/カイシャ
/」である。項番2の「/ニホン/カイテイオン/ホゾ
ン/カイシャ/」は、文字列そのものは一致するもの
の、区切り位置が異なっている。この様子を図7に例と
して示す。
【0037】利用者が入力した文字列「日本海底」を一
部に含む検索キーの特定が完了したため、当該検索キ
ー:「/ニホン/カイテイ/カサイ/カブシキ/カイシ
ャ/」を用いてデータベース検索を行うよう、データベ
ース検索部6に検索要求を出す。データベース検索部6
は、その検索要求に従ってデータベース8の検索を行
い、検索した情報を出力部10を通して出力装置に出力
する。 (4)利用者から入力された読み文字列の一部が検索キ
ーの一部と一致する場合いま、利用者が正式名称:「日
本海底火災株式会社」に関する情報を得るため、読み文
字列で「ニホンカイテイフキン」と入力したとする。こ
の「ニホンカイテイフキン」は入力部2を通して区切り
付与部4に送られる。区切り付与部4は単語区切りか文
字区切りのいずれかを付与するか、もしくは何等区切り
を付与しないように動作するが、上記(3)と同様、何
も動作しない場合を考える。
【0038】区切り付与部4に送られた「ニホンカイテ
イフキン」という文字列は、そのまま比較部5に送ら
れ、上記と同様に、最少検索文字数(3文字とする)以
上か否かおよび、データベース検索キー部7に保持され
ている検索キーの最大文字数を越えるか否かをチェック
される。この例では6文字であり、最少検索文字数より
は多く且つ、最大文字数よりも少ないことは明らかであ
ることから、読み文字列に対する検索キー41aとの間
で一致する検索キーの探索を行う。この例では「ニホン
カイテイフキン」という文字列を一部に含む検索キーは
存在しないため、この文字列は文字削減部9に送られ
る。
【0039】この例では、何等区切りが付与されていな
いため、機械的削減部9cにより末尾から一文字削減さ
れ、入力された文字列は「ニホンカイテイフ」となる。
この文字列を再び比較部5に送り、最少検索文字数以上
であるか否かのチェックの後、上記と同様に検索キー4
1aとの間で一致する検索キーの探索を行うが、文字列
「ニホンカイテイフ」を一部に含む検索キーは存在しな
いため、再度、文字削減部9に送られ、機械的削減部9
cにより末尾から一文字削減される。この結果、文字列
は「ニホンカイテイ」となり、再度、比較部5に送られ
る。
【0040】比較部5に送られてきた文字列「ニホンカ
イテイ」は、上記と同様な手順で最少検索文字数以上で
あるか否かのチェックの後、41aとの間で一致する検
索キーの探索を行う。この結果、「ニホンカイテイ」を
一部に含む検索キーとして、項番1の「/ニホン/カイ
テイ/カサイ/カブシキ/カイシャ/」と項番2の「/
ニホン/カイテイオン/ホゾン/カイシャ/」の2件が
存在するが、上記(3)と同様、項番1の「/ニホン/
カイテイ/カサイ/カブシキ/カイシャ/」をデータベ
ース検索キーとして得ることができ、その検索キーを用
いてデータベース検索を行うよう、データベース検索部
6に検索要求を出す。
【0041】データベース検索部6は、その検索要求に
従ってデータベース8の検索を行い、検索した情報を出
力部10を通して出力装置に出力する。なお、利用者が
入力した文字数が、データベース検索キー部7に保持さ
れているデータベース検索キーの最大文字数を越える場
合の一連の手順(文字数削減〜検索キー探索)も、この
手順と同様であるため省略する。文字区切りを利用して検索する場合 (1)利用者から入力された読み文字列全体が検索キー
の一部と一致する場合いま、利用者が正式名称:「あお
き電信会社」に関する情報を得るため、読み文字列で
「アオキ」と入力したとする。この「アオキ」は入力部
2を通して区切り付与部4に送られる。区切り付与部4
は単語区切りか文字区切りのいずれかを付与するか、も
しくは何等区切りを付与しないように動作するが、この
例では、何も動作しない場合を考える。
【0042】区切り付与部4に送られた「アオキ」とい
う文字列は、そのまま比較部5に送られ、上記と同様
に、最少検索文字数(3文字とする)以上か否かおよ
び、データベース検索キー部7に保持されている検索キ
ーの最大文字数を越えるか否かをチェックされる。この
例では3文字であり、最少検索文字数(3文字とする)
以上であり且つ、最大文字数よりも少ないことは明らか
であることから、読み文字列に対する検索キー51aと
の間で一致する検索キーの探索を行う。この例では「ア
オキ」という文字列を一部に含む検索キーは項番1の
「/アオ/キン/デン/シン/カイ/シャ/」と項番2
の「/ア/オ/キ/デン/シン/カイ/シャ/」の2件
が存在するが、これらのうち、文字区切りに挟まれた箇
所が一致しているのは、項番2の「/ア/オ/キ/デン
/シン/カイ/シャ/」である。項番1の「/アオ/キ
ン/デン/シン/カイ/シャ/」は、文字列そのものは
一致するものの、区切り位置が異なっている。この様子
を例として図8に示す。
【0043】利用者が入力した文字列「アオキ」を一部
に含む検索キーの特定が完了したため、当該検索キー:
「/ア/オ/キ/デン/シン/カイ/シャ/」を用いて
データベース検索を行うよう、データベース検索部6に
検索要求を出す。データベース検索部6は、その検索要
求に従ってデータベース8の検索を行い、検索した情報
を出力部10を通して出力装置に出力する。 (2)利用者から入力された読み文字列の一部が検索キ
ーの一部と一致する場合いま、利用者が正式名称:「あ
おき電信会社」に関する情報を得るため、読み文字列で
「アオキヤ」と入力したとする。この「アオキヤ」は入
力部2を通して区切り付与部4に送られる。区切り付与
部4は単語区切りか文字区切りのいずれかを付与する
か、もしくは何等区切りを付与しないように動作する
が、上記(1)と同様、何も動作しない場合を考える。
【0044】区切り付与部4に送られた「アオキヤ」と
いう文字列は、そのまま比較部5に送られ、上記と同様
に、最少検索文字数以上であるか否かおよび、データベ
ース検索キー部7に保持されている検索キーの最大文字
数を越えるか否かをチェックされる。この例では4文字
であり、最少検索文字数以上であり且つ、最大文字数よ
りも少ないことは明らかであることから、読み文字列に
対する検索キー51aとの間で一致する検索キーの探索
を行う。この例では「アオキヤ」という文字列を一部に
含む検索キーは存在しないため、この文字列は文字削減
部9に送られる。
【0045】文字削減部9では、送られてきた文字列に
単語区切りが付与されていれば単語単位削減部9aによ
り単語区切りに沿って一単語削減され、文字区切りが付
与されていれば文字単位削減部9bにより文字区切りに
沿って一文字削減される。また、何等区切りが付与され
ていない場合は機械的削減部9cにより末尾から機械的
に一文字削減される。
【0046】この例では何等区切りが付与されていない
ため、機械的削減部9cにより末尾から一文字削減さ
れ、入力された文字列は「アオキ」となる。この文字列
が再び比較部5に送られる。比較部5に送られてきた文
字列「アオキ」は、最少検索文字数以上であるか否かの
チェックの後、上記と同様な手順で51aとの間で一致
する検索キーの探索を行う。この結果、「アオキ」を一
部に含む検索キーとして、項番1の「/アオ/キン/デ
ン/シン/カイ/シャ/」と項番2の「/ア/オ/キ/
デン/シン/カイ/シャ/」の2件が存在するが、上記
(1)と同様、項番2の「/ア/オ/キ/デン/シン/
カイ/シャ/」を得ることができ、この検索キーを用い
てデータベース検索を行うよう、データベース検索部6
に検索要求を出す。
【0047】データベース検索部6は、その検索要求に
従ってデータベース8の検索を行い、検索した情報を出
力部10を通して出力装置に出力する。なお、利用者が
入力した文字数が、データベース検索キー部7に保持さ
れているデータベース検索キーの最大文字数を越える場
合の一連の手順(文字数削減〜検索キー探索)も、この
手順と同様であるため省略する。
【0048】上述した実施例では、区切り付与部4で入
力文字列に区切りを付与しなかったか、利用者から入力
された文字列に例えば単語区切りを付与する事によっ
て、入力文字列を構成する各単語とデータベース検索キ
ーを構成する各単語の比較が可能となり、これにより、
利用者の記憶の曖昧さに対して、さらなる対処が可能と
なる。つまり先の実施例では、利用者からの入力情報と
データベース検索キーとの比較を行う場合、少なくとも
入力情報は先頭から何文字かは正しいという前提を置い
ていた。このため、一致する検索キーが見つからなかっ
た場合は、入力情報を末尾から機械的に一文字ずつ削る
か、単語区切り/文字区切りが付与されている場合は、
区切り単位に末尾から削り、残った入力情報と検索キー
を比較するようにしている。これに対して、利用者の記
憶が曖昧で例えば、正式名称:「日本海底火災株式会
社」という企業の情報を得る目的で「日本火災海底」と
入力した場合、以下に示す様な問題が生じる。 〔例〕 正式名称:「/日本/海底/火災/株式/会社/」 入力情報:「/日本/火災/海底/」 この場合、入力情報である「日本火災海底」と一致する
検索キーが存在しなかった場合、入力情報を末尾から一
単語分削除し、「日本火災」と一致する検索キーを探し
に行く。
【0049】しかし、「日本火災」と一致する検索キー
も存在しないため、さらに一単語分削除し「日本」とい
う文字列と一致する検索キーを探しに行くことになり、
この例では一応、利用者が所望する「日本海底火災株式
会社」も候補となるが、「日本」という文字列をもつ企
業名は日本には限りなく存在するので、結果的には一意
に特定出来ない可能性が極めて高くなる。また、利用者
が入力した「日本」、「火災」および「海底」という情
報は個々に観ると、全て所望する企業名を構成する極め
て有効な情報で、入力した順番が誤っていただけでこれ
らを検索条件として利用できないのは、検索効率という
点で不利である。
【0050】これに対して、入力情報に単語区切りや文
字区切りを付与しておけば、入力情報を構成する各単語
を含む検索キーを探すことが可能となり、上記の様な不
利益を防止できる。つまり、正式名称:「/日本/海底
/火災/株式/会社/」に対して、入力情報:「/日本
/火災/海底/」が入力され、これを単語単位で区切っ
た場合、「日本」と「火災」と「海底」という3つの単
語を含む検索キーを探すことで、「/日本/海底/火災
/株式/会社/」を候補とする事ができ、且つ、上記の
例の様に、「日本」のみを含む検索キーを探す場合より
も、遙かに候補数が減り、検索効率が向上する。
【0051】この発明は上記の実施例に限定されること
なく、特許請求の範囲の記載内で種々変更・応用が可能
である。
【0052】
【発明の効果】以上の説明から明らかなように、この発
明のデータベース検索装置および方法を用いれば、以下
の効果が得られる。 (1)利用者が入力した文字列とデータベース検索キー
との比較を、単語区切りあるいは文字区切り単位に行う
ことが可能となり、従来の技術と比べると多くの計算機
リソースが不要となる。これにともない、検索時間の短
縮化が図れる。
【0053】(2)利用者が入力した文字列とデータベ
ース検索キーとの比較を、単語区切りあるいは文字区切
り単位に行うことが可能となり、無意味な候補を検索対
象から外すことが可能となった。これにより、データベ
ース検索の効率化が図れる。 (3)必要に応じて、利用者が入力した文字列の末尾を
比較対象から外すことが可能となったため、入力された
文字列の全てが、データベース検索キーの一部もしくは
全体と一致している必要がなくなった。これにより、利
用者の持つ情報が不確実な場合でも、ある程度データベ
ースの検索が可能となる。
【0054】(4)利用者が入力した文字列を単語又は
文字単位で区切り、かつデータベース検索キーも単語又
は文字単位で区切り、これら両者は単語又は文字単位で
比較することにより、利用者が入力順を間違えた曖昧な
情報でも、効率的な検索が可能である。
【図面の簡単な説明】
【図1】この発明装置の原理構成を示す図。
【図2】この発明方法の原理の処理手順を示す流れ図。
【図3】この発明装置の実施例を示す機能構成図。
【図4】単語区切りが付与されたデータベース検索キー
の例を示す図。
【図5】文字区切りが付与されたデータベース検索キー
の例を示す図。
【図6】表記文字列と単語区切りデータベース検索キー
の比較例を示す図。
【図7】読み文字列と単語区切りデータベース検索キー
の比較例を示す図。
【図8】読み文字列と文字区切りデータベース検索キー
の比較例を示す図。

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 利用者から入力された文字列に基づき所
    望の情報をデータベースから検索するデータベース検索
    装置において、 予め単位ごとに区切られたデータベース検索キーを記憶
    する手段と、 利用者から入力された文字列と上記データベース検索キ
    ーとを比較する比較手段とを具備することを特徴とする
    データベース検索装置。
  2. 【請求項2】 上記利用者から入力された文字列に対し
    て単位ごとに区切りを付与する手段とを有し、 上記比較手段は上記区切りを付与された入力された文字
    列と上記データベース検索キーを比較することを特徴と
    する請求項1記載のデータベース検索装置。
  3. 【請求項3】 利用者から入力された文字列に基づき所
    望の情報をデータベースから検索するデータベース検索
    方法において、 利用者から入力された文字列と予め単位ごとに区切られ
    たデータベース検索キーとの比較を行い、 利用者から入力された文字列と予め単位ごとに区切られ
    たデータベース検索キーとが、文字数、文字のならびと
    も完全に一致する場合はそのデータベース検索キーに基
    づきデータベースを検索し、 利用者から入力された文字列の文字数および文字のなら
    びが、予め単位ごとに区切られたデータベース検索キー
    の一部と一致する場合は、一致箇所が区切りに挟まれて
    いる場合にのみ、そのデータベース検索キーに基づきデ
    ータベースを検索することを特徴とするデータベース検
    索方法。
  4. 【請求項4】 利用者から入力された文字列に対して単
    位ごとに区切りを付与した後、その区切りを付与された
    文字列と、上記区切られたデータベース検索キーとの上
    記比較を行うことを特徴とする請求項3記載のデータベ
    ース検索方法。
  5. 【請求項5】 上記比較を行った結果、文字数、文字の
    ならびとも完全に一致するデータベース検索キーが存在
    せず、且つ、部分的に一致する場合であっても区切りに
    挟まれたものが存在しない場合もしくは、利用者から入
    力された文字数がデータベース検索キーの文字数よりも
    多い場合には、利用者から入力された文字列を末尾から
    機械的に一文字ずつ比較対象文字列から外すことによ
    り、比較対象文字数を一文字減らした後、請求項3に記
    述した方法によってデータベース検索を試みることを所
    望の情報が得られる迄かあるいは、比較対象文字が無く
    なるか、比較対象文字数が予め決めておいた文字数に達
    するまで繰り返すことを特徴とする請求項3記載のデー
    タベース検索方法。
  6. 【請求項6】 上記比較を行った結果、文字数、文字の
    ならびともに完全に一致するデータベース検索キーが存
    在せず、且つ、部分的に一致する場合であっても区切り
    に挟まれたものが存在しない場合もしくは、利用者から
    入力された文字数がデータベース検索キーの文字数より
    も多い場合には、付与した区切りを用いて、利用者から
    入力された文字列を末尾から1区切りずつ比較対象文字
    列から外すことにより、比較対象文字数を減らした後、
    請求項4に記述した方法によってデータベース検索を試
    みることを所望の情報が得られる迄かあるいは、比較対
    象文字がなくなるか、比較対象文字数が予め決めておい
    た文字数に達するまで繰り返すことを特徴とする請求項
    4記載のデータベース検索方法。
JP9032301A 1997-02-17 1997-02-17 データベース検索装置および方法 Pending JPH10228484A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9032301A JPH10228484A (ja) 1997-02-17 1997-02-17 データベース検索装置および方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9032301A JPH10228484A (ja) 1997-02-17 1997-02-17 データベース検索装置および方法

Publications (1)

Publication Number Publication Date
JPH10228484A true JPH10228484A (ja) 1998-08-25

Family

ID=12355130

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9032301A Pending JPH10228484A (ja) 1997-02-17 1997-02-17 データベース検索装置および方法

Country Status (1)

Country Link
JP (1) JPH10228484A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009080559A (ja) * 2007-09-25 2009-04-16 Fujitsu Ltd 検索システム、方法およびプログラム
JP2011159154A (ja) * 2010-02-02 2011-08-18 Aisin Aw Co Ltd 地点検索装置
JP2014137636A (ja) * 2013-01-15 2014-07-28 Ntt Docomo Inc 情報検索装置及び情報検索方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS53108351A (en) * 1977-03-04 1978-09-21 Nippon Telegr & Teleph Corp <Ntt> Telephone number guide system
JPH02158873A (ja) * 1988-12-12 1990-06-19 Ricoh Co Ltd キーワード・マッチング装置
JPH04259067A (ja) * 1991-02-14 1992-09-14 Canon Inc 文書処理装置
JPH06259481A (ja) * 1993-03-03 1994-09-16 Hitachi Ltd 同一文字種最長一致照合機能を備えた文字列照合方法および装置
JPH06290219A (ja) * 1993-03-31 1994-10-18 Sharp Corp 文字検索機能付き文書処理装置
JPH06325091A (ja) * 1993-05-13 1994-11-25 Nippon Telegr & Teleph Corp <Ntt> 類似度評価型データベース検索装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS53108351A (en) * 1977-03-04 1978-09-21 Nippon Telegr & Teleph Corp <Ntt> Telephone number guide system
JPH02158873A (ja) * 1988-12-12 1990-06-19 Ricoh Co Ltd キーワード・マッチング装置
JPH04259067A (ja) * 1991-02-14 1992-09-14 Canon Inc 文書処理装置
JPH06259481A (ja) * 1993-03-03 1994-09-16 Hitachi Ltd 同一文字種最長一致照合機能を備えた文字列照合方法および装置
JPH06290219A (ja) * 1993-03-31 1994-10-18 Sharp Corp 文字検索機能付き文書処理装置
JPH06325091A (ja) * 1993-05-13 1994-11-25 Nippon Telegr & Teleph Corp <Ntt> 類似度評価型データベース検索装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009080559A (ja) * 2007-09-25 2009-04-16 Fujitsu Ltd 検索システム、方法およびプログラム
JP2011159154A (ja) * 2010-02-02 2011-08-18 Aisin Aw Co Ltd 地点検索装置
JP2014137636A (ja) * 2013-01-15 2014-07-28 Ntt Docomo Inc 情報検索装置及び情報検索方法

Similar Documents

Publication Publication Date Title
US7536297B2 (en) System and method for hybrid text mining for finding abbreviations and their definitions
US4241402A (en) Finite state automaton with multiple state types
EP0378848A2 (en) Method for use of morphological information to cross reference keywords used for information retrieval
JP2002312365A (ja) 文書画像検索装置
US4285049A (en) Apparatus and method for selecting finite success states by indexing
EP0575192B1 (en) Finite state automaton text search apparatus having two-level memory structure
JPH10228484A (ja) データベース検索装置および方法
EP0352377A1 (en) Word processing apparatus and method
JPH10162008A (ja) 情報検索方法及び装置
KR930000593B1 (ko) 입력문자열과 키워드와의 근사적 합치(Match)를 이용한 정보 검색 시스템 및 그 합치 방법
JPH09198404A (ja) 文書処理方法及び装置
JP2000029901A (ja) 画像検索装置及び方法
JPH06259480A (ja) 文書検索方法
JPH0668145A (ja) 探索方法
JPH11143904A (ja) データベース検索方法,装置およびデータベース検索プログラムを記録した記録媒体
JPS63136224A (ja) キ−ワ−ド自動抽出装置
JP2827066B2 (ja) 数字列混在文書の文字認識の後処理方法
JPH09153044A (ja) 文字処理装置およびカナ英字変換装置
JP2000222432A (ja) 文書検索装置、文書検索方法及び文書検索プログラムを記録した記録媒体
JP2773657B2 (ja) 文字列検索装置
JPH0821031B2 (ja) 言語解析装置
JP2680311B2 (ja) 文字認識方式
JPH10105578A (ja) 点数を利用した類似単語検索方法
JPH06274701A (ja) 単語照合装置
JPS62180462A (ja) 音声入力かな漢字変換装置