JPH08287075A

JPH08287075A - データベース検索方法及び装置

Info

Publication number: JPH08287075A
Application number: JP7083663A
Authority: JP
Inventors: Tomoyuki Miyashita; 朋之宮下
Original assignee: Nippon Steel Corp
Current assignee: Nippon Steel Corp
Priority date: 1995-04-10
Filing date: 1995-04-10
Publication date: 1996-11-01

Abstract

(57)【要約】【目的】検索キーワードから一群の連語を生成し、こ
の一群の連語との一致度に基づいて検索結果を出力する
場合に、過検出が少なく、効率良く曖昧検索を行なえる
ようにする。【構成】検索キーワードから連語を生成する場合に、
ひらがな、カタカナ及び英数字のうちの同一の文字種の
字のみで構成される場合と、それ以外の場合とに分ける
（ステップ２２）。そして、データベースを検索して連
語と一致する文字列を数え（ステップ２３）、データベ
ース中の各文字列と一群の連語との一致度を算出する
（ステップ２６）。予め検索者が入力したしきい値と一
致度を比較し（ステップ２７）、しきい値以上の一致度
を有する文字列のみを検索結果として出力する（ステッ
プ２８）。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、データベースから必要
な情報を取り出すためのデータベース検索方法及び装置
に関し、特に、与えられた検索キーワードに類似した文
字列もデータベース中から検出可能な曖昧検索方法及び
装置に関する。

【０００２】

【従来の技術】利用者によって入力された検索キーワー
ドに基づいてその検索キーワードを含む文字列をデータ
ベース中で検索するデータベース検索装置ないし情報検
索装置での文字列検索方法として、検索キーワードを分
割して一群の連語を生成し、データベース中の文字列と
一群の連語との一致度を求めて目的とする文字列を検索
する方法があり、この方法は広く用いられている。連語
とは、検索キーワード中で隣接する文字の組み合わせで
構成された１あるいは数文字の長さの文字の並びのこと
である。検索キーワードのままであるとその長さが一定
しないので処理が複雑になるが、連語に分割して検索す
ることにより、高速での検索処理が可能になる。以下の
説明において、検索しようとする文字列を「検索キーワ
ード」、最終的に検索された文字列を「検索文字列」と
いうことにする。

【０００３】ここで、この連語を用いた文字列検索方法
について、図４のフローチャートを用いて説明する。こ
こでは、連語の文字長が２文字であり、検索キーワード
として「あいうえお」が選ばれるものとする。

【０００４】まず、検索者によって検索キーワード（こ
こでは「あいうえお」）が入力され（ステップ９１）、
入力された検索キーワードが連語長２文字の連語「あ
い」、「いう」、「うえ」及び「えお」に分割される
（ステップ９２）。続いて、各連語に関し、対象とする
データベースを検索してその連語が含まれるているかを
調べ、連語と一致した文字列をカウントする（ステップ
９３）。全ての連語についての検索が終ったかを判断し
（ステップ９４）、未検索の連語があればステップ９３
に戻り、全ての連語についての検索が終っていれば、文
字列ごとにカウント数を合計して一致度を算出し（ステ
ップ９５）、一致度が１００％である文字列を出力し
（ステップ９６）、処理を終了する。

【０００５】一致度は、検索キーワードと文字列との一
致の度合を示す尺度であって、各文字列ごとに、一致度（％）＝（カウント数の合計）／（連語の種類）×１００なる式で算出される。

【０００６】ここでは、連語長が２文字で検索キーワー
ドが「あいうえお」であるので、連語の種類は「あ
い」、「いう」、「うえ」、「えお」の４種類である。
表１は、各種の文字列に対する一致度を示した表であ
り、表中の○印はその連語がその文字列に含まれている
ことを示している。文字列に対する一致度が１００％で
ある場合に、その文字列が検索キーワードと同一の文字
列であることが多いので、検索者に対しては一致度が１
００％である文字列が出力される。

【０００７】

【表１】ところで、検索対象のデータベースに収録されるものと
しては、新聞記事や特許公報、学術論文などのあらゆる
種類の文書が挙げられ、またその内容も多岐にわたり数
値なども含まれており、誤字や脱字、旧漢字などが混入
していることも考えられる。さらには、表記のゆれ
（「ダイアル」と「ダイヤル」）があることも考えられ
る。例えばここで、上述の検索キーワードの「あいうえ
お」と一文字異なる文字列「あいう絵お」がデータベー
ス中に混入している場合を考えてみる。「あいう絵お」
には検索キーワードから得られた連語「うえ」及び「え
お」が含まれておらず、一致度は１００％とならない。
そのため、上述した検索方法によれば、検索キーワード
とは異なる文字列と判断されて文字列「あいう絵お」は
検出されない。

【０００８】ここで文字列「あいう絵お」は、データベ
ースヘのデータ入力時に誤って入力されたかものなの
か、意図的に「あいう絵お」として入力されたものかは
定かではない。しかしながら、検索キーワードと完全に
一致する文字列だけではなく検索キーワードにかなり類
似した文字列も検索者が検索したいこともあり、上述の
例でいえば文字列「あいう絵お」も検索文字列として出
力されることが望ましいこともある。このような曖昧検
索を行なうために、検出された文字列を一致度の高い順
に並べ、この中から検索者が必要とする文字列を選択す
る方法もある。

【０００９】

【発明が解決しようとする課題】連語を用い単純に一致
度の高い順に文字列を出力する方法は、検索キーワード
とたった一文字異なるだけでも一致度がかなり低くなる
ことがあるから、曖昧検索の方法としては必ずしも適切
であるとはいえない。上述の例でいえば、文字列「あい
う絵お」は、一致する連語が「あい」と「いう」だけな
ので、一致度は５０％という低い値であり、一致度の順
に並べた場合には下位にランクされる。したがってこの
検索方法では、検出文字列として出力されるためのしき
い値を高く設定してしまうと、所望の検索結果が得られ
ないことがあった。

【００１０】また、曖昧検索用の機能を持たない検索装
置によって、曖昧な文字列も含めた検索をしようとする
ならば、通常は、検索キーワードを何通りか設定して広
義に検索を行なった後、必要な文字列のみを選択し他を
排除するという処理を行なうことになる。このような方
法では、検索時間が長い上に、不必要な文字列の排除作
業が必要となり、検索効率がさらに低下する。

【００１１】本発明の目的は、過検出が少なく効率良く
曖昧検索を行なうことができるデータベース検索方法及
び装置を提供することにある。

【００１２】

【課題を解決するための手段】本発明のデータベース検
索方法は、検索キーワードに基づいてデータベース中を
検索するデータベース検索方法において、前記検索キー
ワードから一群の連語を作成し、前記データベース中の
各文字列と前記一連の連語との一致度を算出し、そのの
ち、算出された一致度が予め与えられたしきい値以上で
ある文字列を検索文字列とし前記検索文字列に基づいて
検索結果を出力し、前記各連語は、ひらがな、カタカナ
及び英数字のうちの同一の文字種の字のみで構成される
場合と、それ以外の場合とに分けて生成されることを特
徴とする。

【００１３】本発明のデータベース検索装置は、検索キ
ーワードに基づいてデータベース中を検索するデータベ
ース検索装置において、前記検索キーワードとしきい値
を入力する入力手段と、前記検索キーワードから連語を
作成する連語生成手段と、前記連語に一致する文字列を
前記データベース中で検索する検索手段と、連語に一致
した文字列に関する情報を格納する記憶手段と、前記一
群の連語との一致度を算出して前記しきい値と比較する
比較手段と、検索結果を出力する出力手段とを有し、前
記連語生成手段は、ひらがな、カタカナ及び英数字のう
ちの同一の文字種の字のみで構成される場合と、それ以
外の場合とに分けて連語を生成することを特徴とする。

【００１４】本発明において、連語は、検索キーワード
が文字列である場合には、検索キーワードから切り出さ
れる長さ１文字以上の部分文字列のことである。検索キ
ーワードがビット列ととして扱われるものであれば、連
語は、この検索キーワードから切り出される部分ビット
列のことである。また、文字種とは、同じカテゴリに属
するものとして認識される文字の集合を意味しており、
例示するならば、ひらがな、カタカナ、英数字、漢字、
特殊文字などが挙げられる。

【００１５】本発明においては、ひらがな、カタカナ及
び英数字のうちの同一の文字種の字のみで構成される場
合（第１の場合）の連語として、第１の場合以外の場合
（第２の場合）の連語の連語長よりも連語長が長い連語
が少なくとも生成されるようにすることが好ましい。典
型的には、第２の場合の連語として連語長が１文字ある
いは２文字の連語が生成されるのであれば、第１の場合
の連語として、連語長が３文字である連語が少なくとも
生成されるようにするとよい。

【００１６】

【作用】日本語文字列を構成する字種の中で、例えば漢
字は１文字でもそれなりの意味を表わすのに対し、ひら
がな、カタカナあるいは英数字は、同種文字が何文字か
が集まって意味を表わす傾向にあり、連語を生成する場
合においても連語長を長くした方が連語に意味が反映す
るようになる。そこで本発明では、検索キーワードから
連語を生成する際に、ひらがな、カタカナ及び英数字の
うちの同一の文字種の字のみで構成される場合と、それ
以外の場合とに分けることによって、生成する連語それ
ぞれに付与される意味量を均等にすることが可能にな
り、過検出の少ない曖昧検索を効率的に行うことができ
るようになる。

【００１７】

【実施例】以下に本発明の実施例について図面を用いて
説明する。図１は本発明の一実施例のデータベース検索
装置の構成を示すブロック図であり、図２はこのデータ
ベース検索装置における検索処理の流れを示すフローチ
ャートである。

【００１８】この検索装置は、検索処理やデータ処理な
どを実行する中央処理装置１と、２台の記憶ユニット２
ａ,２ｂを有し文献の全文データなどのデータベースを
格納する記憶装置２と、検索者に対して検索結果などの
表示を行なうモニター３と、検索結果などの印字を行な
うプリンター４と、検索者からの検索キーワードやしき
い値、コマンドの入力が行なわれるキーボード５と、一
連の処理の過程で一時的に情報を記憶しておくためのＲ
ＡＭ６とによって構成されている。記憶装置２、出力手
段であるモニター３及びプリンター４、入力手段である
キーボード５、記憶手段であるＲＡＭ６は、いずれも中
央処理装置１に接続されている。

【００１９】中央処理装置１には、記憶装置２中に格納
された全文データ中から連語に一致する文字列を検索す
る検索部１１と、入力した検索キーワードから一群の連
語を作成する連語生成部１２と、検索された文字列と一
群の連語との一致度を算出してしきい値と比較する比較
部１２とが設けられている。検索部１１、連語生成部１
２及び比較部１３は、それぞれ、検索手段、連語生成手
段及び比較手段に対応する。連語生成部１２は、ひらが
な、カタカナ及び英数字のうちの同一の文字種の字のみ
で構成される場合と、それ以外の場合とに分けて連語を
生成するように構成されている。またこの装置では、入
力したしきい値以上の一致度を有する文字列を検索文字
列とし、この検索文字列に応じて検索結果の出力が行な
われるようになっている。

【００２０】次に、このデータベース検索装置による検
索処理について、図２のフローチャートに用いて説明す
る。

【００２１】ここでは、データベース中の各文書は、決
まった単位で分割され、分割された単位ごとにそれぞれ
プレーンを持っており、各プレーンは、検索対象の文書
についての情報を含んでいるものとする。ある文字列が
ある文書中に含まれているか否かの検索を行なう場合、
その文書中でのその文字列が存在する位置の情報は不要
である場合が多いから、その文書のデータを文字列の有
無だけに関心を絞ったデータに圧縮することが可能であ
る。文字列の有無だけに関心を絞ったデータとしては、
ある連語が含まれているかどうかを示す連語情報を例示
することができる。したがってプレーンは、単位文書の
内容自体でもよいし、上述したように単位文書を圧縮し
て連語情報としたものであってもよい。例えば、新聞記
事のデータベースであれば、１つの記事に１つのプレー
ンを対応させ、新聞記事が１００件あればプレーンも１
００個準備するようにする。

【００２２】本実施例においては、以下の説明から明ら
かなように連語長が１,２及び３文字の連語が使用され
ているから、プレーンとしては、文書ごとに当該文書中
に現れる全ての連語長１,２及び３の連語の存在有無を
示すマップのようなものを用いることができる。ここで
は、連語長が１文字の場合に対応するものとしてそれぞ
れ異なる文字コードで表わされる各文字についてプレー
ン内に予めマップを作っておくとともに、ひらがな、カ
タカナ及び英数字のうちの同一文字種の字のみからなる
場合（第１の場合）に対応させて連語長３の連語につい
て、そして第１の場合以外の場合に対応させて連語長２
の連語について、プレーン中に予めマップを作ってい
る。このようにプレーン内にマップを予め設定しておく
ことにより、検索キーワードを連語に分割して検索を実
行する場合に、高速で検索を行なえるようになる。

【００２３】まず、検索者がキーボード５を用いて検索
キーワードとしきい値とを入力する（ステップ２１）。
しきい値は、０％を越え１００％以下である百分率で表
わされており、その意味については後述する。そして、
以下の法則に沿って、連語生成部１２により、入力され
た検索キーワードから連語長が２文字と３文字の連語を
生成する（ステップ２２）。

【００２４】すなわち、検索キーワードを構成する各文
字がひらがな、カタカナ及び英数字のいずれかの連続し
た３文字を含んでいれば連語長３文字の連語を作成す
る。検索キーワードが「あいうえお」であったとすれ
ば、「あいう」と「いうえ」と「うえお」のいずれも連
語長が３文字の連語が生成する。さらに、ひらがな、カ
タカナあるいは英数字以外の文字を含んでいれば、連語
長２文字の連語を作成する。検索キーワードが「あいう
絵お」であれば、連語長３文字の連語「あいう」の他
に、連語長２文字の連語として、「う絵」と「絵お」を
生成する。

【００２５】続いて、連語生成部１２で生成した各連語
がデータベース中に存在するかどうかの検索を行ない、
存在していればその文書に対応したプレーンにカウント
する（ステップ２３）。この動作をすべての連語につい
て終了するまで実行する（ステップ２４）。そして、既
に入力されているしきい値が１００％であるかどうかを
判定し（ステップ２５）、１００％（曖昧でない検索を
行なう場合）であればステップ２６に移行し、１００％
でない場合（曖昧検索を行なう場合）にはステップ２９
に移行する。

【００２６】ステップ２９では、検索キーワードの全て
の文字を１文字ごとに分割し、それぞれ連語長が１文字
である連語を生成する。そして、上述のステップ２３の
場合と同様にデータベースを検索し、連語として生成さ
れた各文字と一致する文字を含むプレーンがあれば、そ
のプレーンにカウントする（ステップ３０）。検索キー
ワードを構成する全ての文字について終了するまで、こ
の動作を繰り返す（ステップ３１）。そしてステップ２
６に移行する。

【００２７】検索キーワードが例えば「あいう絵お」で
ある場合、以上のような処理を実行することによって、
表２に示すように、連語長が１から３文字までの一群の
連語が生成する。

【００２８】

【表２】ひらがな、カタカナ、英数字のうちの同一文字種の字の
みからなる連語についても連語長を２文字として検索を
実行することは可能であるが、ここで連語長を３文字と
しているのは、ひらがなやカタカナ、英数字が漢字や特
殊文字と比べて１字種を構成する文字の数が少ないため
である。仮に、ひらがなやカタカナ、英数字のうちの同
一文字種の字で連語長２文字で連語を生成したとする
と、このような連語がデータベース中に多く含まれてい
る可能性が高いので、カウント数が他に比べて多くなっ
てしまい、曖昧検索時に過検出が多くなる。すなわち、
過検出を少なくするために、ひらがな、カタカナ、英数
字のうちの同一文字種の字のみからなる連語については
連語長を３文字としている。一方、漢字を含むような場
合には連語長を長くても２文字としているのは、漢字は
１文字でも意味を持っているため、連語長が２文字程度
の連語でも適切な区別が容易に行なえるからである。

【００２９】ステップ２６では、プレーンを単位とし
て、データベース中に含まれる文字列と一群の連語との
一致度を一致度（％）＝（カウント数の合計）／（連語の種類）×１００なる式で計算する。そして、しきい値と一致度を比較し
（ステップ２７）、しきい値以上の一致度となっている
プレーンを検出し、このプレーンに対応する文書を検索
結果として出力し（ステップ２８）、処理を終了する。

【００３０】ところで本実施例において、検索者が入力
するしきい値は、検索時の曖昧さの度合を設定するため
のものである。検索キーワードとの一致度が計算されて
しきい値以上である場合に検索結果として検索された文
字列が出力されることから、しきい値が小さいほど検索
結果における曖昧さの度合が増加し、検索キーワードと
の不一致部の多い文字列も検出されるようになる。ま
た、しきい値＝１００％のときは、一群の連語の全てを
含む文字列のみが検出され、従来の検索方法と同じ結果
が得られる。

【００３１】表３は、データベース中に「あいう絵
お」、「あいうえお」、「あい宇えお」、「あい宇絵
お」などの文字列が含まれているとして、検索キーワー
ドが「あいう絵お」である場合にこれら文字列に対する
一致度がどうなるかを示したものである。検索キーワー
ド「あいう絵お」からは、表２に示されるように、８種
類の連語が生成される。これに対し、文字列「あいう絵
お」には全ての連語が存在するので一致度は１００％と
なる。したがって文字列「あいう絵お」はしきい値によ
らずに必ず検出される。文字列「あいうえお」ではカウ
ントの合計が５なので一致度は６２.５％となり、同様
に文字列「あい宇えお」では一致度は３７．５％とな
り、文字列「あい宇絵お」では一致度は６２.５％とな
る。入力されたしきい値が６０％であれば、一致度が６
０％以上である文字列の「あいう絵お」、「あいうえ
お」及び「あい宇絵お」が検出されることになる。

【００３２】

【表３】検索キーワード「あいう絵お」を用いて「従来の技術」
欄で述べた方法で検索を行なった場合には、一致度は、
文字列「あいうえお」に対して５０％、「あい宇えお」
に対して２５％、「あい宇絵お」に対して５０％とな
り、本実施例の場合の一致度に比べていずれも低い値と
なる。本実施例では、ひらがな、カタカナ及び英数字の
うちの同一の文字種の字のみで構成される場合と、それ
以外の場合とに分けて連語を生成するとともに、しきい
値が１００％以外の値の時には連語長１文字の連語につ
いてまで検索を行なっているので、従来の検索方法と比
ベ、検索キーワードとの一致度の計算がより詳細に行な
われている。このため、本実施例による一致度が従来の
方法による一致度よりも大きくなっている。

【００３３】上述の実施例では、検索開始時に入力した
しきい値以上の一致度を有する文字列のみが検索結果と
して出力されているが、実際に検索を行なう局面では、
検索結果によって検索者がしきい値を変更し、一致度が
より低いあるいはより高い文字列の出力を希望すること
が考えられる。そこでここでは、一度設定したしきい値
を検索結果の確認後に変更することができるようにし
た。この場合の処理を図３を用いて説明する。図３は、
しきい値をこのように事後的に変更できる場合におけ
る、図２のフローチャートでのステップ２６以降（図示
分枝Ａ）の処理を示すものであり、図２と同じ内容のス
テップには同一の符号が付与されている。

【００３４】一致度の算出（ステップ２６）、しきい値
と一致度の比較（ステップ２７）及び検索結果の出力
（ステップ２８）が終了したら、検索者に対してしきい
値の変更を行なうかどうかを問い合わせる（ステップ３
２）。変更ないとした場合にはそのまま処理を終了し、
変更すると検索者が回答した場合には、しきい値の再入
力を行ない（ステップ３３）、ステップ２７に戻ってし
きい値と一致度との比較からを再度実行する。

【００３５】上述の説明では、検索対象として文字列を
例に挙げているために、連語長の単位として文字数を使
用したが、コンピュータでは、文字はＪＩＳ、ＳＪＩＳ
（シフトＪＩＳ）、ＥＵＣ等のコード体系で定義された
ビット列で扱われているから、連語長１文字という場合
には、８ビットもしくは１６ビットというようにコード
体系で決められた長さのビット列を扱っている。さらに
本発明はビット列一般の検索にも適用できるものであ
る。例えば２.５文字分のビット列を連語として扱うこ
とが可能であり、また、任意のビット列で検索を行なえ
ば、文字検索のみならず図形、波形等のデータについて
も暖昧検索を実行することが可能になる。

【００３６】なお、上述の説明では、ひらがなとカタカ
ナとの区別について詳細は述ベていないが、例えば、果
物の「すいか」は、文書によっては「スイカ」あるいは
「西瓜」と記載されている場合がある。「すいか」、
「スイカ」及び「西瓜」は同一のものを示す文字列であ
り、いずれか１つを検索キーワードとしたときにいずれ
もが検出されるようにする方が望ましい。このような場
合には、従来より用いられているシソーラス法等を併用
することにより、欠落のない検索が行なえる。

【００３７】

【発明の効果】以上説明したように本発明は、しきい値
を適宜に設定できるようにするとともに、検索キーワー
ドから連語を生成する際に、ひらがな、カタカナ及び英
数字のうちの同一の文字種の字のみで構成される場合
と、それ以外の場合とに分けることにより、曖昧さの調
節ができるようになり、また、生成する連語それぞれに
付与される意味量を均等にすることが可能になるので、
過検出の少ない曖昧検索を効率的に実行でき、検索作業
の時間を短縮できるという効果がある。

【図面の簡単な説明】

【図１】本発明の一実施例のデータベース検索装置の構
成を示すブロック図である。

【図２】図１のデータベース検索装置における検索処理
の流れを示すフローチャートである。

【図３】検索処理の別の例を示すフローチャートであ
る。

【図４】従来のデータベース検索方法の処理手順の一例
を示すフローチャートである。

【符号の説明】

１中央処理装置２記憶装置２ａ，２ｂ記憶ユニット３モニター４プリンター５キーボード６ＲＡＭ１１検索部１２連語生成部１３比較部２１〜３３ステップ

Claims

【特許請求の範囲】

【請求項１】検索キーワードに基づいてデータベース
中を検索するデータベース検索方法において、前記検索キーワードから一群の連語を作成し、前記データベース中の各文字列と前記一連の連語との一
致度を算出し、そののち、算出された一致度が予め与えられたしきい値
以上である文字列を検索文字列とし前記検索文字列に基
づいて検索結果を出力し、前記各連語は、ひらがな、カタカナ及び英数字のうちの
同一の文字種の字のみで構成される場合と、それ以外の
場合とに分けて生成されることを特徴とするデータベー
ス検索方法。
【請求項２】ひらがな、カタカナ及び英数字のうちの
同一の文字種の字のみを含む連語として、連語長が３文
字以上の連語を少なくとも生成する請求項１に記載のデ
ータベース検索方法。
【請求項３】検索キーワードに基づいてデータベース
中を検索するデータベース検索装置において、前記検索キーワードとしきい値を入力する入力手段と、前記検索キーワードから連語を作成する連語生成手段
と、前記連語に一致する文字列を前記データベース中で検索
する検索手段と、連語に一致した文字列に関する情報を格納する記憶手段
と、前記一群の連語との一致度を算出して前記しきい値と比
較する比較手段と、検索結果を出力する出力手段とを有し、前記連語生成手段は、ひらがな、カタカナ及び英数字の
うちの同一の文字種の字のみで構成される場合と、それ
以外の場合とに分けて連語を生成することを特徴とする
データベース検索装置。
【請求項４】ひらがな、カタカナ及び英数字のうちの
同一の文字種の字のみを含む連語として、ひらがな、カ
タカナ及び英数字のうちの同一文字種の字以外の文字を
含む連語の連語長よりも長い連語が少なくとも生成され
る請求項３に記載のデータベース検索装置。
【請求項５】前記連語がビット列によって表現される
請求項３に記載のデータベース検索装置。