JPH08287075A - データベース検索方法及び装置 - Google Patents
データベース検索方法及び装置Info
- Publication number
- JPH08287075A JPH08287075A JP7083663A JP8366395A JPH08287075A JP H08287075 A JPH08287075 A JP H08287075A JP 7083663 A JP7083663 A JP 7083663A JP 8366395 A JP8366395 A JP 8366395A JP H08287075 A JPH08287075 A JP H08287075A
- Authority
- JP
- Japan
- Prior art keywords
- search
- characters
- character string
- database
- compound word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
(57)【要約】
【目的】 検索キーワードから一群の連語を生成し、こ
の一群の連語との一致度に基づいて検索結果を出力する
場合に、過検出が少なく、効率良く曖昧検索を行なえる
ようにする。 【構成】 検索キーワードから連語を生成する場合に、
ひらがな、カタカナ及び英数字のうちの同一の文字種の
字のみで構成される場合と、それ以外の場合とに分ける
(ステップ22)。そして、データベースを検索して連
語と一致する文字列を数え(ステップ23)、データベ
ース中の各文字列と一群の連語との一致度を算出する
(ステップ26)。予め検索者が入力したしきい値と一
致度を比較し(ステップ27)、しきい値以上の一致度
を有する文字列のみを検索結果として出力する(ステッ
プ28)。
の一群の連語との一致度に基づいて検索結果を出力する
場合に、過検出が少なく、効率良く曖昧検索を行なえる
ようにする。 【構成】 検索キーワードから連語を生成する場合に、
ひらがな、カタカナ及び英数字のうちの同一の文字種の
字のみで構成される場合と、それ以外の場合とに分ける
(ステップ22)。そして、データベースを検索して連
語と一致する文字列を数え(ステップ23)、データベ
ース中の各文字列と一群の連語との一致度を算出する
(ステップ26)。予め検索者が入力したしきい値と一
致度を比較し(ステップ27)、しきい値以上の一致度
を有する文字列のみを検索結果として出力する(ステッ
プ28)。
Description
【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、データベースから必要
な情報を取り出すためのデータベース検索方法及び装置
に関し、特に、与えられた検索キーワードに類似した文
字列もデータベース中から検出可能な曖昧検索方法及び
装置に関する。
な情報を取り出すためのデータベース検索方法及び装置
に関し、特に、与えられた検索キーワードに類似した文
字列もデータベース中から検出可能な曖昧検索方法及び
装置に関する。
【0002】
【従来の技術】利用者によって入力された検索キーワー
ドに基づいてその検索キーワードを含む文字列をデータ
ベース中で検索するデータベース検索装置ないし情報検
索装置での文字列検索方法として、検索キーワードを分
割して一群の連語を生成し、データベース中の文字列と
一群の連語との一致度を求めて目的とする文字列を検索
する方法があり、この方法は広く用いられている。連語
とは、検索キーワード中で隣接する文字の組み合わせで
構成された1あるいは数文字の長さの文字の並びのこと
である。検索キーワードのままであるとその長さが一定
しないので処理が複雑になるが、連語に分割して検索す
ることにより、高速での検索処理が可能になる。以下の
説明において、検索しようとする文字列を「検索キーワ
ード」、最終的に検索された文字列を「検索文字列」と
いうことにする。
ドに基づいてその検索キーワードを含む文字列をデータ
ベース中で検索するデータベース検索装置ないし情報検
索装置での文字列検索方法として、検索キーワードを分
割して一群の連語を生成し、データベース中の文字列と
一群の連語との一致度を求めて目的とする文字列を検索
する方法があり、この方法は広く用いられている。連語
とは、検索キーワード中で隣接する文字の組み合わせで
構成された1あるいは数文字の長さの文字の並びのこと
である。検索キーワードのままであるとその長さが一定
しないので処理が複雑になるが、連語に分割して検索す
ることにより、高速での検索処理が可能になる。以下の
説明において、検索しようとする文字列を「検索キーワ
ード」、最終的に検索された文字列を「検索文字列」と
いうことにする。
【0003】ここで、この連語を用いた文字列検索方法
について、図4のフローチャートを用いて説明する。こ
こでは、連語の文字長が2文字であり、検索キーワード
として「あいうえお」が選ばれるものとする。
について、図4のフローチャートを用いて説明する。こ
こでは、連語の文字長が2文字であり、検索キーワード
として「あいうえお」が選ばれるものとする。
【0004】まず、検索者によって検索キーワード(こ
こでは「あいうえお」)が入力され(ステップ91)、
入力された検索キーワードが連語長2文字の連語「あ
い」、「いう」、「うえ」及び「えお」に分割される
(ステップ92)。続いて、各連語に関し、対象とする
データベースを検索してその連語が含まれるているかを
調べ、連語と一致した文字列をカウントする(ステップ
93)。全ての連語についての検索が終ったかを判断し
(ステップ94)、未検索の連語があればステップ93
に戻り、全ての連語についての検索が終っていれば、文
字列ごとにカウント数を合計して一致度を算出し(ステ
ップ95)、一致度が100%である文字列を出力し
(ステップ96)、処理を終了する。
こでは「あいうえお」)が入力され(ステップ91)、
入力された検索キーワードが連語長2文字の連語「あ
い」、「いう」、「うえ」及び「えお」に分割される
(ステップ92)。続いて、各連語に関し、対象とする
データベースを検索してその連語が含まれるているかを
調べ、連語と一致した文字列をカウントする(ステップ
93)。全ての連語についての検索が終ったかを判断し
(ステップ94)、未検索の連語があればステップ93
に戻り、全ての連語についての検索が終っていれば、文
字列ごとにカウント数を合計して一致度を算出し(ステ
ップ95)、一致度が100%である文字列を出力し
(ステップ96)、処理を終了する。
【0005】一致度は、検索キーワードと文字列との一
致の度合を示す尺度であって、各文字列ごとに、 一致度(%)=(カウント数の合計)/(連語の種類)×100 なる式で算出される。
致の度合を示す尺度であって、各文字列ごとに、 一致度(%)=(カウント数の合計)/(連語の種類)×100 なる式で算出される。
【0006】ここでは、連語長が2文字で検索キーワー
ドが「あいうえお」であるので、連語の種類は「あ
い」、「いう」、「うえ」、「えお」の4種類である。
表1は、各種の文字列に対する一致度を示した表であ
り、表中の○印はその連語がその文字列に含まれている
ことを示している。文字列に対する一致度が100%で
ある場合に、その文字列が検索キーワードと同一の文字
列であることが多いので、検索者に対しては一致度が1
00%である文字列が出力される。
ドが「あいうえお」であるので、連語の種類は「あ
い」、「いう」、「うえ」、「えお」の4種類である。
表1は、各種の文字列に対する一致度を示した表であ
り、表中の○印はその連語がその文字列に含まれている
ことを示している。文字列に対する一致度が100%で
ある場合に、その文字列が検索キーワードと同一の文字
列であることが多いので、検索者に対しては一致度が1
00%である文字列が出力される。
【0007】
【表1】 ところで、検索対象のデータベースに収録されるものと
しては、新聞記事や特許公報、学術論文などのあらゆる
種類の文書が挙げられ、またその内容も多岐にわたり数
値なども含まれており、誤字や脱字、旧漢字などが混入
していることも考えられる。さらには、表記のゆれ
(「ダイアル」と「ダイヤル」)があることも考えられ
る。例えばここで、上述の検索キーワードの「あいうえ
お」と一文字異なる文字列「あいう絵お」がデータベー
ス中に混入している場合を考えてみる。「あいう絵お」
には検索キーワードから得られた連語「うえ」及び「え
お」が含まれておらず、一致度は100%とならない。
そのため、上述した検索方法によれば、検索キーワード
とは異なる文字列と判断されて文字列「あいう絵お」は
検出されない。
しては、新聞記事や特許公報、学術論文などのあらゆる
種類の文書が挙げられ、またその内容も多岐にわたり数
値なども含まれており、誤字や脱字、旧漢字などが混入
していることも考えられる。さらには、表記のゆれ
(「ダイアル」と「ダイヤル」)があることも考えられ
る。例えばここで、上述の検索キーワードの「あいうえ
お」と一文字異なる文字列「あいう絵お」がデータベー
ス中に混入している場合を考えてみる。「あいう絵お」
には検索キーワードから得られた連語「うえ」及び「え
お」が含まれておらず、一致度は100%とならない。
そのため、上述した検索方法によれば、検索キーワード
とは異なる文字列と判断されて文字列「あいう絵お」は
検出されない。
【0008】ここで文字列「あいう絵お」は、データベ
ースヘのデータ入力時に誤って入力されたかものなの
か、意図的に「あいう絵お」として入力されたものかは
定かではない。しかしながら、検索キーワードと完全に
一致する文字列だけではなく検索キーワードにかなり類
似した文字列も検索者が検索したいこともあり、上述の
例でいえば文字列「あいう絵お」も検索文字列として出
力されることが望ましいこともある。このような曖昧検
索を行なうために、検出された文字列を一致度の高い順
に並べ、この中から検索者が必要とする文字列を選択す
る方法もある。
ースヘのデータ入力時に誤って入力されたかものなの
か、意図的に「あいう絵お」として入力されたものかは
定かではない。しかしながら、検索キーワードと完全に
一致する文字列だけではなく検索キーワードにかなり類
似した文字列も検索者が検索したいこともあり、上述の
例でいえば文字列「あいう絵お」も検索文字列として出
力されることが望ましいこともある。このような曖昧検
索を行なうために、検出された文字列を一致度の高い順
に並べ、この中から検索者が必要とする文字列を選択す
る方法もある。
【0009】
【発明が解決しようとする課題】連語を用い単純に一致
度の高い順に文字列を出力する方法は、検索キーワード
とたった一文字異なるだけでも一致度がかなり低くなる
ことがあるから、曖昧検索の方法としては必ずしも適切
であるとはいえない。上述の例でいえば、文字列「あい
う絵お」は、一致する連語が「あい」と「いう」だけな
ので、一致度は50%という低い値であり、一致度の順
に並べた場合には下位にランクされる。したがってこの
検索方法では、検出文字列として出力されるためのしき
い値を高く設定してしまうと、所望の検索結果が得られ
ないことがあった。
度の高い順に文字列を出力する方法は、検索キーワード
とたった一文字異なるだけでも一致度がかなり低くなる
ことがあるから、曖昧検索の方法としては必ずしも適切
であるとはいえない。上述の例でいえば、文字列「あい
う絵お」は、一致する連語が「あい」と「いう」だけな
ので、一致度は50%という低い値であり、一致度の順
に並べた場合には下位にランクされる。したがってこの
検索方法では、検出文字列として出力されるためのしき
い値を高く設定してしまうと、所望の検索結果が得られ
ないことがあった。
【0010】また、曖昧検索用の機能を持たない検索装
置によって、曖昧な文字列も含めた検索をしようとする
ならば、通常は、検索キーワードを何通りか設定して広
義に検索を行なった後、必要な文字列のみを選択し他を
排除するという処理を行なうことになる。このような方
法では、検索時間が長い上に、不必要な文字列の排除作
業が必要となり、検索効率がさらに低下する。
置によって、曖昧な文字列も含めた検索をしようとする
ならば、通常は、検索キーワードを何通りか設定して広
義に検索を行なった後、必要な文字列のみを選択し他を
排除するという処理を行なうことになる。このような方
法では、検索時間が長い上に、不必要な文字列の排除作
業が必要となり、検索効率がさらに低下する。
【0011】本発明の目的は、過検出が少なく効率良く
曖昧検索を行なうことができるデータベース検索方法及
び装置を提供することにある。
曖昧検索を行なうことができるデータベース検索方法及
び装置を提供することにある。
【0012】
【課題を解決するための手段】本発明のデータベース検
索方法は、検索キーワードに基づいてデータベース中を
検索するデータベース検索方法において、前記検索キー
ワードから一群の連語を作成し、前記データベース中の
各文字列と前記一連の連語との一致度を算出し、そのの
ち、算出された一致度が予め与えられたしきい値以上で
ある文字列を検索文字列とし前記検索文字列に基づいて
検索結果を出力し、前記各連語は、ひらがな、カタカナ
及び英数字のうちの同一の文字種の字のみで構成される
場合と、それ以外の場合とに分けて生成されることを特
徴とする。
索方法は、検索キーワードに基づいてデータベース中を
検索するデータベース検索方法において、前記検索キー
ワードから一群の連語を作成し、前記データベース中の
各文字列と前記一連の連語との一致度を算出し、そのの
ち、算出された一致度が予め与えられたしきい値以上で
ある文字列を検索文字列とし前記検索文字列に基づいて
検索結果を出力し、前記各連語は、ひらがな、カタカナ
及び英数字のうちの同一の文字種の字のみで構成される
場合と、それ以外の場合とに分けて生成されることを特
徴とする。
【0013】本発明のデータベース検索装置は、検索キ
ーワードに基づいてデータベース中を検索するデータベ
ース検索装置において、前記検索キーワードとしきい値
を入力する入力手段と、前記検索キーワードから連語を
作成する連語生成手段と、前記連語に一致する文字列を
前記データベース中で検索する検索手段と、連語に一致
した文字列に関する情報を格納する記憶手段と、前記一
群の連語との一致度を算出して前記しきい値と比較する
比較手段と、検索結果を出力する出力手段とを有し、前
記連語生成手段は、ひらがな、カタカナ及び英数字のう
ちの同一の文字種の字のみで構成される場合と、それ以
外の場合とに分けて連語を生成することを特徴とする。
ーワードに基づいてデータベース中を検索するデータベ
ース検索装置において、前記検索キーワードとしきい値
を入力する入力手段と、前記検索キーワードから連語を
作成する連語生成手段と、前記連語に一致する文字列を
前記データベース中で検索する検索手段と、連語に一致
した文字列に関する情報を格納する記憶手段と、前記一
群の連語との一致度を算出して前記しきい値と比較する
比較手段と、検索結果を出力する出力手段とを有し、前
記連語生成手段は、ひらがな、カタカナ及び英数字のう
ちの同一の文字種の字のみで構成される場合と、それ以
外の場合とに分けて連語を生成することを特徴とする。
【0014】本発明において、連語は、検索キーワード
が文字列である場合には、検索キーワードから切り出さ
れる長さ1文字以上の部分文字列のことである。検索キ
ーワードがビット列ととして扱われるものであれば、連
語は、この検索キーワードから切り出される部分ビット
列のことである。また、文字種とは、同じカテゴリに属
するものとして認識される文字の集合を意味しており、
例示するならば、ひらがな、カタカナ、英数字、漢字、
特殊文字などが挙げられる。
が文字列である場合には、検索キーワードから切り出さ
れる長さ1文字以上の部分文字列のことである。検索キ
ーワードがビット列ととして扱われるものであれば、連
語は、この検索キーワードから切り出される部分ビット
列のことである。また、文字種とは、同じカテゴリに属
するものとして認識される文字の集合を意味しており、
例示するならば、ひらがな、カタカナ、英数字、漢字、
特殊文字などが挙げられる。
【0015】本発明においては、ひらがな、カタカナ及
び英数字のうちの同一の文字種の字のみで構成される場
合(第1の場合)の連語として、第1の場合以外の場合
(第2の場合)の連語の連語長よりも連語長が長い連語
が少なくとも生成されるようにすることが好ましい。典
型的には、第2の場合の連語として連語長が1文字ある
いは2文字の連語が生成されるのであれば、第1の場合
の連語として、連語長が3文字である連語が少なくとも
生成されるようにするとよい。
び英数字のうちの同一の文字種の字のみで構成される場
合(第1の場合)の連語として、第1の場合以外の場合
(第2の場合)の連語の連語長よりも連語長が長い連語
が少なくとも生成されるようにすることが好ましい。典
型的には、第2の場合の連語として連語長が1文字ある
いは2文字の連語が生成されるのであれば、第1の場合
の連語として、連語長が3文字である連語が少なくとも
生成されるようにするとよい。
【0016】
【作用】日本語文字列を構成する字種の中で、例えば漢
字は1文字でもそれなりの意味を表わすのに対し、ひら
がな、カタカナあるいは英数字は、同種文字が何文字か
が集まって意味を表わす傾向にあり、連語を生成する場
合においても連語長を長くした方が連語に意味が反映す
るようになる。そこで本発明では、検索キーワードから
連語を生成する際に、ひらがな、カタカナ及び英数字の
うちの同一の文字種の字のみで構成される場合と、それ
以外の場合とに分けることによって、生成する連語それ
ぞれに付与される意味量を均等にすることが可能にな
り、過検出の少ない曖昧検索を効率的に行うことができ
るようになる。
字は1文字でもそれなりの意味を表わすのに対し、ひら
がな、カタカナあるいは英数字は、同種文字が何文字か
が集まって意味を表わす傾向にあり、連語を生成する場
合においても連語長を長くした方が連語に意味が反映す
るようになる。そこで本発明では、検索キーワードから
連語を生成する際に、ひらがな、カタカナ及び英数字の
うちの同一の文字種の字のみで構成される場合と、それ
以外の場合とに分けることによって、生成する連語それ
ぞれに付与される意味量を均等にすることが可能にな
り、過検出の少ない曖昧検索を効率的に行うことができ
るようになる。
【0017】
【実施例】以下に本発明の実施例について図面を用いて
説明する。図1は本発明の一実施例のデータベース検索
装置の構成を示すブロック図であり、図2はこのデータ
ベース検索装置における検索処理の流れを示すフローチ
ャートである。
説明する。図1は本発明の一実施例のデータベース検索
装置の構成を示すブロック図であり、図2はこのデータ
ベース検索装置における検索処理の流れを示すフローチ
ャートである。
【0018】この検索装置は、検索処理やデータ処理な
どを実行する中央処理装置1と、2台の記憶ユニット2
a,2bを有し文献の全文データなどのデータベースを
格納する記憶装置2と、検索者に対して検索結果などの
表示を行なうモニター3と、検索結果などの印字を行な
うプリンター4と、検索者からの検索キーワードやしき
い値、コマンドの入力が行なわれるキーボード5と、一
連の処理の過程で一時的に情報を記憶しておくためのR
AM6とによって構成されている。記憶装置2、出力手
段であるモニター3及びプリンター4、入力手段である
キーボード5、記憶手段であるRAM6は、いずれも中
央処理装置1に接続されている。
どを実行する中央処理装置1と、2台の記憶ユニット2
a,2bを有し文献の全文データなどのデータベースを
格納する記憶装置2と、検索者に対して検索結果などの
表示を行なうモニター3と、検索結果などの印字を行な
うプリンター4と、検索者からの検索キーワードやしき
い値、コマンドの入力が行なわれるキーボード5と、一
連の処理の過程で一時的に情報を記憶しておくためのR
AM6とによって構成されている。記憶装置2、出力手
段であるモニター3及びプリンター4、入力手段である
キーボード5、記憶手段であるRAM6は、いずれも中
央処理装置1に接続されている。
【0019】中央処理装置1には、記憶装置2中に格納
された全文データ中から連語に一致する文字列を検索す
る検索部11と、入力した検索キーワードから一群の連
語を作成する連語生成部12と、検索された文字列と一
群の連語との一致度を算出してしきい値と比較する比較
部12とが設けられている。検索部11、連語生成部1
2及び比較部13は、それぞれ、検索手段、連語生成手
段及び比較手段に対応する。連語生成部12は、ひらが
な、カタカナ及び英数字のうちの同一の文字種の字のみ
で構成される場合と、それ以外の場合とに分けて連語を
生成するように構成されている。またこの装置では、入
力したしきい値以上の一致度を有する文字列を検索文字
列とし、この検索文字列に応じて検索結果の出力が行な
われるようになっている。
された全文データ中から連語に一致する文字列を検索す
る検索部11と、入力した検索キーワードから一群の連
語を作成する連語生成部12と、検索された文字列と一
群の連語との一致度を算出してしきい値と比較する比較
部12とが設けられている。検索部11、連語生成部1
2及び比較部13は、それぞれ、検索手段、連語生成手
段及び比較手段に対応する。連語生成部12は、ひらが
な、カタカナ及び英数字のうちの同一の文字種の字のみ
で構成される場合と、それ以外の場合とに分けて連語を
生成するように構成されている。またこの装置では、入
力したしきい値以上の一致度を有する文字列を検索文字
列とし、この検索文字列に応じて検索結果の出力が行な
われるようになっている。
【0020】次に、このデータベース検索装置による検
索処理について、図2のフローチャートに用いて説明す
る。
索処理について、図2のフローチャートに用いて説明す
る。
【0021】ここでは、データベース中の各文書は、決
まった単位で分割され、分割された単位ごとにそれぞれ
プレーンを持っており、各プレーンは、検索対象の文書
についての情報を含んでいるものとする。ある文字列が
ある文書中に含まれているか否かの検索を行なう場合、
その文書中でのその文字列が存在する位置の情報は不要
である場合が多いから、その文書のデータを文字列の有
無だけに関心を絞ったデータに圧縮することが可能であ
る。文字列の有無だけに関心を絞ったデータとしては、
ある連語が含まれているかどうかを示す連語情報を例示
することができる。したがってプレーンは、単位文書の
内容自体でもよいし、上述したように単位文書を圧縮し
て連語情報としたものであってもよい。例えば、新聞記
事のデータベースであれば、1つの記事に1つのプレー
ンを対応させ、新聞記事が100件あればプレーンも1
00個準備するようにする。
まった単位で分割され、分割された単位ごとにそれぞれ
プレーンを持っており、各プレーンは、検索対象の文書
についての情報を含んでいるものとする。ある文字列が
ある文書中に含まれているか否かの検索を行なう場合、
その文書中でのその文字列が存在する位置の情報は不要
である場合が多いから、その文書のデータを文字列の有
無だけに関心を絞ったデータに圧縮することが可能であ
る。文字列の有無だけに関心を絞ったデータとしては、
ある連語が含まれているかどうかを示す連語情報を例示
することができる。したがってプレーンは、単位文書の
内容自体でもよいし、上述したように単位文書を圧縮し
て連語情報としたものであってもよい。例えば、新聞記
事のデータベースであれば、1つの記事に1つのプレー
ンを対応させ、新聞記事が100件あればプレーンも1
00個準備するようにする。
【0022】本実施例においては、以下の説明から明ら
かなように連語長が1,2及び3文字の連語が使用され
ているから、プレーンとしては、文書ごとに当該文書中
に現れる全ての連語長1,2及び3の連語の存在有無を
示すマップのようなものを用いることができる。ここで
は、連語長が1文字の場合に対応するものとしてそれぞ
れ異なる文字コードで表わされる各文字についてプレー
ン内に予めマップを作っておくとともに、ひらがな、カ
タカナ及び英数字のうちの同一文字種の字のみからなる
場合(第1の場合)に対応させて連語長3の連語につい
て、そして第1の場合以外の場合に対応させて連語長2
の連語について、プレーン中に予めマップを作ってい
る。このようにプレーン内にマップを予め設定しておく
ことにより、検索キーワードを連語に分割して検索を実
行する場合に、高速で検索を行なえるようになる。
かなように連語長が1,2及び3文字の連語が使用され
ているから、プレーンとしては、文書ごとに当該文書中
に現れる全ての連語長1,2及び3の連語の存在有無を
示すマップのようなものを用いることができる。ここで
は、連語長が1文字の場合に対応するものとしてそれぞ
れ異なる文字コードで表わされる各文字についてプレー
ン内に予めマップを作っておくとともに、ひらがな、カ
タカナ及び英数字のうちの同一文字種の字のみからなる
場合(第1の場合)に対応させて連語長3の連語につい
て、そして第1の場合以外の場合に対応させて連語長2
の連語について、プレーン中に予めマップを作ってい
る。このようにプレーン内にマップを予め設定しておく
ことにより、検索キーワードを連語に分割して検索を実
行する場合に、高速で検索を行なえるようになる。
【0023】まず、検索者がキーボード5を用いて検索
キーワードとしきい値とを入力する(ステップ21)。
しきい値は、0%を越え100%以下である百分率で表
わされており、その意味については後述する。そして、
以下の法則に沿って、連語生成部12により、入力され
た検索キーワードから連語長が2文字と3文字の連語を
生成する(ステップ22)。
キーワードとしきい値とを入力する(ステップ21)。
しきい値は、0%を越え100%以下である百分率で表
わされており、その意味については後述する。そして、
以下の法則に沿って、連語生成部12により、入力され
た検索キーワードから連語長が2文字と3文字の連語を
生成する(ステップ22)。
【0024】すなわち、検索キーワードを構成する各文
字がひらがな、カタカナ及び英数字のいずれかの連続し
た3文字を含んでいれば連語長3文字の連語を作成す
る。検索キーワードが「あいうえお」であったとすれ
ば、「あいう」と「いうえ」と「うえお」のいずれも連
語長が3文字の連語が生成する。さらに、ひらがな、カ
タカナあるいは英数字以外の文字を含んでいれば、連語
長2文字の連語を作成する。検索キーワードが「あいう
絵お」であれば、連語長3文字の連語「あいう」の他
に、連語長2文字の連語として、「う絵」と「絵お」を
生成する。
字がひらがな、カタカナ及び英数字のいずれかの連続し
た3文字を含んでいれば連語長3文字の連語を作成す
る。検索キーワードが「あいうえお」であったとすれ
ば、「あいう」と「いうえ」と「うえお」のいずれも連
語長が3文字の連語が生成する。さらに、ひらがな、カ
タカナあるいは英数字以外の文字を含んでいれば、連語
長2文字の連語を作成する。検索キーワードが「あいう
絵お」であれば、連語長3文字の連語「あいう」の他
に、連語長2文字の連語として、「う絵」と「絵お」を
生成する。
【0025】続いて、連語生成部12で生成した各連語
がデータベース中に存在するかどうかの検索を行ない、
存在していればその文書に対応したプレーンにカウント
する(ステップ23)。この動作をすべての連語につい
て終了するまで実行する(ステップ24)。そして、既
に入力されているしきい値が100%であるかどうかを
判定し(ステップ25)、100%(曖昧でない検索を
行なう場合)であればステップ26に移行し、100%
でない場合(曖昧検索を行なう場合)にはステップ29
に移行する。
がデータベース中に存在するかどうかの検索を行ない、
存在していればその文書に対応したプレーンにカウント
する(ステップ23)。この動作をすべての連語につい
て終了するまで実行する(ステップ24)。そして、既
に入力されているしきい値が100%であるかどうかを
判定し(ステップ25)、100%(曖昧でない検索を
行なう場合)であればステップ26に移行し、100%
でない場合(曖昧検索を行なう場合)にはステップ29
に移行する。
【0026】ステップ29では、検索キーワードの全て
の文字を1文字ごとに分割し、それぞれ連語長が1文字
である連語を生成する。そして、上述のステップ23の
場合と同様にデータベースを検索し、連語として生成さ
れた各文字と一致する文字を含むプレーンがあれば、そ
のプレーンにカウントする(ステップ30)。検索キー
ワードを構成する全ての文字について終了するまで、こ
の動作を繰り返す(ステップ31)。そしてステップ2
6に移行する。
の文字を1文字ごとに分割し、それぞれ連語長が1文字
である連語を生成する。そして、上述のステップ23の
場合と同様にデータベースを検索し、連語として生成さ
れた各文字と一致する文字を含むプレーンがあれば、そ
のプレーンにカウントする(ステップ30)。検索キー
ワードを構成する全ての文字について終了するまで、こ
の動作を繰り返す(ステップ31)。そしてステップ2
6に移行する。
【0027】検索キーワードが例えば「あいう絵お」で
ある場合、以上のような処理を実行することによって、
表2に示すように、連語長が1から3文字までの一群の
連語が生成する。
ある場合、以上のような処理を実行することによって、
表2に示すように、連語長が1から3文字までの一群の
連語が生成する。
【0028】
【表2】 ひらがな、カタカナ、英数字のうちの同一文字種の字の
みからなる連語についても連語長を2文字として検索を
実行することは可能であるが、ここで連語長を3文字と
しているのは、ひらがなやカタカナ、英数字が漢字や特
殊文字と比べて1字種を構成する文字の数が少ないため
である。仮に、ひらがなやカタカナ、英数字のうちの同
一文字種の字で連語長2文字で連語を生成したとする
と、このような連語がデータベース中に多く含まれてい
る可能性が高いので、カウント数が他に比べて多くなっ
てしまい、曖昧検索時に過検出が多くなる。すなわち、
過検出を少なくするために、ひらがな、カタカナ、英数
字のうちの同一文字種の字のみからなる連語については
連語長を3文字としている。一方、漢字を含むような場
合には連語長を長くても2文字としているのは、漢字は
1文字でも意味を持っているため、連語長が2文字程度
の連語でも適切な区別が容易に行なえるからである。
みからなる連語についても連語長を2文字として検索を
実行することは可能であるが、ここで連語長を3文字と
しているのは、ひらがなやカタカナ、英数字が漢字や特
殊文字と比べて1字種を構成する文字の数が少ないため
である。仮に、ひらがなやカタカナ、英数字のうちの同
一文字種の字で連語長2文字で連語を生成したとする
と、このような連語がデータベース中に多く含まれてい
る可能性が高いので、カウント数が他に比べて多くなっ
てしまい、曖昧検索時に過検出が多くなる。すなわち、
過検出を少なくするために、ひらがな、カタカナ、英数
字のうちの同一文字種の字のみからなる連語については
連語長を3文字としている。一方、漢字を含むような場
合には連語長を長くても2文字としているのは、漢字は
1文字でも意味を持っているため、連語長が2文字程度
の連語でも適切な区別が容易に行なえるからである。
【0029】ステップ26では、プレーンを単位とし
て、データベース中に含まれる文字列と一群の連語との
一致度を 一致度(%)=(カウント数の合計)/(連語の種類)×100 なる式で計算する。そして、しきい値と一致度を比較し
(ステップ27)、しきい値以上の一致度となっている
プレーンを検出し、このプレーンに対応する文書を検索
結果として出力し(ステップ28)、処理を終了する。
て、データベース中に含まれる文字列と一群の連語との
一致度を 一致度(%)=(カウント数の合計)/(連語の種類)×100 なる式で計算する。そして、しきい値と一致度を比較し
(ステップ27)、しきい値以上の一致度となっている
プレーンを検出し、このプレーンに対応する文書を検索
結果として出力し(ステップ28)、処理を終了する。
【0030】ところで本実施例において、検索者が入力
するしきい値は、検索時の曖昧さの度合を設定するため
のものである。検索キーワードとの一致度が計算されて
しきい値以上である場合に検索結果として検索された文
字列が出力されることから、しきい値が小さいほど検索
結果における曖昧さの度合が増加し、検索キーワードと
の不一致部の多い文字列も検出されるようになる。ま
た、しきい値=100%のときは、一群の連語の全てを
含む文字列のみが検出され、従来の検索方法と同じ結果
が得られる。
するしきい値は、検索時の曖昧さの度合を設定するため
のものである。検索キーワードとの一致度が計算されて
しきい値以上である場合に検索結果として検索された文
字列が出力されることから、しきい値が小さいほど検索
結果における曖昧さの度合が増加し、検索キーワードと
の不一致部の多い文字列も検出されるようになる。ま
た、しきい値=100%のときは、一群の連語の全てを
含む文字列のみが検出され、従来の検索方法と同じ結果
が得られる。
【0031】表3は、データベース中に「あいう絵
お」、「あいうえお」、「あい宇えお」、「あい宇絵
お」などの文字列が含まれているとして、検索キーワー
ドが「あいう絵お」である場合にこれら文字列に対する
一致度がどうなるかを示したものである。検索キーワー
ド「あいう絵お」からは、表2に示されるように、8種
類の連語が生成される。これに対し、文字列「あいう絵
お」には全ての連語が存在するので一致度は100%と
なる。したがって文字列「あいう絵お」はしきい値によ
らずに必ず検出される。文字列「あいうえお」ではカウ
ントの合計が5なので一致度は62.5%となり、同様
に文字列「あい宇えお」では一致度は37.5%とな
り、文字列「あい宇絵お」では一致度は62.5%とな
る。入力されたしきい値が60%であれば、一致度が6
0%以上である文字列の「あいう絵お」、「あいうえ
お」及び「あい宇絵お」が検出されることになる。
お」、「あいうえお」、「あい宇えお」、「あい宇絵
お」などの文字列が含まれているとして、検索キーワー
ドが「あいう絵お」である場合にこれら文字列に対する
一致度がどうなるかを示したものである。検索キーワー
ド「あいう絵お」からは、表2に示されるように、8種
類の連語が生成される。これに対し、文字列「あいう絵
お」には全ての連語が存在するので一致度は100%と
なる。したがって文字列「あいう絵お」はしきい値によ
らずに必ず検出される。文字列「あいうえお」ではカウ
ントの合計が5なので一致度は62.5%となり、同様
に文字列「あい宇えお」では一致度は37.5%とな
り、文字列「あい宇絵お」では一致度は62.5%とな
る。入力されたしきい値が60%であれば、一致度が6
0%以上である文字列の「あいう絵お」、「あいうえ
お」及び「あい宇絵お」が検出されることになる。
【0032】
【表3】 検索キーワード「あいう絵お」を用いて「従来の技術」
欄で述べた方法で検索を行なった場合には、一致度は、
文字列「あいうえお」に対して50%、「あい宇えお」
に対して25%、「あい宇絵お」に対して50%とな
り、本実施例の場合の一致度に比べていずれも低い値と
なる。本実施例では、ひらがな、カタカナ及び英数字の
うちの同一の文字種の字のみで構成される場合と、それ
以外の場合とに分けて連語を生成するとともに、しきい
値が100%以外の値の時には連語長1文字の連語につ
いてまで検索を行なっているので、従来の検索方法と比
ベ、検索キーワードとの一致度の計算がより詳細に行な
われている。このため、本実施例による一致度が従来の
方法による一致度よりも大きくなっている。
欄で述べた方法で検索を行なった場合には、一致度は、
文字列「あいうえお」に対して50%、「あい宇えお」
に対して25%、「あい宇絵お」に対して50%とな
り、本実施例の場合の一致度に比べていずれも低い値と
なる。本実施例では、ひらがな、カタカナ及び英数字の
うちの同一の文字種の字のみで構成される場合と、それ
以外の場合とに分けて連語を生成するとともに、しきい
値が100%以外の値の時には連語長1文字の連語につ
いてまで検索を行なっているので、従来の検索方法と比
ベ、検索キーワードとの一致度の計算がより詳細に行な
われている。このため、本実施例による一致度が従来の
方法による一致度よりも大きくなっている。
【0033】上述の実施例では、検索開始時に入力した
しきい値以上の一致度を有する文字列のみが検索結果と
して出力されているが、実際に検索を行なう局面では、
検索結果によって検索者がしきい値を変更し、一致度が
より低いあるいはより高い文字列の出力を希望すること
が考えられる。そこでここでは、一度設定したしきい値
を検索結果の確認後に変更することができるようにし
た。この場合の処理を図3を用いて説明する。図3は、
しきい値をこのように事後的に変更できる場合におけ
る、図2のフローチャートでのステップ26以降(図示
分枝A)の処理を示すものであり、図2と同じ内容のス
テップには同一の符号が付与されている。
しきい値以上の一致度を有する文字列のみが検索結果と
して出力されているが、実際に検索を行なう局面では、
検索結果によって検索者がしきい値を変更し、一致度が
より低いあるいはより高い文字列の出力を希望すること
が考えられる。そこでここでは、一度設定したしきい値
を検索結果の確認後に変更することができるようにし
た。この場合の処理を図3を用いて説明する。図3は、
しきい値をこのように事後的に変更できる場合におけ
る、図2のフローチャートでのステップ26以降(図示
分枝A)の処理を示すものであり、図2と同じ内容のス
テップには同一の符号が付与されている。
【0034】一致度の算出(ステップ26)、しきい値
と一致度の比較(ステップ27)及び検索結果の出力
(ステップ28)が終了したら、検索者に対してしきい
値の変更を行なうかどうかを問い合わせる(ステップ3
2)。変更ないとした場合にはそのまま処理を終了し、
変更すると検索者が回答した場合には、しきい値の再入
力を行ない(ステップ33)、ステップ27に戻ってし
きい値と一致度との比較からを再度実行する。
と一致度の比較(ステップ27)及び検索結果の出力
(ステップ28)が終了したら、検索者に対してしきい
値の変更を行なうかどうかを問い合わせる(ステップ3
2)。変更ないとした場合にはそのまま処理を終了し、
変更すると検索者が回答した場合には、しきい値の再入
力を行ない(ステップ33)、ステップ27に戻ってし
きい値と一致度との比較からを再度実行する。
【0035】上述の説明では、検索対象として文字列を
例に挙げているために、連語長の単位として文字数を使
用したが、コンピュータでは、文字はJIS、SJIS
(シフトJIS)、EUC等のコード体系で定義された
ビット列で扱われているから、連語長1文字という場合
には、8ビットもしくは16ビットというようにコード
体系で決められた長さのビット列を扱っている。さらに
本発明はビット列一般の検索にも適用できるものであ
る。例えば2.5文字分のビット列を連語として扱うこ
とが可能であり、また、任意のビット列で検索を行なえ
ば、文字検索のみならず図形、波形等のデータについて
も暖昧検索を実行することが可能になる。
例に挙げているために、連語長の単位として文字数を使
用したが、コンピュータでは、文字はJIS、SJIS
(シフトJIS)、EUC等のコード体系で定義された
ビット列で扱われているから、連語長1文字という場合
には、8ビットもしくは16ビットというようにコード
体系で決められた長さのビット列を扱っている。さらに
本発明はビット列一般の検索にも適用できるものであ
る。例えば2.5文字分のビット列を連語として扱うこ
とが可能であり、また、任意のビット列で検索を行なえ
ば、文字検索のみならず図形、波形等のデータについて
も暖昧検索を実行することが可能になる。
【0036】なお、上述の説明では、ひらがなとカタカ
ナとの区別について詳細は述ベていないが、例えば、果
物の「すいか」は、文書によっては「スイカ」あるいは
「西瓜」と記載されている場合がある。「すいか」、
「スイカ」及び「西瓜」は同一のものを示す文字列であ
り、いずれか1つを検索キーワードとしたときにいずれ
もが検出されるようにする方が望ましい。このような場
合には、従来より用いられているシソーラス法等を併用
することにより、欠落のない検索が行なえる。
ナとの区別について詳細は述ベていないが、例えば、果
物の「すいか」は、文書によっては「スイカ」あるいは
「西瓜」と記載されている場合がある。「すいか」、
「スイカ」及び「西瓜」は同一のものを示す文字列であ
り、いずれか1つを検索キーワードとしたときにいずれ
もが検出されるようにする方が望ましい。このような場
合には、従来より用いられているシソーラス法等を併用
することにより、欠落のない検索が行なえる。
【0037】
【発明の効果】以上説明したように本発明は、しきい値
を適宜に設定できるようにするとともに、検索キーワー
ドから連語を生成する際に、ひらがな、カタカナ及び英
数字のうちの同一の文字種の字のみで構成される場合
と、それ以外の場合とに分けることにより、曖昧さの調
節ができるようになり、また、生成する連語それぞれに
付与される意味量を均等にすることが可能になるので、
過検出の少ない曖昧検索を効率的に実行でき、検索作業
の時間を短縮できるという効果がある。
を適宜に設定できるようにするとともに、検索キーワー
ドから連語を生成する際に、ひらがな、カタカナ及び英
数字のうちの同一の文字種の字のみで構成される場合
と、それ以外の場合とに分けることにより、曖昧さの調
節ができるようになり、また、生成する連語それぞれに
付与される意味量を均等にすることが可能になるので、
過検出の少ない曖昧検索を効率的に実行でき、検索作業
の時間を短縮できるという効果がある。
【図1】本発明の一実施例のデータベース検索装置の構
成を示すブロック図である。
成を示すブロック図である。
【図2】図1のデータベース検索装置における検索処理
の流れを示すフローチャートである。
の流れを示すフローチャートである。
【図3】検索処理の別の例を示すフローチャートであ
る。
る。
【図4】従来のデータベース検索方法の処理手順の一例
を示すフローチャートである。
を示すフローチャートである。
1 中央処理装置 2 記憶装置 2a,2b 記憶ユニット 3 モニター 4 プリンター 5 キーボード 6 RAM 11 検索部 12 連語生成部 13 比較部 21〜33 ステップ
Claims (5)
- 【請求項1】 検索キーワードに基づいてデータベース
中を検索するデータベース検索方法において、 前記検索キーワードから一群の連語を作成し、 前記データベース中の各文字列と前記一連の連語との一
致度を算出し、 そののち、算出された一致度が予め与えられたしきい値
以上である文字列を検索文字列とし前記検索文字列に基
づいて検索結果を出力し、 前記各連語は、ひらがな、カタカナ及び英数字のうちの
同一の文字種の字のみで構成される場合と、それ以外の
場合とに分けて生成されることを特徴とするデータベー
ス検索方法。 - 【請求項2】 ひらがな、カタカナ及び英数字のうちの
同一の文字種の字のみを含む連語として、連語長が3文
字以上の連語を少なくとも生成する請求項1に記載のデ
ータベース検索方法。 - 【請求項3】 検索キーワードに基づいてデータベース
中を検索するデータベース検索装置において、 前記検索キーワードとしきい値を入力する入力手段と、 前記検索キーワードから連語を作成する連語生成手段
と、 前記連語に一致する文字列を前記データベース中で検索
する検索手段と、 連語に一致した文字列に関する情報を格納する記憶手段
と、 前記一群の連語との一致度を算出して前記しきい値と比
較する比較手段と、 検索結果を出力する出力手段とを有し、 前記連語生成手段は、ひらがな、カタカナ及び英数字の
うちの同一の文字種の字のみで構成される場合と、それ
以外の場合とに分けて連語を生成することを特徴とする
データベース検索装置。 - 【請求項4】 ひらがな、カタカナ及び英数字のうちの
同一の文字種の字のみを含む連語として、ひらがな、カ
タカナ及び英数字のうちの同一文字種の字以外の文字を
含む連語の連語長よりも長い連語が少なくとも生成され
る請求項3に記載のデータベース検索装置。 - 【請求項5】 前記連語がビット列によって表現される
請求項3に記載のデータベース検索装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP7083663A JPH08287075A (ja) | 1995-04-10 | 1995-04-10 | データベース検索方法及び装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP7083663A JPH08287075A (ja) | 1995-04-10 | 1995-04-10 | データベース検索方法及び装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH08287075A true JPH08287075A (ja) | 1996-11-01 |
Family
ID=13808705
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP7083663A Withdrawn JPH08287075A (ja) | 1995-04-10 | 1995-04-10 | データベース検索方法及び装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH08287075A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20020018063A (ko) * | 2000-08-28 | 2002-03-07 | 쿵 티엔 메이 | 네트워크 다이얼-업 서보 시스템 및 그 방법 |
-
1995
- 1995-04-10 JP JP7083663A patent/JPH08287075A/ja not_active Withdrawn
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20020018063A (ko) * | 2000-08-28 | 2002-03-07 | 쿵 티엔 메이 | 네트워크 다이얼-업 서보 시스템 및 그 방법 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5745745A (en) | Text search method and apparatus for structured documents | |
US8005665B2 (en) | Method and apparatus for generating a language independent document abstract | |
JP3160201B2 (ja) | 情報検索方法、情報検索装置 | |
KR100451978B1 (ko) | 정보 검색 방법과 정보 검색 장치 | |
US6055528A (en) | Method for cross-linguistic document retrieval | |
JP4754247B2 (ja) | 複合語を構成する単語を割り出す装置及びコンピュータ化された方法 | |
US5752051A (en) | Language-independent method of generating index terms | |
US5907840A (en) | Overlapping subdocuments in a vector space search process | |
US6523030B1 (en) | Sort system for merging database entries | |
JPH1049549A (ja) | 文書検索装置 | |
JPH09198398A (ja) | パターン検索装置 | |
CN111428494A (zh) | 专有名词的智能纠错方法、装置、设备及存储介质 | |
US20030158725A1 (en) | Method and apparatus for identifying words with common stems | |
JP3258063B2 (ja) | データベース検索システム及び方法 | |
JPH0782504B2 (ja) | 情報検索処理方式および検索ファイル作成装置 | |
JPH06282587A (ja) | 文書の自動分類方法及び装置並びに分類用の辞書作成方法及び装置 | |
JP3151730B2 (ja) | データベース検索システム | |
JPH064584A (ja) | 文章検索装置 | |
JPH08287075A (ja) | データベース検索方法及び装置 | |
JPH02245971A (ja) | 情報検索処理方法及び装置 | |
JP4389102B2 (ja) | 技術文献検索システム | |
JP3665112B2 (ja) | 文字列検索方法及び装置 | |
EP1076305A1 (en) | A phonetic method of retrieving and presenting electronic information from large information sources, an apparatus for performing the method, a computer-readable medium, and a computer program element | |
JPH06325091A (ja) | 類似度評価型データベース検索装置 | |
JPH08314950A (ja) | テキストの検索方法及び装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20020702 |