JP2001195413A - 文字列検索装置および文字列検索方法 - Google Patents

文字列検索装置および文字列検索方法

Info

Publication number
JP2001195413A
JP2001195413A JP2000003918A JP2000003918A JP2001195413A JP 2001195413 A JP2001195413 A JP 2001195413A JP 2000003918 A JP2000003918 A JP 2000003918A JP 2000003918 A JP2000003918 A JP 2000003918A JP 2001195413 A JP2001195413 A JP 2001195413A
Authority
JP
Japan
Prior art keywords
character string
data
search
database
string data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000003918A
Other languages
English (en)
Inventor
Shingo Nakagawa
真悟 中川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2000003918A priority Critical patent/JP2001195413A/ja
Publication of JP2001195413A publication Critical patent/JP2001195413A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 メモリ消費量を抑えつつ、検索時間を短縮す
るとともに、ソフトウェアのソースコードの削減化、信
頼性の向上化を図る。 【解決手段】 文字列データ管理装置2のCPU21
は、検索用文字列入力装置1から入力された検索文字列
データをバッファ23に格納する。次に、バッファ23
の検索文字列データおよび文字列データベース22に登
録済みの文字列データを、CPU21が一度に取り扱い
可能なアクセスサイズ単位で、それぞれの内容を比較し
て、登録文字列データの中に一致する文字列データが存
在するか否かを判断する。そして、一致した文字列デー
タが見つかった場合には、文字列データベース22の何
番目に登録されているデータであるかを、また文字列デ
ータベース22に存在しなかった場合には、見つからな
かった旨を検索結果として検索結果出力装置3へ出力す
る。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文字列データベー
スに蓄積されている複数の文字列内に検索文字列に一致
する文字列が存在するか否かを検索する文字列検索装置
および文字列検索方法に関する。
【0002】
【従来の技術】一般に、文字列データベースを備えたシ
ステムにおいては、その文字列データベースに蓄積され
ている文字列内に、ある文字列が存在するか否かを検索
する機能を有している。これまでにも、文字列を検索す
るアルゴリズムとして、いくつか提案されているが、最
も一般的なアルゴリズムとしては、データベースの先頭
から順次、該文字列データベース内の文字列と検索対象
の文字列とを1文字ずつ比較していくものがある。該ア
ルゴリズムでは、文字列データベース内の文字列と検索
対象の文字列とを1文字ずつ比較し、全てが一致した場
合には、検索対象の文字列を検出結果とする。一方、文
字列の文字比較過程において、一致しない文字があった
場合には、文字列データベース上の次の文字列を比較対
象にし、文字列データベースの最後まで一致する文字列
が無かった場合には、文字列データベースに存在しない
ことを検出結果とする。
【0003】
【発明が解決しようとする課題】しかしながら、上述し
たアルゴリズムでは、検索にかかる時間は、最悪のケー
スで単純計算しただけでも、「検索対象文字列の文字数
×データベースに存在する文字列数」もかかり、データ
ベースの最後の方に目的の文字列が存在する場合には、
検索結果を得るまでの時間がかかる。
【0004】ところで、コンピュータ内では、1文字は
8ビットのASCIIコードで表される。また、近年、
CPUは、32ビットまたは64ビット単位で、データ
を処理するようになっている。ゆえに、CPUは、8ビ
ット/文字単位で文字を比較するために、内部処理とし
て、1文字のデータをCPUのデータアクセスサイズ
(32ビットや64ビット)に変換しなければならず、
検索時間に加えて、データ変換のための時間も必要とな
る。このため、特に、ファイルのオープン時にファイル
名をデータベースから検索するビデオサーバなど、リア
ルタイム性を要求されるシステムにおいては、さらに検
索結果を得るまでの時間が長くなることで、要求時間を
超えてしまうという問題がある。
【0005】そのため、従来より、Hash法、Bru
te−Force法(BF法)、Knuth−Morr
is−Pratt法(KMP法)、Boyer−Moo
re法(BM法)といった既知のアルゴリズムを用い
て、検索の高速化を図る方法がある。しかしながら、こ
れらのアルゴリズムは、データベース上の文字列データ
以外に、キー情報や、検索用にテーブル情報を必要とす
るため、ソフトウェアのソースコード記述量の増加、そ
れに伴うバグの発生率の増加、メモリの消費量増加につ
ながるという問題がある。
【0006】そこで本発明は、メモリ消費量を抑えつ
つ、検索時間を短縮することができるとともに、ソフト
ウェアのソースコードの削減化、信頼性の向上化を図る
ことができる文字列検索装置および文字列検索方法を提
供することを目的とする。
【0007】
【課題を解決するための手段】上記目的達成のため、請
求項1記載の発明による文字列検索装置は、データベー
ス内に記憶された複数の文字列の中に、検索文字列に一
致する文字列が存在するかを検索する文字列検索装置に
おいて、1回の比較動作で、検索対象である検索文字列
データと、前記データベースに記憶されている複数の文
字列データの各々とを、複数の文字単位で比較する比較
手段を具備することを特徴とする。
【0008】また、好ましい態様として、例えば請求項
2記載のように、請求項1記載の文字列検索装置におい
て、前記複数の文字単位は、前記比較手段が1回の比較
動作において取り扱い可能なデータ量であってもよい。
【0009】また、好ましい態様として、例えば請求項
3記載のように、請求項1記載の文字列検索装置におい
て、前記比較手段は、中央演算処理装置による比較機能
により実現され、前記中央演算処理装置は、検索対象で
ある検索文字列データと、前記データベースに記憶され
ている複数の文字列データの各々とを、一度にアクセス
可能なデータ量分の複数の文字を1つのデータとし、該
データ単位で比較するようにしてもよい。
【0010】また、好ましい態様として、例えば請求項
4記載のように、請求項1記載の文字列検索装置におい
て、前記前記データベースに記憶されている複数の文字
列データのうち、比較対象となる文字列データと、前記
検索対象である検索文字列データとを、各々、連続アド
レス領域に一時的に記憶する記憶手段を具備し、前記比
較手段は、前記記憶手段をアクセスすることで、比較対
象となる文字列データと前記検索対象である検索文字列
データとの各々から、一度に複数の文字を取得し、双方
を比較するようにしてもよい。
【0011】また、上記目的達成のため、請求項5記載
の発明による文字列検索方法は、データベース内に記憶
された複数の文字列の中に、検索文字列に一致する文字
列が存在するかを検索する文字列検索方法において、前
記データベースに記憶されている複数の文字列データの
うち、比較対象となる文字列データと、前記検索対象文
字列データとを連続アドレス領域に記憶するステップ
と、前記連続アドレス領域に記憶された、検索対象文字
列データと前記比較対象となる文字列データの各々か
ら、一度にアクセス可能なデータ量分の複数の文字を1
つのデータとし、該データ単位で、前記検索対象文字列
データと前記比較対象となる文字列データとを比較する
ステップと、前記データ単位で比較した結果、いずれか
1つでも不一致となった場合、前記データベースに記憶
されている複数の文字列データの次の文字列データを比
較対象となる文字列データとし、前記記憶するステップ
と前記比較するステップとを繰り返すステップと、前記
データ単位で比較した結果、全てが一致した場合、検索
結果として、一致した旨のメッセージを出力するステッ
プと、前記繰り返しにおいて、データベースの最後の文
字列まで比較しても一致する文字列が存在しなかった場
合には、検索結果として、検索文字列がデータベースに
存在しない旨のメッセージを出力するステップとを有す
ることを特徴とする。
【0012】この発明では、比較手段は、データベース
内に記憶された複数の文字列の中に、検索文字列に一致
する文字列が存在するかを検索する際に、1回の比較動
作で、検索対象である検索文字列データと、前記データ
ベースに記憶されている複数の文字列データの各々と
を、複数の文字単位で比較する。これにより、比較回数
を減らすことが可能となり、検索時間を短縮することが
可能となるとともに、ソフトウェアのソースコードの削
減化、信頼性の向上化を図ることが可能となる。また、
検索高速化に必要とするキー情報や検索補助データのテ
ーブルなど一切必要としないので、メモリ消費量を抑え
ることが可能となる。
【0013】
【発明の実施の形態】以下、本発明の実施の形態を、図
面を参照して説明する。 A.実施形態の構成 本発明による文字検索システムは、パソコンの住所録ア
プリケーションソフトでの人名検索やビデオサーバでの
ファイルシステムのファイル名検索など、幅広い分野で
適用されることを想定している。図1は、本発明の実施
形態の文字列データ管理装置およびその周辺装置からな
る文字検索システムの構成を示すブロック図である。
【0014】図において、文字検索システムは、検索文
字列入力装置1、文字列データ管理装置2および検索結
果出力装置3から構成されている。検索文字列入力装置
1は、キーボードなどの入力装置からなり、ユーザによ
り任意の検索文字列が入力される。文字列データ管理装
置2は、文字列データを管理、制御するCPU21、文
字列データを蓄積している文字列データベース22およ
び文字列データを一時的に保持するバッファ23を備え
ている。CPU21は、外部装置から任意のコマンドを
受領すると、該コマンドに応じて、文字列データベース
22への文字列データの登録や、参照、検索、変更、削
除などを行う機能を備えている。特に、CPU21は、
文字列データベース22に蓄積されている文字列データ
の中に、検索文字列入力装置1から入力された検索文字
列データが存在するか否かを検索し、検索結果を検索結
果出力装置3に送出する。文字列データベース22は、
住所録アプリケーションソフトにおける住所録や、ビデ
オサーバで管理される音声・映像データのファイル名な
ど、複数の文字列データを蓄積している。バッファ23
は、CPU21による文字列検索に際して用いられるバ
ッファである。検索結果出力装置3は、モニタやプリン
タなどの出力装置からなり、文字列データ管理装置2か
らの供給される検索結果を出力する。
【0015】なお、上述した検索文字列入力装置1、文
字列データ管理装置2、検索結果出力装置3は、一体に
構成されていてもよい。また、本発明は、文字列の検索
方法に着目しているため、既に文字列データベース22
に、文字列がいくつか登録済みであることを前提に説明
を進めることにする。また、文字列検索に際しては、文
字列データベース22上の複数の文字列データのち、比
較対象となる文字列データと、入力された検索文字列デ
ータとは、連続したアドレス領域に登録されるものとす
る。
【0016】B.実施形態の動作 次に、上述した実施形態の動作について説明する。ま
ず、文字検索システムの略動作について説明する。検索
用文字列入力装置1から検索文字列を入力すると、文字
列データ管理装置2のCPU21は、入力された検索文
字列データをバッファ23に格納する。次に、バッファ
23に記憶された、検索文字列データおよび文字列デー
タベース22からの比較対象となる文字列データを、C
PU21が一度に扱えるアクセスサイズ単位で、それぞ
れの内容を比較して、登録文字列データの中に検索文字
列データに一致する文字列データが存在するか否かを検
索する。そして、一致した文字列データが見つかった場
合には、文字列データベース22の何番目に登録されて
いるデータであるかを、また文字列データベース22に
存在しなかった場合には、見つからなかった旨を検索結
果として検索結果出力装置3へ出力する。
【0017】次に、詳細な処理について具体例をあげて
説明する。ここで、図2は、本実施形態の動作を説明す
るためのフローチャートである。また、図3は、文字検
索システムで文字を扱う際のASCIIコードを示す概
念図であり、図4は、検索文字列データならびに該検索
文字列データの検索時の取り扱い方法を示す概念図であ
る。また、図5は、データベースに登録済みの文字列の
内容を示す概念図であり、図6は、データベースにおけ
る文字列の取り扱い方法を示す概念図である。
【0018】まず、文字検索システムにおける初期設定
を行う(ステップS1)。具体的には、本実施形態での
CPU21のバス幅Bは、32ビットバスとする。言い
換えると、CPU21は、一度に32ビットのデータを
取り扱うことが可能である。また、検索文字列入力装置
1および文字列データ管理装置2のデータベース22で
扱える最大文字数Lは12文字とし、文字セットは、図
3に示すASCIIコードを用いるものとする。したが
って、1文字のビット幅Cは8ビットとなり、検索で扱
う文字列データの要素数Mは、M=(L×C)÷B=
(12×8)÷32=3となる。また、データベース2
2に登録済みの文字列数Nは、図5に示すように、5と
する。
【0019】つまり、CPU21の最適アクセスサイズ
は32ビットであり、1文字は8ビットのため、一度に
アクセス可能な文字数は4文字となる。このため、12
文字の文字列を4文字ずつに区切り、3つの32ビット
のデータと見なすことができる。ゆえに、入力された検
索文字列と、データベース22の文字列群の各文字列と
について、各々の4文字が3つとも等しい場合に、検索
文字列がデータベース22に存在することになる。
【0020】ステップS1における初期設定後、文字列
入力装置1から検索文字列I[1]〜[12]を入力す
る(ステップS2)。ここで、Iの要素である[1]〜
[12]には、それぞれ1文字ずつの文字データが入
る。本実施形態では、文字列入力装置1から「comm
unity」という検索文字列を入力し(図4(a)を
参照)、該検索文字列をデータベース22から検索する
ことにする。なお、検索文字列が12文字未満の場合に
は、要素内のデータは空とし(「−」で表現)、文字コ
ードを「00」とする。文字列入力装置1から入力され
た検索文字列が文字列データ管理装置2へ供給される
と、CPU21は、検索要求を受領し、検索文字列は、
バッファ23へ格納される。入力文字列I[1]〜[1
2]を図3に示すASCIIコードに基づいてバッファ
23のメモリ上の配置を見ると、図4(b)に示すよう
に格納されていることになる。次に、バッファ23に格
納されている検索文字列データを、CPU21の最適ア
クセスサイズである32ビットずつに区切ると、図4
(c)に示すように、各々が32ビットのデータI’
[1]〜[3]と見なすことができる(ステップS
3)。
【0021】次に、データベース検索番号n=1とする
(ステップS4)。そして、データベース22のn(=
1)番目の文字列D[n(=1)][1]〜D[n(=
1)][12]を、バッファ23に格納されている検索
文字列データの場合と同様に、図6のに示すように、
32ビットのデータD’[1][1]〜D’[1]
[3]と見なす(ステップS5)。次に、バッファ23
の内容であるI’[1]〜I’[3]とデータベース2
2の1番目の内容であるD’[1][1]〜D’[1]
[3]の内容とを比較する(ステップS6)。
【0022】ここで、本実施形態では、ステップS6に
おいて、データバッファ23の内容であるI’[1]〜
I’[3]とデータベース22の1番目の内容である
D’[1][1]〜D’[1][3]とをそれぞれ比較
し、各比較結果の論理積をとることで双方の文字列が一
致するか否かを判断している。これに対して、32ビッ
トのデータを順次比較し、途中で不一致となった時点
で、次の文字列データに進むという方法も考えられる。
この場合、本実施形態で示す方法よりも、高速化が望め
るが、文字列の最後の文字で相違した場合には、データ
を順次比較する際のカウント操作や、判別の時間分だけ
検索が遅くなってしまうことになる。そこで、文字列の
最後の文字で相違するという最悪の条件においても、検
索時間をできるだけ速くするために、全ての文字を1つ
のステップで比較しているのである。但し、文字数が多
くなると、本実施形態では、ソースコード量が膨大にな
るので、検索すべき文字数に応じて、ステップS6の処
理を、上述したように、32ビットのデータを順次比較
し、途中で不一致となると、次の文字列データに進むと
いう繰り返し処理に変更するようにしてもよい。
【0023】この場合、I’[1]=「636F6D6
Dh」と、D’[1][1]=「6E6F7465h」
とを比較すると等しくない。また、I’[2]とD’
[1][2]、I’[3]とD’[1][3]も同様に
等しくないため、データベース22の次の文字列を調べ
るために、n=n+1=2とする(ステップS7)。そ
して、nがN以下であるか否か、すなわちデータベース
22に格納されている全ての文字列について検索したか
否かを判断する(ステップS8)。この場合、n<Nは
2<5のため、ステップS5に戻り、次の検索に移る。
【0024】n=2番目は、図5のに示す文字列D
[2][1]〜[12〕を、図6のに示すデータD’
[2][1]〜[3]と見なし(ステップS5)、I’
[1]〜[3]と比較する(ステップS6)。この場
合、I’[1]とD’[2][1]は、双方とも、「6
36F6D6Dh」であり、内容が等しいが、I’
[2]とD’[2][2]、I’[3]とD’[2]
[3]は等しくない。したがって、次の文字列を調べる
ために、n=n+1=3として(ステップS7)、n<
Nは3<5のため、次の検索に移る(ステップS8)。
【0025】次に、n=3番目は、図5のに示す文字
列D[3][1]〜[12]を、図6のに示すデータ
D’[3〕[1]〜[3]と見なし(ステップS5)、
I’[1]〜[3]と比較する(ステップS6)。この
場合、I’[1]とD’[3][1]、I’[2]と
D’[3][2]、I’[3]とD’[3][3]の全
てのデータが等しいため、検索結果として、入力された
検索文字列がデータベース22の3番目の文字列と一致
した旨のメッセージを、検索結果出力装置3へ出力し
(ステップS10)、当該処理を終了する。
【0026】なお、上述した実施形態では、検索文字列
がデータベース22に存在したが、これに対して、デー
タベース22において最後のn=5番目の文字列まで調
べても存在しなかった場合には、ステップS7で、n=
n+1=6となり、さらに、ステップS8で、n<Nの
比較が6>5となるため、検索結果として、検索文字列
がデータベース22に存在しない旨のメッセージを、検
索結果出力装置3へ出力し(ステップS9)、当該処理
を終了する。
【0027】ここで、従来技術による1文字ずつ文字列
を検索する検索方法と、本実施形態による検索方法とで
得られた最悪時間の事例をあげる。また、検索方法を適
用した機器としては、ビデオサーバのファイルオープン
時におけるファイル名の検索に要する最悪時間を実験し
た。条件は、次の通りである。
【0028】・ビデオサーバのファイル検索に使用する
CPUは、日立製32ビットSH−2CPUである。 ・ファイル情報データベースのファイル名の長さ、およ
び入力ファイル名の文字数は共に24文字である。 ・ビデオサーバが管理可能な最大ファイル数は1000
0である。
【0029】すなわち、上記の2つの方法で検索にかか
る最悪時間を考慮した条件は、すべてのファイルが長さ
24文字で、データベースの10000ファイル目に検
索ファイルが登録されているときである。実験の結果、
1文字検索ずつの検索方法では、約0.57秒となり、
本実施形態による検索方法では、約0.10秒となっ
た。この事例からも明らかなように、本発明を適用する
と検索速度の高速化を実現することができる。
【0030】上述した本実施形態では、1つの文字列の
検索時間において、4文字ずつ一度に比較するため、1
文字ずつ比較を行う場合と比べ、単純計算しても4分の
1に短縮することができる。また、CPUの最適アクセ
スサイズで比較操作を行うため、CPUの内部処理の負
担が軽減され、さらに高速化が図れる。さらに、検索キ
ーやテーブルなどを作成せずにデータベース22上の情
報のみで直接検索できるため、ソフトウェアで使用する
内部消費メモリ量を抑えることができ、ソースコードの
縮小化、複雑さ軽減にもつながる。
【0031】
【発明の効果】請求項1記載の発明によれば、データベ
ース内に記憶された複数の文字列の中に、検索文字列に
一致する文字列が存在するかを検索する際、比較手段に
より、1回の比較動作で、検索対象である検索文字列デ
ータと、前記データベースに記憶されている複数の文字
列データの各々とを、複数の文字単位で比較するように
したので、比較回数を減らすことが可能となり、検索時
間を短縮することができるとともに、ソフトウェアのソ
ースコードの削減化、信頼性の向上化を図ることができ
るという利点が得られる。また、検索高速化に必要とす
るキー情報や検索補助データのテーブルなど一切必要と
しないので、メモリ消費量を抑えることができるという
利点が得られる。
【0032】また、請求項2記載の発明によれば、前記
複数の文字単位を、前記比較手段が1回の比較動作にお
いて取り扱い可能なデータ量としたので、メモリ消費量
を抑えつつ、検索時間を短縮することができるととも
に、ソフトウェアのソースコードの削減化、信頼性の向
上化を図ることができるという利点が得られる。
【0033】また、請求項3記載の発明によれば、前記
比較手段を、中央演算処理装置による比較機能により実
現し、前記中央演算処理装置により、検索対象である検
索文字列データと、前記データベースに記憶されている
複数の文字列データの各々とを比較する際に、検索文字
列データと複数の文字列データの各々とに対して、アク
セス可能なデータ量分の文字を一度に比較するようにし
たので、メモリ消費量を抑えつつ、検索時間を短縮する
ことができるとともに、ソフトウェアのソースコードの
削減化、信頼性の向上化を図ることができるという利点
が得られる。
【0034】また、請求項4記載の発明によれば、前記
比較手段により、比較対象となる文字列データと、前記
検索対象である検索文字列データとを、各々、連続アド
レス領域に一時的に記憶した記憶手段をアクセスするこ
とで、それぞれの文字列から、一度に複数の文字を取得
し、双方を比較するようにしたので、メモリ消費量を抑
えつつ、検索時間を短縮することができるとともに、ソ
フトウェアのソースコードの削減化、信頼性の向上化を
図ることができるという利点が得られる。
【0035】また、請求項5記載の発明によれば、デー
タベースに記憶されている複数の文字列データのうち、
比較対象となる文字列データと、前記検索対象文字列デ
ータとを連続アドレス領域に記憶し、前記連続アドレス
領域に記憶された、検索対象文字列データと前記比較対
象となる文字列データの各々から、一度にアクセス可能
なデータ量分の複数の文字を1つのデータとし、該デー
タ単位で、前記検索対象文字列データと前記比較対象と
なる文字列データとを比較し、いずれか1つでも不一致
となった場合には、前記データベースに記憶されている
複数の文字列データの次の文字列データを比較対象とな
る文字列データとし、前記記憶動作と前記比較動作とを
繰り返し、一方、全てが一致した場合には、検索結果と
して、一致した旨のメッセージを出力し、さらに、前記
繰り返しにおいて、データベースの最後の文字列まで比
較しても一致する文字列が存在しなかった場合には、検
索結果として、検索文字列がデータベースに存在しない
旨のメッセージを出力するようにしたので、メモリ消費
量を抑えつつ、検索時間を短縮することができるととも
に、ソフトウェアのソースコードの削減化、信頼性の向
上化を図ることができるという利点が得られる。
【図面の簡単な説明】
【図1】本発明の実施形態の文字列データ管理装置およ
びその周辺装置からなる文字検索システムの構成を示す
ブロック図である。
【図2】本実施形態の動作を説明するためのフローチャ
ートである。
【図3】本実施形態による文字検索システムで文字を扱
う際のASCIIコードを示す概念図である。
【図4】本実施形態において、検索文字列データならび
に該検索文字列データの検索時の取り扱い方法を示す概
念図である。
【図5】本実施形態によるデータベースに登録済みの文
字列の内容を示す概念図である。
【図6】本実施形態において、データベースにおける文
字列の取り扱い方法を示す概念図である。
【符号の説明】
1……検索文字列入力装置、2……文字列データ管理装
置、21……CPU(比較手段)、22……文字列デー
タベース、23……バッファ(記憶手段)、3……検索
結果出力装置

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 データベース内に記憶された複数の文字
    列の中に、検索文字列に一致する文字列が存在するかを
    検索する文字列検索装置において、 1回の比較動作で、検索対象である検索文字列データ
    と、前記データベースに記憶されている複数の文字列デ
    ータの各々とを、複数の文字単位で比較する比較手段を
    具備することを特徴とする文字列検索装置。
  2. 【請求項2】 前記複数の文字単位は、前記比較手段が
    1回の比較動作において取り扱い可能なデータ量である
    ことを特徴とする請求項1記載の文字列検索装置。
  3. 【請求項3】 前記比較手段は、中央演算処理装置によ
    る比較機能により実現され、 前記中央演算処理装置は、検索対象である検索文字列デ
    ータと、前記データベースに記憶されている複数の文字
    列データの各々とを、一度にアクセス可能なデータ量分
    の複数の文字を1つのデータとし、該データ単位で比較
    することを特徴とする請求項1記載の文字列検索装置。
  4. 【請求項4】 前記データベースに記憶されている複数
    の文字列データのうち、比較対象となる文字列データ
    と、前記検索対象である検索文字列データとを、各々、
    連続アドレス領域に一時的に記憶する記憶手段を具備
    し、 前記比較手段は、前記記憶手段をアクセスすることで、
    比較対象となる文字列データと前記検索対象である検索
    文字列データとの各々から、一度に複数の文字を取得
    し、双方を比較することを特徴とする請求項1記載の文
    字列検索装置。
  5. 【請求項5】 データベース内に記憶された複数の文字
    列の中に、検索文字列に一致する文字列が存在するかを
    検索する文字列検索方法において、 前記データベースに記憶されている複数の文字列データ
    のうち、比較対象となる文字列データと、前記検索対象
    文字列データとを連続アドレス領域に記憶するステップ
    と、 前記連続アドレス領域に記憶された、検索対象文字列デ
    ータと前記比較対象となる文字列データの各々から、一
    度にアクセス可能なデータ量分の複数の文字を1つのデ
    ータとし、該データ単位で、前記検索対象文字列データ
    と前記比較対象となる文字列データとを比較するステッ
    プと、 前記データ単位で比較した結果、いずれか1つでも不一
    致となった場合、前記データベースに記憶されている複
    数の文字列データの次の文字列データを比較対象となる
    文字列データとし、前記記憶するステップと前記比較を
    するステップとを繰り返すステップと、 前記データ単位で比較した結果、全てが一致した場合、
    検索結果として、一致した旨のメッセージを出力するス
    テップと、 前記繰り返しにおいて、データベースの最後の文字列ま
    で比較しても一致する文字列が存在しなかった場合に
    は、検索結果として、検索文字列がデータベースに存在
    しない旨のメッセージを出力するステップとを有するこ
    とを特徴とする文字列検索方法。
JP2000003918A 2000-01-12 2000-01-12 文字列検索装置および文字列検索方法 Pending JP2001195413A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000003918A JP2001195413A (ja) 2000-01-12 2000-01-12 文字列検索装置および文字列検索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000003918A JP2001195413A (ja) 2000-01-12 2000-01-12 文字列検索装置および文字列検索方法

Publications (1)

Publication Number Publication Date
JP2001195413A true JP2001195413A (ja) 2001-07-19

Family

ID=18532778

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000003918A Pending JP2001195413A (ja) 2000-01-12 2000-01-12 文字列検索装置および文字列検索方法

Country Status (1)

Country Link
JP (1) JP2001195413A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010165102A (ja) * 2009-01-14 2010-07-29 Nippon Telegr & Teleph Corp <Ntt> データ検索装置、データ検索方法およびデータ検索プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010165102A (ja) * 2009-01-14 2010-07-29 Nippon Telegr & Teleph Corp <Ntt> データ検索装置、データ検索方法およびデータ検索プログラム

Similar Documents

Publication Publication Date Title
JP3889762B2 (ja) データ圧縮方法、プログラム及び装置
US5721899A (en) Retrieval apparatus using compressed trie node and retrieval method thereof
US7526497B2 (en) Database retrieval apparatus, retrieval method, storage medium, and program
US20090210412A1 (en) Method for searching and indexing data and a system for implementing same
US20080243746A1 (en) Compact Decision Diagrams
JPH11120203A (ja) データベースを合併する方法およびデータベースからドキュメントを検索する装置
CN112131218B (zh) 一种基因对比的哈希查表方法、装置、设备及存储介质
JPH09179872A (ja) 有限状態トランスデューサを用いてデータベースのインデックス付けを行う方法及び装置
JPH09245043A (ja) 情報検索装置
US6625592B1 (en) System and method for hash scanning of shared memory interfaces
JP2019121165A (ja) 検索結果出力プログラム、検索結果出力装置および検索結果出力方法
JP2001195413A (ja) 文字列検索装置および文字列検索方法
US6469643B1 (en) Information processing system
JP3470782B2 (ja) 情報検索装置
Waidyasooriya et al. Efficient data transfer scheme using word-pair-encoding-based compression for large-scale text-data processing
JP2988304B2 (ja) 文字列管理装置
JPH10177582A (ja) 最長一致検索方法及び装置
JPS62169273A (ja) 言語処理プログラムにおけるラベル情報の登録・参照方式
TW576994B (en) Method for condensing index data structure
JP2001117929A (ja) データ検索方法、データ整列方法およびデータ検索装置
JP3720060B2 (ja) 関連ワードを得る方法及びシステム
JPH06139278A (ja) 文字コード変換機能を備えた文字列検索装置
JPH03137772A (ja) データベース利用システム
JPH1049545A (ja) 連想記憶装置
JPH03127254A (ja) 単語検索装置