JPH04101271A

JPH04101271A - データテーブル検索方法

Info

Publication number: JPH04101271A
Application number: JP2218230A
Authority: JP
Inventors: Katsutaka Suzuki; 克孝鈴木
Original assignee: Tokyo Electric Co Ltd
Current assignee: Toshiba TEC Corp
Priority date: 1990-08-21
Filing date: 1990-08-21
Publication date: 1992-04-02

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】［産業上の利用分野］本発明は、例えば情報管理システムにおいてデータアク
セス等のためにデータテーブル群から所望のデータテー
ブルを検索する方法に関する。

［従来の技術］例えば情報管理システムにおいて、文字列からなるキー
により分類してデータテーブル群に登録されているデー
タをアクセスする場合に対象となるデータテーブルを効
率よく検索する方法としてハツシュ検索方法が知られて
いる。

このハツシュ検索方法は例えば検索対象の文字列とその
文字列長をもとにハツシュ関数によりハツシュ値を求め
、そのハツシュ値によりハツシュテーブルを索引して連
鎖されるデータテーブル群から任意のデータテーブルを
検索するようになっている。

ところでハツシュ関数によるハツシュ値算出方法として
は、キーである文字列の全文字を対象に算出する方法と
、ある長さ未満のキーについては全文字を対象に算出す
るが、ある長さ以上のキーに対しては文字列の特定部分
から固定長の文字列、例えば先頭より数文字を対象に算
出する方法がある。

文字列の比較的長いキーを扱うシステムにおいては算出
効率を高めるために後者の方法を使用する場合が多い。

しかしその反面、システムの扱うキー群の特性により算
出対象となる固定長の文字が一致する場合が多くなり、
その結果同じノ１ツシュ値に複数のキーが対応すること
が発生する。

このような場合、従来の方法では同じノ＼ツシュ値のキ
ーを保持するデータテーブルをノ＼ツシュテーブルの一
つの項から連結ポインタにより連結し、一つながりの連
鎖を形成して登録しておき、検索時には先頭のデータテ
ーブルから順次キーの検索を行い、キーが一致すれば対
象テーブルと判断してそのデータテーブルのデータ部を
アクセスし、また一致しなければ一致するキーが検索さ
れるまで連結ポインタによって連鎖をたどるという方法
をとっていた。

［発明が解決しようとする課題］しかしこの従来方法では連鎖の上位から下位へデータテ
ーブルを順次たどる必要があり、またそれぞれのデータ
テーブルでキーの全文字を比較するので、例えば検索す
べきデータテーブルが下位にあった場合、データテーブ
ルの検索処理に時間かかかり、検索効率が低下する問題
があった。

そこで本発明は、データテーブルの検索処理時間を短縮
でき、検索効率を向上できるデータテーブル検索方法を
提供しようとするものである。

［課題を解決するための手段と作用］本発明は、ハツシュ関数に基づいて求められたハツシュ
値によりハツシュテーブルを索引し、索引された項によ
り連鎖されるデータテーブル群から任意のデータテーブ
ルを検索する場合に、データテーブルにキーとしての文
字列自体と文字列長を格納した領域を設けるとともに、
同一ハツシュ値に属する複数のデータテーブルのうち文
字列長の等しいデータテーブルを連結する同長連結ポイ
ンタ領域、文字列長の異なるデータテーブルを連結する
異長連結ポインタ領域及び文字列長の等しいデータテー
ブル間において最初に検索されるデータテーブルに格納
された文字列と自己の文字列との相違情報を格納した領
域を設け、検索時においては先ず検索すべき文字列長と
等しい文字列長を格納したデータテーブルを文字列長格
納領域の情報と異長連結ポインタ領域の情報により検索
し、検索すべき文字列長と等しい文字列長を格納したデ
ータテーブルを検索するとそのデータテーブルに格納さ
れた文字列と検索すべき文字列が一致していればそのデ
ータテーブルを検索対象テーブルと判断し、またそのデ
ータテーブルに格納された文字列と検索すべき文字列が
不一致のときには同長連結ポインタ領域の情報による連
鎖をたどりつつ他のデータテーブルの相違情報格納領域
の相違情報に基づいて検索すべき文字列の一部とデータ
テーブルに格納された文字列の一部のみを比較し、その
一部か一致していればそのデータテーブルを検索対象テ
ーブルと判断することにある。

［実施例］以下、本発明の実施例を図面を参照して説明する。

第１図において１は被検索キーの文字列を格納する文字
列レジスタ、２は被検索キーの文字列長を格納する文字
列長レジスタで、この各レジスタ１．２の文字列及び文
字列長をハツシュ関数処理部３に入力してハツシュ値を
求め、そのハッシュ値によりハツシュテーブル４を索引
するようになっている。

そして前記ハツシュテーブル４により該当項にあるポイ
ンタが示す連鎖の先頭データテーブル５、を検査対象と
するようになっている。

５２．５３．．５４，５５．５６は前記データテーブル
５１と同一ハツシュ値で連鎖する他のデータテーブルで
ある。

前記各データテーブル５１〜５６は第２図に示すように
文字列長の等しいデータテーブルを連結する同長連結ポ
インタ領域としての同長連結ポインタ部Ｍ１、文字列長
の異なるデータテーブルを連結する異長連結ポインタ領
域としての異長連結ポインタ部Ｍ２、キーとしての文字
列の長さ、すなわち文字列長を格納する領域としての文
字列長部Ｍ３、文字列長の等しいデータテーブル間にお
いて最初に検索されるデータテーブルに格納された文字
列と自己の文字列との相違情報を格納する領域としての
相違情報部Ｍ４、キーとしての文字列を格納する領域と
しての文字列部Ｍ、及びデータを格納する領域としての
データ部Ｍ６で構成されている。

６はキーの相違情報を格納する相違情報レジスタである
。

第３図は検索処理を示す流れ図で、先ず相違情報レジス
タ６を初期化しその値を「０」にする。

続いて文字列レジスタ１の文字列と文字列長レジスタ２
の文字列長からハツシュ関数処理部３にてハツシュ値を
求め、そのハツシュ値によりハツシュテーブル４を索引
し、さらにそのハツシュテーブル４により該当項にある
ポインタか示す連鎖の先頭データテーブル５１を検査対
象とする。

続いてＳｌにて文字列長レジスタ２の文字列長とデータ
テーブルにおける文字列長部Ｍ３の文字列長を比較し、
一致していれば続いてＳ２にて相違情報レジスタ６の値
とデータテーブルにおける相違情報部Ｍ４の値を比較す
る。そして一致していれば続いてＳ３にて文字列レジス
タ１の文字列とデータテーブルにおける文字列部Ｍ５の
文字列を比較し、一致していれば検索すべきデータテブ
ルであると判断しそのデータテーブルのデータ部Ｍ６を
アクセスする。

また一致していなければ相違が判明した文字の番号を相
違情報レジスタ６に格納する。そしてＳ４にて同長連結
ポインタ部Ｍ１がｒＯＪになっているか否かをチエツク
し、「０」でなければ同長連結ポインタ部Ｍ１のポイン
タが示すデータテーブルを次の検査対象にして前記Ｓ２
の比較に戻る。

またＳ４にて同長連結ポインタ部Ｍ１が「０」になって
いれば未登録エラーとして処理を終了する。

前記Ｓ１の比較にて文字列長レジスタ２の文字列長と文
字列長部Ｍ３の文字列長が一致していなければＳ５にて
異長連結ポインタ部Ｍ２が「０」になっているか否かを
チエツクし、「０」でなければ異長連結ポインタ部Ｍ２
のポインタが示すデータテーブルを次の検査対象にして
前記Ｓ１の比較に戻る。

またＳ、にて異長連結ポインタ部Ｍ２が「０」になって
いれば未登録エラーとして処理を終了する。

このような構成の本実施例において文字列レジスタ１に
例えばｒ　ａｂｃｄｅｗｘ　Ｊの文字列が格納されてい
るとするとこの文字列か検索対象となる。そして今キー
である文字列の先頭５文字からハツシュ値を求めるハツ
シュ関数を用いるとすると、ｒａｂｃｄｅｘｙ　Ｊ　　
ｒａｂｃｄｅ　Ｊ　　ｒａｂｃｄｅｖＪ　　ｒａｂｃｄ
ｅｘｗ　Ｊｒ　ａｂｃｄｅｖＪ　　ｒ　ａｂｃｄｅｗｘ
　Ｊは同じハツシュ値をもつので、これらのキーを文字
列部Ｍ、に格納したデータテーブル５１〜５６はハツシ
ュテーブル４の一つの項から連鎖構造を形成する。

ｒ　ａｂｃｄｅｖｘ　Ｊの文字列は文字列長か「７」で
これと同じ文字列長のデータテーブルは５＋、５４゜５
６となる。従ってデータテーブル５１＋５４＋５６は同
長連結ポインタにより連鎖される。そしてデータテーブ
ル５６の同長連結ポインタ部Ｍ１には連鎖の末尾を示す
値、例えば「０」を格納しておく。

またデータテーブル５３．５５は文字列長が「６」で同
長連結ポインタにより連鎖される。そしてデータテーブ
ル５．の同長連結ポインタ部Ｍ１には連鎖の末尾を示す
「０」を格納しておく。

またデータテーブル５１は下位に文字列が異なりしかも
同長連結ポインタで連鎖されないデータテーブル５□が
存在するのでこれを異長連結ポインタで連結する。また
データテーブル５２は下位に文字列が異なりしかも同長
連結ポインタで連鎖されないデータテーブル５３が存在
するのでこれを異長連結ポインタで連結する。またデー
タテーブル５３〜５６の異長連結ポインタ部Ｍ２にはそ
のような条件を満たすデータテーブルが存在しないこと
を示す値、例えば「０」を格納しておく。

以上によりデータテーブル５、〜５６は、文字列長が「
７」の連鎖と、文字列長が「６」の連鎖と、文字列長が
異なる連鎖の３つの連鎖構造を成して登録されることに
なる。

またデータテーブルの相違情報部Ｍ４にはデータテーブ
ルが格納する文字列と、そのデータテーブルを同長連結
ポインタで連結するデータテーブルが格納する文字列が
、先頭文字から何文字目で初めて異なるかを示す文字番
号が格納される。例えば文字列に対する文字番号を先頭
文字から順にｒＯ，１，２，３，・・・」とすると、デ
ータテーブル５．の文字列ｒ　ａｂｅｄｅｘｙ　Ｊとこ
のデータテーブル５１に同長連結ポインタで連鎖するデ
ータテーブル５４の文字列ｒ　ａｂｅｄｅｘｙ」とは先
頭より７文字目がｒｙＪとｒ　ｗ　Ｊで異なるので文字
番号「６」をデータテーブル５４の相違情報部Ｍ４に格
納する。またデータテーブル５３の文字列ｒ　ａｂｃｄ
ｅν」とこのデータテーブル５３に同長連結ポインタで
連鎖するデータテーブル５．の文字列ｒ　ａｂｃｄｅｖ
Ｊとは先頭より６文字目がｒｗＪと「ｖ」で異なるので
文字番号「５」をデータテーブル５．の相違情報部Ｍ４
に格納する。さらにデータテーブル５４の文字列ｒ　ａ
ｂｅｄｅｘｙ」とこのデータテーブル５４に同長連結ポ
インタで連鎖するデータテーブル５６の文字列ｒａｂｃ
ｄｅｖｘ　Ｊとは先頭より６文字目がｒｘＪとｒ　ｗ　
Ｊで異なるので文字番号「５」をデータテーブル５６の
相違情報部Ｍ４に格納する。

また同長連結ポインタで連結されていないデータテーブ
ル５１，５゜、５３の相違情報部Ｍ４にはｒＯＪが格納
される。

従って文字列レジスタ１に格納されている文字列「ａｂ
ｃｄｅｖｘ　Ｊが格納されているデータテーブル５６を
検索する場合にそのデータテーブル５６が最下位にあっ
ても、検索はデータテーブル５１→５４→５６の順に行
われ３つ目のデータテーブル検索で見付けることができ
る。

すなわちデータテーブル５１においては文字列長レジス
タ２の値「７」と文字列長部Ｍ３の値「７」の一致が検
出され、続いて相違情報レジスタ６の値「０」と相違情
報部Ｍ４の値「０」の一致が検出され、文字列レジスタ
１の文字列ｒ　ａｂｃｄｅｗｘ　Ｊと文字列部Ｍ、の文
字列ｒａｂｃｄｅｘｙ　Ｊが１文字ずつ比較される。そ
して６文字目においてｒ　ｗ　Ｊと「ｘ」の違いが検出
され、相違情報レジスタ６に文字番号の「５」がセット
される。

この状態でデータテーブル５１の同長連結ポインタ部Ｍ
１により次の検査対象としてデータテーブル５４が選択
される。

そしてデータテーブル５４においては直ちに相違情報レ
ジスタ６の値「５」と相違情報部Ｍ４の値「６」の比較
が行われ、この両値は一致していないので直ちにデータ
テーブル５４の同長連結ポインタ部Ｍ１により次の検査
対象としてデータテーブル５６が選択される。

そしてデータテーブル５６においては直ちに相違情報レ
ジスタ６の値「５」と相違情報部Ｍ４の値「５」の比較
が行われ、この両値は一致しているので続いて文字列レ
ジスタ１の文字列［ａｂｃｄｅｗｘ　Ｊと文字列部Ｍ、
の文字列ｒ　ａｂｅｄｅｖｘ　Ｊを相違情報レジスタ６
の値「５」に基づいて６文字目、すなわち「Ｗ」から１
文字ずつ比較される。

そして６文字目がｒｗＪとｒＷＪて一致しているので続
いて７文字目が比較され、７文字目もｒｘＪとｒｘＪで
一致しているのでデータテーブル５６が検索すべきテー
ブルであると判断される。

こうしてデータテーブル５６のデータ部Ｍ６がアクセス
されるようになる。

このように先ず文字列長を比較し、一致していれば同一
文字列長の連鎖をたどり、しかも２つ目以降に検索され
るデータテーブルについては相違情報レジスタ６の値と
相違情報部Ｍ４の値を比較し、不一致であれば次の連鎖
をたどり、また一致していれば相違情報レジスタ６の値
に基づいて前の比較時に異なった文字番号から比較する
ようにしているので、検索テーブル数を減らすことがで
きるとともに各テーブルにおける検索時間を短縮でき、
従って検索処理に要する時間を大幅に短縮できて検索効
率を向上することができる。

また文字列ｒ　ａｂｅｄｅｖＪが格納されているデータ
テーブル５．を検索する場合はデータテーブル５１→５
２→５３→５５の順に行われ４つ目のデータテーブル検
索で見付けることができる。

すなわちデータテーブル５１においては文字列長レジス
タ２の値「６」と文字列長部Ｍ３の値「７」の比較によ
り不一致が検出されるので、データテーブル５１の異長
連結ポインタ部Ｍ２により次の検査対象としてデータテ
ーブル５２か選択される。

そしてデータテーブル５２においても先ず文字列長レジ
スタ２の値「６」と文字列長部Ｍ３の値「５」の比較が
行われ、やはり不一致が検出されてデータテーブル５□
の異長連結ポインタ部Ｍ２により次の検査対象としてデ
ータテーブル５３か選択される。

そしてデータテーブル５３においても先ず文字列長レジ
スタ２の値「６」と文字列長部Ｍ３の値「６」の比較が
行われる。今度は一致しているので続いて相違情報レジ
スタ６の値「０」と相違情報部Ｍ４の値「０」の比較が
行われ、これも一致しているので続いて文字列レジスタ
１の文字列「ａｂｃｄｅｖｊと文字列部Ｍ、の文字列ｒ
　ａｂｅｄｅｖＪか１文字ずつ比較される。そして６文
字目においてｒｖＪとｒ　ｗ　Ｊの違いが検出され、相
違情報レジスタ６に文字番号の「５」がセットされる。

そして今度はデータテーブル５．の同長連結ポインタ部
Ｍ１により次の検査対象としてデータテーブル５５が選
択される。

そしてデータテーブル５５においては直ちに相違情報レ
ジスタ６の値「５」と相違情報部Ｍ４の値「５」の比較
が行われ、この両値は一致しているので続いて文字列レ
ジスタ１の文字列ｒ　ａｂｃｄｅｖＪと文字列部Ｍ、の
文字列「ａｂｃｄｅ■」を相違情報レジスタ６の値「５
」に基づいて６文字目か比較される。そして６文字目が
ｒｖＪとｒｖＪで一致しているのでこのデータテーブル
５．が検索すべきテーブルであると判断される。

こうしてデータテーブル５５のデータ部Ｍ６がアクセス
されるようになる。

このように最初のデータテーブルの文字列長が異なって
いても異長連結ポインタによって同一文字列長のデータ
テーブルが見付かるまで異長連結の連鎖をたどり、同一
文字列長のデータテーブルが検索されると以降は同長連
結の連鎖をたどることになるので、この場合においても
検索テーブル数を減らすことができるとともに各テーブ
ルにおける検索時間を短縮でき、従って検索処理に要す
る時間を短縮できて検索効率を向上することかできる。

［発明の効果］以上詳述したように本発明によれば、データテーブルの
検索処理時間を短縮でき、検索効率を向上できるデータ
テーブル検索方法を提供できるものである。

【図面の簡単な説明】

図は本発明の実施例を示すもので、第１図は検索過程を
説明するためのブロック図、第２図はデータテーブルの
構成を示す図、第３図は検索処理を示す流れ図である。１・・・文字列レジスタ、２・・・文字列長レジスタ、３・・・ハツシュ関数処理部、４・・・ハツシュテーブル、５１〜５６・・・データテーブル、６・・・相違情報レジスタ。出願人代理人　弁理士　鈴江武彦

Claims

【特許請求の範囲】

ハッシュ関数に基づいて求められたハッシュ値によりハ
ッシュテーブルを索引し、索引された項により連鎖され
るデータテーブル群から任意のデータテーブルを検索す
る場合に、データテーブルにキーとしての文字列自体と
文字列長を格納した領域を設けるとともに、同一ハッシ
ュ値に属する複数のデータテーブルのうち文字列長の等
しいデータテーブルを連結する同長連結ポインタ領域、
文字列長の異なるデータテーブルを連結する異長連結ポ
インタ領域及び文字列長の等しいデータテーブル間にお
いて最初に検索されるデータテーブルに格納された文字
列と自己の文字列との相違情報を格納した領域を設け、
検索時においては先ず検索すべき文字列長と等しい文字
列長を格納したデータテーブルを前記文字列長格納領域
の情報と異長連結ポインタ領域の情報により検索し、検
索すべき文字列長と等しい文字列長を格納したデータテ
ーブルを検索するとそのデータテーブルに格納された文
字列と検索すべき文字列が一致していればそのデータテ
ーブルを検索対象テーブルと判断し、またそのデータテ
ーブルに格納された文字列と検索すべき文字列が不一致
のときには前記同長連結ポインタ領域の情報による連鎖
をたどりつつ他のデータテーブルの相違情報格納領域の
相違情報に基づいて検索すべき文字列の一部とデータテ
ーブルに格納された文字列の一部のみを比較し、その一
部が一致していればそのデータテーブルを検索対象テー
ブルと判断することを特徴とするデータテーブル検索方
法。