JPH087669B2

JPH087669B2 - 符号化方法、符号化装置、及び復号化装置

Info

Publication number: JPH087669B2
Application number: JP1212135A
Authority: JP
Inventors: ダニエル・ロツドマン・ヒツクス; ガリイ・ロズ・リカード; ジヨン・ジヨセフ・ブリーゼン
Original assignee: インターナシヨナル・ビジネス・マシーンズ・コーポレーシヨン
Priority date: 1988-11-03
Filing date: 1989-08-19
Publication date: 1996-01-29
Anticipated expiration: 2011-01-29
Also published as: US5001477A; JPH02130630A; EP0367704A2; EP0367704A3; BR8905590A

Description

【発明の詳細な説明】 A.産業上の利用分野本発明はレコードをソート可能にするデータ・レコー
ドの符号化に関する。

B.従来技術データベースの英数字レコードは、可変長及び空のフ
ィールドで構成することができる。照合前に可変長フィ
ールドを簡単に連結することができないのは、長いフィ
ールドの文字が、すぐ後の短いフィールドと干渉し、こ
れによって正しいソート順序を破壊することがあるから
である。たとえば、「Franz、Fred」及び「Franzen、Fr
ed」という名前を考えてみる。単純な連結を使用した場
合、「FRANZFRED」及び「FRANZENFRED」というストリン
グが生じるが、ラスト・ネームが長い「FRANZENFRED」
が「FRANZFRED」よりも前に照合される。これが正しく
ないことは、明らかである。また、データベース操作言
語、構造化照合言語（SQL）は空フィールドの概念を定
義している。空フィールドは、ソートされたとき、実際
の値を有している他のフィールドよりも前に配置されな
ければならない。また、空フィールドは、ソートされた
とき、すべてゼロからなるフィールドよりも前に配置さ
れなければならない。すべてゼロよりも低い順序のバイ
ト列は存在しないから、空を表わす符号化方法を提供し
なければならない。さらに、この符号化手法は、「Fran
z、Fred」−「Franzen、Fred」の名前を正しく照合する
方法を提供しなければならない。複数のレコード間での
正しいソート順序を保ちながら、データベース・レコー
ド内で可変長及び空のデータ・フィールドを表わす単一
のストリングを提供する方法が望ましい。この符号化ア
ルゴリズムは可逆であって、当初のフィールドを符号化
したストリングから回復できるようなものでもなければ
ならない。

C.発明が解決しようとする問題点 IBMテクニカル・ディスクージャ・ブルテンVol.19、N
o.9、1977年２月、3582−3583ページ「無制限ストリン
グのマルチフィールドの符号化」（Multifield Encodin
g For Unrestricted Strings）に示されているような現
在の事前ソート符号化手法に関連した問題の１つは、結
果として得られる符号化されたストリングがきわめて長
くなるというものである。この方法では、整数値パラメ
ータＮが選択される。符号化の対照となるフィールドに
は、２進ゼロが埋め込まれるので、その長さはＮの倍数
となる。２つのフィールドのストリングを符号化するに
は、ストリングの各Ｎバイトを単一の「トリガ」文字
（この場合は‘FF'Xである）によって分離する。次い
で、フィールドの最後のＮバイトのサブストリング（す
なわち、何らかの埋込みが行なわれるサブストリング）
を処理する場合には、‘FF'Xの代わりに、このサブスト
リングの非埋込み文字の数を示すバイトが付加される。
これはフィールドの終りを示す。上記したところ、及び
以下の例からわかるように、符号化されたストリングに
は、余分なバゲージが充填される。データが主記憶に対
してページ・イン、ページ・アウトされる環境におい
て、ソート操作には長い時間がかかるが、これはページ
が比較的遅い記憶装置から検索しなければならない多く
のページに分散しているからである。２つのフィールド
「ABCDEF」と「XYZ」を符号化するのに、Ｎ＝４と仮定
し、連結を示すために「//」（「//」は実際のデータに
は表われない）を使用すると、英数字データを表現する
EBCDIC16進すなわち16を底とする表記で、「‘C1C2C3C
4'//‘FF'//‘C5C6'//‘0000'//‘02'//‘E6E7E8'//‘0
0'//‘03'」となる。この符号化手法は空フィールドを
処理しない。

D.問題点を解決するための手段単純なバイトの比較によって結果として得られるデー
タのストリングのソートを可能とする、データ・バイト
の複数の空または可変長のフィールドからなるデータ・
レコードの符号化方法が提供される。最初のフィールド
を検証し、これが空フィールドであるかどうかを判断す
る。空フィールドとはデータを含んでいないフィールド
である。このフィールドは、すべてゼロであっても何ら
かのデータを含んでいるフィールドの前にソートされな
ければならない。空フィールドが検出された場合には、
これは空フィールド標識によって、符号化されたデータ
のストリング中に表示される。フィールドが空フィール
ドでない場合には、フィールド内のバイトが調べられ
る。ゼロ値のバイトは連続するゼロ値のバイトの数に基
づいて符号化され、非ゼロ・バイトは符号化されたスト
リングに直接入れられる。フィールドの終りの標識は、
符号化されたデータの結果として得られるストリング内
の各フィールドの終りを示す。

好ましい実施例の１つにおいて、非ゼロのバイトはそ
の正しいコードによって表わされる。空値は‘0000'X
（16進値）によって表わされる。単一の‘00'Xまたは連
続したこのようなバイトは、フィールドの符号化された
表示において、遭遇した‘00'Xバイトの数を表わすバイ
トが後に続く‘00'Xバイトによって置換される。フィー
ルドの最後のバイトが処理されたのち、フィールドの終
り標識‘0001'Xがフィールドの符号化された表示に付加
される。

空値を含めることは、空値をサポートするデータベー
スに関して符号化されたストリングで、正しいソート順
序を維持するという利点を提供する。空及びフィールド
の終り標識の16進値がそれぞれ、‘0000'X及び‘0001'X
であるから、ゼロを‘00aa'Xと表示する必要がある。
「aa」は連続したゼロ・バイトの数を表わすものであ
る。「aa」は‘02'Xと‘FF'Xの間の値を取る。ゼロのス
トリングが２つの16進バイトに圧縮されるという、他の
利点がある。

レコードは最初のレコードとして「ABCDEF」、「WXY
」、第２のレコードとして「ABCDEF 」、「MNOP」な
どの１つまたは複数のフィールドからなることが好まし
い。ソートを行なう場合、これらが上記と同じ順序でソ
ートされるのが好ましいが、レコードのフィールドを単
純に連結した場合、これらは逆の順序でソートされる。
というのは、レコード２のフィールド１の末尾に由来す
るブランクは、レコード１のフィールド２の「Ｗ」前に
来るからである。本発明の手法を使用すると、「ABCDE
F」、「WXY 」は「C1C2C3C4C5C60001E6E7E8400001」と
符号化される。「ABCDEF 」、「MNOP」は「C1C2C3C4C5
C6400001D4D5D6D70001」と符号化される。２つのEBCDIC
の符号をソートすると、これらは望ましい順序を維持す
る。通常、符号化されたストリングを記憶するのに必要
なスペースが、周知の方法で得られる符号化されたスト
リングよりも少なくなることも、明らかである。これは
従来の方法が埋込みゼロを付加し、非埋込みバイト標識
のフィールドまたは長さ内で分離符号を使用しているこ
との結果である。

E.実施例本発明のブロック図を第１図に示す。12にあるデータ
はソート操作16以前に、14で符号化される。データは通
常、データベース20に関連したデータであり、データベ
ースの照会であっても、データベース20に追加されるデ
ータであってもかまわない。データベース20は複数の可
変長フィールドを有するレコードからなっている。デー
タは16で適切にソートされるように14で符号化される。
符号化されたデータは次いで、データベース20を対象と
するインデックスに挿入されるか、あるいは照会の場合
であれば、インデックスを探索するために使用される。
インデックス及びデータベースに対するこれらの関係
は、米国特許第4774657号明細書「インデックス・キー
範囲推定装置」に詳細に記載されている。基本的に、デ
ータベースに対するインデックスは、各レコードの選択
されたフィールドに基づいてソートされる、データベー
スのレコードに対するポインタの集合体である。１つの
フィールドが動物の名前である動物のデータベースが、
一例である。インデックスは名前のフィールドに基づく
アルファベット順のリストである。鳥（Bird）は牛（Co
w）の前に来る。他のフィールドは重さ、種などを含む
ことができる。

符号化したデータを18で復号し、22の入出力装置に表
示することができる。入出力装置22を使用して、照会及
びデータを入力し、復号部18からの復号されたデータを
表示できる。符号化された形にインデックスを維持する
ことによって、符号化された形の照会のための探索スト
リングが、インデックスを探索するために使用される。
フィールドの境界を取り扱うのに、インデックス管理プ
ログラムに特別なプログラミングが必要ないのは、これ
らの境界がソートを可能にするように符号化されている
からである。したがって、可変長多重フィールド・レコ
ードを、従来のレコードを取り扱うのとまったく同じに
扱うことができる。

レコードについて、以下に詳細に説明する。各レコー
ドは、最初のレコードとして「ABCDEF」、「WXY 」、
第２のレコードとして「ABCDEF 」、「MNOP」などの１
つまたは複数の可変長フィールドからなることが好まし
い。ソートを行なう場合、これらが上記と同じ順序でソ
ートされるのが好ましいが、レコードのフィールドを単
純に連結した（端と端をつないだ）場合、これらは逆の
順序でソートされる。レコード２のフィールド１のブラ
ンクはレコード１のフィールド２の「Ｗ」よりも前に照
合されるが、これはブランクのEBCDIC表現の16進数がよ
り小さいからである。ソート前に本発明の手法を使用す
ると、「ABCDEF」、「WXY 」は「C1C2C3C4C5C60001E6E
7E8400001」と符号化され、「ABCDEF 」、「MNOP」は
「C1C2C3C4C5C6400001D4D5D6D70001」と符号化される。
２つのEBCDIC符号をソートした場合、これらは希望する
順序を維持する。

好ましい実施例の１つにおいて、非ゼロのバイトはそ
の通常のコードで表わされる。空値は‘0000'X（16進
値）で表わされる。単一の‘00'Xまたはこのようなバイ
トの列は、フィールドの符号化された表記では、遭遇し
た‘00'Xバイトの数を表わすバイトが後ろについた‘0
0'Xバイトで置換される。フィールドの最後のバイトが
処理された後、フィールドの終りの標識‘0001'Xがフィ
ールドの符号化された表記に付け加えられる。

空値を含めることは、空値をサポートするデータベー
スに対する符号化されたストリングにおいて、正しいソ
ート順序を維持することを可能とする。空値及びフィー
ルドの終りの標識に使用される16進値がそれぞれ、‘00
00'X及び‘0001'Xであるから、ゼロを‘00aa'Xで表わす
ことが望ましい。但し「aa」は連続したゼロ・バイトの
数を表わし、‘02'Xと‘FF'Xの間の値を取る。ゼロのス
トリングが127バイトのゼロごとに２バイトに圧縮され
るという利点ももたらされる。

符号化したレコードは、第２図に示すように、すべて
の符号化されたフィールドを連結したものである。単一
のフィールドは次のように符号化される。フィールドが
空値を含んでいる場合には、空フィールド標識‘0000'X
がフィールドの符号化された表記となる。これで空フィ
ールドの符号化は終わる。フィールドが非空の場合、フ
ィールドの各バイトが調べられる。現在のバイトが‘0
0'Xでない場合には、それがフィールドの符号化された
表記に付け加えられる。この場合、符号化はフィールド
の次のバイトで継続して行なわれる。現在のバイトが
‘00'Xの場合には、現在のバイトから始まる連続した
‘00'Xバイトの数が決定される。128以上の連続した‘0
0'Xバイトが存在している場合には、‘0080'Xというバ
イト列が、127個の連続した‘00'Xバイトのグループご
とに、フィールドの符号化された表記に付け加えられ
る。これは、残る‘00'Xバイトの数が128未満になるま
で行なわれる。残された、‘00'Xバイトの数は、次のス
テップにおける‘00'Xバイトのカウントとして使用され
る。

127個以下の連続した‘00'Xバイトが存在する場合、
あるいは前のステップでバイトが残っている場合には、
‘00'Xバイトは次のように符号化される。一連の連続し
た‘00'Xバイトがフィールドの終りにない場合には、
‘00nn'Xという列がフィールドの符号化された表記に付
け加えられる。nnの16進値は、255から連続した‘00'X
バイトの数を引いたもので与えられる。次いで、符号化
は連続した‘00'Xバイトの直後のバイトを用いて続行さ
れる。一連の連続した‘00'Xバイトがフィールドの終り
にある場合には、‘00mm'Xという列がフィールドの符号
化された表記に付け加えられる。mmの16進値は、連続し
た‘00'Xバイトの数に１を加えたものによって与えられ
る。各フィールドの最後のバイトが処理された後、フィ
ールドの終りの標識‘0001'Xがフィールドの符号化され
た表記に付け加えられる。ここで非空のフィールドの符
号化は完了する。

この符号化によって、空値及びフィールド長の可変性
にかかわりなく、正しく照合される単一のストリングが
もたらされる。次いで、符号化されたデータを容易に記
憶し、インデックスに収めることができる。符号化され
たデータがインデックスの照会である場合には、インデ
ックスの符号化値を比較するだけですむ。空または可変
長のフィールドを取り扱うのに、特別なプログラミング
は必要ない。ソートまたは照会後、データを復号しなけ
ればならないが、これには符号化の工程を逆にし、個々
のフィールドを単一の符号化されたストリングから復元
するだけでよい。

符号化されたストリングを復号する場合、第３図に詳
細に示すように、レコードのストリングの各バイトが調
べられる。レコードの現在のバイトが‘00'Xでない場合
には、それが現在のフィールドの復号された表記に付け
加えられる。現在のバイトが‘00'Xである場合には、レ
コードの次のバイトが調べられる。このバイトが‘00'X
である場合には、それが現在のフィールドは空値を含ん
でいる。現在のフィールドの復号は、完了する。次い
で、この‘00'Xバイトの次のバイトの複号が行なわれ
る。これは次のフイールドの最初のバイトである。最初
の‘00'Xバイトの次のバイトが‘01'Xであれば、フィー
ルドの終りの標識が発見され、現在のフィールドは完了
する。次いで、複号はこの‘01'Xバイトの次のバイトに
進む。これは次のフィールドの最初のバイトである。最
初の‘00'Xバイトの次のバイトが‘00'Xでも、‘01'Xバ
イトでもなければ、これはyy、すなわち復号されたフィ
ールドに付け加えなければならない‘00'Xバイトの数の
符号化されたカウントを表わす。yyが‘80'Xよりも大き
ければ、付加される‘00'Xバイトの数は225−yyとな
る。復号はyyの次のバイトに進む。これは現在のフィー
ルドの次のバイトである。yyが ‘80'X以下の場合には、付加される‘00'Xバイトの数は
yy−１となる。次いで、復号はyyの後のバイトへ進む。
これは現在のフィールドの次のバイトである。

次の表１は若干のレコードのサンプル、及び本発明に
よるその符号化を示す。レコード内のフィールドはコン
マによって分離される。

第４図及び第５図の流れ図に示すような他の実施例に
おいては、ハードウェアの援助機構を使用して、レコー
ドの符号化及び復号を行なう。援助機構は指定されたバ
イトに関して、バイトのストリングを走査する。この援
助機構を使用して、‘00'Xというストリングをはるかに
高速に処理する。援助機構を使用することによって、い
くつかのプログラムのループが回避される。このような
援助機構は通常、識別された文字を迅速に走査するため
の処理装置で実現されるものであり、照会されたデータ
を探索するのに有用なものである。

本発明を好ましい実施例に関して説明したが、当分野
の技術者には、、他の実施例が本発明の範囲に属するも
のであることが認識されよう。たとえば、異なるデータ
ベースでは、この空フィールドを異なる順序でソートす
る必要があることもある。空フィールド及び反復するバ
イト・ストリングの16進コードの表記を変更することに
よって、これは簡単に達成できる。符号化及び復号のほ
とんどまたはすべてをハードウェアに移し、これを行な
う速度を上げることができる。

F.発明の効果本発明を用いれば、空フィールドまたは可変長フィー
ルドを含む複数のフィールドより成るレコードを符号化
し且つ、その符号化したストリングをそのままソートす
ることによりレコードをソートすることができる。

【図面の簡単な説明】

第１図は、符号化の発明の実施形態のブロック図であ
る。円で囲まれた文字で示されるように結合される第2a図な
いし第2c図は、第１図の符号化の発明の流れ図である。円で囲まれた文字で示されるように結合される第3a図な
いし第3b図は、符号化されたレコードの復号の流れ図で
ある。円で囲まれた文字で示されるように結合した場合、第4a
図ないし第4b図は、ハードウェアの助けを借りたレコー
ドの符号化の流れ図である。円で囲まれた文字で示されるように結合した場合、第5a
図ないし第5b図は、ハードウェアの助けを借りた符号化
されたレコードの復号の流れ図である。 12……データ、14……符号化部、16……ソート操作、18
……復号部、20……データベース、22……入出力装置。

───────────────────────────────────────────────────── フロントページの続き (72)発明者ジヨン・ジヨセフ・ブリーゼンアメリカ合衆国ミネソタ州ズムブロータ、ワーレン・アヴエニユー330番地 (56)参考文献特開昭56−96327（ＪＰ，Ａ) 特開昭58−102314（ＪＰ，Ａ) ＣＯＭＭＵＮＩＣＡＴＩＯＮＯＦＴＨＥＡＳＳＯＣＩＡＴＩＯＮＦＯＲＣＯＭＰＵＴＩＮＧＭＡＣＨＩＮＥＲＹ 20〔11〕（1997）（米）‘Ａｎｅｎｃｏｄｉｎｇｍｅｔｈｏｄｆｏｒｍｕｌｔｉｆｉｅｌｄｓｏｒｔｉｎｇａｎｄｉｎｄｅｘｉｎｇ’Ｐ．874−878

Claims

【特許請求の範囲】

【請求項１】ゼロ・バイト及び他のバイトを有するデー
タ・バイトの非空フィールド及び空フィールドから成る
データ・レコードを、結果として生じるデータのストリ
ングが単純なバイトの比較によりソート可能となるよう
に符号化する方法であって、前記空フィールドまたは非空フィールドの存在を検知
し、前記検知したフィールドが前記空フィールドである場
合、前記空フィールドを空フィールド標識に単に置換
し、前記非空フィールド中の連続ゼロ・バイトの数に基づ
き、前記ゼロ・バイトを符号化し、前記非空フィールド中の全ての前記他のバイトを、所定
のコード化文字セット中の対応するコードに単に置換
し、前記検知したフィールドが非空フィールドであって且つ
最後の前記データ・バイトが前記のとおり置換された
後、前記データのストリングにフィールド終了標識を付
加する符号化方法。
【請求項２】ゼロ・バイト及び他のバイトを有するデー
タ・バイトの非空フィールド及び空フィールドから成る
データ・レコードを、結果として生じるデータのストリ
ングが単純なバイトの比較によりソート可能となるよう
に符号化する装置であって、前記空フィールドまたは非空フィールドの存在を検知す
る手段と、前記検知したフィールドが前記空フィールドである場
合、前記空フィールドを空フィールド標識に単に置換す
る手段と、前記非空フィールド中の連続ゼロ・バイトの数に基づ
き、前記ゼロ・バイトを符号化する手段と、前記非空フィールド中の全ての前記他のバイトを、所定
のコード化文字セット中の対応するコードに単に置換す
る手段と、前記検知したフィールドが非空フィールドであって且つ
最後の前記データ・バイトが前記のとおり置換された
後、前記データのストリングにフィールド終了標識を付
加する手段とを備える符号化装置。
【請求項３】空フィールド、可変長データ・バイトのフ
ィールド、又はフィールド終了標識の表示からなるソー
ティング・ストリングを復号する装置であって、前記ソーティング・ストリング中の表示を識別する手段
と、前記ソーティング・ストリング中の表示が空フィールド
を表わす場合、空フィールドを生成する手段と、前記ソーティング・ストリング中に表示された連続０バ
イトの数に基づいて、ゼロ・バイトを生成する手段と、非ゼロ文字に対応する前記ソーティング・ストリング中
の表示を、所定のコード化文字セットから対応する文字
に単に置換する手段と、前記ソーティング・ストリング中の表示が前記フィール
ド終了標識であると識別される場合、新たなフィールド
を開始する手段とを備える復号化装置。
【請求項４】空フィールドまたは可変長データ・バイト
のフィールドから成り且つデータ・ベースに関連するデ
ータ・レコードを、結果として生じるデータのストリン
グが単純なバイトの比較によりソート可能となるように
符号化する装置であって、前記空フィールドかどうか検知するために、フィールド
を検査する手段と、前記検査したフィールドが前記空フィールドである場
合、前記空フィールドを空フィールド標識に単に置換す
る手段と、非空フィールドであるか前記フィールドのバイトを検査
する手段と、前記非空フィールド中の連続ゼロ・バイトの数に基づい
て、ゼロ・バイトを符号化する手段と、前記非空フィールド中の全ての他のバイトを、所定のコ
ード化文字セット中の対応するコードに単に置換する手
段と、前記検査したフィールドが非空フィールドであって且つ
最後のデータ・バイトが前記のとおり置換された後に、
前記データのスロリングにフィールド終了標識を付加す
る手段と、前記符号化したデータ・レコードを、前記データ・ベー
スを網羅するインデックスに出力する手段と、前記データ・ベースに関連するデータ・レコードと同じ
方式で符号化するために検索ストリングを出力する手段
と、前記符号化された検索ストリングを有する前記インデッ
クスを検索する手段と、前記インデックスを検索する手段により識別されたデー
タ・ベースに関連するデータ・レコードをデコードする
手段とを備える符号化装置。