JP2811916B2 - Data file access method - Google Patents

Data file access method

Info

Publication number
JP2811916B2
JP2811916B2 JP2146811A JP14681190A JP2811916B2 JP 2811916 B2 JP2811916 B2 JP 2811916B2 JP 2146811 A JP2146811 A JP 2146811A JP 14681190 A JP14681190 A JP 14681190A JP 2811916 B2 JP2811916 B2 JP 2811916B2
Authority
JP
Japan
Prior art keywords
code
attributes
hamming
data file
generation means
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2146811A
Other languages
Japanese (ja)
Other versions
JPH0439748A (en
Inventor
忠雄 嵩
融 藤原
実 伊藤
充照 片岡
順 奥井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2146811A priority Critical patent/JP2811916B2/en
Publication of JPH0439748A publication Critical patent/JPH0439748A/en
Application granted granted Critical
Publication of JP2811916B2 publication Critical patent/JP2811916B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】 〔概要〕 データベースに於けるデータの検索や更新を効率良く
行うためのデータファイルアクセス方式に関し,ファイ
ルのディスク等,分割されたメモリ装置に対する最適な
アクセス方式を提供することを目的とし,複数のメモリ
装置に所定のデータフアイルを格納し、該データフアイ
ルを検索する装置において、処理対象となる属性の個数
nと、素数あるいはそのべき数である属性の定義域の分
割個数qと、前記メモリ装置数Lを入力とし、所定の符
号パラメータを得る符号パラメータ生成手段と、該符号
パラメータ生成手段の出力により検査行列Hを生成する
検査行列生成手段とを備え、あるレコード(またはバケ
ットと称するレコードの集合)の格納される前記メモリ
装置の番号は、前記符号パラメータ生成手段の出力に基
づいて生成される行列Hと前記レコードから求まる属性
ベクトルuとにより前記メモリ装置の格納番号を得,前
記符号パラメータ生成手段は、メモリ装置の数をL(L
=qr)とした場合に,前記属性の個数を符号長nとし,
情報記号数k(=n−r)である有限体GF(q)上の符
号Cを選び,該符号Cを生成するものであり,最大距離
分離符号,p重誤り訂正BCH符号あるいはその短縮符号,
いくつかのハミング符号と短縮ハミング符号を連接した
符号,短縮ハミング符号,拡大ハミング符号,偶重みハ
ミング符号,拡大ハミング符号の短縮符号のいずれかを
用いる構成である。
DETAILED DESCRIPTION OF THE INVENTION [Summary] The present invention relates to a data file access method for efficiently searching and updating data in a database, and to provide an optimum access method to a divided memory device such as a file disk. In a device for storing a predetermined data file in a plurality of memory devices and retrieving the data file, the number n of attributes to be processed and the number of divisions of an attribute domain which is a prime number or its exponent q, and a code parameter generating means for inputting the number L of memory devices to obtain a predetermined code parameter; and a parity check matrix generating means for generating a parity check matrix H based on an output of the code parameter generating means. The number of the memory device in which the set of records referred to as a bucket is stored depends on the code parameter generation method. Give storage number of the memory device by the attribute vector u obtained from the a matrix H records generated based on the output, the code parameter generating means, the number of memory devices L (L
= Q r ), the number of the attributes is code length n,
A code C on a finite field GF (q) having the number of information symbols k (= n−r) is selected and the code C is generated. A maximum distance separation code, a p-double error correcting BCH code or a shortened code thereof ,
In this configuration, any one of a code obtained by connecting several Hamming codes and a shortened Hamming code, a shortened Hamming code, an extended Hamming code, an even-weight Hamming code, and an expanded Hamming code is used.

〔産業上の利用分野〕[Industrial applications]

本発明は,データベースに於けるデータの検索や更新
を効率良く行うためのデータファイルアクセス方式に関
する。
The present invention relates to a data file access method for efficiently searching and updating data in a database.

指定された属性に指定された値をもつレコードファイ
ルから検索するための質問を部分照合質問という。以
下,部分照合質問を単に質問ということがある。一般
に,n超の属性X1,X2,…,Xnをもつレコードからなるファ
イルに対し,質問は,Q:(X1=a1,…,Xn=an)という形
で書かれる。ここで,各aiは,属性Xiの定義域に属する
値である。また,aiとして*印が指定される場合には,
その属性値が指定されないことを示す。特別な場合とし
て,全属性に対して‘*’が書かれているとき,データ
ファイルに属する全レコードの検索となり,また,
‘*’が全くないとき(即ち全ての属性の値が指定され
たとき)、指定されたレコードが存在するか否かを検査
することになる。例えば,科目,曜日,先生,学科とい
う4個の属性からなるデータファイルにおいて,水曜日
に情報工学科の先生が担当している科目とその先生が知
りたい場合, Q:(科目=*,曜日=‘水',先生=‘*',学科=‘情報
工学’) という部分照合質問により検索する。
A question for searching from a record file having a specified value for a specified attribute is called a partial matching question. Hereinafter, the partial matching question may be simply referred to as a question. Generally, for a file consisting of records having more than n attributes X1, X2,..., Xn, the question is written in the form of Q: (X1 = a1,..., Xn = an). Here, each ai is a value belonging to the domain of the attribute Xi. If * is specified as ai,
Indicates that the attribute value is not specified. As a special case, when '*' is written for all attributes, all records belonging to the data file are searched.
When there is no '*' (ie, when all the attribute values are specified), it is checked whether the specified record exists. For example, in a data file consisting of four attributes, subject, day of the week, teacher, and subject, if you want to know the subject that the information engineering teacher is in charge of on Wednesday and the teacher, Q: (subject = *, day = ' (Water ', Teacher =' * ', Department =' Information Engineering ')

部分照合質問は,データベースにおけるデータの検索
や更新を行うための最も基本的な操作であり,その処理
の効率化は重要である。質問での値の指定される属性が
ある程度決まっており,かつ,その数も少ない場合は,
それらの属性に関する索引を作成することにより質問を
効率的に処理できる。しかし,指定される属性が未知で
あるものが多い場合等では、索引の維持に手間がかか
る。
The partial matching query is the most basic operation for searching and updating data in the database, and it is important to improve the processing efficiency. If the attribute for which the value is specified in the question is determined to some extent and the number is small,
By creating an index on those attributes, questions can be processed efficiently. However, when the specified attributes are often unknown, it takes time to maintain the index.

従来,かかる問題を解決するために、直積ファイルを
用いて質問を効率的に処理する方法が数多く検討されて
いる。直積ファイルとはディスク等のランダムアクセス
可能な外部記憶から一回の読みだしで計算機の主記憶に
取り出せるバケットという単位で分割されたファイルの
ことである。いま各属性Xiの定義域Diは,Di1,Di2,……
…Diqに分割されているとし,各バケットは、D1j1×D
2J2×………×Dnjnの部分集合であるバケットは長さn
のq元ベクトル(j1,j2,………jn)で表される。以下こ
のベクトルを属性ベクトルという。
Conventionally, in order to solve such a problem, many methods for efficiently processing a question using a direct product file have been studied. The direct product file is a file that is divided in units of buckets that can be taken out to the main memory of the computer by a single reading from an external storage such as a disk that can be accessed randomly. Now, the domain Di of each attribute Xi is Di1 , Di2 , ...
Assuming that it is divided into D iq , each bucket is D 1j1 × D
The bucket, which is a subset of 2J2 ×... × D njn , has length n
Is represented by a q-element vector (j 1 , j 2 ,..., J n ). Hereinafter, this vector is called an attribute vector.

また,直積ファイルでは,質問で指定された条件を満
たすレコードを含むバケットは,一定時間で求められ
る。以下直積ファイルを単にファイルという。
In the direct product file, a bucket including a record that satisfies the condition specified by the question is obtained in a fixed time. Hereinafter, the direct product file is simply referred to as a file.

大規模データベースシステムの様な並列にアクセス可
能な複数のディスク(メモリ装置)が用いられる環境で
は,ファイルに属するバケットをそれらのディスクに分
散して格納することにより,質問処理を更に効率化でき
る。ここで,ディスクのアクセス時間に比べて計算機で
のその他の処理時間が十分小さいとする。この場合,質
問の処理時間は,各ディスクから読みだされるバケット
数の最大値で評価できる。
In an environment where a plurality of disks (memory devices) that can be accessed in parallel, such as a large-scale database system, are used, query processing can be made more efficient by storing buckets belonging to a file in a distributed manner on those disks. Here, it is assumed that the other processing time in the computer is sufficiently shorter than the disk access time. In this case, the processing time of the question can be evaluated by the maximum value of the number of buckets read from each disk.

従って,質問に対して読みだすべきバケットがすべて
のディスクに均等に格納されているとき,最も効率的に
質問が処理できる。このときファイルのディスク配置
は,その質問に対して最適となる。
Therefore, when buckets to be read for a query are stored equally on all disks, the query can be processed most efficiently. At this time, the disk layout of the file is optimal for the question.

本発明の前提となるシステムブロック図を第4図に示
す。計算機301から質問に対し取り出すべきファイルの
属性ベクトルが出力されると,ファイル格納装置302に
より,ディスク番号1〜Lが計算され,データI/Oを通
じてファイルが並列的にディスク303〜305から読出され
る。ディスクの格納に関しても同様に処理される。
FIG. 4 shows a system block diagram on which the present invention is based. When an attribute vector of a file to be extracted in response to a query is output from the computer 301, disk numbers 1 to L are calculated by the file storage device 302, and the files are read from the disks 303 to 305 in parallel through data I / O. You. The same processing is performed for storing a disk.

本発明は,上記ファイルのディスク等,分割されたメ
モリ装置に対するアクセス方式に関し,任意の質問に対
して、フアイルを最適に配置するためのディスク番号を
出力する構成を提供するものである。
The present invention relates to an access method for a divided memory device such as a disk of the above-mentioned file, and provides a configuration for outputting a disk number for optimally arranging a file in response to an arbitrary question.

〔従来の技術〕[Conventional technology]

従来のファイルをディスク配置する方式において,誤
り訂正符号を用いてファイルをディスクに配置する方法
が提案されている。第5図に従来の方式のブロック構成
図を示す。
In a conventional method of arranging files on a disk, a method of arranging files on a disk using an error correction code has been proposed. FIG. 5 shows a block diagram of a conventional system.

従来の方式では,先ず,属性の個数nとディスク数L
を入力すると対数計算回路401で〔log2 L=r〕を計算
し,引算器402を用いてnから対数計算回路401の出力r
の差(n−r)をもとめその結果をkとする。属性数n
と上記kを(n,k)符号アドレス発生器403に入力する。
(n,k)符号アドレス発生器403は,符号長n,情報記号数
kの符号のデータベースの格納アドレスを発生する。符
号パラメータデータベース404では,(n,k)符号の最小
距離を最大値判定器405に出力する。全ての(n,k)符号
のアドレスが終了すると,最大値判定器405では,最小
距離が最大値となる符号のアドレスを発生し,(n,k)
符号アドレス発生器403に入力する。(n,k)符号アドレ
ス発生器403は,最大値判定器405の出力アドレスを符号
パラメータデータベース404に出力する。このとき,符
号パラメータデータベース404は,検査行列生成回路406
に,検査行列の生成のために必要なデータを出力する。
In the conventional method, first, the number of attributes n and the number of disks L
Is input, the logarithmic calculation circuit 401 calculates [log 2 L = r], and the subtractor 402 calculates the output r of the logarithmic calculation circuit 401 from n.
And the result is set to k. Number of attributes n
Is input to the (n, k) code address generator 403.
The (n, k) code address generator 403 generates a storage address of a code database having a code length n and the number of information symbols k. The code parameter database 404 outputs the minimum distance of the (n, k) code to the maximum value determiner 405. When the addresses of all the (n, k) codes are completed, the maximum value judging unit 405 generates an address of the code with the minimum distance having the maximum value, and (n, k)
Input to the code address generator 403. The (n, k) code address generator 403 outputs the output address of the maximum value determiner 405 to the code parameter database 404. At this time, the code parameter database 404 stores the check matrix generation circuit 406
Then, data necessary for generating a parity check matrix is output.

検査行列生成回路406で生成された検査行列Hは行列
演算回路407に入力され,長さn(属性の個数)の属性
ベクトル(u)と行列Hの行列演算H・uがなされ,そ
の結果を格納記憶装置番号として出力する。
The check matrix H generated by the check matrix generation circuit 406 is input to the matrix operation circuit 407, and an attribute vector (u) having a length n (the number of attributes) and a matrix operation H · u of the matrix H are performed. Output as the storage device number.

〔発明が解決しようとする課題〕[Problems to be solved by the invention]

従来の方式においては,どの様な符号の検査行列を用
いるかパラメータが与えられる毎に検索しなくてはなら
ない。また,ファイルのディスク配置が最適であるため
には,質問に現れる‘*’の数が符号の最小ハミング距
離以下の場合のみであることが証明されている。(参考
文献C.Faloutsus and D.Metaxas,“Declurtering Using
Error Correction Codes,"Proc.of the 8th ACM Symp.
on Principles of Database Systems,"pp.253−358,Mar
ch 1989)。しかし,この条件では,事実上,質問に
‘*’がほとんど現れない,すなわち,大部分の属性に
ついて値を指定しなければならない場合しか含んでいな
いので,実際面での適用が限られるといった問題があ
る。
In the conventional method, it is necessary to search for a parity check matrix of which code to use every time a parameter is given. In addition, it has been proved that the optimal disk layout of the file is only when the number of '*' appearing in the question is equal to or less than the minimum Hamming distance of the code. (References C. Faloutsus and D. Metaxas, “Declurtering Using
Error Correction Codes, "Proc.of the 8th ACM Symp.
on Principles of Database Systems, "pp. 253-358, Mar
ch 1989). However, under this condition, there is virtually no '*' in the question, that is, it includes only the case where values must be specified for most attributes, which limits its practical application. There is.

本発明は,ファイルのディスク等,分割されたメモリ
装置に対する最適なアクセス方式を提供することを目的
とする。
An object of the present invention is to provide an optimal access method to a divided memory device such as a file disk.

〔課題を解決するための手段〕[Means for solving the problem]

第1図(a),(b)は本発明の原理説明図であり、
(a)は本発明の原理構成図である。図中,属性の個数
n,記憶装置数L,属性の定義域の分割個数qを入力とする
検査回路101は,n,L,qが,どの符号の選択条件を満たし
ているかを検索し,パラメータを計算する。ここで,NA
は,最適としたい‘*’のとりうる範囲である。
1 (a) and 1 (b) are diagrams for explaining the principle of the present invention.
(A) is a principle configuration diagram of the present invention. In the figure, the number of attributes
The inspection circuit 101, which receives n, the number of storage devices L, and the number of divisions q of the domain of the attribute, as inputs, searches for which code selection condition is satisfied by n, L, q, and calculates parameters. Where NA
Is the range where '*' can be optimized.

本発明は、複数のメモリ装置に所定のデータフアイル
を格納し、該データフアイルを検索する装置において、
処理対象となる属性の個数nと、素数あるいはそのべき
数である属性の定義域の分割個数qと、前記メモリ装置
数Lを入力とし、所定の符号パラメータを得る符号パラ
メータ生成手段101,102,103と、該符号パラメータ生成
手段の出力により検査行列Hを生成する検査行列生成手
段104とを備え、あるレコード(またはバケットと称す
るレコードの集合)の格納される前記メモリ装置の番号
は、前記符号パラメータ生成手段の出力に基づいて生成
される行列Hと前記レコードから求まる属性ベクトルu
(長さnのq元ベクトル)とにより前記メモリ装置の格
納番号を得ることを特徴とし,前記符号パラメータ生成
手段は、メモリ装置の数をL(L=qr)とした場合に,
前記属性の個数を符号長nとし,情報記号数k(=n−
r)である有限体GF(q)上の符号Cを選び,該符号C
を生成するものである。即ち,符号アドレス発生装置10
2は,n,L,qの検査回路101からのパラメータにより符号パ
ラメータデータベース103に格納してある符号のアドレ
スを出力する。検査行列生成回路104は,符号パラメー
タデータベース103からの符号データをもとに検査行列
を生成する。検査行列生成回路104で生成された検査行
列Hは行列演算回路105に入力され,長さnの属性の値
のベクトル(u)の入力に対し符号のシンドローム計算
に相当する行列演算H×uがなされ,その結果を格納記
憶装置番号として出力する。
The present invention relates to an apparatus for storing a predetermined data file in a plurality of memory devices and searching for the data file.
Code parameter generation means 101, 102, 103 for receiving predetermined numbers of code parameters by inputting the number n of attributes to be processed, the number q of divisions of the attribute domain which is a prime number or its exponent, and the number L of memory devices, A parity check matrix generation unit 104 that generates a parity check matrix H based on an output of the code parameter generation unit, and a number of the memory device in which a certain record (or a set of records called a bucket) is stored, A matrix H generated based on the output and an attribute vector u obtained from the record
(A q-element vector of length n) to obtain the storage number of the memory device, and the code parameter generation means, when the number of memory devices is L (L = qr ),
The number of the attributes is defined as a code length n, and the number of information symbols k (= n−
r), a code C on the finite field GF (q) is selected.
Is generated. That is, the code address generator 10
2 outputs the address of the code stored in the code parameter database 103 based on the parameters from the check circuit 101 for n, L, and q. The parity check matrix generation circuit 104 generates a parity check matrix based on the code data from the code parameter database 103. The parity check matrix H generated by the parity check matrix generation circuit 104 is input to the matrix calculation circuit 105, and a matrix calculation H × u corresponding to code syndrome calculation is performed with respect to the input of the vector (u) of the value of the attribute of length n. The result is output as a storage number.

第1図(a)の検査回路101の検査処理の流れを第1
図(b)に示す。第1図(b)において、入力として属
性の個数n,メモリ装置としてディスク装置の数L(=
qr)とする。ここでqは,素数あるいは素数のべき数で
ある。
The flow of the inspection process of the inspection circuit 101 shown in FIG.
It is shown in FIG. In FIG. 1 (b), the number n of attributes and the number L of disk devices as memory devices (=
q r ). Here, q is a prime number or a power of a prime number.

まず,qが2のべき乗で,n=q+2,L=q3または、qが
素数のべきで、n≦q+1かつ1≦r<nとなる場合,
この条件を満たす最大距離分離符号11を符号Cとして選
ぶ また,qが2のべき乗でもなく、素数のべき乗でもなく
且つ2以外の数である場合には、q元符号12を符号Cと
して選ぶ。
First, in q is a power of 2, n = q + 2, L = q 3 or, q is a power of a prime number, if the n ≦ q + 1 and 1 ≦ r <n,
If the maximum distance separating code 11 that satisfies this condition is selected as the code C, the q-element code 12 is selected as the code C if q is neither a power of 2 nor a power of a prime number and is a number other than 2.

また、qが2の場合、最適としたい‘*’のとりうる
範囲NAが,属性の符号長nの半数以下である場合は,pを
2以上の整数とした場合に,rがpの倍数でn≦2r/p
1のときp重誤り訂正BCH符号またはその短縮符号13を
符号語Cとして用いる。
Also, when q is 2, if the range NA that can be optimized for '*' is less than half the code length n of the attribute, if p is an integer of 2 or more, r is a multiple of p And n ≦ 2 r / p
When 1, the p-error correction BCH code or its shortened code 13 is used as the code word C.

また、適切なBCHの符号のパラメータが無い,即ちr
がpの倍数でn≦2r/p−1となるpが無い場合か,あ
るいは最適としたい‘*’のとりうる範囲NAが,属性数
の半数より大きい場合について,ディスク数Lにくら
べ,属性数がnより大きい場合はいくつかのハミング符
号と短縮ハミング符号を連接した符号14を符号Cとして
選び,n=L−1の場合は,ハミング符号15を用い,L/2<
n<L−1の場合は短縮ハミング符号16を用い,n=L/2
の場合は,拡大ハミング符号17を用い,n=L/2−1の場
合は,偶重みハミング符号を用い,r+1≦n<L/2−1
の場合は,拡大ハミング符号の短縮符号を符号Cとして
用いる。
In addition, there is no appropriate BCH code parameter, that is, r
Is a multiple of p, and there is no p that satisfies n ≦ 2 r / p −1 or the range NA where “*” is to be optimized is larger than half the number of attributes. When the number of attributes is larger than n, a code 14 in which some Hamming codes and shortened Hamming codes are connected is selected as the code C. When n = L-1, the Hamming code 15 is used and L / 2 <
If n <L-1, the shortened Hamming code 16 is used, and n = L / 2
In the case of, the extended Hamming code 17 is used, and when n = L / 2-1, the even weighted Hamming code is used, and r + 1 ≦ n <L / 2−1.
In the case of, the shortened code of the extended Hamming code is used as the code C.

〔作用〕[Action]

本発明では,n,L,q検査回路101でとりうる符号のパラ
メータの検査をすることによりそのパラメータを有する
すべての符号の検索を不要にすることが可能になる。こ
れは,従来最小距離以外の符号の選択条件が明らかでな
かったのに対し,本発明では,質問に現れる‘*’の数
が多い場合も最適となる符号の条件が明らかにでき、パ
ラメータが決まれば,それに適した符号がきまることに
なる。
In the present invention, by checking the parameters of codes that can be taken by the n, L, q check circuit 101, it becomes possible to eliminate the need to search for all codes having the parameters. This is because, while the condition for selecting a code other than the minimum distance was not clear conventionally, the present invention can clarify the condition of the code which is optimal even when the number of '*' appearing in the query is large, and the parameter is Once determined, the appropriate code will be determined.

〔実施例〕〔Example〕

第一の実施例 第2図は、本発明のq=2の場合の一実施構成図であ
る。
First Embodiment FIG. 2 is an embodiment of the present invention when q = 2.

入力は,属性の個数nと2のべき数となる様に選ばれ
たディスク装置数L(=2r)とする。nを入力するとn,
L,q検査回路201では,n,L,及びNAの大小関係を順次比較
し,第1図(b)のフローに従って符号を決定する。NA
とrによる計算回路202,nとL,及びその平方根等との大
小比較は大小比較回路203,比較の結果から符号の決定は
符号決定回路205,全体の制御は制御回路204で行う。
The input is the number of disk devices L (= 2 r ) selected to be a power of n, the number of attributes, and 2. When n is entered, n,
The L, q inspection circuit 201 sequentially compares the magnitude relations of n, L, and NA, and determines the code according to the flow of FIG. NA
A magnitude comparison circuit 203 compares the magnitudes of the calculation circuits 202, n and L, and their square roots, etc., with the magnitude r, a sign determination circuit 205 determines the sign from the comparison result, and a control circuit 204 controls the whole.

符号が決定されるとその符号パラメータの格納されて
いるメモリ207のアドレスをアドレス発生回路206で発生
する。メモリ207は,n,Lによって決まる符号の検査行列
を生成するのに必要なパラメータが格納されている。
When the code is determined, an address of the memory 207 in which the code parameter is stored is generated by the address generation circuit 206. The memory 207 stores parameters necessary for generating a parity check matrix of a code determined by n and L.

メモリ207が格納されているパラメータは,検査行列
発生回路208に入力される。入力したデータは,制御回
路212の制御の下、メモリ209に格納され,セレクタ210
によりシフトレジスタ211のタップ係数が設定される。
シフトレジスタ211で,順次,検査行列を計算しメモリ2
09へ格納する。計算が終了するとセレクタ210を切り換
えメモリ209の出力を行列演算回路213に切り換え,検査
行列Hを出力する。検査行列計算回路213では検査行列
をレジスタ214に書き込む。行列演算回路213では属性情
報(長さnのベクトルu)を入力し,検査行列Hとの行
列演算,要素毎の排他的論理和計算をEOR回路215〜217
で行いその結果を再び排他的論理和回路218で排他的論
理和を行い,格納或いは読出しファイルのディスク番号
を出力する。
The parameters stored in the memory 207 are input to the parity check matrix generation circuit 208. The input data is stored in the memory 209 under the control of the control circuit 212, and is stored in the selector 210.
Sets the tap coefficient of the shift register 211.
The check matrix is sequentially calculated by the shift register 211 and is stored in the memory 2
Store to 09. When the calculation is completed, the selector 210 is switched and the output of the memory 209 is switched to the matrix operation circuit 213 to output the check matrix H. The parity check matrix calculation circuit 213 writes the parity check matrix into the register 214. The matrix operation circuit 213 receives the attribute information (vector u of length n) and performs a matrix operation with the parity check matrix H and an exclusive OR calculation for each element in the EOR circuits 215 to 217.
The exclusive OR circuit 218 performs an exclusive OR operation on the result again, and outputs the disk number of the stored or read file.

以下は,n=63,L=64の数値例をしめす。このデータを
入力すると,n=L−1のためハミング符号(第1図
(b)の15)が選ばれる。この時,メモリ207からは,
この符号の生成多項式X6+X5+X2+X+1が出力され,
検査行列発生回路208により第3図(a)に示す検査行
列Hが生成される。
The following is a numerical example of n = 63, L = 64. When this data is input, a Hamming code (15 in FIG. 1 (b)) is selected because n = L-1. At this time, from the memory 207,
The generator polynomial X 6 + X 5 + X 2 + X + 1 of this code is output,
The parity check matrix H shown in FIG. 3A is generated by the parity check matrix generation circuit 208.

このとき属性の個数nは,63となり,あるレコードの
属性uが、第3図(b)の転置行列uTである場合(ここ
で,添字のTは,転置行列であることを示す),格納す
るディスク番号は, (Hu)=〔110111〕=55 となり55番のディスクに格納される。
At this time, the number of attributes n is 63, and when the attribute u of a certain record is the transposed matrix u T in FIG. 3B (where the subscript T indicates a transposed matrix), The disk number to be stored is (Hu) T = [110111] = 55, and is stored in the 55th disk.

その他の実施例の説明 上記の実施例は,2元符号についてのべたが,p元符号に
ついても容易に拡張できる。ただし,この場合,符号語
の演算はすべてmod qの演算となる。
Description of Other Embodiments Although the above embodiment has been described with reference to a binary code, it can be easily extended to a p-code. However, in this case, all codeword operations are modq operations.

また,符号の選択に対し,n,1,q検査回路では全ての符
号の場合について検査したが,最適となる‘*’の数の
範囲を属性数の小さい場合に限定し,選択する符号をBC
H符号のみにすることにより,符号データベースを削減
し,検査行列生成回路の構成を簡単化することも可能で
ある。また,最適となる‘*’の数の範囲を属性数の大
きい場合に限定し,選択する回路をハミング符号のみに
することにより,符号データベースを削減し,検査行列
生成回路の構成を簡単化することも可能である。
In addition, for the code selection, the n, 1, q check circuit checked all codes. However, the range of the number of optimal '*' s was limited to the case where the number of attributes was small. BC
By using only the H code, the code database can be reduced and the configuration of the check matrix generation circuit can be simplified. In addition, the range of the number of optimal “*” is limited to the case where the number of attributes is large, and only the Hamming code is selected, thereby reducing the code database and simplifying the configuration of the parity check matrix generation circuit. It is also possible.

〔発明の効果〕〔The invention's effect〕

以上説明したように,本発明では,n,L,q検査回路でと
りうる符号のパラメータの検査をすることにより符号の
検査を不要にすることが可能となる。
As described above, according to the present invention, it is possible to eliminate the code check by checking the code parameters that can be taken by the n, L, q check circuit.

更に,特に,最大距離分離符号Cが選ばれた場合は,
質問に現れる‘*’の数,全てについてファイルのディ
スク配置が最適となる。
Furthermore, especially when the maximum distance separating code C is selected,
The disk layout of the file is optimal for the number and all of the '*' that appear in the question.

また,q=2の場合のハミング符号の場合も,最小距離
が3(拡張した場合は4)であるためファイルのディス
ク配置が質問に現れる‘*’の数が3あるいは4以下の
場合最適であり,更に,符号長の約半分以上の‘*’の
数のについても最適となり,従来の選択方法に比べ
‘*’の数の最適な範囲が広がり,高速で且つ広い範囲
で最適な‘*’の選択範囲を有する符号Cを得ることが
できる。
Also, in the case of the Hamming code in the case of q = 2, the minimum distance is 3 (4 in the case of expansion), so that the disk arrangement of the file is optimal when the number of “*” appearing in the question is 3 or 4 or less. In addition, the number of '*' s that is about half or more of the code length is optimal, and the optimal range of the number of '*' s is wider than that of the conventional selection method. A code C having a selection range of 'can be obtained.

【図面の簡単な説明】[Brief description of the drawings]

第1図は,本発明の原理説明図であり,第1図(a)は
原理構成図,第1図(b)はn,L,q検査回路処理フロー
図, 第2図は,本発明の実施例構成図, 第3図は,検査行列及び属性の一例を示す図であり,
(a)は検査行列発生回路から出力される検査行列の
例,(b)は属性の例であり, 第4図は,発明の背景となるシステム構成図, 第5図は,従来の構成図である。
FIG. 1 is a diagram for explaining the principle of the present invention. FIG. 1 (a) is a diagram showing the principle configuration, FIG. 1 (b) is a flowchart of an n, L, q test circuit processing, and FIG. FIG. 3 is a diagram showing an example of a parity check matrix and an attribute.
(A) is an example of a parity check matrix output from a parity check matrix generation circuit, (b) is an example of an attribute, FIG. 4 is a system configuration diagram as a background of the invention, and FIG. 5 is a conventional configuration diagram It is.

───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.6,DB名) G06F 12/00 G06F 17/30──────────────────────────────────────────────────続 き Continued on front page (58) Field surveyed (Int.Cl. 6 , DB name) G06F 12/00 G06F 17/30

Claims (4)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】複数のメモリ装置に所定のデータフアイル
を格納し、該データフアイルを検索する装置において、 処理対象となる属性の個数(n)と、素数あるいはその
べき数である属性の定義域の分割個数(q)と、前記メ
モリ装置数(L)を入力とし、 所定の符号パラメータを得る符号パラメータ生成手段
(101,102,103)と、 該符号パラメータ生成手段の出力により検査行列(H)
を生成する検査行列生成手段(104)とを備え、 あるレコード(またはバケットと称するレコードの集
合)の格納される前記メモリ装置の番号は、前記符号パ
ラメータ生成手段の出力に基づいて生成される行列
(H)と前記レコードから求まる属性ベクトル(u)と
により前記メモリ装置の格納番号を得ることを特徴とす
るデータフアイルアクセス方式。
An apparatus for storing a predetermined data file in a plurality of memory devices and retrieving the data file, wherein a number (n) of attributes to be processed and a domain of an attribute which is a prime number or an exponent thereof. The code parameter generation means (101, 102, 103) which receives the number of divisions (q) and the number of memory devices (L) as input and obtains predetermined code parameters, and the check matrix (H) based on the output of the code parameter generation means
And a check matrix generation means (104) for generating the number of the memory device in which a certain record (or a set of records referred to as buckets) is stored, wherein a number generated based on the output of the code parameter generation means (H) and an attribute vector (u) obtained from the record, wherein a storage number of the memory device is obtained.
【請求項2】前記符号パラメータ生成手段は、メモリ装
置の数をL(L=qr)とした場合に,前記属性の個数を
符号長nとし,情報記号数k(=n−r)である有限体
GF(q)上の符号Cを選び,該符号Cを生成するもので
あり, qは素数あるいはそのべき乗でn≦q+1かつ1≦r<
nまたは,qは2のべき乗で,n=q+2,L=q3の場合に最
大距離分離符号を符号Cとして選ぶことを特徴とする請
求項(1)記載のデータフアイルアクセス方式。
2. The method according to claim 1, wherein when the number of memory devices is L (L = q r ), the code parameter generation means sets the number of the attributes to a code length n and the number of information symbols k (= n−r). A finite field
A code C on GF (q) is selected to generate the code C, where q is a prime number or a power thereof, n ≦ q + 1 and 1 ≦ r <
n or, q is a power of two, n = q + 2, L = claims a maximum distance separable code in the case of q 3, characterized in that selected as the code C (1) Data file access method according.
【請求項3】前記符号パラメータ生成手段は、メモリ装
置の数をL(L=qr)とした場合に,前記属性の個数を
符号長nとし,情報記号数k(=n−r)である有限体
GF(q)上の符号Cを選び,該符号Cを生成するもので
あり、 q=2のときpを2以上の整数としたときrがpの倍数
でかつn≦2r/p−1の場合にp重誤り訂正BCH符号ある
いはその短縮符号を符号語Cとして用いることを特徴と
する請求項(1)記載のデータフアイルアクセス方式。
3. When the number of memory devices is L (L = q r ), the code parameter generation means sets the number of the attributes to a code length n and the number of information symbols k (= n−r). A finite field
A code C on GF (q) is selected to generate the code C. When q = 2, when p is an integer of 2 or more, r is a multiple of p and n ≦ 2 r / p −1 2. The data file access method according to claim 1, wherein a p-type error correcting BCH code or its shortened code is used as the code word C in the case of (1).
【請求項4】前記符号パラメータ生成手段は、メモリ装
置の数をL(L=qr)とした場合に,前記属性の個数を
符号長nとし,情報記号数k(=n−r)である有限体
GF(q)上の符号Cを選び,該符号Cを生成するもので
あり、 qを2としたとき,ディスク数Lにくらべ,属性数nが
大きい場合はいくつかのハミング符号と短縮ハミング符
号を連接した符号Cを選び, n=L−1の場合は,ハミング符号を用い, L/2<n<L−1の場合は短縮ハミング符号を用い, n=L/2の場合は,拡大ハミング符号を用い, n=L/2−1の場合は,偶重みハミング符号を用い, r+1≦n<L/2−1の場合は,拡大ハミング符号の短
縮符号を符号Cとして用いることを特徴とする請求項
(1)記載のデータフアイルアクセス方式。
4. When the number of memory devices is L (L = q r ), the code parameter generating means sets the number of the attributes to a code length n and the number of information symbols k (= n−r). A finite field
A code C on GF (q) is selected to generate the code C. When q is 2, when the number of attributes n is larger than the number of disks L, some Hamming codes and shortened Hamming codes are used. Is selected, a Hamming code is used when n = L-1, a shortened Hamming code is used when L / 2 <n <L-1, and an expansion is used when n = L / 2. It is characterized in that a Hamming code is used, an even-weighted Hamming code is used when n = L / 2-1, and a shortened code of the extended Hamming code is used as a code C when r + 1 ≦ n <L / 2-1. The data file access method according to claim 1, wherein
JP2146811A 1990-06-05 1990-06-05 Data file access method Expired - Lifetime JP2811916B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2146811A JP2811916B2 (en) 1990-06-05 1990-06-05 Data file access method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2146811A JP2811916B2 (en) 1990-06-05 1990-06-05 Data file access method

Publications (2)

Publication Number Publication Date
JPH0439748A JPH0439748A (en) 1992-02-10
JP2811916B2 true JP2811916B2 (en) 1998-10-15

Family

ID=15416065

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2146811A Expired - Lifetime JP2811916B2 (en) 1990-06-05 1990-06-05 Data file access method

Country Status (1)

Country Link
JP (1) JP2811916B2 (en)

Also Published As

Publication number Publication date
JPH0439748A (en) 1992-02-10

Similar Documents

Publication Publication Date Title
US6353910B1 (en) Method and apparatus for implementing error correction coding (ECC) in a dynamic random access memory utilizing vertical ECC storage
US6434662B1 (en) System and method for searching an associative memory utilizing first and second hash functions
JP4848317B2 (en) Database indexing system, method and program
US7080091B2 (en) Inverted index system and method for numeric attributes
US8429143B2 (en) Methods and systems for improving hash table performance
US5199073A (en) Key hashing in data processors
CN109325032B (en) Index data storage and retrieval method, device and storage medium
US6385617B1 (en) Method and apparatus for creating and manipulating a compressed binary decision diagram in a data processing system
CN111324750B (en) Large-scale text similarity calculation and text duplicate checking method
JP2011003214A (en) Generation of perfect hash which uses offset table
EP0149067B1 (en) Polynomial hash
KR102409615B1 (en) Method for min-max computation in associative memory
Radke The use of quadratic residue research
CN110532284B (en) Mass data storage and retrieval method and device, computer equipment and storage medium
JP2811916B2 (en) Data file access method
US20040034636A1 (en) Method, system and computer readable medium for duplicate record detection
JP3920336B2 (en) Test device for table entries with duplicate lookup table lookup results
Kaspers et al. Solving isomorphism problems about 2‐designs from disjoint difference families
JP3019286B2 (en) Document search device
CN110399406B (en) Method, device and computer storage medium for mining global high utility sequence pattern
US20050071352A1 (en) System and method for association itemset analysis
Strauss Procedural enhancements to some approximate searching techniques
Hagerup Simpler and faster dictionaries on the AC0 RAM
Nagumo et al. Parallel parsing algorithms for static dictionary compression
Das et al. Load balanced and optimal disk allocation strategy for partial match queries on multidimensional files