JPH05181913A - Compression and decoding system for ascending-order integer string data - Google Patents

Compression and decoding system for ascending-order integer string data

Info

Publication number
JPH05181913A
JPH05181913A JP3357900A JP35790091A JPH05181913A JP H05181913 A JPH05181913 A JP H05181913A JP 3357900 A JP3357900 A JP 3357900A JP 35790091 A JP35790091 A JP 35790091A JP H05181913 A JPH05181913 A JP H05181913A
Authority
JP
Japan
Prior art keywords
quotient
data
compression
property
difference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP3357900A
Other languages
Japanese (ja)
Other versions
JP2993540B2 (en
Inventor
Hiroshi Takada
寛 高田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Steel Corp
Original Assignee
Nippon Steel Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Steel Corp filed Critical Nippon Steel Corp
Priority to JP3357900A priority Critical patent/JP2993540B2/en
Priority to DE69229521T priority patent/DE69229521T2/en
Priority to EP92106939A priority patent/EP0510634B1/en
Priority to US07/873,130 priority patent/US5450580A/en
Publication of JPH05181913A publication Critical patent/JPH05181913A/en
Priority to US08/471,459 priority patent/US5546578A/en
Application granted granted Critical
Publication of JP2993540B2 publication Critical patent/JP2993540B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Abstract

PURPOSE:To shorten the processing time by decreasing the calculation quantity in the compression and decoding of the ascending-order integer string data. CONSTITUTION:The ascending-order integer string data D1 are divided by a divisor part 12 and the obtained quotient is compared by a quotient storage and comparison part 14 with old quotients which are obtained so far; only when the quotient is varied, the difference and remainder of the quotient are preserved as a compressed string D2 and when not, only the remainder is preserved. The quantity of data is decreased by the division, so the processing time for the compression and decoding is shortened. Further, since parameters required for the whole data are not necessary, the data can be added and deleted.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、単調増加的に配列され
た昇順整数列データの圧縮および復号システムに関し、
特にデータベースから必要な情報を取り出すためのデー
タベース検索システムにおいて検索されるデータが単調
増加的に配列された整数列データである場合のそのデー
タの圧縮および復号システムに関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a compression and decoding system for ascending integer sequence data arranged in a monotonically increasing manner.
In particular, the present invention relates to a compression and decoding system for data retrieved in a database retrieval system for retrieving necessary information from a database, which is integer sequence data arranged in a monotonically increasing manner.

【0002】[0002]

【従来の技術】従来、データを圧縮および復号する方法
の代表的なものとしては、ハフマン法、シャノン・ファ
ノ法、ギルバート・ムーア法、ランレングス符号化法な
どが知られている。たとえばハフマン法を用いたものと
しては特開平2−78323号などが挙げられる。
2. Description of the Related Art Conventionally, as typical methods for compressing and decoding data, the Huffman method, Shannon-Fano method, Gilbert-Moore method, run-length coding method and the like are known. For example, as a method using the Huffman method, there is JP-A-2-78323.

【0003】[0003]

【発明が解決しようとする課題】これらの方法は主とし
て、データの文字ごとの出現頻度を測定し、頻度の高い
ものから優先的にデータのサイズを圧縮するものであ
る。これらの方法は、任意の形態のデータに適用できる
利点がある反面、圧縮、復号に数段階の処理を必要とす
るため、特に速度が要求される際には不向きである。
These methods mainly measure the appearance frequency of each character of the data and preferentially compress the size of the data in descending order of frequency. These methods have the advantage that they can be applied to any form of data, but require several stages of processing for compression and decoding, and are therefore unsuitable especially when speed is required.

【0004】本発明は、上記のような問題に鑑み、単調
増加的(昇順)に配列された整数列データを高速で圧縮
するとともに、圧縮されたデータを記憶する記憶手段の
容量を小さくすることのできる圧縮および復号システム
を提供することを目的とする。
In view of the above problems, the present invention compresses integer sequence data arranged in a monotonically increasing order (ascending order) at high speed and reduces the capacity of the storage means for storing the compressed data. It is an object of the present invention to provide a compression and decoding system capable of performing.

【0005】[0005]

【課題を解決するための手段】本発明の圧縮および復号
システムは、昇順に配列された整数列データの圧縮およ
び復号において、昇順に配列された整数列データについ
て除算を行う除算手段と、除算手段により得られた商を
すでに記憶された古い商と比較し、得られた商が古い商
よりも大きい場合にこれらの商の差を出力する商記憶比
較手段と、商記憶比較手段から商の差が出力された場合
には商の差とともに除算手段により得られた余りを記憶
し、商記憶比較手段から商の差が出力されない場合には
除算手段により得られた余りのみを記憶する記憶手段
と、記憶手段に記憶された商の差および余りのデータか
ら元の整数列データを復号する復号手段とを具備する。
In the compression and decoding system of the present invention, in the compression and decoding of the integer sequence data arranged in ascending order, the dividing means and the dividing means for dividing the integer sequence data arranged in ascending order. The quotient obtained by the above is compared with the already stored old quotient, and when the obtained quotient is larger than the old quotient, the quotient memory comparison means for outputting the difference between these quotients and the quotient difference comparison means A storage means for storing the remainder obtained by the dividing means together with the quotient difference when the is output, and for storing only the remainder obtained by the dividing means if the quotient difference is not output from the quotient storage comparing means. , And decoding means for decoding the original integer sequence data from the quotient difference and the remainder data stored in the storage means.

【0006】[0006]

【作用】本発明によれば、圧縮時には昇順に配列された
データを除算し、得られた商をそれまでの古い商と比較
して商の差がある場合にのみ商の差を保存するとともに
余りを保存し、商の差がない場合には余りのデータのみ
を保存するようにしている。したがって、従来の一般的
な圧縮符号化方法に比べて計算量を大幅に節約できるか
ら、高速で圧縮および復号を行うことができる。また、
統計量のようなデータ全体にわたるパラメータを必要と
しないため、データの追加や削除を容易に実施すること
ができる。
According to the present invention, the data arranged in ascending order is divided at the time of compression, the obtained quotient is compared with the old quotient, and the quotient difference is saved only when there is a quotient difference. The remainder is saved, and if there is no quotient difference, only the remaining data is saved. Therefore, the amount of calculation can be greatly saved as compared with the conventional general compression encoding method, so that compression and decoding can be performed at high speed. Also,
Since data-wide parameters such as statistics are not required, data can be easily added or deleted.

【0007】[0007]

【実施例】図1には、本発明によるシステムの一実施例
が示されている。同図に示すように、整数列データD1
は320、333、401...と、単調増加的(昇
順)に配列されている。これらのデータはたとえば32
ビットで表される。整数列データD1は圧縮装置におい
て、除算部12に送られる。除算部12は入力されたデ
ータに対して所定の値によって除算を行う。本実施例で
は入力されたデータを255で割る。得られた商は商記
憶比較部14に送られ、余りは圧縮数列D2処理部16
に送られる。
1 shows an embodiment of the system according to the invention. As shown in the figure, integer string data D1
320, 333, 401. . . And are arranged in a monotonically increasing order (ascending order). These data are for example 32
Expressed in bits. The integer string data D1 is sent to the division unit 12 in the compression device. The division unit 12 divides the input data by a predetermined value. In this embodiment, the input data is divided by 255. The obtained quotient is sent to the quotient storage comparison section 14, and the remainder is the compressed sequence D2 processing section 16
Sent to.

【0008】商記憶比較部14は入力された新しい商P
new を記憶されている古い商Poldと比較する。古い商
Pold は初期値として0が与えられる。商記憶比較部1
4はPnew >Pold の場合には、桁上がりを示すマーク
文字Cおよび商の差Pnew −Pold を圧縮数列D2処理
部16に送るとともに、記憶されていた古い商Poldに
代えて新しい商Pnew を記憶する。この条件を満たさな
い場合には、商記憶比較部14は圧縮数列D2処理部1
6へ何らデータを送らない。
The quotient memory comparing unit 14 receives the new quotient P
Compare new with the stored old quotient Pold. The old quotient Pold is given 0 as an initial value. Quotient memory comparison unit 1
When Pnew> Pold, 4 sends the mark character C indicating a carry and the difference Pnew-Pold of the quotient to the compressed sequence D2 processing unit 16 and stores the new quotient Pnew instead of the stored old quotient Pold. To do. If this condition is not satisfied, the quotient memory comparison unit 14 determines the compressed sequence D2 processing unit 1
No data is sent to 6.

【0009】本実施例においては、最初のデータ320
を255で割ると、商1、余り65が得られるが、古い
商Pold の初期値として0が与えられているため、Pne
w >Pold を満たし、商記憶比較部14は桁上がりを示
すマーク文字Cおよび商の差1を圧縮数列D2処理部1
6に送るとともに、記憶されていた古い商0に代えて新
しい商1を記憶する。
In this embodiment, the first data 320
Dividing 1 by 255 gives the quotient 1 and the remainder 65, but since the initial value of the old quotient Pold is 0, Pne
When w> Pold is satisfied, the quotient memory comparing unit 14 compresses the mark character C indicating a carry and the difference 1 of the quotient into the compressed sequence D2 processing unit 1
A new quotient 1 is stored instead of the stored old quotient 0.

【0010】圧縮数列D2処理部16は、商記憶比較部
14から送られた桁上がりを示すマーク文字Cおよび商
の差1、および除算部12から送られた余り65を記憶
する。
The compressed sequence D2 processing unit 16 stores the mark character C indicating the carry and the quotient difference 1 sent from the quotient storage comparing unit 14, and the remainder 65 sent from the dividing unit 12.

【0011】次に整数列データD1として333が送ら
れると、除算部12はこれを同様に255で割る。この
場合には商1、余り78となる。商記憶比較部14は新
しい商Pnew を記憶されている古い商Pold と比較す
る。この場合にはPnew およびPold はいずれも1であ
るから、上記の条件Pnew >Pold を満たさない。した
がって、圧縮数列D2処理部16には除算部12からの
余りのデータのみが送られる。
Next, when 333 is sent as the integer string data D1, the division unit 12 similarly divides this by 255. In this case, the quotient is 1, and the remainder is 78. The quotient memory comparison unit 14 compares the new quotient Pnew with the stored old quotient Pold. In this case, since both Pnew and Pold are 1, the above condition Pnew> Pold is not satisfied. Therefore, only the residual data from the division unit 12 is sent to the compressed sequence D2 processing unit 16.

【0012】同様の動作を繰り返すことにより、圧縮数
列D2処理部16には圧縮されたデータが順次送られ
る。これらの圧縮データは保存部18に記憶される。
By repeating the same operation, the compressed data is sequentially sent to the compressed sequence D2 processing section 16. These compressed data are stored in the storage unit 18.

【0013】復号においては、保存部18に記憶された
圧縮データが圧縮数列D2処理部16に取り出され、読
み取り部22により読み取られる。読み取り部22は、
圧縮データに桁上がりを示すマーク文字Cが出現した場
合には、その直後のデータをバイアス記憶部24に送
る。また、マーク文字Cの出現の有無にかかわらず、余
りのデータを加算部26に送る。
In decoding, the compressed data stored in the storage unit 18 is taken out by the compressed sequence D2 processing unit 16 and read by the reading unit 22. The reading unit 22 is
When the mark character C indicating a carry appears in the compressed data, the data immediately after that appears in the bias storage unit 24. Further, the remainder data is sent to the addition unit 26 regardless of the appearance of the mark character C.

【0014】たとえば本実施例における最初の圧縮デー
タは、桁上がりを示すマーク文字Cがあるから、その直
後のデータ1をバイアス記憶部24に送る。また、余り
のデータ65を加算部26に送る。
For example, since the first compressed data in this embodiment has the mark character C indicating a carry, the data 1 immediately after that is sent to the bias storage section 24. Further, the remainder data 65 is sent to the addition unit 26.

【0015】バイアス記憶部24は、同図に示すよう
に、商に基づく値Iを保存し、読み取り部22からマー
ク文字Cの直後のデータΔP、すなわち商の差が送られ
た場合には除数Lと商の差ΔPとの積L×ΔPを、それ
まで保存されていた値Iに加算し、得られた値を新たな
値Iとして保存するとともに、加算部26へ出力する。
Iの初期値は0とされる。
As shown in the figure, the bias storage unit 24 stores the value I based on the quotient, and when the reading unit 22 sends the data ΔP immediately after the mark character C, that is, the difference between the quotients, the divisor. The product L × ΔP of L and the quotient difference ΔP is added to the value I that has been saved up to that point, and the obtained value is saved as a new value I and is output to the adder 26.
The initial value of I is 0.

【0016】本実施例においては、上記のようにマーク
文字Cの直後のデータΔPとして1が送られており、除
数Lは255であるから、バイアス記憶部24は255
×1をIの初期値0に加算した値255を保存するとと
もに、加算部26へ出力する。
In this embodiment, 1 is sent as the data ΔP immediately after the mark character C as described above, and the divisor L is 255, so the bias storage unit 24 has 255.
A value 255 obtained by adding x1 to the initial value 0 of I is stored and output to the addition unit 26.

【0017】加算部26は、バイアス記憶部24から送
られるIと読み取り部22から送られる余りを加算す
る。この例では、バイアス記憶部24から送られる25
5と読み取り部22から送られる余り65を加算し、復
号データ320を得る。得られた復号データは復元数列
D3保持部28に送られ、必要に応じて出力される。
The addition unit 26 adds the I sent from the bias storage unit 24 and the remainder sent from the reading unit 22. In this example, 25 sent from the bias storage unit 24.
5 and the remainder 65 sent from the reading unit 22 are added to obtain the decoded data 320. The obtained decoded data is sent to the restored sequence D3 holding unit 28 and output as necessary.

【0018】本実施例によれば、上記のように圧縮時に
昇順データを除数Lで除算し、得られた商をそれまでの
古い商と比較して商の差がある場合にのみ商の差を保存
するとともに余りを保存し、商の差がない場合には余り
のデータのみを保存するようにしている。したがって、
従来の一般的な圧縮符号化方法に比べて計算量を大幅に
節約できるから、高速で圧縮および復号を行うことがで
きる。また、統計量のようなデータ全体にわたるパラメ
ータを必要としないため、データの追加や削除を容易に
実施することができる。
According to the present embodiment, as described above, the ascending order data is divided by the divisor L at the time of compression, and the obtained quotient is compared with the old quotient so far. And the remainder are saved, and when there is no difference in quotient, only the remaining data is saved. Therefore,
Since the amount of calculation can be significantly saved as compared with the conventional general compression encoding method, compression and decoding can be performed at high speed. In addition, since a parameter for the entire data, such as a statistic, is not required, it is possible to easily add or delete the data.

【0019】本発明による圧縮および復号システムは、
各種の昇順に配列された整数列データの圧縮および復号
に適用できる。たとえば次のようなデータ検索システム
におけるデータの処理に適用できる。
The compression and decoding system according to the present invention comprises:
It can be applied to compression and decoding of various integer sequence data arranged in ascending order. For example, it can be applied to data processing in the following data search system.

【0020】図2は、本発明が適用される一実施例を示
す近傍特徴量の抽出によるパターン検索システムのデー
タフロー図である。この検索システムでは、予め全対象
物件から事象(情報)の位相情報を全て捨象した近傍特
徴量データを作成し、そのデータ群に対して全物件検索
を行なう。検索のアルゴリズムは、学習ステップと検索
ステップとからなる。学習ステップでは、物件毎に近傍
特徴量行列が位相情報として作成される。検索ステップ
では、検索キーと近傍特徴量行列とのマッチング演算が
行なわれ、物件ごとにマッチング度(類似度)を示す評
価結果を得る。以下、各ステップについて説明する。
FIG. 2 is a data flow diagram of the pattern search system by extracting the neighborhood feature amount showing an embodiment to which the present invention is applied. In this search system, neighborhood feature amount data in which all phase information of events (information) is removed from all target properties is created in advance, and all property searches are performed on the data group. The search algorithm includes a learning step and a search step. In the learning step, a neighborhood feature amount matrix is created as phase information for each property. In the search step, a matching operation between the search key and the neighborhood feature amount matrix is performed to obtain an evaluation result indicating the matching degree (similarity) for each property. Each step will be described below.

【0021】(1)、学習ステップ 図2に於いて、検索対象10は、例えば日本語、英語、
ドイツ語、フランス語、ヘブライ語、ロシア語などの文
書データ、或いは量子化された波形数値データ、化学構
造式、遺伝子情報などである。このような検索対象に対
して、まず正規化手段S1により正規化の処理を行な
う。一般に検索対象は、情報の最小単位(文書であれば
アルファベットなどの文字、数値チャートであれば、あ
る時刻における実数値など)の列で表現されている。そ
れをなんらかの方法でn階調の整数列に変換する。これ
をデータの正規化と呼ぶ。
(1) Learning Step In FIG. 2, the search target 10 is, for example, Japanese, English,
Document data in German, French, Hebrew, Russian, etc., or quantized waveform numerical data, chemical structural formulas, genetic information, and the like. For such a search target, the normalization means S1 first performs a normalization process. In general, a search target is represented by a column of minimum units of information (characters such as alphabets in the case of documents, real numerical values at a certain time in the case of numerical charts). It is converted into an integer sequence of n gradations by some method. This is called data normalization.

【0022】例えば、英文書データの場合、ASCII
コード表をそのまま用いることにより、次のような25
6階調の数値表現として実現される。 …… This is a pen. …… 84|104 |105 |115 |32|105 |115 |32|97|32|112 |101 |110 |46|
For example, in the case of English document data, ASCII
By using the code table as it is, the following 25
It is realized as a numerical expression with 6 gradations. …… This is a pen. …… 84 | 104 | 105 | 115 | 32 | 105 | 115 | 32 | 97 | 32 | 112 | 101 | 110 | 46 |

【0023】上記のコードにおいては、Tが84、hが10
4 ..と対応している。
In the above code, T is 84 and h is 10
Four . . It corresponds to.

【0024】正規化されたデータ20は、次に学習手段
S2により近傍特徴量行列30の形式に畳込まれる。こ
こで近傍特徴量をとる演算式は種々考えられる。この演
算式は検索の鋭さ(過検出の少なさ)にも影響を与え
る。
The normalized data 20 is then convoluted into the form of the neighborhood feature quantity matrix 30 by the learning means S2. Here, various arithmetic expressions for obtaining the neighborhood feature amount are possible. This arithmetic expression also affects the sharpness of search (the degree of overdetection is small).

【0025】今、i番目の物件(文書)のj番目のデー
タ(文字)をCi,j とし、Ci,j に関する量子化量xと
i,j の前方k近傍に関する量子化量yを次のようにし
て求める。ここでは、検索される対象物件(文書)がn
個あるとし、そのうちのi番目の物件の量子化について
説明する。i番目の物件において、図3に示すように正
規化された数値列135,64,37,71,101,...が並んでいると
すると、Ci,j に関する量子化量xは、 x=f(Ci,j ) Ci,j の前方k近傍に関する量子化量yは y=g(Ci,j , Ci,j+1,i,j+2,...., i,j+k ) で求められる。
[0025] Now, j-th data (characters) to C i of the i-th property (document), and j, C i, the quantization amount x and C i relates j, quantization amount for Upcoming k near the j y Is calculated as follows. Here, the target property (document) to be searched is n
Given that there are individual pieces, the quantization of the i-th property will be described. Assuming that the normalized numerical value sequence 135,64,37,71,101, ... is arranged in the i-th property as shown in FIG. 3, the quantization amount x for C i, j is x = f (C i, j ) Quantization amount y for the front k neighborhood of C i, j is y = g (C i, j , C i, j + 1, C i, j + 2, ..., C i , j + k ).

【0026】ここで、f(Ci,j )はCi,j に関するn段
階量子化関数である。すなわち、i番目の物件のj番目
のデータCi,j について所定の演算を行って得られる値
であり、1〜nのいずれかの整数で表される。したがっ
て、得られたxの値によって図4に示す行列(座標)に
おいてx軸方向の位置が1〜nの範囲で定まる。
Here, f (C i, j ) is an n-step quantization function for C i, j . That is, it is a value obtained by performing a predetermined operation on the j-th data C i, j of the i-th property, and is represented by any integer of 1 to n. Therefore, the position in the x-axis direction in the matrix (coordinates) shown in FIG. 4 is determined within the range of 1 to n by the obtained value of x.

【0027】また、g(Ci,j , Ci,j+1,i,j+2,....,
i,j+k ) は、Ci,j の前方k近傍に関するm段階量子
化関数である。すなわち、i番目の物件のj番目のデー
タCi,j とそのデータの近傍の所定の数のデータについ
て所定の演算を行って得られる値であり、1〜mのいず
れかの整数で表される。たとえば図3に示すようにj番
目のデータCi,j が135であり、kが3の場合には、
i,j+1,i,j+2,i,j+3 としてデータ135に続くデ
ータ64、37、71を抽出し、これらのデータとデー
タ135との相関について所定の演算を行う。j番目の
データCi,j が次の64の場合には、Ci,j+1,i,j+2,
i,j+3 としてデータ64に続くデータ37、71、1
01を抽出し、これらのデータとデータ64との相関に
ついて所定の演算を行う。
Further, g (C i, j , C i, j + 1, C i, j + 2, ...,
C i, j + k ) is an m-step quantization function with respect to the front k neighborhood of C i, j . That is, it is a value obtained by performing a predetermined operation on the j-th data C i, j of the i-th property and a predetermined number of data in the vicinity of that data, and is represented by an integer of 1 to m. It For example, as shown in FIG. 3, when the j-th data C i, j is 135 and k is 3,
The data 64, 37, 71 following the data 135 are extracted as C i, j + 1, C i, j + 2, C i, j + 3 , and a predetermined calculation is performed on the correlation between these data and the data 135. . When the j-th data C i, j is the next 64, C i, j + 1, C i, j + 2,
Data 37, 71, 1 following data 64 as C i, j + 3
01 is extracted, and a predetermined calculation is performed on the correlation between these data and the data 64.

【0028】このようにして得られたyの値によって、
図4に示す行列(座標)におけるy軸方向の位置が1〜
mの範囲で定まる。したがって、上記のようにx、yを
求めることによって図4に示す行列(座標)における位
置が定まる。
According to the value of y thus obtained,
The position in the y-axis direction in the matrix (coordinates) shown in FIG.
Determined in the range of m. Therefore, by determining x and y as described above, the position in the matrix (coordinates) shown in FIG. 4 is determined.

【0029】本システムでは、各物件情報は、上記のよ
うにして求めたx、yに対して物件の通番iと重みw
(x,y,i)の組として記憶される。重みw(x,y,i)は、デ
ータx、y、iから所定の演算によって求められるが、
通常は重みw(x,y,i)の値は1に固定される。
In this system, each piece of property information has a serial number i and a weight w of the property for x and y obtained as described above.
It is stored as a set of (x, y, i). The weight w (x, y, i) is obtained from the data x, y, i by a predetermined calculation,
Normally, the value of the weight w (x, y, i) is fixed to 1.

【0030】上記のようにして求められたデータCi,j
ごとにx、yの値に基づき図4に棒によって示されるよ
うに、データを記憶する。すなわち、データCi,j
x、yの値によって定められる座標の位置に、その物件
の通番iとその重みw(x,y,i)を組みとしたデータを記
憶する。同図ではこのようなデータが記憶されるごとに
棒の長さが延びるように表されている。通常は重みw
(x,y,i)は1とされるから、物件の通番iのデータのみ
がx、yの値によって定められる座標の位置に記憶され
てゆく。この物件の通番iのデータは昇順に配列された
整数データであるから、前述の方法による圧縮および復
号に適している。したがって、前述の圧縮を行うことに
より、高速でデータを圧縮し、データの記憶容量を小さ
くすることができる。
The data C i, j obtained as described above
The data is stored for each one based on the x, y values, as indicated by the bars in FIG. That is, the data in which the serial number i of the property and its weight w (x, y, i) are combined is stored at the position of the coordinates determined by the values of x and y of the data C i, j . In the figure, the length of the bar is shown to be extended each time such data is stored. Usually weight w
Since (x, y, i) is set to 1, only the data of the serial number i of the property is stored at the position of the coordinates determined by the values of x and y. Since the data of the serial number i of this property is integer data arranged in ascending order, it is suitable for compression and decoding by the above-mentioned method. Therefore, by performing the above-described compression, the data can be compressed at high speed and the data storage capacity can be reduced.

【0031】この様にして作成された近傍特徴量行列に
物件の識別番号を付加して構造ファイル40として保存
する。
The identification number of the property is added to the neighborhood feature amount matrix created in this way, and the structure file 40 is saved.

【0032】(2)、検索ステップ まず検索キー50を入力する。例えば、"This is a pe
n."を検索キーとする。この検索キー50に対して学習
ステップと同一の正規化方法に基づく正規化手段S3に
よりキー情報を整数列に正規化する。 84|104 |105 |115 |32|105 |115 |32|97|32|112 |101 |110 |46|
(2) Search Step First, the search key 50 is input. For example, "This is a pe
n. "is used as the search key. The key information is normalized to an integer sequence by the normalization means S3 based on the same normalization method as the learning step for this search key 50. 84 | 104 | 105 | 115 | 32 | 105 | 115 | 32 | 97 | 32 | 112 | 101 | 110 | 46 |

【0033】次に、検索手段S4において、学習ステッ
プと同一の自己相関計算式f() 、g() を用いて各物件に
対応する正規化された数値列の先頭からx、yの組の系
列を作成する。次に、このx、yの組の系列に基づい
て、物件kに対する検索キーの含有度数ωk として、V
(xj,j,k)をj=1〜mについて合計することによ
り算出する。
Next, in the search means S4, a set of x and y from the head of the normalized numerical value sequence corresponding to each property is calculated using the same autocorrelation calculation formulas f () and g () as in the learning step. Create a series. Next, based on the series of the set of x and y, the search key content frequency ω k for the property k is V
It is calculated by summing (x j, y j, k) for j = 1 to m.

【0034】ただし、V(xj,j,k)は、物件情報リ
ストが物件iについての重みを持つ場合、はその重みに
等しく、持たない場合には0と定める。
However, V (x j, y j, k) is set to be equal to the weight when the property information list has the weight for the property i, and is set to 0 when the property information list does not have the weight.

【0035】したがって、検索すべき数値列のx、yの
組に対応する図4のx、yの位置にデータがある場合
(棒がある場合)には、別に設けられた記憶手段のその
データに示される物件の通番iの格納箇所にその重みの
値を記憶させる。
Therefore, when there is data (when there is a bar) at the position of x, y in FIG. 4 corresponding to the set of x, y of the numerical sequence to be searched (when there is a bar), that data of the storage means provided separately. The value of the weight is stored in the storage location of the serial number i of the property shown in FIG.

【0036】次に、評価結果出力手段S5において、物
件毎に得られた構造評価値score (合致度)を完全一致
の場合の評価値(この場合は、文字数−k、)で割っ
て、検索キーの含有確率を求め、評価結果のリスト70
を得る。更にソート手段S6において、このリスト70
を含有確率の降順にソートしソート済みリスト80を得
る。
Next, in the evaluation result output means S5, the structure evaluation value score (degree of coincidence) obtained for each property is divided by the evaluation value in the case of perfect match (in this case, the number of characters-k,) and a search is performed. A list 70 of evaluation results for which the key content probability is calculated
To get Further, in the sorting means S6, this list 70
Are sorted in descending order of content probability to obtain a sorted list 80.

【0037】このソート済みリスト80が検索結果であ
り、その上位物件を参照することにより、検索キーが物
件中に含まれている確率が高い物件名を知ることができ
る。含有確率は、完全一致及び不完全一致の全てについ
て求まるから、あいまい一致検索を行なうことができ
る。
This sorted list 80 is a search result, and by referring to the higher-ranked property, it is possible to know the property name with a high probability that the search key is included in the property. Since the content probability is obtained for all of the perfect match and the incomplete match, the fuzzy match search can be performed.

【0038】また、検索キーの全情報についての全物件
探索であるから、検索もれが発生する確率は、本質的に
零であると言う特徴がある。
Further, since it is a search for all properties for all information of the search key, the probability that a missed search will occur is essentially zero.

【0039】また、1つの物件に対する検索キーの評価
時間は、キーの文字数のみに依存し、物件の大きさには
依存しない。従って、非常に高速に検索を行なうことが
できる。
Further, the evaluation time of the search key for one property depends only on the number of characters of the key and does not depend on the size of the property. Therefore, the search can be performed very quickly.

【0040】また検索結果のリストどうしの論理演算を
行うことにより、検索条件に対するAND、ORなどの
検索演算処理も高速に実行できる。式(1)の自己相関
式は上述の例の他に種々考えることができる。例えば、 f: x→x g: (x,y)→x-y (または|x-y |) とすれば、隣接文字及び一つ置きの文字の差分(または
差分の絶対値)を相関情報として近傍特徴量行列を作る
ことができる。また幾つかの文字列の個々の文字整数値
に対し四則演算を施すことにより近傍特徴量を取り出し
てもよい。
By performing a logical operation between the search result lists, search operation processing such as AND and OR for the search condition can be executed at high speed. The autocorrelation equation of the equation (1) can be variously considered in addition to the above example. For example, if f: x → xg: (x, y) → xy (or | xy |), the difference between adjacent characters and every other character (or the absolute value of the difference) is used as correlation information in the neighborhood feature matrix. Can be made. Alternatively, the neighborhood feature amount may be extracted by performing four arithmetic operations on individual character integer values of some character strings.

【0041】近傍特徴量は、各物件の全データを対象と
し取り出さなくてもよい。例えば、物件データ中の特定
の一つまたは一つ以上の整数値、特定の範囲の整数値、
或いはデータ列を構成する各バイト中の特定の1つまた
は一つ以上のビットを除外して近傍特徴量を捨象しても
よい。また日本語文書のように2バイト文字で構成され
ている場合には、例えば上位バイトを除外して下位バイ
トを対象として近傍特徴量を取り出してもよい。
The neighborhood feature amount does not have to be extracted for all data of each property. For example, a specific one or more integer values in property data, an integer value in a specific range,
Alternatively, one or more specific bits in each byte forming the data string may be excluded to eliminate the neighborhood feature amount. In the case of a double-byte character like a Japanese document, for example, the upper byte may be excluded and the lower-order byte may be taken as the target to extract the neighborhood feature amount.

【0042】上述の例では、近傍特徴量によって生成さ
れる行列は、256次のビット行列であり、これは8K
バイトに相当する。従って、1物件のデータが1K バイ
ト程度であるデータベースでは、効率のよいシステムで
あるとは言えない。そこで上記のようなデータ圧縮手段
S7を設けてデータ圧縮を行なって構造ファイル40の
容量を減らすのがよい。
In the above example, the matrix generated by the neighborhood feature amount is a 256th-order bit matrix, which is 8K.
Equivalent to bytes. Therefore, it cannot be said that a database in which the data for one property is about 1 Kbyte is an efficient system. Therefore, it is preferable to reduce the capacity of the structure file 40 by providing the data compression means S7 as described above to perform data compression.

【0043】図5にデータ圧縮法の一例を示す。この例
では、256次の近傍特徴量行列の各要素毎に要素値が
1である物件名40a(識別コード)を1バイト/件の
データ列として蓄積する。従って、要素値が0である物
件名は不要データとして除外する。
FIG. 5 shows an example of the data compression method. In this example, the property name 40a (identification code) whose element value is 1 is stored as a 1-byte / case data string for each element of the 256th-order neighborhood feature amount matrix. Therefore, the property name whose element value is 0 is excluded as unnecessary data.

【0044】物件数が255個以上ある場合には、物件
名40aは1バイトで表せないので、下位の1バイトの
みを蓄積する。例えば、物件数が1万件の場合、物件名
は2バイトで表されるが、そのうちの下位1バイトを使
用する。そして物件名コードが255を越える毎にデー
タ列にマーカ40bを挿入する。
When the number of properties is 255 or more, the property name 40a cannot be represented by 1 byte, so only the lower 1 byte is stored. For example, when the number of properties is 10,000, the property name is represented by 2 bytes, but the lower 1 byte is used. Then, every time the property name code exceeds 255, the marker 40b is inserted into the data string.

【0045】検索時には、検索キーの近傍特徴量の各々
に該当する構造ファイルのデータ列を取り出し、物件名
毎の出現度数テーブルを作成する。この際、マーカ40
bを越える毎に物件名コードに255を加える。このよ
うにして作成した出現度数テーブルに基づいて図2の評
価結果リスト70が得られる。
At the time of search, the data string of the structure file corresponding to each of the neighborhood feature amounts of the search key is taken out, and the appearance frequency table for each property name is created. At this time, the marker 40
Add 255 to the property name code every time it exceeds b. The evaluation result list 70 of FIG. 2 is obtained based on the appearance frequency table created in this way.

【0046】なお物件名コードのデータ列が例えば全物
件中の半分以上ある場合には、その近傍特徴量行列要素
は各物件について共通であると見なして、その要素を削
除してもよい。
When the data string of the property name code is, for example, more than half of all properties, the neighboring feature amount matrix element may be regarded as common to each property and the element may be deleted.

【0047】上述の実施例において,正規化手段S1、
学習手段S2、正規化手段S3、検索手段S4、評価結
果出力手段S5、ソート手段S6、データ圧縮手段S7
は、コンピュータプログラムによって構成することがで
きるが、論理回路素子を用いて専用のハードウエアを構
成してもよい。
In the above embodiment, the normalizing means S1,
Learning means S2, normalization means S3, search means S4, evaluation result output means S5, sorting means S6, data compression means S7.
Can be configured by a computer program, but dedicated hardware may be configured by using a logic circuit element.

【0048】[0048]

【発明の効果】本発明の従来の一般的な圧縮符号化方法
に比べて計算量を大幅に節約できるから、高速で圧縮お
よび復号を行うことができる。また、統計量のようなデ
ータ全体にわたるパラメータを必要としないため、デー
タの追加や削除を容易に実施することができる。
As compared with the conventional general compression encoding method of the present invention, the amount of calculation can be greatly saved, so that compression and decoding can be performed at high speed. In addition, since a parameter for the entire data, such as a statistic, is not required, it is possible to easily add or delete the data.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明による圧縮復号システムの一実施例のデ
ータフロー図である。
FIG. 1 is a data flow diagram of an embodiment of a compression decoding system according to the present invention.

【図2】本発明による圧縮復号システムを適用するデー
タベース検索システムのデータフロー図である。
FIG. 2 is a data flow diagram of a database search system to which the compression decoding system according to the present invention is applied.

【図3】近傍情報の量子化を示す図である。FIG. 3 is a diagram showing quantization of neighborhood information.

【図4】記憶される情報構造を示す図である。FIG. 4 is a diagram showing a stored information structure.

【図5】圧縮された近傍特徴量のデータ構成図である。FIG. 5 is a data configuration diagram of a compressed neighborhood feature amount.

【符号の説明】[Explanation of symbols]

10 検索対象 12 除算部 14 商記憶比較部 16 圧縮数列D2処理部 18 保存部 20 正規化データ 22 読み取り部 24 バイアス記憶部 26 加算部 28 復元数列D3保持部 30 近傍特徴量行列 40 構造ファイル 50 検索キー 60 正規化キー 70 評価結果リスト 80 ソート済みリスト S1 正規化手段 S2 学習手段 S3 正規化手段 S4 検索手段 S5 評価結果出力手段 S6 ソート手段 S7 データ圧縮手段 10 search target 12 division unit 14 quotient memory comparison unit 16 compressed sequence D2 processing unit 18 storage unit 20 normalized data 22 reading unit 24 bias storage unit 26 addition unit 28 restored sequence D3 holding unit 30 neighborhood feature matrix 40 structure file 50 search Key 60 Normalized key 70 Evaluation result list 80 Sorted list S1 Normalization means S2 Learning means S3 Normalization means S4 Search means S5 Evaluation result output means S6 Sorting means S7 Data compression means

Claims (4)

【特許請求の範囲】[Claims] 【請求項1】 昇順に配列された整数列データの圧縮お
よび復号システムにおいて、 昇順に配列された整数列データについて除算を行う除算
手段と、 前記除算手段により得られた商をすでに記憶された古い
商と比較し、前記得られた商が前記古い商よりも大きい
場合にこれらの商の差を出力する商記憶比較手段と、 前記商記憶比較手段から前記商の差が出力された場合に
は前記商の差とともに前記除算手段により得られた余り
を記憶し、前記商記憶比較手段から前記商の差が出力さ
れない場合には前記除算手段により得られた余りのみを
記憶する記憶手段と、 前記記憶手段に記憶された前記商の差および余りのデー
タから元の整数列データを復号する復号手段とを具備す
ることを特徴とする昇順整数列データの圧縮および復号
システム。
1. In a compression and decoding system for integer sequence data arranged in ascending order, division means for dividing integer sequence data arranged in ascending order, and an old quotient obtained by the division means are already stored. A quotient and a quotient, and outputs the difference between these quotients when the obtained quotient is greater than the old quotient; and when the quotient memory comparison means outputs the quotient difference Storage means for storing the remainder obtained by the dividing means together with the quotient difference, and for storing only the remainder obtained by the dividing means when the quotient storage comparing means does not output the quotient difference, A decoding and decoding system for decoding original integer sequence data from the quotient difference and the remainder data stored in the storage means.
【請求項2】 前記商記憶比較手段は、前記得られた商
が前記古い商よりも大きい場合に桁上がりを示すマーク
とともに前記商の差を出力することを特徴とする請求項
1の昇順整数列データの圧縮および復号システム。
2. The ascending integer of claim 1, wherein the quotient memory comparing means outputs the difference between the quotients together with a mark indicating a carry when the obtained quotient is larger than the old quotient. Column data compression and decoding system.
【請求項3】 検索対象の物件毎にその近傍特徴量を記
憶した記憶手段と、 検索キーの近傍特徴量と検索対象の上記近傍特徴量との
合致度を物件毎に求め、物件番号を合致度の降順に出力
する検索手段とを具備するデータベース検索に用いられ
ることを特徴とする請求項1の昇順整数列データの圧縮
および復号システム。
3. A storage unit that stores the neighborhood feature amount for each search target property, and the degree of matching between the search key neighborhood feature amount and the search target neighborhood feature amount is determined for each property, and the property number is matched. The ascending integer sequence data compression and decoding system according to claim 1, wherein the compression and decoding system is used for a database search comprising a search means for outputting in descending order of degree.
【請求項4】 検索対象のi番目の物件のj番目のデー
タ列Ci,j に関する量子化量xとその近傍のk個のデー
タ列Ci,j+1,i,j+2,...., i,j+k に関する量子化量
yとを x=f(Ci,j ) y=g(Ci,j , Ci,j+1,i,j+2,...., i,j+k ) によって求め、得られたx、yの値に基づいて定められ
る記憶手段の位置にその物件の通番iを記憶するデータ
ベース検索に用いられることを特徴とする請求項3の昇
順整数列データの圧縮および復号システム。
4. The quantization amount x for the j-th data string C i, j of the i-th property to be searched and k data strings C i, j + 1, C i, j + 2, in the vicinity thereof . .., C i, j + k quantized amount y and x = f (C i, j ) y = g (C i, j , C i, j + 1, C i, j + 2, .., C i, j + k ), and is used for a database search for storing the serial number i of the property at the position of the storage means determined based on the obtained x and y values. 4. A compression and decoding system for ascending integer sequence data according to claim 3.
JP3357900A 1991-04-25 1991-12-26 Ascending integer sequence data compression and decoding system Expired - Lifetime JP2993540B2 (en)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP3357900A JP2993540B2 (en) 1991-12-26 1991-12-26 Ascending integer sequence data compression and decoding system
DE69229521T DE69229521T2 (en) 1991-04-25 1992-04-23 Database discovery system
EP92106939A EP0510634B1 (en) 1991-04-25 1992-04-23 Data base retrieval system
US07/873,130 US5450580A (en) 1991-04-25 1992-04-24 Data base retrieval system utilizing stored vicinity feature valves
US08/471,459 US5546578A (en) 1991-04-25 1995-06-06 Data base retrieval system utilizing stored vicinity feature values

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3357900A JP2993540B2 (en) 1991-12-26 1991-12-26 Ascending integer sequence data compression and decoding system

Publications (2)

Publication Number Publication Date
JPH05181913A true JPH05181913A (en) 1993-07-23
JP2993540B2 JP2993540B2 (en) 1999-12-20

Family

ID=18456515

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3357900A Expired - Lifetime JP2993540B2 (en) 1991-04-25 1991-12-26 Ascending integer sequence data compression and decoding system

Country Status (1)

Country Link
JP (1) JP2993540B2 (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003514445A (en) * 1999-11-09 2003-04-15 テレフォンアクチーボラゲット エル エム エリクソン(パブル) Packet header compression method using remainder of division
JP2015055949A (en) * 2013-09-11 2015-03-23 日立オムロンターミナルソリューションズ株式会社 Ticket issuing device
CN110048725A (en) * 2019-05-14 2019-07-23 四川九洲空管科技有限责任公司 A kind of Terrain Data Compression decompression algorithm based on TAWS system
CN111151858A (en) * 2020-01-13 2020-05-15 吉利汽车研究院(宁波)有限公司 Spot welding parameter application system and setting method

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003514445A (en) * 1999-11-09 2003-04-15 テレフォンアクチーボラゲット エル エム エリクソン(パブル) Packet header compression method using remainder of division
JP4703080B2 (en) * 1999-11-09 2011-06-15 テレフオンアクチーボラゲット エル エム エリクソン(パブル) Packet header compression method using remainder of division
JP2015055949A (en) * 2013-09-11 2015-03-23 日立オムロンターミナルソリューションズ株式会社 Ticket issuing device
CN110048725A (en) * 2019-05-14 2019-07-23 四川九洲空管科技有限责任公司 A kind of Terrain Data Compression decompression algorithm based on TAWS system
CN110048725B (en) * 2019-05-14 2023-07-07 四川九洲空管科技有限责任公司 Topographic data compression and decompression algorithm based on TAWS system
CN111151858A (en) * 2020-01-13 2020-05-15 吉利汽车研究院(宁波)有限公司 Spot welding parameter application system and setting method

Also Published As

Publication number Publication date
JP2993540B2 (en) 1999-12-20

Similar Documents

Publication Publication Date Title
EP0510634B1 (en) Data base retrieval system
EP0293161B1 (en) Character processing system with spelling check function
Silva de Moura et al. Fast and flexible word searching on compressed text
JP4261779B2 (en) Data compression apparatus and method
JP3234104B2 (en) Method and system for searching compressed data
US5680612A (en) Document retrieval apparatus retrieving document data using calculated record identifier
CN102142038B (en) Multi-stage query processing system and method for use with tokenspace repository
US9081874B2 (en) Information retrieval method, information retrieval apparatus, and computer product
US8095526B2 (en) Efficient retrieval of variable-length character string data
US20160321282A1 (en) Extracting method, information processing method, computer product, extracting apparatus, and information processing apparatus
US20100131476A1 (en) Computer product, information retrieval method, and information retrieval apparatus
JP2833580B2 (en) Full-text index creation device and full-text database search device
JP3333549B2 (en) Document search method
JP3258063B2 (en) Database search system and method
JP3151730B2 (en) Database search system
JPH05181913A (en) Compression and decoding system for ascending-order integer string data
JPH06274193A (en) Data base retrieval system
JP4208326B2 (en) Information indexing device
JP3259781B2 (en) Database search system and database search method
JPH06259222A (en) System for compressing and decoding ascending integer sequence data
JP2519130B2 (en) Multi-word information retrieval processing method and retrieval file creation device
JP3288063B2 (en) Variable length data storage and reference system
JPH0554077A (en) Word dictionary retriever
JP2993539B2 (en) Database search system and method
JP2785168B2 (en) Electronic dictionary compression method and apparatus for word search

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 19990907

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R154 Certificate of patent or utility model (reissue)

Free format text: JAPANESE INTERMEDIATE CODE: R154

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071022

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081022

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091022

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091022

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101022

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111022

Year of fee payment: 12

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111022

Year of fee payment: 12

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111022

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121022

Year of fee payment: 13

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121022

Year of fee payment: 13