JP4002155B2 - データを圧縮する方法 - Google Patents

データを圧縮する方法 Download PDF

Info

Publication number
JP4002155B2
JP4002155B2 JP2002240106A JP2002240106A JP4002155B2 JP 4002155 B2 JP4002155 B2 JP 4002155B2 JP 2002240106 A JP2002240106 A JP 2002240106A JP 2002240106 A JP2002240106 A JP 2002240106A JP 4002155 B2 JP4002155 B2 JP 4002155B2
Authority
JP
Japan
Prior art keywords
characters
character
data
code
different
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2002240106A
Other languages
English (en)
Other versions
JP2003179500A (ja
Inventor
フューバー,クラウス
ヴィンディルシュ,ペーター
シュナイダー,ティム
シャフェルホッファー,ラルフ
バウムガルト,マティアス
Original Assignee
ドイッチェ テレコム アーゲー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ドイッチェ テレコム アーゲー filed Critical ドイッチェ テレコム アーゲー
Publication of JP2003179500A publication Critical patent/JP2003179500A/ja
Application granted granted Critical
Publication of JP4002155B2 publication Critical patent/JP4002155B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Error Detection And Correction (AREA)
  • Detection And Prevention Of Errors In Transmission (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、文字から構成されるデータ・ストリームにおいて、文字列を、データ・ストリーム中の所与の距離に存在する他の文字列との相関に関してチェックする、データを圧縮する方法に関し、各ケースにおいて、他の文字列のそれぞれにおいて相関する文字数と位置とが圧縮データを構成している。
【0002】
【従来の技術】
データを効率的に伝送または格納することを可能にするために、データを圧縮する方法が用いられる。この方法に関連して、損失のない圧縮方法と、損失を有する圧縮方法とが存在する。無損失の方法は、圧縮データから元のデータを完全に構築することができるという特徴を有する。しかし、有損失の方法の場合、元のデータを完全に再構築することは保証されない。
【0003】
それぞれのデータ量を縮小する目的を有する圧縮方法は、情報通信技術、例えばデジタル・テレビジョン、または電子通信で、様々な方式で使用されている。
【0004】
圧縮方法はまた、データの暗号化に関連して使用され、ソース・テキストを暗号化する前に圧縮する。それ故に冗長度が低下するため、暗号解読がより難しくなる。
【0005】
本願特許請求の範囲の独立請求項で定義される概念による方法は、Lempel-Ziv法と呼ばれる。この方法のうちの1つは、Ziv J.,Lempel A.の「A Universal Algorithm for Sequential Data Compression」(IEEE Transactions on Information Theory, Vol.23, No.3, 1997年5月,pp.337乃至343)により知られるようになった。
【0006】
【発明が解決しようとする課題】
本発明の目的は、より高い圧縮率を有するデータ圧縮方法を規定することである。
【0007】
【課題を解決するための手段】
本発明により、少なくとも1つの文字が相関チェックにおいて異なることが許容され、加えて、少なくとも1つの異なる文字を訂正するためのデータが圧縮データ中に挿入されることにより、この目的は達成される。本発明による方法では、この少なくとも1つの異なる文字の位置に関する情報の項目を追加で挿入することが好ましい。
【0008】
本発明では、相関チェックでの「誤り」を許容することによって、相関する文字数が厳密なチェックを行う場合よりも平均的に多くなり、それによって、数および位置に関する情報を使用して、平均してより長い文字列を符号化できるので有利である。許容される異なる文字数は、圧縮するデータの特性に応じて選択することができる。
【0009】
データ・ストリームを形成する各文字は、本発明による方法では異なるタイプの文字でよい。したがって、例えば、多くの値を取ることができる文字、即ち2進文字(binary character)が利用可能である。
【0010】
本発明の有利な実施例では、3つ以上の値をとることができる文字を扱うとき、少なくとも1つの異なる文字の真の値も挿入され、または3つ以上の値をとることができる文字を扱うとき、異なる文字の値から真の値を決定するための手順も挿入される。
【0011】
例えば、テキスト・データを圧縮(compress)するとき、この手順は、ワードまたはワードの一部を、同一ではあるが、例えば文の先頭に、小文字の代わりに大文字が出現するワードまたはワードの一部と相関するものと見なすものとすることができる。次いで真の値、例えば大文字”D”の代わりに、復元(decompress)において小文字dを変更する手順、即ち、この例においては、小文字を対応する大文字で置換する手順を圧縮データ中に挿入するだけでよい。
【0012】
他の実施例は、2進文字を扱うとき、異なる文字が、その位置だけが挿入されることによってマークされるものである。
【0013】
本発明による方法によって達成される圧縮利得を追加の情報によって可能な限り小さくするために、この方法のより一層の改良により、異なる文字の位置を符号化するために使用される圧縮符号が提供される。このより一層の改良は、長さnおよび重みeを有する2進ベクトルが長さnにわたって異なる文字のe位置(e position)を符号化するために使用され、特定の重みのすべての2進ベクトルを数えるように設計することが好ましい。
【0014】
本発明による方法を使用して圧縮されるデータに、伝送中または格納中にランダムに誤りが生じることを防止するために、本発明の方法はさらに、圧縮データが誤り訂正式に符号化され、冗長構成が加えられるように開発することができる。この状況では、誤り訂正符号はブロック符号または重畳符号でよい。これに関連して、適切なブロック符号には、リード−ソロモン符号およびハミング符号が含まれる。
【0015】
本発明による方法では、圧縮データの長さは、8ビットの倍数となるように設計することが好ましい。これにより、他のデータ処理方法および適切な装置に容易に適合させることが可能となる。
【0016】
本発明による方法は、プログラマブル装置(マイクロプロセッサ、マイクロコントローラ)および適切なプログラム、ならびに本発明による方法に適合されたハードウェアを用いて実施することができる。
【0017】
本発明の例示的実施例を、いくつかの図に示し、以下の説明でより詳細に説明する。
【0018】
【発明の詳細な記述】
Lempel-Ziv法と本発明による方法のどちらでも、圧縮すべきデータは、図面に記載されてるように、部分1、2から構成されるシフト・レジスタ内に、矢印の方向に書き込まれる、より正確には、部分2に最初に書き込まれる。部分1は、適切な初期値で占有される。この目的で、例えば部分1に位置するすべての文字の初期値が0に等しいと仮定する。Lempel-Ziv法では、次いで、部分2の先頭から始まる文字列が既に部分1内に存在しているかどうかがチェックされる。既に部分1内に存在している場合、文字列が始まる部分1内の位置が符号化される。さらに、訂正文字の数lまたは訂正後シーケンスの長さが圧縮データ3内に挿入される。最後に、部分1内に存在していない、部分2の先頭から始まるシーケンスの第1文字が、いわゆる「イノベイティブ・シンボル(innovative symbol)」iとして追加される。イノベイティブ・シンボルiにより、部分2内で始まるシーケンスが部分1内に現れない場合に、この方法の機能が保証される。位置p、長さl、およびイノベイティブ・シンボルiは、コード・ワード3(圧縮データ)を形成し、格納または伝送することができる。
【0019】
本発明による方法では、圧縮すべきデータも、2つの部分1、2から構成されるシフト・レジスタ内に書き込まれる。しかし、後続のチェックでは、図2で斜線を付けて示す、2つの異なる文字が許容される。したがって、相関していると見なされる文字数は、図1の周知の方法の例よりも多い。やはり、保存または伝送すべきコード・ワード3'は、相関していると見なされる文字の位置pおよび数lを含む。加えて、異なる文字の位置paおよび異なる文字の値wwが、コード・ワード内に供給される。
【0020】
復元中は、ここで説明したステップが逆に実施される。コード・ワード中に含まれる情報項目p,lを使用して、既に復元された、時間的に先行するデータから文字列が抽出され、復元データに加えられる。本発明による方法による復元の間、これらのステップも実施される。加えて、コード・ワード3'内に含まれる情報項目paおよびwwを用いて、異なる文字が訂正される。
【0021】
図3による例示的な実施例では、各文字は2進と仮定され、その結果、誤り位置だけが、格納または伝送すべきコード・ワード3"内に含まれる。誤り位置により、これらの位置の文字を反転することによって真の値を回復することが可能となる。
【0022】
以下では誤りと称する異なる文字のe位置を長さnにわたって符号化するとき、長さnおよび重みeを有する2進ベクトルを使用するのが最良である。符号化中、特定の重みのすべての2進ベクトルを数える効率的な方法を使用することが可能である。例えば、Cover,Tの「Enumerative Source Coding」(IEEE Transaction on Information Theory,Vol.19,No.1,1973年1月,pp.73〜77)を参照されたい。このようにして、位置が最適に、すなわち最小の数のビットを用いて符号化される。
【0023】
【外1】
Figure 0004002155
【0024】
議論されるアルファベットが2進、すなわち{0,1}に等しい場合、誤り値の指定はもちろん1に等しく、不要にすることができる。2進の場合を図3に示す。この2進の場合では、様々なケースを見ることができる。第1に、議論されるデータ・ストリームのアルファベットは2進とすることができる。第2に、効率化のために、非2進データ・ストリームを見ることも可能であり、格納すべきコード・ワード中の誤り位置だけを2進符号化することも可能である。
【0025】
図4に、冗長構成Rを有する、格納すべきコード・ワードの拡張を示す。冗長構成Rは、コード・ワード4の伝送または格納中の誤り保護のために使用される。誤り訂正用のいわゆる「ブロック符号」の使用法が表されている。具体的には、リード−ソロモン符号、ハミング符号、および場合によってはBCH符号がここでは対象となる。しかし、いわゆる「重畳符号」も考慮することができる。ここで説明した方法は、個々の量を最適化することができるという利点を有する。具体的には、複数の8ビット(8ビット=1バイト)など、実際に好都合なフォーマットを全コード・ワード用の格納サイズとして選択することができるようにして最適化することができる。
【図面の簡単な説明】
【図1】Lempel−Ziv法の概略図である。
【図2】本発明による方法の例示的実施例の概略図である。
【図3】別の例示的実施例を示す図である。
【図4】後続の誤り訂正符号化の例示的実施例を示す図である。

Claims (13)

  1. データを圧縮する方法であって、文字から構成されるデータ・ストリームで、文字列を、データ・ストリーム中の所与の距離に存在する他の文字列との相関に関してチェックし、各ケースで、対応する文字数と、それぞれの他の文字列中の対応する文字の位置とが圧縮データを構成し、
    少なくとも1つの文字が相関チェックで異なることが可能であり、加えて、少なくとも1つの異なる文字を訂正するためのデータが圧縮データ中に挿入される方法。
  2. 少なくとも1つの異なる文字の部分に関する情報項目も挿入される、請求項1に記載の方法。
  3. 3つ以上の値を取ることができる文字を扱うとき、少なくとも1つの異なる文字の真の値も挿入される、請求項2に記載の方法。
  4. 3つ以上の値を取ることができる文字を扱うとき、異なる文字の値から真の値を決定するための手順も挿入される、請求項2に記載の方法。
  5. 2進文字を扱うとき、異なる文字が、その位置だけが挿入されることによってマークされる、請求項2に記載の方法。
  6. 圧縮符号が、異なる文字の部分を符号化するために使用される、請求項1乃至5のいずれか1項に記載の方法。
  7. 長さnおよび重みeを有する2進ベクトルが、長さnにわたって異なる文字のe位置を符号化するために使用され、特定の重みのすべての2進ベクトルが数えられる、請求項6に記載の方法。
  8. 圧縮データが誤り訂正式に符号化され、冗長構成が加えられる、請求項1乃至7のいずれか1項に記載の方法。
  9. 誤り訂正符号がブロック符号である、請求項8に記載の方法。
  10. 誤り訂正符号が重畳符号である、請求項8に記載の方法。
  11. 誤り訂正符号がリード−ソロモン符号である、請求項9に記載の方法。
  12. 誤り訂正符号がハミング符号である、請求項9に記載の方法。
  13. 圧縮データの長さが8ビットの倍数である、請求項1乃至12のいずれか1項に記載の方法。
JP2002240106A 2001-08-21 2002-08-21 データを圧縮する方法 Expired - Lifetime JP4002155B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE10140993.1 2001-08-21
DE10140993A DE10140993A1 (de) 2001-08-21 2001-08-21 Verfahren zur Kompression von Daten

Publications (2)

Publication Number Publication Date
JP2003179500A JP2003179500A (ja) 2003-06-27
JP4002155B2 true JP4002155B2 (ja) 2007-10-31

Family

ID=7696150

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002240106A Expired - Lifetime JP4002155B2 (ja) 2001-08-21 2002-08-21 データを圧縮する方法

Country Status (6)

Country Link
US (1) US6714147B2 (ja)
EP (1) EP1286471B1 (ja)
JP (1) JP4002155B2 (ja)
AT (1) ATE306146T1 (ja)
CA (1) CA2398955C (ja)
DE (2) DE10140993A1 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7667630B2 (en) 2004-12-07 2010-02-23 Nippon Telegraph And Telephone Corporation Information compression-encoding device, its decoding device, method thereof, program thereof, and recording medium storing the program
US7770091B2 (en) * 2006-06-19 2010-08-03 Monro Donald M Data compression for use in communication systems
US7511638B2 (en) * 2007-07-12 2009-03-31 Monro Donald M Data compression for communication between two or more components in a system
US7511639B2 (en) * 2007-07-12 2009-03-31 Monro Donald M Data compression for communication between two or more components in a system
US7737869B2 (en) * 2007-07-12 2010-06-15 Monro Donald M Symbol based data compression
US7791513B2 (en) * 2008-10-06 2010-09-07 Donald Martin Monro Adaptive combinatorial coding/decoding with specified occurrences for electrical computers and digital data processing systems
US7864086B2 (en) * 2008-10-06 2011-01-04 Donald Martin Monro Mode switched adaptive combinatorial coding/decoding for electrical computers and digital data processing systems
US7786903B2 (en) * 2008-10-06 2010-08-31 Donald Martin Monro Combinatorial coding/decoding with specified occurrences for electrical computers and digital data processing systems
US7786907B2 (en) * 2008-10-06 2010-08-31 Donald Martin Monro Combinatorial coding/decoding with specified occurrences for electrical computers and digital data processing systems
CN117216023B (zh) * 2023-11-07 2024-01-26 陕西长瑞安驰信息技术集团有限公司 一种大规模网络数据存储方法及系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4412301A (en) * 1981-06-08 1983-10-25 Gte Products Corporation Digital data correlator
US5034965A (en) * 1988-11-11 1991-07-23 Matsushita Electric Industrial Co., Ltd. Efficient coding method and its decoding method
JPH03214500A (ja) * 1990-01-18 1991-09-19 Sony Corp メモリ装置
US5617333A (en) * 1993-11-29 1997-04-01 Kokusai Electric Co., Ltd. Method and apparatus for transmission of image data
JP3013698B2 (ja) * 1994-04-20 2000-02-28 松下電器産業株式会社 ベクトル量子化符号化装置と復号化装置
US5627533A (en) * 1994-08-05 1997-05-06 Hayes Microcomputer Products, Inc. Adjusting encoding table size and memory allocation for data compression in response to input data
GB0007782D0 (en) * 2000-03-30 2000-05-17 Sony Uk Ltd Data compression

Also Published As

Publication number Publication date
DE10140993A1 (de) 2003-03-20
US20030038739A1 (en) 2003-02-27
ATE306146T1 (de) 2005-10-15
JP2003179500A (ja) 2003-06-27
CA2398955A1 (en) 2003-02-21
EP1286471B1 (de) 2005-10-05
US6714147B2 (en) 2004-03-30
EP1286471A3 (de) 2004-02-11
CA2398955C (en) 2010-04-27
EP1286471A2 (de) 2003-02-26
DE50204447D1 (de) 2005-11-10

Similar Documents

Publication Publication Date Title
CN108880556B (zh) 基于lz77的无损数据压缩方法、误码修复方法及编码器和解码器
JP3541930B2 (ja) 符号化装置及び復号化装置
CN108768403B (zh) 基于lzw的无损数据压缩、解压方法及lzw编码器、解码器
CN108702161B (zh) 用于极化编码和解码的系统和方法
Ziv Coding theorems for individual sequences
US6388584B1 (en) Method and apparatus for data compression of network packets
US6154542A (en) Method and apparatus for simultaneously encrypting and compressing data
US7705753B2 (en) Methods, systems and computer-readable media for compressing data
Alakuijala et al. Brotli compressed data format
US20050219075A1 (en) In-place differential compression
JPH07235880A (ja) デジタルデータ符号化方式
US5877711A (en) Method and apparatus for performing adaptive data compression
JP4002155B2 (ja) データを圧縮する方法
Kwon et al. Novel error detection algorithm for LZSS compressed data
US20110083062A1 (en) Method for Encoding and/or Decoding Multimensional and a System Comprising Such Method
Al-Hashemi et al. A new lossless image compression technique based on Bose, Chandhuri and Hocquengham (BCH) codes
Kwon et al. Error detection algorithm for Lempel-Ziv-77 compressed data
Lonardi et al. Joint source-channel LZ'77 coding
CN110233629B (zh) 改进的汉明码纠错方法
US6298165B1 (en) Method for improving data encoding and decoding efficiency
Wu et al. Error-resilient LZW data compression
JP2693338B2 (ja) データ圧縮・復元処理における誤り制御処理方式
Alakuijala et al. RFC 7932: Brotli Compressed Data Format
KR100607932B1 (ko) 에러 정정 코드를 이용한 부호화 방법 및 이에 적합한 복호화 방법
KR101906036B1 (ko) Lz78 압축 데이터의 오류 검출 방법 및 이를 이용한 인코더

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050809

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070725

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070816

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100824

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4002155

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110824

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120824

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120824

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130824

Year of fee payment: 6

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term