JP2003179500A - データを圧縮する方法 - Google Patents

データを圧縮する方法

Info

Publication number
JP2003179500A
JP2003179500A JP2002240106A JP2002240106A JP2003179500A JP 2003179500 A JP2003179500 A JP 2003179500A JP 2002240106 A JP2002240106 A JP 2002240106A JP 2002240106 A JP2002240106 A JP 2002240106A JP 2003179500 A JP2003179500 A JP 2003179500A
Authority
JP
Japan
Prior art keywords
data
character
characters
different
code
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002240106A
Other languages
English (en)
Other versions
JP4002155B2 (ja
Inventor
Klaus Huber
フューバー,クラウス
Peter Windirsch
ヴィンディルシュ,ペーター
Tim Schneider
シュナイダー,ティム
Ralf Schaffelhofer
シャフェルホッファー,ラルフ
Matthias Baumgart
バウムガルト,マティアス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Deutsche Telekom AG
Original Assignee
Deutsche Telekom AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Deutsche Telekom AG filed Critical Deutsche Telekom AG
Publication of JP2003179500A publication Critical patent/JP2003179500A/ja
Application granted granted Critical
Publication of JP4002155B2 publication Critical patent/JP4002155B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Error Detection And Correction (AREA)
  • Detection And Prevention Of Errors In Transmission (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 より高い圧縮率を有するデータ圧縮方法を提
供する。 【解決手段】 文字から構成されるデータ・ストリーム
で、文字列を、データ・ストリーム中の所与の距離に存
在する他の文字列との相関に関してチェックし、各ケー
スで、対応する文字数と、それぞれの他の文字列中の対
応する文字の位置とが圧縮データを構成する、データを
圧縮する方法において、少なくとも1つの文字が相関チ
ェックで異なることが可能であり、加えて、少なくとも
1つの異なる文字を訂正するためのデータが圧縮データ
中に挿入される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文字から構成され
るデータ・ストリームにおいて、文字列を、データ・ス
トリーム中の所与の距離に存在する他の文字列との相関
に関してチェックする、データを圧縮する方法に関し、
各ケースにおいて、他の文字列のそれぞれにおいて相関
する文字数と位置とが圧縮データを構成している。
【0002】
【従来の技術】データを効率的に伝送または格納するこ
とを可能にするために、データを圧縮する方法が用いら
れる。この方法に関連して、損失のない圧縮方法と、損
失を有する圧縮方法とが存在する。無損失の方法は、圧
縮データから元のデータを完全に構築することができる
という特徴を有する。しかし、有損失の方法の場合、元
のデータを完全に再構築することは保証されない。
【0003】それぞれのデータ量を縮小する目的を有す
る圧縮方法は、情報通信技術、例えばデジタル・テレビ
ジョン、または電子通信で、様々な方式で使用されてい
る。
【0004】圧縮方法はまた、データの暗号化に関連し
て使用され、ソース・テキストを暗号化する前に圧縮す
る。それ故に冗長度が低下するため、暗号解読がより難
しくなる。
【0005】本願特許請求の範囲の独立請求項で定義さ
れる概念による方法は、Lempel-Ziv法と呼ばれる。この
方法のうちの1つは、Ziv J.,Lempel A.の「A Universa
l Algorithm for Sequential Data Compression」(IEE
E Transactions on Information Theory, Vol.23, No.
3, 1997年5月,pp.337乃至343)により知られるよう
になった。
【0006】
【発明が解決しようとする課題】本発明の目的は、より
高い圧縮率を有するデータ圧縮方法を規定することであ
る。
【0007】
【課題を解決するための手段】本発明により、少なくと
も1つの文字が相関チェックにおいて異なることが許容
され、加えて、少なくとも1つの異なる文字を訂正する
ためのデータが圧縮データ中に挿入されることにより、
この目的は達成される。本発明による方法では、この少
なくとも1つの異なる文字の位置に関する情報の項目を
追加で挿入することが好ましい。
【0008】本発明では、相関チェックでの「誤り」を
許容することによって、相関する文字数が厳密なチェッ
クを行う場合よりも平均的に多くなり、それによって、
数および位置に関する情報を使用して、平均してより長
い文字列を符号化できるので有利である。許容される異
なる文字数は、圧縮するデータの特性に応じて選択する
ことができる。
【0009】データ・ストリームを形成する各文字は、
本発明による方法では異なるタイプの文字でよい。した
がって、例えば、多くの値を取ることができる文字、即
ち2進文字(binary character)が利用可能である。
【0010】本発明の有利な実施例では、3つ以上の値
をとることができる文字を扱うとき、少なくとも1つの
異なる文字の真の値も挿入され、または3つ以上の値を
とることができる文字を扱うとき、異なる文字の値から
真の値を決定するための手順も挿入される。
【0011】例えば、テキスト・データを圧縮(compres
s)するとき、この手順は、ワードまたはワードの一部
を、同一ではあるが、例えば文の先頭に、小文字の代わ
りに大文字が出現するワードまたはワードの一部と相関
するものと見なすものとすることができる。次いで真の
値、例えば大文字”D”の代わりに、復元(decompress)
において小文字dを変更する手順、即ち、この例におい
ては、小文字を対応する大文字で置換する手順を圧縮デ
ータ中に挿入するだけでよい。
【0012】他の実施例は、2進文字を扱うとき、異な
る文字が、その位置だけが挿入されることによってマー
クされるものである。
【0013】本発明による方法によって達成される圧縮
利得を追加の情報によって可能な限り小さくするため
に、この方法のより一層の改良により、異なる文字の位
置を符号化するために使用される圧縮符号が提供され
る。このより一層の改良は、長さnおよび重みeを有す
る2進ベクトルが長さnにわたって異なる文字のe位置
(eposition)を符号化するために使用され、特定の重み
のすべての2進ベクトルを数えるように設計することが
好ましい。
【0014】本発明による方法を使用して圧縮されるデ
ータに、伝送中または格納中にランダムに誤りが生じる
ことを防止するために、本発明の方法はさらに、圧縮デ
ータが誤り訂正式に符号化され、冗長構成が加えられる
ように開発することができる。この状況では、誤り訂正
符号はブロック符号または重畳符号でよい。これに関連
して、適切なブロック符号には、リード−ソロモン符号
およびハミング符号が含まれる。
【0015】本発明による方法では、圧縮データの長さ
は、8ビットの倍数となるように設計することが好まし
い。これにより、他のデータ処理方法および適切な装置
に容易に適合させることが可能となる。
【0016】本発明による方法は、プログラマブル装置
(マイクロプロセッサ、マイクロコントローラ)および
適切なプログラム、ならびに本発明による方法に適合さ
れたハードウェアを用いて実施することができる。
【0017】本発明の例示的実施例を、いくつかの図に
示し、以下の説明でより詳細に説明する。
【0018】
【発明の詳細な記述】Lempel-Ziv法と本発明による方法
のどちらでも、圧縮すべきデータは、図面に記載されて
るように、部分1、2から構成されるシフト・レジスタ
内に、矢印の方向に書き込まれる、より正確には、部分
2に最初に書き込まれる。部分1は、適切な初期値で占
有される。この目的で、例えば部分1に位置するすべて
の文字の初期値が0に等しいと仮定する。Lempel-Ziv法
では、次いで、部分2の先頭から始まる文字列が既に部
分1内に存在しているかどうかがチェックされる。既に
部分1内に存在している場合、文字列が始まる部分1内
の位置が符号化される。さらに、訂正文字の数lまたは
訂正後シーケンスの長さが圧縮データ3内に挿入され
る。最後に、部分1内に存在していない、部分2の先頭
から始まるシーケンスの第1文字が、いわゆる「イノベ
イティブ・シンボル(innovative symbol)」iとして追
加される。イノベイティブ・シンボルiにより、部分2
内で始まるシーケンスが部分1内に現れない場合に、こ
の方法の機能が保証される。位置p、長さl、およびイ
ノベイティブ・シンボルiは、コード・ワード3(圧縮
データ)を形成し、格納または伝送することができる。
【0019】本発明による方法では、圧縮すべきデータ
も、2つの部分1、2から構成されるシフト・レジスタ
内に書き込まれる。しかし、後続のチェックでは、図2
で斜線を付けて示す、2つの異なる文字が許容される。
したがって、相関していると見なされる文字数は、図1
の周知の方法の例よりも多い。やはり、保存または伝送
すべきコード・ワード3'は、相関していると見なされ
る文字の位置pおよび数lを含む。加えて、異なる文字
の位置paおよび異なる文字の値wwが、コード・ワー
ド内に供給される。
【0020】復元中は、ここで説明したステップが逆に
実施される。コード・ワード中に含まれる情報項目p,
lを使用して、既に復元された、時間的に先行するデー
タから文字列が抽出され、復元データに加えられる。本
発明による方法による復元の間、これらのステップも実
施される。加えて、コード・ワード3'内に含まれる情
報項目paおよびwwを用いて、異なる文字が訂正され
る。
【0021】図3による例示的な実施例では、各文字は
2進と仮定され、その結果、誤り位置だけが、格納また
は伝送すべきコード・ワード3"内に含まれる。誤り位
置により、これらの位置の文字を反転することによって
真の値を回復することが可能となる。
【0022】以下では誤りと称する異なる文字のe位置
を長さnにわたって符号化するとき、長さnおよび重み
eを有する2進ベクトルを使用するのが最良である。符
号化中、特定の重みのすべての2進ベクトルを数える効
率的な方法を使用することが可能である。例えば、Cove
r,Tの「Enumerative Source Coding」(IEEE Transact
ion on Information Theory,Vol.19,No.1,1973年
1月,pp.73〜77)を参照されたい。このようにして、
位置が最適に、すなわち最小の数のビットを用いて符号
化される。
【0023】
【外1】
【0024】議論されるアルファベットが2進、すなわ
ち{0,1}に等しい場合、誤り値の指定はもちろん1
に等しく、不要にすることができる。2進の場合を図3
に示す。この2進の場合では、様々なケースを見ること
ができる。第1に、議論されるデータ・ストリームのア
ルファベットは2進とすることができる。第2に、効率
化のために、非2進データ・ストリームを見ることも可
能であり、格納すべきコード・ワード中の誤り位置だけ
を2進符号化することも可能である。
【0025】図4に、冗長構成Rを有する、格納すべき
コード・ワードの拡張を示す。冗長構成Rは、コード・
ワード4の伝送または格納中の誤り保護のために使用さ
れる。誤り訂正用のいわゆる「ブロック符号」の使用法
が表されている。具体的には、リード−ソロモン符号、
ハミング符号、および場合によってはBCH符号がここ
では対象となる。しかし、いわゆる「重畳符号」も考慮
することができる。ここで説明した方法は、個々の量を
最適化することができるという利点を有する。具体的に
は、複数の8ビット(8ビット=1バイト)など、実際
に好都合なフォーマットを全コード・ワード用の格納サ
イズとして選択することができるようにして最適化する
ことができる。
【図面の簡単な説明】
【図1】Lempel−Ziv法の概略図である。
【図2】本発明による方法の例示的実施例の概略図であ
る。
【図3】別の例示的実施例を示す図である。
【図4】後続の誤り訂正符号化の例示的実施例を示す図
である。
フロントページの続き (72)発明者 シュナイダー,ティム ドイツ 64295 ダルムシュタット,ドロ ッセルヴェック 32 (72)発明者 シャフェルホッファー,ラルフ ドイツ 64285 ダルムシュタット,ヴィ ットマンシュトラーセ 39 (72)発明者 バウムガルト,マティアス ドイツ 35390 ギーセン,バーンホッフ シュトラーセ 65 Fターム(参考) 5J064 AA02 BA11 BB08 BC04 BC27 BD02 5J065 AA01 AB04 AC02 AD05 AD06 AD11 AE02 AF00 AH05

Claims (13)

    【特許請求の範囲】
  1. 【請求項1】 データを圧縮する方法であって、文字か
    ら構成されるデータ・ストリームで、文字列を、データ
    ・ストリーム中の所与の距離に存在する他の文字列との
    相関に関してチェックし、各ケースで、対応する文字数
    と、それぞれの他の文字列中の対応する文字の位置とが
    圧縮データを構成し、 少なくとも1つの文字が相関チェックで異なることが可
    能であり、加えて、少なくとも1つの異なる文字を訂正
    するためのデータが圧縮データ中に挿入される方法。
  2. 【請求項2】 少なくとも1つの異なる文字の部分に関
    する情報項目も挿入される、請求項1に記載の方法。
  3. 【請求項3】 3つ以上の値を取ることができる文字を
    扱うとき、少なくとも1つの異なる文字の真の値も挿入
    される、請求項2に記載の方法。
  4. 【請求項4】 3つ以上の値を取ることができる文字を
    扱うとき、異なる文字の値から真の値を決定するための
    手順も挿入される、請求項2に記載の方法。
  5. 【請求項5】 2進文字を扱うとき、異なる文字が、そ
    の位置だけが挿入されることによってマークされる、請
    求項2に記載の方法。
  6. 【請求項6】 圧縮符号が、異なる文字の部分を符号化
    するために使用される、請求項1乃至5のいずれか1項
    に記載の方法。
  7. 【請求項7】 長さnおよび重みeを有する2進ベクト
    ルが、長さnにわたって異なる文字のe位置を符号化す
    るために使用され、特定の重みのすべての2進ベクトル
    が数えられる、請求項6に記載の方法。
  8. 【請求項8】 圧縮データが誤り訂正式に符号化され、
    冗長構成が加えられる、請求項1乃至7のいずれか1項
    に記載の方法。
  9. 【請求項9】 誤り訂正符号がブロック符号である、請
    求項8に記載の方法。
  10. 【請求項10】 誤り訂正符号が重畳符号である、請求
    項8に記載の方法。
  11. 【請求項11】 誤り訂正符号がリード−ソロモン符号
    である、請求項9に記載の方法。
  12. 【請求項12】 誤り訂正符号がハミング符号である、
    請求項9に記載の方法。
  13. 【請求項13】 圧縮データの長さが8ビットの倍数で
    ある、請求項1乃至12のいずれか1項に記載の方法。
JP2002240106A 2001-08-21 2002-08-21 データを圧縮する方法 Expired - Lifetime JP4002155B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE10140993A DE10140993A1 (de) 2001-08-21 2001-08-21 Verfahren zur Kompression von Daten
DE10140993.1 2001-08-21

Publications (2)

Publication Number Publication Date
JP2003179500A true JP2003179500A (ja) 2003-06-27
JP4002155B2 JP4002155B2 (ja) 2007-10-31

Family

ID=7696150

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002240106A Expired - Lifetime JP4002155B2 (ja) 2001-08-21 2002-08-21 データを圧縮する方法

Country Status (6)

Country Link
US (1) US6714147B2 (ja)
EP (1) EP1286471B1 (ja)
JP (1) JP4002155B2 (ja)
AT (1) ATE306146T1 (ja)
CA (1) CA2398955C (ja)
DE (2) DE10140993A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006062142A1 (ja) * 2004-12-07 2006-06-15 Nippon Telegraph And Telephone Corporation 情報圧縮符号化装置、その復号化装置、これらの方法、およびこれらのプログラムとその記録媒体

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7770091B2 (en) * 2006-06-19 2010-08-03 Monro Donald M Data compression for use in communication systems
US7511639B2 (en) * 2007-07-12 2009-03-31 Monro Donald M Data compression for communication between two or more components in a system
US7737869B2 (en) * 2007-07-12 2010-06-15 Monro Donald M Symbol based data compression
US7511638B2 (en) * 2007-07-12 2009-03-31 Monro Donald M Data compression for communication between two or more components in a system
US7786903B2 (en) * 2008-10-06 2010-08-31 Donald Martin Monro Combinatorial coding/decoding with specified occurrences for electrical computers and digital data processing systems
US7791513B2 (en) * 2008-10-06 2010-09-07 Donald Martin Monro Adaptive combinatorial coding/decoding with specified occurrences for electrical computers and digital data processing systems
US7864086B2 (en) * 2008-10-06 2011-01-04 Donald Martin Monro Mode switched adaptive combinatorial coding/decoding for electrical computers and digital data processing systems
US7786907B2 (en) * 2008-10-06 2010-08-31 Donald Martin Monro Combinatorial coding/decoding with specified occurrences for electrical computers and digital data processing systems
CN117216023B (zh) * 2023-11-07 2024-01-26 陕西长瑞安驰信息技术集团有限公司 一种大规模网络数据存储方法及系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4412301A (en) * 1981-06-08 1983-10-25 Gte Products Corporation Digital data correlator
US5034965A (en) * 1988-11-11 1991-07-23 Matsushita Electric Industrial Co., Ltd. Efficient coding method and its decoding method
JPH03214500A (ja) * 1990-01-18 1991-09-19 Sony Corp メモリ装置
US5617333A (en) * 1993-11-29 1997-04-01 Kokusai Electric Co., Ltd. Method and apparatus for transmission of image data
JP3013698B2 (ja) * 1994-04-20 2000-02-28 松下電器産業株式会社 ベクトル量子化符号化装置と復号化装置
US5627533A (en) * 1994-08-05 1997-05-06 Hayes Microcomputer Products, Inc. Adjusting encoding table size and memory allocation for data compression in response to input data
GB0007782D0 (en) * 2000-03-30 2000-05-17 Sony Uk Ltd Data compression

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006062142A1 (ja) * 2004-12-07 2006-06-15 Nippon Telegraph And Telephone Corporation 情報圧縮符号化装置、その復号化装置、これらの方法、およびこれらのプログラムとその記録媒体
US7667630B2 (en) 2004-12-07 2010-02-23 Nippon Telegraph And Telephone Corporation Information compression-encoding device, its decoding device, method thereof, program thereof, and recording medium storing the program

Also Published As

Publication number Publication date
EP1286471A3 (de) 2004-02-11
JP4002155B2 (ja) 2007-10-31
US20030038739A1 (en) 2003-02-27
EP1286471A2 (de) 2003-02-26
US6714147B2 (en) 2004-03-30
CA2398955A1 (en) 2003-02-21
EP1286471B1 (de) 2005-10-05
DE50204447D1 (de) 2005-11-10
ATE306146T1 (de) 2005-10-15
CA2398955C (en) 2010-04-27
DE10140993A1 (de) 2003-03-20

Similar Documents

Publication Publication Date Title
CN108880556B (zh) 基于lz77的无损数据压缩方法、误码修复方法及编码器和解码器
CN108768403B (zh) 基于lzw的无损数据压缩、解压方法及lzw编码器、解码器
JP3541930B2 (ja) 符号化装置及び復号化装置
CN108702161B (zh) 用于极化编码和解码的系统和方法
Salomon et al. Handbook of data compression
US6694478B1 (en) Low delay channel codes for correcting bursts of lost packets
US7079051B2 (en) In-place differential compression
JP2000513164A (ja) 誤り保護付き可変長コーディング
US20060107169A1 (en) Support of a forward error correction
JP2003179500A (ja) データを圧縮する方法
US7079053B2 (en) Method and system for value-based data compression
Kwon et al. Novel error detection algorithm for LZSS compressed data
JP5913748B2 (ja) セキュアで損失のないデータ圧縮
US20090150743A1 (en) Method and system for constructing and decoding rateless codes with partial information
Al-Hashemi et al. A new lossless image compression technique based on Bose, Chandhuri and Hocquengham (BCH) codes
Kwon et al. Error detection algorithm for Lempel-Ziv-77 compressed data
EP4142229A1 (en) System and method for transition encoding with flexible word-size
Ota et al. On-line electrocardiogram lossless compression using antidictionary codes for a finite alphabet
Wang et al. Repair and restoration of corrupted LZSS files
Wu et al. Error-resilient LZW data compression
US6101281A (en) Method for improving data encoding and decoding efficiency
Coumou et al. Watermark synchronization for feature-based embedding: application to speech
JP2693338B2 (ja) データ圧縮・復元処理における誤り制御処理方式
Baruah et al. Enhancing dictionary based preprocessing for better text compression
KR101568211B1 (ko) 가역 정보 은닉 시스템 및 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050809

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070725

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070816

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100824

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4002155

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110824

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120824

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120824

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130824

Year of fee payment: 6

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term