JP2590287B2 - データ圧縮方法およびデータ圧縮装置 - Google Patents

データ圧縮方法およびデータ圧縮装置

Info

Publication number
JP2590287B2
JP2590287B2 JP2062325A JP6232590A JP2590287B2 JP 2590287 B2 JP2590287 B2 JP 2590287B2 JP 2062325 A JP2062325 A JP 2062325A JP 6232590 A JP6232590 A JP 6232590A JP 2590287 B2 JP2590287 B2 JP 2590287B2
Authority
JP
Japan
Prior art keywords
character
code
character string
dictionary
registered
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2062325A
Other languages
English (en)
Other versions
JPH03262331A (ja
Inventor
泰彦 中野
茂 吉田
佳之 岡田
広隆 千葉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to JP2062325A priority Critical patent/JP2590287B2/ja
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to KR1019910701461A priority patent/KR950013228B1/ko
Priority to DE69133481T priority patent/DE69133481T2/de
Priority to EP98201926A priority patent/EP0871295B1/en
Priority to EP91904319A priority patent/EP0472730B1/en
Priority to EP98201928A priority patent/EP0878915A3/en
Priority to DE69133377T priority patent/DE69133377T2/de
Priority to DE69132187T priority patent/DE69132187D1/de
Priority to PCT/JP1991/000252 priority patent/WO1991013395A1/ja
Priority to EP98201925A priority patent/EP0871294B1/en
Publication of JPH03262331A publication Critical patent/JPH03262331A/ja
Priority to US08/003,876 priority patent/US5254990A/en
Application granted granted Critical
Publication of JP2590287B2 publication Critical patent/JP2590287B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

【発明の詳細な説明】 〔概要〕 入力文字列に対して辞書を参照して文字部分列を順次
に符号化し、異なる文字列毎に異なる登録番号を付与し
て辞書を作成し、現在の文字部分列を符号化済の過去の
文字部分列のうち一致する最大長の文字部分列の複製と
して符号化するデータ圧縮方法において、参照辞書を文
字列の各先頭文字もしくは先頭文字グループ毎に登録文
字列をグループ化した参照辞書単位により構成するとと
もに、登録文字列の登録番号を参照辞書単位毎にツリー
構造で定めた順番で表し、各参照辞書単位に登録されて
いる登録文字列数の統計をとり、参照辞書単位を表す符
号の長さを可変長とし、登録文字数の多い参照辞書単位
程短い符号を付与するように登録文字数に応じて参照辞
書単位に対する符号を定め、入力文字列の符号を参照辞
書単位の符号とその参照辞書単位に登録されている文字
列の登録番号により符号化する構成を持つ。
〔産業上の利用分野〕
本発明は、文字列で構成される入力情報を伝送もしく
は記憶装置に記憶する際、入力される文字列を過去に現
れた文字列の複製として符号化するデータ圧縮方法およ
びデータ圧縮装置に関する。
入力文字列を過去の文字列の複製として符号化するデ
ータ圧縮方式には、ユニバーサル型Ziv−Lempel符号化
方式と増分分解型Ziv−Lempel符号化方式がある。
ユニバーサル型Ziv−Lempel符号化方式は、入力文字
列を符号化する際、過去の入力文字列の任意の位置から
現在の文字列に一致する最大長の文字部分列を区切り
(文字部分列という)、その文字部分列のメモリ上の位
置と文字部分列の長さにより指定してデータ圧縮を行う
方式である。
増分分解型型Ziv−Lempel符号化方式は、過去にコー
ド化された最大長の文字列に新たに出現した一文字を付
加した文字列を符号化して登録し、現在の文字列を過去
に現れた文字部分列の最長文字部分列の複製として符号
化する方式である。
いずれの方式においても、圧縮率を上げるためには、
過去の文字列を記憶する参照辞書の容量を大きくしなけ
ればならない。しかし、辞書を大きくすると、登録され
る文字部分列の数も多くなり、それぞれの文字部分列を
指定するための符号を表わす符号ビットを長くとらなけ
ればならない。
そのため、従来は、参照辞書を大きくする割には、圧
縮率を向上させることができなかった。
本発明は、参照辞書を分割して構成するとともに分割
された辞書を指定する符号を最適化することにより、圧
縮率を向上させたZiv−Lempel符号によるデータ圧縮方
法に関するものである。
〔従来技術〕
従来のユニバーサル型のZiv−Lempel符号(以後ZL符
号と称する)による符号化方式のアルゴリズムについ
て、第10図(a)、(b)により説明する。
図(a)において、91は符号化済の入力文字列か格納
されているPバッファ、92はこれら符号化しようとする
文字列を格納するQバッファである。
図(b)はユニバーサル型ZL符号の形式を示す。
ユニバーサル型ZL符号は、図(a)に示すように、Q
バッファの文字列のうち、Pバッファ中で一致する最大
長の文字部分列を求め、一致した最大長部分列を指定す
るため、その部分列のPバッファ中での位置p1と一致す
る長さq1とを示す符号により、図(b)に93で示すよう
にQバッファ中の文字列を符号化して圧縮する方式であ
る。
次に、第9図(a),(b)により従来の増分分解型
のZL符号によるデータ圧縮方式を説明する。
増分分解型は、ユニバーサル型より圧縮率は低いが計
算は容易である。
図(a)は入力文字列の列として例示的に、x=aaba
babaa・・・とした時の増分分解型ZL符号化方式のアル
ゴリズムを示す。
図(a)において、81は入力文字列、82は圧縮符号、
83は参照辞書に登録する成分である。
増分分解方ZL符号化方式は、過去の符号化済の文字列
のうちから、現在対象としている文字列に一致する最長
のものXjを求め、Xjに文字列の次の一文字シンボルを付
加して符号化するものである。
具体的に、図(a)に従って、その手順を説明する。
入力文字列81を、図示のように X=a ab aba b aa・・・ とし、その分解成分を、X1、X2、X3、X4、X5,・・・と
する。
まず、最初参照辞書には何も書かれていないので、a
を成分X1として登録する. 次の文字aは既登録成分であるので、登録成分に次の
文字bを付加した文字列について既登録成分を参照す
る。
文字列abは未登録であるからabを成分X2として登録す
る。そしてX1にシンボルbを付加したX1bを圧縮符号と
して出力する。
同様に、処理を進めて、次の文字列のうちabが最大長
の文字列X2として登録されているので、X2に次のシンボ
ルbを付加してX2aを圧縮符号として出力し、X2aをX3
して登録する。
上記のように処理を進めて、 入力文字列X=aabababaa・・・ に対して、 X=X0X1X2X3X4X5・・・ に分解し、分解成分をX0=λ(空列), X1=X0a,X2=X1b,X3=X2a、X4=X0b、X5=X1a・・・ として、 X1,X2、X3・・・を参照辞書に登録する。そして、圧縮
符号として aX1 bX2 ab X1 a・・・ を出力する。
図(b)に上記の増分分解型ZL符号の符号語の形式を
示す。
図(b)に示すように、既登録の成分(X1、X2,X3
・・)の参照辞書における位置を示すインデックス符号
85に参照辞書に一致する文字列の次の一文字(a、b・
・・)を付加する形式で圧縮データを表現する。
〔発明が解決しようとする課題〕
ユニバーサル型ZL符号化方式、増分分解型ZL符号化方
式のいずれも、符号化対象が未知でも、学習しながら符
号化してゆく方式であり、そのアルゴリズムは既に登録
されている文字列の位置もしくは登録番号の符号データ
により、現在の文字列を過去の文字列の複製として表わ
すシンプルなものである. しかし、圧縮符号による伝送デークには圧縮できない
生データの外、圧縮符号を表わすためのインデックス等
の一定量の符号語も必要とする。そのため、参照辞書を
大きくし、登録文字列を増やして符号化する文字列長を
できるだけ大きくとれるようにしないと効率が悪くなり
十分に高い圧縮率を得ることができなかった。
しかし、従来の方式では、参照辞書を大きくすると、
登録する文字列の数が増え、それぞれの文字列を識別す
るための符号語の長さを長くとらなければならなくな
り、参照辞書を大きくした分だけの圧縮率の向上が得ら
れなかった。
第8図に示す従来の増分分解型ZL符号によるデータ圧
縮方式のTreeインデックスの生成方法により従来技術の
問題点を説明する。
図は増分分解型ZL符号方式により得られる文字列の各
成分をTree状に階層構造に表わしたものである(第8図
は辞書全体の一部を表わしたものであり、初期ノードa
以外に初期ノードしてb,cが存在する)。そして各成分
の参照辞書の登録番号をTreeの各節に付してある。
例として、第9図において用いた入力文字列aabababa
a・・・について、Treeインデックスを生成する場合に
ついて説明する。
まず、成分X1=aを登録番号0で登録する。
次に現れる成分X2=abを登録番号0から派生した成分
であるので、登録番号0の下位の成分として登録番号1
とする。次に現れる成分X3=abaは成分X2=abから派生
した成分であるので、登録番号1の下位の成分として登
録番号2で登録する。
以上の手続きを続けて、入力文字列全体を成分に分解
し、Treeインデックスを作成する。
登録番号は,出現した順番につけられる。
このような処理を全入力文字列について行うと、Tree
の各節は膨大な数になり、それぞれのインデックスを表
わす符号ピット数も大きく取らなければ各成分を識別出
来なくなる。
そのため、電送データのうち、圧縮符号を表わす符号
語のビット数の占める割合も大きくなり、辞書を大きく
するわりには圧縮率を向上できないという問題があっ
た。なお、第8図では図示されていないが、従来のイン
デックスツリーは初期ノードb、初期ノードcに対して
も出現順に辞書全体の連続番号によるインデックスで表
わされるものである(例えば、第8図のツリー構造にお
いて、次にbが出現したらbをインデックス36で表わ
す)。
本発明は、ZL符号化方式において、参照辞書を大きく
しても、圧縮率を妨げないデータ圧縮方法を得ることを
目的とする。
〔課題を解決するための手段〕
本発明は、ZL符号化方式において、参照辞書を複数の
参照辞書単位により分割し、符号語を参照辞書単位の番
号と参照辞書単位における登録位置を示すインデックス
により表わすようにした。
この場合、参照辞書単位を表わす符号の分だけ従来の
方式より符号が増えるが、参照辞書単位を表わす符号
は、可変長として、使用頻度の高い参照辞書単位の符号
は短いピット数により表わし、使用頻度の少ない参照辞
書は長ビット数で表わすようにした。
このようにして、符号語の長さの増加を抑え、参照辞
書を大きくするのに見合っただけの十分な圧縮率の向上
が得られるようにした。
第1図により本発明の基本構成を示す。
図において、1は入力文字列、2は入力文字列を一時
格納する入力バッファ、3は符号化手段てあって、入力
データを参照辞書に照合する参照辞書照合手段10、符号
語作成手段10′文字列を参照辞書に登録する参照辞書登
録手段11、参照辞書単位の最適符号を定める最適符号変
換手段12、参照辞書単位ごとに登録文字数をカウントす
る登録文字列数カウント手段13、もしくは遷移回数カウ
ント手段13、参照辞書単位の最適符号を設定する最適符
号設定手段14とよりなるもの、4は参照辞書単位を表わ
す符号を最適値に設定する前に仮に定める参照辞書単位
の仮符号設定手段、5は複数の参照辞書単位より構成さ
れる参照辞書(図は例示的に16グループの参照辞書単位
で構成した場合を示す)で、例えば、参照辞書単位1は
文字列の先頭文字がaよりなるもの、参照辞書単位2は
文字列の先頭文字かbよりなるもの等の異なる文字グル
ープについて文字列に対応させて文字列の符号語を登録
してあるもの、6は圧縮された入力文字列の符号を出力
する圧縮符号出力手段、10は参照辞書照合手段、10′は
参照辞書にある成分の符号語に基づいて符号語を作成す
る符号語作成手段、11は参照辞書登録手段、12は参照辞
書の仮符号により作成されたインデックスを参照辞書の
最適符号へ変換処理する最適符号変換手段、13は登録文
字列数カウント手段、14は参照辞書の最適符号設定手
段、16は増分分解型のZL符号化方式における例、17は符
号語形式で、参照辞書単位の符号18と参照辞書単位の登
録位置を示すインデックス19よりなるもの、20は参照辞
書単位の仮符号による符号語の形式の例、21は参照辞書
単位の番号を最適値に変換した後の符号語の例である。
なお、遷移回数カウント手段13は、参照辞書単位に対
して直前の文字列の最終文字もしくは最終文字グループ
に続いて使用される頻度に応じて参照辞書単位の符号を
定める場合にその頻度の統計をとるものである。
〔作用〕
第1図の基本構成の動作は次の通りである。
まず、入力文字列1は入力バッファ2に格納され、参
照辞書照合手段10により、文字列を参照辞書単位1〜16
を参照して過去に登録された文字列のうちから最大長の
文字列を選択する。
そして、符号語作成手段10′は選択した文字列の参照
辞書単位の番号と選択した文字列の参照辞書単位での登
録位置を示すインデックスよりなる符号語形式17を作成
する。その際、1回に送信する入力文字列の全ての文字
について圧縮処理が終わるまでは、参照辞書単位の識別
符号は仮符号設定手段4の設定した仮の符号を設定して
おく。
そこで、参照辞書登録手段11は選択された過去に登録
された最大文字列に一致する入力文字部分列に次の一文
字を付加した文字列を新たな文字列成分として参照辞書
単位に登録する。
ここで、登録文字列数カウント手段13は、各参照辞書
に文字列が登録される度に登録文字列数をカウントす
る。もしくは参照番号13が遷移回数カウント手段の場合
には遷移数カウント手段13は任意の文字列の一つ前の文
字列の最終文字、もしくは最終文字を含む文字グループ
から続く文字列の属する参照辞書単位へ遷移する回数を
各参照辞書単位ごとにカウントする。
1回に送信する全入力文字については圧縮処理がなさ
れると、最適符号設定手段14は各参照辞書単位に登録さ
れている登録文字列数を求め登録文字列数の多い参照辞
書単位には短い符号を付与するようにする。もしくは、
参照辞書間の上記遷移回数より遷移確率を求め、遷移確
率が高い参照辞書単位に付する符号語は遷移確率の低い
符号語より短い符号を設定するようにする。
上記のように求めた最適符号により、最適符号変換手
段12は参照辞書単位の仮符号を最適符号に変換する。
図において、16は増分分解型のZL符号化方式のアルゴ
リズムであるが、第9図において説明したものと同じで
あるので説明は省略する。
20は、参照辞書単位の仮符号により表わした符号語の
例である。
21は符号語20を参照辞書単位の最適符号に変換した例
を示す。
第2図に、本発明の圧縮符号生成手段のフローを示
す。
図において、ωは登録文字列であり、Kは入力文字列
のうちの参照辞書の登録文字列ωに一致する部分の次の
文字シンボルを表わす。
図示の番号に従ってフローを説明する。
参照辞書を初期化する。
参照辞書単位に、例えば、均等に仮符号を付与す
る。
続く処理は入力文字列の先頭文字を処理する場合と第
2文字目以降の場合とで、分けてフローを説明する。
(I) 入力文字列の先頭文字を読み取る処理 入力文字の先頭文字を読み取る。
読み取った文字の次に文字かあるかないかを判断
し、あれば、その文字を読み取る。
次ににおいて無しに進む場合は、全入力文字を読み
取って圧縮処理を終了した場合であるから、一文字のみ
を伝送する場合をのぞいて、通常はに進む。
入力文字列の先頭文字を読み取るステップでは当然
辞書に書き込みはないのでに進む。
参照辞書に登録文字列(いまの場合は入力文字列の
先頭文字)を対応させて、符号を登録する。
文字列を登録した文字列数あるいは1つ前の文字列
の最終文字の属する参照辞書単位からの回数をカウント
するため、登録数を十1する。
そこで、に戻って、次の文字を読み取り、を繰り
返す。
(II) 入力文字列の第2番目の文字以降の処理 次の文字Kを読み取る。
で文字がない場合は、伝送する文書の最終文字まで、
全て処理した場合である。
で読み取った文字があれば、に進む。
文字列ωKがなければ、、を再度行って、に
帰る。
でωKが辞書にある場合は、その文字列は登録済
であるので、文字列を参照辞書に照合するためのバッフ
ァのωKをωに置き換える。
そこで、再びに戻って次の文字を読み取り、同様の
処理を繰り返す。
で読み取る文字がなくなれば、全ての文字の処理を終
えたので、に進む。
各参照辞書単位に登録されている文字列数もしくは
参照辞書単位問の遷移数を数える。
参照辞書単位に登録されている文字列数もしくは参
照辞書単位間の遷移数を考慮して、参照辞書単位の最適
符号を設定する。
符号語に付されている参照辞書単位を表わす仮符号
を最適符号に変換処理する。
圧縮符号を出力する。
上記のように、本発明によれば、大きい参照辞書を用
いても、辞書を参照辞書単位に分割するとともに、登録
文字列の登録番号(インデックス)を参照辞書単位毎に
登録順に付与するようにしたので辞書全体の登録文字列
数が多くなっても登録番号を短い登録番号で登録するこ
とができる。また、参照辞書単位を指定する符号ができ
るだけ短くなるように登録文字数により最適化したた
め、登録文字列のインデックスを短い符号で表現でき、
効率的に符号化することができる。
辞書を分割したことによる符号語の構成が増加する
が、文字列の登録番号が短くなることと参照辞書単位を
表わす符号を可変長符号として最適化することにより、
全入力文字列の圧縮符号における符号語の占める割合を
少なくすることができる。
そのため、本発明によれば、辞書を大きくすることに
よる、インデックスの符号が長くなり、圧縮率が低下す
ることがなく、辞書を大きくするに見合っただけの十分
なデータ圧縮を行うことができる。
〔実施例1〕 第3図、第4図により、本発明の第1の実施例を説明
する。
第3図は、本発明における参照辞書単位の最適符号の
設定方法の第1実施例(1)である。
図(a)は参照辞書単位が3つの場合の登録成分のイ
ンデックスの割り振りの例を示す。
例えば、文字列がa,b,cのみより成るような場合、T1
は先頭文字がaよりなる文字列のグループ、T2は先頭文
字がbよりなるグループ、T3は先頭文字がcよりなる文
字グループとして、参照辞書単位1のルートノード
(根)はa,参照辞書単位2のルートノードはb,参照辞書
単位cのルートノードはcとなるように参照辞書単位を
構成する。
また、登録文字列のインデックス(登録番号)は各節
に対応させてインデックスを割り振るのではなく、それ
ぞれの参照辞書単位において,それぞれの参照辞書単位
のルートノードを元にして連続番号により付与する。
そして、文字列を表わす符号語は図(b)に示すよう
に、参照辞書単位の番号を表わすTree番号24と登録位置
を示すインデックス22により構成する。
例えば、図示のように、参照辞書単位3(T3)の登録
位置8の文字列は図示の例23のように参照辞書単位の番
号T3と登録位置に8を付すことにより表わす。
第1実施例(1)では、参照辞書単位の番号を表わす
符号(Treeの番号)を図(c)に例示するように、登録
文字列数の多いTree(節点数の多いTree)は、例えば、
節点数20のT1には短い符号「0」を付し、登録文字数の
少ないT2,T3には長い符号「10」,「01」等を付すよう
にする。
第4図は、第1実施例(2)であって,本発明の第1
実施例(1)の最適符号を適用した圧縮符号の例を示
す。
図(a)は、入力文字列aabababaaba・・・を増分分
解型ZL符号化方式に変換する方式の説明図であって、第
9図において、説明した方式と同じであるので説明は省
略する。
図(b)は、参照辞書単位の番号を仮符号「000」、
「001」により表した場合の入力文字列31を圧縮した場
合の圧縮符号を表わす。
図(c)は、参照辞書単位の仮符号を、最適符号に変
換した入力文字列31の圧縮符号を示す。
本発明の第1実施例は、登録文字数の多い辞書を表す
符号はできるだけ短い符号により最適化し、仮符号を最
適符号におきかえることにより符号語をできるだけ短く
する。
〔実施例2〕 第5図〜第7図により本発明の第2実施例を説明す
る。
第5図(a)は、連続する文字列の成分における最終
文字から先頭文字への遷移を説明する図である。
図において、51は現登録文字列を基準にして、1つの
前の登録文字列、52は登録文字列、53は次の登録文字
列、54は1つ前の登録文字列51の最終文字、55は現登録
文字の先頭文字、56は現登録文字の最終文字、57は次の
登録文字の先頭文字である。
本実施例では、参照辞書単位、即ち、第3図における
Treeの根を16個にし、連続する文字列における前の文字
列の最終文字から後の文字列の先頭文字への遷移を考
え、それぞれの文字が属するTree間の遷移の確率を測定
することにより、遷移確率が高い場合には短い符号を設
定し、低い場合には長い符号を選定し、その頻度を表わ
す遷移コードとインデックスとともに符号語として付す
ものである。
第5図(b)は、1つ前の登録文字列の最終文字の属
するグループナンバー(16個,第3図におけるTree)か
ら現登録文字の先頭文字の属するグループナンバーへの
遷移回数の測定値を表わす。最終文字のグループは参照
辞書単位である必要はないが、以下、直前の参照辞書単
位として説明する。
表の各数字は出現回数である。例えば、グループナン
バー4からグループナンバー6への遷移は83回生じたこ
とを表わす。
第6図は第5図(b)における測定値を遷移回数の順
位に書き直したデータを示す。
表は、1個前の登録文字の最終文字の属するグループ
ナンバーから、現登録文字の先頭文字の属するグルプー
ナンバーへの遷移を任意の1個前のグループナンバーに
ついて順位付けしたものである。
数字0は遷移回数が一番多かったことを示し、16進数
のFは遷移回数の一番少なかったことを表わす。
例えば、1つ前の登録文字列のグループナンバー4か
ら現登録文字列のグループナンバー6へ遷移する順位
は、1個前のグループナンバー4から現登録文字列のグ
ループナンバーへ遷移するあらゆる場合のうちで2番目
に多い順位であることを示す。
第7図(a)、(b)、(c)は、第5図の結果によ
り、参照辞書単位(第6図におけるグループナンバー)
に付す最適符号を設定する方法の実施例を示す。
図(a)は登録文字グループナンバー間での遷移の順
位により符号語に付すための符号の例を示す。
出現頻度の高い場合には短い符号を付し、反対に、出
現頻度の低い場合には長い符号を付す。
いま、図(b)に示すように現登録文字列のグループ
ナンバーが6(T1に対応する)で、そのインデックス12
5の文字列を符号化する場合を考える。
そして、前登録文字列のグループナンバーが0とす
る。
この場合、第6図の表により、頻度は10であるから、
直前文字列をもとに現文字列の参照辞書単位を指定する
遷移コードを第7図(a)よりその最適符号として頻度
10の参照辞書単位の符号1110101を付す。
遷移コードを復号するときは、第6図の文字グループ
間での遷移回数の順位データをもとに遷移コード111010
1が頻度10であり直前のグループナンバーが0であるこ
とから現文字列の参照辞書単位が6であることを判定す
る。
第7図(b)にその符号語を示す。
本実施例では、符号語を解釈するために、1つ前の文
字列の最終文字の属する参照辞書単位を必要とするが、
出力されている圧縮符号列に1つ前の文字列の最終文字
が送られているので、それにより現文字列のグループナ
ンバーを識別することが可能である。
〔発明の効果〕
本発明によれば、参照辞書を大きくとっても、符号語
が長くなることがなく、参照辞書を大きくした分に見合
った十分な圧縮率の向上が計れる。特に、増分分解型ZL
符号圧縮方式においても、従来のユニバーサル型ZL符号
圧縮方式より高い圧縮率が得られる。
【図面の簡単な説明】
第1図は、本発明の基本構成を示す図である。 第2図は、本発明の圧縮符号生成手段のフローを示す図
である。 第3図は、本発明の第1実施例(1)を示す図である。 第4図は、本発明の第1実施例(2)を示す図である。 第5図は、本発明の第2実施例(1)を示す図である。 第6図は、本発明の第2実施例(2)を示す図である。 第7図は、本発明の第2実施例(3)を示す図である。 第8図は、従来の増分分解型ZL符号によるデータ圧縮方
式のTreeインデックスの生成方法を示す図である。 第9図は、従来の増分分解型ZL符号によるデータ圧縮方
式の説明図である。 第10図は、従来のユニバーサル型ZL符号によるデータ圧
縮方式の説明図である。 図において、 1:入力文字列、 2:入力バッファ、 3:符号化手段、 4:参照辞書単位の仮符号設定手段、 5:参照辞書、 6:圧縮符号出力手段、 10:参照辞書照合手段、 10′:符号語作成手段、 11:参照辞書登録手段、 12:最適符号変換手段、 13:登録文字列数カウント手段、 14:最適符号設定手段、 16:ZL符号化方式の例、 17:符号語形式、 20:仮符号による符号語の形式の例 21:最適値に変換後の符号語の例
───────────────────────────────────────────────────── フロントページの続き (72)発明者 千葉 広隆 神奈川県川崎市中原区上小田中1015番地 富士通株式会社内 (56)参考文献 米国特許4876541(US,A) The Australian Co mputer Journal,Vo l.19,No.2,May 1987,”A Linear Algorithm for Data Compressi on”.,P.64−68

Claims (4)

    (57)【特許請求の範囲】
  1. 【請求項1】入力文字列に対して辞書を参照して文字部
    分列を順次に符号化し、 異なる文字列毎に異なる登録番号を付与して辞書を作成
    し、 現在の文字部分列を符号化済の過去の文字部分列のうち
    一致する最大長の文字部分列の複製として符号化するデ
    ータ圧縮方法において、 参照辞書を文字列の各先頭文字もしくは先頭文字グルー
    プ毎に登録文字列をグループ化した参照辞書単位により
    構成するとともに、登録文字列の登録番号を参照辞書単
    位毎にツリー構造で定めた順番で表し、 各参照辞書単位に登録されている登録文字列数の統計を
    とり、 参照辞書単位を表す符号の長さを可変長とし、登録文字
    数の多い参照辞書単位程短い符号を付与するように登録
    文字数に応じて参照辞書単位に対する符号を定め、 入力文字列の符号を参照辞書単位の符号とその参照辞書
    単位に登録されている文字列の登録番号により符号化す
    ることを特徴とするデータ圧縮方法。
  2. 【請求項2】入力文字列に対して辞書を参照して文字部
    分列を順次に符号化し、 異なる文字列毎に異なる登録番号を付与して辞書を作成
    し、 現在の文字部分列を符号化済の過去の文字部分列のうち
    一致する最大長の文字部分列の複製として符号化するデ
    ータ圧縮方法において、 参照辞書を文字列の各先頭文字もしくは先頭文字グルー
    プ毎に登録文字列をグループ化した参照辞書単位により
    構成するとともに登録文字列の登録番号を参照辞書単位
    毎にツリー構造で定めた順番で表し、 文字列の符号化において、直前の文字列の最終文字を記
    憶し、直前の文字列の最終文字もしくは最終文字グルー
    プ毎に続く参照辞書単位が使用される頻度の統計をと
    り、参照辞書単位を表す符号の長さを可変長とし、直前
    の文字列の最終文字に続く頻度の多い参照辞書単位程短
    い符号長とするように直前の文字列の最終文字に続く頻
    度に応じて参照辞書単位に符号を付与し、 入力文字列の符号は参照辞書単位の符号とその登録番号
    により構成することを特徴とするデータ圧縮方法。
  3. 【請求項3】入力文字列に対して辞書を参照し文字部分
    列を順次符号化する符号化手段と、 異なる文字列毎に異なる登録番号を付与して辞書を作成
    する辞書作成手段と、 文字列に対応する登録番号を備える辞書と、 前記辞書を参照する辞書参照手段を備え、現在の文字部
    分列を符号化済の過去の文字部分列のうち一致する最大
    長の文字部分列の複製として符号化するデータ圧縮装置
    において、 文字列の各先頭文字もしくは先頭文字グループ毎に登録
    文字列をグループ化した参照辞書単位により構成すると
    ともに、登録文字列の登録番号を参照辞書単位毎にツリ
    ー構造で定めた順番に表された参照辞書と、 参照辞書単位に登録されている登録文字列数の統計をと
    る登録文字列数カウント手段と、 登録文字列数に基づいて参照辞書単位を表す符号を、そ
    の符号の長さを可変長として登録文字数の多い参照辞書
    単位ほど短い符号が付与されるように登録文字数に応じ
    て参照辞書単位に対する符号を最適化する最適符号設定
    手段を備え、 入力文字列の符号を参照辞書単位の符号とその参照辞書
    単位に登録されている文字列の登録番号により符号化す
    ることを特徴とするデータ圧縮装置。
  4. 【請求項4】入力文字列に対して辞書を参照し文字部分
    列を順次符号化する符号化手段と、異なる文字列毎に異
    なる登録番号を付与して辞書を作成する辞書作成手段
    と、 文字列に対応する登録番号を備える辞書と、 前記辞書を参照する辞書参照手段を備え、現在の文字部
    分列を符号化済の過去の文字部分列のうち一致する最大
    長の文字部分列の複製として符号化するデータ圧縮装置
    において、 文字列の各先頭文字もしくは先頭文字グループ毎に登録
    文字列をグループ化した参照辞書単位により構成すると
    ともに登録文字列の登録番号を参照辞書単位毎にツリー
    構造で定めた順番に表された参照辞書と、 直前の文字列の最終文字もしくは最終文字グループ毎に
    続く参照辞書単位が使用される頻度の統計をとる遷移数
    カウント手段と、 文字列の符号化において、直前の文字列の最終文字を記
    憶し、直前の文字列の最終文字に続く頻度の多い参照辞
    書単位程短い符号長とするように参照辞書単位に対する
    符号を最適化する最適符号設定手段とを備え、 入力文字列の符号を参照辞書単位の符号とその参照辞書
    単位に登録されている文字列の登録番号により符号化す
    ることを特徴とするデータ圧縮装置。
JP2062325A 1990-02-26 1990-03-13 データ圧縮方法およびデータ圧縮装置 Expired - Lifetime JP2590287B2 (ja)

Priority Applications (11)

Application Number Priority Date Filing Date Title
JP2062325A JP2590287B2 (ja) 1990-03-13 1990-03-13 データ圧縮方法およびデータ圧縮装置
PCT/JP1991/000252 WO1991013395A1 (en) 1990-02-26 1991-02-26 Data compression and restoration method and device therefor
EP98201926A EP0871295B1 (en) 1990-02-26 1991-02-26 Method and apparatus for compression and decompression of data
EP91904319A EP0472730B1 (en) 1990-02-26 1991-02-26 Data compression and restoration method and device therefor
EP98201928A EP0878915A3 (en) 1990-02-26 1991-02-26 Method and apparatus for compression and decompression of data
DE69133377T DE69133377T2 (de) 1990-02-26 1991-02-26 Verfahren und Vorrichtung zur Komprimierung und Dekomprimierung von Daten
KR1019910701461A KR950013228B1 (ko) 1990-02-26 1991-02-26 데이타 압축과 복원방법 및 그 장치
DE69133481T DE69133481T2 (de) 1990-02-26 1991-02-26 Verfahren und Vorrichtung zur Kompression und Dekompression von Daten
EP98201925A EP0871294B1 (en) 1990-02-26 1991-02-26 Method and apparatus for compression and decompression of data
DE69132187T DE69132187D1 (de) 1990-02-26 1991-02-26 Verfahren zur komprimierung und wiederherstellung von daten und gerät dazu
US08/003,876 US5254990A (en) 1990-02-26 1993-01-11 Method and apparatus for compression and decompression of data

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2062325A JP2590287B2 (ja) 1990-03-13 1990-03-13 データ圧縮方法およびデータ圧縮装置

Publications (2)

Publication Number Publication Date
JPH03262331A JPH03262331A (ja) 1991-11-22
JP2590287B2 true JP2590287B2 (ja) 1997-03-12

Family

ID=13196871

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2062325A Expired - Lifetime JP2590287B2 (ja) 1990-02-26 1990-03-13 データ圧縮方法およびデータ圧縮装置

Country Status (1)

Country Link
JP (1) JP2590287B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2774350B2 (ja) * 1990-03-20 1998-07-09 富士通株式会社 データ圧縮方法および圧縮データのデータ復元方法
JP2825960B2 (ja) * 1990-10-15 1998-11-18 富士通株式会社 データ圧縮方法及び復元方法
JP5966673B2 (ja) 2012-06-28 2016-08-10 富士通株式会社 符号処理のためのプログラム及びデータ構造
CN117978178B (zh) * 2024-03-29 2024-06-14 陕西尤爱倍特乳业有限公司 一种乳制品生产用交互系统及方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4876541A (en) 1987-10-15 1989-10-24 Data Compression Corporation Stem for dynamically compressing and decompressing electronic data

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4876541A (en) 1987-10-15 1989-10-24 Data Compression Corporation Stem for dynamically compressing and decompressing electronic data

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
The Australian Computer Journal,Vol.19,No.2,May 1987,"A Linear Algorithm for Data Compression".,P.64−68

Also Published As

Publication number Publication date
JPH03262331A (ja) 1991-11-22

Similar Documents

Publication Publication Date Title
EP0695040B1 (en) Data compressing method and data decompressing method
US7190287B2 (en) Method of generating Huffman code length information
US6982661B2 (en) Method of performing huffman decoding
JPH0779262B2 (ja) 圧縮データの符号化方法
JPH0779263B2 (ja) データ圧縮方法
JP3241788B2 (ja) データ圧縮方式
JPS61242122A (ja) 文字データ・ストリームの適応的圧縮方法
JPH08167852A (ja) データ圧縮方法及び装置
JP2590287B2 (ja) データ圧縮方法およびデータ圧縮装置
JPH0779265B2 (ja) 圧縮データの復号方法
JPH03204234A (ja) 圧縮データ復元方法
JP3350118B2 (ja) データ符号化方式及びデータ復元方式
JP3241787B2 (ja) データ圧縮方式
JP2774350B2 (ja) データ圧縮方法および圧縮データのデータ復元方法
van Zanten Index system and separability of constant weight Gray codes
WO1991013395A1 (en) Data compression and restoration method and device therefor
JPH0554077A (ja) 単語辞書検索装置
JP2823917B2 (ja) データ圧縮方式
Zia et al. Two-level dictionary-based text compression scheme
JP3100206B2 (ja) データ圧縮方法
JP3051501B2 (ja) データ圧縮方法
JPH1155125A (ja) 文字データの圧縮・復元方法
JPH07221652A (ja) データ圧縮方法
JP2825960B2 (ja) データ圧縮方法及び復元方法
Rababa’a An adaptive bit-level text compression scheme based on the HCDC algorithm