JPH09162748A - データ符号化方法、データ復号方法、データ圧縮装置、データ復元装置、及びデータ圧縮・復元システム - Google Patents

データ符号化方法、データ復号方法、データ圧縮装置、データ復元装置、及びデータ圧縮・復元システム

Info

Publication number
JPH09162748A
JPH09162748A JP7314525A JP31452595A JPH09162748A JP H09162748 A JPH09162748 A JP H09162748A JP 7314525 A JP7314525 A JP 7314525A JP 31452595 A JP31452595 A JP 31452595A JP H09162748 A JPH09162748 A JP H09162748A
Authority
JP
Japan
Prior art keywords
data
code
unit
context
continuous
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7314525A
Other languages
English (en)
Inventor
Kimitaka Murashita
君孝 村下
Yoshiyuki Okada
佳之 岡田
Shigeru Yoshida
茂 吉田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP7314525A priority Critical patent/JPH09162748A/ja
Priority to US08/732,054 priority patent/US5844508A/en
Publication of JPH09162748A publication Critical patent/JPH09162748A/ja
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/46Conversion to or from run-length codes, i.e. by representing the number of consecutive digits, or groups of digits, of the same kind by a code word and a digit indicative of that kind
    • H03M7/48Conversion to or from run-length codes, i.e. by representing the number of consecutive digits, or groups of digits, of the same kind by a code word and a digit indicative of that kind alternating with other codes during the code conversion process, e.g. run-length coding being performed only as long as sufficientlylong runs of digits of the same kind are present

Abstract

(57)【要約】 【課題】 本発明の課題は、同一データが連続して出現
した場合の最大圧縮率を、符号木を用いた単一の符号化
方式だけで符号化する場合の最大圧縮率よりも上げるこ
とが可能なデータ符号化方法、データ圧縮装置及びデー
タ圧縮・復元システムを提供することと、このデータ符
号化方法、データ圧縮装置及びデータ圧縮・復元システ
ムから出力される符号からデータを復元できるデータ復
号方法、データ復元装置及びデータ圧縮・復元システム
を提供することである。 【解決手段】 データ符号化方法は、同じデータが所定
数以上連続して現れた場合に、それ以後に続く同一デー
タの連続出現数を符号化し、同じデータが所定数以上連
続して現れない場合に、入力データに対してデータの出
現頻度に応じた符号を出力するように構成した。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、データ符号化方
法、データ復号方法、データ圧縮装置、データ復元装置
及びデータ圧縮・復元システムに関し、特に、コンピュ
ータにおいてデータを格納又は送信する場合等におい
て、データを圧縮するとともにデータ使用時において復
元するためのデータ符号化方法、データ復号方法、デー
タ圧縮装置、データ復元装置及びデータ圧縮・復元シス
テムに関する。
【0002】
【従来の技術】近年、文字コード、画像データ等の様々
な種類のデータがコンピュータで扱われるようになり、
取り扱われるデータ量も増大している。そのような大量
のデータは、データ中の冗長な部分を省くことにより、
圧縮することが可能である。このようにデータの圧縮を
行うことにより、ディスク容量を見かけ上大きくした
り、遠隔地への伝送時間を短縮(送るデータ量が減るこ
とによる)することができる。
【0003】上記した様々な種類のデータを1つの方式
で圧縮できる方法として、ユニバーサル符号化による圧
縮方式がある。以下に、ユニバーサル符号化によるデー
タ圧縮方式の説明を行う。なお、上述のように、ユニバ
ーサル符号化はあらゆる種類のデータに適用できるが、
以下の説明では、文字コードの符号化を例にとって説明
を行う。また、情報理論に基づき、説明文中において、
データの1ワード単位を「文字」と呼び、任意の文字が
繋がったものを「文字列」と呼ぶ。
【0004】ユニバーサル符号化方式には大きく分けて
次の2種類がある。データ系列の類似性を利用した辞書
型符号化方式と、データ列の出現頻度を利用した確率統
計型符号化方式である。本発明は、後者、確率統計型符
号化方式に関するものである。
【0005】確率統計型符号化方式の中の代表的な方式
の一つにハフマン符号化方式がある。このハフマン符号
化方式は、情報源の文字の出現頻度が判っており且つ一
文字単位で符号化する方式では、最も圧縮効果の高い方
式である。この方式は、「節点」と各節点を結ぶ「枝」
からなる木構造で表現する符号表(以下、符号木と称す
る)を用いる。
【0006】木の各部の名称を、図14を参照して説明
する。まず、一番上にある節点を「根」と呼ぶ。図14
の例では、節点1が根となる。ある節点(仮に“X”と
する)に枝で接続されている下の節点(仮に“Y”とす
る)を、「節点Xの子」と呼び、逆に点Xを、「節点Y
の親」と呼ぶ。例えば、節点6の子は節点8と節点9で
あり、節点6の親は節点3である。また、親の親、その
また親などを「先祖」と呼び、子の子、そのまた子など
を「子孫」と呼ぶ。例えば、節点5の先祖は節点1のみ
であり、節点3の子孫は節点8と節点9である。さら
に、二つの節点の親が同一の節点である時、これらの節
点を「兄弟」と呼ぶ。子を持たない節点のことを「葉」
と呼ぶ。また、葉でない節点のことを「内部節点」と呼
ぶ。このような符号木においては、符号木の各葉に文字
を割り当てている。そして、各枝は、必ず一つの節点か
ら二つに分岐しているので、各々に"0"又は"1"の符号
が与えられる。従って、各葉に割り当てられた文字に
は、根からその葉までの経路をなす各枝に付された符号
の列が、1対1で対応する。従って、ある文字を符号化
する場合には、根からこの文字に対応した葉までの経路
(枝)を辿ることにより、一義的に、特定の2進数で表
された符号に変換することができる。
【0007】このような符号木を作成するためのハフマ
ン符号化の原理を、図15を参照して説明する。ハフマ
ン符号化においては、最初に、出現した各文字(以下、
「シンボル」と称する)に対応する葉を作り、それぞれ
の葉には、そのシンボルの生起確率または出現頻度を書
いておく。なお、この葉は、右から左に向けて出現頻度
(出現確率)が高くなるように並べられる。
【0008】そして、生起確率の最も低い(最も出現頻
度の少ない)2つの葉を子とする親の節点を新しく一つ
作る。この新しい節点(親)には、2つの葉(子)の生
起確率の和を書き込む。また、この新しい節点(親)と
2つの葉(子)との間を、2本の枝で結ぶ。この2本の
枝のうち、右側のものには“1”の値を付与し、左側の
ものには“0”の値を付与する。
【0009】次に、残りの葉と新しい節点とを比較し、
それらのうちで最も生起確率の低い2つを選び、それら
2つの節点又は葉を子とする親の節点を新しく一つ作
る。また、この新しい節点(親)と2つの子との間を、
2本の枝で結ぶ。以上の作業を、根が生成されて全体が
1つの木になるまで続ける。最終的に得られた符号木に
おいて、根から葉までたどった経路がその葉に対応する
符号語になる。上述したように、各枝には“0”又は
“1”の符号が付与されているので、各分岐点において
経路を左に分岐した時には“0”が、また、右に分岐し
た時には“1”が割り当てられて、一連の符号語を表す
ことになる。図15の符号木を作成することによって得
られるシンボルと符号語との関係を、図16の表に示
す。
【0010】このようなハフマン符号化方式(確率統計
型符号化方式)は、さらに、予め各シンボルの生起確率
が求まっている静的符号化方式(static)、最初に全文字
列を走査して各シンボルの生起確率を得る準適応型符号
化方式(semi-adaptive) 、及び、シンボルが出現する毎
に頻度をとり生起確率を再計算する適応型符号化方式(a
daptive)に分類される。本発明は、データ形式に依存せ
ず、1パスで符号化が行える適応型符号化方式に関する
ものである。
【0011】この適応型符号化方式において、各シンボ
ルの出現頻度が変化するたびに、木の構造及び符号が更
新されてゆく様子を図17に例示する。図17(a)
は、初期段階において作成される符号木を示している。
図17において、丸の節点は内部節点を意味し、正方形
の節点は葉を示す。また、各節点を示す丸又は正方形の
内側に記された数字は、節点番号(順位)を示してい
る。また、各節点の右肩に付された数字は、各節点に登
録された生起頻度である。また、葉の下に示されたアル
ファベットは、登録されたシンボルを示している。従っ
て、図17(a)の段階では、シンボル“a”〜“g”
の生起頻度は、それぞれ、“7”、“6”、“5”、
“5”、“3”、“2”、“1”となっている。
【0012】この状態からシンボル“g”が表れると、
図17(b)に示すように、この符号木による符号化が
行われた後に、節点15の生起頻度が“2”に増加され
る。これにより、親の節点13及び先祖の節点9,2,
0の頻度も、それぞれ、1つインクリメントされる。増
加された結果、節点13の頻度“4”が隣の節点12の
頻度“3”と比較して大きくなるので、節点12と節点
13の入れ替えが行われる。同様に、その親の節点9と
節点8とを入れ替える(図17(c)参照)。また、そ
の親の節点2と節点1とは頻度が逆転していないので、
それらの入れ替えは行わない。従って、一つのシンボル
“g”の生起によって、符号木の形態は、最終的に図1
7(d)に示す状態にまで変化する。
【0013】図18乃至図25は、シンボルが次々に生
起された場合における符号木の変化を示している。初期
状態において各シンボルの生起頻度が図19に示す通り
であるとすると、符号木の状態は図18に示すようにな
る。この符号木によれば、図19に示すように、“a”
及び“b”は2ビットに圧縮でき、“c”、“d”及び
“g”は3ビットに圧縮でき、“e”及び“f”は4ビ
ットに圧縮できる。図18及び図19の状態から、シン
ボル“a”が18回生起してその生起頻度が“25”に
なると、符号木の状態は図20に示すようになる。この
符号木によれば、図21に示すように、“a”は1ビッ
トに圧縮でき、“b”、“c”、“d”は3ビットに圧
縮でき、“g”は4ビットに圧縮でき、“e”及び
“f”は5ビットに圧縮できる。この状態から、シンボ
ル“g”が16回生起してその生起頻度が“20”にな
ると、符号木の状態は図22に示すようになり、各シン
ボルの圧縮量は、図23に示すようになる。この状態か
ら、シンボル“c”が5回生起してその生起頻度が“1
0”になると、符号木の状態は図24に示すようにな
り、各シンボルの圧縮量は、図25に示すようになる。
【0014】このように、適応型符号化方式によると、
シンボルの生起頻度が増すにつれて、当該シンボルに対
応する符号語の長さが短くなる。即ち、圧縮効果が上が
る。なお、このように符号木の構成が次第に変化する
と、データの初めと終わりとでは、同じシンボルに対応
する符号語が別のものとなってしまう。しかしながら、
データの復元側は圧縮側と同じ符号木を作成していると
ともに、データの圧縮側は、生起されたシンボルに対す
る符号化を行った後に符号木の更新を行っている。従っ
て、データの復元側は、出力される符号語を見ること
で、自分の符号木を圧縮側と同期して更新することがで
きる。そのため、符号語とシンボルとの対応の変化に拘
わらず、元のシンボルを復元することができる。
【0015】また、上述の静的符号化方式あるいは準適
応型符号化方式では、符号木上には入力に表れる全ての
シンボルが予め登録されており、シンボルの追加はでき
ない。これに対して、適応型符号化方式の場合には、シ
ンボルの生起毎に、シンボルの生起確率を再計算するの
で、シンボルの追加登録をすることが可能である。この
ような適応型符号化方式において、シンボルを追加登録
する場合の手順を、図26を参照して説明する。
【0016】まず、図26(a)に示すように、初期設
定時においては、符号木上に「未登録」を意味するコー
ド(以下、エスケープコードまたはESCと称する)と
ファイルの最後を示すコード(以下、EOFと称する)
のみを登録する。そして、出現したシンボルが符号木上
に登録されていない場合は、ESCに対応する符号語と
シンボルの生データ(圧縮前のデータ)とを出力する。
しかる後に、ESCの頻度を“1”だけ増加させるとと
もに、符号木内で最も重みの低い節点(葉)を分岐す
る。分岐によってできた新しい葉の一つには、元の節点
のシンボル(最も出現頻度の少ないシンボル)を登録
し、他の葉には、新規登録のシンボルを登録する(図2
6(b))。
【0017】上記の説明は、一文字毎の生起確率に基づ
いて動的に可変長符号化する場合について述べた。さら
に圧縮効果を高めるためには、入力文字と直前の文字と
の依存関係(以下、「文脈」と称する)を取り入れた、
条件付き出現確率を用いて可変長符号化することで実現
できる。即ち、文字列がある文脈通りに生成される確率
が高くなっている状態下では、文脈の最初のシンボルが
生成された場合に、次に生成されるであろうシンボルを
ある程度(文脈を構成する次のシンボルに)絞ることが
できる。従って、この最初のシンボルが生成された条件
下において適用される符号木を用意しておけば、次のシ
ンボルに対応する符号語の長さを短くすることができ
る。即ち、圧縮率を高めることができるのである。
【0018】「文脈」を取り入れた条件付き出現確率を
用いる場合、文脈及び符号化対象文字は、図27(a)
に示すように木構造で表される(以下、文脈木と称す
る)。この文脈木は、過去に入力された文脈(文字列の
流れ)をまとめたものである。文脈木の各節点は、文脈
木における子の節点を葉とする符号木を備えている。こ
の符号木には、各文脈において次のシンボルが出現する
頻度を登録している。このようにして、あるシンボルが
生起された場合において次のシンボルが生起する確率
を、条件付き確率として求めることができるのである。
【0019】この文脈収集方法には、以下に示す2つの
方法がある。その第1の方法は、条件付き確率の条件の
字数を固定にする方法である。ここで、次数とは、条件
付き確率を求める文脈の長さのことである。この場合、
例えば、2次の文脈に固定したとすると、直前2文字に
繋がる文字の文脈のみを収集して、条件付き確率P(Y
|X1,X2)を得るのである。ただし、Yは注目符号
化文字であり、X1及びX2は、それぞれ、直前の第1
文字及び第2文字である。また、その第2の方法は、条
件文字列の長さを固定せずに入力データに応じて次数を
伸ばす方法である。これをBlending文脈という。
【0020】
【発明が解決しようとする課題】以上に説明したよう
に、ハフマン符号化方式は、符号木を用いる符号化方式
のうちで、最大の効率でデータ圧縮をすることができる
方式である。とりわけ、適応型ハフマン符号化は、各文
字の生起確率をあらかじめ保持する必要もなく、一つの
ファイル内で生起確率が変動するのに追従できる利点が
あった。
【0021】しかしながら、符号化対象文字が1バイト
で表される場合に、1つの符号化対象文字を1ビット以
下の符号で表すことは原理的に不可能なため、ハフマン
符号化方式の最大圧縮率が0.125(=1/8)を越
えることはなかった。
【0022】ところで、例えば“20h”(アスキーコ
ードの空白を表す文字)や“0h”(ヌル(null)を表す
文字)などのように、連続して出現しやすい文字列に対
しては、ハフマン符号化方式以外の方式を適用すること
により、最大圧縮率を0.125より上げることが十分
に可能である。
【0023】本発明の課題は、同一データが連続して出
現した場合の最大圧縮率を、符号木を用いた単一の符号
化方式だけで符号化する場合の最大圧縮率よりも上げる
ことが可能なデータ符号化方法、データ圧縮装置及びデ
ータ圧縮・復元システムを提供することと、このデータ
符号化方法、データ圧縮装置及びデータ圧縮・復元シス
テムから出力される符号からデータを復元できるデータ
復号方法、データ復元装置及びデータ圧縮・復元システ
ムを提供することである。
【0024】
【課題を解決するための手段】本発明のデータ符号化方
法、データ復号方法、データ圧縮装置、データ復元装置
及びデータ圧縮・復元システムは、上記課題を解決する
ために、以下の手段を採用した。
【0025】<データ符号化方法及びデータ復号方法の
基本構成>本発明によるデータ符号化方法は、過去に現
れたデータの出現状況に応じて、入力されたデータを符
号化するデータ符号化方法において、同じデータが所定
数以上連続して現れた場合に、それ以後に続く同一デー
タの連続出現数を符号化し、同じデータが所定数以上連
続して現れない場合に、入力データに対してデータの出
現頻度に応じた符号を出力することを特徴とする(請求
項1に対応)。
【0026】また、本発明によるデータ復号方法は、過
去に復号したデータの出現状況に応じて、符号化された
データを複合化するデータ復号方法において、同じデー
タが所定数以上連続して現れた場合に、それ以後に続く
符号を連続長の符号として、連続長を復号し、同じデー
タが所定数以上連続して現れない場合に、データの出現
頻度に応じて符号をデータに復号することを特徴とする
(請求項2に対応)。
【0027】<データ圧縮装置及びデータ復元装置の基
本構成>本発明の第1の態様の原理を図1に示す。即
ち、本発明によるデータ圧縮装置(100)は、過去に
現れた単位データの出現状況に応じて、入力された単位
データを動的に符号化するデータ圧縮装置(100)に
おいて、圧縮対象の単位データを入力するデータ入力手
段(191)と、前記データ入力手段(191)によっ
て入力された前記単位データが、所定数以上連続して同
一であるか否かを判断する連続同一判断手段(192)
と、前記連続同一判断手段(192)で同一でないと判
断された場合に、入力された単位データを、その単位デ
ータの出現頻度に応じて符号化し、この符号化により得
られた符号を出力する第1符号化手段(193)と、前
記連続同一判断手段(192)で同一であると判断され
た場合に、その判断時点以後における同一データの連続
出現数に応じた符号を出力する第2符号化手段(19
4)とを備えたことを特徴とする(請求項3に対応)。
【0028】また、本発明によるデータ復元装置(20
0)は、過去に復号した単位データの出現状況に応じ
て、動的に、入力された符号を復号化した単位データを
出力するデータ復元装置(200)において、復元対象
の符号を入力する符号入力手段(291)と、前記符号
入力手段(291)に入力された符号を、その出現頻度
に応じて復号化し、この復号化により得られた単位デー
タを出力する第1復号化手段(293)と、前記第1復
号化手段(293)によって復号化された単位データ
が、所定数以上連続して同一であるか否かを判断する連
続同一判断手段(292)と、前記連続同一判断手段
(292)により復号化された単位データが所定数以上
連続して同一であると判断された場合には、前記第1復
号化手段(293)に代わり、その判断時点の直後に入
力された符号を、同一データの連続出現数として復号化
するとともに、前記所定数以上連続している単位データ
を、前記連続出現数だけ続けて出力する第2復号化手段
(294)とを備えたことを特徴とする(請求項10に
対応)。
【0029】さらに、本発明によるデータ圧縮・復元シ
ステムは、上述のデータ圧縮装置(100)と上述のデ
ータ復元装置(200)とからなるデータ圧縮・復元シ
ステムであって、前記圧縮用テーブルの内容と前記復元
用テーブルの内容とが同一であることを特徴とする(請
求項17に対応)。
【0030】ここで、「単位データ」とは、文字(シン
ボル)であっても良いし、画像データであっても良い
し、その他のデータであっても良い。 <第1符号化手段(193)及び第1復号化手段(29
3)を変形させた構成>前記第1符号化手段(193)
は、過去に現れた単位データ列である文脈を、複数次数
までの範囲で登録した文脈登録テーブルと、前記文脈登
録テーブルに登録された文脈の各次数の単位データ毎に
符号を割り当てた圧縮用テーブルと、入力された単位デ
ータがその末端に存在する前記一定次の文脈を前記文脈
登録テーブルから検索する文脈検索手段と、前記文脈検
索手段によって検索された前記文脈下において、前記入
力された単位データを登録している最高次数の前記圧縮
用テーブルを参照して、前記入力された単位データの符
号を出力する符号出力手段と、前記入力された単位デー
タが符号化された後に、前記文脈と前記単位データとの
組み合わせの出現頻度に応じて前記圧縮用テーブルの符
号を更新する圧縮用テーブル更新手段とを有するように
構成しても良い(請求項4に対応)。
【0031】また、前記第1復号化手段(293)は、
過去に現れた単位データ列である文脈を、複数次数まで
の範囲で登録した文脈登録テーブルと、前記文脈登録テ
ーブルに登録された文脈の各次数の単位データ毎に符号
を割り当てた復元用テーブルと、前記入力された符号が
その末端に存在すると予想される前記一定次の文脈を前
記文脈登録テーブルから検索する文脈検索手段と、前記
文脈検索手段によって検索された前記一定次の文脈に対
応する前記復元用テーブルを参照して、前記入力された
符号に対応する前記単位データを出力する単位データ出
力手段と、前記入力された符号が復元された後に、前記
文脈と復元された前記単位データとの組み合わせの出現
頻度に応じて前記復元テーブルの符号を更新する復元用
テーブル更新手段とを有するように構成しても良い(請
求項11に対応)。
【0032】<木構造のテーブルを採用する場合の構成
>前記圧縮用テーブル及び前記復元用テーブルは、単一
の根から枝を繰り返し分岐させた木構造を有していても
良い。
【0033】この場合、前記圧縮用テーブルには、末端
の節点に前記単位データが登録されるとともに、各分岐
された枝毎に互いに識別可能な符号が与えられる。そし
て、前記符号出力手段は、前記根と前記入力された単位
データが登録されている節点とを結ぶ経路上の前記符号
を読み取ることによって、前記符号を出力する(請求項
5に対応)。
【0034】一方、前記復元用テーブルは、末端の節点
に前記単位データが登録されるとともに、各分岐された
枝毎に互いに識別可能な符号が与えられる。そして、前
記単位データ出力手段は、前記符号と同じ符号が与えら
れている前記根からの経路を辿ることにより、その経路
の末端の節点に登録されている前記単位データを探し、
探し出した前記単位データを出力する(請求項12に対
応)。
【0035】<第2符号化手段(194)及び第2復号
化手段を変形させた構成>前記第2符号化手段(19
4)は、前記連続出現数を分類したカテゴリに付与され
る種々のカテゴリ識別子と種々の符号とを対応づけたカ
テゴリテーブルと、前記連続出現数を、前記カテゴリの
いずれかに分類する連続出現数分類手段と、前記連続出
現数分類手段で分類されたカテゴリに付与されたカテゴ
リ識別子に対応する符号を前記カテゴリテーブルから読
み出して、読み出した符号を出力するカテゴリ識別子符
号化手段と、前記連続出現数分類手段で分類されたカテ
ゴリ内における前記連続出現数の位置情報を出力する位
置情報出力手段とを有していても良い(請求項6に対
応)。
【0036】また、前記第2符号化手段(194)は、
過去に現れた連続長数の出現状況に応じて連続長を動的
に符号化するようにしてもよい(請求項7に対応)。そ
して、前記第2符号化手段(194)は、連続長に対し
て符号を割り当てた連続長圧縮テーブルと、連続長数に
対する前記連続長圧縮テーブルを参照して符号を出力す
る連続長符号化手段とを有し、前記連続長が符号化され
た後に、連続長数の出現頻度に応じて前記連続長圧縮テ
ーブルを変更するようにしてもよい(請求項8に対
応)。
【0037】次に、前記第2復号化手段(294)は、
前記連続出現数を分類したカテゴリに付与される種々の
カテゴリ識別子と種々の符号とを対応づけたカテゴリテ
ーブルと、入力された符号に応じたカテゴリ識別子を前
記カテゴリテーブルから読み出して、読み出されたカテ
ゴリ識別子を有するカテゴリを復号化するカテゴリ復号
化手段と、続けて入力された符号から位置情報を求める
とともに、求められた位置情報と前記カテゴリ復号化手
段により復号化されたカテゴリから、連続出現数を算出
する連続出現数算出手段と、前記連続している単位デー
タを、前記連続出現数算出手段で算出された前記連続出
現数だけ続けて出力する単位データ出力手段とを有して
いても良い(請求項13に対応)。
【0038】また、前記第2復号化手段(294)は、
過去に現れた連続長数の出現頻度に応じて、動的に連続
長を復号するようにしてもよい(請求項14に対応)。
そして、前記第2復号化手段(294)は、連続長に対
して符号を割り当てた連続長圧縮テーブルと、前記連続
長圧縮テーブルを参照して符号を連続長に復号する連続
長復号化手段とを有し、前記連続長が復号化された後
に、連続長数の出現頻度に応じて前記連続長圧縮テーブ
ルを変更するようにしてもよい(請求項15に対応)。
【0039】<連続同一判断手段を変形させた構成>前
記データ圧縮装置(100)の前記連続同一判断手段
(192)又は前記データ復元装置(200)の前記連
続同一判断手段(292)は、所定の種類の単位データ
に対してのみ判断を行うようにしても良い(請求項9、
請求項16に対応)。
【0040】<本発明の作用>データ圧縮装置(10
0)において、データ入力手段(191)が単位データ
を入力すると、連続同一判断手段(192)は、所定数
以上連続して同一であるか否かを判断する。同一でない
と判断された場合に、第1符号化手段(193)は、入
力された単位データを、その単位データの出現頻度に応
じて符号化し、この符号化により得られた符号を出力す
る。一方、同一であると判断された場合に、第2符号化
手段(194)は、その判断時点以後における同一デー
タの連続出現数に応じた符号を出力する(請求項3〜請
求項9の作用)。
【0041】次に、データ復元装置(200)におい
て、符号入力手段(291)が復元対象の符号を入力す
ると、第1復号化手段(293)は、入力された符号
を、その単位データ列の出現頻度に応じて復号化し、こ
の復号化により得られた単位データを出力する。そし
て、第1復号化手段(293)が復号化された単位デー
タを出力すると、連続同一判断手段(292)は、第1
復号化手段(293)によって復号化された単位データ
が、所定数以上連続して同一であるか否かを判断する。
そして、連続同一判断手段(292)により復号化され
た単位データが所定数以上連続して同一であると判断し
た場合に、第2復号化手段(294)は、第1復号化手
段(293)に代わり、その判断時点の直後に入力され
た符号を、同一データの連続出現数として復号化すると
ともに、所定数以上連続している単位データを、連続出
現数だけ続けて出力する(請求項10〜請求項16の作
用)。
【0042】このように、本発明によれば、同一データ
が連続して出現しない場合と出現した場合とで符号化方
法及び復号化方法を変更するようにしてあり、しかも、
同一データが連続して出現した場合には、その連続出現
数が多くなるほど、最大圧縮率が上がるようになってい
る。従って、同一データが連続して出現した場合に、最
大圧縮率が制限されることないので、符号木を用いた単
一の符号化方式だけで符号化及び復号化した場合よりも
最大圧縮率を上げることが可能となる。
【0043】特に、第2符号化手段(194)及び第2
復号化手段(294)でカテゴリテーブルを使用するよ
うにすれば、連続出現数が大きな数になった場合でも、
連続出現数に応じた符号を短くすることができ、圧縮効
率を高めることが可能となる(請求項6及び請求項13
の作用)。
【0044】また、連続同一判断手段(192、29
2)で、所定の種類の単位データに対してのみ判断を行
うようにすれば、例えば“20h”や“0h”などのコ
ンピュータのファイル中に出現しやすいデータを対象と
して符号化を行えるようになる(請求項9及び請求項1
6の作用)。
【0045】
【発明の実施の形態】以下、本発明の実施の形態を図面
を参照して説明する。 <第1実施形態>第1実施形態は、同一データが連続し
て出現した場合に、その連続出現数を符号化して圧縮を
行うとともに、同一データが連続して出現していない場
合には、文脈モデルを併用して圧縮を行うことを特徴と
する。
【0046】<ハード構成>図2は、第1実施形態によ
るデータ圧縮装置の構成ブロック図であり、図3は、第
1実施形態によるデータ復元装置の構成ブロック図であ
る。
【0047】(データ圧縮装置)図2において、スイッ
チ部111、文脈保持部101、文脈更新部101A、
連続文字判別部104、連続長計数部105、連続長符
号化部107、連続長符号保持部103、文字符号化部
106、文字符号保持部102及び符号更新部108が
データ圧縮装置を構成する。
【0048】文脈保持部101は、スイッチ部111を
介して入力された文字K(以下、入力文字K)の直前ま
でに入力された文字列を文脈として保持する。文脈更新
部101Aは、スイッチ部111に文字Kが入力される
度に、文脈保持部101に保持された文脈の文字のう
ち、最も古い文字を棄却し、文字Kを新たに登録する。
このことにより、文脈文脈保持部101に保持されてい
る文脈が更新される。
【0049】連続同一判断手段としての連続文字判別部
104は、文脈保持部101に保持されている文脈を構
成する文字が、所定数以上連続して同一であるか否かを
判別し、その判別結果をスイッチ部111に通知する。
【0050】なお、連続文字判別部104は、例えば
“20h”(アスキーコードの空白を表す文字)や“0
h”などの特定の文字に対してのみ、所定数以上連続し
て同一であるか否かを判別してもよい。ただし、“h”
は16進数であることを表している。
【0051】スイッチ部111は、以下の1)〜3)の
処理を行う。 1)入力データに含まれる文字Kを入力する。入力デー
タは、キーボード、マウス等のマン・マシンインタフェ
ース(図示せず)からの入力をコード化する装置やデー
タファイルを格納した外部記憶装置(図示せず)から入
力される。 2)所定数以上連続して同一である旨の通知を連続文字
判別部104から受けた場合に、同一文字が連続して出
現している旨を連続長計数部105に通知し、以後、入
力文字Kを連続長計数部105に出力する。 3)所定数以上連続して同一でない旨の通知を連続文字
判別部104から受けた場合に、同一文字が連続して出
現していない旨を文字符号化部106に通知し、以後、
入力文字Kを文字符号化部106に出力する。
【0052】(第1符号化手段)文字符号化部106、
文字符号保持部102及び符号更新部108は、第1符
号化手段を構成する。この第1符号化手段では、同一文
字が連続して出現していない場合に、入力文字Kを、文
脈と入力文字Kとの組み合わせの出現頻度に応じて符号
化し、この符号化により得られた符号を出力する。ま
た、この第1符号化手段では、データ圧縮をするに伴っ
て、文字符号保持部102に文脈木及び符号木を生成す
るとともに、データ圧縮(符号化)過程においてその文
脈木及び符号木を更新する。
【0053】文字符号保持部102は、文脈保持部10
1に保持されたことのある文脈を文脈木として保持する
とともに、この文脈木の各内部節点をそれぞれ根とする
複数の符号木が格納されている。以下に、これら文脈木
及び符号木の関係を説明する。
【0054】文脈木は、過去に生起した文脈(複数の文
字が連続して生起したパターン)を唯一の根(roo
t)を先頭にしてまとめたものである。図27(a)の
例では、過去、“aab”,“abc”,“acb”,
“bca”,“caa”,“cac”,“cbc”とい
った文脈が生起していることを示している。この文脈木
では、符号木と異なり、根(root)以外の全ての節
点(葉であるか内部節点であるかを問わず)に文字を割
り当てている。また、この文脈木は、あくまでも条件付
けのために用いこれ自体で符号化する訳ではないので、
ある内部節点から3本以上の枝が分岐していることがあ
り得る。また、これらの枝には、符号が割り当てられて
いない。さらに、文脈木に登録された3文字の文脈に全
く当てはまらない文脈や1文字又は2文字しか当てはま
らない文脈が生起された場合に備え、各内部節点には未
出現記号(ESC)も接続されている。なお、ファイル
の終了を示すために、根には終了記号(EOF)も接続
されている。また、文脈木においては、「レベル」のこ
とを「〜次,次数」という。各内部節点に対応する文字
が生起された条件下においては、次にどの文字が生起さ
れるかの確率は、無条件の場合に比して偏りが生じてい
ると考えられる。即ち、過去に生じた文脈に沿った文字
の生起確率がそれ以外の文字に比べて高いと考えられ
る。従って、ある文字が生起された条件下では、その文
字に続く文脈に沿った文字のみを符号化する符号木を適
用しても、符号化が可能である。しかも、このような条
件付きの符号木を適用すれば、この条件付きの符号木に
よる符号化対象の文字は限定されるので、符号木の規模
が小さくなる。その結果、符号語の符号長が短くなり、
圧縮効率が高まる。
【0055】以上の理由により、文脈木の各内部節点に
は、当該内部節点に対応した根を有するとともに、当該
文脈木の内部節点に直接接続された次レベルの節点の文
字(ECS,EOFをも含む)を葉とする符号木が用意
されている。図27(b)は、これらの符号木のうち、
図27(a)の文脈木における根(root)に対応し
て備えられた符号木を示している。なお、これらの符号
木内においては、上述の各実施例において説明したよう
に、次に生起する可能性のある文字に対応する符号長が
短くなっている。即ち、生起する可能性が高い文脈に沿
った文字ほど、その圧縮率が高くなっているのである。
【0056】文字符号化部106は、直前に入力された
文字列に基づいて文字符号保持部102に保持されてい
る符号木を選択する。そして、選択された符号木を利用
して、以下のように入力文字Kを符号化する。即ち、選
択された符号木の根から入力文字Kが格納されている葉
までの経路を辿り、その経路上の枝に付されている
“0”又は“1”の符号を順番に拾い、一連の符号語を
出力する。
【0057】符号更新部108は、文脈と入力文字Kと
の組み合わせの出現頻度に基づいて、文字符号保持部1
02に保持されている符号木を更新する。 (第2符号化手段)連続長計数部105、連続長符号化
部107及び連続長符号保持部103は、第2符号化手
段を構成する。この第2符号化手段では、同一文字が連
続して入力された場合に、同一文字の連続出現数(以
下、連続長Lという。)に応じた符号を出力する。な
お、連続長Lは、ラン長とも呼ばれる。
【0058】連続長計数部105は、スイッチ部111
から通知を受けた時点以後に、同一文字の連続長Lを計
数し、その計数結果を連続長符号化部107に通知す
る。連続長符号保持部103は、種々の数値Nと種々の
符号とを対応づけたテーブルを保持している。このテー
ブルは、例えば、以下の表1のような内容を有する。
【0059】
【表1】 連続長符号化部107は、連続長計数部105から出力
された連続長L(数値N)に応じた符号を連続長符号保
持部103から読み出すとともに、読み出した符号を出
力する。
【0060】(データ復元装置)図3において、スイッ
チ部211、文脈保持部201、文脈更新部201A、
連続文字判別部204、連続長復号部210、連続長符
号保持部203、連続長出力部205、文字復号部20
6、文字符号保持部202及び符号更新部208がデー
タ復元装置を構成する。
【0061】文脈保持部201は、スイッチ部211を
介して入力された符号から文字復号部206により復号
化された文字列を文脈として保持する。文脈更新部20
1Aは、文字復号部206で符号が復号化される度に、
文脈保持部201に保持された文脈の文字のうち、最も
古い文字を棄却し、復号化された文字を新たに登録す
る。このことにより、文脈文脈保持部201に保持され
ている文脈が更新される。
【0062】連続同一判断手段としての連続文字判別部
204は、文脈保持部201に保持されている文脈を構
成する文字が、所定数以上連続して同一であるか否かを
判別し、その判別結果をスイッチ部211に通知する。
【0063】スイッチ部211は、以下の1)〜3)の
処理を行う。 1)データ圧縮装置から符号を入力する。 2)所定数以上連続して同一である旨の通知を連続文字
判別部204から受けた場合に、同一文字が連続して出
現している旨を連続長復号部207に通知し、以後、入
力された符号を連続長復号部207に出力する。 3)所定数以上連続して同一でない旨の通知を連続文字
判別部204から受けた場合に、同一文字が連続して出
現していない旨を文字復号部206に通知し、以後、入
力された符号を文字復号部206に出力する。
【0064】(第1復号化手段)文字復号部206、文
字符号保持部202及び符号更新部208は、第1復号
化手段を構成する。この第1復号化手段では、同一文字
が連続して出現していない場合に、入力された符号を、
直前に復号化された文字列の出現頻度に応じて復号化
し、この復号化により得られた文字を出力する。また、
この第1復号化手段では、データ復元をするに伴って、
文字符号保持部202に文脈木及び符号木を生成すると
ともに、データ圧縮(符号化)過程においてその文脈木
及び符号木を更新する。
【0065】文字符号保持部202は、文脈保持部20
1に保持されたことのある文脈を文脈木として保持する
とともに、この文脈木の各内部節点をそれぞれ根とする
複数の符号木が格納されている。この文字符号保持部2
02の内容は、データ圧縮装置とデータ復元装置とが同
期して動作している場合に、データ圧縮装置の文字符号
保持部102の内容と一致する。
【0066】文字復号部206は、直前に復元された文
字列に基づいて文字符号保持部202に保持されている
符号木を選択する。そして、選択された符号木を利用し
て、以下のように入力された符号を復号化する。即ち、
選択された符号木の根を起点にして、符号語が示す
“0”及び“1”の順番通りに枝を辿り、対応する葉を
探す。そして、探し出した葉に対応づけられている文字
(シンボル)を復号された文字として出力する。
【0067】符号更新部208は、復元された文字の出
現頻度に基づいて、文字符号保持部202に保持されて
いる符号木を更新する。 (第2復号化手段)連続長復号部207、連続長符号保
持部203及び連続長出力部205は、第2復号化手段
を構成する。この第2復号化手段では、文字復号部20
6において同一文字が連続して復号化された場合に、そ
の復号化の直後にスイッチ部211から入力された符号
を、同一文字の連続出現数(以下、連続長L)として復
号化するとともに、連続して出現した同一文字を連続長
だけ続けて出力する。
【0068】連続長符号保持部203は、種々の数値N
と種々の符号とを対応づけたテーブルを保持している。
この連続長符号保持部203の内容は、データ圧縮装置
の連続長符号保持部103の内容と同一である。
【0069】連続長復号部207は、スイッチ部211
から出力された符号に応じた数値Nを連続長符号保持部
203から読み出すとともに、読み出した数値Nを連続
長出力部205に出力する。
【0070】連続長出力部205は、文脈保持部201
に保持されている文脈の末端の文字、即ち、連続して出
現した同一文字を、連続長復号部207から出力された
数値Nだけ続けて出力する。
【0071】(データ圧縮装置の処理動作)次に、デー
タ圧縮装置の処理動作を説明する。図4は、データ圧縮
装置の処理動作を表すフローチャート図である。
【0072】まず連続文字判別部104は、文脈保持部
101に保持された文脈内の文字が連続して同一である
か否かを判断する対象になっているかを判別するととも
に(ステップ401)、判別対象になっている場合に、
文脈内の文字が、所定数以上連続して同一であるか否か
を判断する(ステップ402)。
【0073】ステップ402で文脈中の文字が連続して
同一であると判断された場合(ステップ402のYES
の経路)に、第2符号化手段は、同一文字の連続長Lを
計数するとともに(ステップ403)、その連続長Lを
符号化する(ステップ404)。
【0074】一方、ステップ402で文脈中の文字が連
続して同一でないと判断された場合(ステップ402の
NOの経路)に、第1符号化手段は、入力文字を、文脈
と入力文字との組合せの出現頻度を反映した符号木に基
づいて符号化するとともに(ステップ407)、文脈と
入力文字との組合せの出現頻度に基づいて符号木を更新
する(ステップ408)。この符号化は、前述の符号木
を用いた符号化方式(Splay-Tree符号化方式)の処理手
順に沿って行われる。即ち、符号木の終端(葉、リー
フ)にシンボルを登録し、符号木の頂点(根、ルート)
から入力データが格納されているリーフまでの距離を符
号長として出力する。具体的には、符号語はルートから
リーフへ下るとき、右へ分岐したときは“1”、左へ分
岐したときは“0”を割り当てる。
【0075】ステップ404及びステップ408の実行
後に、文脈更新部101Aは、文脈保持部101に保持
された文脈を更新する(ステップ405)。そして、入
力文字が無い場合には、符号化処理を終了し(ステップ
406の無いの経路)、入力文字が有る場合には、ステ
ップ401に戻って符号化処理を続行する(ステップ4
06の有るの経路)。
【0076】(データ復元装置の処理動作)次に、デー
タ復元装置の処理動作を説明する。図5は、データ復元
装置の処理動作を表すフローチャート図である。
【0077】まず連続文字判別部204は、文脈保持部
201に保持された文脈内の文字が連続して同一である
か否かを判断する対象になっているかを判別するととも
に(ステップ501)、判別対象になっている場合に、
文脈内の文字が、所定数以上連続して同一であるか否か
を判断する(ステップ502)。
【0078】ステップ502で連続して同一であると判
断された場合(ステップ502のYESの経路)に、第
2復号化手段は、直後に入力される符号を同一文字の連
続長として復号化するとともに(ステップ503)、ス
テップ502にて連続して出現したと判定した文字を連
続長の数だけ続けて出力する(ステップ504)。
【0079】一方、ステップ502で連続して同一でな
いと判断された場合(ステップ502のNOの経路)、
第1復号化手段は、直後に入力される文字を復号化する
とともに(ステップ507)、文脈と復号化された文字
との組み合わせの出現頻度に基づいて符号木を更新する
(ステップ508)。
【0080】ステップ504及びステップ508の実行
後に、文脈更新部201Aは、文脈保持部201に保持
された文脈を更新する(ステップ505)。そして、次
の復号対象となる符号が無い場合には、復元処理を終了
し(ステップ506の無いの経路)、符号が有る場合に
は、ステップ501に戻って復元処理を続行する(ステ
ップ506の有るの経路)。
【0081】<第2実施形態>第2実施形態は、第1実
施形態と比して、データ圧縮装置の第2符号化手段及び
データ復元装置の第2復号化手段のみを異にし、他の構
成を同じとしている。従って、その他の説明を省略す
る。
【0082】(データ圧縮装置)図6において、スイッ
チ部111、文脈保持部101、文脈更新部101A、
連続文字判別部104、連続長計数部105、カテゴリ
分類部109、カテゴリ符号化部113、位置情報出力
部110、カテゴリ符号保持部112、文字符号化部1
06、文字符号保持部102及び符号更新部108がデ
ータ圧縮装置を構成する。
【0083】(第2符号化手段)連続長計数部105、
カテゴリ分類部109、カテゴリ符号化部113、位置
情報出力部110及びカテゴリ符号保持部112は、第
2符号化手段を構成する。
【0084】連続長計数部105は、スイッチ部111
から通知を受けた時点以後に、同一文字の連続長Lを計
数し、その計数結果をカテゴリ分類部109及び位置情
報出力部110に通知する。
【0085】カテゴリ分類部109は、連続長計数部1
05から通知された連続長Lに基づいて、式(1)を満
たす整数Cの値が識別子として付与されたカテゴリCを
求める。即ち、連続長Lを8で割ったときの商がカテゴ
リCの値となる。例えば、L=24でのとき、C=3と
なる。そして、カテゴリ分類部109は、求められたC
の値をカテゴリ符号化部113に通知する。
【0086】
【数1】 8×C≦L<8×(C+1) ・・・(1) 例えば、C=2が識別子して付与されたカテゴリCに
は、16から23までの値を持つ連続長Lが属すること
になる。
【0087】なお、カテゴリ分類部109は、非常に大
きな連続長が出現するデータに対して、カテゴリを2の
べき乗で分類してもよい。図9の例では、カテゴリCに
は、2C<L<2C+1−1の連続長が含まれ、位置情報と
してはC[ビット]のデータが出力される。さらにカテ
ゴリCの最大値は16で、L=65535までの連続長
が符号化される。例えば、L=72868の連続長があ
った場合、いったんC=16の符号を出力した後(C=
16にはL=65535しかないため位置情報は不
要)、残りのL=7333(72868−65535)
について、符号化を行う。
【0088】カテゴリ符号保持部112は、種々のカテ
ゴリCの識別子と種々の符号とを対応づけたテーブルを
保持している。カテゴリ符号化部113は、カテゴリ分
類部109から出力されたカテゴリCの識別子に応じた
符号をカテゴリ符号保持部112から読み出すととも
に、読み出した符号を出力する。
【0089】位置情報出力部110は、連続長Lが、カ
テゴリ分類部109により分類されたカテゴリC内のど
の位置にあるのかを示す位置情報を、式(2)から求め
る。そして、求めた位置情報を出力する。この位置情報
は、カテゴリ符号化部113から出力される符号に続け
て出力される。
【0090】
【数2】 位置情報=L−8×C ・・・(2) 例えば、16の値を持つ連続長Lに対する位置情報は0
であり、18の値を持つ連続長Lに対する位置情報は2
である。
【0091】(データ復元装置)図7において、スイッ
チ部211、文脈保持部201、文脈更新部201A、
連続文字判別部204、カテゴリ復号部213、カテゴ
リ符号保持部212、連続長復号部210、連続長出力
部205、文字復号部206、文字符号保持部202及
び符号更新部208がデータ復元装置を構成する。
【0092】スイッチ部211は、以下の1)〜3)の
処理を行う。 1)データ圧縮装置から符号を入力する。 2)所定数以上連続して同一である旨の通知を連続文字
判別部204から受けた場合に、同一文字が連続して出
現している旨をカテゴリ復号部213に通知し、以後、
入力された符号をカテゴリ復号部213に出力する。 3)所定数以上連続して同一でない旨の通知を連続文字
判別部204から受けた場合に、同一文字が連続して出
現していない旨を文字復号部206に通知し、以後、入
力された符号を文字復号部206に出力する。
【0093】(第2復号化手段)カテゴリ復号部21
3、カテゴリ符号保持部212、連続長復号部210及
び連続長出力部205は、第2復号化手段を構成する。
【0094】カテゴリ符号保持部212は、種々のカテ
ゴリCの識別子と種々の符号とを対応づけたテーブルを
保持している。このカテゴリ符号保持部212の内容
は、データ圧縮装置のカテゴリ符号保持部112の内容
と一致する。
【0095】カテゴリ復号部213は、スイッチ部21
1から出力された符号に応じたカテゴリCの識別子をカ
テゴリ符号保持部212から読み出して、カテゴリCを
復号化する。また、続いてスイッチ部211から出力さ
れた符号を位置情報として認識する。カテゴリCの識別
子及び位置情報は、連続長復号部210に通知される。
【0096】連続長復号部210は、カテゴリ復号部2
13から通知されたカテゴリCの識別子及び位置情報に
基づいて、連続長Lを求める。求められた連続長Lは、
連続長出力部205に出力される。
【0097】連続長出力部205は、文脈保持部201
に保持された文字を、連続長Lだけ続けて出力する。 (データ圧縮装置の処理動作)次に、データ圧縮装置の
処理動作を説明する。図10は、データ圧縮装置の処理
動作を表すフローチャート図である。
【0098】まず連続文字判別部104は、文脈保持部
101に保持された文脈内の文字が連続して同一である
か否かを判断する対象になっているかを判別するととも
に(ステップ1001)、判別対象になっている場合
に、文脈内の文字が、所定数以上連続して同一であるか
否かを判断する(ステップ1002)。
【0099】ステップ1002で同一であると判別され
た場合(ステップ1002のYESの経路)に、第2符
号化手段は、同一文字の連続長Lをカテゴリ分けすると
ともに、カテゴリ分けされたカテゴリCを符号化してそ
の符号を出力し、続けて、位置情報を出力する(ステッ
プ1003〜ステップ1005)。
【0100】一方、ステップ1002で同一でないと判
別された場合(ステップ1002のNOの経路)に、第
1符号化手段は、入力文字を、文脈と入力文字との組合
せの出現頻度を反映した符号木に基づいて符号化すると
ともに(ステップ1008)、文脈と入力文字との組合
せの出現頻度に基づいて符号木を更新する(ステップ1
009)。
【0101】ステップ1005及びステップ1009の
実行後に、文脈更新部201Aは、文脈保持部101に
保持された文脈を更新する(ステップ1006)。そし
て、入力文字が無い場合には、符号化処理を終了し(ス
テップ1007の無いの経路)、入力文字が有る場合に
は、ステップ1001に戻って符号化処理を続行する
(ステップ1007の有るの経路)。
【0102】(データ復元装置の処理動作)次に、デー
タ復元装置の処理動作を説明する。図11は、データ復
元装置の処理動作を表すフローチャート図である。
【0103】まず連続文字判別部204は、文脈保持部
201に保持された文脈内の文字が連続して同一である
か否かを判断する対象になっているかを判別するととも
に(ステップ1101)、判別対象になっている場合
に、文脈内の文字が、所定数以上連続して同一であるか
否かを判断する(ステップ1102)。
【0104】ステップ1102で同一であると判断され
た場合(ステップ1102のYESの経路)に、第2復
号化手段は、カテゴリCを復号化するとともに、復号化
されたカテゴリCと位置情報から連続長Lを求め、ステ
ップ1102にて連続して出現したと判定した文字を連
続長Lの数だけ続けて出力する(ステップ1103〜ス
テップ1105)。
【0105】一方、ステップ1102で同一でないと判
断された場合(ステップ1102のNOの経路)に、第
1復号化手段は、直後に入力される文字を復号化すると
ともに(ステップ1108)、文脈と復号化された文字
との組み合わせの出現頻度に基づいて符号木を更新する
(ステップ1109)。
【0106】ステップ1105及びステップ1109の
実行後に、文脈更新部201Aは、文脈保持部201に
保持された文脈を更新する(ステップ1106)。そし
て、次の復号対象となる符号が無い場合には、復元処理
を終了し(ステップ1107の無いの経路)、符号が有
る場合には、ステップ1101に戻って復元処理を続行
する(ステップ1107の有るの経路)。
【0107】<第3実施形態>第3実施形態は、第1実
施形態と比して、データ圧縮装置及びデータ復元装置が
連続長を動的に符号化する点のみを異にし、他の構成を
同じとしている。従って、その他の説明を省略する。
【0108】(データ圧縮装置の処理動作)次に、デー
タ圧縮装置の処理動作を説明する。図12は、データ圧
縮装置の処理動作を表すフローチャート図である。
【0109】まず連続文字判別部104は、文脈保持部
101に保持された文脈内の文字が連続して同一である
か否かを判断する対象になっているかを判別するととも
に(ステップ1201)、判別対象になっている場合
に、文脈内の文字が、所定数以上連続して同一であるか
否かを判断する(ステップ1202)。
【0110】ステップ1202で文脈中の文字が連続し
て同一であると判断された場合(ステップ1202のY
ESの経路)に、第2符号化手段は、同一文字の連続長
Lを計数するとともに(ステップ1203)、その連続
長Lを符号化し(ステップ1204)、さらに、連続長
の出現頻度に応じて連続長の符号を更新する(ステップ
S1205)。
【0111】一方、ステップ1202で文脈中の文字が
連続して同一でないと判断された場合(ステップ120
2のNOの経路)に、第1符号化手段は、入力文字を、
文脈と入力文字との組合せの出現頻度を反映した符号木
に基づいて符号化するとともに(ステップ1208)、
文脈と入力文字との組合せの出現頻度に基づいて符号木
を更新する(ステップ1209)。この符号化は、前述
の符号木を用いた符号化方式(Splay-Tree符号化方式)
の処理手順に沿って行われる。即ち、符号木の終端
(葉、リーフ)にシンボルを登録し、符号木の頂点
(根、ルート)から入力データが格納されているリーフ
までの距離を符号長として出力する。具体的には、符号
語はルートからリーフへ下るとき、右へ分岐したときは
“1”、左へ分岐したときは“0”を割り当てる。
【0112】ステップ1205及びステップ1209の
実行後に、文脈更新部101Aは、文脈保持部101に
保持された文脈を更新する(ステップ1206)。そし
て、入力文字が無い場合には、符号化処理を終了し(ス
テップ1207の無いの経路)、入力文字が有る場合に
は、ステップ1201に戻って符号化処理を続行する
(ステップ1207の有るの経路)。
【0113】(データ復元装置の処理動作)次に、デー
タ復元装置の処理動作を説明する。図13は、データ復
元装置の処理動作を表すフローチャート図である。
【0114】まず連続文字判別部204は、文脈保持部
201に保持された文脈内の文字が連続して同一である
か否かを判断する対象になっているかを判別するととも
に(ステップ1301)、判別対象になっている場合
に、文脈内の文字が、所定数以上連続して同一であるか
否かを判断する(ステップ1302)。
【0115】ステップ1302で連続して同一であると
判断された場合(ステップ1302のYESの経路)
に、第2復号化手段は、直後に入力される符号を同一文
字の連続長として復号化するとともに(ステップ130
3)、ステップ1302にて連続して出現したと判定し
た文字を連続長の数だけ続けて出力し(ステップ130
4)、さらに、連続長の出現頻度に応じて連続長の符号
を更新する(ステップ1305)。
【0116】一方、ステップ1302で連続して同一で
ないと判断された場合(ステップ1302のNOの経
路)、第1復号化手段は、直後に入力される文字を復号
化するとともに(ステップ1308)、文脈と復号化さ
れた文字との組み合わせの出現頻度に基づいて符号木を
更新する(ステップ1309)。
【0117】ステップ1305及びステップ1309の
実行後に、文脈更新部201Aは、文脈保持部201に
保持された文脈を更新する(ステップ1306)。そし
て、次の復号対象となる符号が無い場合には、復元処理
を終了し(ステップ1307の無いの経路)、符号が有
る場合には、ステップ1301に戻って復元処理を続行
する(ステップ1307の有るの経路)。
【0118】
【発明の効果】本発明によれば、同一データが連続して
出現しない場合と出現した場合とで符号化方法及び復号
化方法を変更するようにしてあり、しかも、同一データ
が連続して出現した場合には、その連続出現数が多くな
るほど、最大圧縮率が上がるようになっている。従っ
て、同一データが連続して出現した場合に、最大圧縮率
が制限されることはないので、符号木を用いた単一の符
号化方式だけで符号化及び復号化した場合よりも最大圧
縮率を上げることが可能となる。
【図面の簡単な説明】
【図1】 本発明の第1の態様の原理図である。
【図2】 第1実施形態のデータ圧縮装置の構成ブロッ
ク図である。
【図3】 第1実施形態のデータ復元装置の構成ブロッ
ク図である。
【図4】 第1実施形態のデータ圧縮装置の処理動作を
表すフローチャート図である。
【図5】 第1実施形態のデータ復元装置の処理動作を
表すフローチャート図である。
【図6】 第2実施形態のデータ圧縮装置の構成ブロッ
ク図である。
【図7】 第2実施形態のデータ復元装置の構成ブロッ
ク図である。
【図8】 第2実施形態のカテゴリの例を表す図であ
る。
【図9】 第2実施形態のカテゴリ分けの例を表す図で
ある。
【図10】 第2実施形態のデータ圧縮装置の処理動作
を表すフローチャート図である。
【図11】 第2実施形態のデータ復元装置の処理動作
を表すフローチャート図である。
【図12】 第3実施形態のデータ圧縮装置の処理動作
を表すフローチャート図である。
【図13】 第3実施形態のデータ復元装置の処理動作
を表すフローチャート図である。
【図14】 符号木の各部の名称の説明図である。
【図15】 ハフマン符号化方式の原理図である。
【図16】 図15の符号木による文字と符号語との関
係を示す図である。
【図17】 適応型符号化方式の原理図である。
【図18】 適応型符号化方式による符号木の更新例の
説明図である。
【図19】 図18の符号木による文字と符号語との関
係を示す図である。
【図20】 適応型符号化方式による符号木の更新例の
説明図である。
【図21】 図20の符号木による文字と符号語との関
係を示す図である。
【図22】 適応型符号化方式による符号木の更新例の
説明図である。
【図23】 図22の符号木による文字と符号語との関
係を示す図である。
【図24】 適応型符号化方式による符号木の更新例の
説明図である。
【図25】 図24の符号木による文字と符号語との関
係を示す図である。
【図26】 適応型符号化方式における新規シンボルの
登録例の説明図である。
【図27】 文脈木と符号木の関係を示す図である。
(a)は文脈木を示し、(b)は文脈木の根に対応した
符号木を示す。
【符号の説明】
11・・・文脈文字同一判断部 12・・・第1符号化部 13・・・第2符号化部 21・・・文脈文字同一判断部 22・・・第1復号部 23・・・第2復号部 101・・文脈保持部 101A・文脈更新部 102・・文字符号保持部 103・・連続長符号保持部 104・・連続文字判別部 105・・連続長計数部 106・・文字符号化部 107・・連続長符号化部 108・・符号更新部 109・・カテゴリ分類部 110・・位置情報出力部 111・・スイッチ部 112・・カテゴリ符号保持部 113・・カテゴリ符号化部 191・・データ入力手段 192・・連続同一判断手段 193・・第1符号化手段 194・・第2符号化手段 201・・文脈保持部 201A・文脈更新部 202・・文字符号保持部 203・・連続長符号保持部 204・・連続文字判別部 205・・連続長出力部 206・・文字復号部 207・・連続長復号部 208・・符号更新部 209・・カテゴリ分類部 210・・連続長復号部 211・・スイッチ部 212・・カテゴリ符号保持部 213・・カテゴリ復号部 291・・符号入力手段 292・・連続同一判断手段 293・・第1復号化手段 294・・第2復号化手段

Claims (17)

    【特許請求の範囲】
  1. 【請求項1】過去に現れたデータの出現状況に応じて、
    入力されたデータを符号化するデータ符号化方法におい
    て、 同じデータが所定数以上連続して現れた場合に、それ以
    後に続く同一データの連続出現数を符号化し、 同じデータが所定数以上連続して現れない場合に、入力
    データに対してデータの出現頻度に応じた符号を出力す
    ることを特徴とするデータ符号化方法。
  2. 【請求項2】過去に復号したデータの出現状況に応じ
    て、符号化されたデータを複合化するデータ復号方法に
    おいて、 同じデータが所定数以上連続して現れた場合に、それ以
    後に続く符号を連続長の符号として、連続長を復号し、 同じデータが所定数以上連続して現れない場合に、デー
    タの出現頻度に応じて符号をデータに復号することを特
    徴とするデータ復号方法。
  3. 【請求項3】過去に現れた単位データの出現状況に応じ
    て、入力された単位データを動的に符号化するデータ圧
    縮装置において、 圧縮対象の単位データを入力するデータ入力手段と、 前記データ入力手段によって入力された前記単位データ
    が、所定数以上連続して同一であるか否かを判断する連
    続同一判断手段と、 前記連続同一判断手段で同一でないと判断された場合
    に、入力された単位データを、その単位データの出現頻
    度に応じて符号化し、この符号化により得られた符号を
    出力する第1符号化手段と、 前記連続同一判断手段で同一であると判断された場合
    に、その判断時点以後における同一データの連続出現数
    に応じた符号を出力する第2符号化手段とを備えたこと
    を特徴とするデータ圧縮装置。
  4. 【請求項4】前記第1符号化手段は、 過去に現れた単位データ列である文脈を、複数次数まで
    の範囲で登録した文脈登録テーブルと、 前記文脈登録テーブルに登録された文脈の各次数の単位
    データ毎に符号を割り当てた圧縮用テーブルと、 入力された単位データがその末端に存在する前記一定次
    の文脈を前記文脈登録テーブルから検索する文脈検索手
    段と、 前記文脈検索手段によって検索された前記文脈下におい
    て、前記入力された単位データを登録している最高次数
    の前記圧縮用テーブルを参照して、前記入力された単位
    データの符号を出力する符号出力手段と、 前記入力された単位データが符号化された後に、前記文
    脈と前記単位データとの組み合わせの出現頻度に応じて
    前記圧縮用テーブルの符号を更新する圧縮用テーブル更
    新手段とを有することを特徴とする請求項3に記載のデ
    ータ圧縮装置。
  5. 【請求項5】前記圧縮用テーブルは、単一の根から枝を
    繰り返し分岐させた木構造を有するとともに、末端の節
    点に前記単位データが登録されており、各分岐された枝
    毎に互いに識別可能な符号が与えられており、 前記符号出力手段は、前記根と前記入力された単位デー
    タが登録されている節点とを結ぶ経路上の前記符号を読
    み取ることによって、前記符号を出力することを特徴と
    する請求項4に記載のデータ圧縮装置。
  6. 【請求項6】前記第2符号化手段は、 前記連続出現数を分類したカテゴリに付与される種々の
    カテゴリ識別子と種々の符号とを対応づけたカテゴリテ
    ーブルと、 前記連続出現数を、前記カテゴリのいずれかに分類する
    連続出現数分類手段と、 前記連続出現数分類手段で分類されたカテゴリに付与さ
    れたカテゴリ識別子に対応する符号を前記カテゴリテー
    ブルから読み出して、読み出した符号を出力するカテゴ
    リ識別子符号化手段と、 前記連続出現数分類手段で分類されたカテゴリ内におけ
    る前記連続出現数の位置情報を出力する位置情報出力手
    段とを有することを特徴とする請求項3に記載のデータ
    圧縮装置。
  7. 【請求項7】前記第2符号化手段は、過去に現れた連続
    長数の出現状況に応じて連続長を動的に符号化すること
    を特徴とする請求項3に記載のデータ圧縮装置。
  8. 【請求項8】前記第2符号化手段は、 連続長に対して符号を割り当てた連続長圧縮テーブル
    と、 連続長数に対する前記連続長圧縮テーブルを参照して符
    号を出力する連続長符号化手段とを有し、 前記連続長が符号化された後に、連続長数の出現頻度に
    応じて前記連続長圧縮テーブルを変更することを特徴と
    する請求項3に記載のデータ圧縮装置。
  9. 【請求項9】前記連続同一判断手段は、所定の種類の単
    位データに対してのみ判断を行うことを特徴とする請求
    項3に記載のデータ圧縮装置。
  10. 【請求項10】過去に復号した単位データの出現状況に
    応じて、動的に、入力された符号を復号化した単位デー
    タを出力するデータ復元装置において、 復元対象の符号を入力する符号入力手段と、 前記符号入力手段に入力された符号を、その出現頻度に
    応じて復号化し、この復号化により得られた単位データ
    を出力する第1復号化手段と、 前記第1復号化手段によって復号化された単位データ
    が、所定数以上連続して同一であるか否かを判断する連
    続同一判断手段と、 前記連続同一判断手段により復号化された単位データが
    所定数以上連続して同一であると判断された場合には、
    前記第1復号化手段に代わり、その判断時点の直後に入
    力された符号を、同一データの連続出現数として復号化
    するとともに、前記所定数以上連続している単位データ
    を、前記連続出現数だけ続けて出力する第2復号化手段
    とを備えたことを特徴とするデータ復元装置。
  11. 【請求項11】前記第1復号化手段は、 過去に現れた単位データ列である文脈を、複数次数まで
    の範囲で登録した文脈登録テーブルと、 前記文脈登録テーブルに登録された文脈の各次数の単位
    データ毎に符号を割り当てた復元用テーブルと、 前記入力された符号がその末端に存在すると予想される
    前記一定次の文脈を前記文脈登録テーブルから検索する
    文脈検索手段と、 前記文脈検索手段によって検索された前記一定次の文脈
    に対応する前記復元用テーブルを参照して、前記入力さ
    れた符号に対応する前記単位データを出力する単位デー
    タ出力手段と、 前記入力された符号が復元された後に、前記文脈と復元
    された前記単位データとの組み合わせの出現頻度に応じ
    て前記復元テーブルの符号を更新する復元用テーブル更
    新手段とを有することを特徴とする請求項10に記載の
    データ復元装置。
  12. 【請求項12】前記復元用テーブルは、単一の根から枝
    を繰り返し分岐させた木構造を有するとともに、末端の
    節点に前記単位データが登録されており、各分岐された
    枝毎に互いに識別可能な符号が与えられており、 前記単位データ出力手段は、前記符号と同じ符号が与え
    られている前記根からの経路を辿ることにより、その経
    路の末端の節点に登録されている前記単位データを探
    し、探し出した前記単位データを出力することを特徴と
    する請求項11に記載のデータ復元装置。
  13. 【請求項13】前記第2復号化手段は、 前記連続出現数を分類したカテゴリに付与される種々の
    カテゴリ識別子と種々の符号とを対応づけたカテゴリテ
    ーブルと、 入力された符号に応じたカテゴリ識別子を前記カテゴリ
    テーブルから読み出して、読み出されたカテゴリ識別子
    を有するカテゴリを復号化するカテゴリ復号化手段と、 続けて入力された符号から位置情報を求めるとともに、
    求められた位置情報と前記カテゴリ復号化手段により復
    号化されたカテゴリから、連続出現数を算出する連続出
    現数算出手段と、 前記連続している単位データを、前記連続出現数算出手
    段で算出された前記連続出現数だけ続けて出力する単位
    データ出力手段とを有することを特徴とする請求項10
    に記載のデータ復元装置。
  14. 【請求項14】前記第2復号化手段は、過去に現れた連
    続長数の出現頻度に応じて、動的に連続長を復号するこ
    とを特徴とする請求項10に記載のデータ復元装置。
  15. 【請求項15】前記第2復号化手段は、 連続長に対して符号を割り当てた連続長圧縮テーブル
    と、 前記連続長圧縮テーブルを参照して符号を連続長に復号
    する連続長復号化手段とを有し、 前記連続長が復号化された後に、連続長数の出現頻度に
    応じて前記連続長圧縮テーブルを変更することを特徴と
    する請求項10に記載のデータ復元装置。
  16. 【請求項16】前記連続同一判断手段は、所定の種類の
    単位データに対してのみ判断を行うことを特徴とする請
    求項10に記載のデータ復元装置。
  17. 【請求項17】請求項3に記載のデータ圧縮装置と請求
    項10に記載のデータ復元装置とからなるデータ圧縮・
    復元システムであって、 前記圧縮用テーブルの内容と前記復元用テーブルの内容
    とが同一であることを特徴とするデータ圧縮・復元シス
    テム。
JP7314525A 1995-12-01 1995-12-01 データ符号化方法、データ復号方法、データ圧縮装置、データ復元装置、及びデータ圧縮・復元システム Pending JPH09162748A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP7314525A JPH09162748A (ja) 1995-12-01 1995-12-01 データ符号化方法、データ復号方法、データ圧縮装置、データ復元装置、及びデータ圧縮・復元システム
US08/732,054 US5844508A (en) 1995-12-01 1996-10-17 Data coding method, data decoding method, data compression apparatus, and data decompression apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7314525A JPH09162748A (ja) 1995-12-01 1995-12-01 データ符号化方法、データ復号方法、データ圧縮装置、データ復元装置、及びデータ圧縮・復元システム

Publications (1)

Publication Number Publication Date
JPH09162748A true JPH09162748A (ja) 1997-06-20

Family

ID=18054343

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7314525A Pending JPH09162748A (ja) 1995-12-01 1995-12-01 データ符号化方法、データ復号方法、データ圧縮装置、データ復元装置、及びデータ圧縮・復元システム

Country Status (2)

Country Link
US (1) US5844508A (ja)
JP (1) JPH09162748A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011193299A (ja) * 2010-03-15 2011-09-29 Omron Corp タグ通信装置、タグ通信装置の制御方法、およびタグ通信装置制御プログラム
WO2014027429A1 (ja) * 2012-08-17 2014-02-20 大日本スクリーン製造株式会社 データ圧縮方法及びその装置並びにそのプログラム

Families Citing this family (54)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6144658A (en) * 1996-12-20 2000-11-07 Cisco Technology, Inc. Repetitive pattern removal in a voice channel of a communication network
US6415061B1 (en) 1997-06-13 2002-07-02 Cisco Technology, Inc. Method of updating dictionaries in a data transmission system using data compression
US6704866B1 (en) 1997-07-11 2004-03-09 Cisco Technology, Inc. Compression and encryption protocol for controlling data flow in a network
KR100274213B1 (ko) * 1997-11-21 2000-12-15 윤종용 Rll(2,25)코드를 이용한 7/13 채널코딩 및 채널디코딩방법
US6401188B1 (en) 1998-02-27 2002-06-04 Cisco Technology, Inc. Method for selection on a pattern sequence
US6081211A (en) * 1998-04-08 2000-06-27 Xerox Corporation Minimal buffering method and system for optimized encoding tables in JPEG compression
US6603414B1 (en) * 1999-01-29 2003-08-05 Compaq Computer Corporation Method for digital compression of characters
US6341346B1 (en) 1999-02-05 2002-01-22 Cisco Technology, Inc. Method for comparison between a pattern sequence and a variable length key
US6718535B1 (en) 1999-07-30 2004-04-06 Accenture Llp System, method and article of manufacture for an activity framework design in an e-commerce based environment
US7100195B1 (en) 1999-07-30 2006-08-29 Accenture Llp Managing user information on an e-commerce system
US6609128B1 (en) * 1999-07-30 2003-08-19 Accenture Llp Codes table framework design in an E-commerce architecture
US6704873B1 (en) 1999-07-30 2004-03-09 Accenture Llp Secure gateway interconnection in an e-commerce based environment
US7274671B2 (en) * 2001-02-09 2007-09-25 Boly Media Communications, Inc. Bitwise adaptive encoding using prefix prediction
US6583736B1 (en) * 2001-12-26 2003-06-24 Sun Microsystems, Inc. Bitcode sequence coding of frequently occurring values
US6522270B1 (en) * 2001-12-26 2003-02-18 Sun Microsystems, Inc. Method of coding frequently occurring values
ATE381090T1 (de) 2002-09-04 2007-12-15 Microsoft Corp Entropische kodierung mittels anpassung des kodierungsmodus zwischen niveau- und lauflängenniveau-modus
KR20040054206A (ko) * 2002-12-18 2004-06-25 삼성전자주식회사 복잡도를 줄인 코드 테이블을 사용하는 복조 장치 및 그방법
US7617501B2 (en) 2004-07-09 2009-11-10 Quest Software, Inc. Apparatus, system, and method for managing policies on a computer having a foreign operating system
US7587084B1 (en) 2004-07-15 2009-09-08 Sun Microsystems, Inc. Detection of anti aliasing in two-color images for improved compression
US7620258B2 (en) * 2004-08-18 2009-11-17 Cisco Technology, Inc. Extended amplitude coding for clustered transform coefficients
US7680349B2 (en) * 2004-08-18 2010-03-16 Cisco Technology, Inc. Variable length coding for clustered transform coefficients in video compression
US7849165B2 (en) 2005-04-21 2010-12-07 Fiducci Thomas E Data backup, storage, transfer, and retrieval system, method and computer program product
US8126990B2 (en) 2005-04-21 2012-02-28 Fiducci Thomas E Data backup and transfer system, method and computer program product
US7580580B1 (en) 2005-07-12 2009-08-25 Sun Microsystems, Inc. Method for compression of two-color anti aliased images
US7684981B2 (en) 2005-07-15 2010-03-23 Microsoft Corporation Prediction of spectral coefficients in waveform coding and decoding
US7693709B2 (en) * 2005-07-15 2010-04-06 Microsoft Corporation Reordering coefficients for waveform coding or decoding
US7599840B2 (en) * 2005-07-15 2009-10-06 Microsoft Corporation Selectively using multiple entropy models in adaptive coding and decoding
US7565018B2 (en) 2005-08-12 2009-07-21 Microsoft Corporation Adaptive coding and decoding of wide-range coefficients
US7933337B2 (en) 2005-08-12 2011-04-26 Microsoft Corporation Prediction of transform coefficients for image compression
US7904949B2 (en) 2005-12-19 2011-03-08 Quest Software, Inc. Apparatus, systems and methods to provide authentication services to a legacy application
US8087075B2 (en) 2006-02-13 2011-12-27 Quest Software, Inc. Disconnected credential validation using pre-fetched service tickets
US8429712B2 (en) 2006-06-08 2013-04-23 Quest Software, Inc. Centralized user authentication system apparatus and method
US7895332B2 (en) 2006-10-30 2011-02-22 Quest Software, Inc. Identity migration system apparatus and method
US8086710B2 (en) 2006-10-30 2011-12-27 Quest Software, Inc. Identity migration apparatus and method
US8184710B2 (en) 2007-02-21 2012-05-22 Microsoft Corporation Adaptive truncation of transform coefficient data in a transform-based digital media codec
US8063800B2 (en) * 2007-11-02 2011-11-22 Symbol Technologies, Inc. Efficient encoding and decoding of mixed data strings in RFID tags and other media
US7518538B1 (en) * 2007-11-30 2009-04-14 Red Hat, Inc. Adaptive entropy coding compression with multi-level context escapes
US7605721B2 (en) * 2007-11-30 2009-10-20 Red Hat, Inc. Adaptive entropy coding compression output formats
US7612693B2 (en) * 2008-02-27 2009-11-03 Red Hal, Inc. Difference coding adaptive context model
US7612692B2 (en) * 2008-02-27 2009-11-03 Red Hat, Inc. Bidirectional context model for adaptive compression
US7538697B1 (en) * 2008-02-27 2009-05-26 Red Hat, Inc. Heuristic modeling of adaptive compression escape sequence
US8179974B2 (en) 2008-05-02 2012-05-15 Microsoft Corporation Multi-level representation of reordered transform coefficients
US8406307B2 (en) 2008-08-22 2013-03-26 Microsoft Corporation Entropy coding/decoding of hierarchically organized data
US8386511B2 (en) * 2009-02-27 2013-02-26 Red Hat, Inc. Measuring contextual similarity
US8396850B2 (en) * 2009-02-27 2013-03-12 Red Hat, Inc. Discriminating search results by phrase analysis
US8527500B2 (en) * 2009-02-27 2013-09-03 Red Hat, Inc. Preprocessing text to enhance statistical features
US8438558B1 (en) 2009-03-27 2013-05-07 Google Inc. System and method of updating programs and data
US10891659B2 (en) * 2009-05-29 2021-01-12 Red Hat, Inc. Placing resources in displayed web pages via context modeling
US8255984B1 (en) 2009-07-01 2012-08-28 Quest Software, Inc. Single sign-on system for shared resource environments
US8321326B2 (en) 2009-09-15 2012-11-27 Auerbach Group Llc Method and system for enhancing the efficiency of a digitally communicated data exchange
CN107930112B (zh) * 2017-11-15 2021-06-08 杭州电魂网络科技股份有限公司 游戏数据传输方法及装置
CN111384959B (zh) * 2018-12-28 2024-03-19 上海寒武纪信息科技有限公司 编码方法、处理器、编码模块及存储介质
CN109831211B (zh) * 2019-02-10 2023-04-11 张元囝 使用控制符的半动态数据压缩算法
CN113242264B (zh) * 2021-07-09 2021-09-24 中国人民解放军国防科技大学 一种对大容量数据进行压缩存储的方法和系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3553362A (en) * 1969-04-30 1971-01-05 Bell Telephone Labor Inc Conditional replenishment video system with run length coding of position
US4028731A (en) * 1975-09-29 1977-06-07 International Business Machines Corporation Apparatus for compression coding using cross-array correlation between two-dimensional matrices derived from two-valued digital images
JPS5412515A (en) * 1977-06-29 1979-01-30 Ricoh Co Ltd Data compression system
JPH0815262B2 (ja) * 1986-12-12 1996-02-14 株式会社日立製作所 データ圧縮復元処理装置
JPH01216674A (ja) * 1988-02-24 1989-08-30 Nec Corp 画像信号の符号化方式とその装置
DE69020424T2 (de) * 1989-04-26 1995-11-09 Canon Kk Bildkodierverfahren.
JPH0434669A (ja) * 1990-05-31 1992-02-05 Toshiba Corp 画像処理方式

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011193299A (ja) * 2010-03-15 2011-09-29 Omron Corp タグ通信装置、タグ通信装置の制御方法、およびタグ通信装置制御プログラム
US8519829B2 (en) 2010-03-15 2013-08-27 Omron Corporation Tag communication apparatus, tag communication apparatus control method, and tag communication apparatus control program
WO2014027429A1 (ja) * 2012-08-17 2014-02-20 大日本スクリーン製造株式会社 データ圧縮方法及びその装置並びにそのプログラム

Also Published As

Publication number Publication date
US5844508A (en) 1998-12-01

Similar Documents

Publication Publication Date Title
JPH09162748A (ja) データ符号化方法、データ復号方法、データ圧縮装置、データ復元装置、及びデータ圧縮・復元システム
US6522268B2 (en) Systems and methods for multiple-file data compression
US5907637A (en) Method and apparatus for compressing and decompressing data
EP0951753B1 (en) Computer sorting system for data compression
JP3009727B2 (ja) 改良形データ圧縮装置
JP2840589B2 (ja) データ圧縮装置及びデータ復元装置
JP3276860B2 (ja) データ圧縮/復元方法
JP3258552B2 (ja) データ圧縮装置及びデータ復元装置
EP0127815B1 (en) Data compression method
US6801141B2 (en) Method for lossless data compression using greedy sequential context-dependent grammar transform
JPH08223054A (ja) データ符号化/復号化方法及び装置
JPH08167852A (ja) データ圧縮方法及び装置
Yang et al. Efficient universal lossless data compression algorithms based on a greedy sequential grammar transform. 2. With context models
JP2536422B2 (ja) デ―タ圧縮装置及びデ―タ復元装置
Yokoo An adaptive data compression method based on context sorting
JP2001136075A (ja) データ圧縮/復元装置及びデータ圧縮/復元プログラムを記録した記憶媒体
Shanmugasundaram et al. Text preprocessing using enhanced intelligent dictionary based encoding (EIDBE)
Pathak et al. Data compression scheme of dynamic Huffman code for different languages
JP3425143B2 (ja) データ圧縮方法及びデータ復元方法並びにデータ圧縮装置及びデータ復元装置
JPH05241776A (ja) データ圧縮方式
JPH1155125A (ja) 文字データの圧縮・復元方法
JPH06202844A (ja) データ圧縮復元処理装置
Gupta et al. Searching a pattern in compressed DNA sequences
Yokoo et al. Data compression by context sorting
JP3425142B2 (ja) データ圧縮方法及びデータ復元方法並びにデータ圧縮装置及びデータ復元装置

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20020723