JPH09162748A

JPH09162748A - データ符号化方法、データ復号方法、データ圧縮装置、データ復元装置、及びデータ圧縮・復元システム

Info

Publication number: JPH09162748A
Application number: JP7314525A
Authority: JP
Inventors: Kimitaka Murashita; 君孝村下; Yoshiyuki Okada; 佳之岡田; Shigeru Yoshida; 茂吉田
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1995-12-01
Filing date: 1995-12-01
Publication date: 1997-06-20
Also published as: US5844508A

Abstract

(57)【要約】【課題】本発明の課題は、同一データが連続して出現
した場合の最大圧縮率を、符号木を用いた単一の符号化
方式だけで符号化する場合の最大圧縮率よりも上げるこ
とが可能なデータ符号化方法、データ圧縮装置及びデー
タ圧縮・復元システムを提供することと、このデータ符
号化方法、データ圧縮装置及びデータ圧縮・復元システ
ムから出力される符号からデータを復元できるデータ復
号方法、データ復元装置及びデータ圧縮・復元システム
を提供することである。【解決手段】データ符号化方法は、同じデータが所定
数以上連続して現れた場合に、それ以後に続く同一デー
タの連続出現数を符号化し、同じデータが所定数以上連
続して現れない場合に、入力データに対してデータの出
現頻度に応じた符号を出力するように構成した。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、データ符号化方
法、データ復号方法、データ圧縮装置、データ復元装置
及びデータ圧縮・復元システムに関し、特に、コンピュ
ータにおいてデータを格納又は送信する場合等におい
て、データを圧縮するとともにデータ使用時において復
元するためのデータ符号化方法、データ復号方法、デー
タ圧縮装置、データ復元装置及びデータ圧縮・復元シス
テムに関する。

【０００２】

【従来の技術】近年、文字コード、画像データ等の様々
な種類のデータがコンピュータで扱われるようになり、
取り扱われるデータ量も増大している。そのような大量
のデータは、データ中の冗長な部分を省くことにより、
圧縮することが可能である。このようにデータの圧縮を
行うことにより、ディスク容量を見かけ上大きくした
り、遠隔地への伝送時間を短縮（送るデータ量が減るこ
とによる）することができる。

【０００３】上記した様々な種類のデータを１つの方式
で圧縮できる方法として、ユニバーサル符号化による圧
縮方式がある。以下に、ユニバーサル符号化によるデー
タ圧縮方式の説明を行う。なお、上述のように、ユニバ
ーサル符号化はあらゆる種類のデータに適用できるが、
以下の説明では、文字コードの符号化を例にとって説明
を行う。また、情報理論に基づき、説明文中において、
データの１ワード単位を「文字」と呼び、任意の文字が
繋がったものを「文字列」と呼ぶ。

【０００４】ユニバーサル符号化方式には大きく分けて
次の２種類がある。データ系列の類似性を利用した辞書
型符号化方式と、データ列の出現頻度を利用した確率統
計型符号化方式である。本発明は、後者、確率統計型符
号化方式に関するものである。

【０００５】確率統計型符号化方式の中の代表的な方式
の一つにハフマン符号化方式がある。このハフマン符号
化方式は、情報源の文字の出現頻度が判っており且つ一
文字単位で符号化する方式では、最も圧縮効果の高い方
式である。この方式は、「節点」と各節点を結ぶ「枝」
からなる木構造で表現する符号表（以下、符号木と称す
る）を用いる。

【０００６】木の各部の名称を、図１４を参照して説明
する。まず、一番上にある節点を「根」と呼ぶ。図１４
の例では、節点１が根となる。ある節点（仮に“Ｘ”と
する）に枝で接続されている下の節点（仮に“Ｙ”とす
る）を、「節点Ｘの子」と呼び、逆に点Ｘを、「節点Ｙ
の親」と呼ぶ。例えば、節点６の子は節点８と節点９で
あり、節点６の親は節点３である。また、親の親、その
また親などを「先祖」と呼び、子の子、そのまた子など
を「子孫」と呼ぶ。例えば、節点５の先祖は節点１のみ
であり、節点３の子孫は節点８と節点９である。さら
に、二つの節点の親が同一の節点である時、これらの節
点を「兄弟」と呼ぶ。子を持たない節点のことを「葉」
と呼ぶ。また、葉でない節点のことを「内部節点」と呼
ぶ。このような符号木においては、符号木の各葉に文字
を割り当てている。そして、各枝は、必ず一つの節点か
ら二つに分岐しているので、各々に"０"又は"１"の符号
が与えられる。従って、各葉に割り当てられた文字に
は、根からその葉までの経路をなす各枝に付された符号
の列が、１対１で対応する。従って、ある文字を符号化
する場合には、根からこの文字に対応した葉までの経路
（枝）を辿ることにより、一義的に、特定の２進数で表
された符号に変換することができる。

【０００７】このような符号木を作成するためのハフマ
ン符号化の原理を、図１５を参照して説明する。ハフマ
ン符号化においては、最初に、出現した各文字（以下、
「シンボル」と称する）に対応する葉を作り、それぞれ
の葉には、そのシンボルの生起確率または出現頻度を書
いておく。なお、この葉は、右から左に向けて出現頻度
（出現確率）が高くなるように並べられる。

【０００８】そして、生起確率の最も低い（最も出現頻
度の少ない）２つの葉を子とする親の節点を新しく一つ
作る。この新しい節点（親）には、２つの葉（子）の生
起確率の和を書き込む。また、この新しい節点（親）と
２つの葉（子）との間を、２本の枝で結ぶ。この２本の
枝のうち、右側のものには“１”の値を付与し、左側の
ものには“０”の値を付与する。

【０００９】次に、残りの葉と新しい節点とを比較し、
それらのうちで最も生起確率の低い２つを選び、それら
２つの節点又は葉を子とする親の節点を新しく一つ作
る。また、この新しい節点（親）と２つの子との間を、
２本の枝で結ぶ。以上の作業を、根が生成されて全体が
１つの木になるまで続ける。最終的に得られた符号木に
おいて、根から葉までたどった経路がその葉に対応する
符号語になる。上述したように、各枝には“０”又は
“１”の符号が付与されているので、各分岐点において
経路を左に分岐した時には“０”が、また、右に分岐し
た時には“１”が割り当てられて、一連の符号語を表す
ことになる。図１５の符号木を作成することによって得
られるシンボルと符号語との関係を、図１６の表に示
す。

【００１０】このようなハフマン符号化方式（確率統計
型符号化方式）は、さらに、予め各シンボルの生起確率
が求まっている静的符号化方式(static)、最初に全文字
列を走査して各シンボルの生起確率を得る準適応型符号
化方式(semi-adaptive) 、及び、シンボルが出現する毎
に頻度をとり生起確率を再計算する適応型符号化方式(a
daptive)に分類される。本発明は、データ形式に依存せ
ず、１パスで符号化が行える適応型符号化方式に関する
ものである。

【００１１】この適応型符号化方式において、各シンボ
ルの出現頻度が変化するたびに、木の構造及び符号が更
新されてゆく様子を図１７に例示する。図１７（ａ）
は、初期段階において作成される符号木を示している。
図１７において、丸の節点は内部節点を意味し、正方形
の節点は葉を示す。また、各節点を示す丸又は正方形の
内側に記された数字は、節点番号（順位）を示してい
る。また、各節点の右肩に付された数字は、各節点に登
録された生起頻度である。また、葉の下に示されたアル
ファベットは、登録されたシンボルを示している。従っ
て、図１７（ａ）の段階では、シンボル“ａ”〜“ｇ”
の生起頻度は、それぞれ、“７”、“６”、“５”、
“５”、“３”、“２”、“１”となっている。

【００１２】この状態からシンボル“ｇ”が表れると、
図１７（ｂ）に示すように、この符号木による符号化が
行われた後に、節点１５の生起頻度が“２”に増加され
る。これにより、親の節点１３及び先祖の節点９，２，
０の頻度も、それぞれ、１つインクリメントされる。増
加された結果、節点１３の頻度“４”が隣の節点１２の
頻度“３”と比較して大きくなるので、節点１２と節点
１３の入れ替えが行われる。同様に、その親の節点９と
節点８とを入れ替える（図１７（ｃ）参照）。また、そ
の親の節点２と節点１とは頻度が逆転していないので、
それらの入れ替えは行わない。従って、一つのシンボル
“ｇ”の生起によって、符号木の形態は、最終的に図１
７（ｄ）に示す状態にまで変化する。

【００１３】図１８乃至図２５は、シンボルが次々に生
起された場合における符号木の変化を示している。初期
状態において各シンボルの生起頻度が図１９に示す通り
であるとすると、符号木の状態は図１８に示すようにな
る。この符号木によれば、図１９に示すように、“ａ”
及び“ｂ”は２ビットに圧縮でき、“ｃ”、“ｄ”及び
“ｇ”は３ビットに圧縮でき、“ｅ”及び“ｆ”は４ビ
ットに圧縮できる。図１８及び図１９の状態から、シン
ボル“ａ”が１８回生起してその生起頻度が“２５”に
なると、符号木の状態は図２０に示すようになる。この
符号木によれば、図２１に示すように、“ａ”は１ビッ
トに圧縮でき、“ｂ”、“ｃ”、“ｄ”は３ビットに圧
縮でき、“ｇ”は４ビットに圧縮でき、“ｅ”及び
“ｆ”は５ビットに圧縮できる。この状態から、シンボ
ル“ｇ”が１６回生起してその生起頻度が“２０”にな
ると、符号木の状態は図２２に示すようになり、各シン
ボルの圧縮量は、図２３に示すようになる。この状態か
ら、シンボル“ｃ”が５回生起してその生起頻度が“１
０”になると、符号木の状態は図２４に示すようにな
り、各シンボルの圧縮量は、図２５に示すようになる。

【００１４】このように、適応型符号化方式によると、
シンボルの生起頻度が増すにつれて、当該シンボルに対
応する符号語の長さが短くなる。即ち、圧縮効果が上が
る。なお、このように符号木の構成が次第に変化する
と、データの初めと終わりとでは、同じシンボルに対応
する符号語が別のものとなってしまう。しかしながら、
データの復元側は圧縮側と同じ符号木を作成していると
ともに、データの圧縮側は、生起されたシンボルに対す
る符号化を行った後に符号木の更新を行っている。従っ
て、データの復元側は、出力される符号語を見ること
で、自分の符号木を圧縮側と同期して更新することがで
きる。そのため、符号語とシンボルとの対応の変化に拘
わらず、元のシンボルを復元することができる。

【００１５】また、上述の静的符号化方式あるいは準適
応型符号化方式では、符号木上には入力に表れる全ての
シンボルが予め登録されており、シンボルの追加はでき
ない。これに対して、適応型符号化方式の場合には、シ
ンボルの生起毎に、シンボルの生起確率を再計算するの
で、シンボルの追加登録をすることが可能である。この
ような適応型符号化方式において、シンボルを追加登録
する場合の手順を、図２６を参照して説明する。

【００１６】まず、図２６（ａ）に示すように、初期設
定時においては、符号木上に「未登録」を意味するコー
ド（以下、エスケープコードまたはＥＳＣと称する）と
ファイルの最後を示すコード（以下、ＥＯＦと称する）
のみを登録する。そして、出現したシンボルが符号木上
に登録されていない場合は、ＥＳＣに対応する符号語と
シンボルの生データ（圧縮前のデータ）とを出力する。
しかる後に、ＥＳＣの頻度を“１”だけ増加させるとと
もに、符号木内で最も重みの低い節点（葉）を分岐す
る。分岐によってできた新しい葉の一つには、元の節点
のシンボル（最も出現頻度の少ないシンボル）を登録
し、他の葉には、新規登録のシンボルを登録する（図２
６（ｂ））。

【００１７】上記の説明は、一文字毎の生起確率に基づ
いて動的に可変長符号化する場合について述べた。さら
に圧縮効果を高めるためには、入力文字と直前の文字と
の依存関係（以下、「文脈」と称する）を取り入れた、
条件付き出現確率を用いて可変長符号化することで実現
できる。即ち、文字列がある文脈通りに生成される確率
が高くなっている状態下では、文脈の最初のシンボルが
生成された場合に、次に生成されるであろうシンボルを
ある程度（文脈を構成する次のシンボルに）絞ることが
できる。従って、この最初のシンボルが生成された条件
下において適用される符号木を用意しておけば、次のシ
ンボルに対応する符号語の長さを短くすることができ
る。即ち、圧縮率を高めることができるのである。

【００１８】「文脈」を取り入れた条件付き出現確率を
用いる場合、文脈及び符号化対象文字は、図２７（ａ）
に示すように木構造で表される（以下、文脈木と称す
る）。この文脈木は、過去に入力された文脈（文字列の
流れ）をまとめたものである。文脈木の各節点は、文脈
木における子の節点を葉とする符号木を備えている。こ
の符号木には、各文脈において次のシンボルが出現する
頻度を登録している。このようにして、あるシンボルが
生起された場合において次のシンボルが生起する確率
を、条件付き確率として求めることができるのである。

【００１９】この文脈収集方法には、以下に示す２つの
方法がある。その第１の方法は、条件付き確率の条件の
字数を固定にする方法である。ここで、次数とは、条件
付き確率を求める文脈の長さのことである。この場合、
例えば、２次の文脈に固定したとすると、直前２文字に
繋がる文字の文脈のみを収集して、条件付き確率Ｐ（Ｙ
｜Ｘ１，Ｘ２）を得るのである。ただし、Ｙは注目符号
化文字であり、Ｘ１及びＸ２は、それぞれ、直前の第１
文字及び第２文字である。また、その第２の方法は、条
件文字列の長さを固定せずに入力データに応じて次数を
伸ばす方法である。これをBlending文脈という。

【００２０】

【発明が解決しようとする課題】以上に説明したよう
に、ハフマン符号化方式は、符号木を用いる符号化方式
のうちで、最大の効率でデータ圧縮をすることができる
方式である。とりわけ、適応型ハフマン符号化は、各文
字の生起確率をあらかじめ保持する必要もなく、一つの
ファイル内で生起確率が変動するのに追従できる利点が
あった。

【００２１】しかしながら、符号化対象文字が１バイト
で表される場合に、１つの符号化対象文字を１ビット以
下の符号で表すことは原理的に不可能なため、ハフマン
符号化方式の最大圧縮率が０．１２５（＝１／８）を越
えることはなかった。

【００２２】ところで、例えば“２０ｈ”（アスキーコ
ードの空白を表す文字）や“０ｈ”（ヌル(null)を表す
文字）などのように、連続して出現しやすい文字列に対
しては、ハフマン符号化方式以外の方式を適用すること
により、最大圧縮率を０．１２５より上げることが十分
に可能である。

【００２３】本発明の課題は、同一データが連続して出
現した場合の最大圧縮率を、符号木を用いた単一の符号
化方式だけで符号化する場合の最大圧縮率よりも上げる
ことが可能なデータ符号化方法、データ圧縮装置及びデ
ータ圧縮・復元システムを提供することと、このデータ
符号化方法、データ圧縮装置及びデータ圧縮・復元シス
テムから出力される符号からデータを復元できるデータ
復号方法、データ復元装置及びデータ圧縮・復元システ
ムを提供することである。

【００２４】

【課題を解決するための手段】本発明のデータ符号化方
法、データ復号方法、データ圧縮装置、データ復元装置
及びデータ圧縮・復元システムは、上記課題を解決する
ために、以下の手段を採用した。

【００２５】＜データ符号化方法及びデータ復号方法の
基本構成＞本発明によるデータ符号化方法は、過去に現
れたデータの出現状況に応じて、入力されたデータを符
号化するデータ符号化方法において、同じデータが所定
数以上連続して現れた場合に、それ以後に続く同一デー
タの連続出現数を符号化し、同じデータが所定数以上連
続して現れない場合に、入力データに対してデータの出
現頻度に応じた符号を出力することを特徴とする（請求
項１に対応）。

【００２６】また、本発明によるデータ復号方法は、過
去に復号したデータの出現状況に応じて、符号化された
データを複合化するデータ復号方法において、同じデー
タが所定数以上連続して現れた場合に、それ以後に続く
符号を連続長の符号として、連続長を復号し、同じデー
タが所定数以上連続して現れない場合に、データの出現
頻度に応じて符号をデータに復号することを特徴とする
（請求項２に対応）。

【００２７】＜データ圧縮装置及びデータ復元装置の基
本構成＞本発明の第１の態様の原理を図１に示す。即
ち、本発明によるデータ圧縮装置（１００）は、過去に
現れた単位データの出現状況に応じて、入力された単位
データを動的に符号化するデータ圧縮装置（１００）に
おいて、圧縮対象の単位データを入力するデータ入力手
段（１９１）と、前記データ入力手段（１９１）によっ
て入力された前記単位データが、所定数以上連続して同
一であるか否かを判断する連続同一判断手段（１９２）
と、前記連続同一判断手段（１９２）で同一でないと判
断された場合に、入力された単位データを、その単位デ
ータの出現頻度に応じて符号化し、この符号化により得
られた符号を出力する第１符号化手段（１９３）と、前
記連続同一判断手段（１９２）で同一であると判断され
た場合に、その判断時点以後における同一データの連続
出現数に応じた符号を出力する第２符号化手段（１９
４）とを備えたことを特徴とする（請求項３に対応）。

【００２８】また、本発明によるデータ復元装置（２０
０）は、過去に復号した単位データの出現状況に応じ
て、動的に、入力された符号を復号化した単位データを
出力するデータ復元装置（２００）において、復元対象
の符号を入力する符号入力手段（２９１）と、前記符号
入力手段（２９１）に入力された符号を、その出現頻度
に応じて復号化し、この復号化により得られた単位デー
タを出力する第１復号化手段（２９３）と、前記第１復
号化手段（２９３）によって復号化された単位データ
が、所定数以上連続して同一であるか否かを判断する連
続同一判断手段（２９２）と、前記連続同一判断手段
（２９２）により復号化された単位データが所定数以上
連続して同一であると判断された場合には、前記第１復
号化手段（２９３）に代わり、その判断時点の直後に入
力された符号を、同一データの連続出現数として復号化
するとともに、前記所定数以上連続している単位データ
を、前記連続出現数だけ続けて出力する第２復号化手段
（２９４）とを備えたことを特徴とする（請求項１０に
対応）。

【００２９】さらに、本発明によるデータ圧縮・復元シ
ステムは、上述のデータ圧縮装置（１００）と上述のデ
ータ復元装置（２００）とからなるデータ圧縮・復元シ
ステムであって、前記圧縮用テーブルの内容と前記復元
用テーブルの内容とが同一であることを特徴とする（請
求項１７に対応）。

【００３０】ここで、「単位データ」とは、文字（シン
ボル）であっても良いし、画像データであっても良い
し、その他のデータであっても良い。＜第１符号化手段（１９３）及び第１復号化手段（２９
３）を変形させた構成＞前記第１符号化手段（１９３）
は、過去に現れた単位データ列である文脈を、複数次数
までの範囲で登録した文脈登録テーブルと、前記文脈登
録テーブルに登録された文脈の各次数の単位データ毎に
符号を割り当てた圧縮用テーブルと、入力された単位デ
ータがその末端に存在する前記一定次の文脈を前記文脈
登録テーブルから検索する文脈検索手段と、前記文脈検
索手段によって検索された前記文脈下において、前記入
力された単位データを登録している最高次数の前記圧縮
用テーブルを参照して、前記入力された単位データの符
号を出力する符号出力手段と、前記入力された単位デー
タが符号化された後に、前記文脈と前記単位データとの
組み合わせの出現頻度に応じて前記圧縮用テーブルの符
号を更新する圧縮用テーブル更新手段とを有するように
構成しても良い（請求項４に対応）。

【００３１】また、前記第１復号化手段（２９３）は、
過去に現れた単位データ列である文脈を、複数次数まで
の範囲で登録した文脈登録テーブルと、前記文脈登録テ
ーブルに登録された文脈の各次数の単位データ毎に符号
を割り当てた復元用テーブルと、前記入力された符号が
その末端に存在すると予想される前記一定次の文脈を前
記文脈登録テーブルから検索する文脈検索手段と、前記
文脈検索手段によって検索された前記一定次の文脈に対
応する前記復元用テーブルを参照して、前記入力された
符号に対応する前記単位データを出力する単位データ出
力手段と、前記入力された符号が復元された後に、前記
文脈と復元された前記単位データとの組み合わせの出現
頻度に応じて前記復元テーブルの符号を更新する復元用
テーブル更新手段とを有するように構成しても良い（請
求項１１に対応）。

【００３２】＜木構造のテーブルを採用する場合の構成
＞前記圧縮用テーブル及び前記復元用テーブルは、単一
の根から枝を繰り返し分岐させた木構造を有していても
良い。

【００３３】この場合、前記圧縮用テーブルには、末端
の節点に前記単位データが登録されるとともに、各分岐
された枝毎に互いに識別可能な符号が与えられる。そし
て、前記符号出力手段は、前記根と前記入力された単位
データが登録されている節点とを結ぶ経路上の前記符号
を読み取ることによって、前記符号を出力する（請求項
５に対応）。

【００３４】一方、前記復元用テーブルは、末端の節点
に前記単位データが登録されるとともに、各分岐された
枝毎に互いに識別可能な符号が与えられる。そして、前
記単位データ出力手段は、前記符号と同じ符号が与えら
れている前記根からの経路を辿ることにより、その経路
の末端の節点に登録されている前記単位データを探し、
探し出した前記単位データを出力する（請求項１２に対
応）。

【００３５】＜第２符号化手段（１９４）及び第２復号
化手段を変形させた構成＞前記第２符号化手段（１９
４）は、前記連続出現数を分類したカテゴリに付与され
る種々のカテゴリ識別子と種々の符号とを対応づけたカ
テゴリテーブルと、前記連続出現数を、前記カテゴリの
いずれかに分類する連続出現数分類手段と、前記連続出
現数分類手段で分類されたカテゴリに付与されたカテゴ
リ識別子に対応する符号を前記カテゴリテーブルから読
み出して、読み出した符号を出力するカテゴリ識別子符
号化手段と、前記連続出現数分類手段で分類されたカテ
ゴリ内における前記連続出現数の位置情報を出力する位
置情報出力手段とを有していても良い（請求項６に対
応）。

【００３６】また、前記第２符号化手段（１９４）は、
過去に現れた連続長数の出現状況に応じて連続長を動的
に符号化するようにしてもよい（請求項７に対応）。そ
して、前記第２符号化手段（１９４）は、連続長に対し
て符号を割り当てた連続長圧縮テーブルと、連続長数に
対する前記連続長圧縮テーブルを参照して符号を出力す
る連続長符号化手段とを有し、前記連続長が符号化され
た後に、連続長数の出現頻度に応じて前記連続長圧縮テ
ーブルを変更するようにしてもよい（請求項８に対
応）。

【００３７】次に、前記第２復号化手段（２９４）は、
前記連続出現数を分類したカテゴリに付与される種々の
カテゴリ識別子と種々の符号とを対応づけたカテゴリテ
ーブルと、入力された符号に応じたカテゴリ識別子を前
記カテゴリテーブルから読み出して、読み出されたカテ
ゴリ識別子を有するカテゴリを復号化するカテゴリ復号
化手段と、続けて入力された符号から位置情報を求める
とともに、求められた位置情報と前記カテゴリ復号化手
段により復号化されたカテゴリから、連続出現数を算出
する連続出現数算出手段と、前記連続している単位デー
タを、前記連続出現数算出手段で算出された前記連続出
現数だけ続けて出力する単位データ出力手段とを有して
いても良い（請求項１３に対応）。

【００３８】また、前記第２復号化手段（２９４）は、
過去に現れた連続長数の出現頻度に応じて、動的に連続
長を復号するようにしてもよい（請求項１４に対応）。
そして、前記第２復号化手段（２９４）は、連続長に対
して符号を割り当てた連続長圧縮テーブルと、前記連続
長圧縮テーブルを参照して符号を連続長に復号する連続
長復号化手段とを有し、前記連続長が復号化された後
に、連続長数の出現頻度に応じて前記連続長圧縮テーブ
ルを変更するようにしてもよい（請求項１５に対応）。

【００３９】＜連続同一判断手段を変形させた構成＞前
記データ圧縮装置（１００）の前記連続同一判断手段
（１９２）又は前記データ復元装置（２００）の前記連
続同一判断手段（２９２）は、所定の種類の単位データ
に対してのみ判断を行うようにしても良い（請求項９、
請求項１６に対応）。

【００４０】＜本発明の作用＞データ圧縮装置（１０
０）において、データ入力手段（１９１）が単位データ
を入力すると、連続同一判断手段（１９２）は、所定数
以上連続して同一であるか否かを判断する。同一でない
と判断された場合に、第１符号化手段（１９３）は、入
力された単位データを、その単位データの出現頻度に応
じて符号化し、この符号化により得られた符号を出力す
る。一方、同一であると判断された場合に、第２符号化
手段（１９４）は、その判断時点以後における同一デー
タの連続出現数に応じた符号を出力する（請求項３〜請
求項９の作用）。

【００４１】次に、データ復元装置（２００）におい
て、符号入力手段（２９１）が復元対象の符号を入力す
ると、第１復号化手段（２９３）は、入力された符号
を、その単位データ列の出現頻度に応じて復号化し、こ
の復号化により得られた単位データを出力する。そし
て、第１復号化手段（２９３）が復号化された単位デー
タを出力すると、連続同一判断手段（２９２）は、第１
復号化手段（２９３）によって復号化された単位データ
が、所定数以上連続して同一であるか否かを判断する。
そして、連続同一判断手段（２９２）により復号化され
た単位データが所定数以上連続して同一であると判断し
た場合に、第２復号化手段（２９４）は、第１復号化手
段（２９３）に代わり、その判断時点の直後に入力され
た符号を、同一データの連続出現数として復号化すると
ともに、所定数以上連続している単位データを、連続出
現数だけ続けて出力する（請求項１０〜請求項１６の作
用）。

【００４２】このように、本発明によれば、同一データ
が連続して出現しない場合と出現した場合とで符号化方
法及び復号化方法を変更するようにしてあり、しかも、
同一データが連続して出現した場合には、その連続出現
数が多くなるほど、最大圧縮率が上がるようになってい
る。従って、同一データが連続して出現した場合に、最
大圧縮率が制限されることないので、符号木を用いた単
一の符号化方式だけで符号化及び復号化した場合よりも
最大圧縮率を上げることが可能となる。

【００４３】特に、第２符号化手段（１９４）及び第２
復号化手段（２９４）でカテゴリテーブルを使用するよ
うにすれば、連続出現数が大きな数になった場合でも、
連続出現数に応じた符号を短くすることができ、圧縮効
率を高めることが可能となる（請求項６及び請求項１３
の作用）。

【００４４】また、連続同一判断手段（１９２、２９
２）で、所定の種類の単位データに対してのみ判断を行
うようにすれば、例えば“２０ｈ”や“０ｈ”などのコ
ンピュータのファイル中に出現しやすいデータを対象と
して符号化を行えるようになる（請求項９及び請求項１
６の作用）。

【００４５】

【発明の実施の形態】以下、本発明の実施の形態を図面
を参照して説明する。＜第１実施形態＞第１実施形態は、同一データが連続し
て出現した場合に、その連続出現数を符号化して圧縮を
行うとともに、同一データが連続して出現していない場
合には、文脈モデルを併用して圧縮を行うことを特徴と
する。

【００４６】＜ハード構成＞図２は、第１実施形態によ
るデータ圧縮装置の構成ブロック図であり、図３は、第
１実施形態によるデータ復元装置の構成ブロック図であ
る。

【００４７】（データ圧縮装置）図２において、スイッ
チ部１１１、文脈保持部１０１、文脈更新部１０１Ａ、
連続文字判別部１０４、連続長計数部１０５、連続長符
号化部１０７、連続長符号保持部１０３、文字符号化部
１０６、文字符号保持部１０２及び符号更新部１０８が
データ圧縮装置を構成する。

【００４８】文脈保持部１０１は、スイッチ部１１１を
介して入力された文字Ｋ（以下、入力文字Ｋ）の直前ま
でに入力された文字列を文脈として保持する。文脈更新
部１０１Ａは、スイッチ部１１１に文字Ｋが入力される
度に、文脈保持部１０１に保持された文脈の文字のう
ち、最も古い文字を棄却し、文字Ｋを新たに登録する。
このことにより、文脈文脈保持部１０１に保持されてい
る文脈が更新される。

【００４９】連続同一判断手段としての連続文字判別部
１０４は、文脈保持部１０１に保持されている文脈を構
成する文字が、所定数以上連続して同一であるか否かを
判別し、その判別結果をスイッチ部１１１に通知する。

【００５０】なお、連続文字判別部１０４は、例えば
“２０ｈ”（アスキーコードの空白を表す文字）や“０
ｈ”などの特定の文字に対してのみ、所定数以上連続し
て同一であるか否かを判別してもよい。ただし、“ｈ”
は１６進数であることを表している。

【００５１】スイッチ部１１１は、以下の１）〜３）の
処理を行う。１）入力データに含まれる文字Ｋを入力する。入力デー
タは、キーボード、マウス等のマン・マシンインタフェ
ース（図示せず）からの入力をコード化する装置やデー
タファイルを格納した外部記憶装置（図示せず）から入
力される。２）所定数以上連続して同一である旨の通知を連続文字
判別部１０４から受けた場合に、同一文字が連続して出
現している旨を連続長計数部１０５に通知し、以後、入
力文字Ｋを連続長計数部１０５に出力する。３）所定数以上連続して同一でない旨の通知を連続文字
判別部１０４から受けた場合に、同一文字が連続して出
現していない旨を文字符号化部１０６に通知し、以後、
入力文字Ｋを文字符号化部１０６に出力する。

【００５２】（第１符号化手段）文字符号化部１０６、
文字符号保持部１０２及び符号更新部１０８は、第１符
号化手段を構成する。この第１符号化手段では、同一文
字が連続して出現していない場合に、入力文字Ｋを、文
脈と入力文字Ｋとの組み合わせの出現頻度に応じて符号
化し、この符号化により得られた符号を出力する。ま
た、この第１符号化手段では、データ圧縮をするに伴っ
て、文字符号保持部１０２に文脈木及び符号木を生成す
るとともに、データ圧縮（符号化）過程においてその文
脈木及び符号木を更新する。

【００５３】文字符号保持部１０２は、文脈保持部１０
１に保持されたことのある文脈を文脈木として保持する
とともに、この文脈木の各内部節点をそれぞれ根とする
複数の符号木が格納されている。以下に、これら文脈木
及び符号木の関係を説明する。

【００５４】文脈木は、過去に生起した文脈（複数の文
字が連続して生起したパターン）を唯一の根（ｒｏｏ
ｔ）を先頭にしてまとめたものである。図２７（ａ）の
例では、過去、“ａａｂ”，“ａｂｃ”，“ａｃｂ”，
“ｂｃａ”，“ｃａａ”，“ｃａｃ”，“ｃｂｃ”とい
った文脈が生起していることを示している。この文脈木
では、符号木と異なり、根（ｒｏｏｔ）以外の全ての節
点（葉であるか内部節点であるかを問わず）に文字を割
り当てている。また、この文脈木は、あくまでも条件付
けのために用いこれ自体で符号化する訳ではないので、
ある内部節点から３本以上の枝が分岐していることがあ
り得る。また、これらの枝には、符号が割り当てられて
いない。さらに、文脈木に登録された３文字の文脈に全
く当てはまらない文脈や１文字又は２文字しか当てはま
らない文脈が生起された場合に備え、各内部節点には未
出現記号（ＥＳＣ）も接続されている。なお、ファイル
の終了を示すために、根には終了記号（ＥＯＦ）も接続
されている。また、文脈木においては、「レベル」のこ
とを「〜次，次数」という。各内部節点に対応する文字
が生起された条件下においては、次にどの文字が生起さ
れるかの確率は、無条件の場合に比して偏りが生じてい
ると考えられる。即ち、過去に生じた文脈に沿った文字
の生起確率がそれ以外の文字に比べて高いと考えられ
る。従って、ある文字が生起された条件下では、その文
字に続く文脈に沿った文字のみを符号化する符号木を適
用しても、符号化が可能である。しかも、このような条
件付きの符号木を適用すれば、この条件付きの符号木に
よる符号化対象の文字は限定されるので、符号木の規模
が小さくなる。その結果、符号語の符号長が短くなり、
圧縮効率が高まる。

【００５５】以上の理由により、文脈木の各内部節点に
は、当該内部節点に対応した根を有するとともに、当該
文脈木の内部節点に直接接続された次レベルの節点の文
字（ＥＣＳ，ＥＯＦをも含む）を葉とする符号木が用意
されている。図２７（ｂ）は、これらの符号木のうち、
図２７（ａ）の文脈木における根（ｒｏｏｔ）に対応し
て備えられた符号木を示している。なお、これらの符号
木内においては、上述の各実施例において説明したよう
に、次に生起する可能性のある文字に対応する符号長が
短くなっている。即ち、生起する可能性が高い文脈に沿
った文字ほど、その圧縮率が高くなっているのである。

【００５６】文字符号化部１０６は、直前に入力された
文字列に基づいて文字符号保持部１０２に保持されてい
る符号木を選択する。そして、選択された符号木を利用
して、以下のように入力文字Ｋを符号化する。即ち、選
択された符号木の根から入力文字Ｋが格納されている葉
までの経路を辿り、その経路上の枝に付されている
“０”又は“１”の符号を順番に拾い、一連の符号語を
出力する。

【００５７】符号更新部１０８は、文脈と入力文字Ｋと
の組み合わせの出現頻度に基づいて、文字符号保持部１
０２に保持されている符号木を更新する。（第２符号化手段）連続長計数部１０５、連続長符号化
部１０７及び連続長符号保持部１０３は、第２符号化手
段を構成する。この第２符号化手段では、同一文字が連
続して入力された場合に、同一文字の連続出現数（以
下、連続長Ｌという。）に応じた符号を出力する。な
お、連続長Ｌは、ラン長とも呼ばれる。

【００５８】連続長計数部１０５は、スイッチ部１１１
から通知を受けた時点以後に、同一文字の連続長Ｌを計
数し、その計数結果を連続長符号化部１０７に通知す
る。連続長符号保持部１０３は、種々の数値Ｎと種々の
符号とを対応づけたテーブルを保持している。このテー
ブルは、例えば、以下の表１のような内容を有する。

【００５９】

【表１】連続長符号化部１０７は、連続長計数部１０５から出力
された連続長Ｌ（数値Ｎ）に応じた符号を連続長符号保
持部１０３から読み出すとともに、読み出した符号を出
力する。

【００６０】（データ復元装置）図３において、スイッ
チ部２１１、文脈保持部２０１、文脈更新部２０１Ａ、
連続文字判別部２０４、連続長復号部２１０、連続長符
号保持部２０３、連続長出力部２０５、文字復号部２０
６、文字符号保持部２０２及び符号更新部２０８がデー
タ復元装置を構成する。

【００６１】文脈保持部２０１は、スイッチ部２１１を
介して入力された符号から文字復号部２０６により復号
化された文字列を文脈として保持する。文脈更新部２０
１Ａは、文字復号部２０６で符号が復号化される度に、
文脈保持部２０１に保持された文脈の文字のうち、最も
古い文字を棄却し、復号化された文字を新たに登録す
る。このことにより、文脈文脈保持部２０１に保持され
ている文脈が更新される。

【００６２】連続同一判断手段としての連続文字判別部
２０４は、文脈保持部２０１に保持されている文脈を構
成する文字が、所定数以上連続して同一であるか否かを
判別し、その判別結果をスイッチ部２１１に通知する。

【００６３】スイッチ部２１１は、以下の１）〜３）の
処理を行う。１）データ圧縮装置から符号を入力する。２）所定数以上連続して同一である旨の通知を連続文字
判別部２０４から受けた場合に、同一文字が連続して出
現している旨を連続長復号部２０７に通知し、以後、入
力された符号を連続長復号部２０７に出力する。３）所定数以上連続して同一でない旨の通知を連続文字
判別部２０４から受けた場合に、同一文字が連続して出
現していない旨を文字復号部２０６に通知し、以後、入
力された符号を文字復号部２０６に出力する。

【００６４】（第１復号化手段）文字復号部２０６、文
字符号保持部２０２及び符号更新部２０８は、第１復号
化手段を構成する。この第１復号化手段では、同一文字
が連続して出現していない場合に、入力された符号を、
直前に復号化された文字列の出現頻度に応じて復号化
し、この復号化により得られた文字を出力する。また、
この第１復号化手段では、データ復元をするに伴って、
文字符号保持部２０２に文脈木及び符号木を生成すると
ともに、データ圧縮（符号化）過程においてその文脈木
及び符号木を更新する。

【００６５】文字符号保持部２０２は、文脈保持部２０
１に保持されたことのある文脈を文脈木として保持する
とともに、この文脈木の各内部節点をそれぞれ根とする
複数の符号木が格納されている。この文字符号保持部２
０２の内容は、データ圧縮装置とデータ復元装置とが同
期して動作している場合に、データ圧縮装置の文字符号
保持部１０２の内容と一致する。

【００６６】文字復号部２０６は、直前に復元された文
字列に基づいて文字符号保持部２０２に保持されている
符号木を選択する。そして、選択された符号木を利用し
て、以下のように入力された符号を復号化する。即ち、
選択された符号木の根を起点にして、符号語が示す
“０”及び“１”の順番通りに枝を辿り、対応する葉を
探す。そして、探し出した葉に対応づけられている文字
（シンボル）を復号された文字として出力する。

【００６７】符号更新部２０８は、復元された文字の出
現頻度に基づいて、文字符号保持部２０２に保持されて
いる符号木を更新する。（第２復号化手段）連続長復号部２０７、連続長符号保
持部２０３及び連続長出力部２０５は、第２復号化手段
を構成する。この第２復号化手段では、文字復号部２０
６において同一文字が連続して復号化された場合に、そ
の復号化の直後にスイッチ部２１１から入力された符号
を、同一文字の連続出現数（以下、連続長Ｌ）として復
号化するとともに、連続して出現した同一文字を連続長
だけ続けて出力する。

【００６８】連続長符号保持部２０３は、種々の数値Ｎ
と種々の符号とを対応づけたテーブルを保持している。
この連続長符号保持部２０３の内容は、データ圧縮装置
の連続長符号保持部１０３の内容と同一である。

【００６９】連続長復号部２０７は、スイッチ部２１１
から出力された符号に応じた数値Ｎを連続長符号保持部
２０３から読み出すとともに、読み出した数値Ｎを連続
長出力部２０５に出力する。

【００７０】連続長出力部２０５は、文脈保持部２０１
に保持されている文脈の末端の文字、即ち、連続して出
現した同一文字を、連続長復号部２０７から出力された
数値Ｎだけ続けて出力する。

【００７１】（データ圧縮装置の処理動作）次に、デー
タ圧縮装置の処理動作を説明する。図４は、データ圧縮
装置の処理動作を表すフローチャート図である。

【００７２】まず連続文字判別部１０４は、文脈保持部
１０１に保持された文脈内の文字が連続して同一である
か否かを判断する対象になっているかを判別するととも
に（ステップ４０１）、判別対象になっている場合に、
文脈内の文字が、所定数以上連続して同一であるか否か
を判断する（ステップ４０２）。

【００７３】ステップ４０２で文脈中の文字が連続して
同一であると判断された場合（ステップ４０２のＹＥＳ
の経路）に、第２符号化手段は、同一文字の連続長Ｌを
計数するとともに（ステップ４０３）、その連続長Ｌを
符号化する（ステップ４０４）。

【００７４】一方、ステップ４０２で文脈中の文字が連
続して同一でないと判断された場合（ステップ４０２の
ＮＯの経路）に、第１符号化手段は、入力文字を、文脈
と入力文字との組合せの出現頻度を反映した符号木に基
づいて符号化するとともに（ステップ４０７）、文脈と
入力文字との組合せの出現頻度に基づいて符号木を更新
する（ステップ４０８）。この符号化は、前述の符号木
を用いた符号化方式（Splay-Tree符号化方式）の処理手
順に沿って行われる。即ち、符号木の終端（葉、リー
フ）にシンボルを登録し、符号木の頂点（根、ルート）
から入力データが格納されているリーフまでの距離を符
号長として出力する。具体的には、符号語はルートから
リーフへ下るとき、右へ分岐したときは“１”、左へ分
岐したときは“０”を割り当てる。

【００７５】ステップ４０４及びステップ４０８の実行
後に、文脈更新部１０１Ａは、文脈保持部１０１に保持
された文脈を更新する（ステップ４０５）。そして、入
力文字が無い場合には、符号化処理を終了し（ステップ
４０６の無いの経路）、入力文字が有る場合には、ステ
ップ４０１に戻って符号化処理を続行する（ステップ４
０６の有るの経路）。

【００７６】（データ復元装置の処理動作）次に、デー
タ復元装置の処理動作を説明する。図５は、データ復元
装置の処理動作を表すフローチャート図である。

【００７７】まず連続文字判別部２０４は、文脈保持部
２０１に保持された文脈内の文字が連続して同一である
か否かを判断する対象になっているかを判別するととも
に（ステップ５０１）、判別対象になっている場合に、
文脈内の文字が、所定数以上連続して同一であるか否か
を判断する（ステップ５０２）。

【００７８】ステップ５０２で連続して同一であると判
断された場合（ステップ５０２のＹＥＳの経路）に、第
２復号化手段は、直後に入力される符号を同一文字の連
続長として復号化するとともに（ステップ５０３）、ス
テップ５０２にて連続して出現したと判定した文字を連
続長の数だけ続けて出力する（ステップ５０４）。

【００７９】一方、ステップ５０２で連続して同一でな
いと判断された場合（ステップ５０２のＮＯの経路）、
第１復号化手段は、直後に入力される文字を復号化する
とともに（ステップ５０７）、文脈と復号化された文字
との組み合わせの出現頻度に基づいて符号木を更新する
（ステップ５０８）。

【００８０】ステップ５０４及びステップ５０８の実行
後に、文脈更新部２０１Ａは、文脈保持部２０１に保持
された文脈を更新する（ステップ５０５）。そして、次
の復号対象となる符号が無い場合には、復元処理を終了
し（ステップ５０６の無いの経路）、符号が有る場合に
は、ステップ５０１に戻って復元処理を続行する（ステ
ップ５０６の有るの経路）。

【００８１】＜第２実施形態＞第２実施形態は、第１実
施形態と比して、データ圧縮装置の第２符号化手段及び
データ復元装置の第２復号化手段のみを異にし、他の構
成を同じとしている。従って、その他の説明を省略す
る。

【００８２】（データ圧縮装置）図６において、スイッ
チ部１１１、文脈保持部１０１、文脈更新部１０１Ａ、
連続文字判別部１０４、連続長計数部１０５、カテゴリ
分類部１０９、カテゴリ符号化部１１３、位置情報出力
部１１０、カテゴリ符号保持部１１２、文字符号化部１
０６、文字符号保持部１０２及び符号更新部１０８がデ
ータ圧縮装置を構成する。

【００８３】（第２符号化手段）連続長計数部１０５、
カテゴリ分類部１０９、カテゴリ符号化部１１３、位置
情報出力部１１０及びカテゴリ符号保持部１１２は、第
２符号化手段を構成する。

【００８４】連続長計数部１０５は、スイッチ部１１１
から通知を受けた時点以後に、同一文字の連続長Ｌを計
数し、その計数結果をカテゴリ分類部１０９及び位置情
報出力部１１０に通知する。

【００８５】カテゴリ分類部１０９は、連続長計数部１
０５から通知された連続長Ｌに基づいて、式（１）を満
たす整数Ｃの値が識別子として付与されたカテゴリＣを
求める。即ち、連続長Ｌを８で割ったときの商がカテゴ
リＣの値となる。例えば、Ｌ＝２４でのとき、Ｃ＝３と
なる。そして、カテゴリ分類部１０９は、求められたＣ
の値をカテゴリ符号化部１１３に通知する。

【００８６】

【数１】８×Ｃ≦Ｌ＜８×（Ｃ＋１）・・・（１）例えば、Ｃ＝２が識別子して付与されたカテゴリＣに
は、１６から２３までの値を持つ連続長Ｌが属すること
になる。

【００８７】なお、カテゴリ分類部１０９は、非常に大
きな連続長が出現するデータに対して、カテゴリを２の
べき乗で分類してもよい。図９の例では、カテゴリＣに
は、２^C＜Ｌ＜２^C+1−１の連続長が含まれ、位置情報と
してはＣ［ビット］のデータが出力される。さらにカテ
ゴリＣの最大値は１６で、Ｌ＝６５５３５までの連続長
が符号化される。例えば、Ｌ＝７２８６８の連続長があ
った場合、いったんＣ＝１６の符号を出力した後（Ｃ＝
１６にはＬ＝６５５３５しかないため位置情報は不
要）、残りのＬ＝７３３３（７２８６８−６５５３５）
について、符号化を行う。

【００８８】カテゴリ符号保持部１１２は、種々のカテ
ゴリＣの識別子と種々の符号とを対応づけたテーブルを
保持している。カテゴリ符号化部１１３は、カテゴリ分
類部１０９から出力されたカテゴリＣの識別子に応じた
符号をカテゴリ符号保持部１１２から読み出すととも
に、読み出した符号を出力する。

【００８９】位置情報出力部１１０は、連続長Ｌが、カ
テゴリ分類部１０９により分類されたカテゴリＣ内のど
の位置にあるのかを示す位置情報を、式（２）から求め
る。そして、求めた位置情報を出力する。この位置情報
は、カテゴリ符号化部１１３から出力される符号に続け
て出力される。

【００９０】

【数２】位置情報＝Ｌ−８×Ｃ・・・（２）例えば、１６の値を持つ連続長Ｌに対する位置情報は０
であり、１８の値を持つ連続長Ｌに対する位置情報は２
である。

【００９１】（データ復元装置）図７において、スイッ
チ部２１１、文脈保持部２０１、文脈更新部２０１Ａ、
連続文字判別部２０４、カテゴリ復号部２１３、カテゴ
リ符号保持部２１２、連続長復号部２１０、連続長出力
部２０５、文字復号部２０６、文字符号保持部２０２及
び符号更新部２０８がデータ復元装置を構成する。

【００９２】スイッチ部２１１は、以下の１）〜３）の
処理を行う。１）データ圧縮装置から符号を入力する。２）所定数以上連続して同一である旨の通知を連続文字
判別部２０４から受けた場合に、同一文字が連続して出
現している旨をカテゴリ復号部２１３に通知し、以後、
入力された符号をカテゴリ復号部２１３に出力する。３）所定数以上連続して同一でない旨の通知を連続文字
判別部２０４から受けた場合に、同一文字が連続して出
現していない旨を文字復号部２０６に通知し、以後、入
力された符号を文字復号部２０６に出力する。

【００９３】（第２復号化手段）カテゴリ復号部２１
３、カテゴリ符号保持部２１２、連続長復号部２１０及
び連続長出力部２０５は、第２復号化手段を構成する。

【００９４】カテゴリ符号保持部２１２は、種々のカテ
ゴリＣの識別子と種々の符号とを対応づけたテーブルを
保持している。このカテゴリ符号保持部２１２の内容
は、データ圧縮装置のカテゴリ符号保持部１１２の内容
と一致する。

【００９５】カテゴリ復号部２１３は、スイッチ部２１
１から出力された符号に応じたカテゴリＣの識別子をカ
テゴリ符号保持部２１２から読み出して、カテゴリＣを
復号化する。また、続いてスイッチ部２１１から出力さ
れた符号を位置情報として認識する。カテゴリＣの識別
子及び位置情報は、連続長復号部２１０に通知される。

【００９６】連続長復号部２１０は、カテゴリ復号部２
１３から通知されたカテゴリＣの識別子及び位置情報に
基づいて、連続長Ｌを求める。求められた連続長Ｌは、
連続長出力部２０５に出力される。

【００９７】連続長出力部２０５は、文脈保持部２０１
に保持された文字を、連続長Ｌだけ続けて出力する。（データ圧縮装置の処理動作）次に、データ圧縮装置の
処理動作を説明する。図１０は、データ圧縮装置の処理
動作を表すフローチャート図である。

【００９８】まず連続文字判別部１０４は、文脈保持部
１０１に保持された文脈内の文字が連続して同一である
か否かを判断する対象になっているかを判別するととも
に（ステップ１００１）、判別対象になっている場合
に、文脈内の文字が、所定数以上連続して同一であるか
否かを判断する（ステップ１００２）。

【００９９】ステップ１００２で同一であると判別され
た場合（ステップ１００２のＹＥＳの経路）に、第２符
号化手段は、同一文字の連続長Ｌをカテゴリ分けすると
ともに、カテゴリ分けされたカテゴリＣを符号化してそ
の符号を出力し、続けて、位置情報を出力する（ステッ
プ１００３〜ステップ１００５）。

【０１００】一方、ステップ１００２で同一でないと判
別された場合（ステップ１００２のＮＯの経路）に、第
１符号化手段は、入力文字を、文脈と入力文字との組合
せの出現頻度を反映した符号木に基づいて符号化すると
ともに（ステップ１００８）、文脈と入力文字との組合
せの出現頻度に基づいて符号木を更新する（ステップ１
００９）。

【０１０１】ステップ１００５及びステップ１００９の
実行後に、文脈更新部２０１Ａは、文脈保持部１０１に
保持された文脈を更新する（ステップ１００６）。そし
て、入力文字が無い場合には、符号化処理を終了し（ス
テップ１００７の無いの経路）、入力文字が有る場合に
は、ステップ１００１に戻って符号化処理を続行する
（ステップ１００７の有るの経路）。

【０１０２】（データ復元装置の処理動作）次に、デー
タ復元装置の処理動作を説明する。図１１は、データ復
元装置の処理動作を表すフローチャート図である。

【０１０３】まず連続文字判別部２０４は、文脈保持部
２０１に保持された文脈内の文字が連続して同一である
か否かを判断する対象になっているかを判別するととも
に（ステップ１１０１）、判別対象になっている場合
に、文脈内の文字が、所定数以上連続して同一であるか
否かを判断する（ステップ１１０２）。

【０１０４】ステップ１１０２で同一であると判断され
た場合（ステップ１１０２のＹＥＳの経路）に、第２復
号化手段は、カテゴリＣを復号化するとともに、復号化
されたカテゴリＣと位置情報から連続長Ｌを求め、ステ
ップ１１０２にて連続して出現したと判定した文字を連
続長Ｌの数だけ続けて出力する（ステップ１１０３〜ス
テップ１１０５）。

【０１０５】一方、ステップ１１０２で同一でないと判
断された場合（ステップ１１０２のＮＯの経路）に、第
１復号化手段は、直後に入力される文字を復号化すると
ともに（ステップ１１０８）、文脈と復号化された文字
との組み合わせの出現頻度に基づいて符号木を更新する
（ステップ１１０９）。

【０１０６】ステップ１１０５及びステップ１１０９の
実行後に、文脈更新部２０１Ａは、文脈保持部２０１に
保持された文脈を更新する（ステップ１１０６）。そし
て、次の復号対象となる符号が無い場合には、復元処理
を終了し（ステップ１１０７の無いの経路）、符号が有
る場合には、ステップ１１０１に戻って復元処理を続行
する（ステップ１１０７の有るの経路）。

【０１０７】＜第３実施形態＞第３実施形態は、第１実
施形態と比して、データ圧縮装置及びデータ復元装置が
連続長を動的に符号化する点のみを異にし、他の構成を
同じとしている。従って、その他の説明を省略する。

【０１０８】（データ圧縮装置の処理動作）次に、デー
タ圧縮装置の処理動作を説明する。図１２は、データ圧
縮装置の処理動作を表すフローチャート図である。

【０１０９】まず連続文字判別部１０４は、文脈保持部
１０１に保持された文脈内の文字が連続して同一である
か否かを判断する対象になっているかを判別するととも
に（ステップ１２０１）、判別対象になっている場合
に、文脈内の文字が、所定数以上連続して同一であるか
否かを判断する（ステップ１２０２）。

【０１１０】ステップ１２０２で文脈中の文字が連続し
て同一であると判断された場合（ステップ１２０２のＹ
ＥＳの経路）に、第２符号化手段は、同一文字の連続長
Ｌを計数するとともに（ステップ１２０３）、その連続
長Ｌを符号化し（ステップ１２０４）、さらに、連続長
の出現頻度に応じて連続長の符号を更新する（ステップ
Ｓ１２０５）。

【０１１１】一方、ステップ１２０２で文脈中の文字が
連続して同一でないと判断された場合（ステップ１２０
２のＮＯの経路）に、第１符号化手段は、入力文字を、
文脈と入力文字との組合せの出現頻度を反映した符号木
に基づいて符号化するとともに（ステップ１２０８）、
文脈と入力文字との組合せの出現頻度に基づいて符号木
を更新する（ステップ１２０９）。この符号化は、前述
の符号木を用いた符号化方式（Splay-Tree符号化方式）
の処理手順に沿って行われる。即ち、符号木の終端
（葉、リーフ）にシンボルを登録し、符号木の頂点
（根、ルート）から入力データが格納されているリーフ
までの距離を符号長として出力する。具体的には、符号
語はルートからリーフへ下るとき、右へ分岐したときは
“１”、左へ分岐したときは“０”を割り当てる。

【０１１２】ステップ１２０５及びステップ１２０９の
実行後に、文脈更新部１０１Ａは、文脈保持部１０１に
保持された文脈を更新する（ステップ１２０６）。そし
て、入力文字が無い場合には、符号化処理を終了し（ス
テップ１２０７の無いの経路）、入力文字が有る場合に
は、ステップ１２０１に戻って符号化処理を続行する
（ステップ１２０７の有るの経路）。

【０１１３】（データ復元装置の処理動作）次に、デー
タ復元装置の処理動作を説明する。図１３は、データ復
元装置の処理動作を表すフローチャート図である。

【０１１４】まず連続文字判別部２０４は、文脈保持部
２０１に保持された文脈内の文字が連続して同一である
か否かを判断する対象になっているかを判別するととも
に（ステップ１３０１）、判別対象になっている場合
に、文脈内の文字が、所定数以上連続して同一であるか
否かを判断する（ステップ１３０２）。

【０１１５】ステップ１３０２で連続して同一であると
判断された場合（ステップ１３０２のＹＥＳの経路）
に、第２復号化手段は、直後に入力される符号を同一文
字の連続長として復号化するとともに（ステップ１３０
３）、ステップ１３０２にて連続して出現したと判定し
た文字を連続長の数だけ続けて出力し（ステップ１３０
４）、さらに、連続長の出現頻度に応じて連続長の符号
を更新する（ステップ１３０５）。

【０１１６】一方、ステップ１３０２で連続して同一で
ないと判断された場合（ステップ１３０２のＮＯの経
路）、第１復号化手段は、直後に入力される文字を復号
化するとともに（ステップ１３０８）、文脈と復号化さ
れた文字との組み合わせの出現頻度に基づいて符号木を
更新する（ステップ１３０９）。

【０１１７】ステップ１３０５及びステップ１３０９の
実行後に、文脈更新部２０１Ａは、文脈保持部２０１に
保持された文脈を更新する（ステップ１３０６）。そし
て、次の復号対象となる符号が無い場合には、復元処理
を終了し（ステップ１３０７の無いの経路）、符号が有
る場合には、ステップ１３０１に戻って復元処理を続行
する（ステップ１３０７の有るの経路）。

【０１１８】

【発明の効果】本発明によれば、同一データが連続して
出現しない場合と出現した場合とで符号化方法及び復号
化方法を変更するようにしてあり、しかも、同一データ
が連続して出現した場合には、その連続出現数が多くな
るほど、最大圧縮率が上がるようになっている。従っ
て、同一データが連続して出現した場合に、最大圧縮率
が制限されることはないので、符号木を用いた単一の符
号化方式だけで符号化及び復号化した場合よりも最大圧
縮率を上げることが可能となる。

【図面の簡単な説明】

【図１】本発明の第１の態様の原理図である。

【図２】第１実施形態のデータ圧縮装置の構成ブロッ
ク図である。

【図３】第１実施形態のデータ復元装置の構成ブロッ
ク図である。

【図４】第１実施形態のデータ圧縮装置の処理動作を
表すフローチャート図である。

【図５】第１実施形態のデータ復元装置の処理動作を
表すフローチャート図である。

【図６】第２実施形態のデータ圧縮装置の構成ブロッ
ク図である。

【図７】第２実施形態のデータ復元装置の構成ブロッ
ク図である。

【図８】第２実施形態のカテゴリの例を表す図であ
る。

【図９】第２実施形態のカテゴリ分けの例を表す図で
ある。

【図１０】第２実施形態のデータ圧縮装置の処理動作
を表すフローチャート図である。

【図１１】第２実施形態のデータ復元装置の処理動作
を表すフローチャート図である。

【図１２】第３実施形態のデータ圧縮装置の処理動作
を表すフローチャート図である。

【図１３】第３実施形態のデータ復元装置の処理動作
を表すフローチャート図である。

【図１４】符号木の各部の名称の説明図である。

【図１５】ハフマン符号化方式の原理図である。

【図１６】図１５の符号木による文字と符号語との関
係を示す図である。

【図１７】適応型符号化方式の原理図である。

【図１８】適応型符号化方式による符号木の更新例の
説明図である。

【図１９】図１８の符号木による文字と符号語との関
係を示す図である。

【図２０】適応型符号化方式による符号木の更新例の
説明図である。

【図２１】図２０の符号木による文字と符号語との関
係を示す図である。

【図２２】適応型符号化方式による符号木の更新例の
説明図である。

【図２３】図２２の符号木による文字と符号語との関
係を示す図である。

【図２４】適応型符号化方式による符号木の更新例の
説明図である。

【図２５】図２４の符号木による文字と符号語との関
係を示す図である。

【図２６】適応型符号化方式における新規シンボルの
登録例の説明図である。

【図２７】文脈木と符号木の関係を示す図である。
（ａ）は文脈木を示し、（ｂ）は文脈木の根に対応した
符号木を示す。

【符号の説明】

１１・・・文脈文字同一判断部１２・・・第１符号化部１３・・・第２符号化部２１・・・文脈文字同一判断部２２・・・第１復号部２３・・・第２復号部１０１・・文脈保持部１０１Ａ・文脈更新部１０２・・文字符号保持部１０３・・連続長符号保持部１０４・・連続文字判別部１０５・・連続長計数部１０６・・文字符号化部１０７・・連続長符号化部１０８・・符号更新部１０９・・カテゴリ分類部１１０・・位置情報出力部１１１・・スイッチ部１１２・・カテゴリ符号保持部１１３・・カテゴリ符号化部１９１・・データ入力手段１９２・・連続同一判断手段１９３・・第１符号化手段１９４・・第２符号化手段２０１・・文脈保持部２０１Ａ・文脈更新部２０２・・文字符号保持部２０３・・連続長符号保持部２０４・・連続文字判別部２０５・・連続長出力部２０６・・文字復号部２０７・・連続長復号部２０８・・符号更新部２０９・・カテゴリ分類部２１０・・連続長復号部２１１・・スイッチ部２１２・・カテゴリ符号保持部２１３・・カテゴリ復号部２９１・・符号入力手段２９２・・連続同一判断手段２９３・・第１復号化手段２９４・・第２復号化手段

Claims

【特許請求の範囲】

【請求項１】過去に現れたデータの出現状況に応じて、
入力されたデータを符号化するデータ符号化方法におい
て、同じデータが所定数以上連続して現れた場合に、それ以
後に続く同一データの連続出現数を符号化し、同じデータが所定数以上連続して現れない場合に、入力
データに対してデータの出現頻度に応じた符号を出力す
ることを特徴とするデータ符号化方法。
【請求項２】過去に復号したデータの出現状況に応じ
て、符号化されたデータを複合化するデータ復号方法に
おいて、同じデータが所定数以上連続して現れた場合に、それ以
後に続く符号を連続長の符号として、連続長を復号し、同じデータが所定数以上連続して現れない場合に、デー
タの出現頻度に応じて符号をデータに復号することを特
徴とするデータ復号方法。
【請求項３】過去に現れた単位データの出現状況に応じ
て、入力された単位データを動的に符号化するデータ圧
縮装置において、圧縮対象の単位データを入力するデータ入力手段と、前記データ入力手段によって入力された前記単位データ
が、所定数以上連続して同一であるか否かを判断する連
続同一判断手段と、前記連続同一判断手段で同一でないと判断された場合
に、入力された単位データを、その単位データの出現頻
度に応じて符号化し、この符号化により得られた符号を
出力する第１符号化手段と、前記連続同一判断手段で同一であると判断された場合
に、その判断時点以後における同一データの連続出現数
に応じた符号を出力する第２符号化手段とを備えたこと
を特徴とするデータ圧縮装置。
【請求項４】前記第１符号化手段は、過去に現れた単位データ列である文脈を、複数次数まで
の範囲で登録した文脈登録テーブルと、前記文脈登録テーブルに登録された文脈の各次数の単位
データ毎に符号を割り当てた圧縮用テーブルと、入力された単位データがその末端に存在する前記一定次
の文脈を前記文脈登録テーブルから検索する文脈検索手
段と、前記文脈検索手段によって検索された前記文脈下におい
て、前記入力された単位データを登録している最高次数
の前記圧縮用テーブルを参照して、前記入力された単位
データの符号を出力する符号出力手段と、前記入力された単位データが符号化された後に、前記文
脈と前記単位データとの組み合わせの出現頻度に応じて
前記圧縮用テーブルの符号を更新する圧縮用テーブル更
新手段とを有することを特徴とする請求項３に記載のデ
ータ圧縮装置。
【請求項５】前記圧縮用テーブルは、単一の根から枝を
繰り返し分岐させた木構造を有するとともに、末端の節
点に前記単位データが登録されており、各分岐された枝
毎に互いに識別可能な符号が与えられており、前記符号出力手段は、前記根と前記入力された単位デー
タが登録されている節点とを結ぶ経路上の前記符号を読
み取ることによって、前記符号を出力することを特徴と
する請求項４に記載のデータ圧縮装置。
【請求項６】前記第２符号化手段は、前記連続出現数を分類したカテゴリに付与される種々の
カテゴリ識別子と種々の符号とを対応づけたカテゴリテ
ーブルと、前記連続出現数を、前記カテゴリのいずれかに分類する
連続出現数分類手段と、前記連続出現数分類手段で分類されたカテゴリに付与さ
れたカテゴリ識別子に対応する符号を前記カテゴリテー
ブルから読み出して、読み出した符号を出力するカテゴ
リ識別子符号化手段と、前記連続出現数分類手段で分類されたカテゴリ内におけ
る前記連続出現数の位置情報を出力する位置情報出力手
段とを有することを特徴とする請求項３に記載のデータ
圧縮装置。
【請求項７】前記第２符号化手段は、過去に現れた連続
長数の出現状況に応じて連続長を動的に符号化すること
を特徴とする請求項３に記載のデータ圧縮装置。
【請求項８】前記第２符号化手段は、連続長に対して符号を割り当てた連続長圧縮テーブル
と、連続長数に対する前記連続長圧縮テーブルを参照して符
号を出力する連続長符号化手段とを有し、前記連続長が符号化された後に、連続長数の出現頻度に
応じて前記連続長圧縮テーブルを変更することを特徴と
する請求項３に記載のデータ圧縮装置。
【請求項９】前記連続同一判断手段は、所定の種類の単
位データに対してのみ判断を行うことを特徴とする請求
項３に記載のデータ圧縮装置。
【請求項１０】過去に復号した単位データの出現状況に
応じて、動的に、入力された符号を復号化した単位デー
タを出力するデータ復元装置において、復元対象の符号を入力する符号入力手段と、前記符号入力手段に入力された符号を、その出現頻度に
応じて復号化し、この復号化により得られた単位データ
を出力する第１復号化手段と、前記第１復号化手段によって復号化された単位データ
が、所定数以上連続して同一であるか否かを判断する連
続同一判断手段と、前記連続同一判断手段により復号化された単位データが
所定数以上連続して同一であると判断された場合には、
前記第１復号化手段に代わり、その判断時点の直後に入
力された符号を、同一データの連続出現数として復号化
するとともに、前記所定数以上連続している単位データ
を、前記連続出現数だけ続けて出力する第２復号化手段
とを備えたことを特徴とするデータ復元装置。
【請求項１１】前記第１復号化手段は、過去に現れた単位データ列である文脈を、複数次数まで
の範囲で登録した文脈登録テーブルと、前記文脈登録テーブルに登録された文脈の各次数の単位
データ毎に符号を割り当てた復元用テーブルと、前記入力された符号がその末端に存在すると予想される
前記一定次の文脈を前記文脈登録テーブルから検索する
文脈検索手段と、前記文脈検索手段によって検索された前記一定次の文脈
に対応する前記復元用テーブルを参照して、前記入力さ
れた符号に対応する前記単位データを出力する単位デー
タ出力手段と、前記入力された符号が復元された後に、前記文脈と復元
された前記単位データとの組み合わせの出現頻度に応じ
て前記復元テーブルの符号を更新する復元用テーブル更
新手段とを有することを特徴とする請求項１０に記載の
データ復元装置。
【請求項１２】前記復元用テーブルは、単一の根から枝
を繰り返し分岐させた木構造を有するとともに、末端の
節点に前記単位データが登録されており、各分岐された
枝毎に互いに識別可能な符号が与えられており、前記単位データ出力手段は、前記符号と同じ符号が与え
られている前記根からの経路を辿ることにより、その経
路の末端の節点に登録されている前記単位データを探
し、探し出した前記単位データを出力することを特徴と
する請求項１１に記載のデータ復元装置。
【請求項１３】前記第２復号化手段は、前記連続出現数を分類したカテゴリに付与される種々の
カテゴリ識別子と種々の符号とを対応づけたカテゴリテ
ーブルと、入力された符号に応じたカテゴリ識別子を前記カテゴリ
テーブルから読み出して、読み出されたカテゴリ識別子
を有するカテゴリを復号化するカテゴリ復号化手段と、続けて入力された符号から位置情報を求めるとともに、
求められた位置情報と前記カテゴリ復号化手段により復
号化されたカテゴリから、連続出現数を算出する連続出
現数算出手段と、前記連続している単位データを、前記連続出現数算出手
段で算出された前記連続出現数だけ続けて出力する単位
データ出力手段とを有することを特徴とする請求項１０
に記載のデータ復元装置。
【請求項１４】前記第２復号化手段は、過去に現れた連
続長数の出現頻度に応じて、動的に連続長を復号するこ
とを特徴とする請求項１０に記載のデータ復元装置。
【請求項１５】前記第２復号化手段は、連続長に対して符号を割り当てた連続長圧縮テーブル
と、前記連続長圧縮テーブルを参照して符号を連続長に復号
する連続長復号化手段とを有し、前記連続長が復号化された後に、連続長数の出現頻度に
応じて前記連続長圧縮テーブルを変更することを特徴と
する請求項１０に記載のデータ復元装置。
【請求項１６】前記連続同一判断手段は、所定の種類の
単位データに対してのみ判断を行うことを特徴とする請
求項１０に記載のデータ復元装置。
【請求項１７】請求項３に記載のデータ圧縮装置と請求
項１０に記載のデータ復元装置とからなるデータ圧縮・
復元システムであって、前記圧縮用テーブルの内容と前記復元用テーブルの内容
とが同一であることを特徴とするデータ圧縮・復元シス
テム。