JPH1155125A - 文字データの圧縮・復元方法 - Google Patents

文字データの圧縮・復元方法

Info

Publication number
JPH1155125A
JPH1155125A JP20765497A JP20765497A JPH1155125A JP H1155125 A JPH1155125 A JP H1155125A JP 20765497 A JP20765497 A JP 20765497A JP 20765497 A JP20765497 A JP 20765497A JP H1155125 A JPH1155125 A JP H1155125A
Authority
JP
Japan
Prior art keywords
code
internal number
dictionary
internal
context
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP20765497A
Other languages
English (en)
Inventor
Nobuko Sato
宣子 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP20765497A priority Critical patent/JPH1155125A/ja
Publication of JPH1155125A publication Critical patent/JPH1155125A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

(57)【要約】 【課題】 辞書型符号化、確率統計型符号化方式を用い
てデータを圧縮するに際し、小さいデータでも高い圧縮
率を得ることができるようにすること。 【解決手段】 原データを文字判別部11で判別して内
部番号列に変換し、辞書型符号化部12で符号化する。
また、内部番号に変換された文字列が辞書に保持されて
いない場合には、グループ特定部13で2つのグループ
に分け、8ビット符号化部14、13ビット符号化部1
5において、ひらがな、漢字等の文字を符号化し、グル
ープを示すビットを付して出力する。データを復元する
場合は、辞書型復元部22において、圧縮データを復元
して内部番号を得るとともに、圧縮データが辞書符号で
ない場合には、グループ特定部21でグループを特定し
グループ毎に復号を行い、文字コード変換部25で文字
コードに変換する。なお、確率統計型符号化方式による
データ圧縮にも同様に適用することができる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】近年、文字コード、画像デー
タ等の様々な種類のデータがコンピュータで扱われるよ
うになるのに伴い、取り扱われるデータ量も増大してい
る。このような大量のデータは、データ中の冗長な部分
を省いて圧縮することにより、記憶容量を減らしたり、
遠隔地への伝送を速くすることができる。本発明は、上
記データの圧縮/復元方法に関し、特に日本語データを
圧縮/復元するに好適な圧縮/復元方法に関するもので
ある。
【0002】
【従来の技術】ユニバーサル符号化方式には、データ系
列の類似性を利用した辞書型符号化方式と、データ列の
出現頻度を利用した確率統計型符号化方式がある。な
お、ここでは、データの種類を問わず、データの1word
単位を文字(アルファベット)といい、データの任意wo
rdつながったものを文字列と呼ぶこととする。辞書型符
号化方式の代表的な方法としては、LZ77方式とLZ
78方式(例えば、文献、植松友彦著、CD出版社発
行、「文書データ圧縮アルゴリズム入力」参照)があ
る。
【0003】また、確率統計型符号化方式は、統計的な
各文字の出現頻度に従い、出現確率の高い文字に対して
短い符号長を割り振ることにより圧縮効果を図る方式で
ある。確率統計型符号の代表的な方式としては、算術符
号化(例えば、文献、IAN H.WITTEN他著、Cmmun.of ACM
Vol.130 No.6 ,P520-540,「Arithmetic Cording for
Data Compression 」、あるいは、D.M.Abrahamson著、
Cmmun.of ACM Vol.132No.1 ,P77-83 ,「An Adaptive D
ependency Sorce Model for Data Compression Schem
e」参照)や、ハフマン符号化方式(例えば、文献、Don
ald E.Knuth著,Jounal of Algorithms Vol.6,P163-180
「Dynamic Huffman Coding」参照)がある。
【0004】一層の圧縮効果を得るため、一文字の出現
確率( P(Xt) )ではなく、図10に示すように、入力文
字と直前の文字との依存関係を(以下、文脈という)を
取り入れた条件付き出現確率に基づいて可変長符号化す
る方法が提案されている(以下、このような文脈を取り
入れた条件付き確率を用いて可変長符号化するものを文
脈モデルという)。
【0005】図11(a)に示す文脈及び符号化対象文
字は図11(b)(c)に示すように木構造で表される
〔以下図11(a)(b)に示すものを文脈木とい
う〕。各ノードの文字を通る文字列が出現する毎に出現
回数を各ノードで計数しておくことにより、条件付き確
率が求められる。実際に登録・保持する方法は、図11
の文脈木1,2のどちらでもよく、また、ハッシュ表な
どのように木構造を持たなくてもよい。
【0006】従来の文脈モデルには、以下の2つがある
(文献、TIMOTHY BELL他著、ACM Computing Surveys Vo
l.21,No.4 「Modeling for Text Compression 」参
照)。 (1)固定次脈の文脈 条件付き確率を求める文脈の長さ(以下次数という)を
固定にする方法である。例えば、2次の文脈では直前の
2文字に繋がる文字の条件付き確率P(Xt|Xt-2,Xt-1)を
得る。ただし、Xtは注目符号化文字、Xt-1,Xt-2はそれ
ぞれ直前の第1文字、第2文字とする。 (2)Blending文脈(ブレンドモデル) Blending(次数の混合)は、次数を固定せずに入力デー
タに応じて次数を伸ばす方法である。ブレンドモデル
は、文脈毎の未登録を示すESCコードを含めて各文字
の条件確率(または符号そのもの)を保持し、文字を圧
縮するまで次数を一つずつ落としながら符号を出力す
る。復元のときも文字を復元するまで次数を一つずつ落
とす。
【0007】図12に従来のデータ圧縮/復元方式のブ
ロック図を示す。データ圧縮をする場合には、同図
(a)に示すように与えられた原データの文字列もしく
は文脈が保持されているかを検索し、それらが保持され
ている場合には、保持されている「文字列」もしくは
「文脈に続く文字」を符号化して出力し、保持されてい
ない場合には原データの文字をそのままコピーして出力
する。また、データを復元する場合には、同図(b)に
示すように与えられた圧縮データ(符号)が保持されて
いるかを検索し、それらが保持されている場合には、圧
縮データに対応した「文字列」もしくは「文字」を復号
化し、また、保持されていない場合には、与えられた符
号をそのままコピーして出力する。
【0008】
【発明が解決しようとする課題】上記したように、従来
の方法では、始めて出現する文字(内部辞書に保持して
いない文字)については、符号化せずにそのままをコピ
ー出力していた。日本語は文字の種類が数千と多いの
で、単純に符号化処理単位を文字単位とすると、始めて
出現する文字が増え、従来の方法では小さいデータに対
して、大きな圧縮率劣化となった。本発明は上記した従
来技術の問題点を解決するためになされたものであっ
て、その目的とするところは、前記した辞書型符号化、
確率統計型符号化方式によるデータの圧縮/復元におい
て、内部辞書に保持されていない文字が出現した場合、
予め割り当てた符号を出力することにより高い圧縮率を
得ることである。
【0009】
【課題を解決するための手段】上記した辞書型符号化、
確率統計型符号化方式によるデータの圧縮/復元におい
て、内部辞書に保持されていない文字が出現した場合、
そのままをコピー出力するのではなく、予め割り当てた
符号を出力することにより高い圧縮性能を得ることがで
きる。特に、日本語コードの場合は、使い易さから2バ
イト、4バイトの符号長を用いているが、実際に使用さ
れている文字は現時点では数千種類しかなく13ビット
で十分に表すことができる。特にひらがな・句読点だけ
だと82種類で、7ビットで表現でき、そこにカタカ
ナ、アルファベット、制御コードを加えても8ビットで
表現出来る。
【0010】そこで、日本語文章の半分前後を占めるひ
らがな、句読点、アルファベット制御コード等をグルー
プ1、残りの漢字等をグループ2とし、グループを区別
するのに1ビット、グループ内での各文字を判別するの
に、グループ1で8ビット、グループ2では13ビット
を用いる。こうすることによって、ひらがな等をより短
い符号長で表わすことが出来る。また、入力データを複
数の単位に分割し、各分割単位毎に符号化することによ
り、上記と同様、高い圧縮性能を得ることができる。例
えば、2バイトの符号長の日本語コードを第1バイト、
第2バイトに分割し、第1バイト、第2バイトをそれぞ
れ符号化することにより、13〜14ビットで日本語コ
ードを符号化することができる。
【0011】図1、図2、図3は本発明の原理構成図で
あり、本発明は上記課題を次のようにして解決する。図
1は本発明を辞書型符号化方式によるデータ圧縮に適用
した場合を示し、同図(a)は入力データを圧縮する場
合を示し、同図(b)は同図(a)により圧縮したデー
タを復元する場合を示している。データを圧縮する場合
には、入力バイトを使用文字コードにあわせて1バイ
ト、2バイト、4バイト等を1文字として入力し、図1
(a)に示すように、原データを文字判別部11で判別
し特定の文字を表わす内部表現(内部番号)に変換す
る。
【0012】ついで、内部番号に変換された文字列(文
字列に対応した内部番号列、以下同じ)がバッファ(内
部辞書、以下バッファという)に保持されている場合に
は、辞書型符号化部12において前記した辞書型符号化
方式により上記内部番号列を符号化する。また、内部番
号に変換された文字列がバッファに保持されていない場
合には、各文字(文字に対応した内部番号)をグループ
特定部13において2つのグループに分け、それぞれの
グループ毎に符号化する。例えば日本語の場合には、8
ビット符号化部14においてひらがな、カタカナ、アル
ファベット、数字、句読点及び制御コードの文字を8ビ
ットの符号に変換し、第1ビットにグループを示すビッ
ト(=1)を付して出力する。また、13ビット符号化
部15において上記以外の漢字等の文字を13ビットの
符号に変換し、第1ビットにグループを示すビット(=
0)を付して出力する。
【0013】データを復元する場合には、図1(b)に
示すように、圧縮データ(符号)が、辞書型符号化方式
により符号化された辞書符号で有るかを調べ、辞書符号
の場合には、辞書型復元部22において、圧縮データを
復元して内部番号を得る。また、圧縮データ(符号)が
辞書符号でない場合には、グループ特定部21におい
て、圧縮データの第1ビットを参照してグループを特定
し、グループ毎に復号を行う。例えば日本語の場合に
は、第1ビットが1のとき8ビット復号部23において
圧縮データを復号してひらがな等に対応した内部番号を
得る。また、第1ビットが0のとき、13ビット復号部
24において圧縮データを復号して漢字等に対応した内
部番号を得る。文字コード変換部25は上記辞書型復元
部22および8ビット復号部23、13ビット復号部2
4において復号した内部番号を指定された文字コードに
変換して出力する.
【0014】図2は本発明を確率統計型符号化方式によ
るデータ圧縮に適用した場合を示し、同図(a)は前記
した条件付き確率を用いた確率統計型符号化方式による
データ圧縮に本発明を適用した場合を示し、同図(b)
は同図(a)により圧縮したデータを復元する場合を示
している。データを圧縮する場合には、図2(a)に示
すように、原データを文字判別部31で判別し特定の文
字を表わす内部表現(内部番号)に変換する。そして、
バッファに、文脈と入力文字との組みあわせが保持され
ているかを検索する。文脈と入力文字との組みあわせ
が、既に登録されていれば、確率統計型符号化部32に
おいて出現頻度にあわせて割け振られたハフマン符号に
符号化し出力する。また、未登録であれば、未登録を示
す符号を出力して文脈を1つ短くしてさらに検索して符
号化する。
【0015】文脈なしの文字が未登録であれば、前記し
たように、グループ特定部33において2つのグループ
に分け、ひらがな等の文字を、8ビット符号化部34に
おいて8ビットの符号に変換し、第1ビットにグループ
を示すビット(=1)を付して出力する。また、13ビ
ット符号化部35において上記以外の漢字等の文字を1
3ビットの符号に変換し、第1ビットにグループを示す
ビット(=0)を付して出力する。
【0016】また、データを復元する場合には、図2
(b)に示すように、圧縮データの文脈がバッファに保
持されているかを調べ保持されている場合には、確率統
計型復元部42において、文脈を条件として圧縮データ
を復元し、復元した文字(内部番号)を出力する。ま
た、未登録を示すコードが復元されたら、文脈を一つ短
くしてさらに復元する。文脈なしで未登録のコードが復
元されたら、グループ特定部41において、圧縮データ
の第1ビットを参照してグループを特定し、8ビット復
号部43、13ビット復号部44において、前記したよ
うにグループ毎に復号を行う。文字コード変換部45は
上記復号した内部番号を指定された文字コードに変換し
て出力する。
【0017】図3は本発明を確率統計型符号化方式によ
るデータ圧縮に適用した場合を示し、同図(a)は前記
した条件付き確率を用いた確率統計型符号化方式による
データ圧縮に本発明を適用した場合を示し、同図(b)
は同図(a)により圧縮したデータを復元する場合を示
しており、図3においては、初めて出現した文字をバイ
ト単位に符号化し、また、符号化されたデータをバイト
単位で復元する場合を示している。
【0018】データを圧縮する場合には、図3(a)に
示すように、原データを文字判別部41で判別し特定の
文字を表わす内部表現(内部番号)に変換する。そし
て、バッファに、文脈と入力文字との組みあわせが保持
されているかを検索する。文脈と入力文字との組みあわ
せが、既に登録されていれば、確率統計型符号化部42
において出現頻度にあわせて割け振られたハフマン符号
に符号化し出力する。また、未登録であれば、未登録を
示す符号を出力して文脈を1つ短くしてさらに検索して
符号化する。文脈なしの文字が未登録であれば、データ
分割部51において、内部番号を複数の単位に分割し、
各符号化部52,53において分割した単位毎に符号を
割り当てる。例えば、内部番号が2バイトであれば、第
1バイト、第2バイトをそれぞれ符号化する。
【0019】また、データを復元する場合には、図3
(b)に示すように、圧縮データの文脈がバッファに保
持されているかを調べ保持されている場合には、確率統
計型復元部42において、文脈を条件として圧縮データ
を復元し、復元した文字(内部番号)を出力する。ま
た、未登録を示すコードが復元されたら、文脈を一つ短
くしてさらに復元する。文脈なしで未登録のコードが復
元されたら、復号部61,62において、各符号を復元
して一つの内部番号を得る。文字コード変換部45は上
記復号した内部番号を指定された文字コードに変換して
出力する。
【0020】以上のように、本発明においては、辞書型
符号化方式あるいは確率統計型符号化方式によりデータ
圧縮/復元を行うに際し、始めて出現する文字を本来の
文字単位に符号化しているので、高い圧縮性能を得るこ
とができ、特に、日本語文章の特徴である、ひらがなの
多用を利用して予めひらがなに短い符号を割り当てるこ
とによって高い圧縮率を得ることができる。
【0021】
【発明の実施の形態】図4、図5は本発明の第1の実施
例の処理を示すフローチャートである。図4はデータ圧
縮処理のフローチャートを示し、図5は復元処理のフロ
ーチャートを示しており、本実施例は前記した辞書型符
号化方式( LZ77)において、文字列がバッファに保
持された文字列と2文字以上一致しない場合に、その文
字を上記ビット割り当てにして圧縮する例を示してい
る。以下、図4、図5により本実施例による処理を詳述
する。図4は圧縮処理のフローチャートであり、図4に
おいて、まず、t=0、m=0に初期設定し(ステップ
S1)、t=t+m,m=0に設定する(ステップS
2,S3)。
【0022】ついで、既に出現した文字を同じく内部表
現に変えて保持しているバッファ内の文字列に最大一致
する文字列を検索する。すなわち、m=m+1として内
部表現に変換された1文字Xm を入力し、文字列X
(t+1,t+m) が上記バッファに保持されているかを調べる
(ステップS4,ステップS5)。そして、文字列X
(t+1,t+m) が上記バッファに保持されている場合には、
ステップS4に戻り、上記のようにm=m+1として、
1文字Xm を入力し文字列X(t+1,t+m) が上記バッファ
に保持されているかを調べる。なお、ここで、上記X
(t+1,t+m) は、文字列{Xt+1 ,Xt+2 ,…,Xt+m
を表している。上記ステップS3,S5の処理を繰り返
して、文字列の文字数mを増やしながら、上記バッファ
に文字列が保持されているかを調べ、文字列X
(t+1,t+m) が上記バッファに保持されていないと、m=
m−1として1文字戻す(ステップS6)。すなわち、
mは上記バッファに保持されている文字列の長さ(これ
を以下最大一致長という)になる。
【0023】次に、m>2であるかを調べ(ステップS
7)、最大一致長が2文字より長ければ、ステップS8
において辞書型符号化により文字列X(t+1,t+m) を符号
化する(一致した文字列長さと、バッファ内での位置を
示す符号を出力する)。そして、全データについて処理
が終了したかを調べ、終了していない場合には、ステッ
プS2に戻り上記処理を繰り返す(ステップS9)。ま
た、最大一致長が2文字以下であれば(m≦2の場
合)、前記したビット割り当てにして圧縮する(未一致
を示す符号と文字のグループを表わすビットとグループ
内でその文字を特定する符号を出力する)。すなわち、
m≦2の場合の場合には、m=1として、m−1文字戻
し、文字X t+1 (入力文字列の最初の文字)がグループ
1に属するか(ひらがな等であるか)を調べる(ステッ
プS10,S11)。
【0024】文字Xt+1 がグループ1に属する場合に
は、ビット1を出力したのち、文字X t+1 を8ビットで
符号化する(ステップS12,S14)。また、文字X
t+1 がグループ0に属する場合(漢字等の場合)には、
ビット0を出力したのち、文字Xt+1 を13ビットで符
号化する(ステップS13,S15)。ついで、ステッ
プS2に戻り上記処理を繰り返す。
【0025】図5は復元処理のフローチャートであり、
図5において、まず、t=0に設定し(ステップS
1)、圧縮データが辞書型符号であるかを調べる(ステ
ップS2)。圧縮データが辞書型符号の場合には、符号
化したデータのバッファの位置から一致長分の文字番号
(内部番号)を得て、得られた内部表現から指定された
文字コードに変換出力する。すなわち、ステップS3に
おいて、文字列X(t+1,t+m) を復号化し、文字の長さm
が0になるまで、1文字Xm ずつ出力する(ステップS
4,S5)。
【0026】また、圧縮データが辞書型符号でない場合
には、ステップS2からステップS7に行き、第1ビッ
トによりグループを特定し、グループ毎に定まったビッ
ト長によって特定の文字を表す内部番号を得て、指定さ
れた文字コードに変換する。すなわち、第1ビットを入
力し、第1ビットが1であるか調べる(ステップS7,
S8)。第1ビットが1の場合は、m=1とし、文字X
m を8ビットで復号し、また、第1ビットが1でない場
合には、m=1とし、文字Xm を13ビットで復号する
(ステップS9,S10)。そして、ステップS4にい
き、前記したように文字Xm を出力する(ステップS4
〜S5)。ついで、全てのデータの処理が終了したかを
調べ(ステップS6)、全てのデータの処理が終了する
まで上記処理を繰り返す。
【0027】図6、図7は本発明の第2の実施例の処理
を示すフローチャートである。図6はデータ圧縮処理の
フローチャートを示し、図7は復元処理のフローチャー
トを示している。以下、図6、図7により本実施例によ
る処理を詳述する。図6は圧縮処理のフローチャートで
あり、図6において、まず、t=0に初期設定し(ステ
ップS1)、t=t+1として1文字Xt を入力し、n
を最大文脈次数Nに設定する(ステップS2,S3)。
次に、n>0であるかを判別し(ステップS4)、n>
0の場合には、文脈X (t-n,t-1) がバッファに保持され
ているかを調べる(ステップS5)。なお、X
(t-n,t-1) は前記したように文字列{Xt-n
t-n+1 ,…,Xt-1 }を表している。
【0028】バッファに文脈X(t-n,t-1) が保持されて
いない場合には、文脈を1文字短くし(ステップS1
0)、ステップS4に戻り上記処理を繰り返す。そし
て、文脈X(t-n,t-1) が保持されている場合には、文脈
(t-n,t-1) と文字Xt の組み合わせがバッファに保持
されているかを調べ(ステップS6)、保持されていな
い場合には、文脈X(t-n,t-1) に続くESCコードを符
号化して出力し(ステップS9)、ステップS10に行
き、上記したように文脈を1文字短くし(ステップS1
0)、ステップS4に戻り上記処理を繰り返す。また、
文脈X(t-n,t-1) と文字Xt の組み合わせがバッファに
保持されている場合には、文脈X(t-n,t-1) に続く文字
t を符号化して出力する(ステップS7)。ついで、
全データについて処理が終了したかを調べ、終了してい
ない場合には、ステップS2に戻り上記処理を繰り返す
(ステップS8)。以上のような処理を行い、n>0で
なくなると、ステップS4からステップS11に行き、
前記したように、各文字を2つのグループに分け、それ
ぞれのグループ毎に符号化する(ステップS11〜ステ
ップS15)。
【0029】図7は復元処理のフローチャートであり、
図7において、まず、t=0に初期設定し(ステップS
1)、t=t+1として、nを最大文脈次数Nに設定す
る(ステップS2,S3)。次に、n>0であるかを判
別し(ステップS4)、n>0の場合には、文脈X
(t-n,t-1) がバッファに保持されているかを調べる(ス
テップS5)。バッファに文脈X(t-n,t-1) が保持され
ていない場合には、文脈を1文字短くし(ステップS1
0)、ステップS4に戻り上記処理を繰り返す。そし
て、文脈X(t-n,t-1) が保持されている場合には、文脈
(t-n,t-1) を条件として圧縮データを復元する(ステ
ップS6)。ついで、復元したデータがESCコード以
外の文字であるかを調べ、ESCコードの場合には、ス
テップS10に戻り、文脈を1文字短くしステップS4
に戻り上記処理を繰り返す。
【0030】また、復元したデータがESCコード以外
の文字の場合には、復元した文字X t を出力する(ステ
ップS8)。そして、全データについて処理が終了した
かを調べ、終了していない場合には、ステップS2に戻
り上記処理を繰り返す(ステップS9)。以上のような
処理を行いn>0でなくなるとステップS4からステッ
プS11に行き、前記したように、第1ビットによりグ
ループを特定し、グループ毎に定まったビット長によっ
て特定の文字を表す内部番号を得て、指定された文字コ
ードに変換する(ステップS11〜S14)。
【0031】図8、図9は本発明の第3の実施例のフロ
ーチャートであり、図8はデータ圧縮処理のフローチャ
ートを示し、図9は復元処理のフローチャートを示して
おり、本実施例は、第2の実施例に示した条件付き確率
を用いた確率統計型符号化方式によるデータ圧縮/復元
において、初めて出現した文字を1バイト単位に符号化
して圧縮する例を示している。データを圧縮する場合は
図8に示す処理を行う。図8において、ステップS1〜
S10の処理は第2の実施例と同一であり、ステップS
4においてn>0でないと判別された場合、ステップS
11に行き、入力文字Xt を第1バイトXU と第2バイ
トXd に分割する。そして、第1バイトXu 、第2バイ
トXd をそれぞれ符号化して出力する(ステップS1
2,S13)。
【0032】また、データを復元する場合は図9に示す
処理を行う。図9において、ステップS1〜S10の処
理は第2の実施例と同じであり、ステップS4におい
て、n>0でないと判別された場合、ステップS11に
行き、第1バイトXU と第2バイトXd をそれぞれ復号
化し(ステップS11,S12)、第1バイトXu と第
2バイトXd を合わせてXt にして出力する。なお、上
記第1〜第3の実施例における内部番号は、同じビット
長で、文字と一対一で対応すればよく、例えばEUCコ
ードで制御コード、ASCII コードを8ビット左にシフト
したものでもよい。
【0033】
【発明の効果】以上説明したように、本発明において
は、辞書型符号化方式あるいは確率統計型符号化方式に
よりデータ圧縮/復元を行うに際し、始めて出現する文
字を本来の文字単位に符号化しているので、簡素で効果
的な圧縮を行うことができ、小さいデータでも高い圧縮
率を得ることができる。
【図面の簡単な説明】
【図1】本発明の原理構成図(1)である。
【図2】本発明の原理構成図(2)である。
【図3】本発明の原理構成図(3)である。
【図4】本発明の第1の実施例の処理(圧縮処理)を示
すフローチャートである。
【図5】本発明の第1の実施例の処理(復元処理)を示
すフローチャートである。
【図6】本発明の第2の実施例の処理(圧縮処理)を示
すフローチャートである。
【図7】本発明の第2の実施例の処理(復元処理)を示
すフローチャートである。
【図8】本発明の第3の実施例の処理(圧縮処理)を示
すフローチャートである。
【図9】本発明の第3の実施例の処理(復元処理)を示
すフローチャートである。
【図10】文脈モデルの可変長符号化を示す図である。
【図11】2次ブレンドモデルにおける文脈木の登録例
を示す図である。
【図12】従来のデータ圧縮/復元方式を説明する図で
ある。
【符号の説明】
11,31 文字判別部 12 辞書型符号化部 13,21,33,41 グループ特定部 14,34 8ビット符号化部 15,35 13ビット符号化部 22 辞書型復号部 23,43, 8ビット復号部 24,44 13ビット復号部 25,45 文字コード変換部 32 確率統計型符号化部 42 確率統計型復号部 51 データ分割部 52,53 符号化部 61,62 復号部

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 文字コードおよび制御コードから構成さ
    れる入力データを、そのコードに対応する内部番号列に
    変換し、辞書に保持されている過去に出現した内部番号
    列の中から、上記内部番号列に一致するものを検索し、 上記辞書に上記内部番号列が保持されている場合には、
    上記内部番号列を、上記辞書における上記内部番号の格
    納位置もしくは該位置に対応した番号と、一致長に相当
    する符号に変換して出力し、 上記辞書に上記内部番号列が保持されていない場合に
    は、未保持を示す符号を出力したのち、上記各内部番号
    を第1のグループと第2のグループの2つのグループに
    分け、各内部番号を、そのグループを表すビットと下記
    Lpビットからなる符号に変換し 2の(Lp−1)乗<Np<2のLp乗 (Npはグループpに属する文字の数、pは0または
    1) 上記各内部番号に対応する(Lp+1)ビットの符号を
    出力することを特徴とする文字データの圧縮方法。
  2. 【請求項2】 請求項1の圧縮方法で圧縮されたデータ
    を復元する方法であって、 過去に出現した内部番号列を保持した辞書を検索して、
    辞書における格納位置もしくは該格納位置に対応した番
    号と一致長から構成される符号を、対応する内部番号列
    に復元し、 圧縮データに対応した内部番号が上記辞書に保持されて
    いないことを示す未保持の符号が入力されたとき、該未
    保持の符号に続く符号の中のグループを示すビットを参
    照して、該ビットに応じて(Lp+1)ビットの符号を
    内部番号に復元し、 上記復元された内部番号を指定された文字コードおよび
    制御コードに変換することを特徴とする圧縮データの復
    元方法。
  3. 【請求項3】 文字コードおよび制御コードから構成さ
    れる入力データを、そのコードに対応する内部番号に変
    換し、 辞書に保持されている過去に出現した文脈の内部番号列
    と文字に対応する内部番号の組の中から、上記入力デー
    タの文脈の内部番号列と内部番号の組に一致するものを
    検索し、 入力データの文脈の内部番号列と内部番号の組が上記辞
    書に保持されていれば、その確率に割り振られた符号を
    出力し、 入力データの文脈の内部番号列と内部番号の組が上記辞
    書に保持されていない場合には、未保持の符号を出力し
    た後で、文脈を1つずつ短くしてその内部番号を特定す
    る符号を出力するまで上記辞書を検索する処理を続け、 上記辞書に入力データの文脈の内部番号列が保持されて
    おらず、入力データの内部番号が未登録の場合には、上
    記内部番号を第1のグループと第2のグループの2つの
    グループに分け、上記内部番号を、そのグループを表す
    ビットと下記Lpビットからなる符号に変換し 2の(Lp−1)乗<Np<2のLp乗 (Npはグループpに属する文字の数、pは0または
    1) 上記各内部番号に対応する(Lp+1)ビットの符号を
    出力することを特徴とする文字データの圧縮方法。
  4. 【請求項4】 請求項3の圧縮方法で圧縮されたデータ
    を復元する方法であって、 過去に出現した内部番号列を保持する辞書を検索して、
    該辞書に入力データの文脈の内部番号列が保持されてい
    る場合には、次の出現する文字の候補およびその確率か
    ら圧縮データの符号を内部番号に復元し、 未保持の符号を復号したら、上記文脈を一つずつ短くし
    ながら、内部番号を特定する符号を出力するまで上記辞
    書を検索する処理を続け、 文脈なしで未保持の符号を復号した場合には、符号の中
    のグループを示すビットを参照して、該ビットに応じて
    (Lp+1)ビットの符号を内部番号に復元し、 上記復元された内部番号を指定された文字コードおよび
    制御コードに変換することを特徴とする圧縮データの復
    元方法。
  5. 【請求項5】 文字コードおよび制御コードから構成さ
    れる入力データを、そのコードに対応する内部番号に変
    換し、 辞書に保持されている過去に出現した文脈の内部番号列
    と文字に対応する内部番号の組の中から、上記入力デー
    タの文脈の内部番号列と内部番号の組に一致するものを
    検索し、 入力データの文脈の内部番号列と内部番号の組が上記辞
    書に保持されていれば、その確率に割り振られた符号を
    出力し、 入力データの文脈の内部番号列と内部番号の組が上記辞
    書に保持されていない場合には、未保持の符号を出力し
    た後で、文脈を1つずつ短くしてその内部番号を特定す
    る符号を出力するまで上記辞書を検索する処理を続け、 上記辞書に入力データの文脈の内部番号列が保持されて
    おらず、入力データの内部番号が未登録の場合には、上
    記内部番号を複数の単位に分割し、分割した単位毎に符
    号を割り当てることを特徴とする文字データの圧縮方
    法。
  6. 【請求項6】 請求項5の圧縮方法で圧縮されたデータ
    を復元する方法であって、 過去に出現した内部番号列を保持する辞書を検索して、
    該辞書に入力データの文脈の内部番号列が保持されてい
    る場合には、次の出現する文字の候補およびその確率か
    ら圧縮データの符号を内部番号に復元し、 未保持の符号を復号したら、上記文脈を一つずつ短くし
    ながら、内部番号を特定する符号を出力するまで上記辞
    書を検索する処理を続け、 文脈なしで未保持の符号の場合には、該符号を複数の単
    位に分割して各分割された符号を複数回復号し、復号さ
    れた複数の符号を合わせて一つの内部番号を得て、 上記復元された内部番号を指定された文字コードおよび
    制御コードに変換することを特徴とする圧縮データの復
    元方法。
JP20765497A 1997-08-01 1997-08-01 文字データの圧縮・復元方法 Withdrawn JPH1155125A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP20765497A JPH1155125A (ja) 1997-08-01 1997-08-01 文字データの圧縮・復元方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP20765497A JPH1155125A (ja) 1997-08-01 1997-08-01 文字データの圧縮・復元方法

Publications (1)

Publication Number Publication Date
JPH1155125A true JPH1155125A (ja) 1999-02-26

Family

ID=16543363

Family Applications (1)

Application Number Title Priority Date Filing Date
JP20765497A Withdrawn JPH1155125A (ja) 1997-08-01 1997-08-01 文字データの圧縮・復元方法

Country Status (1)

Country Link
JP (1) JPH1155125A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004015743A (ja) * 2002-06-11 2004-01-15 Vehicle Information & Communication System Center 道路交通情報の圧縮符号化送信装置、その解凍復号化受信装置、その圧縮符号化送信方法、及びその解凍復号化受信方法
US7212679B2 (en) 2001-02-27 2007-05-01 Telefonaktiebolaget Lm Ericsson (Publ) Font compression and retrieval
JP2012533921A (ja) * 2009-07-17 2012-12-27 イーストソフト コーポレーション データの圧縮方法
JP2014146972A (ja) * 2013-01-29 2014-08-14 Fuji Xerox Co Ltd 符号化装置、復号装置、符号化・復号システム、及びプログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7212679B2 (en) 2001-02-27 2007-05-01 Telefonaktiebolaget Lm Ericsson (Publ) Font compression and retrieval
JP2004015743A (ja) * 2002-06-11 2004-01-15 Vehicle Information & Communication System Center 道路交通情報の圧縮符号化送信装置、その解凍復号化受信装置、その圧縮符号化送信方法、及びその解凍復号化受信方法
JP2012533921A (ja) * 2009-07-17 2012-12-27 イーストソフト コーポレーション データの圧縮方法
JP2014146972A (ja) * 2013-01-29 2014-08-14 Fuji Xerox Co Ltd 符号化装置、復号装置、符号化・復号システム、及びプログラム

Similar Documents

Publication Publication Date Title
JP3278297B2 (ja) データ圧縮方法及びデータ復元方法並びにデータ圧縮装置及びデータ復元装置
US7190287B2 (en) Method of generating Huffman code length information
JP3541930B2 (ja) 符号化装置及び復号化装置
EP1147612B1 (en) Code book construction for variable to variable length entropy encoding
JP3421700B2 (ja) データ圧縮装置及び復元装置並びにその方法
US6982661B2 (en) Method of performing huffman decoding
JPH07283739A (ja) 短ブロックのデータを圧縮、伸長するための方法、及び装置
Anisimov et al. Variable-length prefix codes with multiple delimiters
US7864085B2 (en) Data compression method and apparatus
CN1426629A (zh) 使用多个编码器的优化无损压缩的方法和装置
Bell et al. The relationship between greedy parsing and symbolwise text compression
JPH1155125A (ja) 文字データの圧縮・復元方法
Shanmugasundaram et al. Text preprocessing using enhanced intelligent dictionary based encoding (EIDBE)
JPH0628149A (ja) 複数種類データのデータ圧縮方法
JP3130324B2 (ja) データ圧縮方式
JP3425143B2 (ja) データ圧縮方法及びデータ復元方法並びにデータ圧縮装置及びデータ復元装置
JP2590287B2 (ja) データ圧縮方法およびデータ圧縮装置
El-Henawy et al. A hybrid technique for data Compression
JPH04280517A (ja) データ圧縮および復元方式
JP3051501B2 (ja) データ圧縮方法
JP3425142B2 (ja) データ圧縮方法及びデータ復元方法並びにデータ圧縮装置及びデータ復元装置
JP2004013680A (ja) 文字コード圧縮・復元装置および同方法
Maniya et al. Compression Technique based on Dictionary approach for Gujarati Text
Mukherjee et al. Text compression
Pannirselvam et al. A Comparative Analysis on Different Techniques in Text Compression

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20041005