JPH1155125A

JPH1155125A - 文字データの圧縮・復元方法

Info

Publication number: JPH1155125A
Application number: JP20765497A
Authority: JP
Inventors: Nobuko Sato; 宣子佐藤
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1997-08-01
Filing date: 1997-08-01
Publication date: 1999-02-26

Abstract

(57)【要約】【課題】辞書型符号化、確率統計型符号化方式を用い
てデータを圧縮するに際し、小さいデータでも高い圧縮
率を得ることができるようにすること。【解決手段】原データを文字判別部１１で判別して内
部番号列に変換し、辞書型符号化部１２で符号化する。
また、内部番号に変換された文字列が辞書に保持されて
いない場合には、グループ特定部１３で２つのグループ
に分け、８ビット符号化部１４、１３ビット符号化部１
５において、ひらがな、漢字等の文字を符号化し、グル
ープを示すビットを付して出力する。データを復元する
場合は、辞書型復元部２２において、圧縮データを復元
して内部番号を得るとともに、圧縮データが辞書符号で
ない場合には、グループ特定部２１でグループを特定し
グループ毎に復号を行い、文字コード変換部２５で文字
コードに変換する。なお、確率統計型符号化方式による
データ圧縮にも同様に適用することができる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】近年、文字コード、画像デー
タ等の様々な種類のデータがコンピュータで扱われるよ
うになるのに伴い、取り扱われるデータ量も増大してい
る。このような大量のデータは、データ中の冗長な部分
を省いて圧縮することにより、記憶容量を減らしたり、
遠隔地への伝送を速くすることができる。本発明は、上
記データの圧縮／復元方法に関し、特に日本語データを
圧縮／復元するに好適な圧縮／復元方法に関するもので
ある。

【０００２】

【従来の技術】ユニバーサル符号化方式には、データ系
列の類似性を利用した辞書型符号化方式と、データ列の
出現頻度を利用した確率統計型符号化方式がある。な
お、ここでは、データの種類を問わず、データの１word
単位を文字（アルファベット）といい、データの任意wo
rdつながったものを文字列と呼ぶこととする。辞書型符
号化方式の代表的な方法としては、ＬＺ７７方式とＬＺ
７８方式（例えば、文献、植松友彦著、ＣＤ出版社発
行、「文書データ圧縮アルゴリズム入力」参照）があ
る。

【０００３】また、確率統計型符号化方式は、統計的な
各文字の出現頻度に従い、出現確率の高い文字に対して
短い符号長を割り振ることにより圧縮効果を図る方式で
ある。確率統計型符号の代表的な方式としては、算術符
号化（例えば、文献、IAN H.WITTEN他著、Cmmun.of ACM
Vol.130 No.6 ，P520-540，「Arithmetic Cording for
Data Compression 」、あるいは、D.M.Abrahamson著、
Cmmun.of ACM Vol.132No.1 ,P77-83 ，「An Adaptive D
ependency Sorce Model for Data Compression Schem
e」参照）や、ハフマン符号化方式（例えば、文献、Don
ald E.Knuth著，Jounal of Algorithms Vol.6,P163-180
「Dynamic Huffman Coding」参照）がある。

【０００４】一層の圧縮効果を得るため、一文字の出現
確率( P(Xt) ）ではなく、図１０に示すように、入力文
字と直前の文字との依存関係を（以下、文脈という）を
取り入れた条件付き出現確率に基づいて可変長符号化す
る方法が提案されている（以下、このような文脈を取り
入れた条件付き確率を用いて可変長符号化するものを文
脈モデルという）。

【０００５】図１１（ａ）に示す文脈及び符号化対象文
字は図１１（ｂ）（ｃ）に示すように木構造で表される
〔以下図１１（ａ）（ｂ）に示すものを文脈木とい
う〕。各ノードの文字を通る文字列が出現する毎に出現
回数を各ノードで計数しておくことにより、条件付き確
率が求められる。実際に登録・保持する方法は、図１１
の文脈木１，２のどちらでもよく、また、ハッシュ表な
どのように木構造を持たなくてもよい。

【０００６】従来の文脈モデルには、以下の２つがある
（文献、TIMOTHY BELL他著、ACM Computing Surveys Vo
l.21,No.4 「Modeling for Text Compression 」参
照）。（１）固定次脈の文脈条件付き確率を求める文脈の長さ（以下次数という）を
固定にする方法である。例えば、２次の文脈では直前の
２文字に繋がる文字の条件付き確率P(Xt｜Xt-2,Xt-1)を
得る。ただし、Xtは注目符号化文字、Xt-1，Xt-2はそれ
ぞれ直前の第１文字、第２文字とする。（２）Blending文脈（ブレンドモデル） Blending（次数の混合）は、次数を固定せずに入力デー
タに応じて次数を伸ばす方法である。ブレンドモデル
は、文脈毎の未登録を示すＥＳＣコードを含めて各文字
の条件確率（または符号そのもの）を保持し、文字を圧
縮するまで次数を一つずつ落としながら符号を出力す
る。復元のときも文字を復元するまで次数を一つずつ落
とす。

【０００７】図１２に従来のデータ圧縮／復元方式のブ
ロック図を示す。データ圧縮をする場合には、同図
（ａ）に示すように与えられた原データの文字列もしく
は文脈が保持されているかを検索し、それらが保持され
ている場合には、保持されている「文字列」もしくは
「文脈に続く文字」を符号化して出力し、保持されてい
ない場合には原データの文字をそのままコピーして出力
する。また、データを復元する場合には、同図（ｂ）に
示すように与えられた圧縮データ（符号）が保持されて
いるかを検索し、それらが保持されている場合には、圧
縮データに対応した「文字列」もしくは「文字」を復号
化し、また、保持されていない場合には、与えられた符
号をそのままコピーして出力する。

【０００８】

【発明が解決しようとする課題】上記したように、従来
の方法では、始めて出現する文字（内部辞書に保持して
いない文字）については、符号化せずにそのままをコピ
ー出力していた。日本語は文字の種類が数千と多いの
で、単純に符号化処理単位を文字単位とすると、始めて
出現する文字が増え、従来の方法では小さいデータに対
して、大きな圧縮率劣化となった。本発明は上記した従
来技術の問題点を解決するためになされたものであっ
て、その目的とするところは、前記した辞書型符号化、
確率統計型符号化方式によるデータの圧縮／復元におい
て、内部辞書に保持されていない文字が出現した場合、
予め割り当てた符号を出力することにより高い圧縮率を
得ることである。

【０００９】

【課題を解決するための手段】上記した辞書型符号化、
確率統計型符号化方式によるデータの圧縮／復元におい
て、内部辞書に保持されていない文字が出現した場合、
そのままをコピー出力するのではなく、予め割り当てた
符号を出力することにより高い圧縮性能を得ることがで
きる。特に、日本語コードの場合は、使い易さから２バ
イト、４バイトの符号長を用いているが、実際に使用さ
れている文字は現時点では数千種類しかなく１３ビット
で十分に表すことができる。特にひらがな・句読点だけ
だと８２種類で、７ビットで表現でき、そこにカタカ
ナ、アルファベット、制御コードを加えても８ビットで
表現出来る。

【００１０】そこで、日本語文章の半分前後を占めるひ
らがな、句読点、アルファベット制御コード等をグルー
プ１、残りの漢字等をグループ２とし、グループを区別
するのに１ビット、グループ内での各文字を判別するの
に、グループ１で８ビット、グループ２では１３ビット
を用いる。こうすることによって、ひらがな等をより短
い符号長で表わすことが出来る。また、入力データを複
数の単位に分割し、各分割単位毎に符号化することによ
り、上記と同様、高い圧縮性能を得ることができる。例
えば、２バイトの符号長の日本語コードを第１バイト、
第２バイトに分割し、第１バイト、第２バイトをそれぞ
れ符号化することにより、１３〜１４ビットで日本語コ
ードを符号化することができる。

【００１１】図１、図２、図３は本発明の原理構成図で
あり、本発明は上記課題を次のようにして解決する。図
１は本発明を辞書型符号化方式によるデータ圧縮に適用
した場合を示し、同図（ａ）は入力データを圧縮する場
合を示し、同図（ｂ）は同図（ａ）により圧縮したデー
タを復元する場合を示している。データを圧縮する場合
には、入力バイトを使用文字コードにあわせて１バイ
ト、２バイト、４バイト等を１文字として入力し、図１
（ａ）に示すように、原データを文字判別部１１で判別
し特定の文字を表わす内部表現（内部番号）に変換す
る。

【００１２】ついで、内部番号に変換された文字列（文
字列に対応した内部番号列、以下同じ）がバッファ（内
部辞書、以下バッファという）に保持されている場合に
は、辞書型符号化部１２において前記した辞書型符号化
方式により上記内部番号列を符号化する。また、内部番
号に変換された文字列がバッファに保持されていない場
合には、各文字（文字に対応した内部番号）をグループ
特定部１３において２つのグループに分け、それぞれの
グループ毎に符号化する。例えば日本語の場合には、８
ビット符号化部１４においてひらがな、カタカナ、アル
ファベット、数字、句読点及び制御コードの文字を８ビ
ットの符号に変換し、第１ビットにグループを示すビッ
ト（＝１）を付して出力する。また、１３ビット符号化
部１５において上記以外の漢字等の文字を１３ビットの
符号に変換し、第１ビットにグループを示すビット（＝
０）を付して出力する。

【００１３】データを復元する場合には、図１（ｂ）に
示すように、圧縮データ（符号）が、辞書型符号化方式
により符号化された辞書符号で有るかを調べ、辞書符号
の場合には、辞書型復元部２２において、圧縮データを
復元して内部番号を得る。また、圧縮データ（符号）が
辞書符号でない場合には、グループ特定部２１におい
て、圧縮データの第１ビットを参照してグループを特定
し、グループ毎に復号を行う。例えば日本語の場合に
は、第１ビットが１のとき８ビット復号部２３において
圧縮データを復号してひらがな等に対応した内部番号を
得る。また、第１ビットが０のとき、１３ビット復号部
２４において圧縮データを復号して漢字等に対応した内
部番号を得る。文字コード変換部２５は上記辞書型復元
部２２および８ビット復号部２３、１３ビット復号部２
４において復号した内部番号を指定された文字コードに
変換して出力する．

【００１４】図２は本発明を確率統計型符号化方式によ
るデータ圧縮に適用した場合を示し、同図（ａ）は前記
した条件付き確率を用いた確率統計型符号化方式による
データ圧縮に本発明を適用した場合を示し、同図（ｂ）
は同図（ａ）により圧縮したデータを復元する場合を示
している。データを圧縮する場合には、図２（ａ）に示
すように、原データを文字判別部３１で判別し特定の文
字を表わす内部表現（内部番号）に変換する。そして、
バッファに、文脈と入力文字との組みあわせが保持され
ているかを検索する。文脈と入力文字との組みあわせ
が、既に登録されていれば、確率統計型符号化部３２に
おいて出現頻度にあわせて割け振られたハフマン符号に
符号化し出力する。また、未登録であれば、未登録を示
す符号を出力して文脈を１つ短くしてさらに検索して符
号化する。

【００１５】文脈なしの文字が未登録であれば、前記し
たように、グループ特定部３３において２つのグループ
に分け、ひらがな等の文字を、８ビット符号化部３４に
おいて８ビットの符号に変換し、第１ビットにグループ
を示すビット（＝１）を付して出力する。また、１３ビ
ット符号化部３５において上記以外の漢字等の文字を１
３ビットの符号に変換し、第１ビットにグループを示す
ビット（＝０）を付して出力する。

【００１６】また、データを復元する場合には、図２
（ｂ）に示すように、圧縮データの文脈がバッファに保
持されているかを調べ保持されている場合には、確率統
計型復元部４２において、文脈を条件として圧縮データ
を復元し、復元した文字（内部番号）を出力する。ま
た、未登録を示すコードが復元されたら、文脈を一つ短
くしてさらに復元する。文脈なしで未登録のコードが復
元されたら、グループ特定部４１において、圧縮データ
の第１ビットを参照してグループを特定し、８ビット復
号部４３、１３ビット復号部４４において、前記したよ
うにグループ毎に復号を行う。文字コード変換部４５は
上記復号した内部番号を指定された文字コードに変換し
て出力する。

【００１７】図３は本発明を確率統計型符号化方式によ
るデータ圧縮に適用した場合を示し、同図（ａ）は前記
した条件付き確率を用いた確率統計型符号化方式による
データ圧縮に本発明を適用した場合を示し、同図（ｂ）
は同図（ａ）により圧縮したデータを復元する場合を示
しており、図３においては、初めて出現した文字をバイ
ト単位に符号化し、また、符号化されたデータをバイト
単位で復元する場合を示している。

【００１８】データを圧縮する場合には、図３（ａ）に
示すように、原データを文字判別部４１で判別し特定の
文字を表わす内部表現（内部番号）に変換する。そし
て、バッファに、文脈と入力文字との組みあわせが保持
されているかを検索する。文脈と入力文字との組みあわ
せが、既に登録されていれば、確率統計型符号化部４２
において出現頻度にあわせて割け振られたハフマン符号
に符号化し出力する。また、未登録であれば、未登録を
示す符号を出力して文脈を１つ短くしてさらに検索して
符号化する。文脈なしの文字が未登録であれば、データ
分割部５１において、内部番号を複数の単位に分割し、
各符号化部５２，５３において分割した単位毎に符号を
割り当てる。例えば、内部番号が２バイトであれば、第
１バイト、第２バイトをそれぞれ符号化する。

【００１９】また、データを復元する場合には、図３
（ｂ）に示すように、圧縮データの文脈がバッファに保
持されているかを調べ保持されている場合には、確率統
計型復元部４２において、文脈を条件として圧縮データ
を復元し、復元した文字（内部番号）を出力する。ま
た、未登録を示すコードが復元されたら、文脈を一つ短
くしてさらに復元する。文脈なしで未登録のコードが復
元されたら、復号部６１，６２において、各符号を復元
して一つの内部番号を得る。文字コード変換部４５は上
記復号した内部番号を指定された文字コードに変換して
出力する。

【００２０】以上のように、本発明においては、辞書型
符号化方式あるいは確率統計型符号化方式によりデータ
圧縮／復元を行うに際し、始めて出現する文字を本来の
文字単位に符号化しているので、高い圧縮性能を得るこ
とができ、特に、日本語文章の特徴である、ひらがなの
多用を利用して予めひらがなに短い符号を割り当てるこ
とによって高い圧縮率を得ることができる。

【００２１】

【発明の実施の形態】図４、図５は本発明の第１の実施
例の処理を示すフローチャートである。図４はデータ圧
縮処理のフローチャートを示し、図５は復元処理のフロ
ーチャートを示しており、本実施例は前記した辞書型符
号化方式( ＬＺ７７）において、文字列がバッファに保
持された文字列と２文字以上一致しない場合に、その文
字を上記ビット割り当てにして圧縮する例を示してい
る。以下、図４、図５により本実施例による処理を詳述
する。図４は圧縮処理のフローチャートであり、図４に
おいて、まず、ｔ＝０、ｍ＝０に初期設定し（ステップ
Ｓ１）、ｔ＝ｔ＋ｍ，ｍ＝０に設定する（ステップＳ
２，Ｓ３）。

【００２２】ついで、既に出現した文字を同じく内部表
現に変えて保持しているバッファ内の文字列に最大一致
する文字列を検索する。すなわち、ｍ＝ｍ＋１として内
部表現に変換された１文字Ｘ_mを入力し、文字列Ｘ
_(t+1,t+m)が上記バッファに保持されているかを調べる
（ステップＳ４，ステップＳ５）。そして、文字列Ｘ
_(t+1,t+m)が上記バッファに保持されている場合には、
ステップＳ４に戻り、上記のようにｍ＝ｍ＋１として、
１文字Ｘ_mを入力し文字列Ｘ_(t+1,t+m)が上記バッファ
に保持されているかを調べる。なお、ここで、上記Ｘ
_(t+1,t+m)は、文字列｛Ｘ_t+1，Ｘ_t+2，…，Ｘ_t+m｝
を表している。上記ステップＳ３，Ｓ５の処理を繰り返
して、文字列の文字数ｍを増やしながら、上記バッファ
に文字列が保持されているかを調べ、文字列Ｘ
_(t+1,t+m)が上記バッファに保持されていないと、ｍ＝
ｍ−１として１文字戻す（ステップＳ６）。すなわち、
ｍは上記バッファに保持されている文字列の長さ（これ
を以下最大一致長という）になる。

【００２３】次に、ｍ＞２であるかを調べ（ステップＳ
７）、最大一致長が２文字より長ければ、ステップＳ８
において辞書型符号化により文字列Ｘ_(t+1,t+m)を符号
化する（一致した文字列長さと、バッファ内での位置を
示す符号を出力する）。そして、全データについて処理
が終了したかを調べ、終了していない場合には、ステッ
プＳ２に戻り上記処理を繰り返す（ステップＳ９）。ま
た、最大一致長が２文字以下であれば（ｍ≦２の場
合）、前記したビット割り当てにして圧縮する（未一致
を示す符号と文字のグループを表わすビットとグループ
内でその文字を特定する符号を出力する）。すなわち、
ｍ≦２の場合の場合には、ｍ＝１として、ｍ−１文字戻
し、文字Ｘ _t+1（入力文字列の最初の文字）がグループ
１に属するか（ひらがな等であるか）を調べる（ステッ
プＳ１０，Ｓ１１）。

【００２４】文字Ｘ_t+1がグループ１に属する場合に
は、ビット１を出力したのち、文字Ｘ _t+1を８ビットで
符号化する（ステップＳ１２，Ｓ１４）。また、文字Ｘ
_t+1がグループ０に属する場合（漢字等の場合）には、
ビット０を出力したのち、文字Ｘ_t+1を１３ビットで符
号化する（ステップＳ１３，Ｓ１５）。ついで、ステッ
プＳ２に戻り上記処理を繰り返す。

【００２５】図５は復元処理のフローチャートであり、
図５において、まず、ｔ＝０に設定し（ステップＳ
１）、圧縮データが辞書型符号であるかを調べる（ステ
ップＳ２）。圧縮データが辞書型符号の場合には、符号
化したデータのバッファの位置から一致長分の文字番号
（内部番号）を得て、得られた内部表現から指定された
文字コードに変換出力する。すなわち、ステップＳ３に
おいて、文字列Ｘ_(t+1,t+m)を復号化し、文字の長さｍ
が０になるまで、１文字Ｘ_mずつ出力する（ステップＳ
４，Ｓ５）。

【００２６】また、圧縮データが辞書型符号でない場合
には、ステップＳ２からステップＳ７に行き、第１ビッ
トによりグループを特定し、グループ毎に定まったビッ
ト長によって特定の文字を表す内部番号を得て、指定さ
れた文字コードに変換する。すなわち、第１ビットを入
力し、第１ビットが１であるか調べる（ステップＳ７，
Ｓ８）。第１ビットが１の場合は、ｍ＝１とし、文字Ｘ
_mを８ビットで復号し、また、第１ビットが１でない場
合には、ｍ＝１とし、文字Ｘ_mを１３ビットで復号する
（ステップＳ９，Ｓ１０）。そして、ステップＳ４にい
き、前記したように文字Ｘ_mを出力する（ステップＳ４
〜Ｓ５）。ついで、全てのデータの処理が終了したかを
調べ（ステップＳ６）、全てのデータの処理が終了する
まで上記処理を繰り返す。

【００２７】図６、図７は本発明の第２の実施例の処理
を示すフローチャートである。図６はデータ圧縮処理の
フローチャートを示し、図７は復元処理のフローチャー
トを示している。以下、図６、図７により本実施例によ
る処理を詳述する。図６は圧縮処理のフローチャートで
あり、図６において、まず、ｔ＝０に初期設定し（ステ
ップＳ１）、ｔ＝ｔ＋１として１文字Ｘ_tを入力し、ｎ
を最大文脈次数Ｎに設定する（ステップＳ２，Ｓ３）。
次に、ｎ＞０であるかを判別し（ステップＳ４）、ｎ＞
０の場合には、文脈Ｘ _(t-n,t-1)がバッファに保持され
ているかを調べる（ステップＳ５）。なお、Ｘ
_(t-n,t-1)は前記したように文字列｛Ｘ_t-n，
Ｘ_t-n+1，…，Ｘ_t-1｝を表している。

【００２８】バッファに文脈Ｘ_(t-n,t-1)が保持されて
いない場合には、文脈を１文字短くし（ステップＳ１
０）、ステップＳ４に戻り上記処理を繰り返す。そし
て、文脈Ｘ_(t-n,t-1)が保持されている場合には、文脈
Ｘ_(t-n,t-1)と文字Ｘ_tの組み合わせがバッファに保持
されているかを調べ（ステップＳ６）、保持されていな
い場合には、文脈Ｘ_(t-n,t-1)に続くＥＳＣコードを符
号化して出力し（ステップＳ９）、ステップＳ１０に行
き、上記したように文脈を１文字短くし（ステップＳ１
０）、ステップＳ４に戻り上記処理を繰り返す。また、
文脈Ｘ_(t-n,t-1)と文字Ｘ_tの組み合わせがバッファに
保持されている場合には、文脈Ｘ_(t-n,t-1)に続く文字
Ｘ_tを符号化して出力する（ステップＳ７）。ついで、
全データについて処理が終了したかを調べ、終了してい
ない場合には、ステップＳ２に戻り上記処理を繰り返す
（ステップＳ８）。以上のような処理を行い、ｎ＞０で
なくなると、ステップＳ４からステップＳ１１に行き、
前記したように、各文字を２つのグループに分け、それ
ぞれのグループ毎に符号化する（ステップＳ１１〜ステ
ップＳ１５）。

【００２９】図７は復元処理のフローチャートであり、
図７において、まず、ｔ＝０に初期設定し（ステップＳ
１）、ｔ＝ｔ＋１として、ｎを最大文脈次数Ｎに設定す
る（ステップＳ２，Ｓ３）。次に、ｎ＞０であるかを判
別し（ステップＳ４）、ｎ＞０の場合には、文脈Ｘ
_(t-n,t-1)がバッファに保持されているかを調べる（ス
テップＳ５）。バッファに文脈Ｘ_(t-n,t-1)が保持され
ていない場合には、文脈を１文字短くし（ステップＳ１
０）、ステップＳ４に戻り上記処理を繰り返す。そし
て、文脈Ｘ_(t-n,t-1)が保持されている場合には、文脈
Ｘ_(t-n,t-1)を条件として圧縮データを復元する（ステ
ップＳ６）。ついで、復元したデータがＥＳＣコード以
外の文字であるかを調べ、ＥＳＣコードの場合には、ス
テップＳ１０に戻り、文脈を１文字短くしステップＳ４
に戻り上記処理を繰り返す。

【００３０】また、復元したデータがＥＳＣコード以外
の文字の場合には、復元した文字Ｘ _tを出力する（ステ
ップＳ８）。そして、全データについて処理が終了した
かを調べ、終了していない場合には、ステップＳ２に戻
り上記処理を繰り返す（ステップＳ９）。以上のような
処理を行いｎ＞０でなくなるとステップＳ４からステッ
プＳ１１に行き、前記したように、第１ビットによりグ
ループを特定し、グループ毎に定まったビット長によっ
て特定の文字を表す内部番号を得て、指定された文字コ
ードに変換する（ステップＳ１１〜Ｓ１４）。

【００３１】図８、図９は本発明の第３の実施例のフロ
ーチャートであり、図８はデータ圧縮処理のフローチャ
ートを示し、図９は復元処理のフローチャートを示して
おり、本実施例は、第２の実施例に示した条件付き確率
を用いた確率統計型符号化方式によるデータ圧縮／復元
において、初めて出現した文字を１バイト単位に符号化
して圧縮する例を示している。データを圧縮する場合は
図８に示す処理を行う。図８において、ステップＳ１〜
Ｓ１０の処理は第２の実施例と同一であり、ステップＳ
４においてｎ＞０でないと判別された場合、ステップＳ
１１に行き、入力文字Ｘ_tを第１バイトＸ_Uと第２バイ
トＸ_dに分割する。そして、第１バイトＸ_u、第２バイ
トＸ_dをそれぞれ符号化して出力する（ステップＳ１
２，Ｓ１３）。

【００３２】また、データを復元する場合は図９に示す
処理を行う。図９において、ステップＳ１〜Ｓ１０の処
理は第２の実施例と同じであり、ステップＳ４におい
て、ｎ＞０でないと判別された場合、ステップＳ１１に
行き、第１バイトＸ_Uと第２バイトＸ_dをそれぞれ復号
化し（ステップＳ１１，Ｓ１２）、第１バイトＸ_uと第
２バイトＸ_dを合わせてＸ_tにして出力する。なお、上
記第１〜第３の実施例における内部番号は、同じビット
長で、文字と一対一で対応すればよく、例えばＥＵＣコ
ードで制御コード、ASCII コードを８ビット左にシフト
したものでもよい。

【００３３】

【発明の効果】以上説明したように、本発明において
は、辞書型符号化方式あるいは確率統計型符号化方式に
よりデータ圧縮／復元を行うに際し、始めて出現する文
字を本来の文字単位に符号化しているので、簡素で効果
的な圧縮を行うことができ、小さいデータでも高い圧縮
率を得ることができる。

【図面の簡単な説明】

【図１】本発明の原理構成図（１）である。

【図２】本発明の原理構成図（２）である。

【図３】本発明の原理構成図（３）である。

【図４】本発明の第１の実施例の処理（圧縮処理）を示
すフローチャートである。

【図５】本発明の第１の実施例の処理（復元処理）を示
すフローチャートである。

【図６】本発明の第２の実施例の処理（圧縮処理）を示
すフローチャートである。

【図７】本発明の第２の実施例の処理（復元処理）を示
すフローチャートである。

【図８】本発明の第３の実施例の処理（圧縮処理）を示
すフローチャートである。

【図９】本発明の第３の実施例の処理（復元処理）を示
すフローチャートである。

【図１０】文脈モデルの可変長符号化を示す図である。

【図１１】２次ブレンドモデルにおける文脈木の登録例
を示す図である。

【図１２】従来のデータ圧縮／復元方式を説明する図で
ある。

【符号の説明】

１１，３１文字判別部１２辞書型符号化部１３，２１，３３，４１グループ特定部１４，３４８ビット符号化部１５，３５１３ビット符号化部２２辞書型復号部２３，４３，８ビット復号部２４，４４１３ビット復号部２５，４５文字コード変換部３２確率統計型符号化部４２確率統計型復号部５１データ分割部５２，５３符号化部６１，６２復号部

Claims

【特許請求の範囲】

【請求項１】文字コードおよび制御コードから構成さ
れる入力データを、そのコードに対応する内部番号列に
変換し、辞書に保持されている過去に出現した内部番号
列の中から、上記内部番号列に一致するものを検索し、上記辞書に上記内部番号列が保持されている場合には、
上記内部番号列を、上記辞書における上記内部番号の格
納位置もしくは該位置に対応した番号と、一致長に相当
する符号に変換して出力し、上記辞書に上記内部番号列が保持されていない場合に
は、未保持を示す符号を出力したのち、上記各内部番号
を第１のグループと第２のグループの２つのグループに
分け、各内部番号を、そのグループを表すビットと下記
Ｌｐビットからなる符号に変換し２の（Ｌｐ−１）乗＜Ｎｐ＜２のＬｐ乗（Ｎｐはグループｐに属する文字の数、ｐは０または
１）上記各内部番号に対応する（Ｌｐ＋１）ビットの符号を
出力することを特徴とする文字データの圧縮方法。
【請求項２】請求項１の圧縮方法で圧縮されたデータ
を復元する方法であって、過去に出現した内部番号列を保持した辞書を検索して、
辞書における格納位置もしくは該格納位置に対応した番
号と一致長から構成される符号を、対応する内部番号列
に復元し、圧縮データに対応した内部番号が上記辞書に保持されて
いないことを示す未保持の符号が入力されたとき、該未
保持の符号に続く符号の中のグループを示すビットを参
照して、該ビットに応じて（Ｌｐ＋１）ビットの符号を
内部番号に復元し、上記復元された内部番号を指定された文字コードおよび
制御コードに変換することを特徴とする圧縮データの復
元方法。
【請求項３】文字コードおよび制御コードから構成さ
れる入力データを、そのコードに対応する内部番号に変
換し、辞書に保持されている過去に出現した文脈の内部番号列
と文字に対応する内部番号の組の中から、上記入力デー
タの文脈の内部番号列と内部番号の組に一致するものを
検索し、入力データの文脈の内部番号列と内部番号の組が上記辞
書に保持されていれば、その確率に割り振られた符号を
出力し、入力データの文脈の内部番号列と内部番号の組が上記辞
書に保持されていない場合には、未保持の符号を出力し
た後で、文脈を１つずつ短くしてその内部番号を特定す
る符号を出力するまで上記辞書を検索する処理を続け、上記辞書に入力データの文脈の内部番号列が保持されて
おらず、入力データの内部番号が未登録の場合には、上
記内部番号を第１のグループと第２のグループの２つの
グループに分け、上記内部番号を、そのグループを表す
ビットと下記Ｌｐビットからなる符号に変換し２の（Ｌｐ−１）乗＜Ｎｐ＜２のＬｐ乗（Ｎｐはグループｐに属する文字の数、ｐは０または
１）上記各内部番号に対応する（Ｌｐ＋１）ビットの符号を
出力することを特徴とする文字データの圧縮方法。
【請求項４】請求項３の圧縮方法で圧縮されたデータ
を復元する方法であって、過去に出現した内部番号列を保持する辞書を検索して、
該辞書に入力データの文脈の内部番号列が保持されてい
る場合には、次の出現する文字の候補およびその確率か
ら圧縮データの符号を内部番号に復元し、未保持の符号を復号したら、上記文脈を一つずつ短くし
ながら、内部番号を特定する符号を出力するまで上記辞
書を検索する処理を続け、文脈なしで未保持の符号を復号した場合には、符号の中
のグループを示すビットを参照して、該ビットに応じて
（Ｌｐ＋１）ビットの符号を内部番号に復元し、上記復元された内部番号を指定された文字コードおよび
制御コードに変換することを特徴とする圧縮データの復
元方法。
【請求項５】文字コードおよび制御コードから構成さ
れる入力データを、そのコードに対応する内部番号に変
換し、辞書に保持されている過去に出現した文脈の内部番号列
と文字に対応する内部番号の組の中から、上記入力デー
タの文脈の内部番号列と内部番号の組に一致するものを
検索し、入力データの文脈の内部番号列と内部番号の組が上記辞
書に保持されていれば、その確率に割り振られた符号を
出力し、入力データの文脈の内部番号列と内部番号の組が上記辞
書に保持されていない場合には、未保持の符号を出力し
た後で、文脈を１つずつ短くしてその内部番号を特定す
る符号を出力するまで上記辞書を検索する処理を続け、上記辞書に入力データの文脈の内部番号列が保持されて
おらず、入力データの内部番号が未登録の場合には、上
記内部番号を複数の単位に分割し、分割した単位毎に符
号を割り当てることを特徴とする文字データの圧縮方
法。
【請求項６】請求項５の圧縮方法で圧縮されたデータ
を復元する方法であって、過去に出現した内部番号列を保持する辞書を検索して、
該辞書に入力データの文脈の内部番号列が保持されてい
る場合には、次の出現する文字の候補およびその確率か
ら圧縮データの符号を内部番号に復元し、未保持の符号を復号したら、上記文脈を一つずつ短くし
ながら、内部番号を特定する符号を出力するまで上記辞
書を検索する処理を続け、文脈なしで未保持の符号の場合には、該符号を複数の単
位に分割して各分割された符号を複数回復号し、復号さ
れた複数の符号を合わせて一つの内部番号を得て、上記復元された内部番号を指定された文字コードおよび
制御コードに変換することを特徴とする圧縮データの復
元方法。