JPH04167821A

JPH04167821A - データ符号化及び復号化方法

Info

Publication number: JPH04167821A
Application number: JP2294328A
Authority: JP
Inventors: Yoshiyuki Okada; 佳之岡田; Hirotaka Chiba; 広隆千葉; Shigeru Yoshida; 茂吉田; Yasuhiko Nakano; 泰彦中野
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1990-10-31
Filing date: 1990-10-31
Publication date: 1992-06-15

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔目次〕概要産業上の利用分野従来の技術（第１４図乃至第１６図）発明が解決しようとする課題課題を解決するための手段（第１図）作用実施例伸）第１の実施例の説明（第２図乃至第５図）（Ｉ））
第２の実施例の説明（第６図乃至第９図）（Ｃ）第３の
実施例の説明（第１０図乃至第１３図）（ｄ）他の実施例の説明発明の効果〔概要〕ＬＺＷ符号を用いて符号化及び復号化するデータ符号化
及び復号化方法に関し。

符号化初期の段階から効率的な圧縮をすることを目的と
し。

入力データを辞書に登録された文字列と比較し。

該入力データを該辞書に登録された文字列の内。

最大長一致するものの参照番号で指定して符号化するデ
ータ符号化方法において、該入力データから単語の区切
りを示す文字を検出し、該辞書に。

先頭文字から該区切りを示す文字までに至る各文字列を
登録する。

〔産業上の利用分野〕

本発明は、ＬＺＷ符号を用いて符号化及び復号化するデ
ータ符号化及び復号化方法に関する。

近年２文字コード、ベクトル情報２画像等様々な種類の
データがコンピュータで扱われるようになっており、扱
われるデータ量も急速に増加してきている。大量のデー
タを扱うときは、データの中の冗長な部分を省いてデー
タ量を圧縮することで、記憶容量を減らしたり、速く伝
送したりできるようになる。

様々なデータを１つの方式でデータ圧縮できる方法とし
てユニバーサル符号化が提案されている。

ここで２本発明の分野は９文字コードの圧縮に限らず、
様々なデータに適用できるが、以下では。

情報理論で用いられている呼称を踏襲し、データの１　
ｗｏｒｄ　単位を文字と呼び、データが任意ｗｏｒｄつ
ながったものを文字列と呼ぶことにする。

ユニバーサル符号の代表的な方法として、　、Ｚｉｖ−
Ｌｅｍｐｅｌ　（ジプーレンペル）符号がある（詳しく
ハ２例えば、宗像「Ｚｉｖ　−Ｌｅｍｐｅｌのデータ圧
縮法」、情報処理、Ｖｏｌ、２５．階１．１９８５年を
参照のこと）。

Ｚｉｖ　−Ｌｅｍｐｅ　１符号では■ユニバーサル型と
、■増分分解型（Ｉｎｃｒｅｍｅｎｔａｌ　ｐａｒｓｉ
ｎｇ　）の２つのアルゴリズムが提案されている。さら
に、ユニバーサル型アルゴリズムの改良として、ＬＺ８
Ｓ符号がある（Ｔ、　Ｃ０Ｂｅ１ｌ　、　　′″Ｂｅｔ
ｔｅｒ　ＯＰＭ／　１　、　ＴｅｘｔＣｏｍｐｒｅｓｓ
ｉｏｎ″、　　ＩＥＥＥ　Ｔｒａｎｓ、　ｏｎ　Ｃｏｍ
ｍｕｎ、。

Ｖｏｌ、　Ｃ０Ｍ−３４，Ｎａ１２．　ＤｅＣ，１９８
６参照）。また、増分分解型アルゴリズムの改良として
は、ＬＺ　Ｗ　（Ｌｅｍｐｅｌ　−Ｚｉｖ−Ｗｅｌｃｈ
　）符号があル（Ｔ、Ａ。

Ｗｅｌｃｈ　、　　”　Ａ　Ｔｅｃｈｎｉｑｕｅ　ｆｏ
ｒ　Ｈｉｇｈ−ＰｅｒｆｏｒｍａｎｃｅＤａｔａ　Ｃｏ
ｍｐｒｅｓｓｉｏｎ　’　、　Ｃｏｍｐｕｔｅｒ　、　
Ｊｕｎｅ　ｌ　９８４参照）。

これらの符号の内、高速処理ができることと。

アルゴリズムの簡単さからＬＺＷ符号が記憶装置のファ
イル圧縮などで使われるようになっている。

〔従来の技術〕

第１４図乃至第１６図は従来技術の説明図であり、第１
４図は従来のＬＺＷ符号化処理フロー図。

第１５図は従来のＬＺＷ復号化処理フロー図、第１６図
は従来のＬＺＷ符号化、復号化説明図である０ＬＺＷ符号化は、書き替え可能な辞書をもち。

入力文字コード、データ中を相異なる文字列（二分け、
この文字フイを出現した順に番号を付けて辞書に登録す
るとともに、現在入力している文字列を辞書に登録しで
ある最長−散文字列の番号で表して、符号化するもので
ある０第１４図のフロー図により符号化処理を説明する。

先ずステップＳ１（以下「ステップ」を省略）で予め全
文字につき一文字からなる文字列を初期値として登録し
てから符号化を始める。Ｓｌの符号化は、入力した最初
の文字Ｋにより辞書を検索して参照番号ωを求め、これ
を語頭文字列（ｐｒｅｆｉｘｓｔｒｉｎｇ）とする。

次に８２で入力データの次の文字を読み込み。

Ｓ３で文字入力が終了したか否かをチエツクした後、８
４に進んでＳｌで求めた語頭文字列ω又はＳ５のωにＳ
２で読み込んだ文字Ｋを加えた（ωＫ）が辞書にあるか
否か探す。

Ｓ４で文字列（ωＫ）が辞書になければ、８６に進んで
Ｓｌで求めた文字にの参照番号ωを符号語ｃｏｄｅ　（
ω）として出力し、また文字列（ωＫ）に新たな参照番
号を付加して辞書に登録し、さらにＳ２の入力文字Ｋを
参照番号ωに置き換えるとともに、辞書アドレスｎをイ
ンクリメントしてＳ２に戻って次の文字Ｋを読み込む。

一方、８４で文字列（ωＫ）が辞書にあれば。

Ｓ５で文字列（ωＫ）を参照番号ωに置き換え。

再びＳ２に戻って文字列（ωＫ）が辞書から探せなくな
るまで最大一致長の探索を続ける。

第１６図（５）、　（Ｃ）を参照して符号化を具体的に
説明すると次のようになる。

先ず第１６図（５）の入力データを左から右へ読み込む
。

ここでは、まずアルファベット２６文字ａ〜２及びスペ
ースを示す文字＄から成るデータを圧縮する場合を取上
げる。ＬＺＷ符号では、予め辞書に全文字につき一文字
からなる文字列を初期値として登録してから符号化を始
める。この場合、アルファベット２６文字とスペース１
文字、計２７文字を登録し辞書の先頭アドレスｎを２８
にセットする（第１６図（Ｑ参照）。

第１６図（５）では、先ずステップＳ１において。

最初の文字Ｃを入力し２文字Ｃの登録番号（アドレス）
３を語頭文字３ωとする。次にステップＳ２では次の文
字ａを入力し、それをＫとする。

ステップＳ３では次の文字Ｋが存在するので。

ステップＳ４に進み２語頭文字列ωと次の文字にの組合
せ（ωＫ）、即ち（３ａ）が辞書にあるかどうかをみる
。その結果、（３ａ）は辞書内に現時点では存在しない
ので、ステップＳ６へ進む。

ステップＳ６では、ｃｏｄｅ（ω）、即ち文字Ｃの登録
番号３に対応する符号（第１６図（５）では登録番号３
をそのまま符号として出力している。）を出力すると共
に、アドレス２８に（３ａ）の組合せを辞書に登録し、
Ｎを次のアドレス２９にインクリメントする。そして、
現時点のＫに相当するａの登録番号１を次の語頭文字列
ωとしてステップＳ２に戻る。

そして、ステップＳ２では次の文字ｔを入力し。

それをＫとする。同じく、ステップ８３．８４を経て、
８６では２文字ａの登録番号１が出力されると共に（１
ｔ）の組合せがアドレス２９に登録される。以下同様の
動作を繰り返す。

また、８４にて同じ文字列が辞書内に存在する場合２例
えば、単語ｅａｔのａｔ部分でａ即ち登録番号１が語頭
文字列ω９文字ｔがＫの時、登録番号２９にその組合せ
がすでに登録されているので、ステップＳ５へ進み、（
ωＫ）が存在する登録番号２９を新たな語頭文字列ωと
して、ステップＳ２に戻る。この動作を繰り返すことで
辞書内に存在する最長−散文字列を検索することができ
る。

以上がＬＺＷ符号化の具体的な処理方法である。

第１５図の復号化処理は第１４図の符号化の逆の操作を
行う。

第１５図の復号化では、符号化と同様に予め辞書に全文
字につき一文字から成る文字列を初期値として登録して
から復号を始める。

先ずＳｌで最初の符号（参照番号）を読み込み。

現在のＣ０ＤＥをＯＬＤ　ｃｏｄｅ　　とし、最初の符
号は既に辞書に登録された一文字の参照番号いずれかに
該当することから、入力符号Ｃ０ＤＥに一致する文字ｃ
ｏｄｅ　（Ｋ　）を探し出し１文字Ｋを出力する。

なお、出力した文字（Ｋ）は後述するＳ８の例外処理の
ためＦＩＮｃｈａｒにセットしておく。

次に８２に進んで次の符号を読み込んでＣ０ＤＥにＩ　
Ｎ　ｃｏｄｅとしてセットする。

Ｓ３で新たな符号があるか否か、すなわち符号入力の終
了の有無をチエツクしてＳ４に進み、Ｓ３で入力された
符号Ｃ０ＤＢが辞書に定義（登録）されているか否かチ
エツクする。

通常、入力した符号語は前回までの処理で辞書に登録さ
れているため、８５に進んで符号Ｃ０ＤＥに対応する文
字列ｃｏｄｅ　（ωＫ）を辞書から読み出し、８６で文
字列Ｋを一時的にスタックし、参照番号ｃｏｄｅ　（ω
）を新たなＣ０ＤＥとして再度Ｓ５に戻り、このＳ５，
８６の手順を再帰的に参照番号ωが一文字に至るまで繰
り返し、最後に８７に進んでＳ６でスタックした文字を
Ｌ　Ｉ’Ｆ　Ｏ（Ｌａ５ｔＩｎ　Ｉｉ’ａｓｔ　Ｏｕｔ
　）形式でポツプアップして出力する。

同時に８７において、前回使った符号ωと今回復元した
文字列の最初の一文字Ｋを組（ω、Ｋ）と表した文字列
に、新たな参照番号を付加して辞書に登録する。

なお、８４において登録されていない符号（符号化にお
いて直前の参照番号を参照する場合に起きる）場合、８
８にて、　ＯＬＤ　ｃｏｄｅをＣ０ＤＥに。

ｃｏｄｅ　（ＯＬＤｃｏｄｅ、　ｃｈａｒ　）をｌＮＣ
０ｄｅに戻した後に８５へ進むようにする。

第１６図（１３）、（Ｃ）を参照してＬＺＷの復号化処
理を具体的に説明すると次のようになる。

ステップＳ１にて、最初の入力符号３を読み込み、それ
を０ＬＤｃｏｄｅとすると共に符号３に相当する文字Ｃ
を出力する。次に８２において次の符号１を読み込み、
それをＩ　Ｎ　ｃｏｄｅとする。Ｓ３を通って８４では
符号１がすでに定義されているので８５に進む。Ｓ５で
は、符号１に相当文字列が１文字のａに該当する為、直
ちにＳ７に進む。

Ｓ７では文字ａを出力し２文字ａをＦＩＮｃｈａｒとす
る。また、　ＯＬＤ　ｃｏｄｅの３とＫに対応する文字
ａの組合せ（３ａ）を辞書のアドレス２８に登録し、ア
ドレス２９にインクリメントするとともに、　　Ｉ　Ｎ
　ｃｏｄｅをＯＬＤ　ｃｏｄｅ　ニ代入し”’Ｃ’、８
２に戻る。以下同様の処理を繰り返す。

〔発明が解決しようとする課題〕

１つの意味を持つワード（単語二文字の集合）は、特に
アルファベットの文章の場合、スペースで区切られてい
る。

しかし、従来のＬＺＷ符号では、スペース文字＄も他の
アルファベットと同じと見なしているため、第１６同人
に示すように同じｃａｔという単語が出現しているにも
かかわらず、同じ文字列とはみなさず分解された形で符
号化する。

そのため、何回か学習しないと意味のある単語として登
録されず、符号化初期の段階で効果的な圧縮ができない
という問題があった。

従って１本発明は、符号化初期の段階から効率的な圧縮
をすることができるデータ符号化及び復号化方法を提供
することを目的とする。

〔課題を解決するための手段〕

第１図は本発明の原理図である０本発明の請求項（１）は、第１図（５）に示すように。

入力データを辞書に登録された文字列と比較し。

該入力データを該辞書に登録された文字列の内。

最大炎一致するものの参照番号で指定して符号化するデ
ータ符号化方法において、該入力データから単語の区切
りを示す文字を検出し、該辞書に。

先頭文字から該区切りを示す文字までに至る各文字列を
登録するものである。

本発明の請求項（２）は、請求項（１）の符号化データ
を辞書に登録された文字列の参照番号と比較し。

該符号化データを一致する参照番号の文字列に復号化す
るデータ復号化方法において、復号化された文字列から
単語の区切りを示す文字を検出し。

該辞書に、先頭文字から該区切りを示す文字までに至る
各文字列を登録するものである。

本発明の請求項（３）は、第１図（Ｂ）に示すように。

入力データを辞書に登録された文字列と比較し。

該入力データを該辞書に登録された文字列の内。

先頭文字から該区切りを示す文字に至る各文字列を登録
するとともに、１つ前の区切りを示す文字の次の文字か
ら該区切りを示す文字に至る各文字列を付随して登録す
るものである。

本発明の請求項（４）は、請求項（３）の符号化データ
を辞書に登録された文字列の参照番号と比較し。

該辞書に、先頭文字から該区切りを示す文字に至る各文
字列を登録するとともに、１つ前の区切りを示す文字の
次の文字から該区切りを示す文字に至る各文字列を付随
して登録するものである。

本発明の請求項（５）は、第１図（ｑに示すように。

入力データを辞書に登録された文字列と比較し。

該入力データを該辞書に登録された文字列の内。

先頭文字から該区切りを示す文字までに至る各文字列を
登録するとともに、該入力データから文章の区切りを示
す文字を検出し、該登録を打ち切るものである。

本発明の請求項（６）は、請求項（５）の符号化データ
を辞書に登録された文字列の参照番号と比較し。

該辞書に、先頭文字から該区切りを示す文字までに至る
各文字列を登録するとともに、該入力データから文章の
区切りを示す文字を検出し、該登録を打ち切るものであ
る。

〔作用〕

本発明の請求項（１）、　（２）では、符号化文字列に
対してスペース等の単語の区切りを示す文字を目安に連
続的に文字列を登録することで、意味のある。

単語を最初に出現する段階で登録し、符号化初期から効
率的な圧縮を可能とする。

又２本発明の請求項（３）、　（４）では、連続登録の
他に、二重に付属登録を行うので、更に符号化初期にお
ける登録が早く進み、より一層効率的な圧縮が期待でき
る。

更に２本発明の請求項（５）、　（ｆ３）では、連続登
録に加え９文章の区切りである文字が出現したときに連
続登録を打ち切るので２文章の頭が揃い、効率的な圧縮
、復元が期待できる。

〔実施例〕

（ａ）第１の実施例の説明第２図乃至第５図は本発明の第１の実施例説明図であり
、第２図は符号化処理フロー図、第３図は復号化処理フ
ロー図、第４図は符号化、復号化例の説明図、第５図は
辞書の説明図である。

尚、符号化、復号化とも２図示しないプロセッサがメモ
リに辞書を作成して実行するものとする。

符号化処理について、第２図を用いて説明する。

８１）　　先ずステップＳ１にて辞書の初期化として。

出現する全ての第１文字（ここではａ　−ｚとスペース
＄の２７文字）を登録し、辞書の先頭アドレスを２８と
する。

８２）８２では最初の文字Ｋを入力し、それを。

登録する時に利用する文字列ωｌと符号化する時に利用
する文字列ω２に代入する。

尚、ここでは、ω１−ω２となる。

５３）Ｓ３において２次の文字Ｋを入力し、　　８４に
進む。

８４）　　ステップＳ４では、登録の語頭文字列ωｌと
文字にとの組合せが辞書にあるかどうかをみる。

８５）　　存在するならば、ωｌ　Ｋが登録されている
アトヒスを新たなωｌ、またω２　Ｋが登録されている
アドレスを新たなω２として代入し、８６へ進む。

ｓ６）　　次に、データ終了かを調べ、データ終了なら
８１０へ、データ終了でないならＳ３へ戻る。

これによって、辞書内にある最長−散文字列を検索する
。

８７）８４にてωｌ　Ｋの組合せが辞書に登録されてい
ない場合１文字Ｋがデータの区切り目である＄（スペー
ス文字）と一致するかどうかをみる。

５８）一致しない場合は、データの区切り目ではないの
で、符号文字列ω２に対応する符号ｃｏｄｅ（ω２）を
出力すると共にωｌＫの組合せを辞書に登録、登録アド
レスをインクリメントした後、ωＩＫが登録されている
アドレスを新たなωｌ　（これによって連続登録が可能
）、Ｋを新たなω２として、８６へ進む。

８９）　　一致する場合、即ちデータの区切り目即ち文
字Ｋが＄の場合、符号文字列ω２に対応する符号ｃｏｄ
ｅ　（ω２）を出力すると共にωＩＫの組合せを辞書に
登録、登録アドレスをインクリメントした後、Ｋを新た
なω２として、再びω２に対応する符号ｃｏｄｅ　（ω
２）を出力する。そして１次の文字Ｋを入力して、その
文字Ｋを各々ω１．ω２とする。

これによって、データの区切り間（＄と次の文字の間）
の登録を避けていることになる。

そして、ステップＳ６へ進む。

５１０）ステップＳ６でデータ終了なら、符号文字列ω
２の符号ｃｏｄｅ　（ω２）を出力し、終了する。

本発明の符号化における例を第４図（５）及び第５図（
辞書の内容）に示し、これを具体的に説明する。

ここでは、従来と同じく、まずアルファベット２６文字
ａ−ｚ及びスペースを示す文字＄から成るデータを圧縮
する場合を取上げる。

第２図のステップＳ１では、予め辞書に全文字につき一
文字からなる文字列を初期値として登録してから符号化
を始める。この場合、第５図に示すように、アルファベ
ット２６文字とスペース１文字、計２７文字を登録し、
辞書の先頭アドレスを２８にセットする。

第４図（５）では、第２図のステップＳ２において。

最初の文字Ｃを入力し１文字Ｃの登録番号３を各々登録
文字列ω１．符号化文字列ω２に代入する。

次にステップＳ３では次の文字ａを入力し、それをＫと
する。

次にステップＳ４に進み、登録文字列ω１と次の文字に
の組合せ（ωＩＫ）、即ち（３ａ）が辞書にあるかどう
かをみる。その結果、（３ａ）は辞書内に現時点では存
在しないので、ステップＳ７へ進む。

ステップＳ７においてＫに相当する文字ａがデータの切
れ目と定義している＄ではないので８８に進む。

Ｓ８において、　　ｃｏｄｅ（ω２）、即ち文字Ｃの登
録番号３に対応する符号（第４図（８）では登録番号３
をそのまま符号として出力している。）を出力すると共
に、アドレス２８に（３ａ）の組合せを辞書に登録し、
Ｎを次のアドレス２９にインクリメントする。そして、
（ωＩＫ）、即ち（３ａ）を登録した辞書のアドレス２
８を次の登録文字列ωｌに、さらにＫに相当する文字ａ
の登録番号３を次の符号化文字列ω２としてＳ６に進む
。

次の文字ｔの場合も同様の経路を辿り、８８にて（ｃａ
ｔ）、即ち（２８ｔ）をアドレス２９に登録する。

次の文字＄の場合、８７において、に−＄である為、８
９へ進む。

Ｓ９では、現時点の０２に相当する１つ手前の文字ｔの
登録番号２０に対応した符号ｃｏｄｅ　（ω２）を出力
すると共に、アドレス３０に（２９＄）の組合せを辞書
に登録し、Ｎを次のアドレス３１にインクリメントする
。そして、（Ｋ＝＄）をω２に代入した後、ｃｏｄｅ（
＄）即ち２７を出力し１次の文字ｅを読み込み１文字ｅ
の登録番号５を登録文字列ωｌ、符号化文字列ω２に代
入して、８６に進む。

以上２本発明の符号化において、データの切れ：　目ま
で連続登録することにより、単語等の登録は１度の出現
で登録が済み、第４図（５）の見るが如く。

ｃａｔという単語が２度目に出現したときには。

登録番号のみで表現出来ると同時に２次の単語も含めて
登録することができ２文章等も効果的に圧縮出来る。

次に、復号化処理について、第３図を用いて説明する。

８１）　　第３図の復号化では、Ｓｌにおいて符号化と
同様に予め辞書に全文字につき一文字からなる文字列を
初期値として登録してから復号を始める。

８２）　　まずＳ２で最初の符号（参照番号）を読み込
み、現在のＣ０ＤＥを０ＬＤｃｏｄｅとし、最初の符号
は既に辞書に登録された一文字の参照番号いずれかに該
当することから、入力符号Ｃ０ＤＨに一致する文字ｃｏ
ｄｅ（Ｋ）を探し出し２文字Ｋを出方する。なお、出力
した文字（Ｋ）は後の例外処理のためＦ　Ｉ　Ｎ　ｃｈ
ａｒにセットしておく。

８３）　　次に８３に進んで次の符号を読み込んでＣ０
ＤＥにＩ　Ｎ　ｃｏｄｅとしてセットする。

８４）　　次に８４に進み、８３で入力された符号Ｃ０
ＤＥが辞書に定義（登録）されているが否かチエツクす
る。

ｓ５）　通常、入力した符号語は前回までの処理で辞書
に登録されているため、８５に進んで符号Ｃ０ＤＥに対
応する文字列ｃｏｄｅ　（ωＫ）を辞書から読み出す。

８６）８６で文字列Ｋを一時的にスタックし、参照番号
ｃｏｄｅ　（ω）を新たなＣ０ＤＥとして再度Ｓ５に戻
し、この８５．８６の手順を再帰的に参照番号ωが一文
字にいたるまで繰り返す。

８７）　最後に８７に進んで２文字Ｋを出力し、ＫをＦ
ＩＮｃｈａｒにセットした後、８６でスタックした文字
をＬ　Ｉ　Ｆ　Ｏ（Ｌａ５ｔ　Ｉｎ　Ｆａｓｔ　Ｏｕｔ
　）形式でポツプアップして出力する。

Ｓ８）次に８８において、Ｋがデータの区切＄かどうか
をチエツクする。Ｋが＄の場合Ｓ９へ、Ｋが＄でない場
合ｓｉｏへ進む。

８９）８９では、前回使った符号ＯＬＤ　ｃｏｄｅと今
回復元した文字列の最初の一文字Ｋを組（ＯＬＤｃｏｄ
ｅ、　Ｋ　）と表した文字列に、新たな参照番号で辞書
に登録し、　　ｃｏｄｅ　（ＯＬＤ　ｃｏｄｅ、　Ｋ　
）を０ＬＤｃｏｄｅ　　として８１１に進む。

５１０）また８１０ではＳ９と同じく組（ＯＬＤ　ｃｏ
ｄｅ。

Ｋ）を辞書に登録する。そして２次の符号を読み込み、
そのＣ０ＤＥをＯＬＤ　ｃｏｄｅと共に入力符号Ｃ０Ｄ
Ｈに一致する文字ｃｏｄｅ（Ｋ）を探し出し、その文字
Ｋを出力する。そしてＫをＦＩＮｃｈａｒにセットし、
Ｓ１１に進む。

８１１）　８１１でデータ終了をチエツクし、終了でな
ければＳ３に戻る。

５１２）なお、８４において登録されていない符号（符
号化において直前の参照番号を参照する場合に起きる）
場合、Ｓ１２にて、　ＯＬＤ　ｃｏｄｅをＣ０ＤＥに、
　　ｃｏｄｅ　（ＯＬＤｃｏｄｅ、　ＦＩＮＣｈａｒ　
）をＩＮｃｏｄｅ　　に戻した後に８５へ進むようにす
る。

即ち、第１５図の従来例に対し、ステップ８８゜８９．
８１０が加わり、復元文字が＄（スペース）の場合か否
かに応じて、連続登録を行うものである０本発明の復号化における例を第４図（Ｂ）及び第５図（
辞書の内容）に示し、これを具体的に説明する０第３図の復号化フローチャートに従えば、先ずステップ
Ｓ１にて、予め辞書に全文字につき一文字からなる文字
列を初期値として登録してから符号化を始める。この場
合、第５図に示すように。

アルファベット２６文字とスペース１文字、計２７文字
を登録し、辞書の先頭アドレスを２８にセットする。

次に８２において、入力符号３をＯＬＤ　ｃｏｄｅとし
、符号３に相当する文字Ｃを出力すると共に。

文字ＣをＦＩＮｃｈａｒに代入する。

Ｓ３で次の符号１を読み込み、それをｌＮＣ０ｄｅとす
る。次に８４において、符号１はＣ０ＤＥとして定義さ
れている（初期値として登録されているので）ので、８
５に進む。

次に符号１はｃｏｄｅ（ａ）であるから、８６へ行かず
に直ちにＳ７へ進む。Ｓ７では、Ｋに相当する文字ａを
出力し、８８にてＫが＄でないので。

Ｓ９へ進む。

Ｓ’１ＪＣ−は２組（ＯＬＤｃｏｄｅ、　Ｋ）即ち（３
ａ）を辞書のアドレス２８に登録すると共に、辞書のア
ドレスを２９にインクリメントする。そして２組（ＯＬ
Ｄｃｏｄｅ、　Ｋ）が登録されている辞書のアドレス２
８をＯＬＤ　ｃｏｄｅとしてＳ１１を経てＳ３へ戻る０第４図の）において、最初の＄が入力された時は。

Ｓ８にてに＝＄によりＳ９へ進み、８９では。

（２９＄）を辞書のアドレス３０に登録すると共に。

データの切れ目間の登録をしないように２次の符号５を
読む。それをＯＬＤ　ｃｏｄｅとして、符号５に相当す
る文字ｅを出力すると共に１文字ｅをＦ　Ｉ　Ｎｃｈａ
ｒ　　に代入し８１１に進む。

以上２本発明の復号化において、データの切れ目まで連
続登録することにより、単語等の登録に１度の出現で登
録が済み、第４図（Ｂ）に見るが如く。

ｃａｔという単語が２度目に出現したときには。

登録番号のみで表現出来ると同時に２次の単語も含めて
登録することができ１文章等も効果的に復元出来る。

（ｂ）第２の実施例の説明第６図乃至第９図は本発明の第２の実施例説明図であり
、第６図は符号化処理フロー図、第７図は復号化処理フ
ロー図、第８図は符号化、復号化例の説明図、第９図は
辞書の説明図である。

この例では、第１の実施例の他に、二重に付属登録する
所に特徴がある。

符号化処理について、第６図を用いて説明する。

尚、第２図と同一のステップについては説明を省略する
。

８１〜８４）ステップ８１〜Ｓ４までは、第２図と全く
同じであり、説明省略する。ただし、ここでは、８１に
て付属登録を判断するパラメータＣ１Ｄを共にＯとする
。

８５、Ｓ６）ステップ８５．８６にて、検索されている
文字列の中にデータの切れ目＄があるかないかによって
付属登録を行うことを判断する為のパラメータＣを定め
、データの切れ口＄がある場合にＣを１とする。

８７、５８）Ｓ　７．Ｓ　ｓは第２図の８５．Ｓ６と同
じである。

８９）８４にて（ω、Ｋ）が辞書にない場合、　　８９
へ進む。Ｓ９では、付属登録をしない場合、即ちＣ−０
の場合は、８１０へ進む。

８１０〜５１２）第２図の８８．８９と同一である。

８１３）　　８９において付属登録をする場合、即ちＣ
二重の場合は、Ｓ１３に進む。８１３において付属登録
の始め（Ｄ＝Ｏ）かどうかをみる。

８１４）　　Ｄ＝Ｑの場合、付属登録の始めとしてＳ１
４に進み、Ｋを付属登録用の登録文字列ω３に代入、付
属登録の経過を示すパラメータＤを１として８１０に進
む。

８１５）　　８１３にてＤ＝１（７）ｔｊＪ、Ｓ　１５
に進み。

付属登録を行う。８１５では、（ω３Ｋ）の組合せが辞
書内にあるかどうかを検索し、辞書にある場合は８１７
に、辞書にない場合は８１６に進む。

８１６）　　８１６では、（ω３Ｋ）の組合せを辞書に
登録し、辞書アドレスＮをインクリメントしてＳ１７に
進む。

８１７）　　Ｓ　１７では、ω３Ｋが登録されているア
ドレスをω３として８１０に進む。

従って、第６図では、第２図のフローに、Ｓ６゜８９、
　８１３．　８１４．　　Ｓｌ、５．　８１６．　８１
７を加えて、付属登録を行うものである。

第２の実施例の符号化の例を第８図（５）及び第９図（
辞書の内容）に示し、これを具体的に説明する。第８図
（５）の場合、同じ単語ｃａｔが２回出現した時までは
第４図（５）と動作は同じのため、説明は省略する。

次の単語ｅｇｇが入力された時に、ｃａｔに続いて連続
登録する場合と、ｅｇｇを単独でも登録するようにする
（これを付属登録と呼ぶ）。

例えば、に−ｅの場合、第６図の８９でＣ＝１より（一
つ手前の処理で、ｃａｔの後に＄があるので８５．８６
を経てＣ＝１となっている。）Ｓ１３に進み、Ｄ二〇な
ので、Ｓ１４に進む０そして文字ｅに相当する登録番号
５をω３とすると共にＤを１とする。

８１０〜８１２までは第４図（５）と同じ＜　、　（３
０ｅ）の組合せが辞書のアドレス３４に登録される。

次の文字ｇが入力された時は、８９，８１３を経て８１
５に進み、（５ｇ）の組合せは辞書に登録されていない
ので、８１６にて登録される。

以上、付属登録を行うのでさらに初期における登録が早
く進み、効率的な圧縮が期待出来る。

次に、復号化処理について、第７図を用いて説明する。

尚、第３図、第６図と同一のステップについては、説明
を省略する。

８１〜８６）第３図の８１〜Ｓ６と同一のため、説明は
省略する。

８７．８８）第６図の符号化処理の８５．８６と同じで
、登録済みの文字列に「＄」が存在するかどうかを見る
。

８９）　　第３図の８７と同一のため、説明は省略する
。

８１０〜５１５）第６図の符号化処理の８１３〜Ｓ１７
と同一であり、付属登録を行う。

８１６〜５１８）第３図の８８〜５１０（第６図の８１
０〜５１２）と同一であり、連続登録を行う。

５１９）第３図の８１１と同一である。

第２の実施例の復号化の例を第８図の）及び第９図に示
す。

第８図β）に示すように、連続登録３５　（ｃａｔ＄ｅ
ｇ）、３　Ｂ　（ｃａｔ＄ｅｇｇ）、４　Ｑ　（ｃａｔ
＄ｅｇｇ＄）と同時に、付属登録３５　（ｅｇ）、　　
３７　（ｅｇｇ）、３９　（ｅｇｇ＄）　　を行う。

以上、符号化と同様に連続登録の他に付属登録を行うの
でさらに初期における登録が早く進み。

効率的な復元が期待出来る。

（Ｃ）　　第３の実施例の説明第１０図乃至第１３図は本発明の第３の実施例説明図で
あり、第１０図は符号化処理フロー図。

第１１図は復号化処理フロー図、第１２図は符号化、復
号化例の説明図、第１３図は辞書の説明図である。

この例では、第１の実施例の連続登録に加え。

文章の区切りであるピリオド（、）やコンマ（１）等を
辞書に予め登録し、ピリオドやコンマが出現した時には
、それ以降連続登録をしないところに特徴がある。

第１０図を用いて符号化処理を説明する。

尚、第２図に示したステップと同一のものは。

説明を省略する。

８１〜８３）第２図のステップ８１〜Ｓ３と同一であり
、説明を省略する。

８４）８３の次の文字Ｋがピリオド（、）　、コンマ（
１）か判定し、ピリオド、コンマの場合、連続登録を打
ち切るため、Ｓ１２に進み、そうでない場合にはＳ５へ
進む。

８５〜５１１）第２図の８４〜８１０と同じであり。

連続登録を行う。

８１２）　　Ｓ　１０と同様の処理を行うが１文字列ω
ｌＫを登録しない。

即ち、ピリオド（、）やコンマ（１）が出現したので、
それを文字列につなげて登録しないところに違いがある
。これによって２文章の区切りで系列が途切れるので２
文章の頭をそろえることができ。

効率的な圧縮が期待出来る。

第３の実施例での符号化例を第１２図（５）及び第１３
図に示す。

第１２同人の場合、同じ単語ｃａｔが２回出現した後２
文章の区切りであるピリオド（、）が出現したので、こ
こで連続登録を打ち切る。そして。

次の単語ｅｇｇのｅから新たに連続登録を行う。

以上９文章毎に登録を打ち切るので９文章の頭が揃い、
効率的な圧縮が期特出来る。

次に、復号化処理について、第１１図を用いて説明する
。

尚、第３図と同一のステップについては、説明を省略す
る。

第３図のフローに、８１３，８１４のステップを加えた
ものであり、その他は同一である。

８１３）　　８１３において、復元文字Ｋがピリオドや
コンマかを判定する。ピリオド（、）やコンマ（１）の
場合、Ｓ１４に進み、そうでない場合はＳ８に進む。

８１４）　　Ｓ　１４では、Ｓ１０と同様の処理を行う
が、違いは（ＯＬＤｃｏｄｅ、　Ｋ）を辞書に登録セス
。

連続登録を行わないところにある。

第３の実施例での復号化例を第１２図但）及び第１３図
に示す。

符号化と同様に、２回目のｃａｔの次のピリオド（、）
のところで連続登録を打ち切り２次の単語ｅｇｇのｅか
ら新たに連続登録を行う。

以上、符号化同様に文章毎に登録を打ち切るので９文章
の頭が揃い、効率的な復元が期特出来る０（ｄ）　　他
の実施例の説明上述の実施例の他に９本発明は次のような変形が可能で
ある。

■　区切りを示す文字はスペース文字に限られず、他の
ものであってもよく２文章の区切りを示す文字もピリオ
ド、コンマに限られない。

■　ｃｏｄｅ　（ω）として、更にランレングス符号化
等を用いて圧縮してもよい。

■　文字列に限らす、符号化データ列であってもよい。

以上本発明を実施例により説明したが２本発明は本発明
の主旨に従い種々の変形が可能であり。

本発明からこれらを排除するものではない０〔発明の効
果〕以上説明した様に２本発明によれば２次の効果を奏する
。

■　本発明の請求項（１）、　（２）では−符号化文字
列に対してスペース等の単語の区切りを示す文字を目安
に連続的に文字列を登録することで、意味のある単語を
最初に出現する段階で登録し、符号化初期から効率的な
圧縮を可能とする。

■　本発明の請求項（３）、　（４）では、連続登録の
他に、二重に付属登録を行うので、更に符号化初期にお
ける登録が早く進み、より一層効率的な圧縮が期待でき
る。

■　更に２本発明の請求項（５）、　（６）では、連続
登録に加え２文章の区切りである文字が出現したときに
連続登録を打ち切るので２文章の頭が揃い。

効率的な圧縮、復元が期待できる。

【図面の簡単な説明】

第１図は本発明の原理図。第２図は本発明の第１の実施例符号化処理フロー図。第３図は本発明の第１の実施例復号化処理フロー図。第４図及び第５図は本発明の第１の実施例の説明図。第６図は本発明の第２の実施例符号化処理フロー図。第７図は本発明の第２の実施例復号化処理フロー図。第８図及び第９図は本発明の第２の実施例説明図。第１０図は本発明の第３の実施例符号化処理フロー図。第１１図は本発明の第３の実施例復号化処理フロー図。第１２図及び第１３図は本発明の第３の実施例の説明図
。第１４図乃至第１６図は従来技術の説明図である０ φφ曲

Claims

【特許請求の範囲】

（１）入力データを辞書に登録された文字列と比較し、該入力データを該辞書に登録された文字列の内、最大長
一致するものの参照番号で指定して符号化するデータ符
号化方法において、該入力データから単語の区切りを示す文字を検出し、該辞書に、先頭文字から該区切りを示す文字までに至る
各文字列を登録することを特徴とするデータ符号化方法。
（２）請求項（１）の符号化データを辞書に登録された
文字列の参照番号と比較し、該符号化データを一致する参照番号の文字列に復号化す
るデータ復号化方法において、復号化された文字列から単語の区切りを示す文字を検出
し、該辞書に、先頭文字から該区切りを示す文字までに至る
各文字列を登録することを特徴とするデータ復号化方法。
（３）入力データを辞書に登録された文字列と比較し、該入力データを該辞書に登録された文字列の内、最大長
一致するものの参照番号で指定して符号化するデータ符
号化方法において、該入力データから単語の区切りを示す文字を検出し、該辞書に、先頭文字から該区切りを示す文字に至る各文
字列を登録するとともに、１つ前の区切りを示す文字の
次の文字から該区切りを示す文字に至る各文字列を付随
して登録することを特徴とするデータ符号化方法。
（４）請求項（３）の符号化データを辞書に登録された
文字列の参照番号と比較し、該符号化データを一致する参照番号の文字列に復号化す
るデータ復号化方法において、復号化された文字列から単語の区切りを示す文字を検出
し、該辞書に、先頭文字から該区切りを示す文字に至る各文
字列を登録するとともに、１つ前の区切りを示す文字の
次の文字から該区切りを示す文字に至る各文字列を付随
して登録することを特徴とするデータ復号化方法。
（５）入力データを辞書に登録された文字列と比較し、該入力データを該辞書に登録された文字列の内、最大長
一致するものの参照番号で指定して符号化するデータ符
号化方法において、該入力データから単語の区切りを示す文字を検出し、該辞書に、先頭文字から該区切りを示す文字までに至る
各文字列を登録するとともに、該入力データから文章の区切りを示す文字を検出し、該
登録を打ち切ることを特徴とするデータ符号化方法。
（６）請求項（５）の符号化データを辞書に登録された
文字列の参照番号と比較し、該符号化データを一致する参照番号の文字列に復号化す
るデータ復号化方法において、復号化された文字列から単語の区切りを示す文字を検出
し、該辞書に、先頭文字から該区切りを示す文字までに至る
各文字列を登録するとともに、該入力データから文章の区切りを示す文字を検出し、該
登録を打ち切ることを特徴とするデータ復号化方法。