JPH08149016A - 文字列の符号化方法 - Google Patents

文字列の符号化方法

Info

Publication number
JPH08149016A
JPH08149016A JP28384694A JP28384694A JPH08149016A JP H08149016 A JPH08149016 A JP H08149016A JP 28384694 A JP28384694 A JP 28384694A JP 28384694 A JP28384694 A JP 28384694A JP H08149016 A JPH08149016 A JP H08149016A
Authority
JP
Japan
Prior art keywords
dictionary
character string
code
character
information source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP28384694A
Other languages
English (en)
Inventor
Junichiro Hagiwara
淳一郎 萩原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
NTT Mobile Communications Networks Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, NTT Mobile Communications Networks Inc filed Critical Nippon Telegraph and Telephone Corp
Priority to JP28384694A priority Critical patent/JPH08149016A/ja
Publication of JPH08149016A publication Critical patent/JPH08149016A/ja
Withdrawn legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/3084Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction using adaptive string matching, e.g. the Lempel-Ziv method
    • H03M7/3088Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction using adaptive string matching, e.g. the Lempel-Ziv method employing the use of a dictionary, e.g. LZ78

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

(57)【要約】 【目的】 最近出現した文字列の出現頻度が高くなると
いう情報源の性質を考慮し、圧縮率の高い符号化方法を
実現する。 【構成】 文字列a〜zおよびズペースを辞書番号(例
えば「1」〜「27」)に対応付ける辞書を使用し、動
的辞書法により情報源文字列を辞書番号に順次変換し、
該辞書番号を該文字列に対応した符号として伝送する方
法において、情報源文字列として既に辞書内に定義され
たものが出現した場合には該当する辞書番号を上記符号
として出力する一方、情報源文字列として新規な文字列
が出現した場合には、この新規な文字列に対し、所定の
最小値「1」を辞書番号として割り当て、その時点にお
いて辞書に既に定義済み各文字列の辞書番号を最小値
「1」と重複しないように1つずつずらすようにし、最
近出現した文字列ほど小さな値の辞書番号が割り当てら
れるようにした。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は動的辞書法を使用した
文字列の符号化方法に関する。
【0002】
【従来の技術】
A.増分分解型動的辞書法 ユニバーサル情報源符号化法の1つとして増分分解型動
的辞書法がある。この増分分解型動的辞書法において
は、順次与えられる情報源の文字列を符号化してゆく
際、最近出会った情報源の文字列を辞書に登録してお
き、辞書内に定義された文字列の中から情報源の文字列
に一致する文字列(最長一致系列)が見つかるとその中
から最長の文字列の辞書番号を出力して符号化する。そ
して、復号の際には符号化と同様に辞書を構成して辞書
番号から元の情報源の文字列を再生する。なお、この増
分分解型動的辞書法の詳細な手順については、後に具体
例を挙げて詳述する。
【0003】B.増分分解型動的辞書法の諸形態 以上が増分分解型動的辞書法の基本的な手順であるが、
この動的辞書法は、 (1)辞書の初期設定 (2)文字列を辞書に追加する方法 (3)辞書が一杯になる前の辞書動作 (4)辞書が一杯になった後の辞書動作 (5)辞書番号の2進数表現 等により、種々な亜種がある。以下に各々の項目におい
て、既に提案されている方法を説明する。
【0004】(1)辞書の初期設定に関する各種の技術 a.空の状態から辞書構成を開始する方法 すなわち、全く辞書項目がない状態から辞書構成を開始
する方法である。
【0005】b.辞書を情報源アルファベット一文字で
初期化した状態から辞書構成を開始する方法 例えば、アルファベット小文字a〜zおよびスペースか
らなる27文字を初期の文字列(各文字列は長さが1文
字)とし、各文字列に1〜27番までの辞書番号を与
え、この初期状態から辞書構成を開始する。
【0006】c.何らかの先見情報に基づいて辞書に特
殊な初期化を施してから辞書構成を開始する方法 例えば、一般に出現頻度の高い文字(英文字ならばth
e等)に優先的に番号を与える方法などが相当する。
【0007】(2)文字列を辞書に追加する方法 a.前回の最長一致文字列と今回の最長一致文字列の先
頭の一文字とを結合させた文字列を辞書に追加登録する
方法 例えば、前回の最長一致文字列が「the」、今回の最
長一致文字列が「cat」とした場合、 「the − c」 を辞書に追加登録する。
【0008】b.前回の最長一致文字列と今回の最長一
致文字列とを結合させた文字列を辞書に追加登録する方
法 例えば、前回の最長一致文字列が「the」、今回の最
長一致文字列が「cat」とした場合、 「the − cat」 を辞書に追加登録する。
【0009】c.前回の最長一致文字列と今回の最長一
致文字列の全てのプレフィックスパターンとの結合を辞
書に追加登録する方法 例えば、前回の最長一致文字列が「the」、今回の最
長一致文字列が「cat」とした場合、 「the − c」 「the − ca」 「the − cat」 のすべてを辞書に追加登録する。
【0010】(3)辞書が一杯になる前の辞書動作 a.新規追加文字列にシーケンシャルに番号を与える。
例えば図2に示すような辞書があり、1番“a”の後に
“t”、その後に“h“、その後に“e”を追加する場
合を考える。この場合、“at”は28番、“ath”
は29番、“athe”は30番になる。
【0011】(4)辞書が一杯になった後の動作 a.辞書を全てクリアする。 b.最長時間未使用文字列を1つ削除する(LRUアル
ゴリズムを用いる)。 c.最も使われなかった文字列を1つ削除する(辞書の
全項目について一致回数をチェックしてその結果を利用
する)。 d.辞書を複数用意して別の辞書に切り換える。
【0012】(5)辞書番号の2進数表示 a.最大辞書サイズにあわせた固定長符号を辞書番号と
して使用する。この方法においては、辞書番号の最大値
を表現可能な符号長の固定長符号により辞書番号を表現
する。例えば辞書番号の最大値が4096=2**12
(ただし、**はべき乗を表わす。以下において同
じ。)の場合には、12ビットの自然2進数表記を用い
る。
【0013】b.各時点での辞書サイズにあわせた可変
長符号を辞書番号として使用する。この方法において
は、辞書番号が規定最大値になる前ならば、その時点で
の最大値を表現できる長さで符号化を行う。例えば辞書
番号が9=2**3+1以上であり、かつ、16=2*
*4以下の場合に、4ビットの自然2進表記を用いる。
辞書が一杯になった後は、辞書番号の最大値を表現可能
なサイズに符号長を固定する。
【0014】c.統計的符号(ハフマン符号、算術符号
等)を辞書番号として使用する。この方法においては、
ハフマン符号、算術符号等の統計的符号を用いる。この
ため辞書番号を2進表記した符号の平均符号長は、a〜
cの3方法のなかで最小となる。従って統計的符号を用
いる場合、圧縮率は方法a,bに比べ高くなる。しか
し、動的辞書法の辞書構成の他に統計的符号自身の符号
化処理を行わなければならないため、処理速度は方法
a,bに比べ低下する。統計的符号の特徴は次の通りで
ある。
【0015】<静的な統計的符号の特徴> 動的辞書法の中間出力がある程度蓄積してから最終出
力を出す。 復号テーブルが必要である。 ある程度の文字をまとめ、同一の符号条件により符号
化を行うため処理速度が速い。
【0016】<動的な統計的符号の特徴> 動的辞書法の中間出力を1つずつに対し、符号条件を
動的に更新して最終出力を出す。 復号テーブルが不要である。 1文字づつ符号条件を更新していくため処理速度が遅
い。
【0017】C.増分分解型動的辞書法の例 以上、増分分解型動的辞書法の基本的手順およびその諸
形態について説明したが、ここでさらに理解を容易にす
るため、実例を挙げて増分分解型動的辞書法の具体的な
実行方法について説明する。なお、以下説明する例に上
記分類を適用すると次のようになる。
【0018】 (1)辞書の初期設定 ;方法bを適用 (2)文字列を辞書に追加する方法 ;方法aを適用 (3)辞書が一杯になる前の辞書動作 ;方法aを適用 (4)辞書が一杯になった後の辞書動作 ;方法aを適用 (5)辞書番号の2進数表現 ;方法aを適用
【0019】さて、この例では、情報源シンボルは英ア
ルファベットの小文字26種およびスペースの計27種
とする。そして情報源文字列“ababcbababa
aaaaaa”を符号化および復号する場合を考える。
【0020】まず、図3〜図5を参照し、文字列の符号
化を行う手順について説明する。周知の通り、動的符号
化においては、辞書を参照することにより、1文字また
は複数文字からなる文字列を単位として符号への変換を
行う。このような変換の単位を、以下、便宜上、系列と
呼ぶ。符号化に先立ち、文字列を符号列に変換するのに
使用する系列が辞書内になければならない。まず、この
ための辞書の初期化を行う。この初期化によって得られ
た辞書の内容を図6(a)に示す。この例ではアルファ
ベットにより構成された文字列の符号化を行う。従っ
て、a〜zの英小文字およびスペースの27種類の文字
を当初の変換対象として想定し、a〜zおよびスペース
の27系列により辞書を構成する。また、a〜zおよび
スペースの各系列には「1」〜「27」での辞書番号を
割り当てる(以上、図6(a)参照)。
【0021】次に情報源文字列“ababcbabab
aaaaaaa”の第1文字目を符号化開始位置として
設定し、辞書を構成する各系列と情報源文字列の符号化
開始位置以降の部分とを対比する。そして、情報源文字
列“ababcbababaaaaaaa”における符
号化開始位置から始まる連続した各文字列の中からいず
れかに一致するものを上記各系列の中から求め、このよ
うにして求めた系列のうち最長のものを選択する。この
ようにして得られる系列が上述した最長一致系列であ
る。また、この最長一致系列に対応した情報源文字列側
の部分を、以下では最長一致文字列という。
【0022】この場合、辞書内の各系列はすべて長さが
1であるため、文字列“ababcbababaaaa
aaa”の第1文字“a”に対応した系列“a”が最長
一致系列として得られ、この系列“a”に対応した辞書
番号「1」が得られる。
【0023】このようにして第1文字目までの変換が終
了すると、情報源文字列のうち次回の最長一致文字列の
先頭の1文字、すなわち、この場合には第1文字目まで
の変換が終了しているので第2文字目の“b”を求め
る。そして、第1文字目の変換に使用した最長一致系列
“a”に対してこの“b”を連結した系列“ab”を辞
書に加え、この“ab”に辞書番号「28」を割り当て
る(以上、図3(b)参照)。
【0024】次に、第2文字目を符号化開始位置として
設定する。そして、上記と同様に、情報源文字列“ab
abcbababaaaaaaa”における符号化開始
位置から始まる連続した各文字列のいずれかに一致する
ものを辞書を構成する各要素の中から求め、そのうち最
長の系列を選択する。この結果、文字列“ababcb
ababaaaaaaa”の第2文字に対応した系列
“b”が最長一致系列として得られ、この系列“b”に
対応した辞書番号「2」が得られる。このようにして第
2文字目までの変換が終了すると、変換対象たる文字列
のうち次回の最長一致文字列の先頭の1文字である
“a”を求める。そして、第2文字目の変換に使用した
最長一致系列“b”に対してこの“a”を連結した系列
“ba”を辞書に加え、この“ba”に辞書番号「2
9」を割り当てる(以上、図3(c)参照)。
【0025】そして、第2文字目までの変換が終了する
ことにより、符号化開始位置を第3文字目として符号へ
の変換を行う。この場合、辞書内の各系列のうち系列
“ab”が、文字列“ababcbababaaaaa
aa”の第3文字目から始まる文字列“ab”と一致す
る。このようにして系列“ab”および文字列系列“a
b”が最長一致系列および最長文字系列として求めら
れ、この系列“ab”に対応した符号「28」が得られ
る。このようにして変換対象文字列の第3および第4文
字が符号「28」に変換され、第4文字目までの変換が
終了することとなる。
【0026】そして、変換対象たる文字列のうち次回の
最長一致文字列の先頭の1文字、すなわち、この場合に
は第4文字目までの変換が終了しているので第5文字目
の“c”を求める。そして、第3および第4文字の変換
に使用した最長一致系列“ab”に対してこの“c”を
連結した長さが3の系列“abc”を辞書に加え、この
“abc”に辞書番号「30」を割り当てる(以上、図
3(d)参照)。
【0027】以下、同様に、辞書内の系列と文字列にお
ける符号化開始位置以降の部分とが一致する都度、当該
系列に最長一致文字列の次の1文字を加えた新たな系列
を辞書に追加しつつ、文字列の後方へ向けて符号化が進
められる(図4、図5参照)。
【0028】以上の処理により、情報源文字列“aba
bcbababaaaaaaa”に対応し、上記各辞書
番号からなる符号列「1,2,28,3,29,32,
1,34,35」が得られ、この符号列が復号側に送ら
れる。
【0029】復号側においては、この符号列から情報源
文字列の復号が行われる。以下、図6〜図8を参照し、
この復号処理について説明する。
【0030】まず、辞書の初期化を行い、辞書の内容を
符号化の際に使用した初期化時点のものにする(図6
(a)参照)。次に最初の符号「1」を取り出し、辞書
を構成する各系列の中から符号「1」が割り当てられた
系列“a”を求め、復号結果たる第1文字“a”を出力
する。そして、辞書を構成する各系列の中から最初の符
号「1」の次の符号「2」に対応した系列“b”を求
め、最初の符号に対応した系列“a”にこの系列“b”
を連結した系列“ab”を辞書に追加し、この系列“a
b”に符号「28」を割り当てる(以上、図6(b)参
照)。
【0031】次に第2番目の符号「2」を取り出し、辞
書を構成する各系列の中から符号「2」が割り当てられ
た系列“b”を求め、復号結果たる第2文字“b”を出
力する。そして、辞書を構成する各系列の中から符号
「2」の次の符号「28」に対応した系列“ab”を求
め、系列“b”にこの系列“ab”の第1文字目を連結
した系列“ba”を辞書に追加し、この系列“ba”に
符号「29」を割り当てる(以上、図6(c)参照)。
【0032】次に第3番目を符号「3」を取り出し、同
様の復号処理を行うことにより、図6(d)に示す結果
となる。以下、同様に、符号化の際と全く同一の手順で
辞書を更新しつつ復号処理が進められ、元の情報源文字
列“ababcbababaaaaaaa”が復元され
る(図7、図8参照)。
【0033】
【発明が解決しようとする課題】さて、上述した従来の
動的辞書法では次のような問題点がある。まず、通常情
報源に含まれる冗長性は同じ文字列を近い場所で繰り返
し多用するという形で現れる。従って最近辞書に追加し
た文字列ほど良く参照され、次に最長一致文字列の候補
となる可能性が高い。従って、よく参照され出力される
辞書番号に短い符号を与えると、圧縮率が一層高まるこ
ととなる。
【0034】ところで、従来の技術の項において(3)
として説明したように、従来の動的辞書法における辞書
が一杯になる前の辞書の動作においては、新規追加文字
列にシーケンシャルに辞書番号を与えている。このよう
な方法では最近追加した文字列ほど大きな辞書番号が与
えられる。
【0035】また、従来の技術の項において(5)とし
て説明したように、辞書番号の表現方法としては上記
a,b,cの3方法があったが、いずれの方法をとった
としても、最近追加した文字列に付与する辞書番号に対
しビット数の大きな可変長符号を使用することとなって
しまう。このように従来の技術は、使用頻度の高い最近
出現した文字列ほど辞書番号が大きくなってしまうた
め、圧縮率が良くならないという欠点があった。
【0036】この発明は以上説明した問題点を考慮し
た、圧縮性に優れた文字列の符号化方法を提供すること
を目的としている。
【0037】
【課題を解決するための手段】請求項1に係る発明は、
文字列を辞書番号に対応付ける辞書を使用し、情報源文
字列を辞書番号に順次変換する文字列の符号化方法にお
いて、前記情報源文字列として既に前記辞書内に定義さ
れたものが出現した場合には該当する辞書番号を該文字
列に対応した符号として出力する一方、前記情報源文字
列として新規な文字列が出現した場合には、 a.この新規な文字列に対し、所定の最小値を辞書番号
として割り当て、 b.その時点において前記辞書により既に定義されてい
る各文字列に対応した辞書番号を前記最小値と重複しな
いように一定の更新規則に従って更新し、 c.前記新規な文字列を前記最小値に対応付ける情報を
前記辞書に追加することを特徴とする文字列の符号化方
法を要旨とする。
【0038】請求項2に係る発明は、文字列を辞書番号
に対応付ける辞書を使用し、情報源文字列を辞書番号に
順次変換する文字列の符号化方法において、前記情報源
文字列として既に前記辞書内に定義されたものが出現し
た場合には該当する辞書番号のプレフィックス符号を該
文字列に対応した符号として出力する一方、前記情報源
文字列として新規な文字列が出現した場合には、この新
規な文字列に対し、新規な辞書番号を割り当て、該文字
列を該辞書番号に対応付ける情報を前記辞書に追加する
ことを特徴とする文字列の符号化方法を要旨とする。
【0039】請求項3に係る発明は、文字列を辞書番号
に対応付ける辞書を使用し、情報源文字列を辞書番号に
順次変換する文字列の符号化方法において、前記情報源
文字列として既に前記辞書内に定義されたものが出現し
た場合には該当する辞書番号のプレフィックス符号を該
文字列に対応した符号として出力する一方、前記情報源
文字列として新規な文字列が出現した場合には、 a.この新規な文字列に対し、所定の最小値を辞書番号
として割り当て、 b.その時点において前記辞書により既に定義されてい
る各文字列に対応した辞書番号を前記最小値と重複しな
いように一定の更新規則に従って更新し、 c.前記新規な文字列を前記最小値に対応付ける情報を
前記辞書に追加することを特徴とする文字列の符号化方
法を要旨とする。
【0040】
【作用】請求項1に係る発明によれば、最近追加された
文字列ほど小さな辞書番号(短い符号)が与えられるこ
とになり、圧縮率が向上する。
【0041】さて、上述した従来の方法(5)におい
て、方法bは処理量が小さいが、可変長符号の使用の可
否が辞書サイズにより左右される。一方、方法cは、処
理が大きいが、辞書サイズに拘わらず可変長符号を使用
することができる。このように両方法には一長一短があ
る。請求項2に係る発明によれば、プレフィックス符号
を使用するので、上記bおよびcの中間の処理量で、辞
書サイズに拘わらず可変長符号を使用することができる
という利点がある。
【0042】また、請求項3に係る発明によれば、最近
出会った文字列に対して小さな値の符号が発生されるこ
とにより圧縮率が向上し、符号としてプレフィックス符
号が使用されることにより圧縮率がさらに向上する。
【0043】
【実施例】以下、図面を参照し本発明の実施例について
説明する。 <第1実施例>本実施例による文字列の符号化方法にお
いては、辞書が一杯になる前の辞書動作において、新規
追加文字列の番号付与方法に先頭移動法(Move To F
ront;MTF)を使用する。
【0044】図1は本実施例による符号化方法を実施す
る手順を、文字列“athe”の符号化をする場合を例
に示している。以下、この図を参照し、本実施例の具体
的な実施の態様について説明する。
【0045】まず、前掲図3(a)に示す内容に辞書を
初期化する。そして、基本的には前掲図3〜図5を参照
して説明した動的辞書法により文字列の符号化を進め
る。しかし、本実施例は、新規な文字列を辞書に追加登
録する場合の動作が従来の方法と異なっている。
【0046】すなわち、辞書番号「1」の文字“a”の
後に“t”を追加した文字列“at”を辞書に追加登録
する場合、この新規な文字列“at”に対して最小の辞
書番号「1」を割り当て、今まで辞書番号「1」〜「2
7」が割り当てられていた各文字列の辞書番号を1つず
らして「2」〜「28」にする。次に“at”の後に
“h“を加えた文字列“ath”を辞書に追加登録する
場合には、この新規な文字列“ath”に辞書番号
「1」を割り当て、今まで辞書番号「1」〜「28」が
割り当てられていた各文字列の辞書番号を1つずらして
「2」〜「29」にする。同様に、次に“ath”の行
にeを加える場合、“athe”の辞書番号を「1」に
し、今まで「1」〜「29」だった辞書番号を1つずら
して「2」〜「30」にする。
【0047】このような操作を行うと、最近出会った文
字列に小さな番号が割り当てられ易くなる。従って、圧
縮率が向上することとなる。
【0048】<第2実施例>本実施例においては、「辞
書番号の2進数表示」の方法として、プレフィックス符
号を用いる方法を提案する。プレフィックス符号可変長
符号の一種であり、符号の先頭にその符号を一意に識別
することのできる表現を伴っている。このため特別なテ
ーブル等を使用しなくても一意に復号が可能であり、高
速な符復号が可能である。しかし、プレフィックス分の
冗長性のため、通常の可変長自然2進表記よりは符号長
が長くなる。また一般に小さい整数ほど短い符号が割り
当てられている。
【0049】プレフィックス符号の一例としてWill
em符号を説明する。ここでは、I<上限値2**L+
1を満足する整数Iを符号化する場合を考える。ここ
で、Iの符号は、LT(log I)の自然2進表記
(長さGT(log (L+1))ビット)と、1−2
**LT(log I)の自然2進表記(長さLT(l
og I)ビット)を並記した値になる(ここでGT
(J)はJ以上の最小の整数、LT(J)はJ以下の最
大の整数を表現する記号である)。本実施例において
は、既に述べた動的辞書法により文字列に対応した辞書
番号を得た後、以上の手順に従って辞書番号をプレフィ
ックス符号に変換し、復号側に送信する。
【0050】復号側では符号側から送られてくるプレフ
ィックス符号の復号を次のように行う。まず、GT(l
og (L+1))ビットを読んでα=LT(log
I)を得る。続いて更にα=LT(log I)ビット
を読んでβを得る。最後にβ+2**αからIを得る。
そして、このようにして得られた辞書番号Iから文字列
を再現する。
【0051】次にWillem符号の一例を説明する。
例えば整数I(=10<上限値2**(3+1))を符
号化する場合を考える。I=10の符号は、LT(lo
g10)=3の自然2進表記(長さGT(log (3
+1))=2ビット)と、10−2**LT(log
10)=10−2**3=10−8=2の自然2進表記
(長さLT(log 10)=3ビット)を並記した値
になる。つまり11010が符号になる。復号は次の様
に行う。まず、11010からGT(log(3+
1))=2ビット読むと、11すなわちα=3を得る。
続いて更にα=3ビットを読むと、010すなわちβ=
2を得る。最後にβ+2**α=2+2**3=2+8
=10からI=10を得る。
【0052】以上、本発明の典型的な実施例について述
べたが、本発明は上記実施例に限定されるものではな
い。例えば上記第1および第2の実施例を組合せたも
の、すなわち、動的辞書法において新規追加文字列に辞
書番号を付与する方法として先頭移動法を使用し、さら
に動的辞書法において得られた辞書番号を送信する際に
オプレフィックス符号への変換を行ってもよい。
【0053】
【発明の効果】以上説明したように、請求項1または3
に係る発明によれば、最近出現した文字列の出現頻度が
高くなるという情報源の性質に対する考慮がなされた、
圧縮率の高い符号化方法が実現される。また、請求項2
または3に係る発明によれば、文字列に対応した辞書番
号を送信する際にプレフィックス符号への変換を行って
送信するので、さらに圧縮率を向上させることができる
という効果がある。
【図面の簡単な説明】
【図1】 この発明の第1実施例による文字列の符号化
方法における新規文字列に対する辞書番号の割り当て方
法を説明する図である。
【図2】 従来の文字列の符号化方法における新規文字
列に対する辞書番号の割り当て方法を説明する図であ
る。
【図3】 一般的な動的辞書法による文字列の符号化方
法を示す図である。
【図4】 一般的な動的辞書法による文字列の符号化方
法を示す図である。
【図5】 一般的な動的辞書法による文字列の符号化方
法を示す図である。
【図6】 一般的な動的辞書法による文字列の復号方法
を示す図である。
【図7】 一般的な動的辞書法による文字列の復号方法
を示す図である。
【図8】 一般的な動的辞書法による文字列の復号方法
を示す図である。
【符号の説明】
1〜30……辞書番号、 a〜z,“ ”……文字列。

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 文字列を辞書番号に対応付ける辞書を使
    用し、情報源文字列を辞書番号に順次変換する文字列の
    符号化方法において、 前記情報源文字列として既に前記辞書内に定義されたも
    のが出現した場合には該当する辞書番号を該文字列に対
    応した符号として出力する一方、前記情報源文字列とし
    て新規な文字列が出現した場合には、 a.この新規な文字列に対し、所定の最小値を辞書番号
    として割り当て、 b.その時点において前記辞書により既に定義されてい
    る各文字列に対応した辞書番号を前記最小値と重複しな
    いように一定の更新規則に従って更新し、 c.前記新規な文字列を前記最小値に対応付ける情報を
    前記辞書に追加することを特徴とする文字列の符号化方
    法。
  2. 【請求項2】 文字列を辞書番号に対応付ける辞書を使
    用し、情報源文字列を辞書番号に順次変換する文字列の
    符号化方法において、 前記情報源文字列として既に前記辞書内に定義されたも
    のが出現した場合には該当する辞書番号のプレフィック
    ス符号を該文字列に対応した符号として出力する一方、
    前記情報源文字列として新規な文字列が出現した場合に
    は、この新規な文字列に対し、新規な辞書番号を割り当
    て、該文字列を該辞書番号に対応付ける情報を前記辞書
    に追加することを特徴とする文字列の符号化方法。
  3. 【請求項3】 文字列を辞書番号に対応付ける辞書を使
    用し、情報源文字列を辞書番号に順次変換する文字列の
    符号化方法において、 前記情報源文字列として既に前記辞書内に定義されたも
    のが出現した場合には該当する辞書番号のプレフィック
    ス符号を該文字列に対応した符号として出力する一方、
    前記情報源文字列として新規な文字列が出現した場合に
    は、 a.この新規な文字列に対し、所定の最小値を辞書番号
    として割り当て、 b.その時点において前記辞書により既に定義されてい
    る各文字列に対応した辞書番号を前記最小値と重複しな
    いように一定の更新規則に従って更新し、 c.前記新規な文字列を前記最小値に対応付ける情報を
    前記辞書に追加することを特徴とする文字列の符号化方
    法。
JP28384694A 1994-11-17 1994-11-17 文字列の符号化方法 Withdrawn JPH08149016A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP28384694A JPH08149016A (ja) 1994-11-17 1994-11-17 文字列の符号化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP28384694A JPH08149016A (ja) 1994-11-17 1994-11-17 文字列の符号化方法

Publications (1)

Publication Number Publication Date
JPH08149016A true JPH08149016A (ja) 1996-06-07

Family

ID=17670929

Family Applications (1)

Application Number Title Priority Date Filing Date
JP28384694A Withdrawn JPH08149016A (ja) 1994-11-17 1994-11-17 文字列の符号化方法

Country Status (1)

Country Link
JP (1) JPH08149016A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102622359A (zh) * 2011-01-27 2012-08-01 联想移动通信科技有限公司 搜索数据库中字符串的方法和装置
JP2013074354A (ja) * 2011-09-27 2013-04-22 Nec Corp データ転送制御装置、データ転送制御方法、およびデータ転送制御システム
JP2014524693A (ja) * 2011-08-10 2014-09-22 クアルコム,インコーポレイテッド 特徴点位置情報の符号化
WO2021231255A1 (en) * 2020-05-11 2021-11-18 Ascava, Inc. Exploiting locality of prime data for efficient retrieval of data that has been losslessly reduced using a prime data sieve

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102622359A (zh) * 2011-01-27 2012-08-01 联想移动通信科技有限公司 搜索数据库中字符串的方法和装置
JP2014524693A (ja) * 2011-08-10 2014-09-22 クアルコム,インコーポレイテッド 特徴点位置情報の符号化
JP2013074354A (ja) * 2011-09-27 2013-04-22 Nec Corp データ転送制御装置、データ転送制御方法、およびデータ転送制御システム
WO2021231255A1 (en) * 2020-05-11 2021-11-18 Ascava, Inc. Exploiting locality of prime data for efficient retrieval of data that has been losslessly reduced using a prime data sieve

Similar Documents

Publication Publication Date Title
Salomon Variable-length codes for data compression
US4814746A (en) Data compression method
KR100894002B1 (ko) 선택적 압축과 복원 및 압축 데이터에 대한 데이터 포맷을위한 장치 및 방법
JP3258552B2 (ja) データ圧縮装置及びデータ復元装置
US5585793A (en) Order preserving data translation
EP0127815B1 (en) Data compression method
Reznik Coding of sets of words
Anisimov et al. Variable-length prefix codes with multiple delimiters
Wayner Compression algorithms for real programmers
JPH08149016A (ja) 文字列の符号化方法
Mathpal et al. A research paper on lossless data compression techniques
Anto et al. A Compression System for Unicode Files Using an Enhanced Lzw Method.
KR0144633B1 (ko) Lzw를 이용한 완성형 한글의 데이타 압축방법
Mitzenmacher On the hardness of finding optimal multiple preset dictionaries
Zia et al. Two-level dictionary-based text compression scheme
Ong et al. A data compression scheme for Chinese text files using Huffman coding and a two-level dictionary
Salomon et al. Dictionary methods
EP0494038A2 (en) Run-length encoding in extensible character sets
Islam et al. A Dynamic 5 Bit Data Compression Scheme by Using Set Change Table (5BDC)
Istle et al. Online compression of ASCII files
Rani et al. An Enhanced Text Compression System Based on ASCII Values and Huffman Coding
Nithya et al. The Study of Text Compression Algorithms and their Efficiencies Under Different Types of Files
JPH1155125A (ja) 文字データの圧縮・復元方法
Anisimov et al. Variable length prefix (Δ, k)-codes
Ng et al. Dynamic word based text compression

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20020205