JPH0449414A - 日本語データ圧縮装置および方法 - Google Patents
日本語データ圧縮装置および方法Info
- Publication number
- JPH0449414A JPH0449414A JP2158714A JP15871490A JPH0449414A JP H0449414 A JPH0449414 A JP H0449414A JP 2158714 A JP2158714 A JP 2158714A JP 15871490 A JP15871490 A JP 15871490A JP H0449414 A JPH0449414 A JP H0449414A
- Authority
- JP
- Japan
- Prior art keywords
- data
- characters
- bytes
- japanese
- byte
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 13
- 238000013144 data compression Methods 0.000 claims abstract description 30
- 238000006243 chemical reaction Methods 0.000 claims abstract description 16
- 238000007906 compression Methods 0.000 claims description 4
- 230000006835 compression Effects 0.000 claims description 4
- 230000008707 rearrangement Effects 0.000 claims 1
- 235000016496 Panda oleosa Nutrition 0.000 abstract 1
- 240000000220 Panda oleosa Species 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000001174 ascending effect Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
Landscapes
- Document Processing Apparatus (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
〔産業上の利用分野〕
本発明は、データ圧縮方式におけるひらがな・漢字など
2バイト構成の日本語データ圧縮装置および方法に関す
る。
2バイト構成の日本語データ圧縮装置および方法に関す
る。
従来、データ圧縮方式は、データから1バイト単位で連
続するキャラクタを探す。そして、連続する場合には、
その連続するキャラクタ2つと繰り返す回数とに変換す
ることにより、データ圧縮を実現している。
続するキャラクタを探す。そして、連続する場合には、
その連続するキャラクタ2つと繰り返す回数とに変換す
ることにより、データ圧縮を実現している。
上述した従来のデータ圧縮方式では、データとして1ハ
イ1〜構成のキャラクタを対象としているため、ひらが
な・漢字など上位バイトと下位バイトの2つのバイトか
ら構成されるキャラクタについて、例えばある文字(キ
ャラクタ)が連続していてもバイト単位では連続してい
ないため、データ圧縮ができないという欠点がある。
イ1〜構成のキャラクタを対象としているため、ひらが
な・漢字など上位バイトと下位バイトの2つのバイトか
ら構成されるキャラクタについて、例えばある文字(キ
ャラクタ)が連続していてもバイト単位では連続してい
ないため、データ圧縮ができないという欠点がある。
本発明の目的は、このような欠点を除去し、2つのバイ
トから構成される文字についてデータ圧縮のできる日本
語データ圧縮装置および方法を提供することにある。
トから構成される文字についてデータ圧縮のできる日本
語データ圧縮装置および方法を提供することにある。
本発明の日本語データ圧縮装置は、
日本語データの上位バイトと下位バイトの2つのハイ1
−から構成されるキャラクタについて、上位バイトと下
位バイトをそれぞれ連続するように並び替えを行い、新
たなデータ列を作る変換処理手段と、 この変換処理手段で生成された、連続したデータが同じ
キャラクタである場合、そのキャラクタ2つと繰り返す
回数とに変換することによりデータ圧縮を行う圧縮手段
とを有している。
−から構成されるキャラクタについて、上位バイトと下
位バイトをそれぞれ連続するように並び替えを行い、新
たなデータ列を作る変換処理手段と、 この変換処理手段で生成された、連続したデータが同じ
キャラクタである場合、そのキャラクタ2つと繰り返す
回数とに変換することによりデータ圧縮を行う圧縮手段
とを有している。
本発明のロ木語データ圧縮方法は、
日本語データの上位バイトと下位バイトの2つのバイト
から構成されるキャラクタについて、上位バイト・と下
位バイトをそれぞれ連続するように並び替えを行い、 この並び替えにより新たなデータ列を生成し、生成した
データ列の連続したデータが同しキャラクタである場合
、そのキャラクタ2つと繰り返す回数とに変換してデー
タ圧縮を行う。
から構成されるキャラクタについて、上位バイト・と下
位バイトをそれぞれ連続するように並び替えを行い、 この並び替えにより新たなデータ列を生成し、生成した
データ列の連続したデータが同しキャラクタである場合
、そのキャラクタ2つと繰り返す回数とに変換してデー
タ圧縮を行う。
次に、本発明の実施例について図面を参照して説明する
。
。
第1図は、本発明の一実施例を示す構成図である。第1
図に示される日本語データ圧縮装置は、データ配列変換
部2と、データ圧縮部3とで構成される。
図に示される日本語データ圧縮装置は、データ配列変換
部2と、データ圧縮部3とで構成される。
このような日本語データ圧縮装置において、データ配列
変換部2は、被圧縮データ1を入力とし、出力をデータ
圧縮部3に送り出す。そして、データ配列変換部2は、
一定の方式に従って、入力データ列である被圧縮データ
1の並び替えを行う。
変換部2は、被圧縮データ1を入力とし、出力をデータ
圧縮部3に送り出す。そして、データ配列変換部2は、
一定の方式に従って、入力データ列である被圧縮データ
1の並び替えを行う。
データ圧縮部3は、データ配列変換部2からの出力を入
力としており、圧縮データ4を送り出す。
力としており、圧縮データ4を送り出す。
そして、データ圧縮部3は、データ配列変換部2からの
連続したデータが同じキャラクタである場合、そのキャ
ラクタ2つと繰り返す回数とに変換するデータ圧縮を行
う。データ圧縮部3は、例えば第3図(a)に示される
圧縮前のデータが加えられると、前述したようなデータ
圧縮を行い、第3図(b)に示される圧縮後のデータを
圧縮データ4として送り出す。
連続したデータが同じキャラクタである場合、そのキャ
ラクタ2つと繰り返す回数とに変換するデータ圧縮を行
う。データ圧縮部3は、例えば第3図(a)に示される
圧縮前のデータが加えられると、前述したようなデータ
圧縮を行い、第3図(b)に示される圧縮後のデータを
圧縮データ4として送り出す。
次に、本実施例の動作を、第2図のフローチャ1〜を参
照して説明する。
照して説明する。
被圧縮データ1は、上位バイト、下位バイトの2つのバ
イトから構成されるキャラクタであり、かつ、被圧縮デ
ータ1がすべて同じキャラクタで構成されているデータ
とする。さらに、第4図(a)に示すように、被圧縮デ
ータ1はひらがなのキャラクタ“あパが6個連続するデ
ータであるとする。
イトから構成されるキャラクタであり、かつ、被圧縮デ
ータ1がすべて同じキャラクタで構成されているデータ
とする。さらに、第4図(a)に示すように、被圧縮デ
ータ1はひらがなのキャラクタ“あパが6個連続するデ
ータであるとする。
このような被圧縮データ1がデータ配列変換部2に加え
られる。この被圧縮データlは入カバイト順に先頭から
番号を付けられ(ステップSt)、第4図(b)に示さ
れるデータとなる。ステップS1によって番号を付けら
れたバイトデータは、番号が偶数か奇数かによって振り
分しノられる(ステップS2)。
られる。この被圧縮データlは入カバイト順に先頭から
番号を付けられ(ステップSt)、第4図(b)に示さ
れるデータとなる。ステップS1によって番号を付けら
れたバイトデータは、番号が偶数か奇数かによって振り
分しノられる(ステップS2)。
ステップS2において、番号が偶数の場合、バイトデー
タの番号は、番号の若い順に配列し直され(ステップS
3)、偶数番号データ列に変換される(ステップS4)
。これにより、第4図(C)に示されるデータが生成さ
れる。ステップS4の偶数番号データ列に対して、1バ
イト単位で連続するキャラクタを探し、連続する場合に
は、データをその連続するキャラクタ2つと繰り返す回
数とに変換する(ステップS5)。これにより、第4図
(d)に示されるデータが生成される。
タの番号は、番号の若い順に配列し直され(ステップS
3)、偶数番号データ列に変換される(ステップS4)
。これにより、第4図(C)に示されるデータが生成さ
れる。ステップS4の偶数番号データ列に対して、1バ
イト単位で連続するキャラクタを探し、連続する場合に
は、データをその連続するキャラクタ2つと繰り返す回
数とに変換する(ステップS5)。これにより、第4図
(d)に示されるデータが生成される。
ステップS2において、番号が奇数の場合、バイトデー
タの番号は、番号の若い順に配列し直され(ステップS
6)、奇数番号データ列に変換される(ステップS7)
。これにより、第4図(e)に示されるデータが生成さ
れる。ステップS7の奇数番号データ列に対して、1バ
イト単位で連続するキャラクタを探し、連続する場合に
は、データをその連続するキャラクタ2つと繰り返す回
数とに変換する(ステップS8)。これにより、第4図
(f)に示されるデータが生成される。
タの番号は、番号の若い順に配列し直され(ステップS
6)、奇数番号データ列に変換される(ステップS7)
。これにより、第4図(e)に示されるデータが生成さ
れる。ステップS7の奇数番号データ列に対して、1バ
イト単位で連続するキャラクタを探し、連続する場合に
は、データをその連続するキャラクタ2つと繰り返す回
数とに変換する(ステップS8)。これにより、第4図
(f)に示されるデータが生成される。
それから、ステップS5とステップS8とにより生成さ
れたデータ列により、圧縮データが生成される。この場
合、ステップS5とステップS8とにより生成されたデ
ータ列とも同じキャラクタが連続するので、圧縮データ
は、248241(05M 22゜22、05.となる
。
れたデータ列により、圧縮データが生成される。この場
合、ステップS5とステップS8とにより生成されたデ
ータ列とも同じキャラクタが連続するので、圧縮データ
は、248241(05M 22゜22、05.となる
。
次に、被圧縮データ1が、第5図(a)に示されるよう
に、ひらがなのキャラクタパきほんでんき”′であると
きのデータ配列変換部2およびデータ圧縮部3の動作を
示す。この場合も、被圧縮データ1の処理は、第2図の
フローチャートに従って行われる。
に、ひらがなのキャラクタパきほんでんき”′であると
きのデータ配列変換部2およびデータ圧縮部3の動作を
示す。この場合も、被圧縮データ1の処理は、第2図の
フローチャートに従って行われる。
すなわち、被圧縮データ1には、第5図(b)に示され
るように、1バイトごとに番号が付けられる。
るように、1バイトごとに番号が付けられる。
さらに、番号の付けられたバイトデータから、第5図(
C)に示される奇数番号データ列と、第5図(d)に示
される偶数番号データ列とが生成される。このとき、第
5図(C)の奇数番号データ列は、同しキャラクタが連
続するので、データ圧縮され、第5図(e)に示される
データとなる。しかし、第5図四の偶数番号データ列は
、それぞれ異なるキャラクタとなるので圧縮されず、第
5図げ)に示されるデータとなる。第5図(e)のデー
タと第5図げ)のデータとから、圧縮データは、24
u 24 Ho 5 ++ 21)n 5 It 。
C)に示される奇数番号データ列と、第5図(d)に示
される偶数番号データ列とが生成される。このとき、第
5図(C)の奇数番号データ列は、同しキャラクタが連
続するので、データ圧縮され、第5図(e)に示される
データとなる。しかし、第5図四の偶数番号データ列は
、それぞれ異なるキャラクタとなるので圧縮されず、第
5図げ)に示されるデータとなる。第5図(e)のデー
タと第5図げ)のデータとから、圧縮データは、24
u 24 Ho 5 ++ 21)n 5 It 。
73、47.73.2DHとなる。
ところで、第4図(a)と第5図(a)の被圧縮データ
を従来の圧縮方法、すなわち上位バイトと下位バイトの
並び替えを行わず、■バイト・単位で連続するキャラク
タを探し、連続する場合にはその連続するキャラクタ2
つと繰り返す回数とに変換する方法に従ってデータ圧縮
を行った場合を考えると、どちらとも同じキャラクタが
連続していないので圧縮効果は得られない。
を従来の圧縮方法、すなわち上位バイトと下位バイトの
並び替えを行わず、■バイト・単位で連続するキャラク
タを探し、連続する場合にはその連続するキャラクタ2
つと繰り返す回数とに変換する方法に従ってデータ圧縮
を行った場合を考えると、どちらとも同じキャラクタが
連続していないので圧縮効果は得られない。
このように、本実施例は、連続したデータが同じキャラ
クタである場合、そのキャラクタ2つと繰り返す回数と
に変換することにより、同じキャラクタを繰り返す場合
に比ベデータ容量を縮小するというデータ圧縮において
、特に日本語におけるひらがな・漢字等の上位バイトと
下位バイトの2つのバイトから構成されるデータについ
て、上位バイトと下位バイトをそれぞれ連続するように
並び替えを行い新たなデータ列を作る変換処理を実行し
た後、前述のデータ圧縮にもとづきデータ圧縮を行う。
クタである場合、そのキャラクタ2つと繰り返す回数と
に変換することにより、同じキャラクタを繰り返す場合
に比ベデータ容量を縮小するというデータ圧縮において
、特に日本語におけるひらがな・漢字等の上位バイトと
下位バイトの2つのバイトから構成されるデータについ
て、上位バイトと下位バイトをそれぞれ連続するように
並び替えを行い新たなデータ列を作る変換処理を実行し
た後、前述のデータ圧縮にもとづきデータ圧縮を行う。
これにより、本実施例は、ひらがな・漢字など上位バイ
トと下位バイトの2つのバイトから構成されるキャラク
タについて、例えばある文字(キャラクタ)が連続して
いてもバイト単位では連続していない場合でも、データ
圧縮ができる。
トと下位バイトの2つのバイトから構成されるキャラク
タについて、例えばある文字(キャラクタ)が連続して
いてもバイト単位では連続していない場合でも、データ
圧縮ができる。
以上説明したように本発明は、日本語のようにひらがな
・漢字等の上位バイトと下位バイトの2つのバイトから
構成されるキャラクタについて、上位バイトと下位バイ
トをそれぞれ連続するように並び替えを行い新たなデー
タ列を作る変換処理を実行することにより、新たなデー
タ圧縮方式を開発することなく、データ圧縮できる効果
がある。
・漢字等の上位バイトと下位バイトの2つのバイトから
構成されるキャラクタについて、上位バイトと下位バイ
トをそれぞれ連続するように並び替えを行い新たなデー
タ列を作る変換処理を実行することにより、新たなデー
タ圧縮方式を開発することなく、データ圧縮できる効果
がある。
第1図は、本発明の一実施例の構成図、第2図は、第1
図のデータ配列変換部/データ圧縮部の動作例のフロー
チャート、 第3図は、データ圧縮にもとづき圧縮されたデータの構
成例、 第4図および第5図は、第1図の実施例により圧縮され
たデータの構成例である。 1・・・・・被圧縮データ 2・・・・・データ配列変換部 3・・・・・データ圧縮部 4・・・・・圧縮データ
図のデータ配列変換部/データ圧縮部の動作例のフロー
チャート、 第3図は、データ圧縮にもとづき圧縮されたデータの構
成例、 第4図および第5図は、第1図の実施例により圧縮され
たデータの構成例である。 1・・・・・被圧縮データ 2・・・・・データ配列変換部 3・・・・・データ圧縮部 4・・・・・圧縮データ
Claims (2)
- (1)日本語データの上位バイトと下位バイトの2つの
バイトから構成されるキャラクタについて、上位バイト
と下位バイトをそれぞれ連続するように並び替えを行い
、新たなデータ列を作る変換処理手段と、 この変換処理手段で生成された、連続したデータが同じ
キャラクタである場合、そのキャラクタ2つと繰り返す
回数とに変換することによりデータ圧縮を行う圧縮手段
とを有する日本語データ圧縮装置。 - (2)日本語データの上位バイトと下位バイトの2つの
バイトから構成されるキャラクタについて、上位バイト
と下位バイトをそれぞれ連続するように並び替えを行い
、 この並び替えにより新たなデータ列を生成し、生成した
データ列の連続したデータが同じキャラクタである場合
、そのキャラクタ2つと繰り返す回数とに変換してデー
タ圧縮を行う日本語データ圧縮方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2158714A JPH0449414A (ja) | 1990-06-19 | 1990-06-19 | 日本語データ圧縮装置および方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2158714A JPH0449414A (ja) | 1990-06-19 | 1990-06-19 | 日本語データ圧縮装置および方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH0449414A true JPH0449414A (ja) | 1992-02-18 |
Family
ID=15677749
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2158714A Pending JPH0449414A (ja) | 1990-06-19 | 1990-06-19 | 日本語データ圧縮装置および方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH0449414A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016509416A (ja) * | 2013-01-18 | 2016-03-24 | アルカテル−ルーセント | データ圧縮 |
-
1990
- 1990-06-19 JP JP2158714A patent/JPH0449414A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016509416A (ja) * | 2013-01-18 | 2016-03-24 | アルカテル−ルーセント | データ圧縮 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1145264C (zh) | 与串搜索交错进行即时字典更新的数据压缩和解压缩系统 | |
US10909078B2 (en) | Query predicate evaluation and computation for hierarchically compressed data | |
JP3421700B2 (ja) | データ圧縮装置及び復元装置並びにその方法 | |
JP2000082967A (ja) | デ―タ圧縮方法及びデ―タ圧縮装置 | |
KR20010006554A (ko) | 무손실 데이터 압축을 위한 방법 및 그 장치 | |
Apostolico et al. | Some theory and practice of greedy off-line textual substitution | |
JPH0449414A (ja) | 日本語データ圧縮装置および方法 | |
JPS63148717A (ja) | データ圧縮復元処理装置 | |
US5564045A (en) | Method and apparatus for string searching in a linked list data structure using a termination node at the end of the linked list | |
JPH02190080A (ja) | 画像符号化装置 | |
JP3104302B2 (ja) | データ圧縮装置 | |
Rincy et al. | Preprocessed text compression method for Malayalam text files | |
JPH04282722A (ja) | 日本語データ圧縮方式 | |
JPH04165719A (ja) | 日本語データ圧縮装置 | |
JP3083153B2 (ja) | 符号化回路 | |
JPH056260A (ja) | 日本語データ圧縮方式 | |
JPH07264075A (ja) | データ圧縮装置 | |
JPH06274311A (ja) | データ圧縮装置及びデータ復元装置 | |
JP2001168727A (ja) | 情報処理装置および方法、並びに記録媒体 | |
JPH04167821A (ja) | データ符号化及び復号化方法 | |
JPH03216730A (ja) | 電子計算機 | |
Adeleye | A Modified Huffman Algorithm and Its Application | |
JPH04286084A (ja) | データ圧縮および復元方式 | |
JP2001332977A (ja) | 符号化/復号化装置及び符号化/復号化方法並びにコンピュータ読み取り可能な記録媒体 | |
JPH0317731A (ja) | データ圧縮回路 |