JPH0449414A - 日本語データ圧縮装置および方法 - Google Patents

日本語データ圧縮装置および方法

Info

Publication number
JPH0449414A
JPH0449414A JP2158714A JP15871490A JPH0449414A JP H0449414 A JPH0449414 A JP H0449414A JP 2158714 A JP2158714 A JP 2158714A JP 15871490 A JP15871490 A JP 15871490A JP H0449414 A JPH0449414 A JP H0449414A
Authority
JP
Japan
Prior art keywords
data
characters
bytes
japanese
byte
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2158714A
Other languages
English (en)
Inventor
Yoshihisa Aotani
青谷 嘉久
Shin Takahashi
伸 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
NEC Miyagi Ltd
Original Assignee
NEC Corp
NEC Miyagi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp, NEC Miyagi Ltd filed Critical NEC Corp
Priority to JP2158714A priority Critical patent/JPH0449414A/ja
Publication of JPH0449414A publication Critical patent/JPH0449414A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、データ圧縮方式におけるひらがな・漢字など
2バイト構成の日本語データ圧縮装置および方法に関す
る。
〔従来の技術〕
従来、データ圧縮方式は、データから1バイト単位で連
続するキャラクタを探す。そして、連続する場合には、
その連続するキャラクタ2つと繰り返す回数とに変換す
ることにより、データ圧縮を実現している。
〔発明が解決しようとする課題〕
上述した従来のデータ圧縮方式では、データとして1ハ
イ1〜構成のキャラクタを対象としているため、ひらが
な・漢字など上位バイトと下位バイトの2つのバイトか
ら構成されるキャラクタについて、例えばある文字(キ
ャラクタ)が連続していてもバイト単位では連続してい
ないため、データ圧縮ができないという欠点がある。
本発明の目的は、このような欠点を除去し、2つのバイ
トから構成される文字についてデータ圧縮のできる日本
語データ圧縮装置および方法を提供することにある。
〔課題を解決するだめの手段〕
本発明の日本語データ圧縮装置は、 日本語データの上位バイトと下位バイトの2つのハイ1
−から構成されるキャラクタについて、上位バイトと下
位バイトをそれぞれ連続するように並び替えを行い、新
たなデータ列を作る変換処理手段と、 この変換処理手段で生成された、連続したデータが同じ
キャラクタである場合、そのキャラクタ2つと繰り返す
回数とに変換することによりデータ圧縮を行う圧縮手段
とを有している。
本発明のロ木語データ圧縮方法は、 日本語データの上位バイトと下位バイトの2つのバイト
から構成されるキャラクタについて、上位バイト・と下
位バイトをそれぞれ連続するように並び替えを行い、 この並び替えにより新たなデータ列を生成し、生成した
データ列の連続したデータが同しキャラクタである場合
、そのキャラクタ2つと繰り返す回数とに変換してデー
タ圧縮を行う。
〔実施例〕
次に、本発明の実施例について図面を参照して説明する
第1図は、本発明の一実施例を示す構成図である。第1
図に示される日本語データ圧縮装置は、データ配列変換
部2と、データ圧縮部3とで構成される。
このような日本語データ圧縮装置において、データ配列
変換部2は、被圧縮データ1を入力とし、出力をデータ
圧縮部3に送り出す。そして、データ配列変換部2は、
一定の方式に従って、入力データ列である被圧縮データ
1の並び替えを行う。
データ圧縮部3は、データ配列変換部2からの出力を入
力としており、圧縮データ4を送り出す。
そして、データ圧縮部3は、データ配列変換部2からの
連続したデータが同じキャラクタである場合、そのキャ
ラクタ2つと繰り返す回数とに変換するデータ圧縮を行
う。データ圧縮部3は、例えば第3図(a)に示される
圧縮前のデータが加えられると、前述したようなデータ
圧縮を行い、第3図(b)に示される圧縮後のデータを
圧縮データ4として送り出す。
次に、本実施例の動作を、第2図のフローチャ1〜を参
照して説明する。
被圧縮データ1は、上位バイト、下位バイトの2つのバ
イトから構成されるキャラクタであり、かつ、被圧縮デ
ータ1がすべて同じキャラクタで構成されているデータ
とする。さらに、第4図(a)に示すように、被圧縮デ
ータ1はひらがなのキャラクタ“あパが6個連続するデ
ータであるとする。
このような被圧縮データ1がデータ配列変換部2に加え
られる。この被圧縮データlは入カバイト順に先頭から
番号を付けられ(ステップSt)、第4図(b)に示さ
れるデータとなる。ステップS1によって番号を付けら
れたバイトデータは、番号が偶数か奇数かによって振り
分しノられる(ステップS2)。
ステップS2において、番号が偶数の場合、バイトデー
タの番号は、番号の若い順に配列し直され(ステップS
3)、偶数番号データ列に変換される(ステップS4)
。これにより、第4図(C)に示されるデータが生成さ
れる。ステップS4の偶数番号データ列に対して、1バ
イト単位で連続するキャラクタを探し、連続する場合に
は、データをその連続するキャラクタ2つと繰り返す回
数とに変換する(ステップS5)。これにより、第4図
(d)に示されるデータが生成される。
ステップS2において、番号が奇数の場合、バイトデー
タの番号は、番号の若い順に配列し直され(ステップS
6)、奇数番号データ列に変換される(ステップS7)
。これにより、第4図(e)に示されるデータが生成さ
れる。ステップS7の奇数番号データ列に対して、1バ
イト単位で連続するキャラクタを探し、連続する場合に
は、データをその連続するキャラクタ2つと繰り返す回
数とに変換する(ステップS8)。これにより、第4図
(f)に示されるデータが生成される。
それから、ステップS5とステップS8とにより生成さ
れたデータ列により、圧縮データが生成される。この場
合、ステップS5とステップS8とにより生成されたデ
ータ列とも同じキャラクタが連続するので、圧縮データ
は、248241(05M 22゜22、05.となる
次に、被圧縮データ1が、第5図(a)に示されるよう
に、ひらがなのキャラクタパきほんでんき”′であると
きのデータ配列変換部2およびデータ圧縮部3の動作を
示す。この場合も、被圧縮データ1の処理は、第2図の
フローチャートに従って行われる。
すなわち、被圧縮データ1には、第5図(b)に示され
るように、1バイトごとに番号が付けられる。
さらに、番号の付けられたバイトデータから、第5図(
C)に示される奇数番号データ列と、第5図(d)に示
される偶数番号データ列とが生成される。このとき、第
5図(C)の奇数番号データ列は、同しキャラクタが連
続するので、データ圧縮され、第5図(e)に示される
データとなる。しかし、第5図四の偶数番号データ列は
、それぞれ異なるキャラクタとなるので圧縮されず、第
5図げ)に示されるデータとなる。第5図(e)のデー
タと第5図げ)のデータとから、圧縮データは、24 
u 24 Ho 5 ++ 21)n 5 It 。
73、47.73.2DHとなる。
ところで、第4図(a)と第5図(a)の被圧縮データ
を従来の圧縮方法、すなわち上位バイトと下位バイトの
並び替えを行わず、■バイト・単位で連続するキャラク
タを探し、連続する場合にはその連続するキャラクタ2
つと繰り返す回数とに変換する方法に従ってデータ圧縮
を行った場合を考えると、どちらとも同じキャラクタが
連続していないので圧縮効果は得られない。
このように、本実施例は、連続したデータが同じキャラ
クタである場合、そのキャラクタ2つと繰り返す回数と
に変換することにより、同じキャラクタを繰り返す場合
に比ベデータ容量を縮小するというデータ圧縮において
、特に日本語におけるひらがな・漢字等の上位バイトと
下位バイトの2つのバイトから構成されるデータについ
て、上位バイトと下位バイトをそれぞれ連続するように
並び替えを行い新たなデータ列を作る変換処理を実行し
た後、前述のデータ圧縮にもとづきデータ圧縮を行う。
これにより、本実施例は、ひらがな・漢字など上位バイ
トと下位バイトの2つのバイトから構成されるキャラク
タについて、例えばある文字(キャラクタ)が連続して
いてもバイト単位では連続していない場合でも、データ
圧縮ができる。
〔発明の効果〕
以上説明したように本発明は、日本語のようにひらがな
・漢字等の上位バイトと下位バイトの2つのバイトから
構成されるキャラクタについて、上位バイトと下位バイ
トをそれぞれ連続するように並び替えを行い新たなデー
タ列を作る変換処理を実行することにより、新たなデー
タ圧縮方式を開発することなく、データ圧縮できる効果
がある。
【図面の簡単な説明】
第1図は、本発明の一実施例の構成図、第2図は、第1
図のデータ配列変換部/データ圧縮部の動作例のフロー
チャート、 第3図は、データ圧縮にもとづき圧縮されたデータの構
成例、 第4図および第5図は、第1図の実施例により圧縮され
たデータの構成例である。 1・・・・・被圧縮データ 2・・・・・データ配列変換部 3・・・・・データ圧縮部 4・・・・・圧縮データ

Claims (2)

    【特許請求の範囲】
  1. (1)日本語データの上位バイトと下位バイトの2つの
    バイトから構成されるキャラクタについて、上位バイト
    と下位バイトをそれぞれ連続するように並び替えを行い
    、新たなデータ列を作る変換処理手段と、 この変換処理手段で生成された、連続したデータが同じ
    キャラクタである場合、そのキャラクタ2つと繰り返す
    回数とに変換することによりデータ圧縮を行う圧縮手段
    とを有する日本語データ圧縮装置。
  2. (2)日本語データの上位バイトと下位バイトの2つの
    バイトから構成されるキャラクタについて、上位バイト
    と下位バイトをそれぞれ連続するように並び替えを行い
    、 この並び替えにより新たなデータ列を生成し、生成した
    データ列の連続したデータが同じキャラクタである場合
    、そのキャラクタ2つと繰り返す回数とに変換してデー
    タ圧縮を行う日本語データ圧縮方法。
JP2158714A 1990-06-19 1990-06-19 日本語データ圧縮装置および方法 Pending JPH0449414A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2158714A JPH0449414A (ja) 1990-06-19 1990-06-19 日本語データ圧縮装置および方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2158714A JPH0449414A (ja) 1990-06-19 1990-06-19 日本語データ圧縮装置および方法

Publications (1)

Publication Number Publication Date
JPH0449414A true JPH0449414A (ja) 1992-02-18

Family

ID=15677749

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2158714A Pending JPH0449414A (ja) 1990-06-19 1990-06-19 日本語データ圧縮装置および方法

Country Status (1)

Country Link
JP (1) JPH0449414A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016509416A (ja) * 2013-01-18 2016-03-24 アルカテル−ルーセント データ圧縮

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016509416A (ja) * 2013-01-18 2016-03-24 アルカテル−ルーセント データ圧縮

Similar Documents

Publication Publication Date Title
CN1145264C (zh) 与串搜索交错进行即时字典更新的数据压缩和解压缩系统
US10909078B2 (en) Query predicate evaluation and computation for hierarchically compressed data
JP3421700B2 (ja) データ圧縮装置及び復元装置並びにその方法
JP2000082967A (ja) デ―タ圧縮方法及びデ―タ圧縮装置
KR20010006554A (ko) 무손실 데이터 압축을 위한 방법 및 그 장치
Apostolico et al. Some theory and practice of greedy off-line textual substitution
JPH0449414A (ja) 日本語データ圧縮装置および方法
JPS63148717A (ja) データ圧縮復元処理装置
US5564045A (en) Method and apparatus for string searching in a linked list data structure using a termination node at the end of the linked list
JPH02190080A (ja) 画像符号化装置
JP3104302B2 (ja) データ圧縮装置
Rincy et al. Preprocessed text compression method for Malayalam text files
JPH04282722A (ja) 日本語データ圧縮方式
JPH04165719A (ja) 日本語データ圧縮装置
JP3083153B2 (ja) 符号化回路
JPH056260A (ja) 日本語データ圧縮方式
JPH07264075A (ja) データ圧縮装置
JPH06274311A (ja) データ圧縮装置及びデータ復元装置
JP2001168727A (ja) 情報処理装置および方法、並びに記録媒体
JPH04167821A (ja) データ符号化及び復号化方法
JPH03216730A (ja) 電子計算機
Adeleye A Modified Huffman Algorithm and Its Application
JPH04286084A (ja) データ圧縮および復元方式
JP2001332977A (ja) 符号化/復号化装置及び符号化/復号化方法並びにコンピュータ読み取り可能な記録媒体
JPH0317731A (ja) データ圧縮回路