JPH02255977A - 日本語文字列情報圧縮方式 - Google Patents
日本語文字列情報圧縮方式Info
- Publication number
- JPH02255977A JPH02255977A JP1021210A JP2121089A JPH02255977A JP H02255977 A JPH02255977 A JP H02255977A JP 1021210 A JP1021210 A JP 1021210A JP 2121089 A JP2121089 A JP 2121089A JP H02255977 A JPH02255977 A JP H02255977A
- Authority
- JP
- Japan
- Prior art keywords
- character string
- japanese
- sexadecimal
- equal
- register number
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000006835 compression Effects 0.000 title claims description 9
- 238000007906 compression Methods 0.000 title claims description 9
- 238000000034 method Methods 0.000 claims abstract description 11
- 238000001514 detection method Methods 0.000 claims description 6
- 239000000284 extract Substances 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 1
Landscapes
- Document Processing Apparatus (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
〔産業上の利用分野〕
本発明は、JIS−X−0208”情報交換用漢字符号
系″に代表される通常の2バイトコードで表現された日
本語情報を圧縮する日本語文字列情報圧縮方式に関する
。
系″に代表される通常の2バイトコードで表現された日
本語情報を圧縮する日本語文字列情報圧縮方式に関する
。
従来、日本語情報を圧縮する場合、日本語文字が14ビ
ツトで表せ、2バイトに格納するときにできる2ビツト
の余りを詰める方法が通常とられている。
ツトで表せ、2バイトに格納するときにできる2ビツト
の余りを詰める方法が通常とられている。
しかしながら、前述の圧縮方法では約1.14倍の圧縮
効果しか得られない。
効果しか得られない。
本発明の目的は、これを大きく上回る圧縮率を実現する
日本語文字列情報圧縮方式を提供することにある。
日本語文字列情報圧縮方式を提供することにある。
本発明の日本語文字列情報圧縮方式は、2バイトで表現
される日本語コードで表現された日本語情報を圧縮する
処理において、特定のコードの値の日本語処理の連続し
た塊を検出する文字列検出手段と、その塊に符号を割り
当てる符号化手段とを具備することを特徴とする。
される日本語コードで表現された日本語情報を圧縮する
処理において、特定のコードの値の日本語処理の連続し
た塊を検出する文字列検出手段と、その塊に符号を割り
当てる符号化手段とを具備することを特徴とする。
次に本発明について図面を参照して説明する。
第1図は本発明の一実施例のブロック図であり、この実
施例は、文字列検出手段1と、符号化手段2とから構成
されている。
施例は、文字列検出手段1と、符号化手段2とから構成
されている。
次に、文字列検出手段1における動作を詳細に説明する
。第2図のステップ21で処理と対象となる日本語情報
の先頭に処理ポインタを位置付け、ステップ22で日本
語文字列の文字列の文字の前半バイトが16進数の30
〜7Eかまたは25であれば符号化手段2を呼び出して
符号化を行う。
。第2図のステップ21で処理と対象となる日本語情報
の先頭に処理ポインタを位置付け、ステップ22で日本
語文字列の文字列の文字の前半バイトが16進数の30
〜7Eかまたは25であれば符号化手段2を呼び出して
符号化を行う。
そうでなければステップ24でその日本語文字をそのま
ま格納する(圧縮しない)。ステップ25では処理を終
了するか否かを判定する。
ま格納する(圧縮しない)。ステップ25では処理を終
了するか否かを判定する。
次に、第1図の符号化手段2における動作を詳細に説明
する。第3図のステップ31で日本語文字列の文字の前
半バイトが16進数の30〜7Eである文字の連なり、
または前半バイトが16進数の25および前半バイトが
16進数の21後半バイトが16進数の3Cである文字
の連なりを抽出する。ステップ32で抽出された文字列
が符号表で既に登録されていれば、ステップ33で符号
表から登録番号を取り出す。そうでなければステップ3
4で直前に符号表に登録した登録番号の次の値を登録番
号として、抽出された文字列を符号表に登録する。ステ
ップ35で登録番号を2進数で表した値に最上位のビッ
トをオンにしたものを変換符号として格納する。
する。第3図のステップ31で日本語文字列の文字の前
半バイトが16進数の30〜7Eである文字の連なり、
または前半バイトが16進数の25および前半バイトが
16進数の21後半バイトが16進数の3Cである文字
の連なりを抽出する。ステップ32で抽出された文字列
が符号表で既に登録されていれば、ステップ33で符号
表から登録番号を取り出す。そうでなければステップ3
4で直前に符号表に登録した登録番号の次の値を登録番
号として、抽出された文字列を符号表に登録する。ステ
ップ35で登録番号を2進数で表した値に最上位のビッ
トをオンにしたものを変換符号として格納する。
以上説明したように本発明には、比較敵長い漢字列や片
仮名の単語が繰り返し使用される日本語情報の圧縮にお
いて特に高い圧縮効果がある。
仮名の単語が繰り返し使用される日本語情報の圧縮にお
いて特に高い圧縮効果がある。
第1図は本発明の一実施例のブロック図、第2図は第1
図中の文字列検出手段の動作を示す流れ図、第3図は第
1図中の符号化手段の動作を示す流れ図である。 1・・・文字列検出手段、2・・・符号化手段。
図中の文字列検出手段の動作を示す流れ図、第3図は第
1図中の符号化手段の動作を示す流れ図である。 1・・・文字列検出手段、2・・・符号化手段。
Claims (1)
- 2バイトで表現される日本語コードで表現された日本語
情報を圧縮する処理において、特定のコードの値の日本
語処理の連続した塊を検出する文字列検出手段と、その
塊に符号を割り当てる符号化手段とを具備することを特
徴とする日本語文字列情報圧縮方式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP1021210A JPH02255977A (ja) | 1989-01-30 | 1989-01-30 | 日本語文字列情報圧縮方式 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP1021210A JPH02255977A (ja) | 1989-01-30 | 1989-01-30 | 日本語文字列情報圧縮方式 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH02255977A true JPH02255977A (ja) | 1990-10-16 |
Family
ID=12048631
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP1021210A Pending JPH02255977A (ja) | 1989-01-30 | 1989-01-30 | 日本語文字列情報圧縮方式 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH02255977A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06131152A (ja) * | 1992-04-13 | 1994-05-13 | Compaq Computer Corp | セパレータが無いか少ない言語を表わすコンピュータファイルのためのデータ圧縮方法 |
US7298783B2 (en) | 2002-10-17 | 2007-11-20 | Pantech Co., Ltd | Method of compressing sounds in mobile terminals |
-
1989
- 1989-01-30 JP JP1021210A patent/JPH02255977A/ja active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06131152A (ja) * | 1992-04-13 | 1994-05-13 | Compaq Computer Corp | セパレータが無いか少ない言語を表わすコンピュータファイルのためのデータ圧縮方法 |
US7298783B2 (en) | 2002-10-17 | 2007-11-20 | Pantech Co., Ltd | Method of compressing sounds in mobile terminals |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TW312771B (ja) | ||
EP0083393B1 (en) | Method of compressing information and an apparatus for compressing english text | |
GB2057821A (en) | Communication method and system | |
EP0127815B1 (en) | Data compression method | |
US5444445A (en) | Master + exception list method and apparatus for efficient compression of data having redundant characteristics | |
JPS607300B2 (ja) | 日本語デ−タの圧縮方式 | |
JPH02255977A (ja) | 日本語文字列情報圧縮方式 | |
CN105653506B (zh) | 一种基于字符编码转换的gpu内文本处理的方法及装置 | |
JPH02271723A (ja) | 日本語情報圧縮方式 | |
JPH03206533A (ja) | データ圧縮方式 | |
JPH04297923A (ja) | 文字コード変換方式 | |
JP3130324B2 (ja) | データ圧縮方式 | |
KR100703743B1 (ko) | 문자 코드 변환 장치 및 방법 | |
EP0871294A3 (en) | Method and apparatus for compression and decompression of data | |
JPH05241776A (ja) | データ圧縮方式 | |
JPH0969785A (ja) | データ圧縮方法及びデータ圧縮装置 | |
JPH06290021A (ja) | ソースプログラム圧縮方法 | |
JPS5822434A (ja) | 日本語文章処理システム | |
JPS6247737A (ja) | フアイル内情報の変換出力方式 | |
JP2003318739A (ja) | データシーケンスを圧縮するシステム、方法、およびコンピュータ読み取り可能媒体 | |
JPH0756709A (ja) | 日本語用データ圧縮装置 | |
JPS5851345A (ja) | 文字コ−ド化法 | |
JP3001519B1 (ja) | データ圧縮方法およびデータ圧縮方式 | |
JPH056260A (ja) | 日本語データ圧縮方式 | |
CN115544965A (zh) | 一种简单的英语单词外观特征码的计算方法 |