JPH03206533A - データ圧縮方式 - Google Patents
データ圧縮方式Info
- Publication number
- JPH03206533A JPH03206533A JP2000976A JP97690A JPH03206533A JP H03206533 A JPH03206533 A JP H03206533A JP 2000976 A JP2000976 A JP 2000976A JP 97690 A JP97690 A JP 97690A JP H03206533 A JPH03206533 A JP H03206533A
- Authority
- JP
- Japan
- Prior art keywords
- key word
- character
- data
- text data
- specific code
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013144 data compression Methods 0.000 title claims description 5
- 238000000034 method Methods 0.000 claims description 4
- 238000007906 compression Methods 0.000 abstract description 9
- 230000006835 compression Effects 0.000 abstract description 9
- 238000010586 diagram Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
[産業上の利用分野コ
本発明は、情報処理において文字テキストデータの記憶
媒体上での量の縮少化を図ったり文字テキストデータが
通信のデータとして用いられるときそのデータの転送の
縮少化を図ることなどに利用されるデータ圧縮方式に関
する。
媒体上での量の縮少化を図ったり文字テキストデータが
通信のデータとして用いられるときそのデータの転送の
縮少化を図ることなどに利用されるデータ圧縮方式に関
する。
[従来の技術]
従来では、文字テキストデータの圧縮は、その文字テキ
ストデータに含まれる空白文字の列を特別のコード化に
よって特定コードで代替したり、文字列の位置を特定す
るタブコードを設定して空白の文字コードを挿入しなく
とも良くしたり、あるいは特定種のデータの中で特別な
意味を持つ鍵語に特別なコードを割り当てることなどに
よって行われていた。
ストデータに含まれる空白文字の列を特別のコード化に
よって特定コードで代替したり、文字列の位置を特定す
るタブコードを設定して空白の文字コードを挿入しなく
とも良くしたり、あるいは特定種のデータの中で特別な
意味を持つ鍵語に特別なコードを割り当てることなどに
よって行われていた。
[発明が解決しようとする課題]
しかしながら、上述した従来のデータ圧縮方式は,特定
のデータにのみ圧縮の効果があるのみで、コードを大き
く圧縮することは望めず、また、方式上、一般的な文字
データコードから構或される文章に対する文字テキスト
データについては利用可能でなかったり大きな圧縮効率
を望めなかった。
のデータにのみ圧縮の効果があるのみで、コードを大き
く圧縮することは望めず、また、方式上、一般的な文字
データコードから構或される文章に対する文字テキスト
データについては利用可能でなかったり大きな圧縮効率
を望めなかった。
本発明はこのような従来の欠点を改善したもので、その
目的は、文字テキストデータを大きな圧縮率で圧縮する
ことの可能なデータ圧縮方式を提供することにある。
目的は、文字テキストデータを大きな圧縮率で圧縮する
ことの可能なデータ圧縮方式を提供することにある。
[課題を解決するための手段コ
本発明は、文字テキストデータからテキスト中に複数回
出現する文字列を鍵語として選択し、その鍵語を特定コ
ードとして定義する鍵語選択手段と、文字テキストデー
タの中から前記鍵語選択手段により選択した鍵語に対応
する文字テキストデータ中の文字列をその鍵語に対応付
けられた特定コードに置き換え圧縮テキストとする置換
手段とを有している。
出現する文字列を鍵語として選択し、その鍵語を特定コ
ードとして定義する鍵語選択手段と、文字テキストデー
タの中から前記鍵語選択手段により選択した鍵語に対応
する文字テキストデータ中の文字列をその鍵語に対応付
けられた特定コードに置き換え圧縮テキストとする置換
手段とを有している。
[作用]
鍵語選択手段では文字テキストデータからテキスト中に
複数回出現する文字列を鍵語として選択し、その鍵語を
特定コードとして定義する。このように鍵語を特定コー
ドに対応させた後、置換手段では鍵語に対応する文字テ
キストデータ中の文字列をその鍵語に対応付けられた特
定コードに置き換えて圧縮テキストを出力する。
複数回出現する文字列を鍵語として選択し、その鍵語を
特定コードとして定義する。このように鍵語を特定コー
ドに対応させた後、置換手段では鍵語に対応する文字テ
キストデータ中の文字列をその鍵語に対応付けられた特
定コードに置き換えて圧縮テキストを出力する。
[実施例コ
以下、本発明について図面を参照して説明する。
第1図は本発明の一実施例のブロック図である。
第1図を参照すると、本実施例では、文字テキス−3−
トデータDからそのテキスト中に複数回出現する単語、
句、あるいは句の列を鍵語として選択し、その鍵語を特
定コードとして定義する鍵語選択部1と、文字テキスト
データにおいて上記鍵語に対応する文字列をその鍵語に
対応付けられた特定コードに置き換え圧縮テキストDP
を出力する置換部2とが設けられている。
句、あるいは句の列を鍵語として選択し、その鍵語を特
定コードとして定義する鍵語選択部1と、文字テキスト
データにおいて上記鍵語に対応する文字列をその鍵語に
対応付けられた特定コードに置き換え圧縮テキストDP
を出力する置換部2とが設けられている。
次にこのような構戊における文字テキストデータの圧縮
処理の具体例を第2図(a)乃至(c)を用いて説明す
る。第2図(a)は圧縮前の元の文字テキストデータD
の一例を示す図である。第2図(a)の文字テキストデ
ータDに対して、鍵語選択部1では、鍵語として、「テ
キストデータ」、「データ」、「とする」、「圧縮する
文字テキストデータ」、「テキスト」、「する単語、句
、あるいは句の列を」,「特定コード」、「定義する」
、「構或要素」、「鍵語に対応」の10個の文字列を選
択し、これらに対しそれぞれコードとして″a” JZ
b” ”c” trd”%, LLflu IIgII
, 11hII, LLiII. ((j I1を定義
し、第2図(b)に示すような鍵語列KYを作戒する。
処理の具体例を第2図(a)乃至(c)を用いて説明す
る。第2図(a)は圧縮前の元の文字テキストデータD
の一例を示す図である。第2図(a)の文字テキストデ
ータDに対して、鍵語選択部1では、鍵語として、「テ
キストデータ」、「データ」、「とする」、「圧縮する
文字テキストデータ」、「テキスト」、「する単語、句
、あるいは句の列を」,「特定コード」、「定義する」
、「構或要素」、「鍵語に対応」の10個の文字列を選
択し、これらに対しそれぞれコードとして″a” JZ
b” ”c” trd”%, LLflu IIgII
, 11hII, LLiII. ((j I1を定義
し、第2図(b)に示すような鍵語列KYを作戒する。
−4
なお鍵語列KYは「\#Jでその始まりを示し、コード
te a”と「テキストデータ」とを組み合わせ、コー
ド“b”と「データj一とを組み合わせるというように
して、特定コードと鍵語との組み合わせでその対応を決
めている。
te a”と「テキストデータ」とを組み合わせ、コー
ド“b”と「データj一とを組み合わせるというように
して、特定コードと鍵語との組み合わせでその対応を決
めている。
このようにして選択された鍵語に特定コードを対応させ
た後、置換部2では、第2図(a)の文字テキストデー
タD中で鍵語に対応する文字列を特定コードLL aI
I , It bII ・・・11 j I+に置き
換える。
た後、置換部2では、第2図(a)の文字テキストデー
タD中で鍵語に対応する文字列を特定コードLL aI
I , It bII ・・・11 j I+に置き
換える。
これにより第2図(c)に示すような圧縮テキストDP
を得ることができる。なお第2図(c)の圧縮テキスト
DPでは、その始まりが「\#」で示され、コード化の
位置にはすなわち特定コードの前には「\」が置かれて
いる。
を得ることができる。なお第2図(c)の圧縮テキスト
DPでは、その始まりが「\#」で示され、コード化の
位置にはすなわち特定コードの前には「\」が置かれて
いる。
本実施例を適用すれば、文字テキストデータの記憶媒体
上での量の縮少化を図ったり文字テキストデータが通信
のデータとして用いられるときにそのデータの転送の縮
少化を図ったりする際に、大きな圧縮率が可能となる。
上での量の縮少化を図ったり文字テキストデータが通信
のデータとして用いられるときにそのデータの転送の縮
少化を図ったりする際に、大きな圧縮率が可能となる。
[発明の効果]
以上に説明したように本発明は、一般の文字列に対して
も圧縮を行うようにしているので、文字テキストデータ
を大きな圧縮率で圧縮することができるという効果があ
る。
も圧縮を行うようにしているので、文字テキストデータ
を大きな圧縮率で圧縮することができるという効果があ
る。
第1図は本発明の一実施例のブロック図、第2図(a)
乃至(c)は第l図の構或における文字テキストデータ
の圧縮処理の具体例を説明するための図である。 第1図において、1・・・鍵語選択部、2・・・置換部
である。
乃至(c)は第l図の構或における文字テキストデータ
の圧縮処理の具体例を説明するための図である。 第1図において、1・・・鍵語選択部、2・・・置換部
である。
Claims (1)
- 文字テキストデータからテキスト中に複数回出現する文
字列を鍵語として選択し、その鍵語を特定コードとして
定義する鍵語選択手段と、文字テキストデータの中から
前記鍵語選択手段により選択した鍵語に対応する文字テ
キストデータ中の文字列をその鍵語に対応付けられた特
定コードに置き換え圧縮テキストとする置換手段とを備
えていることを特徴とするデータ圧縮方式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000976A JPH03206533A (ja) | 1990-01-09 | 1990-01-09 | データ圧縮方式 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000976A JPH03206533A (ja) | 1990-01-09 | 1990-01-09 | データ圧縮方式 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH03206533A true JPH03206533A (ja) | 1991-09-09 |
Family
ID=11488648
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000976A Pending JPH03206533A (ja) | 1990-01-09 | 1990-01-09 | データ圧縮方式 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH03206533A (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05128102A (ja) * | 1991-11-01 | 1993-05-25 | Sharp Corp | 文章圧縮装置 |
JPH06236302A (ja) * | 1993-02-09 | 1994-08-23 | Daimaru Joho Center:Kk | ファイル圧縮方法 |
JPH06348569A (ja) * | 1993-06-14 | 1994-12-22 | Nec Corp | データベースシステム |
US5590317A (en) * | 1992-05-27 | 1996-12-31 | Hitachi, Ltd. | Document information compression and retrieval system and document information registration and retrieval method |
US6047298A (en) * | 1996-01-30 | 2000-04-04 | Sharp Kabushiki Kaisha | Text compression dictionary generation apparatus |
-
1990
- 1990-01-09 JP JP2000976A patent/JPH03206533A/ja active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05128102A (ja) * | 1991-11-01 | 1993-05-25 | Sharp Corp | 文章圧縮装置 |
US5590317A (en) * | 1992-05-27 | 1996-12-31 | Hitachi, Ltd. | Document information compression and retrieval system and document information registration and retrieval method |
JPH06236302A (ja) * | 1993-02-09 | 1994-08-23 | Daimaru Joho Center:Kk | ファイル圧縮方法 |
JPH06348569A (ja) * | 1993-06-14 | 1994-12-22 | Nec Corp | データベースシステム |
US6047298A (en) * | 1996-01-30 | 2000-04-04 | Sharp Kabushiki Kaisha | Text compression dictionary generation apparatus |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TW312771B (ja) | ||
JP4685348B2 (ja) | 多数の文字を扱うための効率的な照合要素構造 | |
CN100367189C (zh) | 编码脱氧核糖核酸序列的方法和装置 | |
US4319225A (en) | Methods and apparatus for compacting digital data | |
JPH07336237A (ja) | データ情報を圧縮するためのシステムおよび方法 | |
US6057790A (en) | Apparatus and method for data compression/expansion using block-based coding with top flag | |
JPS607300B2 (ja) | 日本語デ−タの圧縮方式 | |
JPH03206533A (ja) | データ圧縮方式 | |
JPS63148717A (ja) | データ圧縮復元処理装置 | |
US20090083267A1 (en) | Method and System for Compressing Data | |
US5564045A (en) | Method and apparatus for string searching in a linked list data structure using a termination node at the end of the linked list | |
JPS6382061A (ja) | デ−タ圧縮方式 | |
Swarnkar et al. | An Implementation of Efficient Text Data Compression | |
KR20060123197A (ko) | 구조적 문서의 압축 및 압축 해제 방법 | |
JP2004013680A (ja) | 文字コード圧縮・復元装置および同方法 | |
JP3422412B2 (ja) | 可変長レコードの差分圧縮方法 | |
Ong et al. | A semi-adaptive arithmetic coding scheme for Chinese textual data | |
Thompson | The structured design of a data compression program | |
La Russa et al. | RoboBeggar: teaching attitudes by robotics | |
JP2004342029A (ja) | 構造化文書圧縮方法及び装置 | |
STEFFENS | Unclassified This paper provides the applications and systems programmer some exposure to information theory as applied to data compression within a computer. Compression is achieved by encoding data with | |
Asano et al. | Intelligent compression of english text | |
JPH10301959A (ja) | データ圧縮/復元装置およびデータ圧縮/復元方法 | |
JPH0546675A (ja) | 情報圧縮・検索方式 | |
JPH03282961A (ja) | 相互変換辞書方式 |