JPH04223556A - Compression system for character code data - Google Patents

Compression system for character code data

Info

Publication number
JPH04223556A
JPH04223556A JP2413033A JP41303390A JPH04223556A JP H04223556 A JPH04223556 A JP H04223556A JP 2413033 A JP2413033 A JP 2413033A JP 41303390 A JP41303390 A JP 41303390A JP H04223556 A JPH04223556 A JP H04223556A
Authority
JP
Japan
Prior art keywords
kana
character
code
term
glossary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2413033A
Other languages
Japanese (ja)
Inventor
Isao Kondo
勲 近藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Office Systems Ltd
Original Assignee
NEC Office Systems Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Office Systems Ltd filed Critical NEC Office Systems Ltd
Priority to JP2413033A priority Critical patent/JPH04223556A/en
Publication of JPH04223556A publication Critical patent/JPH04223556A/en
Pending legal-status Critical Current

Links

Landscapes

  • Image Processing (AREA)
  • Document Processing Apparatus (AREA)

Abstract

PURPOSE:To simplify data compression for a character code. CONSTITUTION:In a glossary means 2, the KANA (Japanese syllabary) readings of glossary that is the combination character string such as Japanese KANJI (Chinese character) strings are stored in Japanese alphabetical order, the KANA reading of the glossary and the glossary of character string such as KANJI are made to correspond to each other, and a 2-byte code is imparted to every glossary. A KANA glossary conversion means 5 converts KANA characters inputted from an input means 1 to a 2-byte code of glossary by referring to the glossary means 2. A storage means 6 stores a 2-byte code converted by the KANA glossary conversion means 5 therein.

Description

【発明の詳細な説明】[Detailed description of the invention]

【0001】0001

【産業上の利用分野】本発明は、文字を圧縮変換する文
字コードデータの圧縮方式に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a character code data compression method for compressing and converting characters.

【0002】0002

【従来の技術】一般に、日本語ワードプロセッサ等文書
作成機等では、漢字仮名混じり文の処理を行うため日本
語データはJIS規格(C−6226  情報交換用漢
字符号系)等を用い、日本語1字を2バイトで表し、ほ
とんどこの文字コードをそのままの形で処理されている
。 このデータ処理の効率をあげるには、データの圧縮が必
要で、従来の技術として文字コードデータ圧縮方式(特
公昭61−232724号明細書)がある。
[Prior Art] In general, document creation machines such as Japanese word processors use JIS standards (C-6226 Kanji code system for information exchange) to process Japanese data in order to process sentences containing kanji and kana. A character is represented by two bytes, and most of the character codes are processed as they are. In order to improve the efficiency of this data processing, data compression is necessary, and a conventional technique is a character code data compression method (Japanese Patent Publication No. 61-232724).

【0003】従来例の仮名漢字変換方式の機能ブロック
図を図4に示す。図4において1は入力手段、7は仮名
漢字変換辞書、8は仮名漢字変換手段、9は文字コード
辞書、10は文字コード変換手段、11は文字コード記
憶手段、12は文字列(語)コード辞書、15は語コー
ド変換手段、6は記憶手段である。
FIG. 4 shows a functional block diagram of a conventional kana-kanji conversion system. In FIG. 4, 1 is an input means, 7 is a kana-kanji conversion dictionary, 8 is a kana-kanji conversion means, 9 is a character code dictionary, 10 is a character code conversion means, 11 is a character code storage means, and 12 is a character string (word) code. 15 is a dictionary, 15 is a word code conversion means, and 6 is a storage means.

【0004】入力手段1により入力された仮名文字の文
字列(文書)は、仮名漢字変換手段8で仮名漢字変換辞
書7を参照し、該当する文字を検索して漢字に変換する
。変換された漢字は、文字コード変換手段10により文
字コード辞書9の該当する文字コードに変換され、文字
コード記憶手段11に一時記憶される。
[0004] The character string (document) of kana characters inputted by the input means 1 is referred to in the kana-kanji conversion dictionary 7 by the kana-kanji conversion means 8, and the corresponding characters are searched and converted into kanji. The converted kanji is converted into the corresponding character code in the character code dictionary 9 by the character code conversion means 10 and temporarily stored in the character code storage means 11.

【0005】文字列(語)コード辞書12は、文字列(
語)コード部13と語の文字コード列14とから成り、
高頻度に出現する1文字、あるいは複数文字からなる文
字列(語)に対して、あらかじめ付与した文字列(語)
コード辞書12を備え、文字コードデータの文字列と文
字列(語)コード辞書12との一致をとることにより、
文字コードデータを語のコードデータに圧縮変換するも
ので、一時記憶されている文字コードデータ列を、文字
列(語)コード辞書12の文字列(語)コード部13お
よび語の文字コード列14を参照して、語コード変換手
段15で語コードに変換して、記憶手段6に格納する。
[0005] The character string (word) code dictionary 12 contains character strings (
It consists of a word) code part 13 and a word character code string 14,
Character strings (words) assigned in advance to character strings (words) consisting of one character or multiple characters that appear frequently
By providing a code dictionary 12 and matching the character string of character code data with the character string (word) code dictionary 12,
It compresses and converts character code data into word code data, and converts the temporarily stored character code data string into the character string (word) code section 13 of the character string (word) code dictionary 12 and the word character code string 14. is converted into a word code by the word code conversion means 15 and stored in the storage means 6.

【0006】[0006]

【発明が解決しようとする課題】このような従来の文字
コードデータ圧縮方式においては、仮名漢字変換、文字
のコードデータ変換および一時記憶などいくつかの段階
を経てから本来の圧縮変換を行うため、処理が複雑にな
り、時間がかかるなどの欠点がある。
[Problems to be Solved by the Invention] In such conventional character code data compression methods, the original compression conversion is performed after several steps such as kana-kanji conversion, character code data conversion, and temporary storage. There are disadvantages such as the processing becomes complicated and time consuming.

【0007】そこで、本発明の目的は以上の欠点を解消
して、変換手段の少ない、処理が簡単な、短時間で処理
できる文字コードデータの圧縮方式を提供することにあ
る。
SUMMARY OF THE INVENTION An object of the present invention is to overcome the above drawbacks and provide a compression method for character code data that requires fewer conversion means, is simple to process, and can be processed in a short time.

【0008】[0008]

【課題を解決するための手段】本発明は、日本語の文字
コードデータを圧縮する文字コードデータの圧縮方式に
おいて、仮名文字を入力する入力手段と、日本語の文字
列の組合せである用字用語の仮名の読みを所定の順序に
ソートし、その用字用語の仮名の読みと文字列の用字用
語を対応させ、1用字用語ごとに2バイトのコードを付
した用字用語辞書手段と、入力手段から入力された仮名
文字を用字用語辞書手段を参照して直接用字用語の2バ
イトコードに変換させる仮名用字用語変換手段と、仮名
用字用語変換手段による変換結果の2バイトコードを記
憶する記憶手段とを有することを特徴としている。
[Means for Solving the Problems] The present invention provides an input means for inputting kana characters and a character code data compression method for compressing Japanese character code data. A script term dictionary means that sorts the kana pronunciations of terms in a predetermined order, associates the kana pronunciations of the script terms with the script terms of the character string, and attaches a 2-byte code to each script term. , a kana character term conversion means for directly converting kana characters inputted from the input means into a 2-byte code of a character term by referring to a character term dictionary means, and a conversion result by the kana character term conversion means. It is characterized by having a storage means for storing bytecodes.

【0009】[0009]

【実施例】次に、本発明の実施例について、図面を参照
して説明する。
Embodiments Next, embodiments of the present invention will be described with reference to the drawings.

【0010】図1は、本発明の一実施例を示す機能ブロ
ック図である。図1に表す文字コードデータの圧縮方式
は、仮名、英数字、記号等の文字を入力する入力手段1
と、日本語の漢字等の文字列の組み合わせである普段使
用している言葉(以下、用字用語という)に注目し、用
字用語の仮名の読みを五十音順にソートし、その用字用
語の仮名の読みと漢字等の文字列の用字用語を対応させ
、その1用字用語ごとに2バイトのコードを付した用字
用語辞書手段2と、入力手段から入力された仮名文字を
用字用語辞書手段2を参照して、直接用字用語の2バイ
トコードに変換させる仮名用字用語変換手段5と、変換
結果の2バイトコードを記憶させる記憶手段6とを備え
る。
FIG. 1 is a functional block diagram showing one embodiment of the present invention. The compression method for character code data shown in Figure 1 is based on the input means 1 for inputting characters such as kana, alphanumeric characters, and symbols.
Then, we focused on commonly used words that are combinations of character strings such as Japanese kanji (hereinafter referred to as script terms), sorted the kana readings of the script terms in alphabetical order, and The kana character reading of the term and the character string of the character string such as kanji are associated with the character string dictionary means 2, which has a 2-byte code attached to each character term, and the kana characters inputted from the input means. It is provided with a kana-character term conversion means 5 that refers to the written-word dictionary means 2 and directly converts the written-word term into a 2-byte code, and a storage means 6 that stores the 2-byte code of the conversion result.

【0011】このような文字コードデータの圧縮方式に
おいて、用字用語辞書手段2は、仮名文字列コード部3
と用字用語コード部4とを備えている。この用字用語辞
書手段2には、用字用語がソートされる。表1、表2は
、国語辞典等の用字用語辞書の「あ」で始まる用語の一
例である。
[0011] In such a compression method for character code data, the usage term dictionary means 2 has a kana character string code section 3.
and a lexical term code section 4. In this kanji-term dictionary means 2, kanji-terms are sorted. Tables 1 and 2 are examples of terms starting with "a" in a Japanese dictionary or other dictionaries.

【0012】0012

【表1】[Table 1]

【0013】[0013]

【0014】[0014]

【表2】[Table 2]

【0015】[0015]

【0016】また、図2は、用字用語辞書説明用の図の
一部で、16は仮名コード(JIS)、17は仮名文字
列、18は用字用語コード、19は用字用語の漢字ある
いは漢字仮名混じりの文字列である。用字用語辞書手段
2の仮名文字列コード部3は仮名コード16と仮名文字
列17とから構成され、用字用語コード部4は用字用語
コード18と用字用語19とで構成される。入力手段1
からJIS等のコードによる仮名文字列が入力されると
、仮名用字用語変換手段5は、用字用語辞書手段2の仮
名文字コード部3を検索し、該当する仮名文字コード列
を探し、それに対応した用字用語を用字用語コード部4
から取り出して、そのコードおよびその用字用語(人が
読める日本語文)を仮名用字用語変換手段5に送出する
ことで用字用語コードに変換する。また、その用字用語
(人が読める日本語文)は表示用等として使われる。
[0016] FIG. 2 is a part of a diagram for explaining the usage term dictionary, in which 16 is the kana code (JIS), 17 is the kana character string, 18 is the usage term code, and 19 is the kanji of the usage term. Or it is a string of characters mixed with kanji and kana. The kana character string code part 3 of the kana character string dictionary means 2 is composed of a kana code 16 and a kana character string 17, and the kana character string code part 4 is composed of a character term code 18 and a character term 19. Input means 1
When a kana character string based on a code such as JIS is input from , the kana character code section 3 of the character dictionary means 2 is searched for the corresponding kana character code string, and the kana character code string is inputted. The corresponding terminology is included in the terminology code part 4.
The code and its script term (human-readable Japanese text) are sent to the kana script term conversion means 5 to be converted into a script term code. In addition, the script terms (human-readable Japanese sentences) are used for display purposes, etc.

【0017】次に、本実施例の動作について説明する。Next, the operation of this embodiment will be explained.

【0018】用字用語辞書手段2には、あらかじめ、日
本語の漢字等の文字列の組み合わせである用字用語の仮
名の読みが五十音順にソートされ、その用字用語の仮名
の読みと漢字等の文字列の用字用語が対応され、その1
用字用語ごとに2バイトのコードが付されている。
[0018] In the usage term dictionary means 2, the kana readings of usage terms, which are combinations of character strings such as Japanese kanji, are sorted in alphabetical order in advance, and the kana readings of the usage terms are sorted in alphabetical order. Script terms for character strings such as kanji are supported, part 1
A 2-byte code is attached to each script term.

【0019】入力手段1より入力された仮名の文字列は
、仮名用字用語変換手段5に送られる。仮名用字用語変
換手段5は、用字用語辞書手段2を参照して、入力され
た仮名文字列に該当する用語を検索し、その用字用語コ
ード2バイトを仮名用字用語変換手段5に送り出す。 このとき、同音異語がある場合、またはこの用語で良い
かどうかは操作者が判断して決定する。決定された2バ
イトのコードは仮名用字用語変換手段5より記憶手段6
に格納する。以後、このコード体系で編集、出力、格納
、転送等の処理を行う。
The character string of kana inputted from the input means 1 is sent to the kana font/term conversion means 5. The kana-script term conversion means 5 refers to the script-term dictionary means 2, searches for a term corresponding to the input kana character string, and sends the 2-byte kana-script term code to the kana-script term conversion means 5. send out. At this time, the operator decides if there is a homophone or if this term is appropriate. The determined 2-byte code is sent to the storage means 6 from the kana-ji terminology conversion means 5.
Store in. Thereafter, processing such as editing, output, storage, and transfer will be performed using this code system.

【0020】また、図3はJIS2バイトコードの文字
列20を処理した後の圧縮結果21を示す圧縮結果の例
である。この例では、28バイトのコードが16バイト
になり、0.57に圧縮されたことを示している。
FIG. 3 is an example of the compression result 21 after processing the character string 20 of the JIS 2 byte code. This example shows that the 28-byte code has been reduced to 16 bytes and compressed to 0.57.

【0021】なお、本例では用字用語辞書の例であるが
、一般の辞書にまで拡大し、6万5千以上の用語に対し
ては、コード体系を、1用語を17ビット、18ビット
に増やすことで対応できる。
[0021] Although this example is an example of a dictionary of usage terms, it is expanded to include a general dictionary, and for more than 65,000 terms, the coding system is changed to 17 bits or 18 bits for each term. This can be addressed by increasing the number of

【0022】このように、本実施例は、仮名、英数字、
記号等の文字を入力する入力手段と、日本語の漢字等の
文字列の組合せである普段使用している言葉(用字用語
)に注目し、用字用語の仮名の読みを五十音順にソート
し、その用字用語の仮名の読みと漢字等の文字列の用字
用語を対応させ、その1用字用語ごとに2バイトのコー
ドを付した用字用語辞書手段と、入力手段から入力され
た仮名文字を用字用語辞書手段を参照して、直接用字用
語の2バイトコードに変換させる仮名用字用語変換手段
と、変換結果の2バイトコードを記憶させる記憶手段を
備えることにより、文字データを圧縮する。
[0022] In this way, in this embodiment, kana, alphanumeric characters,
Focusing on the input means for inputting characters such as symbols and the words (script terms) that are usually used, which are combinations of character strings such as Japanese kanji, the pronunciation of the kana of the script terms is arranged in alphabetical order. Sort the kana pronunciation of the usage term and the usage term of the character string such as kanji, and input from the usage term dictionary means and the input means, which assigns a 2-byte code to each usage term. By providing a kana-ji terminology converting means for directly converting the converted kana characters into a 2-byte code of a kanji-term by referring to a kanji-term dictionary means, and a storage means for storing the 2-byte code as a result of the conversion, Compress character data.

【0023】[0023]

【発明の効果】以上説明したように、本発明の文字コー
ドデータの圧縮方式は、入力された仮名文字(列)のコ
ード(列)を直接用字用語の2バイトで表現されるため
、従来例の可変長コードのものに比較し処理が簡単にな
り、仮名漢字変換や文字コード変換がないため処理が簡
単になり、短時間で処理することができる。また、用字
用語として65000用語(2バイトの場合)使用でき
るため、用字用語の辞書としても十分実用化に供され、
圧縮結果データ量が減るため処理および転送速度が上が
り、記憶容量が減り、遠隔地への通信でもデータ転送時
間の短縮ができるという効果がある。
[Effects of the Invention] As explained above, the character code data compression method of the present invention directly expresses the code (sequence) of the input kana characters (sequence) using two bytes of the script term. Compared to the variable length code in the example, processing is simpler, and since there is no kana-kanji conversion or character code conversion, processing is simpler and can be processed in a shorter time. In addition, since 65,000 terms (in the case of 2 bytes) can be used as script terms, it can be used as a dictionary of script terms.
Since the amount of data is reduced as a result of compression, processing and transfer speeds are increased, storage capacity is reduced, and data transfer time can be shortened even when communicating to remote locations.

【図面の簡単な説明】[Brief explanation of the drawing]

【図1】本発明の一実施例を示す機能ブロック図である
FIG. 1 is a functional block diagram showing one embodiment of the present invention.

【図2】図1の実施例の用字用語辞書手段において、用
字用語辞書説明用の図である。
FIG. 2 is a diagram for explaining the character and term dictionary in the character and term dictionary means of the embodiment of FIG. 1;

【図3】図1の実施例による圧縮変換例を示す図である
FIG. 3 is a diagram showing an example of compression conversion according to the embodiment of FIG. 1;

【図4】従来の文字コードデータの圧縮方式の一例を示
す機能ブロック図である。
FIG. 4 is a functional block diagram showing an example of a conventional character code data compression method.

【符号の説明】[Explanation of symbols]

1  入力手段 2  用字用語辞書手段 3  仮名文字列コード部 4  用字用語コード部 5  仮名用字用語変換手段 6  記憶手段 7  仮名漢字変換辞書 8  仮名漢字変換手段 9  文字コード辞書 10  文字コード変換手段 11  文字コード記憶手段 12  文字列(語)コード辞書 13  文字列(語)コード部 14  語の文字コード列 15  語コード変換手段 1 Input means 2. Term dictionary means 3 Kana character string code part 4. Term code section 5. Kana-ji terminology conversion means 6 Memory means 7 Kana-Kanji conversion dictionary 8 Kana-kanji conversion means 9 Character code dictionary 10 Character code conversion means 11 Character code storage means 12 String (word) code dictionary 13 String (word) code part 14 Word character code string 15 Word code conversion means

Claims (1)

【特許請求の範囲】[Claims] 【請求項1】日本語の文字コードデータを圧縮する文字
コードデータの圧縮方式において、仮名文字を入力する
入力手段と、日本語の文字列の組合せである用字用語の
仮名の読みを所定の順序にソートし、その用字用語の仮
名の読みと文字列の用字用語を対応させ、1用字用語ご
とに2バイトのコードを付した用字用語辞書手段と、入
力手段から入力された仮名文字を用字用語辞書手段を参
照して直接用字用語の2バイトコードに変換させる仮名
用字用語変換手段と、仮名用字用語変換手段による変換
結果の2バイトコードを記憶する記憶手段とを有するこ
とを特徴とする文字コードデータの圧縮方式。
Claim 1: A character code data compression method for compressing Japanese character code data, comprising: an input means for inputting kana characters; A script term dictionary means which sorts the script terms in order, matches the pronunciation of the kana of the script term with the script term of the character string, and attaches a 2-byte code to each script term, and input means input from the input unit. a kana character term conversion means for directly converting kana characters into a 2-byte code of a character term by referring to a character term dictionary means; and a storage means for storing a 2-byte code as a result of conversion by the kana character term conversion means; A compression method for character code data, characterized by having the following.
JP2413033A 1990-12-25 1990-12-25 Compression system for character code data Pending JPH04223556A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2413033A JPH04223556A (en) 1990-12-25 1990-12-25 Compression system for character code data

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2413033A JPH04223556A (en) 1990-12-25 1990-12-25 Compression system for character code data

Publications (1)

Publication Number Publication Date
JPH04223556A true JPH04223556A (en) 1992-08-13

Family

ID=18521745

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2413033A Pending JPH04223556A (en) 1990-12-25 1990-12-25 Compression system for character code data

Country Status (1)

Country Link
JP (1) JPH04223556A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07191972A (en) * 1991-11-20 1995-07-28 Sharp Corp Method for compressing sentence

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07191972A (en) * 1991-11-20 1995-07-28 Sharp Corp Method for compressing sentence

Similar Documents

Publication Publication Date Title
EP0294950B1 (en) A method of facilitating computer sorting
EP0083393B1 (en) Method of compressing information and an apparatus for compressing english text
US7031910B2 (en) Method and system for encoding and accessing linguistic frequency data
US5309358A (en) Method for interchange code conversion of multi-byte character string characters
US5845238A (en) System and method for using a correspondence table to compress a pronunciation guide
Itoh et al. An efficient method for in memory construction of suffix arrays
US20040225497A1 (en) Compressed yet quickly searchable digital textual data format
WO1985001814A1 (en) Method and apparatus for data compression
Klein Space-and time-efficient decoding with canonical Huffman trees
JPH04223556A (en) Compression system for character code data
JP2729416B2 (en) How to restore text data
JPH0546358A (en) Compressing method for text data
Jrai et al. Improving LZW Compression of Unicode Arabic Text Using Multi-Level Encoding and a Variable-Length Phrase Code
JP3253657B2 (en) Document search method
JPH07182354A (en) Method for generating electronic document
JPH0338772A (en) Compression system for character code data
JPH0969785A (en) Method and device for data compression
JPH0140370B2 (en)
JPS6057421A (en) Documentation device
JPS6154559A (en) Japanese word processor
JPH01194065A (en) Document processor
JPH0227423A (en) Method for rearranging japanese character data
JPS57187768A (en) Kana (japanese syllabary)-kanji (chinese character) conversion method
JP2004013680A (en) Character code compression/decompression device and method
KR20070033656A (en) Electronic Dictionary Search System