JP2010102559A - Apparatus and method for data compression and program - Google Patents
Apparatus and method for data compression and program Download PDFInfo
- Publication number
- JP2010102559A JP2010102559A JP2008274276A JP2008274276A JP2010102559A JP 2010102559 A JP2010102559 A JP 2010102559A JP 2008274276 A JP2008274276 A JP 2008274276A JP 2008274276 A JP2008274276 A JP 2008274276A JP 2010102559 A JP2010102559 A JP 2010102559A
- Authority
- JP
- Japan
- Prior art keywords
- data
- kanji
- text data
- compression
- kana
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
Abstract
Description
本発明は、テキストデータに対して圧縮を行うデータ圧縮装置、データ圧縮方法、及びプログラムに関する。 The present invention relates to a data compression apparatus, a data compression method, and a program for compressing text data.
従来から、電子化されたデータに対しては、データ転送の効率化や、データ記憶域の有効利用のため、データ圧縮が行われている。データ圧縮には、大きく分けて、可逆圧縮と非可逆圧縮とがある。このうち、非可逆圧縮では、その名の通り、元のデータの一部が失われるため、圧縮後のデータから元のデータを完全に復元することは不可能となる。但し、非可逆圧縮は、可逆圧縮に比べて非常に高い圧縮率を達成できる点で優れている。 Conventionally, data compression has been performed on digitized data for efficient data transfer and effective use of a data storage area. Data compression is roughly classified into lossless compression and lossy compression. Of these, in the lossy compression, as the name implies, a part of the original data is lost, and therefore it is impossible to completely restore the original data from the compressed data. However, the irreversible compression is superior in that a very high compression ratio can be achieved compared to the lossless compression.
例えば、音声データや画像データ等においては、一部のデータを除いて、人間の可聴範囲外の音や、識別不能な色の変化などを平準化しても、実質的に失われるデータは少なく、これらのデータは、完全に復元できなくても情報として利用可能である。よって、画像データや音声データ等に対しては、データサイズの大きさ故に高い圧縮率が求められていることと相俟って、非可逆圧縮が主に利用されている(例えば、特許文献1〜3参照)。 For example, in audio data, image data, etc., except for some data, even if leveling sounds outside the human audible range or indistinguishable color change, there is little data lost, These data can be used as information even if they cannot be completely restored. Therefore, irreversible compression is mainly used for image data, audio data, and the like, coupled with the fact that a high compression ratio is required because of the large data size (for example, Patent Document 1). To 3).
これに対して、プログラムデータや、文書データ等のテキストデータに非可逆圧縮を行った場合は、テキストが文字単位の離散データであり、ノイズに弱いことから、復元が極めて困難となる。この場合、プログラムデータにおいては、復元後にプログラムが正常に動作しなくなるという問題が生じてしまう。また、文書データにおいては、復元後に文字化けが発生し、情報として利用できなくなるという問題が生じてしまう。 On the other hand, when irreversible compression is performed on text data such as program data and document data, the text is discrete data in units of characters and is vulnerable to noise, so that restoration becomes extremely difficult. In this case, the program data has a problem that the program does not operate normally after restoration. In addition, the document data is garbled after restoration, which causes a problem that it cannot be used as information.
このように、プログラムデータや文書データ等のテキストデータに対して、非可逆圧縮を実行するのは難しく、テキストデータの圧縮には、主に、可逆圧縮が用いられている。但し、テキストデータに対しても、圧縮率の向上が求められており、従来から、種々の圧縮方法が提案されている(例えば、特許文献4〜6参照。)。
As described above, it is difficult to perform lossy compression on text data such as program data and document data, and lossless compression is mainly used for compression of text data. However, improvement of the compression rate is also demanded for text data, and various compression methods have been conventionally proposed (see, for example,
例えば、特許文献4は、文書データを電子メールとして送信する場合において、データ量を削減するデータ圧縮技術を開示している。特許文献4のデータ圧縮技術では、全角ひらがなの半角カタカナへの変換、全角英数字の半角英数字への変換、及び特定の文字列の特定の記号への変換等によってデータ圧縮を行っている。
For example,
また、特許文献5は、イメージが付加された文書データを圧縮する際に、テキストデータに対してはLZHやZIP等の可逆圧縮を行い、イメージデータについては非可逆圧縮を行うデータ圧縮技術を開示している。特許文献5のデータ圧縮技術によれば、イメージが付加された文書データに対する圧縮率の向上が可能となる。
更に、特許文献6は、コンピュータ装置からプリンタに送られる印刷用の文書データを圧縮するデータ圧縮技術を開示している。特許文献6のデータ圧縮技術では、先ず、テキストデータはドットマップデータに変換され、その後、得られたドットマップデータに対して圧縮が行われるため、圧縮率の向上が図られる。
しかしながら、特許文献4に開示のデータ圧縮技術では、文書データ中に含まれている漢字に対しては、対応する記号が設定されている場合を除き、データの圧縮が行わることはない。特許文献4に開示のデータ圧縮技術では、テキストデータの圧縮率の向上には限界がある。
However, in the data compression technique disclosed in
また、特許文献5に開示のデータ圧縮技術では、テキストデータは、LZHやZIP等の一般的な可逆圧縮アルゴリズムによって圧縮されるに過ぎない。よって、特に漢字が含まれる文書データに対しては、テキストデータの圧縮率の向上は困難である。
In the data compression technique disclosed in
更に、特許文献6に開示のデータ圧縮技術では、テキストデータは、ドットマップデータに変換され、その後、圧縮されるが、圧縮率の向上を図る場合は、テキストの品位を落とす必要がある。このため、特にテキストデータが漢字を含む場合は、圧縮率の向上は極めて困難となる。
Furthermore, in the data compression technique disclosed in
本発明の目的は、上記問題を解消し、漢字を含むテキストデータを圧縮する際の圧縮率の向上を図り得る、データ圧縮装置、データ圧縮方法、及びプログラムを提供することにある。 An object of the present invention is to provide a data compression apparatus, a data compression method, and a program capable of solving the above problems and improving the compression rate when compressing text data including Chinese characters.
上記目的を達成するために、本発明におけるデータ圧縮装置は、漢字を含むテキストデータに対してデータ圧縮を行うデータ圧縮装置であって、
前記テキストデータに含まれる前記漢字を、前記テキストデータに含まれる、前記漢字以外の文字から分離する漢字分離部と、
分離された前記漢字を特定する漢字リストデータ、及び前記漢字の前記テキストデータにおける位置を特定する漢字位置データを生成する漢字データ生成部とを備える、ことを特徴とする。
In order to achieve the above object, a data compression apparatus according to the present invention is a data compression apparatus that performs data compression on text data including Chinese characters,
A kanji separating unit that separates the kanji included in the text data from characters other than the kanji included in the text data;
And a kanji data generation unit that generates kanji list data for specifying the separated kanji and kanji position data for specifying the position of the kanji in the text data.
また、上記目的を達成するため、本発明におけるデータ圧縮方法は、 漢字を含むテキストデータに対してデータ圧縮を行うためのデータ圧縮方法であって、
(a)前記テキストデータに含まれる前記漢字を、前記テキストデータに含まれる、前記漢字以外の文字から分離するステップと、
(b)分離された前記漢字を特定する漢字リストデータ、及び前記漢字の前記テキストデータにおける位置を特定する漢字位置データを生成するステップとを有する、ことを特徴とする。
In order to achieve the above object, a data compression method according to the present invention is a data compression method for performing data compression on text data including kanji,
(A) separating the Chinese characters included in the text data from characters other than the Chinese characters included in the text data;
(B) generating kanji list data for specifying the separated kanji and generating kanji position data for specifying the position of the kanji in the text data.
更に、上記目的を達成するため、本発明におけるプログラムは、 コンピュータ装置を用いて、漢字を含むテキストデータに対してデータ圧縮を実行するためのプログラムであって、
前記コンピュータ装置に、
(a)前記テキストデータに含まれる前記漢字を、前記テキストデータに含まれる、前記漢字以外の文字から分離するステップと、
(b)分離された前記漢字を特定する漢字リストデータ、及び前記漢字の前記テキストデータにおける位置を特定する漢字位置データを生成するステップとを実行させる、ことを特徴とする。
Furthermore, in order to achieve the above object, a program according to the present invention is a program for performing data compression on text data including kanji using a computer device,
In the computer device,
(A) separating the Chinese characters included in the text data from characters other than the Chinese characters included in the text data;
(B) generating kanji list data for specifying the separated kanji and generating kanji position data for specifying the position of the kanji in the text data.
以上の特徴により、本発明におけるデータ圧縮装置、データ圧縮方法、及びプログラムによれば、漢字を含むテキストデータを圧縮する際の圧縮率の向上が図られる。 With the above features, according to the data compression device, data compression method, and program of the present invention, the compression rate when compressing text data including Chinese characters can be improved.
(実施の形態)
以下、本発明の実施の形態におけるデータ圧縮装置、データ圧縮方法、及びプログラムについて、図1〜図4を参照しながら説明する。最初に、本実施の形態におけるデータ圧縮装置の構成について図1〜図3を用いて説明する。
(Embodiment)
Hereinafter, a data compression apparatus, a data compression method, and a program according to an embodiment of the present invention will be described with reference to FIGS. Initially, the structure of the data compression apparatus in this Embodiment is demonstrated using FIGS. 1-3.
図1は、本発明の実施の形態におけるデータ圧縮装置の構成を示すブロック図である。図2は、本発明の実施の形態におけるデータ圧縮装置で行われる処理の結果の一例を示す図である。図3は、本実施の形態におけるデータ圧縮装置で生成されるデータの一例を示す図である。 FIG. 1 is a block diagram showing a configuration of a data compression apparatus according to an embodiment of the present invention. FIG. 2 is a diagram illustrating an example of a result of processing performed by the data compression device according to the embodiment of the present invention. FIG. 3 is a diagram illustrating an example of data generated by the data compression apparatus according to the present embodiment.
図1に示すデータ圧縮装置1は、漢字を含むテキストデータ12(図2参照)に対してデータ圧縮を実行する。図1に示すように、データ圧縮装置1は、漢字分離部6と漢字データ生成部7とを有する漢字処理部5を備えている。
The
漢字分離部6は、データ圧縮の対象となるテキストデータ12に含まれる漢字を、同じくテキストデータに含まれる、漢字以外の文字(かなや英数字)から分離する。漢字データ生成部7は、分離された漢字を特定する漢字リストデータと、漢字のテキストデータ12における位置を特定する漢字位置データとを生成する(図3参照)。
The kanji separating
本実施の形態では、圧縮が困難な漢字は、かなや英数字から分離され、漢字リストデータと漢字位置データとに変換される。そして、図3に示すように、漢字リストデータは、英数字の組合わせで作成される漢字コードで構成でき、漢字リストデータに対するデジタル圧縮は容易である。また、図3に示すように、漢字位置データは文書中の場所を示せれば良く、英数字で構成できるので、漢字位置データに対するデジタル圧縮も容易である。このため、本実施の形態によれば、漢字を含むテキストデータに対して、高い圧縮率で、圧縮を行うことができる。 In this embodiment, kanji characters that are difficult to compress are separated from kana and alphanumeric characters and converted into kanji list data and kanji position data. As shown in FIG. 3, the kanji list data can be composed of kanji codes created by combining alphanumeric characters, and digital compression of the kanji list data is easy. Further, as shown in FIG. 3, the kanji position data only needs to indicate the location in the document, and can be composed of alphanumeric characters, so that digital compression of the kanji position data is easy. For this reason, according to the present embodiment, it is possible to compress text data including Chinese characters at a high compression rate.
続いて、データ圧縮装置1の構成について更に具体的に説明する。図1に示すように、本実施の形態では、データ圧縮装置1は、漢字処理部5に加えて、データ読込部2、形態素解析部3、辞書4、補助圧縮部9、データ圧縮部10、及びデータ出力部11を備えている。また、漢字処理部5は、漢字分離部6及び漢字データ生成部7に加えて、更に、漢字かな変換部8を有している。
Next, the configuration of the
データ読込部2は、外部から入力されるテキストデータを読み込み、これを形態素解析部3に出力する。入力されるテキストデータとしては、例えば、図2に示す、漢字を含む日本語のテキストデータ12が挙げられる。なお、実際には、テキストデータ12は、コード化された状態で入力される。
The
本実施の形態において、テキストデータは、例えば、データ圧縮装置1に接続されたキーボードやマウスといった入力機器を介して、又は外部のコンピュータ装置からネットワークを介して、データ読込部2に入力される。この場合、データ読込部2としては、外部とデータ圧縮装置1とを接続するためのインターフェイスが用いられる。また、テキストデータは、記録媒体に格納された状態で提供されても良い。この場合は、データ読込部2としては、読取装置が用いられる。
In the present embodiment, the text data is input to the
形態素解析部3は、辞書4を参照しながら形態素解析を行い、テキストデータを単語単位で分解する。辞書4は、品詞、漢字表記、読み等の情報が付された単語リストを格納している。本実施の形態において、形態素解析のアルゴリズムは特に限定されるものではなく、形態素解析部3は、規則に基づく形態素解析を行っても良いし、確率的言語モデルに基づく形態素解析を行っても良い。
The
また、形態素解析が終了すると、形態素解析部3は、形態素解析の結果を示すデータ13(図2参照)を、漢字処理部5に出力する。本実施の形態では、形態素解析部3は、後述する漢字かな変換部8での変換処理を可能とするため、データ13には、各漢字の読み(図2において図示せず)を付加している。
When the morpheme analysis is completed, the
漢字分離部6は、上述したように、テキストデータ12に含まれる漢字を漢字以外の文字から分離する。このとき、本実施の形態では、漢字分離部6は、文字コードに基づいて、漢字を分離する。また、漢字分離部6は、分離された漢字毎に、対応する漢字コードを抽出し、更に、漢字の位置を特定する情報(漢字位置情報)も抽出する。本実施の形態では、漢字コードとしては、例えば、JISコード、シフトJISコード、Unicode等が用いられる。また、漢字位置情報としては、例えば、文頭の文字を「1」として、順に番号付けした場合の番号が用いられる。
As described above, the
漢字データ生成部7は、漢字分離部6が抽出した漢字コードを用いて、図3に示す漢字リストデータを生成する。更に、漢字データ生成部7は、漢字分離部6が抽出した漢字位置情報を用いて、図3に示す漢字位置データも生成する。
The kanji
漢字かな変換部8は、かな変換テキストデータ14(図2参照)を生成する。かな変換テキストデータ14は、テキストデータ12(図2参照)に含まれる漢字をかなに変換して得られる、漢字以外の文字のみで構成されたデータである。本実施の形態では、漢字かな変換部8は、テキストデータ12に含まれる文字毎に、文字コードが漢字コードであるかどうかを判定する。そして、漢字かな変換部8は、漢字コードであると判定した文字については、形態素解析の結果を利用して、対応するかなへと変換する。これにより、かな変換テキストデータ14が生成される。
The kanji /
図2に示すように、かな変換テキストデータ14は、漢字以外の文字で構成され、同一の文字種が連続したデータとなる。よって、かな変換テキストデータ14においては、テキストデータ12から漢字のみを取り除いたデータ(例えば「が/る/まで/で/った/・・・」(データ13参照))に比べて、圧縮の対象となる共通領域が増加する。本実施の形態では、かな変換テキストデータ14の作成により、更なる圧縮率の向上が図られる。
As shown in FIG. 2, the kana
補助圧縮部9は、かな変換テキストデータ14に含まれる文字コードの種類を削減し、かな変換テキストデータ14のデータ量を圧縮する。具体的には、補助圧縮部9は、破裂音、濁音、及び促音の清音文字への変換(例えば、ぱ→は、が→か、っ→つ)や、カタカナのひらがなへの変換、更には、カタカナ及びひらがなのローマ字への変換を実行する。図2において、データ15は、補助圧縮によって得られたデータを示している。なお、本実施の形態において、補助圧縮部9による圧縮は、必要に応じて行われれば良く、行われない態様であっても良い。
The auxiliary compression unit 9 reduces the types of character codes included in the kana
データ圧縮部10には、図3に示す、漢字リストデータ、漢字位置データ、及びかな変換テキストデータ14(補助圧縮部9による補助圧縮が行われた場合はデータ15)が入力される。具体的には、データ圧縮部10は、例えば、LZH形式、LZ(Lempel-Ziv)形式、又はZIP形式等の可逆圧縮アルゴリズムを利用して、データのデジタル圧縮を実行する
The
また、上述したように、実際には、漢字リストデータ、漢字位置データ、及びかな変換テキストデータは英数字で構成される。よって、データ圧縮部10によって圧縮されたデータは、背景技術の欄において特許文献4〜6に示した技術によって圧縮される場合に比べて、高い圧縮率で圧縮される。本実施の形態によれば、漢字を含む日本語のテキストデータ12(図2参照)が、高い圧縮率で圧縮される。
As described above, actually, the kanji list data, the kanji position data, and the kana conversion text data are composed of alphanumeric characters. Therefore, the data compressed by the
更に、本実施の形態では、データ圧縮部10は、外部からの指示、具体的には、データ圧縮装置1のオペレータからの指示に応じて、漢字リストデータ及び漢字位置データを破棄し、かな変換テキストデータ14に対してのみデジタル圧縮を実行することもできる。この場合は、圧縮後のデータを元のテキストデータ12に復元することは、不可能となるが、可逆的に圧縮を行う必要がなく、高い圧縮率だけが求められる場合に有効となる。
Furthermore, in the present embodiment, the
圧縮後のデータは、データ出力部11によって外部に出力される。具体的には、圧縮後のデータは、データ圧縮装置1にネットワークを介して接続された別のコンピュータ装置や、記録媒体へと出力される。
The compressed data is output to the outside by the data output unit 11. Specifically, the compressed data is output to another computer device or a recording medium connected to the
次に、本発明の実施の形態におけるデータ圧縮方法について図4を用いて説明する。図4は、本発明の実施の形態におけるデータ圧縮方法で行われる処理の流れを示すフロー図である。本実施の形態におけるデータ圧縮方法は、図1に示したデータ圧縮装置1を動作させることによって実施できる。このため、以降において、本実施の形態におけるデータ圧縮方法の説明は、適宜図1〜図4を参酌しながら、図1に示したデータ圧縮装置の動作の説明と共に行う。
Next, a data compression method according to the embodiment of the present invention will be described with reference to FIG. FIG. 4 is a flowchart showing a flow of processing performed in the data compression method according to the embodiment of the present invention. The data compression method in the present embodiment can be implemented by operating the
先ず、図4に示すように、テキストデータ12(図2参照)がデータ圧縮装置1に入力されると、データ読込部2は、入力されたテキストデータ12を読み込み(ステップS1)、読み込んだテキストデータ12を形態素解析部3に入力する。
First, as shown in FIG. 4, when text data 12 (see FIG. 2) is input to the
次に、テキストデータ12が入力されると、形態素解析部3は、辞書4を参照しながら、これに対して形態素解析を実行し、各漢字の読みが付加されたデータ13を生成する(ステップS2)。形態素解析部3は、生成したデータ13を漢字処理部5に入力する。
Next, when the
続いて、漢字処理部5はテキストデータ12に漢字が含まれているかどうかを判定する(ステップS3)。漢字が含まれていない場合は、補助圧縮部9によってステップS5が実行される。一方、漢字が含まれている場合は、漢字処理部5は、漢字処理を行なう(ステップS4)。
Subsequently, the
具体的には、ステップS4においては、先ず、漢字分離部6が、テキストデータ12に含まれる漢字を漢字以外の文字(かなや英数字)から分離し、分離された各漢字に対応する漢字コード及び漢字位置情報を抽出する。次に、ステップS4においては、漢字データ生成部7が、抽出された漢字コードと漢字位置情報とを用いて、漢字リストデータ及び漢字位置データを生成する(図3参照)。更に、ステップS4においては、漢字かな変換部8が、かな変換テキストデータ14を生成する。
Specifically, in step S4, first, the
次に、補助圧縮部9が、かな変換テキストデータ14に対して、データ量を削減するための補助圧縮を実行する(ステップS5)。なお、ステップS4が実行されていない場合は、補助圧縮部9は、形態素解析によって生成されたデータ13に対して、補助圧縮を実行する。 Next, the auxiliary compression unit 9 executes auxiliary compression for reducing the amount of data for the kana converted text data 14 (step S5). In addition, when step S4 is not performed, the auxiliary compression part 9 performs auxiliary compression with respect to the data 13 produced | generated by the morphological analysis.
続いて、データ圧縮部10が、漢字リストデータ、漢字位置データ、及び、補助圧縮後のかな変換テキストデータ14に対して、データ圧縮を実行する(ステップS6)。なお、ステップS4が実行されていない場合は、データ圧縮部10は、補助圧縮後のデータ13に対して、データ圧縮を実行する。
Subsequently, the
その後、データ出力部11が、ステップS6で圧縮されたデータを外部に出力する(ステップS7)。ステップS7が終了すると、データ圧縮装置1は処理を終了する。このように、本実施の形態におけるデータ圧縮法を実行すれば、漢字は漢字以外の文字とは別に圧縮され、漢字を含むテキストデータ12は、高い圧縮率で圧縮されることとなる。
Thereafter, the data output unit 11 outputs the data compressed in step S6 to the outside (step S7). When step S7 ends, the
また、本実施の形態におけるプログラムは、コンピュータ装置に、図4に示すステップS1〜S7を具現化させるプログラムである。よって、データ圧縮装置1は、コンピュータに、このプログラムをインストールし、このプログラムを実行することによって、実現することができる。この場合、コンピュータのCPU(central processing unit)は、形態素解析部3、漢字処理部5、補助圧縮部9、データ圧縮部10及びデータ出力部11として機能し、ステップS1〜S7の処理を行なう。
Moreover, the program in this Embodiment is a program which makes a computer apparatus embody step S1-S7 shown in FIG. Therefore, the
本実施の形態では、辞書4は、コンピュータ装置に備えられたハードディスク等の記憶装置に、辞書4を構成するデータファイルを格納することによって、実現することができる。また、辞書4は、データファイルが格納された記録媒体をコンピュータ装置と接続された読取装置に搭載することによっても実現できる。更に、辞書4は、プログラムがインストールされたコンピュータ装置とは別のコンピュータ装置によって提供されていても良い。
In the present embodiment, the
1 データ圧縮装置
2 データ読込部
3 形態素解析部
4 辞書
5 漢字処理部
6 漢字分離部
7 漢字データ生成部
8 漢字かな変換部
9 補助圧縮部
10 データ圧縮部
11 データ出力部
12 テキストデータ
13 形態素分析後のデータ
14 かな変換テキストデータ
15 補助圧縮後のデータ
DESCRIPTION OF
Claims (15)
前記テキストデータに含まれる前記漢字を、前記テキストデータに含まれる、前記漢字以外の文字から分離する漢字分離部と、
分離された前記漢字を特定する漢字リストデータ、及び前記漢字の前記テキストデータにおける位置を特定する漢字位置データを生成する漢字データ生成部とを備える、ことを特徴とするデータ圧縮装置。 A data compression device that performs data compression on text data including kanji,
A kanji separating unit that separates the kanji included in the text data from characters other than the kanji included in the text data;
A data compression apparatus comprising: a kanji list data for specifying the separated kanji characters; and a kanji data generation unit for generating kanji position data for specifying a position of the kanji in the text data.
請求項1に記載のデータ圧縮装置。 A kanji conversion unit that converts kanji contained in the text data into kana and generates kana conversion text data composed only of characters other than kanji.
The data compression apparatus according to claim 1.
前記漢字かな変換部が、前記形態素解析の結果を利用して、前記テキストデータに含まれる漢字をかなに変換し、前記かな変換テキストデータを生成する、請求項2に記載のデータ圧縮装置。 Morphological analysis is performed on the text data, and further includes a morphological analysis unit that decomposes the text data into words.
The data compression apparatus according to claim 2, wherein the kanji / kana conversion unit converts the kanji contained in the text data to kana using the result of the morphological analysis to generate the kana conversion text data.
(a)前記テキストデータに含まれる前記漢字を、前記テキストデータに含まれる、前記漢字以外の文字から分離するステップと、
(b)分離された前記漢字を特定する漢字リストデータ、及び前記漢字の前記テキストデータにおける位置を特定する漢字位置データを生成するステップとを有する、ことを特徴とするデータ圧縮方法。 A data compression method for performing data compression on text data including kanji,
(A) separating the Chinese characters included in the text data from characters other than the Chinese characters included in the text data;
And (b) generating kanji list data for specifying the separated kanji and kanji position data for specifying the position of the kanji in the text data.
前記(e)のステップは、前記(a)のステップの実行前に、実行され、
前記(a)のステップにおいて、前記(e)のステップで得られた形態素解析の結果を利用して、前記テキストデータに含まれる漢字をかなに変換し、前記かな変換テキストデータを生成する、請求項7に記載のデータ圧縮方法。 (E) further comprising performing a morphological analysis on the text data and decomposing the text data into words;
The step (e) is executed before the step (a) is executed,
In the step of (a), using the result of the morphological analysis obtained in the step of (e), kanji included in the text data is converted into kana, and the kana converted text data is generated. Item 8. The data compression method according to Item 7.
前記コンピュータ装置に、
(a)前記テキストデータに含まれる前記漢字を、前記テキストデータに含まれる、前記漢字以外の文字から分離するステップと、
(b)分離された前記漢字を特定する漢字リストデータ、及び前記漢字の前記テキストデータにおける位置を特定する漢字位置データを生成するステップとを実行させる、ことを特徴とするプログラム。 A program for performing data compression on text data including kanji using a computer device,
In the computer device,
(A) separating the Chinese characters included in the text data from characters other than the Chinese characters included in the text data;
(B) generating a kanji list data specifying the separated kanji and generating kanji position data specifying a position of the kanji in the text data.
前記(a)のステップにおいて、前記(e)のステップで得られた形態素解析の結果を利用して、前記テキストデータに含まれる漢字をかなに変換し、前記かな変換テキストデータを生成する、請求項12に記載のプログラム。 (E) performing a morphological analysis on the text data, and causing the computer device to further execute a step of decomposing the text data into words, prior to the step (a),
In the step of (a), using the result of the morphological analysis obtained in the step of (e), kanji included in the text data is converted into kana, and the kana converted text data is generated. Item 13. The program according to item 12.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008274276A JP5344132B2 (en) | 2008-10-24 | 2008-10-24 | Data compression apparatus, data compression method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008274276A JP5344132B2 (en) | 2008-10-24 | 2008-10-24 | Data compression apparatus, data compression method, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010102559A true JP2010102559A (en) | 2010-05-06 |
JP5344132B2 JP5344132B2 (en) | 2013-11-20 |
Family
ID=42293147
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008274276A Expired - Fee Related JP5344132B2 (en) | 2008-10-24 | 2008-10-24 | Data compression apparatus, data compression method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5344132B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101275391B1 (en) | 2012-04-06 | 2013-06-17 | 엔에이치엔(주) | Data indexing method and system for serch servise supporting unicode |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03276366A (en) * | 1990-03-26 | 1991-12-06 | Ricoh Co Ltd | Kanji code processor |
JPH10326273A (en) * | 1997-03-26 | 1998-12-08 | Fujitsu Ltd | Data compressing device and data restoring device and data compressing method and data restoring method and program recording medium |
-
2008
- 2008-10-24 JP JP2008274276A patent/JP5344132B2/en not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03276366A (en) * | 1990-03-26 | 1991-12-06 | Ricoh Co Ltd | Kanji code processor |
JPH10326273A (en) * | 1997-03-26 | 1998-12-08 | Fujitsu Ltd | Data compressing device and data restoring device and data compressing method and data restoring method and program recording medium |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101275391B1 (en) | 2012-04-06 | 2013-06-17 | 엔에이치엔(주) | Data indexing method and system for serch servise supporting unicode |
Also Published As
Publication number | Publication date |
---|---|
JP5344132B2 (en) | 2013-11-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2004227579A (en) | Method and system for converting xml code into binary code | |
CN1181618C (en) | Data compression/decompression apparatus/method and program recording medium | |
KR20080043304A (en) | Encoding of markup-language data | |
CN101996160A (en) | Method and system for processing script data | |
JP5344132B2 (en) | Data compression apparatus, data compression method, and program | |
JP5207886B2 (en) | Document encoding apparatus and document encoding method | |
Awajan et al. | Hybrid technique for Arabic text compression | |
JP4953145B2 (en) | Character string data compression apparatus and method, and character string data restoration apparatus and method | |
JP2011154495A (en) | Character code conversion device, character code conversion method and character code conversion program | |
US8386922B2 (en) | Information processing apparatus and information processing method | |
JP2008123403A (en) | Dependency parser and its program | |
JPH10161825A (en) | Illegal character check method, and device for generating illegal character check data | |
JP2005269184A (en) | Data compressing process, program, data recovery method, and apparatus | |
JP4313698B2 (en) | Electronic document processing apparatus, electronic document processing method, and electronic document processing program | |
KR101161343B1 (en) | Apparatus for converting file | |
KR20090068787A (en) | Method and apparatus for file compression and restoration of compression format | |
JP6640788B2 (en) | Language conversion program and language conversion device | |
JP3556269B2 (en) | Document reading method and document reading apparatus | |
JP2001282781A (en) | Data input method, recording medium for data input using the method, and arithmetic processor | |
JP4329493B2 (en) | Dictionary data compression apparatus, electronic dictionary apparatus, and program | |
JP2015197697A (en) | Character input device, character input method, and character input program | |
JP2006251903A (en) | Compressed document data processing device, compressed document data processing program and compressed document data processing method | |
JP2006350909A (en) | Document generation device and file optimization method | |
JP2003110841A (en) | Image processor, its control method, computer program and recording medium | |
US8705141B2 (en) | Method and system for efficiently printing simple data using a complex page data stream |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110830 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130121 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130206 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130404 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130501 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130627 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130717 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130730 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5344132 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |