JP2016063475A - Encoding apparatus, encoding method, decoding apparatus, decoding method, and program - Google Patents
Encoding apparatus, encoding method, decoding apparatus, decoding method, and program Download PDFInfo
- Publication number
- JP2016063475A JP2016063475A JP2014191516A JP2014191516A JP2016063475A JP 2016063475 A JP2016063475 A JP 2016063475A JP 2014191516 A JP2014191516 A JP 2014191516A JP 2014191516 A JP2014191516 A JP 2014191516A JP 2016063475 A JP2016063475 A JP 2016063475A
- Authority
- JP
- Japan
- Prior art keywords
- identification number
- bit string
- character
- data
- encoding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
本発明は、符号化装置、符号化方法、復号装置、復号方法、及び、プログラムに関する。 The present invention relates to an encoding device, an encoding method, a decoding device, a decoding method, and a program.
データ量を削減するために、符号化対象のデータを符号化する(圧縮する)符号化方法、及び、復号対象のデータを符号化前の元データに復号する復号方法が知られている。 In order to reduce the amount of data, an encoding method for encoding (compressing) data to be encoded and a decoding method for decoding the data to be decoded into original data before encoding are known.
例えば、非特許文献1は、符号化対象のデータに繰り返し出現する文字列について、2回目以降に出現する文字列を、最初に出現する文字列のデータ内における位置及び文字列の長さを示すデータ(以下、頻出文字列メタデータと言う。)に変換して符号化対象のデータを符号化するLZ符号化方法を開示している。また、非特許文献1は、復号対象のデータ(LZ符号化方法で符号化されたデータ)に含まれる複数の頻出文字列メタデータのそれぞれを、符号化前の元データにおいて繰り返し出現する文字列のうち最初に出現する文字列に置き換えて復号対象のデータを復号する復号方法を開示している。
For example, Non-Patent
しかしながら、従来の符号化方法・復号方法では、部分的な復号が必要とされるデータを符号化・復号の対象とした場合、符号化効率が低い。例えば、辞書データの復号では、ユーザが検索対象とした見出し語単位での復号が必要とされるが、このような部分的な復号を従来の符号化方法・復号方法が実現しようとすると、辞書データを見出し語単位で符号化しなければならない。このことを、上述のLZ符号化方法を例にとって具体的に説明すると、辞書データ全体がLZ符号化方法で符号化されている場合、符号化された辞書データの一部分には、前述の頻出文字列メタデータの置き換えに必要となる、符号化前の元データに繰り返し出現する文字列のうち最初に出現する文字列が含まれない可能性が高い。そのため、辞書データ全体がLZ符号化方法で符号化されている場合、辞書データの部分的な復号はほぼ不可能である。従って、見出し語単位での辞書データの復号には、見出し語単位での符号化が必要となる。また、他の符号化方法・復号方法についても同様の理由から、復号対象のデータの部分的な復号には、符号化前の元データについて部分的な符号化が必要となる。そして、このような部分的な符号化は、符号化効率を著しく低下させる。 However, in the conventional encoding method / decoding method, when data that requires partial decoding is targeted for encoding / decoding, the encoding efficiency is low. For example, decoding of dictionary data requires decoding in units of headwords that the user has searched for. If a conventional encoding method / decoding method tries to realize such partial decoding, the dictionary Data must be encoded in headword units. This will be specifically described by taking the above-described LZ encoding method as an example. When the entire dictionary data is encoded by the LZ encoding method, the above-mentioned frequent characters are included in a part of the encoded dictionary data. There is a high possibility that the first character string that appears repeatedly in the original data before encoding, which is necessary for the replacement of the column metadata, is not included. Therefore, when the entire dictionary data is encoded by the LZ encoding method, partial decoding of the dictionary data is almost impossible. Accordingly, decoding of dictionary data in units of headwords requires encoding in units of headwords. For the same reason as for other encoding methods and decoding methods, partial decoding of the original data before encoding is necessary for partial decoding of the data to be decoded. Such partial encoding significantly reduces the encoding efficiency.
本発明は、以上のような課題を解決するためのものであり、符号化効率が高い方法を用いて符号化対象のデータを部分的に復号可能なデータに符号化する符号化装置、符号化方法、符号化効率が高い方法を用いて符号化されたデータを部分的に復号する復号装置、復号方法、及び、プログラムを提供することを目的とする。 The present invention is to solve the above-described problems, and an encoding apparatus and encoding that encode data to be encoded into partially decodable data using a method with high encoding efficiency It is an object to provide a decoding apparatus, a decoding method, and a program for partially decoding data encoded using a method, a method with high encoding efficiency.
上記目的を達成するために、本発明の第1の観点に係る符号化装置は、
符号化対象のデータに含まれる文字と、該文字を識別する文字識別番号と、を関連付けて記憶する文字識別番号記憶部と、
前記文字識別番号記憶部を参照して、前記符号化対象のデータに含まれる文字を、該文字に関連付けられた文字識別番号に変換する変換部と、
前記変換部が変換した文字識別番号をバイナリデータに符号化する符号化部と、
前記符号化部が符号化した文字識別番号のバイナリデータに出現する同一のビット列ごとに、該ビット列を識別するビット列識別番号を関連付けてビット列識別番号記憶部に記憶するビット列識別番号関連付部と、
前記ビット列識別番号記憶部を参照して、前記文字識別番号のバイナリデータに出現する同一のビット列を、該ビット列に関連付けられたビット列識別番号に変換するビット列識別番号変換部と、
前記ビット列識別番号変換部が変換したビット列識別番号に、復号時に前記ビット列識別番号記憶部を参照することを示す参照フラグを関連付けて、該ビット列識別番号をバイナリデータに符号化する参照フラグ付き符号化部と、
を備える。
In order to achieve the above object, an encoding apparatus according to the first aspect of the present invention provides:
A character identification number storage unit that stores a character included in data to be encoded and a character identification number for identifying the character in association with each other;
A conversion unit that refers to the character identification number storage unit and converts a character included in the data to be encoded into a character identification number associated with the character;
An encoding unit that encodes the character identification number converted by the conversion unit into binary data;
A bit string identification number associating unit that associates a bit string identification number that identifies the bit string and stores it in the bit string identification number storage unit for each identical bit string that appears in the binary data of the character identification number encoded by the encoding unit;
A bit string identification number converter that converts the same bit string appearing in the binary data of the character identification number into a bit string identification number associated with the bit string with reference to the bit string identification number storage unit;
Encoding with a reference flag for associating a reference flag indicating that the bit string identification number storage unit is referred to at the time of decoding with the bit string identification number converted by the bit string identification number conversion unit, and encoding the bit string identification number into binary data And
Is provided.
上記目的を達成するために、本発明の第2の観点に係る復号装置は、
符号化対象のデータに含まれる各文字を識別する各文字識別番号のバイナリデータと、前記各文字識別番号のバイナリデータに出現する同一のビット列を識別するビット列識別番号のバイナリデータと、で構成された圧縮データを記憶する圧縮データ記憶部と、
前記符号化対象のデータに含まれる文字と、該文字を識別する前記文字識別番号と、を関連付けて記憶する文字識別番号記憶部と、
前記各文字識別番号のバイナリデータに出現する前記同一のビット列ごとに、該ビット列を識別する前記ビット列識別番号を関連付けて記憶するビット列識別番号記憶部と、
復号対象のデータを特定するための条件を入力する入力部と、
前記圧縮データ記憶部が記憶する圧縮データのうち前記条件を満たすデータを復号対象のデータとして特定し、特定した復号対象のデータを構成する前記文字識別番号のバイナリデータと前記ビット列識別番号のバイナリデータとのうち、前記ビット列識別番号のバイナリデータを前記ビット列識別番号に復号するビット列識別番号復号部と、
前記ビット列識別番号記憶部を参照して、前記ビット列識別番号復号部が復号した前記ビット列識別番号を、該ビット列識別番号に関連付けられたビット列に変換するビット列識別番号変換部と、
前記復号対象のデータを構成する前記文字識別番号のバイナリデータと前記ビット列識別番号変換部が変換したビット列とを前記文字識別番号に復号する復号部と、
前記文字識別番号記憶部を参照して、前記復号部が復号した前記文字識別番号を、該文字識別番号に関連付けられた文字に変換する変換部と、
を備える。
In order to achieve the above object, a decoding device according to the second aspect of the present invention provides:
It consists of binary data of each character identification number that identifies each character included in the data to be encoded, and binary data of a bit string identification number that identifies the same bit string that appears in the binary data of each character identification number A compressed data storage unit for storing compressed data,
A character identification number storage unit for storing the character included in the data to be encoded and the character identification number for identifying the character in association with each other;
A bit string identification number storage unit that associates and stores the bit string identification number for identifying the bit string for each identical bit string that appears in the binary data of each character identification number;
An input unit for inputting a condition for specifying data to be decrypted;
Among the compressed data stored in the compressed data storage unit, the data satisfying the condition is specified as the data to be decoded, and the binary data of the character identification number and the binary data of the bit string identification number constituting the specified decoding target data A bit string identification number decoding unit for decoding binary data of the bit string identification number into the bit string identification number,
A bit string identification number converting unit that converts the bit string identification number decoded by the bit string identification number decoding unit into a bit string associated with the bit string identification number with reference to the bit string identification number storage unit;
A decoding unit that decodes the binary data of the character identification number constituting the data to be decoded and the bit string converted by the bit string identification number conversion unit into the character identification number;
A conversion unit that refers to the character identification number storage unit and converts the character identification number decoded by the decoding unit into a character associated with the character identification number;
Is provided.
本発明によれば、符号化効率が高い方法を用いて符号化対象のデータを部分的に復号可能なデータに符号化することができる。また、符号化効率が高い方法を用いて符号化されたデータを部分的に復号することができる。 According to the present invention, data to be encoded can be encoded into partially decodable data using a method with high encoding efficiency. In addition, data encoded using a method with high encoding efficiency can be partially decoded.
以下、本発明の実施形態について、図面を参照して説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings.
従来の符号化方法・復号方法によれば、データを部分的に復号したい場合は、符号化前の元データを部分的に符号化しておかなければならない。従って、符号化に手間がかかり、符号化効率は低い。この点に関して、本願発明に係る符号化装置100、復号装置200は、符号化前の元データをまとめて符号化してしまっても部分的な復号を可能とする。以下、このような符号化装置100、復号装置200の物理構成及び機能構成を説明する。
According to the conventional encoding / decoding method, when data is to be partially decoded, the original data before encoding must be partially encoded. Therefore, it takes time for encoding, and the encoding efficiency is low. In this regard, the
本実施形態に係る符号化装置100は、物理的には図1に示すように構成される。即ち、符号化装置100は、ROM(Read Only Memory)10と、RAM(Random Access Memory)11と、外部記憶装置12と、入力装置13と、表示装置14と、CPU(Central Processing Unit)15と、を備える。
The
ROM10は、各種初期設定、ハードウェアの検査、プログラムのロード等を行うための初期プログラムを記憶する。RAM11は、CPU15が実行する各種ソフトウェアプログラム、これらのソフトウェアプログラムの実行に必要なデータ等を一時的に記憶する。
The
外部記憶装置12は、例えば、ハードディスクであって、各種ソフトウェアプログラム、データ等を記憶する。これらソフトウェアプログラムの中には、アプリケーションソフトウェアプログラム、OS(Operating System)のような基本ソフトウェアプログラム等が含まれている。
The
入力装置13は、キーボード、マウス、トラックパッド等を備え、ユーザからの入力を受け付ける。入力装置13は、キーボード、マウス、トラックパッド等からの入力に基づいて信号を生成し、CPU15に供給する。
The
表示装置14は、液晶ディスプレイ等の画面を備え、CPU15から供給されたテキストデータや画像データを表示する。
The
CPU15は、外部記憶装置12が記憶するソフトウェアプログラムをRAM11に読み出して、そのソフトウェアプログラムを実行制御することにより、以下の機能構成を実現する。
The
符号化装置100は、機能的には図2に示すように構成される。即ち、符号化装置100は、符号化候補データ記憶部101と、表示部102と、入力部103と、文字出現頻度取得部104と、文字識別番号関連付部105と、文字識別番号記憶部106と、変換部107と、符号化部108と、開始位置記憶部109と、ビット列出現頻度取得部110と、ビット列識別番号関連付部111と、ビット列識別番号記憶部112と、ビット列識別番号変換部113と、参照フラグ付き符号化部114と、非参照フラグ付き符号化部115と、圧縮データ記憶部116と、を備える。符号化候補データ記憶部101と、文字識別番号記憶部106と、開始位置記憶部109と、ビット列識別番号記憶部112と、圧縮データ記憶部116と、は図1に示す外部記憶装置12に構築されている。
The
符号化候補データ記憶部101は、複数の符号化候補のデータを記憶する。符号化候補のデータは、辞書データ等のテキストデータである。
The encoding candidate
表示部102は、符号化候補のデータを記録したファイルの名称(ファイル名)を表示装置14に表示する。ユーザは、表示装置14に表示されたファイル名を参照して、符号化候補のデータのいずれを符号化するか指定する。
The
入力部103は、入力装置13が生成した信号を受け付ける。この信号は、ユーザが入力装置13を介して指定したファイル名を示す。入力部103は、入力装置13から受け付けた信号に基づいて、符号化対象のデータを特定する。そして、符号化対象のデータを符号化する旨の指示を文字出現頻度取得部104に入力する。
The
文字出現頻度取得部104は、入力部103から入力された指示に基づいて、符号化候補データ記憶部101が記憶する符号化候補のデータの中から符号化対象のデータを取得する。
Based on the instruction input from the
文字出現頻度取得部104は、符号化対象のデータに含まれる文字ごとに、符号化対象のデータにおける出現頻度を取得する。例えば、符号化対象のデータが図4に示す辞書データ1の場合、各文字の辞書データ1における出現頻度は図5のようになる。
なお、出現頻度の取得は、符号化対象のデータに含まれる全ての文字を対象に行われる。
The character appearance
The appearance frequency is acquired for all characters included in the data to be encoded.
文字識別番号関連付部105は、符号化対象のデータに含まれる文字ごとに、文字を識別する文字識別番号を関連付けて文字識別番号記憶部106に記憶する。このとき、文字識別番号関連付部105は、符号化対象のデータにおいて出現頻度が高い文字から順に、値が小さい文字識別番号を関連付ける。例えば、符号化対象のデータが図4に示す辞書データ1の場合、図6に示すように、出現頻度が1番目、2番目、3番目・・・に高い文字「t」、「h」、「e」・・・に、それぞれ文字識別番号0、1、2・・・を関連付ける。
The character identification
以下、出現頻度に基づいて文字に文字識別番号を関連付ける理由と、出現頻度が高い文字に値が小さい文字識別番号を関連付ける理由を説明する。
テキストの圧縮では文字コードの体系が圧縮率低下の原因となることがある。特に、UTF−8を採用すると、多言語のテキストを圧縮対象とするため、言語によってはコード長が冗長になり、圧縮率が低下する。そこで、本願発明は、文字を文字コードに符号化するのではなく、文字に文字識別番号を関連付け、文字を文字識別番号のバイナリデータに符号化する。これで圧縮率は文字コードの体系に影響を受けずにすむ。また、頻出文字をコード長が長いバイナリデータに符号化すると圧縮データのサイズが大きくなるので、本願発明はそうならないよう工夫をしている。具体的には、上述したように頻出文字に値が小さい文字識別番号を関連付ける。そして、デルタ符号化方法、Variable Byte Code符号化方法、ハフマン符号化方法といった値が小さいほどコード長が短いバイナリデータに符号化できる符号化方法を用いて、頻出文字をコード長が短いバイナリデータに符号化する。これにより、文字コードに符号化した場合に比べて圧縮データのサイズは大幅に小さくなる。
Hereinafter, the reason for associating a character identification number with a character based on the appearance frequency and the reason for associating a character identification number with a small value with a character having a high appearance frequency will be described.
In text compression, the character code system may cause a reduction in compression rate. In particular, when UTF-8 is employed, multilingual text is targeted for compression, so that depending on the language, the code length becomes redundant and the compression rate decreases. Therefore, the present invention does not encode a character into a character code, but associates a character identification number with the character and encodes the character into binary data of the character identification number. Thus, the compression rate is not affected by the character code system. In addition, if frequent characters are encoded into binary data having a long code length, the size of the compressed data increases, so the present invention is devised to prevent this from happening. Specifically, as described above, a character identification number having a small value is associated with a frequently appearing character. Then, by using encoding methods that can encode binary data with a shorter code length as the value is smaller, such as delta encoding method, variable byte code encoding method, and Huffman encoding method, frequent characters are converted into binary data with a shorter code length. Encode. As a result, the size of the compressed data is significantly reduced as compared with the case of encoding into a character code.
文字識別番号記憶部106は、図6に示すように、符号化対象のデータに含まれる文字と、文字識別番号と、を関連付けて記憶する。
As shown in FIG. 6, the character identification
変換部107は、文字識別番号記憶部106を参照して、符号化対象のデータに含まれる文字を、文字に関連付けられた文字識別番号に変換する。
The
符号化部108は、変換部107が変換した文字識別番号をバイナリデータに符号化する。なお、本明細書では符号化部108が符号化したバイナリデータを最終符号化前バイナリデータと言う。図7は、図4に示す辞書データ1が変換部107により符号化された場合の最終符号化前バイナリデータ2を示す。なお、最終符号化前バイナリデータ2は実際には0又は1を表すビットの集合である。しかし、説明の都合上、8ビットごとに16進数表記していることに留意されたい。例えば、図7に示すビット列「12A5B8CA」は、「00010010」、「10100101」、「10111000」、「11001010」を、それぞれ「12」、「A5」、「B8」、「CA」というように16進数表記したものである
The
開始位置記憶部109は、符号化対象のデータに含まれる見出し語の開始位置(本明細書において圧縮境界とも言う。圧縮データを復号する場合の開始地点となる位置を示す。)を記憶する。
The start
ビット列出現頻度取得部110は、最終符号化前バイナリデータに含まれる同一のビット列ごとに、最終符号化前バイナリデータにおける出現頻度を取得する。例えば、図7に示す最終符号化前バイナリデータ2においては、各ビット列の出現頻度は図8のようになる。ただし、上述した圧縮境界を跨ぐビット列の出現数はビット列の出現頻度に含めない。
なお、上記ビット列の桁数は符号化方法にもよるが自然言語であれば32桁程度が適当である。そこで、本実施形態では、上記ビット列の桁数は32桁とする。ただし、ビット列の桁数は32桁に限定されず任意の桁数で構わない。
The bit string appearance
Although the number of digits of the bit string depends on the encoding method, about 32 digits are appropriate for a natural language. Therefore, in this embodiment, the number of digits of the bit string is 32 digits. However, the number of digits of the bit string is not limited to 32 digits, and may be any number of digits.
ビット列識別番号関連付部111は、最終符号化前バイナリデータに出現する同一のビット列ごとに、ビット列を識別するビット列識別番号を関連付けてビット列識別番号記憶部112に記憶する。このとき、ビット列識別番号関連付部111は、出現頻度が1から5番目に高いビット列にビット列識別番号を関連付ける。また、出現頻度が高いビット列から順に、値が小さいビット列識別番号を関連付ける。例えば、図7に示す最終符号化前バイナリデータ2であれば、図9に示すように、出現頻度が1番目、2番目、3番目、4番目、5番目に高いビット列「12A5B8CA」、ビット列「DF43A68C」、ビット列「385C65F9」、ビット列「935AD6CD」、ビット列「B58CEEA5」に、それぞれビット列識別番号0、1、2、3、4を関連付ける。
The bit string identification number associating unit 111 stores the bit string identification number for identifying the bit string in the bit string identification
ビット列識別番号記憶部112は、図9に示すように、最終符号化前バイナリデータに出現する同一のビット列ごとに、ビット列を識別するビット列識別番号を関連付けて記憶する。
As shown in FIG. 9, the bit string identification
ビット列識別番号変換部113は、ビット列識別番号記憶部112を参照して、最終符号化前バイナリデータに出現する同一のビット列を、ビット列に関連付けられたビット列識別番号に変換する。ただし、ビット列識別番号変換部113は、ビット列が上述した圧縮境界を跨ぐ場合は、ビット列をビット列識別番号に変換しない。これにより、見出し語単位で復号可能なように符号化されたデータ(圧縮データ)を生成することができる。
The bit string identification
参照フラグ付き符号化部114は、デルタ符号化方法、Variable Byte Code符号化方法、ハフマン符号化方法といった符号化方法を用いて、ビット列識別番号変換部113が変換したビット列識別番号をバイナリデータに符号化する。そして、ビット列識別番号のバイナリデータに参照フラグ(復号時にビット列識別番号記憶部112を参照することを示すフラグ)を関連付ける。
このように、頻出するビット列をコード長の短いビット列識別番号のバイナリデータに符号化することで、符号化されたデータ(圧縮データ)のサイズを小さくすることができる。
The encoding unit with a
In this way, by encoding a frequently occurring bit string into binary data having a bit string identification number with a short code length, the size of the encoded data (compressed data) can be reduced.
非参照フラグ付き符号化部115は、最終符号化前バイナリデータに出現するビット列のうちビット列識別番号が関連付けられていないビット列について、ビット列の先頭からビット列識別番号が関連付けられたビット列が出現するまでのビットの桁数をバイナリデータに符号化する。この際、ビットの桁数のバイナリデータに、非参照フラグ(復号時にビット列識別番号記憶部112を参照しないことを示すフラグ)を関連付ける。
また、上記ビット列が圧縮境界を跨ぐ場合は、ビット列の先頭から圧縮境界までのビットの桁数をバイナリデータに符号化し、このバイナリデータに上記非参照フラグを関連付ける。
さらに、ビット列識別番号が関連付けられたビット列のうち圧縮境界を跨ぐためビット列識別番号に変換されなかったビット列についても、圧縮境界を跨ぐ場合と跨がない場合に応じて同様の処理を行う。
The non-reference flag-attached
If the bit string crosses the compression boundary, the number of bits from the beginning of the bit string to the compression boundary is encoded into binary data, and the non-reference flag is associated with the binary data.
Further, the same processing is performed on the bit string that is not converted to the bit string identification number because it crosses the compression boundary among the bit strings associated with the bit string identification number, depending on whether or not the compression boundary is crossed.
圧縮データ記憶部116は、符号化対象のデータが符号化されたバイナリデータ(圧縮データ)を記憶する。
The compressed
以上のような符号化装置100が実行する符号化処理の流れについて、図3に示すフローチャートを参照して説明する。
The flow of the encoding process performed by the
[符号化処理]
表示部102が、符号化候補のデータを記録したファイルの名称(ファイル名)を表示装置14に表示しているとする。ユーザは、表示装置14に表示されたファイル名を参照して、これら符号化候補の中から符号化対象とするもののファイル名を入力装置13に入力する。入力装置13は、入力されたファイル名を示す信号を生成し、入力部103に供給する。入力部103は、入力装置13から供給された信号を受け付け、ユーザが符号化対象としたファイルを特定する。そして、ユーザが符号化対象としたファイルのデータを符号化する旨の指示を文字出現頻度取得部104に供給する。文字出現頻度取得部104は、この指示を受け付け、図3に示す符号化処理を開始する。
[Encoding process]
It is assumed that the
まず、文字出現頻度取得部104は、指示に基づいて、符号化候補データ記憶部101が記憶する複数の符号化候補のデータの中から符号化対象のデータを取得する(ステップS10)。以下、理解を容易にするために、符号化対象のデータとして図4に示す辞書データ1が取得されたものとする。
First, the character appearance
文字出現頻度取得部104は、辞書データ1に含まれる文字ごとに、辞書データ1における出現頻度を取得する(ステップS11)。なお、図5に示すように、辞書データ1において文字「t」の出現頻度が92041回で最も高い。続いて、文字「h」、文字「e」、文字「s」、文字「r」・・・の出現頻度がそれぞれ83890回、80984回、76189回、68607回・・・で2番目、3番目、4番目、5番目・・・に高い。
The character appearance
文字識別番号関連付部105は、辞書データ1において出現頻度が高い文字から順に、値が小さい文字識別番号を関連付けて文字識別番号記憶部106に記憶する(ステップS12)。具体的には、図6に示すように、出現頻度が1番目、2番目、3番目、4番目、5番目・・・に高い文字「t」、文字「h」、文字「e」、文字「s」、文字「r」・・・に、それぞれ文字識別番号0、1、2、3、4・・・を関連付ける。
The character identification
変換部107は、文字識別番号記憶部106を参照して、辞書データ1に含まれる文字を、文字に関連付けられた文字識別番号に変換する(ステップS13)。具体的には、辞書データ1に含まれる文字「t」、文字「h」、文字「e」・・・をそれぞれ文字識別番号0、1、2・・・に変換する。
The
符号化部108は、変換部107が変換した文字識別番号をバイナリデータに符号化する(ステップS14)。具体的には、辞書データ1が図7に示す最終符号化前バイナリデータ2に符号化される。なお、上述したように、説明の都合上、図7に示す最終符号化前バイナリデータ2を16進数表記の複数の数値で表していることに留意されたい。実際には、最終符号化前バイナリデータ2は、0又は1を表すビットの集合である。
The
ビット列出現頻度取得部110は、最終符号化前バイナリデータ2に出現する同一のビット列ごとに、最終符号化前バイナリデータ2における出現頻度を取得する(ステップS15)。ただし、辞書データ1に含まれる見出し語の開始位置(圧縮境界)を跨ぐビット列の出現数はビット列の出現頻度に含めない。
なお、図8に示すように、最終符号化前バイナリデータ2において、ビット列「12A5B8CA」の出現頻度が150回で最も高い。また、ビット列「DF43A68C」、ビット列「385C65F9」、ビット列「935AD6CD」、ビット列「D58CEEA5」、ビット列「1B3C2A09」・・・の出現頻度がそれぞれ130回、100回、80回、70回、40回・・・で2番目、3番目、4番目、5番目、6番目・・・に高い。
The bit string appearance
As shown in FIG. 8, in the
ビット列識別番号関連付部111は、出現頻度が1から5番目に高いビット列に対して、出現頻度が高いビット列から順に、値が小さいビット列識別番号を関連付けてビット列識別番号記憶部112に記憶する(ステップS16)。具体的には、図9に示すように、出現頻度が1番目、2番目、3番目、4番目、5番目に高いビット列「12A5B8CA」、ビット列「DF43A68C」、ビット列「385C65F9」、ビット列「935AD6CD」、ビット列「B58CEEA5」に、それぞれビット列識別番号0、1、2、3、4を関連付ける。
The bit string identification number associating unit 111 associates bit string identification numbers with smaller values in order from the bit string with the highest appearance frequency to the bit string with the first to fifth highest occurrence frequency, and stores them in the bit string identification number storage unit 112 ( Step S16). Specifically, as shown in FIG. 9, the bit string “12A5B8CA”, the bit string “DF43A68C”, the bit string “385C65F9”, the bit string “935AD6CD” having the first, second, third, fourth, and fifth highest appearance frequencies. , Bit
ビット列識別番号変換部113は、ビット列識別番号記憶部112を参照して、最終符号化前バイナリデータ2に出現する同一のビット列を、ビット列に関連付けられたビット列識別番号に変換する(ステップS17)。具体的には、ビット列「12A5B8CA」、ビット列「DF43A68C」、ビット列「385C65F9」・・・を、それぞれビット列識別番号0、1、2・・・に変換する。ただし、ビット列識別番号変換部113は、圧縮境界を跨ぐビット列については、ビット列識別番号への変換を行わない。
The bit string identification
参照フラグ付き符号化部114は、ビット列識別番号変換部113が変換したビット列識別番号をバイナリデータに符号化する。そして、ビット列識別番号のバイナリデータに参照フラグ(復号時にビット列識別番号記憶部112を参照することを示すフラグ)を関連付ける(ステップS18)。
The encoding unit with
次に、非参照フラグ付き符号化部115は、最終符号化前バイナリデータ2に出現するビット列のうちビット列識別番号が関連付けられていないビット列について、ビット列の先頭からビット列識別番号が関連付けられたビット列が出現するまでのビットの桁数をバイナリデータに符号化する。この際、ビットの桁数のバイナリデータに、非参照フラグ(復号時にビット列識別番号記憶部112を参照しないことを示すフラグ)を関連付ける。また、上記ビット列が圧縮境界を跨ぐ場合は、ビット列の先頭から圧縮境界までのビットの桁数をバイナリデータに符号化し、このバイナリデータに上記非参照フラグを関連付ける。(ステップS19)。
さらに、非参照フラグ付き符号化部115は、ビット列識別番号が関連付けられたビット列のうち圧縮境界を跨ぐためビット列識別番号に変換されなかったビット列についても、圧縮境界を跨ぐ場合と跨がない場合に応じて同様の処理を行う(ステップS20)。
Next, the non-reference flag-attached
Furthermore, the
そして、非参照フラグ付き符号化部115は、ステップS10からS20までの処理によって辞書データ1が符号化されたバイナリデータ(圧縮データ)を圧縮データ記憶部116に記憶する(ステップS21)。
Then, the
次に上記符号化処理によって符号化された圧縮データを部分的に復号する復号装置200の物理構成及び機能構成を説明する。
Next, the physical configuration and functional configuration of the
本実施形態に係る復号装置200は、物理的には図10に示すように構成される。即ち、復号装置200は、ROM20と、RAM21と、外部記憶装置22と、入力装置23と、表示装置24と、CPU25と、を備える。
The
ROM20は、各種初期設定、ハードウェアの検査、プログラムのロード等を行うための初期プログラムを記憶する。RAM21は、CPU25が実行する各種ソフトウェアプログラム、これらのソフトウェアプログラムの実行に必要なデータ等を一時的に記憶する。
The
外部記憶装置22は、例えば、ハードディスクであって、各種ソフトウェアプログラム、データ等を記憶する。これらソフトウェアプログラムの中には、アプリケーションソフトウェアプログラム、OSのような基本ソフトウェアプログラム等が含まれている。
The
入力装置23は、キーボード、マウス、トラックパッド等を備え、ユーザからの入力を受け付ける。入力装置23は、キーボード、マウス、トラックパッド等からの入力に基づいて信号を生成し、CPU25に供給する。
The
表示装置24は、液晶ディスプレイ等の画面を備え、CPU25から供給されたテキストデータや画像データを画面に表示する。
The
CPU25は、外部記憶装置22に記憶されたソフトウェアプログラムをRAM21に読み出して、そのソフトウェアプログラムを実行制御することにより、以下の機能構成を実現する。
The
復号装置200は、機能的には図11に示すように構成される。即ち、復号装置200は、ビット列識別番号記憶部201と、圧縮データ記憶部202と、開始位置記憶部203と、ビット列識別番号復号方法記憶部204と、入力部205と、ビット列識別番号復号部206と、ビット列識別番号変換部207と、文字列識別番号復号方法記憶部208と、文字識別番号記憶部209と、復号部210と、変換部211と、表示部212と、を備える。なお、ビット列識別番号記憶部201、圧縮データ記憶部202、開始位置記憶部203、文字識別番号記憶部209は、それぞれ符号化装置100が備えるビット列識別番号記憶部112、圧縮データ記憶部116、開始位置記憶部109、文字識別番号記憶部106が記憶するデータと同じデータを記憶している。ビット列識別番号記憶部201と、圧縮データ記憶部202と、開始位置記憶部203と、ビット列識別番号復号方法記憶部204と、文字識別番号復号方法記憶部208と、文字識別番号記憶部209と、は図10に示す外部記憶装置22に構築されている。
The
ビット列識別番号記憶部201は、最終符号化前バイナリデータに出現する同一のビット列ごとに、ビット列を識別するビット列識別番号を関連付けて記憶する。
The bit string identification
圧縮データ記憶部202は、符号化対象のデータが上記符号化処理によって符号化されたバイナリデータ(圧縮データ)を記憶する。
The compressed
開始位置記憶部203は、符号化対象のデータに含まれる見出し語の開始位置(圧縮境界)を記憶する。
The start
ビット列識別番号復号方法記憶部204は、圧縮データに含まれるビット列識別番号のバイナリデータをビット列識別番号に復号する方法を記憶する。具体例を挙げると、ビット列識別番号のバイナリデータがデルタ符号化方法を用いて符号化されている場合には、ビット列識別番号復号方法記憶部204は、デルタ符号化方法で符号化されたバイナリデータを符号化前の元データに戻すロジックをビット列識別番号復号方法として記憶する。
The bit string identification number decoding
入力部205は、入力装置23が生成した信号を受け付ける。この信号は、ユーザが入力装置23を介して指定した見出し語を示す。入力部205は、ユーザが指定した見出し語及びその見出し語の例文であることを復号対象のデータを特定するための条件に設定する。そして、ビット列識別番号復号部206に設定した条件を入力する。
The
ビット列識別番号復号部206は、圧縮データのうち入力部205から入力された条件を満たすデータを復号対象のデータとして特定する。例えば、見出し語「the」とその例文であることが条件であれば、圧縮データに含まれる見出し語「the」とその例文を復号対象のデータとして特定する。なお、圧縮データにおける見出し語及び例文の位置は、開始位置記憶部203が記憶する各見出し語の開始位置に基づいて特定される。
The bit string identification
また、ビット列識別番号復号部206は、見出し語の開始位置に参照フラグと非参照フラグのどちらが存在するか判別する。参照フラグが存在すると判別した場合、参照フラグに関連付けられているビット列識別番号のバイナリデータをビット列識別番号に復号する。復号方法は、ビット列識別番号復号方法記憶部204が記憶する復号方法が採用される。
一方、非参照フラグが存在すると判別した場合、復号部210に復号処理の制御を移す。
Also, the bit string identification
On the other hand, when it is determined that the non-reference flag exists, the control of the decoding process is transferred to the
ビット列識別番号変換部207は、ビット列識別番号記憶部201を参照し、ビット列識別番号復号部206が復号したビット列識別番号を、ビット列識別番号に関連付けられたビット列に変換する。そして、変換したビット列をキューにコピーする。
The bit string identification
文字識別番号復号方法記憶部208は、圧縮データに含まれる文字識別番号のバイナリデータを文字識別番号に復号する方法を記憶している。具体例を挙げると、文字識別番号のバイナリデータがデルタ符号化方法を用いて符号化されている場合には、文字識別番号復号方法記憶部208は、デルタ符号化方法で符号化されたバイナリデータを符号化前の元データに戻すロジックを文字列識別番号復号方法として記憶する。
The character identification number decoding
文字識別番号記憶部209は、圧縮データに含まれる文字と、文字を識別する文字識別番号と、を関連付けて記憶している。
The character identification
復号部210は、ビット列識別番号変換部207がキューにコピーしたビット列を文字識別番号に復号する。
一方、復号部210は、ビット列識別番号復号部206から復号処理の制御を移された場合、非参照フラグに関連付けられているビットの桁数を示すデータを読み込む。そして、上記桁数分のバイナリデータをさらに読み込み、キューにコピーする。そして、キューにコピーしたバイナリデータを文字識別番号に復号する。
なお、復号方法は、文字識別番号復号方法記憶部208が記憶する復号方法が採用される。
The
On the other hand, when the decoding process is transferred from the bit string identification
Note that the decoding method stored in the character identification number decoding
変換部211は、文字識別番号記憶部209を参照し、復号部210が復号した文字識別番号を文字に変換する。
The
表示部212は、圧縮データが復号されたデータ(符号化前の元データ)を表示装置24に表示する。
The
以上のような復号装置200が実行する復号処理の流れについて、図12に示すフローチャートを参照して説明する。
The flow of the decoding process executed by the
[復号処理]
ここで、圧縮データ記憶部202が記憶する圧縮データは、図4に示す辞書データ1のバイナリデータであるとする。そして、ユーザが、「the」の定義や「the」の使用例を調べるにために、入力装置23に見出し語「the」を入力したとする。この場合、入力装置23は、入力された見出し語「the」を示す信号を生成し、入力部205に供給する。入力部205は、入力装置23から供給された信号を受け付け、入力された見出し語が「the」であることを特定する。そして、見出し語「the」とその例文であることを復号対象の条件に設定し、ビット列識別番号復号部206に設定した条件を入力する。ビット列識別番号復号部206は、入力部205から上記条件を受け付け、図12に示す復号処理を開始する。
[Decryption process]
Here, it is assumed that the compressed data stored in the compressed
ビット列識別番号復号部206は、圧縮データのうち上記条件を満たすデータを復号対象のデータとして特定する(ステップS30)。ここで上記条件を満たすのは見出し語「the」とその例文である。従って、見出し語「the」とその例文が復号対象のデータとして特定される。
The bit string identification
次に、ビット列識別番号復号部206は、見出し語「the」の開始位置に参照フラグと非参照フラグのどちらが存在するか判別する(ステップS31)。参照フラグが存在すると判別した場合、参照フラグに関連付けられているビット列識別番号のバイナリデータを読み込む。そして、ビット列識別番号復号方法記憶部204が記憶する復号方法を用いて、ビット列識別番号のバイナリデータをビット列識別番号に復号する(ステップS32)。なお、ここではステップS32において復号されたビット列識別番号を「0」とする。
Next, the bit string identification
ビット列識別番号変換部207は、ビット列識別番号記憶部201を参照して、ビット列識別番号復号部206が復号したビット列識別番号を、ビット列識別番号に関連付けられたビット列に変換する(ステップS33)。そして、変換したビット列をキューにコピーする(ステップS34)。具体的には、ステップS32において復号されたビット列識別番号「0」を、ビット列識別番号「0」に関連付けられたビット列「12A5B8CA」(図9参照)に変換し、ビット列「12A5B8CA」をキューにコピーする。
The bit string identification
復号部210は、キューに存在するビット列を、文字識別番号復号方法記憶部208が記憶する復号方法を用いて文字識別番号に復号する(ステップS35)。ここでは、ビット列「12A5B8CA」が文字識別番号「0」、「1」、「2」、「3」に復号されたとする。
The
変換部211は、文字識別番号記憶部209を参照し、復号部210が復号した文字識別番号を文字に変換する(ステップS36)。具体的には、ステップS35で復号された文字識別番号「0」、「1」、「2」、「3」を、それぞれの文字識別番号に関連付けられた文字「t」、「h」、「e」、「s」(図6参照)に変換する。
The
文字への変換を終えると、変換部211は、全ての復号対象のデータを文字に変換したか否かを判別する(ステップS37)。
When the conversion to characters is completed, the
変換部211は、復号対象のデータに変換されていない部分が存在すると判別した場合(ステップS37;No)、復号処理の制御をビット列識別番号復号部206に移す。この場合、ビット列識別番号復号部206は、復号済みであるビット列識別番号のバイナリデータの後尾に参照フラグと非参照フラグのどちらが存在するか判別する(ステップS31)。ビット列識別番号復号部206は、非参照フラグが存在すると判別した場合、復号処理の制御を復号部210に移す。この場合、復号部210は、非参照フラグに関連付けられているビットの桁数のバイナリデータを読み込む(ステップS38)。そして、復号済みであるビット列識別番号のバイナリデータの後尾から上記桁数分のバイナリデータを読み込み(ステップS39)、キューにコピーする(ステップS40)。
When the
復号部210は、キューに存在するバイナリデータを、文字識別番号復号方法記憶部208が記憶する復号方法を用いて文字識別番号に復号する(ステップS35)。
The
変換部211は、文字識別番号記憶部209を参照し、復号部210が復号した文字識別番号を文字に変換する(ステップS36)。
The
文字への変換を終えると、変換部211は、全ての復号対象のデータを文字に変換したか否かを判別する(ステップS37)。復号対象のデータに変換されていない部分が存在すると判別した場合(ステップS37;No)、復号処理の制御をビット列識別番号復号部206に移す。そして、ステップS31からS37までの処理が、全ての復号対象のデータが文字に変換されるまで繰り返し実行される。
When the conversion to characters is completed, the
ステップS37において、変換部211が全ての復号対象のデータを文字に変換したと判別した場合(ステップS37;Yes)、表示部212は、変換された文字を表示装置24に表示する(ステップS41)。具体的には、見出し語「the」とその例文を表示装置24に表示する。
If it is determined in step S37 that the
このように、上記復号処理では、圧縮データの一部がユーザに指定された見出し語の開始位置から逐次的に復号される。その際、参照フラグと非参照フラグのどちらが存在するかが復号前に判別され、復号しようとしているバイナリデータが文字識別番号のバイナリデータかビット列識別番号のバイナリデータかが特定される。ここで、参照フラグが存在すると判別された場合は、ビット列識別番号のバイナリデータであると特定され、非参照フラグが存在すると判別された場合は、文字識別番号のバイナリデータであると特定される。そして、特定されたバイナリデータの種別に応じた復号方法で、文字識別番号のバイナリデータは文字識別番号に復号され、ビット列識別番号のバイナリデータはビット列に復号される。
ここで注目すべき点は、文字識別番号を文字に変換するために必要となる変換前の元データ、ビット列を文字識別番号に変換するために必要となる変換前の元データを文字識別番号記憶部209とビット列識別番号記憶部201から自在に取得できることである。これは、圧縮データの一部である復号対象のデータに変換前の元データが存在しなくても、元データに変換可能ということを意味する。従って、従来の符号化方法・復号方法であれば、符号化対象のデータを予め部分的に符号化しておかなければ部分的復号を実行できなかったが、本願発明によればそのようなことをしなくても部分的復号を実行できる。
Thus, in the decoding process, a part of the compressed data is sequentially decoded from the start position of the headword designated by the user. At this time, it is determined before decoding whether a reference flag or a non-reference flag exists, and it is specified whether the binary data to be decoded is binary data of a character identification number or binary data of a bit string identification number. Here, when it is determined that the reference flag exists, it is specified as binary data of the bit string identification number, and when it is determined that the non-reference flag exists, it is specified as binary data of the character identification number. . Then, the binary data of the character identification number is decoded into the character identification number and the binary data of the bit string identification number is decoded into the bit string by a decoding method corresponding to the type of the specified binary data.
What should be noted here is that the original data before conversion necessary for converting the character identification number into characters and the original data before conversion necessary for converting the bit string into the character identification number are stored in the character identification number. It can be freely acquired from the
以上説明したように、本実施形態に係る符号化装置100は、符号化対象のデータを文字列識別番号及びビット列識別番号のバイナリデータに符号化する。そして、復号装置200は、文字識別番号記憶部209とビット列識別番号記憶部201を参照し、符号化装置100が符号化したバイナリデータ(圧縮データ)を部分的に復号する。これらは、上述したように、符号化対象のデータを部分的に符号化しなくても圧縮データの部分的復号を可能とする。従って、従来の符号化方法・復号方法に比べて符号化に手間がかからず、符号化効率が高い。
As described above, the
(変形例)
以上に本発明の実施形態について説明したが、上記実施形態は一例であり、本発明の適用範囲はこれに限られない。すなわち、本発明の実施形態は種々の応用が可能であり、あらゆる実施の形態が本発明の範囲に含まれる。
(Modification)
Although the embodiment of the present invention has been described above, the above embodiment is an example, and the scope of application of the present invention is not limited to this. That is, the embodiments of the present invention can be applied in various ways, and all the embodiments are included in the scope of the present invention.
例えば、上記実施形態では、出現頻度が1から5番目に高いビット列にビット列識別番号を関連付けたが、ビット列識別番号を関連付ける対象が、出現頻度が1から5番目に高いビット列に限定されるわけではない。例えば、出現頻度が1から10番目に高いビット列にビット列識別番号を関連付けてもよいし、全てのビット列にビット列識別番号を関連付けてもよい。ただし、出現頻度が低いビット列をコード長が長いビット列識別番号のバイナリデータに符号化するとかえって圧縮率が低下するため、ビット列識別番号を関連付ける対象を出現頻度が高いビット列に限定したほうが好ましい。 For example, in the above embodiment, the bit string identification number is associated with the bit string having the first to fifth highest occurrence frequency, but the target to associate the bit string identification number is not limited to the bit string having the first to fifth highest occurrence frequency. Absent. For example, a bit string identification number may be associated with a bit string having the highest appearance frequency from 1 to 10, or a bit string identification number may be associated with all bit strings. However, since a compression rate is lowered when a bit string having a low appearance frequency is encoded into binary data having a bit string identification number having a long code length, it is preferable to limit a target to be associated with a bit string identification number to a bit string having a high appearance frequency.
また、上記実施形態では、見出し語の開始位置を圧縮境界としたが、見出し語の開始位置と見出し語の例文の開始位置を圧縮境界としてもよい。 In the above embodiment, the start position of the headword is used as the compression boundary. However, the start position of the headword and the start position of the example sentence of the headword may be used as the compression boundary.
また、上記実施形態では、符号化装置100と復号装置200とを互いに独立した装置として記載した。しかし、符号化装置100が、復号装置200の機能を全て備え、復号装置として動作してもよいし、復号装置200が、符号化装置100の機能を全て備え、符号化装置として動作してもよい。
In the above embodiment, the
また、復号装置200は、圧縮データから復号対象のデータを特定する特定部を備えていてもよい。そして、図12に示す復号処理のステップS30で、特定部が圧縮データから復号対象のデータを特定してもよい。この場合、ビット列識別番号復号部206は、特定部が特定した復号対象のデータを復号する。
In addition, the
なお、本発明に係る機能を実現するための構成を予め備えた符号化装置、復号装置として提供できることはもとより、プログラムの適用により、既存のパーソナルコンピュータや情報端末機器等を、本発明に係る符号化装置、復号装置として機能させることもできる。すなわち、上記実施形態で例示した符号化装置、復号装置による各機能構成を実現させるためのプログラムを、既存のパーソナルコンピュータや情報端末機器等を制御するCPU等が実行できるように適用することで、本発明に係る符号化装置、復号装置として機能させることができる。また、本発明に係る符号化方法、復号方法は、符号化装置、復号装置を用いて実施できる。 It should be noted that, in addition to being able to be provided as an encoding device and a decoding device provided in advance with the configuration for realizing the functions according to the present invention, an existing personal computer, an information terminal device, etc. can be installed according to the present invention by applying a program. It can also function as an encoding device or a decoding device. That is, by applying the program for realizing each functional configuration by the encoding device and the decoding device exemplified in the above embodiment so that a CPU or the like that controls an existing personal computer or information terminal device can be executed, The coding apparatus and decoding apparatus according to the present invention can be made to function. The encoding method and decoding method according to the present invention can be implemented using an encoding device and a decoding device.
また、このようなプログラムの適用方法は任意である。プログラムを、例えば、コンピュータが読取可能な記録媒体[CD−ROM(Compact Disc Read-Only Memory)、DVD(Digital Versatile Disc)、MO(Magneto Optical disc)等]に格納して適用できる他、インターネット等のネットワーク上のストレージにプログラムを格納しておき、これをダウンロードさせることにより適用することもできる。 Moreover, the application method of such a program is arbitrary. For example, the program can be stored and applied to a computer-readable recording medium [CD-ROM (Compact Disc Read-Only Memory), DVD (Digital Versatile Disc), MO (Magneto Optical disc), etc.], the Internet, etc. It is also possible to apply the program by storing it in a storage on the network and downloading it.
以上、本発明の好ましい実施形態について説明したが、本発明は係る特定の実施形態に限定されるものではなく、本発明には、特許請求の範囲に記載された発明とその均等の範囲とが含まれる。以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。 The preferred embodiments of the present invention have been described above. However, the present invention is not limited to the specific embodiments, and the present invention includes the invention described in the claims and the equivalent scope thereof. included. Hereinafter, the invention described in the scope of claims of the present application will be appended.
(付記1)
符号化対象のデータに含まれる文字と、該文字を識別する文字識別番号と、を関連付けて記憶する文字識別番号記憶部と、
前記文字識別番号記憶部を参照して、前記符号化対象のデータに含まれる文字を、該文字に関連付けられた文字識別番号に変換する変換部と、
前記変換部が変換した文字識別番号をバイナリデータに符号化する符号化部と、
前記符号化部が符号化した文字識別番号のバイナリデータに出現する同一のビット列ごとに、該ビット列を識別するビット列識別番号を関連付けてビット列識別番号記憶部に記憶するビット列識別番号関連付部と、
前記ビット列識別番号記憶部を参照して、前記文字識別番号のバイナリデータに出現する同一のビット列を、該ビット列に関連付けられたビット列識別番号に変換するビット列識別番号変換部と、
前記ビット列識別番号変換部が変換したビット列識別番号に、復号時に前記ビット列識別番号記憶部を参照することを示す参照フラグを関連付けて、該ビット列識別番号をバイナリデータに符号化する参照フラグ付き符号化部と、
を備える符号化装置。
(Appendix 1)
A character identification number storage unit that stores a character included in data to be encoded and a character identification number for identifying the character in association with each other;
A conversion unit that refers to the character identification number storage unit and converts a character included in the data to be encoded into a character identification number associated with the character;
An encoding unit that encodes the character identification number converted by the conversion unit into binary data;
A bit string identification number associating unit that associates a bit string identification number that identifies the bit string and stores it in the bit string identification number storage unit for each identical bit string that appears in the binary data of the character identification number encoded by the encoding unit;
A bit string identification number converter that converts the same bit string appearing in the binary data of the character identification number into a bit string identification number associated with the bit string with reference to the bit string identification number storage unit;
Encoding with a reference flag for associating a reference flag indicating that the bit string identification number storage unit is referred to at the time of decoding with the bit string identification number converted by the bit string identification number conversion unit, and encoding the bit string identification number into binary data And
An encoding device comprising:
(付記2)
前記文字識別番号は、前記符号化対象のデータにおいて出現頻度の高い文字に関連付けられたものほど小さく、
前記符号化部は、前記文字識別番号が小さいほど該文字識別番号を符号化して得られるバイナリデータのデータ量が小さい符号化方法を用いて、前記文字識別番号をバイナリデータに符号化する、
付記1に記載の符号化装置。
(Appendix 2)
The character identification number is smaller as it is associated with a character having a high appearance frequency in the data to be encoded,
The encoding unit encodes the character identification number into binary data using an encoding method in which the amount of binary data obtained by encoding the character identification number is smaller as the character identification number is smaller.
The encoding device according to
(付記3)
前記文字識別番号のバイナリデータに出現するビット列のうち前記ビット列識別番号が関連付けられていないビット列については、該ビット列の先頭から前記ビット列識別番号が関連付けられたビット列が出現するまでのビットの桁数に、復号時に前記ビット列識別番号記憶部を参照しないことを示す非参照フラグを関連付けて、該ビットの桁数をバイナリデータに符号化する非参照フラグ付き符号化部、
を備える付記1又は2に記載の符号化装置。
(Appendix 3)
Among the bit strings appearing in the binary data of the character identification number, for the bit string not associated with the bit string identification number, the number of bits from the beginning of the bit string until the bit string associated with the bit string identification number appears An encoding unit with a non-reference flag that associates a non-reference flag indicating that the bit string identification number storage unit is not referred to at the time of decoding and encodes the number of digits of the bit into binary data;
The encoding apparatus according to
(付記4)
前記ビット列識別番号は、前記文字識別番号のバイナリデータにおいて出現頻度の高い同一のビット列に関連付けられたものほど小さく、
前記参照フラグ付き符号化部は、前記ビット列識別番号が小さいほど該ビット列識別番号を符号化して得られるバイナリデータのデータ量が小さい符号化方法を用いて、前記ビット列識別番号をバイナリデータに符号化する、
付記1乃至3の何れかに記載の符号化装置。
(Appendix 4)
The bit string identification number is smaller as it is associated with the same bit string that frequently appears in the binary data of the character identification number,
The encoding unit with a reference flag encodes the bit string identification number into binary data using an encoding method in which the smaller the bit string identification number, the smaller the amount of binary data obtained by encoding the bit string identification number. To
The encoding device according to any one of
(付記5)
前記符号化対象のデータは、見出し語を含み、
前記同一のビット列の出現頻度は、前記符号化対象のデータにおける前記見出し語の開始位置を跨ぐ該同一のビット列の出現数を含まない、
付記4に記載の符号化装置。
(Appendix 5)
The encoding target data includes a headword,
The appearance frequency of the same bit string does not include the number of occurrences of the same bit string across the start position of the headword in the encoding target data.
The encoding device according to
(付記6)
前記符号化対象のデータは、見出し語を含み、
前記ビット列識別番号変換部は、前記ビット列識別番号が関連付けられたビット列が、前記見出し語の開始位置を跨ぐ場合、該ビット列を前記ビット列識別番号に変換せず、
前記非参照フラグ付き符号化部は、前記ビット列識別番号が関連付けられたビット列のうち前記ビット列識別番号変換部が前記ビット列識別番号に変換しなかったビット列について、該ビット列の先頭から該ビット列が跨ぐ前記見出し語の開始位置までのビットの桁数に、前記非参照フラグを関連付けて、該ビットの桁数をバイナリデータに符号化する、
付記3に記載の符号化装置。
(Appendix 6)
The encoding target data includes a headword,
The bit string identification number conversion unit, when the bit string associated with the bit string identification number straddles the start position of the headword, does not convert the bit string to the bit string identification number,
The encoding unit with a non-reference flag is the bit string straddling the bit string from the beginning of the bit string with respect to the bit string that the bit string identification number conversion unit does not convert to the bit string identification number among the bit strings associated with the bit string identification number. Associating the non-reference flag with the number of bits to the start position of the headword and encoding the number of bits into binary data;
The encoding device according to
(付記7)
前記非参照フラグ付き符号化部は、前記ビット列識別番号が関連付けられていないビット列が、前記見出し語の開始位置を跨ぐ場合、該ビット列の先頭から該開始位置までのビットの桁数に、前記非参照フラグを関連付けて、該ビットの桁数をバイナリデータに符号化する、
付記6に記載の符号化装置。
(Appendix 7)
When the bit string not associated with the bit string identification number straddles the start position of the headword, the encoding unit with a non-reference flag sets the non-reference flag encoding unit to the number of bits from the beginning of the bit string to the start position. Associating a reference flag and encoding the number of digits of the bit into binary data;
The encoding device according to attachment 6.
(付記8)
前記ビット列識別番号記憶部が記憶する同一のビット列の桁数は、32桁である、
付記1乃至7の何れかに記載の符号化装置。
(Appendix 8)
The number of digits of the same bit string stored in the bit string identification number storage unit is 32 digits.
The encoding device according to any one of
(付記9)
符号化対象のデータに含まれる各文字を識別する各文字識別番号のバイナリデータと、前記各文字識別番号のバイナリデータに出現する同一のビット列を識別するビット列識別番号のバイナリデータと、で構成された圧縮データを記憶する圧縮データ記憶部と、
前記符号化対象のデータに含まれる文字と、該文字を識別する前記文字識別番号と、を関連付けて記憶する文字識別番号記憶部と、
前記各文字識別番号のバイナリデータに出現する前記同一のビット列ごとに、該ビット列を識別する前記ビット列識別番号を関連付けて記憶するビット列識別番号記憶部と、
復号対象のデータを特定するための条件を入力する入力部と、
前記圧縮データ記憶部が記憶する圧縮データのうち前記条件を満たすデータを復号対象のデータとして特定し、特定した復号対象のデータを構成する前記文字識別番号のバイナリデータと前記ビット列識別番号のバイナリデータとのうち、前記ビット列識別番号のバイナリデータを前記ビット列識別番号に復号するビット列識別番号復号部と、
前記ビット列識別番号記憶部を参照して、前記ビット列識別番号復号部が復号した前記ビット列識別番号を、該ビット列識別番号に関連付けられたビット列に変換するビット列識別番号変換部と、
前記復号対象のデータを構成する前記文字識別番号のバイナリデータと前記ビット列識別番号変換部が変換したビット列とを前記文字識別番号に復号する復号部と、
前記文字識別番号記憶部を参照して、前記復号部が復号した前記文字識別番号を、該文字識別番号に関連付けられた文字に変換する変換部と、
を備える復号装置。
(Appendix 9)
It consists of binary data of each character identification number that identifies each character included in the data to be encoded, and binary data of a bit string identification number that identifies the same bit string that appears in the binary data of each character identification number A compressed data storage unit for storing compressed data,
A character identification number storage unit for storing the character included in the data to be encoded and the character identification number for identifying the character in association with each other;
A bit string identification number storage unit that associates and stores the bit string identification number for identifying the bit string for each identical bit string that appears in the binary data of each character identification number;
An input unit for inputting a condition for specifying data to be decrypted;
Among the compressed data stored in the compressed data storage unit, the data satisfying the condition is specified as the data to be decoded, and the binary data of the character identification number and the binary data of the bit string identification number constituting the specified decoding target data A bit string identification number decoding unit for decoding binary data of the bit string identification number into the bit string identification number,
A bit string identification number converting unit that converts the bit string identification number decoded by the bit string identification number decoding unit into a bit string associated with the bit string identification number with reference to the bit string identification number storage unit;
A decoding unit that decodes the binary data of the character identification number constituting the data to be decoded and the bit string converted by the bit string identification number conversion unit into the character identification number;
A conversion unit that refers to the character identification number storage unit and converts the character identification number decoded by the decoding unit into a character associated with the character identification number;
A decoding device comprising:
(付記10)
符号化対象のデータに含まれる文字と、該文字を識別する文字識別番号と、を関連付けて記憶する文字識別番号記憶部を参照して、前記符号化対象のデータに含まれる文字を、該文字に関連付けられた文字識別番号に変換する変換ステップと、
前記変換ステップで変換した文字識別番号をバイナリデータに符号化する符号化ステップと、
前記符号化ステップで符号化した文字識別番号のバイナリデータに出現する同一のビット列ごとに、該ビット列を識別するビット列識別番号を関連付けてビット列識別番号記憶部に記憶するビット列識別番号関連付ステップと、
前記ビット列識別番号記憶部を参照して、前記文字識別番号のバイナリデータに出現する同一のビット列を、該ビット列に関連付けられたビット列識別番号に変換するビット列識別番号変換ステップと、
前記ビット列識別番号変換ステップで変換したビット列識別番号に、復号時に前記ビット列識別番号記憶部を参照することを示す参照フラグを関連付けて、該ビット列識別番号をバイナリデータに符号化する参照フラグ付き符号化ステップと、
を備える符号化方法。
(Appendix 10)
The character included in the data to be encoded is referred to the character identification number storage unit that stores the character included in the data to be encoded and the character identification number that identifies the character in association with each other. A conversion step for converting to a character identification number associated with
An encoding step of encoding the character identification number converted in the conversion step into binary data;
A bit string identification number associating step for associating a bit string identification number for identifying the bit string and storing it in the bit string identification number storage unit for each identical bit string appearing in the binary data of the character identification number encoded in the encoding step;
A bit string identification number conversion step for converting the same bit string appearing in the binary data of the character identification number into a bit string identification number associated with the bit string with reference to the bit string identification number storage unit;
Coding with a reference flag for associating a reference flag indicating that the bit string identification number storage unit is referred to at the time of decoding with the bit string identification number converted in the bit string identification number conversion step, and encoding the bit string identification number into binary data Steps,
An encoding method comprising:
(付記11)
復号対象のデータを特定するための条件を入力する入力ステップと、
符号化対象のデータに含まれる各文字を識別する各文字識別番号のバイナリデータと、前記各文字識別番号のバイナリデータに出現する同一のビット列を識別するビット列識別番号のバイナリデータと、で構成された圧縮データのうち、前記条件を満たすデータを復号対象のデータとして特定する特定ステップと、
前記特定ステップで特定した前記復号対象のデータを構成する前記文字識別番号のバイナリデータと前記ビット列識別番号のバイナリデータとのうち、前記ビット列識別番号のバイナリデータを前記ビット列識別番号に復号するビット列識別番号復号ステップと、
前記各文字識別番号のバイナリデータに出現する前記同一のビット列ごとに、該ビット列を識別する前記ビット列識別番号を関連付けて記憶するビット列識別番号記憶部を参照して、前記ビット列識別番号復号ステップで復号した前記ビット列識別番号を、該ビット列識別番号に関連付けられたビット列に変換するビット列識別番号変換ステップと、
前記復号対象のデータを構成する前記文字識別番号のバイナリデータと前記ビット列識別番号変換ステップで変換したビット列とを前記文字識別番号に復号する復号ステップと、
前記符号化対象のデータに含まれる文字と、該文字を識別する前記文字識別番号と、を関連付けて記憶する文字識別番号記憶部を参照して、前記復号ステップで復号した前記文字識別番号を、該文字識別番号に関連付けられた文字に変換する変換ステップと、
を備える復号方法。
(Appendix 11)
An input step for inputting conditions for specifying data to be decrypted;
It consists of binary data of each character identification number that identifies each character included in the data to be encoded, and binary data of a bit string identification number that identifies the same bit string that appears in the binary data of each character identification number Among the compressed data, a specific step of specifying data satisfying the condition as data to be decoded;
Bit string identification for decoding binary data of the bit string identification number into the bit string identification number of the binary data of the character identification number and the binary data of the bit string identification number constituting the data to be decoded identified in the identifying step A number decoding step;
Decoding in the bit string identification number decoding step with reference to a bit string identification number storage unit for storing the bit string identification number for identifying the bit string for each of the same bit strings appearing in the binary data of each character identification number Converting the bit string identification number into a bit string associated with the bit string identification number; and
A decoding step for decoding the character identification number binary data constituting the decoding target data and the bit string converted in the bit string identification number conversion step into the character identification number;
The character identification number decoded in the decoding step with reference to a character identification number storage unit that associates and stores the character included in the data to be encoded and the character identification number that identifies the character, A conversion step for converting to a character associated with the character identification number;
A decoding method comprising:
(付記12)
コンピュータを、
符号化対象のデータに含まれる文字と、該文字を識別する文字識別番号と、を関連付けて記憶する文字識別番号記憶部を参照して、前記符号化対象のデータに含まれる文字を、該文字に関連付けられた文字識別番号に変換する変換部、
前記変換部が文字識別番号をバイナリデータに符号化する符号化部、
前記符号化部が符号化した文字識別番号のバイナリデータに出現する同一のビット列ごとに、該ビット列を識別するビット列識別番号を関連付けてビット列識別番号記憶部に記憶するビット列識別番号関連付部、
前記ビット列識別番号記憶部を参照して、前記文字識別番号のバイナリデータに出現する同一のビット列を、該ビット列に関連付けられたビット列識別番号に変換するビット列識別番号変換部、
前記ビット列識別番号変換部が変換したビット列識別番号に、復号時に前記ビット列識別番号記憶部を参照することを示す参照フラグを関連付けて、該ビット列識別番号をバイナリデータに符号化する参照フラグ付き符号化部、
として機能させるためのプログラム。
(Appendix 12)
Computer
The character included in the data to be encoded is referred to the character identification number storage unit that stores the character included in the data to be encoded and the character identification number that identifies the character in association with each other. A conversion unit for converting to a character identification number associated with
An encoding unit for encoding the character identification number into binary data by the conversion unit;
A bit string identification number associating unit that associates a bit string identification number that identifies the bit string and stores it in the bit string identification number storage unit for each identical bit string that appears in the binary data of the character identification number encoded by the encoding unit;
A bit string identification number converter that converts the same bit string appearing in the binary data of the character identification number into a bit string identification number associated with the bit string with reference to the bit string identification number storage unit;
Encoding with a reference flag for associating a reference flag indicating that the bit string identification number storage unit is referred to at the time of decoding with the bit string identification number converted by the bit string identification number conversion unit, and encoding the bit string identification number into binary data Part,
Program to function as.
(付記13)
コンピュータを、
復号対象のデータを特定するための条件を入力する入力部、
符号化対象のデータに含まれる各文字を識別する各文字識別番号のバイナリデータと、前記各文字識別番号のバイナリデータに出現する同一のビット列を識別するビット列識別番号のバイナリデータと、で構成された圧縮データのうち、前記条件を満たすデータを復号対象のデータとして特定する特定部、
前記特定部が特定した前記復号対象のデータを構成する前記文字識別番号のバイナリデータと前記ビット列識別番号のバイナリデータとのうち、前記ビット列識別番号のバイナリデータを前記ビット列識別番号に復号するビット列識別番号復号部、
前記各文字識別番号のバイナリデータに出現する前記同一のビット列ごとに、該ビット列を識別する前記ビット列識別番号を関連付けて記憶するビット列識別番号記憶部を参照して、前記ビット列識別番号復号部が復号した前記ビット列識別番号を、該ビット列識別番号に関連付けられたビット列に変換するビット列識別番号変換部、
前記復号対象のデータを構成する前記文字識別番号のバイナリデータと前記ビット列識別番号変換部が変換したビット列とを前記文字識別番号に復号する復号部、
前記符号化対象のデータに含まれる文字と、該文字を識別する前記文字識別番号と、を関連付けて記憶する文字識別番号記憶部を参照して、前記復号部が復号した前記文字識別番号を、該文字識別番号に関連付けられた文字に変換する変換部、
として機能させるためのプログラム。
(Appendix 13)
Computer
An input unit for inputting a condition for specifying data to be decrypted;
It consists of binary data of each character identification number that identifies each character included in the data to be encoded, and binary data of a bit string identification number that identifies the same bit string that appears in the binary data of each character identification number Among the compressed data, a specifying unit that specifies data satisfying the condition as data to be decoded,
Bit string identification for decoding binary data of the bit string identification number into the bit string identification number of binary data of the character identification number and binary data of the bit string identification number constituting the data to be decoded specified by the specifying unit Number decoding part,
For each identical bit string appearing in the binary data of each character identification number, the bit string identification number decoding unit decodes with reference to a bit string identification number storage unit that stores the bit string identification number that identifies the bit string in association with each other. A bit string identification number converting unit that converts the bit string identification number into a bit string associated with the bit string identification number;
A decoding unit that decodes the binary data of the character identification number constituting the data to be decoded and the bit string converted by the bit string identification number conversion unit into the character identification number;
The character identification number decoded by the decoding unit with reference to a character identification number storage unit that associates and stores the character included in the data to be encoded and the character identification number that identifies the character, A conversion unit for converting into a character associated with the character identification number;
Program to function as.
1…辞書データ、2…最終符号化前バイナリデータ、10…ROM、11…RAM、12…外部記憶装置、13…入力装置、14…表示装置、15…CPU、100…符号化装置、101…符号化候補データ記憶部、102…表示部、103…入力部、104…文字出現頻度取得部、105…文字識別番号関連付部、106…文字識別番号記憶部、107…変換部、108…符号化部、109…開始位置記憶部、110…ビット列出現頻度取得部、111…ビット列識別番号関連付部、112…ビット列識別番号記憶部、113…ビット列識別番号変換部、114…参照フラグ付き符号化部、115…非参照フラグ付き符号化部、116…圧縮データ記憶部、200…復号装置、20…ROM、21…RAM、22…外部記憶装置、23…入力装置、24…表示装置、25…CPU、200…復号装置、201…ビット列識別番号記憶部、202…圧縮データ記憶部、203…開始位置記憶部、204…ビット列識別番号復号方法記憶部、205…入力部、206…ビット列識別番号復号部、207…ビット列識別番号変換部、208…文字識別番号復号方法記憶部、209…文字識別番号記憶部、210…復号部、211…変換部、212…表示部
DESCRIPTION OF
Claims (13)
前記文字識別番号記憶部を参照して、前記符号化対象のデータに含まれる文字を、該文字に関連付けられた文字識別番号に変換する変換部と、
前記変換部が変換した文字識別番号をバイナリデータに符号化する符号化部と、
前記符号化部が符号化した文字識別番号のバイナリデータに出現する同一のビット列ごとに、該ビット列を識別するビット列識別番号を関連付けてビット列識別番号記憶部に記憶するビット列識別番号関連付部と、
前記ビット列識別番号記憶部を参照して、前記文字識別番号のバイナリデータに出現する同一のビット列を、該ビット列に関連付けられたビット列識別番号に変換するビット列識別番号変換部と、
前記ビット列識別番号変換部が変換したビット列識別番号に、復号時に前記ビット列識別番号記憶部を参照することを示す参照フラグを関連付けて、該ビット列識別番号をバイナリデータに符号化する参照フラグ付き符号化部と、
を備える符号化装置。 A character identification number storage unit that stores a character included in data to be encoded and a character identification number for identifying the character in association with each other;
A conversion unit that refers to the character identification number storage unit and converts a character included in the data to be encoded into a character identification number associated with the character;
An encoding unit that encodes the character identification number converted by the conversion unit into binary data;
A bit string identification number associating unit that associates a bit string identification number that identifies the bit string and stores it in the bit string identification number storage unit for each identical bit string that appears in the binary data of the character identification number encoded by the encoding unit;
A bit string identification number converter that converts the same bit string appearing in the binary data of the character identification number into a bit string identification number associated with the bit string with reference to the bit string identification number storage unit;
Encoding with a reference flag for associating a reference flag indicating that the bit string identification number storage unit is referred to at the time of decoding with the bit string identification number converted by the bit string identification number conversion unit, and encoding the bit string identification number into binary data And
An encoding device comprising:
前記符号化部は、前記文字識別番号が小さいほど該文字識別番号を符号化して得られるバイナリデータのデータ量が小さい符号化方法を用いて、前記文字識別番号をバイナリデータに符号化する、
請求項1に記載の符号化装置。 The character identification number is smaller as it is associated with a character having a high appearance frequency in the data to be encoded,
The encoding unit encodes the character identification number into binary data using an encoding method in which the amount of binary data obtained by encoding the character identification number is smaller as the character identification number is smaller.
The encoding device according to claim 1.
を備える請求項1又は2に記載の符号化装置。 Among the bit strings appearing in the binary data of the character identification number, for the bit string not associated with the bit string identification number, the number of bits from the beginning of the bit string until the bit string associated with the bit string identification number appears An encoding unit with a non-reference flag that associates a non-reference flag indicating that the bit string identification number storage unit is not referred to at the time of decoding and encodes the number of digits of the bit into binary data;
The encoding device according to claim 1, comprising:
前記参照フラグ付き符号化部は、前記ビット列識別番号が小さいほど該ビット列識別番号を符号化して得られるバイナリデータのデータ量が小さい符号化方法を用いて、前記ビット列識別番号をバイナリデータに符号化する、
請求項1乃至3の何れか一項に記載の符号化装置。 The bit string identification number is smaller as it is associated with the same bit string that frequently appears in the binary data of the character identification number,
The encoding unit with a reference flag encodes the bit string identification number into binary data using an encoding method in which the smaller the bit string identification number, the smaller the amount of binary data obtained by encoding the bit string identification number. To
The encoding apparatus as described in any one of Claims 1 thru | or 3.
前記同一のビット列の出現頻度は、前記符号化対象のデータにおける前記見出し語の開始位置を跨ぐ該同一のビット列の出現数を含まない、
請求項4に記載の符号化装置。 The encoding target data includes a headword,
The appearance frequency of the same bit string does not include the number of occurrences of the same bit string across the start position of the headword in the encoding target data.
The encoding device according to claim 4.
前記ビット列識別番号変換部は、前記ビット列識別番号が関連付けられたビット列が、前記見出し語の開始位置を跨ぐ場合、該ビット列を前記ビット列識別番号に変換せず、
前記非参照フラグ付き符号化部は、前記ビット列識別番号が関連付けられたビット列のうち前記ビット列識別番号変換部が前記ビット列識別番号に変換しなかったビット列について、該ビット列の先頭から該ビット列が跨ぐ前記見出し語の開始位置までのビットの桁数に、前記非参照フラグを関連付けて、該ビットの桁数をバイナリデータに符号化する、
請求項3に記載の符号化装置。 The encoding target data includes a headword,
The bit string identification number conversion unit, when the bit string associated with the bit string identification number straddles the start position of the headword, does not convert the bit string to the bit string identification number,
The encoding unit with a non-reference flag is the bit string straddling the bit string from the beginning of the bit string with respect to the bit string that the bit string identification number conversion unit does not convert to the bit string identification number among the bit strings associated with the bit string identification number. Associating the non-reference flag with the number of bits to the start position of the headword and encoding the number of bits into binary data;
The encoding device according to claim 3.
請求項6に記載の符号化装置。 When the bit string not associated with the bit string identification number straddles the start position of the headword, the encoding unit with a non-reference flag sets the non-reference flag encoding unit to the number of bits from the beginning of the bit string to the start position. Associating a reference flag and encoding the number of digits of the bit into binary data;
The encoding device according to claim 6.
請求項1乃至7の何れか一項に記載の符号化装置。 The number of digits of the same bit string stored in the bit string identification number storage unit is 32 digits.
The encoding device according to any one of claims 1 to 7.
前記符号化対象のデータに含まれる文字と、該文字を識別する前記文字識別番号と、を関連付けて記憶する文字識別番号記憶部と、
前記各文字識別番号のバイナリデータに出現する前記同一のビット列ごとに、該ビット列を識別する前記ビット列識別番号を関連付けて記憶するビット列識別番号記憶部と、
復号対象のデータを特定するための条件を入力する入力部と、
前記圧縮データ記憶部が記憶する圧縮データのうち前記条件を満たすデータを復号対象のデータとして特定し、特定した復号対象のデータを構成する前記文字識別番号のバイナリデータと前記ビット列識別番号のバイナリデータとのうち、前記ビット列識別番号のバイナリデータを前記ビット列識別番号に復号するビット列識別番号復号部と、
前記ビット列識別番号記憶部を参照して、前記ビット列識別番号復号部が復号した前記ビット列識別番号を、該ビット列識別番号に関連付けられたビット列に変換するビット列識別番号変換部と、
前記復号対象のデータを構成する前記文字識別番号のバイナリデータと前記ビット列識別番号変換部が変換したビット列とを前記文字識別番号に復号する復号部と、
前記文字識別番号記憶部を参照して、前記復号部が復号した前記文字識別番号を、該文字識別番号に関連付けられた文字に変換する変換部と、
を備える復号装置。 It consists of binary data of each character identification number that identifies each character included in the data to be encoded, and binary data of a bit string identification number that identifies the same bit string that appears in the binary data of each character identification number A compressed data storage unit for storing compressed data,
A character identification number storage unit for storing the character included in the data to be encoded and the character identification number for identifying the character in association with each other;
A bit string identification number storage unit that associates and stores the bit string identification number for identifying the bit string for each identical bit string that appears in the binary data of each character identification number;
An input unit for inputting a condition for specifying data to be decrypted;
Among the compressed data stored in the compressed data storage unit, the data satisfying the condition is specified as the data to be decoded, and the binary data of the character identification number and the binary data of the bit string identification number constituting the specified decoding target data A bit string identification number decoding unit for decoding binary data of the bit string identification number into the bit string identification number,
A bit string identification number converting unit that converts the bit string identification number decoded by the bit string identification number decoding unit into a bit string associated with the bit string identification number with reference to the bit string identification number storage unit;
A decoding unit that decodes the binary data of the character identification number constituting the data to be decoded and the bit string converted by the bit string identification number conversion unit into the character identification number;
A conversion unit that refers to the character identification number storage unit and converts the character identification number decoded by the decoding unit into a character associated with the character identification number;
A decoding device comprising:
前記変換ステップで変換した文字識別番号をバイナリデータに符号化する符号化ステップと、
前記符号化ステップで符号化した文字識別番号のバイナリデータに出現する同一のビット列ごとに、該ビット列を識別するビット列識別番号を関連付けてビット列識別番号記憶部に記憶するビット列識別番号関連付ステップと、
前記ビット列識別番号記憶部を参照して、前記文字識別番号のバイナリデータに出現する同一のビット列を、該ビット列に関連付けられたビット列識別番号に変換するビット列識別番号変換ステップと、
前記ビット列識別番号変換ステップで変換したビット列識別番号に、復号時に前記ビット列識別番号記憶部を参照することを示す参照フラグを関連付けて、該ビット列識別番号をバイナリデータに符号化する参照フラグ付き符号化ステップと、
を備える符号化方法。 The character included in the data to be encoded is referred to the character identification number storage unit that stores the character included in the data to be encoded and the character identification number that identifies the character in association with each other. A conversion step for converting to a character identification number associated with
An encoding step of encoding the character identification number converted in the conversion step into binary data;
A bit string identification number associating step for associating a bit string identification number for identifying the bit string and storing it in the bit string identification number storage unit for each identical bit string appearing in the binary data of the character identification number encoded in the encoding step;
A bit string identification number conversion step for converting the same bit string appearing in the binary data of the character identification number into a bit string identification number associated with the bit string with reference to the bit string identification number storage unit;
Coding with a reference flag for associating a reference flag indicating that the bit string identification number storage unit is referred to at the time of decoding with the bit string identification number converted in the bit string identification number conversion step, and encoding the bit string identification number into binary data Steps,
An encoding method comprising:
符号化対象のデータに含まれる各文字を識別する各文字識別番号のバイナリデータと、前記各文字識別番号のバイナリデータに出現する同一のビット列を識別するビット列識別番号のバイナリデータと、で構成された圧縮データのうち、前記条件を満たすデータを復号対象のデータとして特定する特定ステップと、
前記特定ステップで特定した前記復号対象のデータを構成する前記文字識別番号のバイナリデータと前記ビット列識別番号のバイナリデータとのうち、前記ビット列識別番号のバイナリデータを前記ビット列識別番号に復号するビット列識別番号復号ステップと、
前記各文字識別番号のバイナリデータに出現する前記同一のビット列ごとに、該ビット列を識別する前記ビット列識別番号を関連付けて記憶するビット列識別番号記憶部を参照して、前記ビット列識別番号復号ステップで復号した前記ビット列識別番号を、該ビット列識別番号に関連付けられたビット列に変換するビット列識別番号変換ステップと、
前記復号対象のデータを構成する前記文字識別番号のバイナリデータと前記ビット列識別番号変換ステップで変換したビット列とを前記文字識別番号に復号する復号ステップと、
前記符号化対象のデータに含まれる文字と、該文字を識別する前記文字識別番号と、を関連付けて記憶する文字識別番号記憶部を参照して、前記復号ステップで復号した前記文字識別番号を、該文字識別番号に関連付けられた文字に変換する変換ステップと、
を備える復号方法。 An input step for inputting conditions for specifying data to be decrypted;
It consists of binary data of each character identification number that identifies each character included in the data to be encoded, and binary data of a bit string identification number that identifies the same bit string that appears in the binary data of each character identification number Among the compressed data, a specific step of specifying data satisfying the condition as data to be decoded;
Bit string identification for decoding binary data of the bit string identification number into the bit string identification number of the binary data of the character identification number and the binary data of the bit string identification number constituting the data to be decoded identified in the identifying step A number decoding step;
Decoding in the bit string identification number decoding step with reference to a bit string identification number storage unit for storing the bit string identification number for identifying the bit string for each of the same bit strings appearing in the binary data of each character identification number Converting the bit string identification number into a bit string associated with the bit string identification number; and
A decoding step for decoding the character identification number binary data constituting the decoding target data and the bit string converted in the bit string identification number conversion step into the character identification number;
The character identification number decoded in the decoding step with reference to a character identification number storage unit that associates and stores the character included in the data to be encoded and the character identification number that identifies the character, A conversion step for converting to a character associated with the character identification number;
A decoding method comprising:
符号化対象のデータに含まれる文字と、該文字を識別する文字識別番号と、を関連付けて記憶する文字識別番号記憶部を参照して、前記符号化対象のデータに含まれる文字を、該文字に関連付けられた文字識別番号に変換する変換部、
前記変換部が文字識別番号をバイナリデータに符号化する符号化部、
前記符号化部が符号化した文字識別番号のバイナリデータに出現する同一のビット列ごとに、該ビット列を識別するビット列識別番号を関連付けてビット列識別番号記憶部に記憶するビット列識別番号関連付部、
前記ビット列識別番号記憶部を参照して、前記文字識別番号のバイナリデータに出現する同一のビット列を、該ビット列に関連付けられたビット列識別番号に変換するビット列識別番号変換部、
前記ビット列識別番号変換部が変換したビット列識別番号に、復号時に前記ビット列識別番号記憶部を参照することを示す参照フラグを関連付けて、該ビット列識別番号をバイナリデータに符号化する参照フラグ付き符号化部、
として機能させるためのプログラム。 Computer
The character included in the data to be encoded is referred to the character identification number storage unit that stores the character included in the data to be encoded and the character identification number that identifies the character in association with each other. A conversion unit for converting to a character identification number associated with
An encoding unit for encoding the character identification number into binary data by the conversion unit;
A bit string identification number associating unit that associates a bit string identification number that identifies the bit string and stores it in the bit string identification number storage unit for each identical bit string that appears in the binary data of the character identification number encoded by the encoding unit;
A bit string identification number converter that converts the same bit string appearing in the binary data of the character identification number into a bit string identification number associated with the bit string with reference to the bit string identification number storage unit;
Encoding with a reference flag for associating a reference flag indicating that the bit string identification number storage unit is referred to at the time of decoding with the bit string identification number converted by the bit string identification number conversion unit, and encoding the bit string identification number into binary data Part,
Program to function as.
復号対象のデータを特定するための条件を入力する入力部、
符号化対象のデータに含まれる各文字を識別する各文字識別番号のバイナリデータと、前記各文字識別番号のバイナリデータに出現する同一のビット列を識別するビット列識別番号のバイナリデータと、で構成された圧縮データのうち、前記条件を満たすデータを復号対象のデータとして特定する特定部、
前記特定部が特定した前記復号対象のデータを構成する前記文字識別番号のバイナリデータと前記ビット列識別番号のバイナリデータとのうち、前記ビット列識別番号のバイナリデータを前記ビット列識別番号に復号するビット列識別番号復号部、
前記各文字識別番号のバイナリデータに出現する前記同一のビット列ごとに、該ビット列を識別する前記ビット列識別番号を関連付けて記憶するビット列識別番号記憶部を参照して、前記ビット列識別番号復号部が復号した前記ビット列識別番号を、該ビット列識別番号に関連付けられたビット列に変換するビット列識別番号変換部、
前記復号対象のデータを構成する前記文字識別番号のバイナリデータと前記ビット列識別番号変換部が変換したビット列とを前記文字識別番号に復号する復号部、
前記符号化対象のデータに含まれる文字と、該文字を識別する前記文字識別番号と、を関連付けて記憶する文字識別番号記憶部を参照して、前記復号部が復号した前記文字識別番号を、該文字識別番号に関連付けられた文字に変換する変換部、
として機能させるためのプログラム。 Computer
An input unit for inputting a condition for specifying data to be decrypted;
It consists of binary data of each character identification number that identifies each character included in the data to be encoded, and binary data of a bit string identification number that identifies the same bit string that appears in the binary data of each character identification number Among the compressed data, a specifying unit that specifies data satisfying the condition as data to be decoded,
Bit string identification for decoding binary data of the bit string identification number into the bit string identification number of binary data of the character identification number and binary data of the bit string identification number constituting the data to be decoded specified by the specifying unit Number decoding part,
For each identical bit string appearing in the binary data of each character identification number, the bit string identification number decoding unit decodes with reference to a bit string identification number storage unit that stores the bit string identification number that identifies the bit string in association with each other. A bit string identification number converting unit that converts the bit string identification number into a bit string associated with the bit string identification number;
A decoding unit that decodes the binary data of the character identification number constituting the data to be decoded and the bit string converted by the bit string identification number conversion unit into the character identification number;
The character identification number decoded by the decoding unit with reference to a character identification number storage unit that associates and stores the character included in the data to be encoded and the character identification number that identifies the character, A conversion unit for converting into a character associated with the character identification number;
Program to function as.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014191516A JP6511752B2 (en) | 2014-09-19 | 2014-09-19 | Encoding apparatus, encoding method, decoding apparatus, decoding method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014191516A JP6511752B2 (en) | 2014-09-19 | 2014-09-19 | Encoding apparatus, encoding method, decoding apparatus, decoding method, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016063475A true JP2016063475A (en) | 2016-04-25 |
JP6511752B2 JP6511752B2 (en) | 2019-05-15 |
Family
ID=55798419
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014191516A Active JP6511752B2 (en) | 2014-09-19 | 2014-09-19 | Encoding apparatus, encoding method, decoding apparatus, decoding method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6511752B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024061138A1 (en) * | 2022-09-20 | 2024-03-28 | 华为技术有限公司 | Data coding and data decoding method and apparatus, and device |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001507543A (en) * | 1996-12-30 | 2001-06-05 | テレフオンアクチーボラゲツト エル エム エリクソン(パブル) | Methods and means for processing information |
JP2006211621A (en) * | 2004-12-28 | 2006-08-10 | Casio Electronics Co Ltd | Data compression device and data decompression device |
-
2014
- 2014-09-19 JP JP2014191516A patent/JP6511752B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001507543A (en) * | 1996-12-30 | 2001-06-05 | テレフオンアクチーボラゲツト エル エム エリクソン(パブル) | Methods and means for processing information |
JP2006211621A (en) * | 2004-12-28 | 2006-08-10 | Casio Electronics Co Ltd | Data compression device and data decompression device |
Non-Patent Citations (1)
Title |
---|
DAVID A. HUFFMAN: "A Method for the Construction of Minimum-Redundancy Codes", PROCEEDINGS OF THE I.R.E., JPN6018030156, 1952, pages 1098 - 1101, XP011153717 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024061138A1 (en) * | 2022-09-20 | 2024-03-28 | 华为技术有限公司 | Data coding and data decoding method and apparatus, and device |
Also Published As
Publication number | Publication date |
---|---|
JP6511752B2 (en) | 2019-05-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7565452B2 (en) | System for storing and rendering multimedia data | |
US7663511B2 (en) | Dynamic character encoding | |
JP6686639B2 (en) | Encoding program, encoding device, encoding method, decoding program, decoding device, and decoding method | |
US7958133B2 (en) | Application conversion of source data | |
US10360183B2 (en) | Encoding device, encoding method, decoding device, decoding method, and computer-readable recording medium | |
JP5831298B2 (en) | Program, information processing apparatus, and index generation method | |
JP2004227579A (en) | Method and system for converting xml code into binary code | |
US10025787B2 (en) | Systems and methods for selecting digital data for archival | |
US20230362224A1 (en) | Systems and methods for encoding and decoding | |
US20210397642A1 (en) | Systems and methods for selecting digital data for archival | |
JP6613669B2 (en) | Compression program, compression method, information processing apparatus, replacement program, and replacement method | |
JP6511752B2 (en) | Encoding apparatus, encoding method, decoding apparatus, decoding method, and program | |
CN106354450B (en) | Communication system and communication means | |
US8018359B2 (en) | Conversion of bit lengths into codes | |
JP2012098893A (en) | Compression instruction processing device and compression instruction generation device | |
JP2016170750A (en) | Data management program, information processor and data management method | |
CN110909552B (en) | Translation method and device | |
JP6428936B2 (en) | Information processing apparatus, information processing method, and information processing program | |
JP4791205B2 (en) | Difference generation device, difference application device, difference generation program, and difference application program | |
US20160210304A1 (en) | Computer-readable recording medium, information processing apparatus, and conversion process method | |
JP5674974B2 (en) | Compressed data processing program, compressed data editing program | |
JP6693549B2 (en) | Information processing apparatus, information processing method, and information processing program | |
US20050099324A1 (en) | Encoding conversion fallback | |
JP5001458B1 (en) | Recording medium on which a two-part processing compression program is recorded | |
US9558109B2 (en) | Method and apparatus for flash memory arithmetic encoding and decoding |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170913 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180730 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180807 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20181005 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190312 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190325 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6511752 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |