JP2017022666A - 圧縮プログラム、圧縮方法、情報処理装置、置換プログラムおよび置換方法 - Google Patents
圧縮プログラム、圧縮方法、情報処理装置、置換プログラムおよび置換方法 Download PDFInfo
- Publication number
- JP2017022666A JP2017022666A JP2015140880A JP2015140880A JP2017022666A JP 2017022666 A JP2017022666 A JP 2017022666A JP 2015140880 A JP2015140880 A JP 2015140880A JP 2015140880 A JP2015140880 A JP 2015140880A JP 2017022666 A JP2017022666 A JP 2017022666A
- Authority
- JP
- Japan
- Prior art keywords
- dictionary
- code
- compression
- character string
- registered
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000006835 compression Effects 0.000 title claims abstract description 242
- 238000007906 compression Methods 0.000 title claims abstract description 225
- 238000000034 method Methods 0.000 title claims abstract description 54
- 230000010365 information processing Effects 0.000 title claims abstract description 11
- 230000003068 static effect Effects 0.000 abstract description 70
- 238000010586 diagram Methods 0.000 description 44
- 238000000605 extraction Methods 0.000 description 20
- 239000000284 extract Substances 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 238000007418 data mining Methods 0.000 description 7
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000013144 data compression Methods 0.000 description 2
- 230000006837 decompression Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/123—Storage facilities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/3084—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction using adaptive string matching, e.g. the Lempel-Ziv method
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/60—General implementation details not specific to a particular type of compression
- H03M7/6052—Synchronisation of encoder and decoder
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
Abstract
Description
最初に、図1を用いて圧縮処理の概要について説明する。図1は、圧縮処理の流れを概略的に示した図である。以下では、携帯電話やスマートフォンなど端末装置10が圧縮処理の対象である圧縮対象ファイル32に含まれる「…a pen…Mickey…」を圧縮する場合を例に説明する。
次に、図2を用いて置換処理の概要について説明する。図2は、置換検索の流れを概略的に示した図である。以下では、クラウドシステムなどでのサーバ装置11が受信した圧縮ファイル33に対して予備符号の置換を行う場合を例に説明する。
次に、各装置の構成について説明する。最初に、端末装置10の構成について説明する。図3は、端末装置の構成の一例を示す図である。端末装置10は、圧縮対象ファイル32の圧縮などの符号化を行う装置である。端末装置10は、例えば、携帯電話、スマートフォン、タブレット端末、パーソナルコンピュータなどの情報処理装置である。図3に示すように、端末装置10は、記憶部20と、制御部21とを有する。なお、端末装置10は、情報処理装置が有する上記の機器以外の他の機器を有してもよい。
本実施例に係る端末装置10が圧縮対象ファイル32を符号化して圧縮する圧縮処理の流れについて説明する。図11は、圧縮処理の手順の一例を示すフローチャートである。この圧縮処理は、所定のタイミング、例えば、圧縮対象ファイル32を指定して圧縮開始を指示する所定操作が行われたタイミングで実行される。
上述してきたように、本実施例に係る端末装置10は、圧縮対象ファイル32のうち、静的辞書34に登録されている文字列を文字列に対応付けられた符号に置換する。端末装置10は、圧縮対象ファイル32のうち、静的辞書34に登録されていない文字列に新たな圧縮符号を割り当てて、当該文字列と新たな圧縮符号と予備符号用の領域とを対応付けて動的辞書31に格納するとともに、文字列を新たな圧縮符号に置換する。端末装置10は、置換された圧縮符号および動的辞書31を含んだ圧縮ファイル33を生成する。これにより、端末装置10は、動的辞書31の予備符号用の領域に、文字列と圧縮符号に対応付ける情報を後から格納できるため、圧縮対象ファイル32をより有効に活用させることができる。
また、上記の実施例で説明した各種の処理は、あらかじめ用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータシステムで実行することによって実現することもできる。そこで、以下では、上記の実施例と同様の機能を有するプログラムを実行するコンピュータシステムの一例を説明する。最初に、圧縮処理を行う圧縮プログラムについて説明する。図15は、圧縮プログラムを実行するコンピュータの一例を示す図である。
次に、圧縮ファイル33のトレーラに格納された動的辞書31に対して置換を行う置換プログラムについて説明する。図16は、置換プログラムを実行するコンピュータの一例を示す図である。なお、図15と同一の部分については同一の符号を付して、説明を省略する。
11 サーバ装置
20 記憶部
21 制御部
30 標準辞書
31 動的辞書
31A 動的ビットフィルタ部
31B ポインタ部
31C バッファ部
32 圧縮対象ファイル
33 圧縮ファイル
34 静的辞書
34A ビットフィルタ部
34B 辞書部
35 復号辞書
40 圧縮部
50 抽出部
51 判定部
52 置換部
53 生成部
60 記憶部
61 制御部
70 大規模辞書
71 拡張辞書
72 復号ファイル
80 置換部
81 復号部
82 判定部
83 格納部
Claims (7)
- コンピュータに、
入力データのうち、前記コンピュータが有する第1の辞書に登録されている第1の文字列を当該第1の文字列に対応付けられた第1の符号に置換し、前記第1の辞書に登録されていない第2の文字列に第2の符号を割り当てて、当該第2の文字列と当該第2の符号と予備情報とを対応付けて動的辞書に格納するとともに、当該第2の文字列を前記第2の符号に置換し、
置換された符号および前記動的辞書を含んだ圧縮データを生成する
処理を実行させることを特徴とする圧縮プログラム。 - 前記置換する処理は、前記第2の文字列が、前記コンピュータが有する第2の辞書に登録されている場合、前記第2の辞書の前記第2の文字列に対応する第3の符号を前記予備情報の領域に格納する
ことを特徴とする請求項1に記載の圧縮プログラム。 - コンピュータが、
入力データのうち、前記コンピュータが有する第1の辞書に登録されている第1の文字列を当該第1の文字列に対応付けられた第1の符号に置換し、前記第1の辞書に登録されていない第2の文字列に第2の符号を割り当てて、当該第2の文字列と当該第2の符号と予備情報とを対応付けて動的辞書に格納するとともに、当該第2の文字列を前記第2の符号に置換し、
置換された符号および前記動的辞書を含んだ圧縮データを生成する
処理を実行することを特徴とする圧縮方法。 - 入力データのうち、前記コンピュータが有する第1の辞書に登録されている第1の文字列を当該第1の文字列に対応付けられた第1の符号に置換し、前記第1の辞書に登録されていない第2の文字列に第2の符号を割り当てて、当該第2の文字列と当該第2の符号と予備情報とを対応付けて動的辞書に格納するとともに、当該第2の文字列を前記第2の符号に置換する置換部と、
前記置換部により置換された符号および前記動的辞書を含んだ圧縮データを生成する生成部と、
を有することを特徴とする情報処理装置。 - コンピュータに、
他のコンピュータが有する第1の辞書に登録されていない文字列が第1の符号に置換され、前記文字列と前記第1の符号と予備情報とを対応付けて格納した動的辞書を含んだ圧縮データの前記動的辞書の前記文字列が、前記コンピュータが有する第2の辞書に登録されているか判定し、
前記文字列が前記第2の辞書に登録されている場合、前記動的辞書の予備情報の領域に、前記第2の辞書の前記文字列に対応する第2の符号を格納する
処理を実行させることを特徴とする置換プログラム。 - コンピュータが、
他のコンピュータが有する第1の辞書に登録されていない文字列が第1の符号に置換され、前記文字列と前記第1の符号と予備情報とを対応付けて格納した動的辞書を含んだ圧縮データの前記動的辞書の前記文字列が、前記コンピュータが有する第2の辞書に登録されているか判定し、
前記文字列が前記第2の辞書に登録されている場合、前記動的辞書の予備情報の領域に、前記第2の辞書の前記文字列に対応する第2の符号を格納する
処理を実行することを特徴とする置換方法。 - 他のコンピュータが有する第1の辞書に登録されていない文字列が第1の符号に置換され、前記文字列と前記第1の符号と予備情報とを対応付けて格納した動的辞書を含んだ圧縮データの前記動的辞書の前記文字列が、前記コンピュータが有する第2の辞書に登録されているか判定する判定部と、
前記判定部による判定の結果、前記文字列が前記第2の辞書に登録されている場合、前記動的辞書の予備情報の領域に、前記第2の辞書の前記文字列に対応する第2の符号を格納する格納部と、
を有することを特徴とする情報処理装置。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015140880A JP6613669B2 (ja) | 2015-07-14 | 2015-07-14 | 圧縮プログラム、圧縮方法、情報処理装置、置換プログラムおよび置換方法 |
EP16179063.9A EP3119002B1 (en) | 2015-07-14 | 2016-07-12 | Encoding program, encoding method, information processsing device, replacement program, and replacement method |
US15/209,055 US9965448B2 (en) | 2015-07-14 | 2016-07-13 | Encoding method and information processing device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015140880A JP6613669B2 (ja) | 2015-07-14 | 2015-07-14 | 圧縮プログラム、圧縮方法、情報処理装置、置換プログラムおよび置換方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017022666A true JP2017022666A (ja) | 2017-01-26 |
JP6613669B2 JP6613669B2 (ja) | 2019-12-04 |
Family
ID=56683721
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015140880A Expired - Fee Related JP6613669B2 (ja) | 2015-07-14 | 2015-07-14 | 圧縮プログラム、圧縮方法、情報処理装置、置換プログラムおよび置換方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US9965448B2 (ja) |
EP (1) | EP3119002B1 (ja) |
JP (1) | JP6613669B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018182466A (ja) * | 2017-04-07 | 2018-11-15 | 富士通株式会社 | 符号化プログラム、符号化方法および符号化装置 |
JP2019120780A (ja) * | 2018-01-04 | 2019-07-22 | 富士通株式会社 | ファイル生成プログラム、ファイル生成方法及びファイル生成装置 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6834327B2 (ja) * | 2016-10-06 | 2021-02-24 | 富士通株式会社 | 符号化プログラム、符号化装置および符号化方法 |
JP2021145281A (ja) * | 2020-03-13 | 2021-09-24 | キオクシア株式会社 | 圧縮装置、伸張装置及び方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09214352A (ja) * | 1996-01-31 | 1997-08-15 | Hitachi Ltd | データ圧縮方法および装置 |
JP2014093612A (ja) * | 2012-11-01 | 2014-05-19 | Canon Inc | 符号化装置及びその制御方法 |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4814746A (en) * | 1983-06-01 | 1989-03-21 | International Business Machines Corporation | Data compression method |
JP3132774B2 (ja) | 1991-12-27 | 2001-02-05 | 富士通株式会社 | データ圧縮・復元装置 |
US5590317A (en) * | 1992-05-27 | 1996-12-31 | Hitachi, Ltd. | Document information compression and retrieval system and document information registration and retrieval method |
JP3408291B2 (ja) * | 1993-09-20 | 2003-05-19 | 株式会社東芝 | 辞書作成支援装置 |
JP3986098B2 (ja) * | 1994-08-16 | 2007-10-03 | 富士通株式会社 | 文字列検索方法及び文字列検索装置 |
US5663721A (en) * | 1995-03-20 | 1997-09-02 | Compaq Computer Corporation | Method and apparatus using code values and length fields for compressing computer data |
JP3566441B2 (ja) * | 1996-01-30 | 2004-09-15 | シャープ株式会社 | テキスト圧縮用辞書作成装置 |
JP2840589B2 (ja) * | 1996-02-09 | 1998-12-24 | 富士通株式会社 | データ圧縮装置及びデータ復元装置 |
US6012062A (en) * | 1996-03-04 | 2000-01-04 | Lucent Technologies Inc. | System for compression and buffering of a data stream with data extraction requirements |
US5963893A (en) * | 1996-06-28 | 1999-10-05 | Microsoft Corporation | Identification of words in Japanese text by a computer system |
JP3368157B2 (ja) * | 1996-11-18 | 2003-01-20 | キヤノン株式会社 | データ圧縮装置、方法及びシステム |
JPH11143877A (ja) * | 1997-10-22 | 1999-05-28 | Internatl Business Mach Corp <Ibm> | 圧縮方法、辞書の見出し語インデックス・データを圧縮するための方法、及び機械翻訳システム |
US6100824A (en) * | 1998-04-06 | 2000-08-08 | National Dispatch Center, Inc. | System and method for data compression |
JP2000201080A (ja) | 1999-01-07 | 2000-07-18 | Fujitsu Ltd | 付加コ―ドを用いたデ―タ圧縮/復元装置および方法 |
US7026962B1 (en) * | 2000-07-27 | 2006-04-11 | Motorola, Inc | Text compression method and apparatus |
US20020152219A1 (en) * | 2001-04-16 | 2002-10-17 | Singh Monmohan L. | Data interexchange protocol |
US9087038B1 (en) * | 2010-07-21 | 2015-07-21 | Sprint Communications Company L.P. | Messaging with shortcut character strings |
-
2015
- 2015-07-14 JP JP2015140880A patent/JP6613669B2/ja not_active Expired - Fee Related
-
2016
- 2016-07-12 EP EP16179063.9A patent/EP3119002B1/en active Active
- 2016-07-13 US US15/209,055 patent/US9965448B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09214352A (ja) * | 1996-01-31 | 1997-08-15 | Hitachi Ltd | データ圧縮方法および装置 |
JP2014093612A (ja) * | 2012-11-01 | 2014-05-19 | Canon Inc | 符号化装置及びその制御方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018182466A (ja) * | 2017-04-07 | 2018-11-15 | 富士通株式会社 | 符号化プログラム、符号化方法および符号化装置 |
US11323132B2 (en) | 2017-04-07 | 2022-05-03 | Fujitsu Limited | Encoding method and encoding apparatus |
JP2019120780A (ja) * | 2018-01-04 | 2019-07-22 | 富士通株式会社 | ファイル生成プログラム、ファイル生成方法及びファイル生成装置 |
US11062082B2 (en) | 2018-01-04 | 2021-07-13 | Fujitsu Limited | File generation method, file generation apparatus, and non-transitory computer-readable storage medium for storing program |
Also Published As
Publication number | Publication date |
---|---|
US20170017619A1 (en) | 2017-01-19 |
JP6613669B2 (ja) | 2019-12-04 |
EP3119002A1 (en) | 2017-01-18 |
EP3119002B1 (en) | 2022-01-19 |
US9965448B2 (en) | 2018-05-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9509334B2 (en) | Non-transitory computer-readable recording medium, compression method, decompression method, compression device and decompression device | |
JP6613669B2 (ja) | 圧縮プログラム、圧縮方法、情報処理装置、置換プログラムおよび置換方法 | |
US9973206B2 (en) | Computer-readable recording medium, encoding device, encoding method, decoding device, and decoding method | |
WO2017017738A1 (ja) | 符号化プログラム、符号化装置、及び符号化方法 | |
JP6641857B2 (ja) | 符号化プログラム、符号化方法、符号化装置、復号化プログラム、復号化方法および復号化装置 | |
JP6540308B2 (ja) | 符号化プログラム、符号化方法、符号化装置、復号化プログラム、復号化方法および復号化装置 | |
US20160210508A1 (en) | Encoding apparatus and encoding method | |
US9628110B2 (en) | Computer-readable recording medium, encoding apparatus, encoding method, comparison apparatus, and comparison method | |
US20170199849A1 (en) | Encoding method, encoding device, decoding method, decoding device, and computer-readable recording medium | |
US9479195B2 (en) | Non-transitory computer-readable recording medium, compression method, decompression method, compression device, and decompression device | |
US9779071B2 (en) | Non-transitory computer-readable recording medium, encoding method, encoding apparatus, decoding method, and decoding apparatus | |
JP6805720B2 (ja) | データ検索プログラム、データ検索装置およびデータ検索方法 | |
US10380240B2 (en) | Apparatus and method for data compression extension | |
JP2016143200A (ja) | 符号化プログラム、符号化方法および符号化装置 | |
US11062082B2 (en) | File generation method, file generation apparatus, and non-transitory computer-readable storage medium for storing program | |
US20200004784A1 (en) | Index generation method, data retrieval method, apparatus of index generation | |
JP6931442B2 (ja) | 符号化プログラム、インデックス生成プログラム、検索プログラム、符号化装置、インデックス生成装置、検索装置、符号化方法、インデックス生成方法および検索方法 | |
JP6512294B2 (ja) | 圧縮プログラム、圧縮方法および圧縮装置 | |
US10915559B2 (en) | Data generation method, information processing device, and recording medium | |
US10803243B2 (en) | Method, device, and medium for restoring text using index which associates coded text and positions thereof in text data | |
JP6838471B2 (ja) | インデックス生成プログラム、データ検索プログラム、インデックス生成装置、データ検索装置、インデックス生成方法、及びデータ検索方法 | |
JP2016134808A (ja) | データ圧縮プログラム、データ復元プログラム、データ圧縮装置、及びデータ復元装置 | |
JP6540306B2 (ja) | 符号化プログラム、符号化方法、符号化装置、復号化プログラム、復号化方法および復号化装置 | |
US20190220502A1 (en) | Validation device, validation method, and computer-readable recording medium | |
WO2018069999A1 (ja) | 出力プログラム、出力方法および出力システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180413 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190312 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190509 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20190611 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190910 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20190918 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20191008 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20191021 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6613669 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |