JP2018182466A - 符号化プログラム、符号化方法および符号化装置 - Google Patents
符号化プログラム、符号化方法および符号化装置 Download PDFInfo
- Publication number
- JP2018182466A JP2018182466A JP2017077041A JP2017077041A JP2018182466A JP 2018182466 A JP2018182466 A JP 2018182466A JP 2017077041 A JP2017077041 A JP 2017077041A JP 2017077041 A JP2017077041 A JP 2017077041A JP 2018182466 A JP2018182466 A JP 2018182466A
- Authority
- JP
- Japan
- Prior art keywords
- dynamic
- word
- unit
- encoding
- code
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/3084—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction using adaptive string matching, e.g. the Lempel-Ziv method
- H03M7/3088—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction using adaptive string matching, e.g. the Lempel-Ziv method employing the use of a dictionary, e.g. LZ78
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/14—Tree-structured documents
- G06F40/146—Coding or compression of tree-structured data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
- G06F40/157—Transformation using dictionaries or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/3066—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction by means of a mask or a bit-map
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/60—General implementation details not specific to a particular type of compression
- H03M7/6011—Encoder aspects
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/70—Type of the data to be coded, other than image and sound
- H03M7/707—Structured documents, e.g. XML
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Machine Translation (AREA)
Abstract
Description
テキストデータを複数の動的辞書を用いて符号化する際に、前記テキストデータに含まれる単語に対し、当該単語の属性情報に基づき前記複数の動的辞書から第1の動的辞書を特定し、
前記単語および前記単語に対応して生成された動的符号を前記第1の動的辞書に登録し、
前記単語を前記動的符号を用いて符号化する
処理を実行させる符号化プログラム。
テキストデータを複数の動的辞書を用いて符号化する際に、前記テキストデータに含まれる単語に対し、当該単語の属性情報に基づき前記複数の動的辞書から第1の動的辞書を特定し、
前記単語および前記単語に対応して生成された動的符号を前記第1の動的辞書に登録し、
前記単語を前記動的符号を用いて符号化する
処理を実行する符号化方法。
前記単語を前記動的符号を用いて符号化する符号化部と
を有することを特徴とする符号化装置。
100a,300a 符号化部
100b,300b 伸長部
100c,300c 記憶部
Claims (7)
- コンピュータに、
テキストデータを複数の動的辞書を用いて符号化する際に、前記テキストデータに含まれる単語に対し、当該単語の属性情報に基づき前記複数の動的辞書から第1の動的辞書を特定し、
前記単語および前記単語に対応して生成された動的符号を前記第1の動的辞書に登録し、
前記単語を前記動的符号を用いて符号化する
処理を実行させる符号化プログラム。 - 前記属性情報は、前記テキストデータに含まれる単語の位置情報であることを特徴とする請求項1に記載の符号化プログラム。
- 前記テキストデータは階層構造を有する文書であり、前記位置情報は前記階層構造における位置情報であることを特徴とする請求項2に記載の符号化プログラム。
- 前記属性情報は、前記テキストデータに用いられる言語における、特定の単語の種別情報であることを特徴とする請求項1に記載の符号化プログラム。
- 前記テキストデータはデリミタで複数の列に区切られており、前記位置情報は、複数の列の内、単語の位置する列情報であることを特徴とする請求項2に記載の符号化プログラム。
- コンピュータが実行する符号化方法であって、
テキストデータを複数の動的辞書を用いて符号化する際に、前記テキストデータに含まれる単語に対し、当該単語の属性情報に基づき前記複数の動的辞書から第1の動的辞書を特定し、
前記単語および前記単語に対応して生成された動的符号を前記第1の動的辞書に登録し、
前記単語を前記動的符号を用いて符号化する
処理を実行する符号化方法。 - テキストデータを複数の動的辞書を用いて符号化する際に、前記テキストデータに含まれる単語に対し、当該単語の属性情報に基づき前記複数の動的辞書から第1の動的辞書を特定し、前記単語および前記単語に対応して生成された動的符号を前記第1の動的辞書に登録する登録部と、
前記単語を前記動的符号を用いて符号化する符号化部と
を有する符号化装置。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017077041A JP7210130B2 (ja) | 2017-04-07 | 2017-04-07 | 符号化プログラム、符号化方法および符号化装置 |
US15/915,270 US11323132B2 (en) | 2017-04-07 | 2018-03-08 | Encoding method and encoding apparatus |
EP18161724.2A EP3385860A1 (en) | 2017-04-07 | 2018-03-14 | Compression of text using multiple dynamic dictionaries |
CN201810240597.5A CN108694159A (zh) | 2017-04-07 | 2018-03-22 | 编码方法和编码装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017077041A JP7210130B2 (ja) | 2017-04-07 | 2017-04-07 | 符号化プログラム、符号化方法および符号化装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018182466A true JP2018182466A (ja) | 2018-11-15 |
JP7210130B2 JP7210130B2 (ja) | 2023-01-23 |
Family
ID=61655647
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017077041A Active JP7210130B2 (ja) | 2017-04-07 | 2017-04-07 | 符号化プログラム、符号化方法および符号化装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11323132B2 (ja) |
EP (1) | EP3385860A1 (ja) |
JP (1) | JP7210130B2 (ja) |
CN (1) | CN108694159A (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7210130B2 (ja) * | 2017-04-07 | 2023-01-23 | 富士通株式会社 | 符号化プログラム、符号化方法および符号化装置 |
CN110688851B (zh) * | 2019-09-26 | 2023-07-28 | 亿企赢网络科技有限公司 | 一种提取地址文本的关键信息的方法、装置及介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0764765A (ja) * | 1993-08-31 | 1995-03-10 | Nec Corp | データ圧縮装置及びデータ復元装置 |
JPH09214352A (ja) * | 1996-01-31 | 1997-08-15 | Hitachi Ltd | データ圧縮方法および装置 |
US20060085737A1 (en) * | 2004-10-18 | 2006-04-20 | Nokia Corporation | Adaptive compression scheme |
US7769729B2 (en) * | 2007-05-21 | 2010-08-03 | Sap Ag | Block compression of tables with repeated values |
JP2011114546A (ja) * | 2009-11-26 | 2011-06-09 | Fujitsu Ltd | データ圧縮装置、データ伸長装置、データ圧縮プログラム、及びデータ伸長プログラム |
JP2011530234A (ja) * | 2008-07-31 | 2011-12-15 | マイクロソフト コーポレーション | 大規模なデータストレージのための効率的な列ベースデータの符号化 |
WO2012108006A1 (ja) * | 2011-02-08 | 2012-08-16 | 富士通株式会社 | 検索プログラム、検索装置、および検索方法 |
JP2014186457A (ja) * | 2013-03-22 | 2014-10-02 | Kddi Corp | データ構造化方法、データ再構成方法、データ構造化プログラム、データ再構成プログラム及びデータ符号化装置 |
JP2015026350A (ja) * | 2013-07-29 | 2015-02-05 | 富士通株式会社 | 情報処理システム、情報処理方法、および情報処理プログラム |
JP2017022666A (ja) * | 2015-07-14 | 2017-01-26 | 富士通株式会社 | 圧縮プログラム、圧縮方法、情報処理装置、置換プログラムおよび置換方法 |
Family Cites Families (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5455576A (en) * | 1992-12-23 | 1995-10-03 | Hewlett Packard Corporation | Apparatus and methods for Lempel Ziv data compression with improved management of multiple dictionaries in content addressable memory |
JPH08153090A (ja) * | 1994-11-29 | 1996-06-11 | Internatl Business Mach Corp <Ibm> | かな漢字変換システム及びその辞書作成方法 |
US5729228A (en) * | 1995-07-06 | 1998-03-17 | International Business Machines Corp. | Parallel compression and decompression using a cooperative dictionary |
US5809471A (en) * | 1996-03-07 | 1998-09-15 | Ibm Corporation | Retrieval of additional information not found in interactive TV or telephony signal by application using dynamically extracted vocabulary |
EP0928070A3 (en) | 1997-12-29 | 2000-11-08 | Phone.Com Inc. | Compression of documents with markup language that preserves syntactical structure |
US6088699A (en) | 1998-04-22 | 2000-07-11 | International Business Machines Corporation | System for exchanging compressed data according to predetermined dictionary codes |
JP3842913B2 (ja) * | 1998-12-18 | 2006-11-08 | 富士通株式会社 | 文字通信方法及び文字通信システム |
US7076731B2 (en) * | 2001-06-02 | 2006-07-11 | Microsoft Corporation | Spelling correction system and method for phrasal strings using dictionary looping |
DE10301362B4 (de) * | 2003-01-16 | 2005-06-09 | GEMAC-Gesellschaft für Mikroelektronikanwendung Chemnitz mbH | Blockdatenkompressionssystem, bestehend aus einer Kompressionseinrichtung und einer Dekompressionseinrichtung, und Verfahren zur schnellen Blockdatenkompression mit Multi-Byte-Suche |
GB0505942D0 (en) * | 2005-03-23 | 2005-04-27 | Patel Sanjay | Human to mobile interfaces |
US8326605B2 (en) * | 2008-04-24 | 2012-12-04 | International Business Machines Incorporation | Dictionary for textual data compression and decompression |
US7663511B2 (en) * | 2008-06-18 | 2010-02-16 | Microsoft Corporation | Dynamic character encoding |
NO328657B1 (no) * | 2008-12-22 | 2010-04-19 | Fast Search & Transfer As | Invertert indeks for kontekstuell sok |
US7982636B2 (en) * | 2009-08-20 | 2011-07-19 | International Business Machines Corporation | Data compression using a nested hierachy of fixed phrase length static and dynamic dictionaries |
US8456331B2 (en) * | 2011-04-15 | 2013-06-04 | Cavium, Inc. | System and method of compression and decompression |
JP5895545B2 (ja) | 2012-01-17 | 2016-03-30 | 富士通株式会社 | プログラム、圧縮ファイル生成方法、圧縮符号伸張方法、情報処理装置、および記録媒体 |
CN103258030B (zh) * | 2013-05-09 | 2016-04-13 | 西安电子科技大学 | 基于字典与游长编码的移动设备内存压缩方法 |
JP6319740B2 (ja) * | 2014-03-25 | 2018-05-09 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | データ圧縮を高速化する方法、並びに、データ圧縮を高速化するためのコンピュータ、及びそのコンピュータ・プログラム |
JP6531398B2 (ja) | 2015-01-19 | 2019-06-19 | 富士通株式会社 | プログラム |
JP6550765B2 (ja) | 2015-01-28 | 2019-07-31 | 富士通株式会社 | 文字データ変換プログラム、文字データ変換装置および文字データ変換方法 |
JP6742692B2 (ja) * | 2015-01-30 | 2020-08-19 | 富士通株式会社 | 符号化プログラムおよび伸長プログラム |
JP6540308B2 (ja) * | 2015-07-13 | 2019-07-10 | 富士通株式会社 | 符号化プログラム、符号化方法、符号化装置、復号化プログラム、復号化方法および復号化装置 |
JP6648620B2 (ja) * | 2016-04-19 | 2020-02-14 | 富士通株式会社 | 符号化プログラム、符号化装置および符号化方法 |
JP6575688B2 (ja) * | 2016-10-07 | 2019-09-18 | 富士通株式会社 | インデックス付きデータ生成プログラム、インデックス付きデータ生成方法、インデックス付きデータ生成システム、検索プログラム、検索方法、および検索システム |
JP7210130B2 (ja) * | 2017-04-07 | 2023-01-23 | 富士通株式会社 | 符号化プログラム、符号化方法および符号化装置 |
-
2017
- 2017-04-07 JP JP2017077041A patent/JP7210130B2/ja active Active
-
2018
- 2018-03-08 US US15/915,270 patent/US11323132B2/en active Active
- 2018-03-14 EP EP18161724.2A patent/EP3385860A1/en not_active Ceased
- 2018-03-22 CN CN201810240597.5A patent/CN108694159A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0764765A (ja) * | 1993-08-31 | 1995-03-10 | Nec Corp | データ圧縮装置及びデータ復元装置 |
JPH09214352A (ja) * | 1996-01-31 | 1997-08-15 | Hitachi Ltd | データ圧縮方法および装置 |
US20060085737A1 (en) * | 2004-10-18 | 2006-04-20 | Nokia Corporation | Adaptive compression scheme |
US7769729B2 (en) * | 2007-05-21 | 2010-08-03 | Sap Ag | Block compression of tables with repeated values |
JP2011530234A (ja) * | 2008-07-31 | 2011-12-15 | マイクロソフト コーポレーション | 大規模なデータストレージのための効率的な列ベースデータの符号化 |
JP2011114546A (ja) * | 2009-11-26 | 2011-06-09 | Fujitsu Ltd | データ圧縮装置、データ伸長装置、データ圧縮プログラム、及びデータ伸長プログラム |
WO2012108006A1 (ja) * | 2011-02-08 | 2012-08-16 | 富士通株式会社 | 検索プログラム、検索装置、および検索方法 |
JP2014186457A (ja) * | 2013-03-22 | 2014-10-02 | Kddi Corp | データ構造化方法、データ再構成方法、データ構造化プログラム、データ再構成プログラム及びデータ符号化装置 |
JP2015026350A (ja) * | 2013-07-29 | 2015-02-05 | 富士通株式会社 | 情報処理システム、情報処理方法、および情報処理プログラム |
JP2017022666A (ja) * | 2015-07-14 | 2017-01-26 | 富士通株式会社 | 圧縮プログラム、圧縮方法、情報処理装置、置換プログラムおよび置換方法 |
Non-Patent Citations (1)
Title |
---|
K.S.NG ET AL.: "Dynamic Word Based Text Compression", PROCEEDINGS OF THE FOURTH INTERNATIONAL CONFERENCE ON DOCUMENT ANALYSIS AND RECOGNITION, JPN6021011738, August 1997 (1997-08-01), pages 412 - 416, XP010244749, ISSN: 0004476845, DOI: 10.1109/ICDAR.1997.619880 * |
Also Published As
Publication number | Publication date |
---|---|
CN108694159A (zh) | 2018-10-23 |
US11323132B2 (en) | 2022-05-03 |
EP3385860A1 (en) | 2018-10-10 |
JP7210130B2 (ja) | 2023-01-23 |
US20180294820A1 (en) | 2018-10-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9509334B2 (en) | Non-transitory computer-readable recording medium, compression method, decompression method, compression device and decompression device | |
CN107305586B (zh) | 索引生成方法、索引生成装置及搜索方法 | |
US9793920B1 (en) | Computer-readable recording medium, encoding device, and encoding method | |
JP6531398B2 (ja) | プログラム | |
JP6641857B2 (ja) | 符号化プログラム、符号化方法、符号化装置、復号化プログラム、復号化方法および復号化装置 | |
JP6540308B2 (ja) | 符号化プログラム、符号化方法、符号化装置、復号化プログラム、復号化方法および復号化装置 | |
US10521414B2 (en) | Computer-readable recording medium, encoding method, encoding device, retrieval method, and retrieval device | |
CN106354746B (zh) | 搜索方法和搜索设备 | |
US10224958B2 (en) | Computer-readable recording medium, encoding apparatus, and encoding method | |
US20170300542A1 (en) | Encoding processing device, encoding processing method, decoding processing device, decoding processing method, and recording medium | |
US11055328B2 (en) | Non-transitory computer readable medium, encode device, and encode method | |
JP7210130B2 (ja) | 符号化プログラム、符号化方法および符号化装置 | |
JP7159557B2 (ja) | 動的辞書の生成プログラム、動的辞書の生成方法および復号化装置 | |
US9219497B2 (en) | Compression device, compression method, and recording medium | |
JP6931442B2 (ja) | 符号化プログラム、インデックス生成プログラム、検索プログラム、符号化装置、インデックス生成装置、検索装置、符号化方法、インデックス生成方法および検索方法 | |
US10318483B2 (en) | Control method and control device | |
JP6540306B2 (ja) | 符号化プログラム、符号化方法、符号化装置、復号化プログラム、復号化方法および復号化装置 | |
JP2020061641A (ja) | 符号化プログラム、符号化方法、符号化装置、復号化プログラム、復号化方法および復号化装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200115 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210406 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210512 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20211005 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211228 |
|
C60 | Trial request (containing other claim documents, opposition documents) |
Free format text: JAPANESE INTERMEDIATE CODE: C60 Effective date: 20211228 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20220113 |
|
C21 | Notice of transfer of a case for reconsideration by examiners before appeal proceedings |
Free format text: JAPANESE INTERMEDIATE CODE: C21 Effective date: 20220118 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20220304 |
|
C211 | Notice of termination of reconsideration by examiners before appeal proceedings |
Free format text: JAPANESE INTERMEDIATE CODE: C211 Effective date: 20220308 |
|
C22 | Notice of designation (change) of administrative judge |
Free format text: JAPANESE INTERMEDIATE CODE: C22 Effective date: 20220628 |
|
C22 | Notice of designation (change) of administrative judge |
Free format text: JAPANESE INTERMEDIATE CODE: C22 Effective date: 20221011 |
|
C23 | Notice of termination of proceedings |
Free format text: JAPANESE INTERMEDIATE CODE: C23 Effective date: 20221122 |
|
C03 | Trial/appeal decision taken |
Free format text: JAPANESE INTERMEDIATE CODE: C03 Effective date: 20221220 |
|
C30A | Notification sent |
Free format text: JAPANESE INTERMEDIATE CODE: C3012 Effective date: 20221220 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230111 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7210130 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |