CN106253910A - 一种压缩编码方法 - Google Patents
一种压缩编码方法 Download PDFInfo
- Publication number
- CN106253910A CN106253910A CN201610839630.7A CN201610839630A CN106253910A CN 106253910 A CN106253910 A CN 106253910A CN 201610839630 A CN201610839630 A CN 201610839630A CN 106253910 A CN106253910 A CN 106253910A
- Authority
- CN
- China
- Prior art keywords
- data
- deviant
- entropy
- coding method
- binary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明公开了一种压缩编码方法,包括:字符对应字码表偏移值与二进制数据;利用所述字码表的引用,输出指定字符所对应的偏移值;根据偏移值求熵,按照熵值的大小构建二叉树,而由根节点到叶节点的过程,左子树为0右子树为1输出二进制数;根据对多个二进制数据进行拼接编译所形成的字符串数据,进行通讯传输;本发明便于在由指定格式的传输数据或大数据频繁传输的压缩编码,且压缩效率高,实现复杂度低。
Description
技术领域
本发明属于数据压缩及通讯领域,涉及一种数据压缩编码方法。
背景技术
随着互联网通讯的发展,传输数据量不断增大,连接数量不断增多,对通讯中网速的压力日益增大,而研究如何将数据中重复数据用更小的数据代替,并剔除数据中冗余的数据,以减少占用空间的大小,成为人们研究的热点。
直到20世纪70年代,数据压缩才在计算机领域开始扮演重要角色,那时互联网变得更加流行,Lempel-Ziv算法被发明出来,但压缩算法在计算机领域之外有着更悠久的历史。发明于1838年的Morsecode,是最早的数据压缩实例,为英语中最常用的字母比如“e”和“t”分配更短的Morse code。所谓压缩无非是将一个符号出现的概率用更短的符号来表示,以达到数据压缩的效果。但目前压缩技术针对性差,压缩解压时间长。
发明内容
本发明为了解决上述至少一个问题和/或不足,并提供下述至少一种有点,响应的提供了一种压缩编码方法。
一方面,在压缩编码方法中,包括:字符对应字码表偏移值与二进制数据;利用所述字码表生成偏移值;利用熵生成二进制数据;利用所产生的二进制数据,拼接编码生成输出数据串;
另一方面,在压缩编码方法中,偏移值为以所述字符表的偏移值,为数据在字符表中的地址对应字符表引用的偏移值;
另一方面,在压缩编码方法中,所述二进制数据为对所述字码表偏移值求熵,根据熵值进行二叉树排列,根据从根节点到叶节点的过程所得的二进制数据;
另一方面,在压缩编码方法中,二叉树为,根据熵值由小到大排列的优先队列,根据最小两个熵值相加,并合并成子树,直到合并为一颗二叉树;
本发明公开了一种压缩编码方法,包括:字符对应字码表偏移值与二进制数据;利用所述字码表的引用,输出指定字符所对应的偏移值;根据偏移值求熵,按照熵值的大小构建二叉树,而由根节点到叶节点的过程,左子树为0右子树为1输出二进制数;根据对多个二进制数据进行拼接编译所形成的字符串数据,进行通讯传输;本发明便于在由指定格式的传输数据或大数据频繁传输的压缩编码,且压缩效率高,实现复杂度低。
附图说明
图1为压缩编码方法示意图;
图2为压缩编码根据熵值生成二叉树示意图。
具体实施方式
本发明公开了一种压缩编码方法,包括:字符对应字码表偏移值与二进制数据;利用所述字码表的引用,输出指定字符所对应的偏移值;根据偏移值求熵,按照熵值的大小构建二叉树,而由根节点到叶节点的过程,左子树为0右子树为1输出二进制数;根据对多个二进制数据进行拼接编译所形成的字符串数据,进行通讯传输;本发明便于在由指定格式的传输数据或大数据频繁传输的压缩编码,且压缩效率高,实现复杂度低。
下面通过附图以及具体实施例对本发明技术方案做详细的说明,应当理解,本发明实施例以及实施例中的具体技术特征只是对本发明技术方案的说明,而不是限定,在不冲突的情况下,本发明实施例以及实施例中的具体技术特征可以相互组合。
如下,结合图1与图2对本发明压缩编码方法进行说明。图1为如图1压缩编码方法流程示意图,图二为根据熵值生成二叉树的示意图。
如图1所示,在压缩编码方法中,根据输入字符在字码表中查找对应字符的相对于字码表引用的偏移值。根据偏移值对应二叉树的叶节点,由根节点到叶节点路径,左子树为0右子树为1,说对应的二进制数据。将字符创中的每一个字符对应的二进制数据拼接按照每8位一个字符所组成的字符串为压缩后数据进行发送。
熵值:每一个数据集都有一定的信息量,这就是所谓的熵。一组数据的熵是每个符号熵的总和,符号Z的熵S定义为:Sz=-lgPz。其中Pz是数据集中z出现的概率,如果我们确切的知道z出现了多少次,那么Pz就是z出现的频率,如果z在有32个符号的数据集中出现了8次,也就是1/4的概率没那么z的熵为:-lg(1/4)=2。这意味着如果用超过两位的数来表述z将是一种浪费。如果在一般情况下用一个字节(即8位)来表示一个符号,那么这种情况下使用压缩编码方法可以大幅度减小数据的容量。
如图2所述构建二叉树。首先将数据按照熵值进行升序排列,可按照下述主要过程进行:
步骤I,根据熵值进行升序排列。
步骤II,数组的最低两位进行树合并,并将树中所有叶节点的熵值相加,并再对数组进行升序排列。
重复步骤II直到只剩下一棵树,并将数据到左子树的的过程规定为0,到右子树的过成为1.那么在根节点到叶节点的过程就为一个在树中的唯一二进制数据。
一个字节由8位组成,只要是在0-255数据之间都有八位表示,而当数据件小时前面位数将用无意义的0来填充,而将无意义的0变为有意义的数据,由于我们的树不为平衡二叉树,所以由根节点到叶节点的路径所产生的二进制也是不固定的。所以可以将字符创所产生的二进制数每8位分成一个字符,所组成的字符串,进行发送。而接受端再按照路径解码,还原字符串。
例如用二进制表示下列字符串。
GoodJob
假设Gjdbo对应图2中I中说对应的熵值,那么他们分别对应的二进制数据就为100101 00 01 11。即二进制组成的二进制字符串为1001 1110 0101 1101仅占用两个字符,而原字符串占用7个字符创。
本发明与现有技术相比的优点在于:
实现复杂度低,在有针性对数据进行字码表创建后,可以对数据进行大幅度压缩,且字码表与二叉树,皆为在运行时以存放在内存中,在进行查询,输出二进制更为快捷。
尽管已描述了本申请的优选实施例,但本领域内的普通技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (8)
1.一种压缩编码方法,其特征在于:
利用所述字码表生成偏移值;
利用偏移值的离散程度熵生成二进制数据;
利用所产生的二进制数据,拼接编码生成输出数据串。
2.如权利要求1所述压缩编码方法,其特征在于:
所述偏移值为以所述字符表的偏移值,为数据在字符表中的地址对应字符表引用的偏移值。
3.如权利要求1所述压缩编码方法,其特征在于:
所述字码表,为与预先存储的字符,根据数值出现次数由大到小排列。
4.如权利要求1所述压缩编码方法,其特征在于;
所述二进制数据为对所述字码表偏移值求熵,根据熵值进行二叉树排列,根据从根节点到叶节点的过程所得的二进制数据。
5.如权利要求1所述压缩编码方法,其特征在于:
所述输出字符串为二进制数据拼接编码生成。
6.如权利要求1所述压缩编码方法,其特征在于:
所述求熵为,根据指定数据在总数据S中出现的次数N,进行-lg(N/S)所得数值。
7.如权利要求1所述压缩编码方法,其特征在于:
所述二叉树为,根据熵值由小到大排列的优先队列,根据最小两个熵值相加,并合并成子树,直到合并为一颗二叉树。
8.如权利要求1所述压缩编码方法,其特征在于:
利用所述字码表产生偏移值;
利用所述二叉树产生二进制数据;
利用所述二进制数据,进行拼接编码,产生输出字符串。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610839630.7A CN106253910A (zh) | 2016-09-22 | 2016-09-22 | 一种压缩编码方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610839630.7A CN106253910A (zh) | 2016-09-22 | 2016-09-22 | 一种压缩编码方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106253910A true CN106253910A (zh) | 2016-12-21 |
Family
ID=57600335
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610839630.7A Pending CN106253910A (zh) | 2016-09-22 | 2016-09-22 | 一种压缩编码方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106253910A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111520231A (zh) * | 2019-12-30 | 2020-08-11 | 哈尔滨工程大学 | 一种基于chde和pwfp的共轨喷油器敏感故障特征提取方法 |
CN112507665A (zh) * | 2021-02-01 | 2021-03-16 | 北京江融信科技有限公司 | 一种基于圆周率pi的中文数据压缩和同步加密方法及系统 |
CN114205613A (zh) * | 2021-12-02 | 2022-03-18 | 北京智美互联科技有限公司 | 互联网音视频数据同步压缩的方法和系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1447603A (zh) * | 2003-01-10 | 2003-10-08 | 李春林 | 基于信源高阶熵的数据压缩方法 |
CN1547326A (zh) * | 2003-11-28 | 2004-11-17 | 北京大学 | 可扩展标记语言数据流压缩器及其压缩方法 |
CN1826732A (zh) * | 2003-09-02 | 2006-08-30 | 诺基亚公司 | 霍夫曼编码和解码 |
CN101945286A (zh) * | 2010-09-29 | 2011-01-12 | 上海华为技术有限公司 | 压缩编码方法、解码解压方法、装置和通信系统 |
CN104240747A (zh) * | 2013-06-07 | 2014-12-24 | 炬力集成电路设计有限公司 | 一种多媒体数据获取的方法及装置 |
CN104283568A (zh) * | 2013-07-12 | 2015-01-14 | 中国科学院声学研究所 | 一种基于部分霍夫曼树的数据压缩编码方法 |
CN104283567A (zh) * | 2013-07-02 | 2015-01-14 | 北京四维图新科技股份有限公司 | 一种名称数据的压缩、解压缩方法及设备 |
-
2016
- 2016-09-22 CN CN201610839630.7A patent/CN106253910A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1447603A (zh) * | 2003-01-10 | 2003-10-08 | 李春林 | 基于信源高阶熵的数据压缩方法 |
CN1826732A (zh) * | 2003-09-02 | 2006-08-30 | 诺基亚公司 | 霍夫曼编码和解码 |
CN1547326A (zh) * | 2003-11-28 | 2004-11-17 | 北京大学 | 可扩展标记语言数据流压缩器及其压缩方法 |
CN101945286A (zh) * | 2010-09-29 | 2011-01-12 | 上海华为技术有限公司 | 压缩编码方法、解码解压方法、装置和通信系统 |
CN104240747A (zh) * | 2013-06-07 | 2014-12-24 | 炬力集成电路设计有限公司 | 一种多媒体数据获取的方法及装置 |
CN104283567A (zh) * | 2013-07-02 | 2015-01-14 | 北京四维图新科技股份有限公司 | 一种名称数据的压缩、解压缩方法及设备 |
CN104283568A (zh) * | 2013-07-12 | 2015-01-14 | 中国科学院声学研究所 | 一种基于部分霍夫曼树的数据压缩编码方法 |
Non-Patent Citations (2)
Title |
---|
张红军等: ""基于改进哈夫曼编码的数据压缩方法研究"", 《唐山师范学院学报》 * |
田端财等: ""基于哈夫曼编码的图像压缩技术研究"", 《科技资讯》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111520231A (zh) * | 2019-12-30 | 2020-08-11 | 哈尔滨工程大学 | 一种基于chde和pwfp的共轨喷油器敏感故障特征提取方法 |
CN112507665A (zh) * | 2021-02-01 | 2021-03-16 | 北京江融信科技有限公司 | 一种基于圆周率pi的中文数据压缩和同步加密方法及系统 |
CN112507665B (zh) * | 2021-02-01 | 2021-06-01 | 北京江融信科技有限公司 | 一种基于圆周率pi的中文数据压缩和同步加密方法及系统 |
CN114205613A (zh) * | 2021-12-02 | 2022-03-18 | 北京智美互联科技有限公司 | 互联网音视频数据同步压缩的方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8344916B2 (en) | System and method for simplifying transmission in parallel computing system | |
CN101807207B (zh) | 一种基于内容差异比较的文档共享方法 | |
CN102970043B (zh) | 一种基于gzip的压缩硬件系统及其加速方法 | |
JPH05300027A (ja) | 可逆可変長符号化方式 | |
CN106253910A (zh) | 一种压缩编码方法 | |
US11070231B2 (en) | Reducing storage of blockchain metadata via dictionary-style compression | |
CN107561564B (zh) | 一种北斗卫星信息传输的压缩实现方法 | |
EP4082119A1 (en) | Systems and methods of data compression | |
CN101469989B (zh) | 一种手机网络导航中导航数据的压缩方法 | |
CN114666212A (zh) | 配置数据下发方法 | |
JP6835285B1 (ja) | データ圧縮方法、データ圧縮装置、データ圧縮プログラム、データ伸長方法、データ伸長装置およびデータ伸長プログラム | |
CN103210590B (zh) | 压缩方法及设备 | |
CN110113402B (zh) | 一种web服务通信的方法及装置 | |
Farkaš et al. | A new technique for incorporating RLL properties into 5G LDPC codes without additional redundancy | |
CN115604365B (zh) | 数据编解码方法、装置、电子设备及可读存储介质 | |
US9235610B2 (en) | Short string compression | |
Jain et al. | A comparative study of lossless compression algorithm on text data | |
CN105630870B (zh) | 搜索请求处理方法及系统 | |
CN112506919A (zh) | 一种结构化的icd生成方法 | |
Li et al. | Software-defined gpu-cpu empowered efficient wireless federated learning with embedding communication coding for beyond 5g | |
CN114095036B (zh) | 一种动态哈夫曼编码的码长生成装置 | |
CN112995340B (zh) | 一种基于区块链的去中心化文件系统再平衡方法 | |
CN112769522B (zh) | 一种基于Partition结构的编码分布式计算方法 | |
CN113726342B (zh) | 面向大规模图迭代计算的分段差值压缩与惰性解压方法 | |
CN114401013B (zh) | 一种适用于deflate格式的Huffman压缩编码字符频率统计装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20161221 |
|
RJ01 | Rejection of invention patent application after publication |