CN110504973A - 文件压缩、解压方法和装置 - Google Patents

文件压缩、解压方法和装置 Download PDF

Info

Publication number
CN110504973A
CN110504973A CN201810470722.1A CN201810470722A CN110504973A CN 110504973 A CN110504973 A CN 110504973A CN 201810470722 A CN201810470722 A CN 201810470722A CN 110504973 A CN110504973 A CN 110504973A
Authority
CN
China
Prior art keywords
file
binary file
bit
byte
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810470722.1A
Other languages
English (en)
Inventor
祁明
罗超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201810470722.1A priority Critical patent/CN110504973A/zh
Publication of CN110504973A publication Critical patent/CN110504973A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Storage Device Security (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种文件压缩方法,包括:获取待压缩的二进制文件;确定至少一指定位置;以及基于所述二进制文件的剩余数据生成压缩文件,所述剩余数据包括所述二进制文件的每个字节中除所述至少一指定位置外的比特位。本公开还提供了一种文件解压方法,包括:获取待解压的二进制文件的压缩文件;获取所述压缩文件的辅助信息;以及基于所述辅助信息和所述压缩文件中的剩余数据恢复生成所述二进制文件;所述二进制文件包括:所述压缩文件中的剩余数据以及根据所述辅助信息在所述剩余数据中补充的比特位。本公开还提供了一种文件压缩装置、一种文件解压装置、一种计算机设备以及一种计算机可读介质。

Description

文件压缩、解压方法和装置
技术领域
本公开涉及计算机技术领域,更具体地,涉及一种文件压缩方法和装置以及一种文件解压方法和装置。
背景技术
互联网的本质即信息的交换,而文件作为信息的载体,伴随着信息量的增大,文件也呈现越来越大的趋势。文件的压缩能够有效地缩小文件所占用的存储空间,无论是应用于文件的本地存储,还是网络传输,同样的信息,使用更小的文件存储空间,能够使得信息存储或传递的效率得到更大的提升,因此较好的文件压缩算法,能够带来巨大的经济和社会价值。
在实现本公开构思的过程中,发明人发现现有技术中至少存在如下问题:现有的压缩技术大多是基于上层的文件格式进行压缩,即只能对特定格式的文件进行压缩,如视频压缩算法只能对视频文件进行压缩、图片压缩算法只能对图片文件进行压缩、文本压缩算法只能对文本文件进行压缩等;并且由于文件格式的限制,不同压缩技术之间不能叠加使用,无法进一步提升压缩比。
发明内容
有鉴于此,本公开提供了一种能够至少部分地解决上述技术问题的文件压缩方法和装置以及文件解压方法和装置。
本公开的一个方面提供了一种文件压缩方法,包括:获取待压缩的二进制文件,确定至少一指定位置,基于二进制文件的剩余数据生成压缩文件。其中,二进制文件的剩余数据包括二进制文件的每个字节中除所确定的至少一指定位置外的比特位。
根据本公开的实施例,上述至少一指定位置包括以下情形:在二进制文件的各字节中出现“1”的总次数最多和/或最少的比特位位置;或者,在二进制文件的各字节中出现“0”的总次数最多和/或最少的比特位位置。
根据本公开的实施例,上述生成的压缩文件中还包括辅助信息。辅助信息包括:所确定的指定位置的信息和二进制文件的校验信息,或者,二进制文件的校验信息。
根据本公开的实施例,二进制文件的校验信息包括:二进制文件的哈希值,或者,二进制文件的各字节中每种指定位置的比特位组成的数据的哈希值。
根据本公开的实施例,二进制文件的校验信息进一步包括:二进制文件的各字节中每种指定位置的比特位中出现“1”和/或“0”的总次数的信息。
本公开的另一个方面提供了一种文件解压方法,包括:获取待解压的二进制文件的压缩文件,获取该压缩文件的辅助信息,以及基于辅助信息和压缩文件中的剩余数据恢复生成二进制文件。该二进制文件包括:压缩文件中的剩余数据以及根据辅助信息在剩余数据中补充的比特位。
根据本公开的实施例,辅助信息包括:指定位置的信息和二进制文件的校验信息,或者,二进制文件的校验信息。
根据本公开的实施例,当辅助信息为指定位置的信息和二进制文件的校验信息时,上述基于辅助信息和压缩文件中的剩余数据恢复生成二进制文件包括:
根据指定位置的信息,确定剩余数据中各字节所缺失的比特位的位置。根据二进制文件的校验信息,在各字节所缺失的比特位的位置上进行补位,得到二进制文件。
根据本公开的实施例,二进制文件的校验信息包括:二进制文件的哈希值,或者,压缩文件中的剩余数据中各字节所缺失的每种位置的比特位组成的数据的哈希值。
根据本公开的实施例,二进制文件的校验信息进一步包括:压缩文件中的剩余数据中各字节所缺失的每种位置的比特位中出现“1”和/或“0”的总次数的信息。
根据本公开的实施例,当二进制文件的校验信息为二进制文件的哈希值时,上述根据二进制文件的校验信息,在各字节所缺失的比特位的位置上进行补位包括:
按照预设规则进行遍历,在每个字节的每个缺失的比特位的位置上补充“1”或“0”。判断每次补位后得到的数据的哈希值是否命中二进制文件的哈希值,是则结束补位,否则继续补位。
根据本公开的实施例,当二进制文件的校验信息包括二进制文件的哈希值、以及压缩文件中的剩余数据中各字节所缺失的每种位置的比特位中出现“1”和/或“0”的总次数的信息时,上述根据二进制文件的校验信息,在各字节所缺失的比特位的位置上进行补位包括:
按照预设规则进行遍历,对于所缺失的每种位置,在每个字节所缺失的该相应位置上补充“1”或“0”,并使得在该相应位置上所补充的“1”的总数与剩余数据中各字节所缺失的该种位置的比特位中出现“1”的总次数相同,和/或,使得在该相应位置上所补充的“0”的总数与剩余数据中各字节所缺失的该种位置的比特位中出现“0”的总次数相同。判断每次补位后得到的数据的哈希值是否命中二进制文件的哈希值,是则结束补位,否则继续补位。
本公开的另一个方面提供了一种文件压缩装置,包括:文件获取模块和压缩模块。
文件获取模块,用于获取待压缩的二进制文件。压缩模块,用于确定至少一指定位置,以及基于二进制文件的剩余数据生成压缩文件。剩余数据包括所述二进制文件的每个字节中除所述至少一指定位置外的比特位。
根据本公开的实施例,至少一指定位置包括:在二进制文件的各字节中出现“1”的总次数最多和/或最少的比特位位置,或者,在二进制文件的各字节中出现“0”的总次数最多和/或最少的比特位位置。
根据本公开的实施例,压缩文件中还包括辅助信息。辅助信息包括:指定位置的信息和二进制文件的校验信息,或者,二进制文件的校验信息。
根据本公开的实施例,二进制文件的校验信息包括:二进制文件的哈希值,或者,二进制文件的各字节中每种指定位置的比特位组成的数据的哈希值。
根据本公开的实施例,二进制文件的校验信息进一步包括:二进制文件的各字节中每种指定位置的比特位中出现“1”和/或“0”的总次数的信息。
本公开的另一个方面提供了一种文件解压装置,包括:压缩文件获取模块和解压模块。
压缩文件获取模块,用于获取待解压的二进制文件的压缩文件。解压模块,用于获取压缩文件的辅助信息,以及基于辅助信息和压缩文件中的剩余数据恢复生成二进制文件。二进制文件包括:压缩文件中的剩余数据以及根据辅助信息在剩余数据中补充的比特位。
根据本公开的实施例,辅助信息包括:指定位置的信息和二进制文件的校验信息,或者,二进制文件的校验信息。
根据本公开的实施例,当辅助信息为指定位置的信息和二进制文件的校验信息时,解压模块用于根据指定位置的信息,确定压缩文件中的剩余数据中各字节所缺失的比特位的位置,以及根据二进制文件的校验信息,在各字节所缺失的比特位的位置上进行补位,得到二进制文件。
根据本公开的实施例,二进制文件的校验信息包括:二进制文件的哈希值,或者,剩余数据中各字节所缺失的每种位置的比特位组成的数据的哈希值。
根据本公开的实施例,二进制文件的校验信息进一步包括:剩余数据中各字节所缺失的每种位置的比特位中出现“1”和/或“0”的总次数的信息。
根据本公开的实施例,当二进制文件的校验信息为二进制文件的哈希值时,解压模块用于按照预设规则进行遍历,在每个字节的每个缺失的比特位的位置上补充“1”或“0”,以及判断每次补位后得到的数据的哈希值是否命中二进制文件的哈希值,是则结束补位,否则继续补位。
根据本公开的实施例,当二进制文件的校验信息包括二进制文件的哈希值、以及剩余数据中各字节所缺失的每种位置的比特位中出现“1”和/或“0”的总次数的信息时,解压模块用于按照预设规则进行遍历,对于所缺失的每种位置,在每个字节所缺失的该相应位置上补充“1”或“0”,并使得在该相应位置上所补充的“1”的总数与剩余数据中各字节所缺失的该种位置的比特位中出现“1”的总次数相同,和/或,使得在该相应位置上所补充的“0”的总数与剩余数据中各字节所缺失的该种位置的比特位中出现“0”的总次数相同,以及判断每次补位后得到的数据的哈希值是否命中二进制文件的哈希值,是则结束补位,否则继续补位。
本公开的另一方面提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行该计算机程序时,实现如上所述的方法。
本公开的另一方面提供了一种非易失性存储介质,存储有计算机可执行指令,所述指令在被执行时用于实现如上所述的方法。
本公开的另一方面提供了一种计算机程序,所述计算机程序包括计算机可执行指令,所述指令在被执行时用于实现如上所述的方法。
根据本公开的实施例,提供了基于最底层的文件格式即对二进制文件进行压缩并解压的方案,可以至少部分地解决现有压缩技术对文件格式有限制且不同压缩技术之间不能叠加使用的问题,并因此可以实现不限制文件格式地对任何格式文件转换得到的二进制文件进行压缩和解压,以及可以与其他压缩技术叠加使用以进一步提高压缩比的技术效果。
附图说明
通过以下参照附图对本公开实施例的描述,本公开的上述以及其他目的、特征和优点将更为清楚,在附图中:
图1示意性示出了根据本公开实施例的可以应用文件压缩方法和装置和/或文件解压方法和装置的示例性系统架构;
图2示意性示出了根据本公开实施例的文件压缩方法的流程图;
图3示意性示出了根据本公开实施例的文件解压方法的流程图;
图4A示意性示出了根据本公开实施例的二进制文件的内容;
图4B示意性示出了根据本公开实施例的二进制文件的压缩文件的内容;
图4C示意性示出了根据本公开实施例的对压缩文件进行解压的方法的流程图;
图5示意性示出了根据本公开实施例的文件压缩装置的框图;
图6示意性示出了根据本公开实施例的文件解压装置的框图;以及
图7示意性示出了根据本公开实施例的适于实现文件压缩方法和/或文件解压方法的计算机系统的方框图。
具体实施方式
以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。在使用类似于“A、B或C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B或C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。本领域技术人员还应理解,实质上任意表示两个或更多可选项目的转折连词和/或短语,无论是在说明书、权利要求书还是附图中,都应被理解为给出了包括这些项目之一、这些项目任一方、或两个项目的可能性。例如,短语“A或B”应当被理解为包括“A”或“B”、或“A和B”的可能性。
图1示意性示出了根据本公开实施例的可以应用文件压缩方法和装置和/或文件解压方法和装置的示例性系统架构。该示例性系统架构100适用于文件压缩方法和装置,和/或,适用于文件解压方法和装置。需要注意的是,图1所示仅为可以应用本公开实施例的系统架构的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。
如图1所示,根据该实施例的系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对用户利用终端设备101、102、103所浏览的网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理,并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。
需要说明的是,本公开实施例所提供的文件压缩方法一般可以由服务器105执行。相应地,本公开实施例所提供的文件压缩装置一般可以设置于服务器105中。本公开实施例所提供的文件压缩方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地,本公开实施例所提供的文件压缩装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。
本公开实施例所提供的文件压缩方法也可以由终端设备101、102、103中的一个或多个执行。相应地,本公开实施例所提供的文件压缩装置也可以设置于终端设备101、102、103中的一个或多个中。
并且/或者,本公开实施例所提供的文件解压方法一般可以由服务器105执行。相应地,本公开实施例所提供的文件解压装置一般可以设置于服务器105中。本公开实施例所提供的文件解压方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地,本公开实施例所提供的文件解压装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。
本公开实施例所提供的文件解压方法也可以由终端设备101、102、103中的一个或多个执行。相应地,本公开实施例所提供的文件解压装置也可以设置于终端设备101、102、103中的一个或多个中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
图2示意性示出了根据本公开实施例的文件压缩方法的流程图。
如图2所示,该方法包括在操作S201,获取待压缩的二进制文件。
二进制作为计算机系统的基本文件格式,任何计算机文件均可转换为二进制文件来表示。本操作即获取需要进行压缩的文件对应的二进制文件,二进制文件中包括一个或多个字节,每个字节包含8个比特位。
然后,在操作S202,确定至少一指定位置。
本操作中,对于分布于字节中的8个比特位位置,可以预先约定其中一个或多个比特位位置作为上述指定位置,也可以通过预设规则从8个比特位位置中选择出一个或多个比特位位置作为上述指定位置。
在操作S203,基于二进制文件的剩余数据生成压缩文件,二进制文件的剩余数据包括二进制文件的每个字节中除所述至少一指定位置外的比特位。
本操作中,将待压缩的二进制文件的每个字节中的指定位置的比特位省去,保留二进制文件的每个字节中除指定位置外的比特位,得到二进制文件的剩余数据。例如:待压缩的二进制文件表示为:“101110010010110001100011”,其中从左向右包括三个字节:“10111001”、“00101100”和“01100011”,每个字节中的比特位位置从左至右对应于第0位至第7位。选取第5位为指定位置,则从最左侧字节“10111001”中省去第5位的比特位“0”,保留“1011101”,从中间字节“00101100”中省去第5位的比特位“1”,保留“0010100”,从最右侧字节“01100011”中省去第5位的比特位“0”,保留“0110011”。则二进制文件的剩余数据为“101110100101000110011”,基于该剩余数据生成压缩文件,实现了二进制文件的压缩。
可见,图2所示的方法在二进制层面上对文件进行压缩,对于任何文件转换得到的二进制格式都可进行压缩,不限制文件格式,可以和其他特定文件格式的压缩技术叠加使用,如在视频压缩算法压缩后叠加使用、在图片压缩算法压缩后叠加使用等,能够进一步提高文件的压缩比。
在本公开的一个实施例中,图2所示方法的操作S202中的至少一指定位置包括:在二进制文件的各字节中出现“1”的总次数最多和/或最少的比特位位置,或者,在二进制文件的各字节中出现“0”的总次数最多和/或最少的比特位位置。
例如,在获取到待压缩的二进制文件后,对二进制文件进行扫描,读取二进制文件的每个字节,根据每个字节中第0位的比特位的取值,统计得到二进制文件的各字节中第0位的比特位出现“1”的总次数和出现“0”的总次数,根据每个字节中第1位的比特位的取值,统计得到二进制文件的各字节中第1位的比特位出现“1”的总次数和出现“0”的总次数,同理地,也可统计得到第2~7位的比特位在二进制文件的各字节中出现出现“1”的总次数和出现“0”的总次数。选取在二进制文件的各字节中出现“1”的总次数最多(即出现“0”的总次数最少)的比特位位置作为指定位置,选取在二进制文件的各字节中出现“0”的总次数最多(即出现“1”的总次数最少)的比特位位置作为指定位置。依据此规则选择指定位置,将二进制文件中出现“1”或“0”的总次数最多/最少的位置的比特位省去,从统计意义上可以减少被省去的比特位的排列组合方式,极端情形下,被省去的比特位的取值都是“1”或“0”,有助于后续解压过程中对被省去的比特位的还原。
为了在需要时能够将压缩文件准确地还原回二进制文件,在本公开的一个实施例中,图2所示方法生成的压缩文件中还包括辅助信息,该辅助信息可以仅为二进制文件的校验信息,在需要时根据该二进制文件的校验信息对压缩文件中的剩余数据进行比特位补充操作,使得补充得到的文件符合二进制文件的校验信息,即还原回二进制文件。或者,辅助信息中包括指定位置的信息和二进制文件的校验信息,其中,指定位置的信息指示了本次压缩过程中二进制文件的各字节中的哪些位置的比特位被省去,即获知压缩文件中的剩余数据的各字节所缺失的位置的比特位,据此可以在需要时在相应的位置上补充比特位,并通过二进制文件的校验信息对补充得到的文件进行校验,可以更有效快速地还原回二进制文件。
具体地,二进制文件的校验信息包括:二进制文件的哈希值,或者,二进制文件的各字节中每种指定位置的比特位组成的数据的哈希值。例如:待压缩的二进制文件表示为:“1011100100101100”,其中从左向右包括两个字节:“10111001”、“00101100”,每个字节中的比特位位置从左至右对应于第0位至第7位,确定指定位置为第5位和第7位,则相应的该二进制文件的校验信息可以是:“1011100100101100”的哈希值,也可以是:由字节“10111001”的第5位比特位“0”和字节“00101100”的第5位比特位“1”组成的数据“01”的哈希值,以及,由字节“10111001”的第7位比特位“1”和字节“00101100”的第7位比特位“0”组成的数据“10”的哈希值。其中,基于哈希算法能够计算出任意数据对应的长度固定的哈希值,不同的数据对应于不同的哈希值,具有计算速度快、抗修改和抗碰撞的安全特性,得益于此特性,本实施例采用二进制文件整体的哈希值或二进制文件中被省去的比特位组成的数据的哈希值作为二进制文件的校验信息,能够快速地生成有效的二进制文件的校验信息,以辅助后续的解压还原操作。
进一步地,二进制文件的校验信息还包括:二进制文件的各字节中每种指定位置的比特位中出现“1”和/或“0”的总次数的信息。例如:在对二进制文件进行压缩时,确定指定位置为第1位和第3位,则在二进制文件的校验信息中除了二进制文件的哈希值或者第1位和第3位这两种指定位置的比特位分别组成的数据的哈希值之外,还可以包括该二进制文件的各字节中第1位比特位出现的“1”(或者“0”)的总次数以及该二进制文件的各字节中第3位比特位出现的“1”(或者“0”)的总次数。依据此信息,在后续对压缩文件进行解压缩时可以知道需要补充的每种位置的比特位中所包含的“1”和“0”的数量,有利于快速地进行补充还原,得到原来的二进制文件。
图3示意性示出了根据本公开实施例的文件解压方法的流程图,展示了对二进制文件的压缩文件进行解压的操作流程。
如图3所示,该方法包括在操作S301,获取待解压的二进制文件的压缩文件。
本操作中所获取的压缩文件是二进制文件经压缩后生成的压缩文件。
然后,在操作S302,获取压缩文件的辅助信息。
本操作中,辅助信息可以是从压缩文件中提取出来的,也可以是从其他文件中提取出来的,此处不做限制。
在操作S303,基于辅助信息和压缩文件中的剩余数据恢复生成二进制文件;二进制文件包括:压缩文件中的剩余数据以及根据辅助信息在剩余数据中补充的比特位。
本操作中,根据辅助信息对压缩文件中的剩余数据进行补位,具体为补充剩余数据所缺失的比特位,将剩余数据补充完整恢复为原来的二进制文件。
可见,对于通过上文所述的文件压缩方法将二进制文件的各字节中的一种或多种指定位置的比特位省去而生成的二进制文件的压缩文件,可以通过图3所示的方法对其进行解压,进而恢复生成原来的二进制文件。其具体方式是在压缩文件中的剩余数据中进行比特位的补位操作,该过程依然是基于二进制层面所做的操作,对被压缩的文件格式没有限制,即便压缩过程与其他压缩技术叠加使用,也可以通过该解压方法进行解压。
在本公开的一个实施例中,图3所示方法获取到的辅助信息可以仅为二进制文件的校验信息,在操作S303中根据该二进制文件的校验信息对压缩文件中的剩余数据进行比特位补充操作,使得补充得到的文件符合二进制文件的校验信息,即还原回原来的二进制文件。或者,该辅助信息包括指定位置的信息和二进制文件的校验信息。其中,指定位置的信息指示了本解压过程所对应的压缩过程中二进制文件的各字节中的哪些位置的比特位被省去,即获知压缩文件中的剩余数据的各字节所缺失的位置的比特位,据此可以在这些缺失的位置上进行补位以还原出原来的二进制信息,二进制文件的校验信息可以实现在解压过程中对补位还原出来的二进制文件的校验。
其中,当获取到的辅助信息为指定位置的信息和二进制文件的校验信息时,基于辅助信息和压缩文件中的剩余数据恢复生成二进制文件包括:根据指定位置的信息,确定剩余数据中各字节所缺失的比特位的位置;根据二进制文件的校验信息,在各字节所缺失的比特位的位置上进行补位,还原得到原来的二进制文件。可见,在获知剩余文件中所缺失的比特位的位置以及原来的二进制文件的校验信息时,能够更加迅速准确地补位还原出二进制文件。
具体地,二进制文件的校验信息包括:原来的二进制文件的哈希值,或者,剩余数据中各字节所缺失的每种位置的比特位组成的数据的哈希值。例如:原来的二进制文件表示为:“1011100100101100”,其中从左向右包括两个字节:“10111001”、“00101100”,每个字节中的比特位位置从左至右对应于第0位至第7位,压缩过程从每个字节中省去第5位和第7位的比特位生成二进制文件的压缩文件,压缩文件中的剩余数据为“101110001010”,原来的两个字节变成两个残缺字节“101110”和“001010”。对该压缩文件进行解压,获取相应的辅助信息,辅助信息中的二进制文件的校验信息可以是原来的二进制文件“1011100100101100”的哈希值,也可以是:由剩余数据“101110001010”中的残缺字节“101110”所缺失的第7位比特位“1”和残缺字节“001010”所缺失的第7位比特位“0”组成的数据“10”的哈希值,以及,由残缺字节“101110”所缺失的第5位比特位“0”和残缺字节“001010”所缺失的第5位比特位“1”组成的数据“01”的哈希值。得益于哈希值具有长度固定、计算速度快、抗修改和抗碰撞的安全特性,在解压过程中每次补位后计算哈希值与二进制文件的校验信息进行比对以判断是否要继续补位时,都十分迅速准确。
进一步地,二进制文件的校验信息还包括:剩余数据中各字节所缺失的每种位置的比特位中出现“1”和/或“0”的总次数的信息。例如:在压缩过程中,原来的二进制文件中的每个字节省去了第1位和第3位的比特位而生成压缩文件。在解压该压缩文件时,所获取的辅助信息中包括二进制文件的校验信息,在二进制文件的校验信息中除了原来的二进制文件的哈希值或者剩余数据的各字节中所缺失的第1位和第3位这两种位置的比特位分别组成的数据的哈希值之外,还可以包括剩余数据的各字节中所缺失的第1位比特位出现的“1”(或者“0”)的总次数以及剩余数据的各字节中所缺失的第3位比特位出现的“1”(或者“0”)的总次数。依据此信息,在后续对剩余数据进行补位时可以知道需要被补充的每种位置的比特位中所包含的“1”和“0”的数量,有利于快速地还原回原来的二进制文件。
在本公开的一个实施例中,当二进制文件的校验信息为二进制文件的哈希值时,上述根据二进制文件的校验信息,在各字节所缺失的比特位的位置上进行补位包括:按照预设规则进行遍历,在每个字节的每个缺失的比特位的位置上补充“1”或“0”;判断每次补位后得到的数据的哈希值是否命中二进制文件的哈希值,是则结束补位,否则继续补位。
在本公开的一个实施例中,当二进制文件的校验信息包括二进制文件的哈希值、以及剩余数据中各字节所缺失的每种位置的比特位中出现“1”和/或“0”的总次数的信息时,上述根据二进制文件的校验信息,在各字节所缺失的比特位的位置上进行补位包括:按照预设规则进行遍历,对于所缺失的每种位置,在每个字节所缺失的该相应位置上补充“1”或“0”,并使得在该相应位置上所补充的“1”的总数与剩余数据中各字节所缺失的该种位置的比特位中出现“1”的总次数相同,和/或,使得在该相应位置上所补充的“0”的总数与剩余数据中各字节所缺失的该种位置的比特位中出现“0”的总次数相同;判断每次补位后得到的数据的哈希值是否命中原来的二进制文件的哈希值,是则结束补位,否则继续补位。以上的两个实施例中,依据原来的二进制文件的哈希值可以从整体上判定剩余数据补位得到的文件是否与原来的二进制文件一致,准确性高。
在本公开的一个实施例中,当二进制文件的校验信息为剩余数据中各字节所缺失的每种位置的比特位组成的数据的哈希值时,上述根据二进制文件的校验信息,在各字节所缺失的比特位的位置上进行补位包括:按照预设规则进行遍历,对于所缺失的每种位置,在每个字节所缺失的该相应位置上补充“1”或“0”,并使得在该种位置上所补充的比特位组成的数据的哈希值与剩余数据中各字节所缺失的该种位置的比特位组成的数据的哈希值相同。
在本公开的一个实施例中,当二进制文件的校验信息包括剩余数据中各字节所缺失的每种位置的比特位组成的数据的哈希值、以及剩余数据中各字节所缺失的每种位置的比特位中出现“1”和/或“0”的总次数的信息时,上述根据二进制文件的校验信息,在各字节所缺失的比特位的位置上进行补位包括:按照预设规则进行遍历,对于所缺失的每种位置,在每个字节所缺失的该相应位置上补充“1”或“0”,并使得该种位置所补充的比特位组成的数据的哈希值与剩余数据中各字节所缺失的该种位置的比特位组成的数据的哈希值相同,且使得在该相应位置上所补充的“1”的总数与剩余数据中各字节所缺失的该种位置的比特位中出现“1”的总次数相同,和/或,使得在该相应位置上所补充的“0”的总数与剩余数据中各字节所缺失的该种位置的比特位中出现“0”的总次数相同。以上的两个实施例中,根据二进制文件的校验信息,可以更加方便快捷地获知压缩文件中剩余文件中所缺失的比特位的排列组合方式,只需找到相应的位置并将比特位补充进入即可。
下面参考图4A~图4C,结合具体实施例对图2所示的文件压缩方法方法以及图3所示的文件解压方法做进一步说明。
图4A示意性示出了根据本公开实施例的二进制文件的内容,图4B示意性示出了根据本公开实施例的二进制文件的压缩文件的内容。
基于时间换空间的原则,压缩二进制文件时,将二进制文件中的每个字节(一个字节内包含8个比特位)中的一个指定位置比特位省去不存储(具体省去哪个指定位置的比特位可以预先约定或者可以根据二进制文件的内容计算而出),得到二进制文件的剩余数据,同时,在该剩余数据末尾增加额外的辅助信息记录与此次压缩相关的信息,剩余数据和辅助信息共同构成了二进制文件的压缩文件。其中,辅助信息也可以通过二进制形式表示,辅助信息包含三个部分,第一部分是二进制文件的各字节中所省去的比特位在字节中的位置信息,即指定位置的信息,指定位置在字节中从左至右分布为第0位~第7位,则取值位置信息取值为0-7,预留3个比特位存储该指定位置的信息,第二部分是二进制文件的各字节中所省去的比特位中值“1”出现的总次数,预留100个比特位存储该信息(因为目前文件大部分都小于2100个字节,因此极端情况下,预留100个比特位足够用来存储所省去的比特位中“1”或“0”出现的总次数),第三部分是基于原来的二进制文件计算出的哈希值,本实施例中使用MD5(Message Digest Algorithm,消息摘要算法第5版)值,占用128个比特位,其中第二部分和第三部分的信息共同作为二进制文件的校验信息。
待压缩的二进制文件的内容如图4A所示,该二进制文件总长度为N个字节,每个字节为8个比特位,则该二进制文件总共为N*8个比特位,假设每个字节省去第2位的比特位,即指定位置为第2位,则得到如图4B所示的压缩文件,压缩文件中包括二进制文件的剩余数据,剩余数据中以X标记被省去的第2位的比特位,表示该比特位已被省去不存在,压缩文件中还包括辅助信息,辅助信息中包括:第一部分,被省去的比特位位置即指定位置的信息为2,二进制表示即为010,占用3个字节;第二部分,预留100个比特位表示省去的比特位中值“1”出现的总次数,第三部分,原始的二进制文件的MD5值,占用128个比特位,辅助信息可以附在剩余数据的末尾。设压缩文件包含Y(N)个比特位,可得:
Y(N)=(8-1)N+3+100+128=7N+231
可得,对图4A所示的二进制文件进行压缩后,所生成的如图4B所示的压缩文件大小为7N+231个比特位,文件压缩比C为:
C=(7N+231)/8N
当N远大于231时,压缩比C约等于87.5%。一般情况下,需要进行压缩的文件所对应的二进制文件的大小远超过231个字节时,可以借助此算法压缩至原大小的87.5%。进一步地,本公开的压缩方法可以与任意其他压缩技术叠加使用,能够更大程度地提高压缩比。
其中,在一个具体的例子中,压缩时,对待压缩的二进制文件进行扫描,读取二进制文件的每个字节,统计所有字节里各比特位位置出现“1”或“0”的总次数。统计结果如表1所示,展示了从第0位到第7位每个比特位位置在二进制文件的各字节中出现“1”的总次数。
表1
比特位位置 第0位 第1位 第2位 第3位 第4位 第5位 第6位 第7位
“1”的总次数 100 4000 300 200 8888 304 8888 3345
从表1可以看出,在二进制文件的各字节中出现“1”的总次数最多(即出现“0”的总次数最少)的比特位位置是第4位和第6位,出现“1”的总次数最少(即出现“0”的总次数最多)的比特位位置是第0位,可以在第0位、第4位和第6位中选择一个或多个作为指定位置。本例中,取最小的一位出现“1”总次数最多的比特位位置,将其作为需要省去的比特位位置,即取第4位作为指定位置。以及,由于二进制文件中省去的比特位中值“1”出现的次数为8888,其二进制表示为:“10001010111000”,总共14个比特位,则在压缩文件的辅助信息的第二部分中,预留的100个比特位中,起始86个比特位为0,后14个比特位为“10001010111000”。
相应地,由上述过程得到了二进制文件的压缩文件,以更节省空间地进行存储或传输,而后续要使用原来的二进制文件时,需要对二进制文件的压缩文件进行解压操作。图4C示意性示出了根据本公开实施例的对压缩文件进行解压的方法的流程图,由于压缩文件中的剩余文件的内容缺失了某位置的比特位,因此对压缩文件进行解压时,需要对剩余文件中所缺失的位置进行补位操作,并通过辅助信息中的原来的二进制文件的MD5值来验证补位操作后的文件是否为原来的二进制文件。如图4C所示,该方法包括:操作S401开始进行解压,在操作S402中获取压缩文件;在操作S403,读取压缩文件中的剩余数据,读取辅助信息中的二进制文件的MD5值和指定位置的信息;在操作S404,对剩余数据中各字节的指定位置的比特位进行补位;在操作S405,计算补位后的文件的MD5值;在操作S406,判断补位后的文件的MD5值是否等于二进制文件的MD5值,是则,执行操作S407,保存该补位后的文件,作为解压结果,在操作S408解压过程结束;若操作S406判断为否,重复执行操作S404-S406,直至操作S406判断为是。
以对图4B所示的压缩文件进行解压为例对图4C所示的方法流程进行说明:开始解压后,获取图4B所示的压缩文件,从该压缩文件中读取剩余数据和辅助信息,剩余数据中包括7N个比特位,辅助信息中包括:第一部分,指定位置的信息的二进制表示为010,说明剩余数据中每个字节缺失第2位的比特位,则剩余数据中每个字节剩余7个比特位,共有N个字节,第二部分,省去的比特位中值“1”出现的总次数为M,说明剩余数据中所缺失的比特位中“1”的个数是M、“0”的个数是N-M,第三部分,原始的二进制文件的MD5值,则对剩余数据进行补位,具体的补位方式为:对剩余数据的每个字节都添加第2位的比特位位置,起始M个字节的第2位均补“1”,剩余N-M个字节的第2位均补“0”,依次变化,每次补完N个第2位后就计算补位后的文件的MD5值,判断是否等于原来的二进制文件的MD5值,如果验证成功,保存该补位后得到的二进制文件,解压完成。如果一直没验证成功,则继续补位直至起始N-M个字节的第2位都补“0”,剩余M个字节的第2位均补“1”。最差的情况下,补位的可能性有种,但由于以目前计算机的CPU或显卡性能计算MD5值的速度很快,因此实际应用中补位操作不会耗费太长的时间。
图5示意性示出了根据本公开实施例的文件压缩装置的框图。
如图5所示,文件压缩装置500包括文件获取模块510和压缩模块520。
文件获取模块510用于获取待压缩的二进制文件。
压缩模块520用于确定至少一指定位置,以及基于二进制文件的剩余数据生成压缩文件,剩余数据包括二进制文件的每个字节中除至少一指定位置外的比特位。
可见,图5所示的装置在二进制层面上对文件进行压缩,对于任何文件转换得到的二进制格式都可进行压缩,不限制文件格式,可以和其他特定文件格式的压缩技术叠加使用,如在视频压缩算法压缩后叠加使用、在图片压缩算法压缩后叠加使用等,能够进一步提高文件的压缩比。
在本公开的一个实施例中,至少一指定位置包括:在二进制文件的各字节中出现“1”的总次数最多和/或最少的比特位位置,或者,在二进制文件的各字节中出现“0”的总次数最多和/或最少的比特位位置。
在本公开的一个实施例中,压缩文件中还包括辅助信息。辅助信息包括:指定位置的信息和二进制文件的校验信息,或者,二进制文件的校验信息。
在本公开的一个实施例中,二进制文件的校验信息包括:二进制文件的哈希值,或者,二进制文件的各字节中每种指定位置的比特位组成的数据的哈希值。
进一步地,在本公开的一个实施例中,二进制文件的校验信息进一步包括:二进制文件的各字节中每种指定位置的比特位中出现“1”和/或“0”的总次数的信息。
需要说明的是,文件压缩装置500中的文件获取模块510能够实现图2所示方法的操作S201,压缩模块520能够实现图2所示方法的操作S202-S203,具体实施例对应相同,上文中已有详细描述,在此不再赘述。
图6示意性示出了根据本公开实施例的文件解压装置的框图。
如图6所示,文件解压装置600包括压缩文件获取模块610和解压模块620。
压缩文件获取模块610,用于获取待解压的二进制文件的压缩文件。
解压模块620,用于获取压缩文件的辅助信息,以及基于辅助信息和压缩文件中的剩余数据恢复生成二进制文件。二进制文件包括:压缩文件中的剩余数据以及根据辅助信息在剩余数据中补充的比特位。
可见,对于利用上文所述的文件压缩装置将二进制文件的各字节中的一种或多种指定位置的比特位省去而生成的二进制文件的压缩文件,可以利用图6所示的装置对其进行解压,进而恢复生成原来的二进制文件。具体方式是在压缩文件中的剩余数据中进行比特位的补位操作,该过程依然是基于二进制层面所做的操作,对被压缩的文件格式没有限制,即便压缩过程与其他压缩技术叠加使用,也可以通过该解压方法进行解压。
根据本公开的实施例,辅助信息包括:指定位置的信息和二进制文件的校验信息,或者,二进制文件的校验信息。
根据本公开的实施例,当辅助信息为指定位置的信息和二进制文件的校验信息时,解压模块620用于根据指定位置的信息,确定压缩文件中的剩余数据中各字节所缺失的比特位的位置,以及根据二进制文件的校验信息,在各字节所缺失的比特位的位置上进行补位,得到二进制文件。
根据本公开的实施例,二进制文件的校验信息包括:二进制文件的哈希值,或者,剩余数据中各字节所缺失的每种位置的比特位组成的数据的哈希值。
进一步地,根据本公开的实施例,二进制文件的校验信息还包括:剩余数据中各字节所缺失的每种位置的比特位中出现“1”和/或“0”的总次数的信息。
根据本公开的实施例,当二进制文件的校验信息为二进制文件的哈希值时,解压模块620用于按照预设规则进行遍历,在每个字节的每个缺失的比特位的位置上补充“1”或“0”,以及判断每次补位后得到的数据的哈希值是否命中二进制文件的哈希值,是则结束补位,否则继续补位。
根据本公开的实施例,当二进制文件的校验信息包括二进制文件的哈希值、以及剩余数据中各字节所缺失的每种位置的比特位中出现“1”和/或“0”的总次数的信息时,解压模块620用于按照预设规则进行遍历,对于所缺失的每种位置,在每个字节所缺失的该相应位置上补充“1”或“0”,并使得在该相应位置上所补充的“1”的总数与剩余数据中各字节所缺失的该种位置的比特位中出现“1”的总次数相同,和/或,使得在该相应位置上所补充的“0”的总数与剩余数据中各字节所缺失的该种位置的比特位中出现“0”的总次数相同,以及判断每次补位后得到的数据的哈希值是否命中二进制文件的哈希值,是则结束补位,否则继续补位。
需要说明的是,文件解压装置600中的压缩文件获取模块610能够实现图3所示方法的操作S301,解压模块620能够实现图3所示方法的操作S302-S303,具体实施例对应相同,上文中已有详细描述,在此不再赘述。
根据本公开的实施例的模块、子模块、单元、子单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,根据本公开实施例的模块、子模块、单元、子单元中的一个或多个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
例如,文件压缩装置500和文件解压装置600可以合并在一个装置中实现,文件获取模块510和压缩模块520可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。压缩文件获取模块610和解压模块620可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。根据本公开的实施例,文件获取模块510和压缩模块520中的至少一个、压缩文件获取模块610和解压模块620中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,文件获取模块510和压缩模块520中的至少一个、压缩文件获取模块610和解压模块620中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
图7示意性示出了根据本公开实施例的适于实现文件压缩方法和/或文件解压方法的计算机系统的方框图,适用于图2所示的文件压缩方法和/或图3所示的文件解压方法,图7示出的计算机系统仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图7所示,根据本公开实施例的计算机系统700包括处理器701,其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。处理器701例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC)),等等。处理器701还可以包括用于缓存用途的板载存储器。处理器701可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
在RAM 703中,存储有系统700操作所需的各种程序和数据。处理器701、ROM 702以及RAM 703通过总线704彼此相连。处理器701通过执行ROM 702和/或RAM 703中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意,所述程序也可以存储在除ROM 702和RAM 703以外的一个或多个存储器中。处理器701也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。
根据本公开的实施例,系统700还可以包括输入/输出(I/O)接口705,输入/输出(I/O)接口705也连接至总线704。系统700还可以包括连接至I/O接口705的以下部件中的一项或多项:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口705。可拆卸介质811,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器810上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。
根据本公开的实施例,根据本公开实施例的方法流程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质811被安装。在该计算机程序被处理器701执行时,执行本公开实施例的系统中限定的上述功能。根据本公开的实施例,上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。
本公开还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的装置中所包含的;也可以是单独存在,而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现:图2所示的文件压缩方法和/或图3所示的文件解压方法。
根据本公开的实施例,计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、有线、光缆、射频信号等等,或者上述的任意合适的组合。
例如,根据本公开的实施例,计算机可读介质可以包括上文描述的ROM 702和/或RAM 703和/或ROM 702和RAM 703以外的一个或多个存储器。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合,即使这样的组合或结合没有明确记载于本公开中。特别地,在不脱离本公开精神和教导的情况下,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。
以上对本公开的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本公开的范围。尽管在以上分别描述了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本公开的范围之内。

Claims (26)

1.一种文件压缩方法,包括:
获取待压缩的二进制文件;
确定至少一指定位置;以及
基于所述二进制文件的剩余数据生成压缩文件,所述剩余数据包括所述二进制文件的每个字节中除所述至少一指定位置外的比特位。
2.根据权利要求1所述的方法,其中:
所述至少一指定位置包括:
在所述二进制文件的各字节中出现“1”的总次数最多和/或最少的比特位位置;
或者,
在所述二进制文件的各字节中出现“0”的总次数最多和/或最少的比特位位置。
3.根据权利要求1所述的方法,其中:
所述压缩文件中还包括辅助信息,所述辅助信息包括:所述指定位置的信息和所述二进制文件的校验信息,或者,所述二进制文件的校验信息。
4.根据权利要求3所述的方法,其中:
所述二进制文件的校验信息包括:所述二进制文件的哈希值,或者,所述二进制文件的各字节中每种所述指定位置的比特位组成的数据的哈希值。
5.如权利要求4所述的方法,其中:
所述二进制文件的校验信息进一步包括:所述二进制文件的各字节中每种所述指定位置的比特位中出现“1”和/或“0”的总次数的信息。
6.一种文件解压方法,包括:
获取待解压的二进制文件的压缩文件;
获取所述压缩文件的辅助信息;以及
基于所述辅助信息和所述压缩文件中的剩余数据恢复生成所述二进制文件;所述二进制文件包括:所述压缩文件中的剩余数据以及根据所述辅助信息在所述剩余数据中补充的比特位。
7.根据权利要求6所述的方法,其中:
所述辅助信息包括:指定位置的信息和所述二进制文件的校验信息,或者,所述二进制文件的校验信息。
8.根据权利要求7所述的方法,其中:当所述辅助信息为指定位置的信息和所述二进制文件的校验信息时,
所述基于所述辅助信息和所述压缩文件中的剩余数据恢复生成所述二进制文件包括:
根据所述指定位置的信息,确定所述剩余数据中各字节所缺失的比特位的位置;
根据所述二进制文件的校验信息,在各字节所缺失的比特位的位置上进行补位,得到所述二进制文件。
9.根据权利要求8所述的方法,其中:
所述二进制文件的校验信息包括:所述二进制文件的哈希值,或者,所述剩余数据中各字节所缺失的每种位置的比特位组成的数据的哈希值。
10.如权利要求9所述的方法,其中:
所述二进制文件的校验信息进一步包括:所述剩余数据中各字节所缺失的每种位置的比特位中出现“1”和/或“0”的总次数的信息。
11.如权利要求9所述的方法,其中:当所述二进制文件的校验信息为所述二进制文件的哈希值时,
根据所述二进制文件的校验信息,在各字节所缺失的比特位的位置上进行补位包括:
按照预设规则进行遍历,在每个字节的每个缺失的比特位的位置上补充“1”或“0”;
判断每次补位后得到的数据的哈希值是否命中所述二进制文件的哈希值,是则结束补位,否则继续补位。
12.如权利要求10所述的方法,其中:当所述二进制文件的校验信息包括所述二进制文件的哈希值、以及所述剩余数据中各字节所缺失的每种位置的比特位中出现“1”和/或“0”的总次数的信息时,
根据所述二进制文件的校验信息,在各字节所缺失的比特位的位置上进行补位包括:
按照预设规则进行遍历,对于所缺失的每种位置,在每个字节所缺失的该相应位置上补充“1”或“0”,并使得在该相应位置上所补充的“1”的总数与所述剩余数据中各字节所缺失的该种位置的比特位中出现“1”的总次数相同,和/或,使得在该相应位置上所补充的“0”的总数与所述剩余数据中各字节所缺失的该种位置的比特位中出现“0”的总次数相同;
判断每次补位后得到的数据的哈希值是否命中所述二进制文件的哈希值,是则结束补位,否则继续补位。
13.一种文件压缩装置,包括:
文件获取模块,用于获取待压缩的二进制文件;
压缩模块,用于确定至少一指定位置;以及基于所述二进制文件的剩余数据生成压缩文件,所述剩余数据包括所述二进制文件的每个字节中除所述至少一指定位置外的比特位。
14.根据权利要求13所述的装置,其中:所述至少一指定位置包括:
在所述二进制文件的各字节中出现“1”的总次数最多和/或最少的比特位位置;
或者,
在所述二进制文件的各字节中出现“0”的总次数最多和/或最少的比特位位置。
15.根据权利要求13所述的装置,其中:
所述压缩文件中还包括辅助信息,所述辅助信息包括:所述指定位置的信息和所述二进制文件的校验信息,或者,所述二进制文件的校验信息。
16.根据权利要求15所述的装置,其中:
所述二进制文件的校验信息包括:所述二进制文件的哈希值,或者,所述二进制文件的各字节中每种所述指定位置的比特位组成的数据的哈希值。
17.如权利要求16所述的装置,其中:
所述二进制文件的校验信息进一步包括:所述二进制文件的各字节中每种所述指定位置的比特位中出现“1”和/或“0”的总次数的信息。
18.一种文件解压装置,包括:
压缩文件获取模块,用于获取待解压的二进制文件的压缩文件;
解压模块,用于获取所述压缩文件的辅助信息;以及基于所述辅助信息和所述压缩文件中的剩余数据恢复生成所述二进制文件;所述二进制文件包括:所述压缩文件中的剩余数据以及根据所述辅助信息在所述剩余数据中补充的比特位。
19.根据权利要求18所述的装置,其中:
所述辅助信息包括:指定位置的信息和所述二进制文件的校验信息,或者,所述二进制文件的校验信息。
20.根据权利要求19所述的装置,其中:当所述辅助信息为指定位置的信息和所述二进制文件的校验信息时,
所述解压模块,用于根据所述指定位置的信息,确定所述剩余数据中各字节所缺失的比特位的位置;以及根据所述二进制文件的校验信息,在各字节所缺失的比特位的位置上进行补位,得到所述二进制文件。
21.根据权利要求20所述的装置,其中:
所述二进制文件的校验信息包括:所述二进制文件的哈希值,或者,所述剩余数据中各字节所缺失的每种位置的比特位组成的数据的哈希值。
22.如权利要求21所述的装置,其中:
所述二进制文件的校验信息进一步包括:所述剩余数据中各字节所缺失的每种位置的比特位中出现“1”和/或“0”的总次数的信息。
23.如权利要求21所述的装置,其中:当所述二进制文件的校验信息为所述二进制文件的哈希值时,
所述解压模块,用于按照预设规则进行遍历,在每个字节的每个缺失的比特位的位置上补充“1”或“0”;以及判断每次补位后得到的数据的哈希值是否命中所述二进制文件的哈希值,是则结束补位,否则继续补位。
24.如权利要求22所述的装置,其中:当所述二进制文件的校验信息包括所述二进制文件的哈希值、以及所述剩余数据中各字节所缺失的每种位置的比特位中出现“1”和/或“0”的总次数的信息时,
所述解压模块,用于:
按照预设规则进行遍历,对于所缺失的每种位置,在每个字节所缺失的该相应位置上补充“1”或“0”,并使得在该相应位置上所补充的“1”的总数与所述剩余数据中各字节所缺失的该种位置的比特位中出现“1”的总次数相同,和/或,使得在该相应位置上所补充的“0”的总数与所述剩余数据中各字节所缺失的该种位置的比特位中出现“0”的总次数相同;
判断每次补位后得到的数据的哈希值是否命中所述二进制文件的哈希值,是则结束补位,否则继续补位。
25.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如权利要求1-5中任一项所述的文件压缩方法,和/或,如权利要求6-12中任一项所述的文件解压方法。
26.一种计算机可读介质,其上存储有可执行指令,该指令被处理器执行时使处理器:
执行如权利要求1-5中任一项所述的文件压缩方法,和/或,执行如权利要求6-12中任一项所述的文件解压方法。
CN201810470722.1A 2018-05-16 2018-05-16 文件压缩、解压方法和装置 Pending CN110504973A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810470722.1A CN110504973A (zh) 2018-05-16 2018-05-16 文件压缩、解压方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810470722.1A CN110504973A (zh) 2018-05-16 2018-05-16 文件压缩、解压方法和装置

Publications (1)

Publication Number Publication Date
CN110504973A true CN110504973A (zh) 2019-11-26

Family

ID=68584459

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810470722.1A Pending CN110504973A (zh) 2018-05-16 2018-05-16 文件压缩、解压方法和装置

Country Status (1)

Country Link
CN (1) CN110504973A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111723053A (zh) * 2020-06-24 2020-09-29 北京航天数据股份有限公司 一种数据的压缩方法及装置、解压方法及装置
CN113868206A (zh) * 2021-10-08 2021-12-31 八十一赞科技发展(重庆)有限公司 一种数据压缩方法、解压缩方法、装置及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH098670A (ja) * 1995-06-16 1997-01-10 Kokusai Denshin Denwa Co Ltd <Kdd> データ伝送方法およびデータ伝送装置
WO2002001728A1 (en) * 2000-06-26 2002-01-03 Atop Innovation S.P.A. Method for numerical compression and decompression of binary data
KR20070108646A (ko) * 2006-05-08 2007-11-13 삼성전자주식회사 압축 바이너리 파일을 관리하는 단말기 및 그 방법
CN101674315A (zh) * 2009-10-20 2010-03-17 中兴通讯股份有限公司 一种时间戳压缩、解压缩的方法及装置
CN103067022A (zh) * 2012-12-19 2013-04-24 中国石油天然气集团公司 一种整型数据无损压缩方法、解压缩方法及装置
CN107919943A (zh) * 2016-10-11 2018-04-17 阿里巴巴集团控股有限公司 二进制数据的编码、解码方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH098670A (ja) * 1995-06-16 1997-01-10 Kokusai Denshin Denwa Co Ltd <Kdd> データ伝送方法およびデータ伝送装置
WO2002001728A1 (en) * 2000-06-26 2002-01-03 Atop Innovation S.P.A. Method for numerical compression and decompression of binary data
KR20070108646A (ko) * 2006-05-08 2007-11-13 삼성전자주식회사 압축 바이너리 파일을 관리하는 단말기 및 그 방법
CN101674315A (zh) * 2009-10-20 2010-03-17 中兴通讯股份有限公司 一种时间戳压缩、解压缩的方法及装置
CN103067022A (zh) * 2012-12-19 2013-04-24 中国石油天然气集团公司 一种整型数据无损压缩方法、解压缩方法及装置
CN107919943A (zh) * 2016-10-11 2018-04-17 阿里巴巴集团控股有限公司 二进制数据的编码、解码方法和装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111723053A (zh) * 2020-06-24 2020-09-29 北京航天数据股份有限公司 一种数据的压缩方法及装置、解压方法及装置
CN113868206A (zh) * 2021-10-08 2021-12-31 八十一赞科技发展(重庆)有限公司 一种数据压缩方法、解压缩方法、装置及存储介质

Similar Documents

Publication Publication Date Title
CN110019080B (zh) 数据访问方法和装置
CN108197324B (zh) 用于存储数据的方法和装置
CN110427304A (zh) 用于银行系统的运维方法、装置、电子设备以及介质
CN113312032A (zh) 前端项目资源更新方法、装置、电子设备及存储介质
CN110504973A (zh) 文件压缩、解压方法和装置
WO2013097812A1 (zh) 一种下载字库文件的方法和系统
CN112634406A (zh) 生成图片的方法、装置、电子设备、存储介质和程序产品
CN111898135A (zh) 数据处理方法、数据处理装置、计算机设备和介质
CN113873013B (zh) 一种离线包重组方法及系统
CN112926008B (zh) 生成表单页面的方法、装置、电子设备和存储介质
CN112650804B (zh) 大数据接入方法、装置、系统及存储介质
CN112486848A (zh) 一种测试数据的生成方法、装置、芯片及存储介质
CN110297945B (zh) 基于xbrl的数据信息处理方法及系统
CN103106144B (zh) 一种内存索引压缩方法和装置
WO2023061180A1 (zh) 基于多频率的数据发送和接收方法、装置和设备
CN107105004A (zh) 跨平台的服务调用方法及装置
CN104378393A (zh) 一种资源分享方法和相应的装置
CN114722781B (zh) 一种将流式文档转换为ofd文档的方法和装置
CN114035822A (zh) 一种文件更新方法及设备
CN110036621A (zh) 跨窄链路压缩频繁数据值
CN115114280A (zh) 报表生成处理方法、装置及设备
CN116204201B (zh) 业务处理方法和装置
CN109101351A (zh) 一种解析基板管理控制器web返回值的方法、装置及设备
CN110795392B (zh) 会计电子凭证的封装方法和电子设备
CN113625965B (zh) 分布式存储系统的数据存储方法、系统、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination