CN114490547A - 数据压缩方法、装置、设备及介质 - Google Patents

数据压缩方法、装置、设备及介质 Download PDF

Info

Publication number
CN114490547A
CN114490547A CN202210142145.XA CN202210142145A CN114490547A CN 114490547 A CN114490547 A CN 114490547A CN 202210142145 A CN202210142145 A CN 202210142145A CN 114490547 A CN114490547 A CN 114490547A
Authority
CN
China
Prior art keywords
data
difference value
compression
compressed
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210142145.XA
Other languages
English (en)
Inventor
卢亚东
吴锦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202210142145.XA priority Critical patent/CN114490547A/zh
Publication of CN114490547A publication Critical patent/CN114490547A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/174Redundancy elimination performed by the file system
    • G06F16/1744Redundancy elimination performed by the file system using compression, e.g. sparse files

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本申请提供了一种数据压缩方法、装置、设备及介质,属于数据处理技术领域,其中,数据压缩方法包括:获取待压缩的第一数据以及第二数据,以及获取第二数据减去第一数据的差值;其中,差值小于预设阈值;在差值为负数的情况下,按照预设规则对差值进行处理,以使处理后的差值为正;根据第一数据以及处理后的差值分别对应的数据长度,从多个候选压缩结构中分别确定目标压缩结构;基于第一数据对应的目标压缩结构对第一数据进行压缩,以及基于处理后的差值对应的目标压缩结构对处理后的差值进行压缩,以生成压缩数据,以降低第一数据以及第二数据的占用空间。本申请能提高差值有限的数据序列的压缩率,且差值越小,压缩率越高。

Description

数据压缩方法、装置、设备及介质
技术领域
本申请属于数据处理技术领域,具体涉及一种数据压缩方法、数据压缩装置、计算机可读介质以及电子设备。
背景技术
目前大数据量交互十分频繁,庞大的数据在传输过程中,对硬件设施(例如CPU、网络带宽等)造成的巨大压力,所以压缩是不可或缺的。
在特定的数据类型上,业内通用的压缩是基于差值后字节的压缩,例如可变长整型,字节紧凑的编码,压缩率最高可达25%左右,然而对于变化范围不大的数据序列,示意性的,如行情变化数据,成交量数据等,目前的压缩算法的压缩率不高。
因此,需要一种压缩算法,来提高变化范围有限的数据的压缩率。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本申请的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本申请的目的在于提供一种数据压缩方法、装置、设备及介质,至少在一定程度上克服变化范围有限的数据的压缩率不高等技术问题。
本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
根据本申请实施例的一个方面,提供一种数据压缩方法,包括:获取待压缩的第一数据以及第二数据,以及获取第二数据减去第一数据的差值;其中,差值小于预设阈值;在差值为负数的情况下,按照预设规则对差值进行处理,以使处理后的差值为数据;根据第一数据以及处理后的差值分别对应的数据长度,从多个候选压缩结构中分别确定目标压缩结构;基于第一数据对应的目标压缩结构对第一数据进行压缩,以及基于处理后的差值对应的目标压缩结构对处理后的差值进行压缩,以生成压缩数据,以降低第一数据以及第二数据的占用空间。
在一些实施例中,方法还包括:获取待压缩的数据序列,并计算数据序列中相邻的后一数据与前一数据的差值,其中,任一差值小于预设阈值;在任一差值为负数的情况下,按照预设规则对差值进行处理,以使处理后差值为数据;根据数据序列中位于首位的数据的数据长度,以及处理后的各个差值的数据长度,依次从候选压缩结构中分别确定目标压缩结构,以压缩数据序列,以降低数据序列的占用空间。
在一些实施例中,在根据第一数据以及处理后的差值分别对应的数据长度,从多个候选压缩结构中分别确定目标压缩结构之前,方法还包括:预定义多个候选压缩结构,候选压缩结构包括用于识别压缩结构的识别码以及压缩数据位长,压缩数据位长是使用候选存储机构进行存储的被压缩数据的位长;各个候选压缩结构对应的压缩数据位长互不相同;根据第一数据以及处理后的差值的数据长度,从多个候选压缩结构中确定目标压缩结构,包括:根据第一数据以及处理后的差值的数据长度,以及压缩数据位长,确定目标压缩结构。
在一些实施例中,第一数据包括第一正整数,第二数据包括第二整数;根据第一整数以及处理后的差值的数据长度,以及压缩数据位长,确定目标压缩结构,包括:根据第一正整数以及处理后的差值的数据长度,计算第一正整数以及处理后的差值分别对应的预计内存占用量,其中,预计内存占用量为2nbit,n为整数长度;将预计内存占用量与候选压缩结构对应的压缩数据位长分别进行比较;根据比较结果,确定第一正整数以及处理后的差值分别对应的目标压缩结构。
在一些实施例中,预定义各个所述候选压缩结构的隔离码,所述隔离码设置于所述识别码以及压缩数据之间,以在解压缩时根据所述隔离码区分所述识别码与所述压缩数据。
在一些实施例中,预定义候选压缩结构还包括:将所述识别码设置为由1组成,所述隔离码设置为由0组成,以通过0之前的含1的比特位数识别所述候选压缩结构。
在一些实施例中,预定义候选压缩结构还包括:设置同一所述候选压缩结构中所述识别码的位长与所述压缩数据位长成正比,以在待压缩数据的数值越小的情况下,压缩率越高。
在一些实施例中,在任一差值为非数据的情况下,按照预设规则对差值进行处理,以使处理后差值为数据,包括:在任一差值为非数据的情况下,将差值与设定数据相加,直至相加之后的和为数据。
根据本申请实施例的一个方面,提供一种数据压缩装置,包括:
获取单元,用于获取待压缩的第一数据以及第二数据,以及获取第二数据减去第一数据的差值;其中,差值小于预设阈值;
处理单元,用于在差值为负数的情况下,按照预设规则对差值进行处理,以使处理后的差值为数据;
确定单元,用于根据第一数据以及处理后的差值分别对应的数据长度,从多个候选压缩结构中分别确定目标压缩结构;
压缩单元,用于基于目标压缩结构,对第一数据以及处理后的差值分别进行压缩,以降低第二数据的占用空间。
根据本申请实施例的一个方面,提供一种计算机可读介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如以上技术方案中的数据压缩方法。
根据本申请实施例的一个方面,提供一种电子设备,该电子设备包括:处理器;以及存储器,用于存储处理器的可执行指令;其中,处理器被配置为经由执行可执行指令来执行如以上技术方案中的数据压缩方法。
根据本申请实施例的一个方面,提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行如以上技术方案中的数据压缩方法。
在本申请实施例提供的技术方案中,将除了位于首位的数据之外的其他数据通过差值存储,降低了变化范围有限的待压缩数据的存储长度,进而,还根据差值的数据长度选择与该数据长度相适配的目标压缩结构来针对性地对该差值进行压缩,以进一步来提升压缩率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示意性地示出了应用本申请技术方案的示例性系统架构框图。
图2是根据本申请一实施例提供的数据压缩方法的流程图。
图3是根据本申请一实施例提供的数据压缩方法的流程图。
图4是根据本申请一实施例提供的数据压缩方法的流程图。
图5是根据本申请一实施例提供的候选压缩结构的结构示意图。
图6示意性地示出了本申请实施例提供的数据压缩装置600的结构框图。
图7示意性示出了适于用来实现本申请实施例的电子设备的计算机系统结构框图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本申请将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本申请的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本申请的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
图1示意性地示出了应用本申请技术方案的示例性系统架构框图。
如图1所示,系统架构100可以包括终端设备110、网络120和服务器130。终端设备110可以包括智能手机、平板电脑、笔记本电脑、台式电脑等各种电子设备。服务器130可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。网络120可以是能够在终端设备110和服务器130之间提供通信链路的各种连接类型的通信介质,例如可以是有线通信链路或者无线通信链路。
根据实现需要,本申请实施例中的系统架构可以具有任意数目的终端设备、网络和服务器。例如,服务器130可以是由多个服务器设备组成的服务器群组。另外,本申请实施例提供的技术方案可以应用于终端设备110,也可以应用于服务器130,或者可以由终端设备110和服务器130共同实施,本申请对此不做特殊限定。
举例而言,本申请的方案适用于任意需要数据压缩的计算机设备或者由多台计算机设备组成的平台。该计算机设备或平台上具有本申请中用于数据压缩的主控程序,该主控程序可以是插件程序,也可以是独立程序。另外,主控程序也可以运行在压缩平台的某一台或者至少部分计算机设备中。存储设备可以存储主控程序运行所产生的数据,存储设备可以对数据压缩过程中生成的结果信息等,还可以存储主控程序中数据压缩过程中的中间数据等。该存储设备还可以用于存储数据压缩过程中生成所涉及到的各个软件版本的软件版本文件,软件版本文件包括至少一个代码文件,每个代码文件包括至少一条(或者说至少一行)代码。本申请中存储设备存储各种数据的具体方式可以有多种可能。如,在一种可能的实现方式中,该至少一台存储设备可以采用区块链形式来存储设备。其中,区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。
还需要说明的是,本申请的技术方案能提升变化范围有限的数据序列的压缩率,从而减少存储空间和提高读取效率。
下面结合具体实施方式对本申请提供的数据压缩方法做出详细说明。
图2是根据本申请一实施例提供的数据压缩方法的流程图。如图2所示,数据压缩方法可至少包括以下步骤S210至步骤S240。
步骤S210、获取待压缩的第一数据以及第二数据,以及获取第二数据减去第一数据的差值,其中,差值小于预设阈值。
需要说明的是,本申请的技术方案用于处理变化范围有限的数据集或序列。第二数据减去第一数据的差值小于预设阈值表明第二数据在第一数据基础上的变化范围有限。示意性的,待处理的数据可以是正整数或者负整数。需要说明的是,差值需小于预设阈值,以使存储差值所占用的存储空间小于直接存储第二数据所占用的空间。其中,预设阈值可以是固定数值,也可以是变化的的,在一个实施例中,预设阈值可根据第一数据的数值大小确定,示意性的,第一数据可为第一正整数,预设阈值可为第一正整数乘以0.1,从而表明第二数据与第一数据的差值不超过第一数据的10%,从而使该数据压缩算法适用于记录具有设定变化范围的数据,例如,取整后的股价。
在一个实施例中,第一数据和第二数据还可以含有小数或无理数,在第一数据和第二数据具有小数或无理数的情况下,还可以对第一数据和第二数据进行取整处理,进而对处理后的数据进行压缩,从而使存储空间减少和读取效率提高。
步骤S220、在差值为负数的情况下,按照预设规则对差值进行处理,以使处理后的差值为正。
众所周知的,负数的存储空间远大于正数,因此,本申请中,在差值为负数的情况下,按照预设规则对差值进行处理,以使处理后的差值为正。
在一个实施例中,预设规则可以是对所述负数取正处理,并给取正处理后的差值添加标识,使解压缩时根据标识还原。
在一个实施例中,预设规则还可以是对将该负数与设定正数相加,设定正数可以与前述的预设阈值相等,以保证相加后的和不为负数。
步骤S230、根据第一数据以及处理后的差值分别对应的整数长度,从多个候选压缩结构中分别确定目标压缩结构。
候选压缩结构是事先定义的用于存储第一数据和第二数据的压缩结构。根据第一数据以及处理后的差值分别对应的整数长度,从多个候选压缩结构中分别确定目标压缩结构,使所选择的目标压缩结构与待压缩整数的整数长度相适配。
步骤S240、基于第一数据对应的目标压缩结构对第一数据进行压缩,以及基于处理后的差值对应的目标压缩结构对处理后的差值进行压缩,以生成压缩数据,以降低第一数据以及第二数据的占用空间。
由于所选择的目标压缩结构与待压缩整数的整数长度相适配,从而可使用较大的存储结构存储较长的整数,较小的存储结构存储较小的数据,可降低待压缩整数的存储空间,提升压缩效率。
由此,在本申请中,将除了位于首位的数据之外的其他数据通过差值存储,降低了变化范围有限的待压缩数据的存储长度,进而,还根据差值的数据长度选择与该数据长度相适配的目标压缩结构来针对性地对该差值进行压缩以进一步来提升压缩效率。
图3是根据本申请一实施例提供的数据压缩方法的流程图。如图3所示,在该实施例中,数据压缩方法具体可包括以下几个步骤。
步骤S310、获取待压缩的数据序列,并计算数据序列中相邻的后一数据与前一数据的差值,其中,任一差值小于预设阈值。
步骤S320、在任一差值为负数的情况下,按照预设规则对差值进行处理,以使处理后差值为正。
步骤S330、根据数据序列中位于首位的数据的数据长度,以及处理后的各个差值的数据长度,依次从候选压缩结构中分别确定目标压缩结构,以压缩数据序列,以降低数据序列的占用空间。
示意性的,若待压缩的数据序列为{100,101,98,105},则所计算的差值分别{1,-3,7}。其中,-3为负数,可将-3与设定正数n相加,使其为正,设定正数n可以根据位于首位的正整数确定,例如,100乘以0.1,n设为10,也可以为其他预设数值。由此,处理后的差值序列为{1,7,7}。正整数序列中位于首位的正整数为100,处理后的各个差值分别为{1,7,7},则待压缩的数据为{100,1,7,7},显而易见地,待压缩的数据的占用空间将明显小于原始数据序列所占的空间。
图4是根据本申请一实施例提供的数据压缩方法的流程图。如图4所示,在该实施例中,在根据第一数据以及处理后的差值分别对应的整数长度,从多个候选压缩结构中分别确定目标压缩结构之前,数据压缩方法还包括以下步骤:
步骤S410、预定义多个候选压缩结构,候选压缩结构包括用于识别压缩结构的识别码以及压缩数据位长;
步骤S420、根据第一数据以及处理后的差值的数据长度,以及压缩数据位长,确定目标压缩结构。
具体的,候选压缩结构包括用于识别压缩结构的识别码以及压缩数据位长。压缩数据位长是使用候选存储机构进行存储的被压缩数据的位长。压缩数据位长是使用候选存储机构进行存储的被压缩数据的位长;各个候选压缩结构对应的压缩数据位长互不相同。
在一个实施例中,根据第一正整数以及处理后的差值的整数长度,以及压缩数据位长,确定目标压缩结构,具体可以包括以下步骤:
根据第一正整数以及处理后的差值的整数长度,计算第一正整数以及处理后的差值分别对应的预计内存占用量,其中,预计内存占用量为2nbit,n为整数长度;
将预计内存占用量与候选压缩结构对应的压缩数据位长分别进行比较;
根据比较结果,确定第一正整数以及处理后的差值分别对应的目标压缩结构。
示意性的,若一个候选压缩结构的标志码为3(十进制),压缩数据位长的3(十进制),则表明压缩数据将占用3个比特位,也就是说,该候选压缩结构最大可存储的差值为7(十进制),换言之,差值在7以下,且接近7的待压缩正整数可选用该候选压缩结构。由此,若需存储的差值为7,则可选用该标志码为3的候选压缩结构作为目标压缩结构来压缩该差值,使用该目标候选结构压缩后的数据可为“11(标识码)+111(压缩数据)”。假设差值7所对应的正整数为107,则传统地,将转换为1101011进行存储,所占用的比特位明显多于使用该实施例的方法进行压缩存储的占用位。
图5是根据本申请一实施例提供的候选压缩结构的结构示意图。
如图5所示,在该实施例中,候选压缩结构包括标识码、隔离码以及压缩数据位长。
其中,标识码可以是逐步递增的,且标识码所对应的候选压缩结构所对应的压缩数据位长也是逐步递增的。如图5所示,识别码由位长不同的1组成,逐步递增的识别码可以是1、11、111、1111等等。在标识码为1时,压缩数据位长可以为2个比特位;在标识码为11时,压缩数据位长可以为4个比特位;在标识码为111时,压缩数据位长可以为8个比特位;在标识码为1111时,压缩数据位长可以为16个比特位。由此,可在待压缩整数集中各整数的差值越小的情况下,使压缩率越高。并且,由于标识码的规律性以及标识码与压缩数据位长的对应关系的规律性,使在解压时容易查找该标识码对应的候选压缩结构,从而便于解压缩。隔离码设置于识别码以及压缩数据之间,以在解压缩时根据隔离码区分识别码与压缩数据。在标识码由1组成的前提下,隔离码可为为0,由此,可方便地区分出识别码与压缩数据。
在一个实施例中,每个候选压缩结构还可以包括效验值,该效验值用于在解压缩时验证压缩数据的解压准确性。
应当注意,尽管在附图中以特定顺序描述了本申请中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
以下介绍本申请的装置实施例,可以用于执行本申请上述实施例中的基于知识图谱的问答对生成方法。图6示意性地示出了本申请实施例提供的数据压缩装置600的结构框图。如图6所示,数据压缩装置600至少包括以下几个部分。
获取单元610,用于获取待压缩的第一数据以及第二数据,以及获取第二数据减去第一数据的差值;其中,差值小于预设阈值;
处理单元620,用于在差值为负数的情况下,按照预设规则对差值进行处理,以使处理后的差值为正;
确定单元630,用于根据第一数据以及处理后的差值分别对应的整数长度,从多个候选压缩结构中分别确定目标压缩结构;
压缩单元640,用于基于第一数据对应的目标压缩结构对第一数据进行压缩,以及基于处理后的差值对应的目标压缩结构对处理后的差值进行压缩,以生成压缩数据,以降低第一数据以及第二数据的占用空间。
由此,该装置通过将除了位于首位的数据之外的其他数据通过差值存储,降低了变化范围有限的整数的待压缩数据的数据长度,进而,还根据差值的整数长度选择与该整数长度相适配的目标压缩结构来针对性地对该差值进行压缩以进一步来提升压缩效率。
本申请各实施例中提供的数据压缩装置的具体细节已经在对应的方法实施例中进行了详细的描述,此处不再赘述。
图7示意性地示出了用于实现本申请实施例的电子设备的计算机系统结构框图。
需要说明的是,图7示出的电子设备的计算机系统700仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图7所示,计算机系统700包括中央处理器701(Central Processing Unit,CPU),其可以根据存储在只读存储器702(Read-Only Memory,ROM)中的程序或者从存储部分708加载到随机访问存储器703(Random Access Memory,RAM)中的程序而执行各种适当的动作和处理。在随机访问存储器703中,还存储有系统操作所需的各种程序和数据。中央处理器701、在只读存储器702以及随机访问存储器703通过总线704彼此相连。输入/输出接口705(Input/Output接口,即I/O接口)也连接至总线704。
以下部件连接至输入/输出接口705:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(Cathode Ray Tube,CRT)、液晶显示器(Liquid Crystal Display,LCD)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如局域网卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至输入/输出接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。
特别地,根据本申请的实施例,各个方法流程图中所描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。在该计算机程序被中央处理器701执行时,执行本申请的系统中限定的各种功能。
需要说明的是,本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本申请实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本申请实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims (10)

1.一种数据压缩方法,其特征在于,包括:
获取待压缩的第一数据以及第二数据,以及获取所述第二数据减去所述第一数据的差值;其中,所述差值小于预设阈值;
在所述差值为负数的情况下,按照预设规则对所述差值进行处理,以使处理后的差值为正;
根据所述第一数据以及处理后的差值分别对应的数据长度,从多个候选压缩结构中分别确定目标压缩结构;
基于所述第一数据对应的目标压缩结构对所述第一数据进行压缩,以及基于处理后的差值对应的目标压缩结构对所述处理后的差值进行压缩,以生成压缩数据,以降低所述第一数据以及所述第二数据的占用空间。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取待压缩的数据序列,并计算所述数据序列中相邻的后一数据与前一数据的差值,其中,任一所述差值小于所述预设阈值;
在任一所述差值为负数的情况下,按照所述预设规则对所述差值进行处理,以使处理后所述差值为正;
根据所述数据序列中位于首位的数据的数据长度,以及处理后的各个差值的数据长度,依次从所述候选压缩结构中分别确定目标压缩结构,以压缩所述数据序列,以降低所述数据序列的占用空间。
3.根据权利要求1所述的方法,其特征在于,在所述根据所述第一数据以及处理后的差值分别对应的数据长度,从多个候选压缩结构中分别确定目标压缩结构之前,所述方法还包括:
预定义多个候选压缩结构,所述候选压缩结构包括用于识别所述候选压缩结构的识别码以及压缩数据位长,所述压缩数据位长是使用所述候选存储机构进行存储的被压缩数据的比特位长度;各个所述候选压缩结构对应的压缩数据位长互不相同;
所述根据所述第一数据以及处理后的差值的数据长度,从多个候选压缩结构中确定目标压缩结构,包括:
根据所述第一数据以及处理后的差值的数据长度,以及所述压缩数据位长,确定目标压缩结构。
4.根据权利要求3所述的方法,其特征在于,所述第一数据包括第一正整数,所述第二数据包括第二整数;所述根据所述第一数据以及处理后的差值的数据长度,以及所述压缩数据位长,确定目标压缩结构,包括:
根据所述第一正整数以及处理后的差值的整数长度,计算所述第一正整数以及处理后的差值分别对应的预计内存占用量,其中,所述预计内存占用量为2nbit,n为所述整数长度;
将所述预计内存占用量与所述候选压缩结构对应的压缩数据位长分别进行比较;
根据比较结果,确定所述第一正整数以及处理后的差值分别对应的目标压缩结构。
5.根据权利要求3所述的方法,其特征在于,所述预定义多个候选压缩结构,还包括:
预定义各个所述候选压缩结构的隔离码,所述隔离码设置于所述识别码以及压缩数据之间,以在解压缩时根据所述隔离码区分所述识别码与所述压缩数据。
6.根据权利要求5所述的方法,其特征在于,所述预定义多个候选压缩结构,还包括:
将各个所述识别码设置为由不同比特位长的1组成,所述隔离码设置为由0组成,以通过0之前的含1的比特位长识别所述候选压缩结构。
7.根据权利要求3所述的方法,其特征在于,所述预定义多个候选压缩结构,还包括:
设置同一所述候选压缩结构中所述识别码的比特位长与所述压缩数据比特位长成正比,以解压缩时根据所述识别码的比特位长确定所述压缩数据的比特位长,且在待压缩正整数的数值越小的情况下,使压缩率越高。
8.一种数据压缩装置,其特征在于,所述装置包括:
获取单元,用于获取待压缩的第一数据以及第二数据,以及获取所述第二数据减去所述第一数据的差值;其中,所述差值小于预设阈值;
处理单元,用于在所述差值为负数的情况下,按照预设规则对所述差值进行处理,以使处理后的差值为正;
确定单元,用于根据所述第一数据以及处理后的差值分别对应的数据长度,从多个候选压缩结构中分别确定目标压缩结构;
压缩单元,用于基于所述目标压缩结构,对所述第一数据以及处理后的差值分别进行压缩,以降低所述第二数据的占用空间。
9.一种计算机可读介质,其特征在于,其上存储有计算机程序,该计算机程序被处理器执行时实现权利要求1至7中任意一项所述的数据压缩方法。
10.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1至7中任意一项所述的数据压缩方法。
CN202210142145.XA 2022-02-16 2022-02-16 数据压缩方法、装置、设备及介质 Pending CN114490547A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210142145.XA CN114490547A (zh) 2022-02-16 2022-02-16 数据压缩方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210142145.XA CN114490547A (zh) 2022-02-16 2022-02-16 数据压缩方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN114490547A true CN114490547A (zh) 2022-05-13

Family

ID=81479512

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210142145.XA Pending CN114490547A (zh) 2022-02-16 2022-02-16 数据压缩方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN114490547A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117220686A (zh) * 2023-09-18 2023-12-12 青岛展诚科技有限公司 一种寄生参数压缩提取系统及方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117220686A (zh) * 2023-09-18 2023-12-12 青岛展诚科技有限公司 一种寄生参数压缩提取系统及方法
CN117220686B (zh) * 2023-09-18 2024-02-23 青岛展诚科技有限公司 一种寄生参数压缩提取系统及方法

Similar Documents

Publication Publication Date Title
CN108900364B (zh) 区块链网络的管理方法、装置、介质及电子设备
Ochoa et al. QualComp: a new lossy compressor for quality scores based on rate distortion theory
CN110019865B (zh) 海量图片处理方法、装置、电子设备及存储介质
CN108875048B (zh) 报表生成方法、装置、电子设备及可读存储介质
CN114490547A (zh) 数据压缩方法、装置、设备及介质
CN113468175B (zh) 数据压缩方法、装置、电子设备及存储介质
CN111835808A (zh) 数据存储方法及装置、数据读取方法及装置、存储介质
CN112162859A (zh) 数据处理方法、装置、计算机可读介质及电子设备
CN113868214A (zh) 日志的存储方法、装置、电子设备及计算机可读介质
CN111176641B (zh) 流程节点执行方法、装置、介质及电子设备
CN113094415B (zh) 数据抽取方法、装置、计算机可读介质及电子设备
JP2024509629A (ja) 量子車型部品基礎データベースの作成方法、装置、電子機器及び記憶媒体
CN109033467B (zh) 一种多选项目表单的压缩方法、装置、介质及电子设备
CN114282968A (zh) 一种流水号的获取方法、装置、服务器和存储介质
CN115065366A (zh) 一种时序数据的压缩方法、装置、设备及存储介质
CN110264383B (zh) 一种电子合同备案方法、装置、可读存储介质及服务器
CN112131468A (zh) 推荐系统中的数据处理方法、装置
CN111142661B (zh) 信源识别方法、装置
CN111125112A (zh) 数据处理方法及装置、电子设备和计算机可读存储介质
CN117708071B (zh) 基于大数据的煤矿设备运行参数的处理方法及装置
CN115828977B (zh) 工业互联网标签编码方法、装置、介质及电子设备
CN114006914B (zh) 文件副本的云安全存储方法、系统、介质及电子设备
CN115982206B (zh) 一种处理数据的方法和装置
CN111159515B (zh) 数据处理方法、装置及电子设备
CN109857816B (zh) 测试样本的选取方法及装置、存储介质、电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination