CN115459779A - 数据压缩方法、装置以及电子设备 - Google Patents
数据压缩方法、装置以及电子设备 Download PDFInfo
- Publication number
- CN115459779A CN115459779A CN202210960618.7A CN202210960618A CN115459779A CN 115459779 A CN115459779 A CN 115459779A CN 202210960618 A CN202210960618 A CN 202210960618A CN 115459779 A CN115459779 A CN 115459779A
- Authority
- CN
- China
- Prior art keywords
- data
- compression
- compressed
- ratio
- proportion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明公开了一种数据压缩方法、装置以及电子设备。其中,方法包括:获取待压缩数据,并获取待压缩数据中不同类型数据的第一比例;根据第一比例从多个预设压缩方案中选择目标压缩方案;利用目标压缩方案对待压缩数据进行压缩,以达到目标压缩比。该方法,可以降低工作量。
Description
技术领域
本发明涉及数据压缩技术领域,尤其涉及一种数据压缩方法、装置以及电子设备。
背景技术
用电信息采集是对电力用户的用电信息进行采集,通过采集到的数据进行存储、分析、计算从而实现、计量异常监测、电能质量监测、用电分析和管理等功能。该种数据增量巨大,为了合理利用资源、降本增效,通常在存储时使用数据压缩技术。但是,相关技术中的数据压缩技术没有针对用电信息采集数据的专用方法,获取最佳压缩比方案需反复调整,工作量大,成本高,智能程度低。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本发明的第一个目的在于提出一种数据压缩方法,以减少工作量。
本发明的第二个目的在于提出一种电子设备。
本发明的第三个目的在于提出一种数据压缩装置。
为达到上述目的,本发明第一方面实施例提出了一种数据压缩方法,所述方法包括:获取待压缩数据,并获取所述待压缩数据中不同类型数据的第一比例;根据所述第一比例从多个预设压缩方案中选择目标压缩方案;利用所述目标压缩方案对所述待压缩数据进行压缩,以达到目标压缩比。
为达到上述目的,本发明第二方面实施例提出了一种电子设备,包括存储器、处理器和存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序被所述处理器执行时,实现上述的数据压缩方法。
为达到上述目的,本发明第三方面实施例提出了一种数据压缩装置,包括:获取模块,用于获取待压缩数据,以及获取所述待压缩数据中不同类型数据的第一比例;选择模块,用于根据所述第一比例从多个预设压缩方案中选择目标压缩方案;压缩模块,用于利用所述目标压缩方案对所述待压缩数据进行压缩,以达到目标压缩比。
本发明实施例的数据压缩方法、装置以及电子设备,通过获取待压缩数据,并获取待压缩数据中不同类型数据的第一比例,根据第一比例从多个预设压缩方案中选择目标压缩方案,从而利用目标压缩方案对待压缩数据进行压缩,以达到目标压缩比,由此,可以实现在需要进行数据压缩时,自动适配最佳压缩方案,减少反复调试的工作量。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
图1是本发明一个实施例的数据压缩方法的流程图;
图2是本发明一个示例的数据压缩方法的流程图;
图3是本发明实施例的数据压缩装置的结构框图。
具体实施方式
下面参考附图描述本发明实施例的数据压缩方法、装置以及电子设备,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。参考附图描述的实施例是示例性的,不能理解为对本发明的限制。
图1是本发明一个实施例的数据压缩方法的流程图。
如图1所示,数据压缩方法包括:
S11,获取待压缩数据,并获取待压缩数据中不同类型数据的第一比例。
具体地,首先判断是否需要确定目标压缩方案,比如说,在出现需要在HBase数据库中新建数据表、需要修改压缩属性、需要压缩数据等情况时,判断需要确定目标压缩方案。
在需要确定目标压缩方案时,获取待压缩数据,并判断待压缩数据是否被指定数据类型,若待压缩数据已经被指定数据类型,则根据被指定的数据类型确定第一比例。
具体而言,可以判断能否获取到待压缩数据的表结构描述信息Schema。若能获取到待压缩数据的表结构描述信息Schema,则确定待压缩数据已经被指定数据类型,因而,若能获取到表结构描述信息Schema,则根据表结构描述信息Schema得到第一比例。
然而,若不能获取到表结构描述信息Schema,则说明待压缩数据未被指定数据类型,此时需要根据待压缩数据与预设的N个信息采集标设模型进行模糊查询,N为正整数。
其中,对于上述信息采集标设模型,首先需要获取N个建模数据表,建模数据表为标设表,为根据行业统一的模型设计得到的表,包括表名和描述文件,描述文件包括建模数据,还包括针对建模数据的注释说明,以使建模数据表中存储建模数据中各字段的取值和意义,从而可根据注释说明得到对应的第二比例,比如说,如若待压缩数据为用电信息数据,则该建模数据为预先获取的用电信息数据,进而可根据该建模数据中各字段的类型确定与该建模数据表对应的第二比例。
针对每个建模数据表,采用分词器进行拆分,得到对应的主题关键字和第二比例,其中,该分词器为IK分词器,通过IK分词器,对每个建模数据表进行表名和描述文件的拆分,对表名进行拆分得到主题关键字,对描述文件进行拆分并对拆分结果进行处理得到对应的第二比例,记录主题关键字和其对应的不同类型数据的比例,以及将该不同类型数据的比例作为第二比例。
在得到与N个建模数据表对应的主题关键字和第二比例之后,即可根据N个建模数据表及对应的主题关键字和第二比例,得到N个信息采集标设模型。
需要说明的是,在得到N个信息采集标设模型之后,还可对该N个信息采集标设模型进行持久化,通过分词器将其保存到预设位置,如可以保存到搜索服务器ElasticSearch中。
由此,在判断不能获取到表结构描述信息Schema之后,即通过主题关键字进行模糊查询。具体而言,判断能否获取到待压缩数据的主题关键字;若能获取到主题关键字,则根据主题关键字将待压缩数据与预先设置的信息采集标设模型进行匹配;若匹配成功,则获取信息采集标设模型中的不同类型数据的第二比例,将第一比例赋值为第二比例。
进一步地,若不能获取到待压缩数据的主题关键字,或者,匹配失败,则对待压缩数据进行随机取样,得到样本数据;获取样本数据中不同类型数据的第三比例;将第一比例赋值为第三比例。
S12,根据第一比例从多个预设压缩方案中选择目标压缩方案。
S13,利用目标压缩方案对待压缩数据进行压缩,以达到目标压缩比。
下面结合图2所示的具体示例对本发明实施例进行详细说明。
在该具体示例中,上述不同类型数据的第一比例,包括:数值型数据与待压缩数据的比例、字符型数据与待压缩数据的比例、复杂类型数据与待压缩数据的比例。上述多个预设压缩方案,包括:ZSTD压缩算法、LZ4压缩算法、Snappy压缩算法、GZ压缩算法。
具体地,采集到用电信息相关数据后,在需要在HBase中建表或进行数据压缩时,首先判断能否获取采集到的用电信息相关数据的表结构描述信息Schema,若能够获取,则对获取到的表结构描述信息Schema进行分析,得到第一比例,以根据第一比例判断数值型数据、字符型数据、复杂性数据和其他类型数据之间的关系。
若无法获取到表结构描述信息Schema,则根据采集的用电信息相关数据与用电信息采集标设模型进行模糊查询,即判断能否获取到采集到的用电信息相关数据中的主题关键字。若能够获取主题关键字,则通过IK分词器根据获取到的主题关键字与用电信息采集标设模型进行模糊查询,若查询到与用电信息相关数据对应的建模数据表,则将与该建模数据表对应的第二比例作为第一比例,从而根据第一比例选择目标压缩方案。
若无法获取到用电信息相关数据中的主题关键字,或者,虽然能获取到主题关键字,但根据获取到的主题关键字与用电信息采集标设模型进行模糊查询时查询失败,则对用电信息相关数据进行抽样获得样本,在获得样本后,对样本数据进行分析,得到样本数据中不同类型数据的第三比例,进而将该第三比例作为第一比例。
进一步地,根据第一比例得到数值型数据、字符型数据、复杂型数据、其他类型数据之间的关系。若数值型数据的比例最大,则选择ZSTD压缩算法作为目标压缩方案;若字符型数据的比例最大,则选择LZ4压缩算法作为目标压缩方案;若复杂类型数据的比例最大,则选择Snappy压缩算法作为目标压缩方案;若其他类型数据的比例最大,则选择GZ压缩算法作为目标压缩方案。
综上,本发明实施例的数据压缩方法,通过获取待压缩数据,并获取待压缩数据中不同类型数据的第一比例,根据第一比例从多个预设压缩方案中选择目标压缩方案,从而利用目标压缩方案对待压缩数据进行压缩,以达到目标压缩比,由此,可以实现在需要进行数据压缩时,自动适配最佳压缩方案,减少反复调试的工作量。而且,当本申请中的数据压缩方法被应用于HBase数据库中时,由于本发明中直接修改压缩方案,在修改压缩方案后再进行压缩,无需进行数据迁移,且由于无需进行数据迁移,所以无需更换存储数据的表,不会中断HBase数据库业务,同时,由于进行数据压缩时的具体步骤如HBase数据库中的major_compact合并操作也不会中断HBase数据库业务,从而使得本发明中的数据压缩方法不会中断HBase数据库业务,可以进行热操作,从而具有较好的实用性。
进一步地,本发明提出一种电子设备。
在本发明实施例中,电子设备包括存储器、处理器和存储在存储器上并可在处理器上运行的计算机程序,计算机程序被处理器执行时,实现上述的数据压缩方法。
本发明实施例的电子设备,通过实现上述的数据压缩方法,可以通过获取待压缩数据,并获取待压缩数据中不同类型数据的第一比例,根据第一比例从多个预设压缩方案中选择目标压缩方案,从而利用目标压缩方案对待压缩数据进行压缩,以达到目标压缩比,由此,可以实现在需要进行数据压缩时,自动适配最佳压缩方案,减少反复调试的工作量。
进一步地,本发明提出一种数据压缩装置。
图3是本发明实施例的数据压缩装置的结构框图。
如图3所示,数据压缩装置100包括获取模块101、选择模块102、压缩模块103。
具体地,获取模块101,用于获取待压缩数据,以及获取待压缩数据中不同类型数据的第一比例;选择模块102,用于根据第一比例从多个预设压缩方案中选择目标压缩方案;压缩模块103,用于利用目标压缩方案对待压缩数据进行压缩,以达到目标压缩比。
需要说明的是,本发明实施例的数据压缩装置的其他具体实施方式,可以参见上述的数据压缩方法。
本发明实施例的数据压缩装置,可以通过获取待压缩数据,并获取待压缩数据中不同类型数据的第一比例,根据第一比例从多个预设压缩方案中选择目标压缩方案,从而利用目标压缩方案对待压缩数据进行压缩,以达到目标压缩比,由此,可以实现在需要进行数据压缩时,自动适配最佳压缩方案,减少反复调试的工作量。
需要说明的是,在流程图中表示或在此以其他方式描述的逻辑和/或步骤,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
在本说明书的描述中,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系,不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本说明书的描述中,除非另有说明,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本发明中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (10)
1.一种数据压缩方法,其特征在于,所述方法包括:
获取待压缩数据,并获取所述待压缩数据中不同类型数据的第一比例;
根据所述第一比例从多个预设压缩方案中选择目标压缩方案;
利用所述目标压缩方案对所述待压缩数据进行压缩,以达到目标压缩比。
2.根据权利要求1所述的数据压缩方法,其特征在于,所述获取所述待压缩数据中不同类型数据的第一比例,包括:
判断能否获取到所述待压缩数据的表结构描述信息Schema;
若能获取到所述表结构描述信息Schema,则根据所述表结构描述信息Schema得到所述第一比例。
3.根据权利要求2所述的数据压缩方法,其特征在于,若不能获取到所述表结构描述信息Schema,则所述获取所述待压缩数据中不同类型数据的第一比例,包括:
判断能否获取到所述待压缩数据的主题关键字;
若能获取到所述主题关键字,则根据所述主题关键字将所述待压缩数据与预先设置的信息采集标设模型进行匹配;
若匹配成功,则获取所述信息采集标设模型中的不同类型数据的第二比例;
将所述第一比例赋值为所述第二比例。
4.根据权利要求3所述的数据压缩方法,其特征在于,若不能获取到所述待压缩数据的主题关键字,或者,匹配失败,则所述获取所述待压缩数据中不同类型数据的第一比例,包括:
对所述待压缩数据进行随机取样,得到样本数据;
获取所述样本数据中不同类型数据的第三比例;
将所述第一比例赋值为所述第三比例。
5.根据权利要求3所述的数据压缩方法,其特征在于,所述信息采集标设模型的设置方法包括:
获取N个建模数据表,其中,N为正整数,所述建模数据表包括表名和描述文件,所述描述文件包括建模数据和针对所述建模数据的注释说明;
针对每个建模数据表,采用分词器进行拆分,得到对应的主题关键字和第二比例;
根据所述N个建模数据表及对应的主题关键字和第二比例,得到N个信息采集标设模型。
6.根据权利要求1所述的数据压缩方法,其特征在于,所述不同类型数据的第一比例,包括:数值型数据与所述待压缩数据的比例、字符型数据与所述待压缩数据的比例、复杂类型数据与所述待压缩数据的比例。
7.根据权利要求6所述的数据压缩方法,其特征在于,所述多个预设压缩方案,包括:ZSTD压缩算法、LZ4压缩算法、Snappy压缩算法、GZ压缩算法。
8.根据权利要求7所述的数据压缩方法,其特征在于,所述根据所述第一比例从多个预设压缩方案中选择目标压缩方案,包括:
若所述数值型数据的比例最大,则选择ZSTD压缩算法作为所述目标压缩方案;
若所述字符型数据的比例最大,则选择LZ4压缩算法作为所述目标压缩方案;
若所述复杂类型数据的比例最大,则选择Snappy压缩算法作为所述目标压缩方案;
若其他类型数据的比例最大,则选择GZ压缩算法作为所述目标压缩方案。
9.一种电子设备,其特征在于,包括存储器、处理器和存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序被所述处理器执行时,实现如权利要求1-8中任一项所述的数据压缩方法。
10.一种数据压缩装置,其特征在于,包括:
获取模块,用于获取待压缩数据,以及获取所述待压缩数据中不同类型数据的第一比例;
选择模块,用于根据所述第一比例从多个预设压缩方案中选择目标压缩方案;
压缩模块,用于利用所述目标压缩方案对所述待压缩数据进行压缩,以达到目标压缩比。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210960618.7A CN115459779A (zh) | 2022-08-11 | 2022-08-11 | 数据压缩方法、装置以及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210960618.7A CN115459779A (zh) | 2022-08-11 | 2022-08-11 | 数据压缩方法、装置以及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115459779A true CN115459779A (zh) | 2022-12-09 |
Family
ID=84299536
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210960618.7A Pending CN115459779A (zh) | 2022-08-11 | 2022-08-11 | 数据压缩方法、装置以及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115459779A (zh) |
-
2022
- 2022-08-11 CN CN202210960618.7A patent/CN115459779A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108683530B (zh) | 多维度数据的数据分析方法、装置及存储介质 | |
CN107391744B (zh) | 数据存储、读取方法、装置及其设备 | |
CN107463661B (zh) | 数据的导入方法及装置 | |
CN110737689B (zh) | 数据标准符合性检测方法、装置、系统及存储介质 | |
CN110275878B (zh) | 业务数据检测方法、装置、计算机设备及存储介质 | |
CN111309868B (zh) | 一种知识图谱构建、检索方法及装置 | |
CN111427875B (zh) | 一种数据质量检测的抽样方法、系统及存储介质 | |
CN110941530A (zh) | 监控数据的获取方法、装置、计算机设备和存储介质 | |
CN113138934B (zh) | 自动测试的方法、介质、装置和计算设备 | |
CN112965912B (zh) | 接口测试用例生成方法、装置和电子设备 | |
CN110611715A (zh) | 一种服务链路集合云监控信息的系统和方法 | |
CN105260400A (zh) | 新能源汽车远程监控数据处理方法 | |
CN113592114A (zh) | 电网中用户报障研判方法、装置、计算机设备和存储介质 | |
CN112783906A (zh) | 工业互联网的日志数据管理方法和系统 | |
CN115459779A (zh) | 数据压缩方法、装置以及电子设备 | |
CN109947715B (zh) | 日志告警方法及装置 | |
CN115880116A (zh) | 任务调度方法、系统,可读存储介质及计算机设备 | |
CN113806205B (zh) | 软件性能测试方法、装置、电子设备及可读存储介质 | |
CN113971175A (zh) | 软件测试方法、装置及存储介质 | |
CN111143377B (zh) | 自动驾驶仿真数据收集方法、装置和系统 | |
CN108521527B (zh) | 话单差异检测方法、系统、计算机存储介质及计算机设备 | |
CN116431677B (zh) | 基于内存数据库的数据路由方法、系统和可读存储介质 | |
CN113821501B (zh) | 一种数据归档方法及装置 | |
CN112003741B (zh) | 一种告警数据处理方法、装置、设备及可读存储介质 | |
CN118503138B (zh) | 应用程序调试方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |