CN112667633A - 一种基于统计概率的数据压缩方法及系统 - Google Patents

一种基于统计概率的数据压缩方法及系统 Download PDF

Info

Publication number
CN112667633A
CN112667633A CN202011580494.7A CN202011580494A CN112667633A CN 112667633 A CN112667633 A CN 112667633A CN 202011580494 A CN202011580494 A CN 202011580494A CN 112667633 A CN112667633 A CN 112667633A
Authority
CN
China
Prior art keywords
data
value
statistical probability
compression method
stored
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011580494.7A
Other languages
English (en)
Inventor
赵鹏
王立峰
刘守刚
李建伟
李洪海
翟勇
任兴辉
苑丽伟
路宽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Luneng Software Technology Co Ltd
Original Assignee
Shandong Luneng Software Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Luneng Software Technology Co Ltd filed Critical Shandong Luneng Software Technology Co Ltd
Priority to CN202011580494.7A priority Critical patent/CN112667633A/zh
Publication of CN112667633A publication Critical patent/CN112667633A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本公开提供了一种基于统计概率的数据压缩方法及系统,获取电力系统实时数据库的数据;根据获取的数据,得到数据数值分布特征;根据得到的数值分布特征,划分预设时间步长内需要压缩的数据节点;根据压缩节点,对数据中的质量值和指令值对应的低概率值编码,开关量对应的变化时间点值编码;根据得到的各类型的编码,生成压缩数据;本公开通过分析电力领域质量值、开关量以及指令数值的变化规律,按照只存低概率值或变化的时间点值的思路,实现数据压缩处理;解压过程中,无需上下关联,只需要对被压数据进行相对值填充,即可实现解压;不影响其他压缩使用,可以混合传统的压缩算法,具有很好的广谱性。

Description

一种基于统计概率的数据压缩方法及系统
技术领域
本公开涉及电力数据处理技术领域,特别涉及一种基于统计概率的数据压缩方法及系统。
背景技术
本部分的陈述仅仅是提供了与本公开相关的背景技术,并不必然构成现有技术。
实时数据库主要具有高实时性、高数据吞吐量以及高可靠性的特点,随着工业技术的快速发展,其需要处理和存储的数据量急剧上升,因此,非常有必要将数据压缩技术引入实时数据库系统中。
发明人发现,现行的实时数据压缩方法包括有损压缩和无损压缩,或是两种压缩方式的结合,其目的就是提高实时数据的压缩比,但是上述数据压缩方式的压缩效果依然较差,依然需要大量的存储空间进行数据存储,给数据的存储带来的极大的压力。
发明内容
为了解决现有技术的不足,本公开提供了一种基于统计概率的数据压缩方法及系统,通过分析电力领域质量值、开关量以及指令数值的变化规律,按照只存低概率值或变化的时间点值的思路,实现数据压缩处理;解压过程中,无需上下关联,只需要对被压数据进行相对值填充,即可实现解压;不影响其他压缩使用,可以混合传统的压缩算法,具有很好的广谱性。
为了实现上述目的,本公开采用如下技术方案:
本公开第一方面提供了一种基于统计概率的数据压缩方法。
一种基于统计概率的数据压缩方法,包括以下步骤:
获取电力系统实时数据库的数据;
根据获取的数据,得到数据数值分布特征;
根据得到的数值分布特征,划分预设时间步长内需要压缩的数据节点;
根据压缩节点,对数据中的质量值和指令值对应的低概率值编码,开关量对应的变化时间点值编码;
根据得到的各类型的编码,生成压缩数据。
本公开第二方面提供了一种基于统计概率的数据解压方法,用于本公开第一方面所述的基于统计概率的数据压缩方法,对被压缩数据解压后,根据数据分布特征进行数据填充,得到原始数据。
本公开第三方面提供了一种基于统计概率的数据压缩系统。
一种基于统计概率的数据压缩系统,包括:
数据获取模块,被配置为:获取电力系统实时数据库的数据;
分布特征提取模块,被配置为:根据获取的数据,得到数据数值分布特征;
数据节点划分模块,被配置为:根据得到的数值分布特征,划分预设时间步长内需要压缩的数据节点;
数据编码模块,被配置为:根据压缩节点,对数据中的质量值和指令值对应的低概率值编码,开关量对应的变化时间点值编码;
数据压缩模块,被配置为:根据得到的各类型的编码,生成压缩数据。
本公开第四方面提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现如本公开第一方面所述的基于统计概率的数据压缩方法中的步骤。
本公开第五方面提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现如本公开第二方面所述的基于统计概率的数据解压方法中的步骤。
本公开第六方面提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如本公开第一方面所述的基于统计概率的数据压缩方法中的步骤。
本公开第七方面提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如本公开第二方面所述的基于统计概率的数据解压方法中的步骤。
与现有技术相比,本公开的有益效果是:
1、本公开所述的方法、系统、介质或电子设备,压缩率较大,通过数据的变化规律,只存储低概率值和变化时间点的值,无需数据变换和其他关键信息参考,在原始数据不变的基础上实现最大压缩。
2、本公开所述的方法、系统、介质或电子设备,实现了数据无损压缩,保留了数据的全部信息,解压时可以完全还原数据信息,不造成数据和数据精度损失。
3、本公开所述的方法、系统、介质或电子设备,普适性高,基于传统压缩方法的二次压缩方案,不影响传统的数据压缩方法使用,具有很好的普适性。
4、本公开所述的方法、系统、介质或电子设备,可移植性好,可以适用于任意数据库,具有很好的可移植性。
本公开附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本公开的实践了解到。
附图说明
构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。
图1为本公开实施例1提供的压缩方法的流程示意图。
图2为本公开实施例1提供的开关量测点阶跃图。
具体实施方式
下面结合附图与实施例对本公开作进一步说明。
应该指出,以下详细说明都是示例性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。
实施例1:
如图1所示,本公开实施例1提供了基于统计概率的数据压缩方法,包括以下步骤:
步骤1:实时数据数值分布特征判断
根据电力领域实时数据的特点,质量值、开关量以及指令数值的变化规律比较稳定。其中,质量值是与数据值成对出现的数据,一般状态都是GOOD,只有极少的情况下才是异常,数据库中用0代表GOOD,非0代表异常;
开关量是指非连续性信号的采集和输出,例如遥信采集和遥控输出,它只有1和0两种状态,通常两种状态都是交叠持续发生;指令值的变化规律与开关量类似。
步骤2:确定数据压缩节点
根据步骤1所述的实时数据中数值分布特征,在该时间步长内,查询质量值、开关量以及指令数值的变化节点,并以此对数据进行分段,作为待压缩处理数据。
步骤3:压缩数据编码
根据数据压缩节点,对各类型数据对应的低概率值或变化时间点值进行编码。
步骤4:数据压缩
根据步骤3中实时数据各类型的编码,生成所述时间序列数据流的压缩数据。
具体的,质量值、开关量以及指令值的分布特征判断方法如下:
(1)质量值
数据库前设置的质量值是1字节存储,每个BIT存储一类状态,0代表GOOD,1代表问题。
表1:质量值存储位
Figure BDA0002864307050000051
Figure BDA0002864307050000061
不论质量值是否好坏,系统现在全部存储,也就是一个数据值跟一个数据状态码。在98%以上都是GOOD状态下,数据状态码就成了一种冗余度极高的数据,它绝大部分的数据保持同一个值得情况,即GOOD。
基于这种情况,对于数据状态码的存储,系统采用的策略是如果状态码是GOOD的,则不存,否则,将存储,即存储有问题的状态码。这样极大减少了数据状态码的存储,同时,查询时,如果没有,则为GOOD,很容易补充。
对于1帧的数据,如果有10万测点,每小时节省的存储空间约等于100,000*3600=3.6G空间。这样测点越多,节省空间越多,按照数据值占4个字节计算,节省近1/5值空间。
(2)开关量
开关量只有1和0两种状态,这是数字电路中的开关性质,而电力上指电路的开和关或者说触点的接通和断开,以一段时间的开关量为例,其变化情况如图2所示。
数据库一共存储了1026点,期间变化一次。设想如果数据库只存储变化的点,那么这期间只要存储一次,存储量将大大减少。在查询开关量某点的值,如果没有,则只要前推最近的测点值即可,作为本值。
根据以上的变化规律,现在对开关量的存储,变成了只存储变化的时间点值,无变化的值将不存储。数据库通过这种存储策略,将大大减少存储容量,提高存储空间利用率。当然对于值变化缓慢的测点,如十几个小时、1天、几天、1个月或几个月才发生变化,为了减少两个变化点之间过长问题,可以设置最长时间,超过最长时间不变化的值也将存储。
(3)指令值
指令值有多个值,可以是整数型,也可以是浮点类型,指令值的变化规律与开关量类似,都会保持一段时间的值不发生变化,因此,其压缩方法参照开关量。
实施例2:
本公开实施例2提供了一种基于统计概率的数据解压方法,用于本公开实施例1所述的基于统计概率的数据压缩方法,对被压缩数据解压后,根据数据分布特征进行数据填充,得到原始数据。
实施例3:
本公开实施例3提供了一种基于统计概率的数据压缩系统,包括:
数据获取模块,被配置为:获取电力系统实时数据库的数据;
分布特征提取模块,被配置为:根据获取的数据,得到数据数值分布特征;
数据节点划分模块,被配置为:根据得到的数值分布特征,划分预设时间步长内需要压缩的数据节点;
数据编码模块,被配置为:根据压缩节点,对数据中的质量值和指令值对应的低概率值编码,开关量对应的变化时间点值编码;
数据压缩模块,被配置为:根据得到的各类型的编码,生成压缩数据。
所述系统的工作方法与实施例1提供的基于统计概率的数据压缩方法相同,这里不再赘述。
实施例4:
本公开实施例4提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现如本公开实施例1所述的基于统计概率的数据压缩方法中的步骤,所述步骤为:
获取电力系统实时数据库的数据;
根据获取的数据,得到数据数值分布特征;
根据得到的数值分布特征,划分预设时间步长内需要压缩的数据节点;
根据压缩节点,对数据中的质量值和指令值对应的低概率值编码,开关量对应的变化时间点值编码;
根据得到的各类型的编码,生成压缩数据。
详细步骤与实施例1提供的基于统计概率的数据压缩方法相同,这里不再赘述。
实施例5:
本公开实施例5提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现如本公开实施例2所述的基于统计概率的数据解压方法中的步骤。
实施例6:
本公开实施例6提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如本公开实施例1所述的基于统计概率的数据压缩方法中的步骤,所述步骤为:
获取电力系统实时数据库的数据;
根据获取的数据,得到数据数值分布特征;
根据得到的数值分布特征,划分预设时间步长内需要压缩的数据节点;
根据压缩节点,对数据中的质量值和指令值对应的低概率值编码,开关量对应的变化时间点值编码;
根据得到的各类型的编码,生成压缩数据。
详细步骤与实施例1提供的基于统计概率的数据压缩方法相同,这里不再赘述。
实施例7:
本公开实施例7提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如本公开实施例2所述的基于统计概率的数据解压方法中的步骤。
本领域内的技术人员应明白,本公开的实施例可提供为方法、系统、或计算机程序产品。因此,本公开可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccessMemory,RAM)等。
以上所述仅为本公开的优选实施例而已,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。

Claims (10)

1.一种基于统计概率的数据压缩方法,其特征在于:包括以下步骤:
获取电力系统实时数据库的数据;
根据获取的数据,得到数据数值分布特征;
根据得到的数值分布特征,划分预设时间步长内需要压缩的数据节点;
根据压缩节点,对数据中的质量值和指令值对应的低概率值编码,开关量对应的变化时间点值编码;
根据得到的各类型的编码,生成压缩数据。
2.如权利要求1所述的基于统计概率的数据压缩方法,其特征在于:
对于质量值,如果状态码是GOOD,则不存;否则,将存储。
3.如权利要求1所述的基于统计概率的数据压缩方法,其特征在于:
对于开关量,只存储变化的时间点值,无变化的值不存储。
4.如权利要求3所述的基于统计概率的数据压缩方法,其特征在于:
对于开关量变化超过预设时间的测点,设置最长时间,超过最长时间不变化的值将存储。
5.如权利要求1所述的基于统计概率的数据压缩方法,其特征在于:
对于指令值,只存储变化的时间点值,无变化的值不存储。
6.如权利要求5所述的基于统计概率的数据压缩方法,其特征在于:
对于指令值变化超过预设时间的测点,设置最长时间,超过最长时间不变化的值将存储。
7.一种基于统计概率的数据解压方法,其特征在于:用于权利要求1-6任一项所述的基于统计概率的数据压缩方法,对被压缩数据解压后,根据数据分布特征进行数据填充,得到原始数据。
8.一种基于统计概率的数据压缩系统,其特征在于:包括:
数据获取模块,被配置为:获取电力系统实时数据库的数据;
分布特征提取模块,被配置为:根据获取的数据,得到数据数值分布特征;
数据节点划分模块,被配置为:根据得到的数值分布特征,划分预设时间步长内需要压缩的数据节点;
数据编码模块,被配置为:根据压缩节点,对数据中的质量值和指令值对应的低概率值编码,开关量对应的变化时间点值编码;
数据压缩模块,被配置为:根据得到的各类型的编码,生成压缩数据。
9.一种计算机可读存储介质,其上存储有程序,其特征在于,该程序被处理器执行时实现如权利要求1-6任一项所述的基于统计概率的数据压缩方法中的步骤;
或者,
该程序被处理器执行时实现如权利要求7所述的基于统计概率的数据解压方法中的步骤。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-6任一项所述的基于统计概率的数据压缩方法中的步骤;
或者,
所述处理器执行所述程序时实现如权利要求7所述的基于统计概率的数据解压方法中的步骤。
CN202011580494.7A 2020-12-28 2020-12-28 一种基于统计概率的数据压缩方法及系统 Pending CN112667633A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011580494.7A CN112667633A (zh) 2020-12-28 2020-12-28 一种基于统计概率的数据压缩方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011580494.7A CN112667633A (zh) 2020-12-28 2020-12-28 一种基于统计概率的数据压缩方法及系统

Publications (1)

Publication Number Publication Date
CN112667633A true CN112667633A (zh) 2021-04-16

Family

ID=75410958

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011580494.7A Pending CN112667633A (zh) 2020-12-28 2020-12-28 一种基于统计概率的数据压缩方法及系统

Country Status (1)

Country Link
CN (1) CN112667633A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023184353A1 (zh) * 2022-03-31 2023-10-05 华为技术有限公司 一种数据处理方法以及相关设备
CN117290671A (zh) * 2023-11-27 2023-12-26 中国西安卫星测控中心 一种数据预处理方法、装置、电子设备和计算机存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107222217A (zh) * 2017-05-26 2017-09-29 中国神华能源股份有限公司 数据压缩方法及装置
CN109412604A (zh) * 2018-12-05 2019-03-01 云孚科技(北京)有限公司 一种基于语言模型的数据压缩方法
CN109799449A (zh) * 2018-12-20 2019-05-24 深圳科安达电子科技股份有限公司 一种基于参数识别的轨道电路监测数据解压缩方法和处理系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107222217A (zh) * 2017-05-26 2017-09-29 中国神华能源股份有限公司 数据压缩方法及装置
CN109412604A (zh) * 2018-12-05 2019-03-01 云孚科技(北京)有限公司 一种基于语言模型的数据压缩方法
CN109799449A (zh) * 2018-12-20 2019-05-24 深圳科安达电子科技股份有限公司 一种基于参数识别的轨道电路监测数据解压缩方法和处理系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
WEIXIN_30399871: ""关于变化压缩算法的展开讨论"", 《CSDN博客》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023184353A1 (zh) * 2022-03-31 2023-10-05 华为技术有限公司 一种数据处理方法以及相关设备
CN117290671A (zh) * 2023-11-27 2023-12-26 中国西安卫星测控中心 一种数据预处理方法、装置、电子设备和计算机存储介质
CN117290671B (zh) * 2023-11-27 2024-02-09 中国西安卫星测控中心 一种数据预处理方法、装置、电子设备和计算机存储介质

Similar Documents

Publication Publication Date Title
US5870036A (en) Adaptive multiple dictionary data compression
CN112953550B (zh) 数据压缩的方法、电子设备及存储介质
CN114244373B (zh) Lz系列压缩算法编解码速度优化方法
CN112667633A (zh) 一种基于统计概率的数据压缩方法及系统
JPH03204232A (ja) 圧縮データの符号化方法
CN113868206A (zh) 一种数据压缩方法、解压缩方法、装置及存储介质
CN101534124B (zh) 一种用于短小自然语言的压缩算法
CN113381768B (zh) 一种哈夫曼校正编码方法、系统及相关组件
CN113676187B (zh) 一种哈夫曼修正编码方法、系统及相关组件
US7769730B2 (en) Method and system for data compression and decompression
CN113612483A (zh) 一种工业实时数据无损编码压缩方法
US20180373808A1 (en) Techniques for random operations on compressed data
CN114791904B (zh) 布隆过滤器的持久化压缩方法及装置
US20120056763A1 (en) Systems and methods for data compression
JP2006259937A (ja) データ収集装置およびデータ復元装置
CN115882867A (zh) 一种基于大数据的数据压缩存储方法
Shu et al. A two-stage data compression method for real-time database
CN113708772A (zh) 一种哈夫曼编码方法、系统、装置及可读存储介质
CN112073069B (zh) 一种适用于集成电路测试的测试向量无损压缩方法
CN113765854B (zh) 一种数据压缩方法及服务器
CN110865299B (zh) 一种基于前向相容的折叠集分层压缩方法及装置
CN111384963A (zh) 数据压缩解压装置和数据解压方法
CN114039608B (zh) 一种数据压缩前基于函数的等效变换方法
US20100312755A1 (en) Method and apparatus for compressing and decompressing digital data by electronic means using a context grammar
KR20190094496A (ko) 고속으로 데이터를 인코딩하는 장치 및 데이터 인코딩 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210416