CN114640355B - 时序数据库的有损压缩及解压缩方法、系统、存储介质、设备 - Google Patents

时序数据库的有损压缩及解压缩方法、系统、存储介质、设备 Download PDF

Info

Publication number
CN114640355B
CN114640355B CN202210326314.5A CN202210326314A CN114640355B CN 114640355 B CN114640355 B CN 114640355B CN 202210326314 A CN202210326314 A CN 202210326314A CN 114640355 B CN114640355 B CN 114640355B
Authority
CN
China
Prior art keywords
compression
data
file
outlier
decompression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210326314.5A
Other languages
English (en)
Other versions
CN114640355A (zh
Inventor
王宏志
刘星彤
郑博
梁栋
叶天生
燕钰
丁小欧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Nosi Spacetime Technology Co ltd
Harbin Institute of Technology
Original Assignee
Beijing Nosi Spacetime Technology Co ltd
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Nosi Spacetime Technology Co ltd, Harbin Institute of Technology filed Critical Beijing Nosi Spacetime Technology Co ltd
Priority to CN202210326314.5A priority Critical patent/CN114640355B/zh
Publication of CN114640355A publication Critical patent/CN114640355A/zh
Application granted granted Critical
Publication of CN114640355B publication Critical patent/CN114640355B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/174Redundancy elimination performed by the file system
    • G06F16/1744Redundancy elimination performed by the file system using compression, e.g. sparse files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

时序数据库的有损压缩及解压缩方法、系统、存储介质、设备,属于数据压缩技术领域。为了解决目前的压缩算法的ΔE选取可能难以适应整个时段的所有数据的问题,本发明所述压缩方法,首先进行离群点检测,然后将离群点单独存储为新的一个文件,记为离群点文件;将剔除离群点后的数据存储为一个文件,记为普通文件;将离群点文件和普通文件同时分别执行有损压缩;对第i段数据压缩后,计算该段压缩误差ei以及误差比
Figure DDA0003573575700000011
动态调整旋转门压缩算法的压缩精度参数ΔEi+1=ΔE×A×Pi,从而实现数据压缩。解压缩的过程中,首先判别数据点是属于普通文件还是离群点文件,分别根据压缩模型进行线性插值。主要用于时序数据库的有损压缩及解压缩。

Description

时序数据库的有损压缩及解压缩方法、系统、存储介质、设备
技术领域
本发明涉及一种针对时序数据库的有损压缩及解压缩方法、系统及设备,属于数据压缩技术领域。
背景技术
随着“工业互联网”,“智能制造”等领域的快速发展,工业环境越来越复杂。用于监测大型工业系统的传感器数量的急速增长,为自动化和远程管理提供了手段,将以前所未有的规模进行利用。例如,波音787飞机上的传感器在整个飞行过程中可以产生超过0.5tb的数据,尽管传感器网络的使用范围可以从单个智能灯泡到分布在一个大区域内的数百个风力涡轮机,但任何传感器网络的读数都可以表示为随时间变化的值序列,因而时序数据的高效管理对提高工业生产效率至关重要。
由于大规模传感器网络所产生的时间序列的速度和体积,以及受限于B+树较弱的顺序存取能力,传统的关系数据库管理系统不适用于当前的时序数据。尽管不同时序数据库对该问题的解决方案不尽相同,但其基本思路都是类似的,时序数据管理系统参考了部分传统的关系数据库中的技术,并使用了更适合于存储时序数据的存储模型,优化了海量数据场景下的时序数据的存储与查询的效率。这些技术在时序数据的需求场景下起到了至关重要的作用。
对于一个良好设计的时序数据管理系统,优化存储与查询效率的同时,数据压缩也是十分重要的一个方面,其主要目的在于减小目标数据文件大小,在海量时序数据场景下,一个好的数据压缩方案能节省大量的存储资源。数据压缩技术按照压缩后的信息是否失真可分类为有损压缩技术和无损压缩技术。有损压缩技术在时序数据系统中也有着广泛的应用,现有的常见有损压缩技术包括分段线性技术、基于小波变换的有损压缩、基于傅里叶变换的有损压缩以及基于奇异值分解的压缩等。有损压缩技术需要考虑压缩率和压缩误差两个指标,通常情况下二者是相冲突的,现有的有损压缩算法难以达到一个很好的折中,由于有损压缩只需要保存压缩模型的参数,通常是可以取得一个很好的压缩率,但由于丢失了大量的单点信息,难以取得理想的压缩误差大小。因此,减小有损压缩算法的压缩误差,同时还能保存一个较好的压缩比是十分有意义的。
现有的时序数据库中,以无损压缩技术方案居多,而一个好的有损压缩技术可以一个在可接受范围内的压缩误差,换取更高的压缩率。典型的有损压缩算法是旋转门压缩算法(Spinning Door Transformation Algorithm,SDT Algorithm)。其基本压缩原理为,以上一个存储终点(t0,x)为当前线性段的起始点,设定距离ΔE,以(t0,x+ΔE)和(t0,x-ΔE)作为支点,建立两扇虚拟的门,只有一个数据时门闭合,随着数据点的不断增多,以两个支点建立的最大斜率射线和最小斜率射线构成的门会不断打开,直到两扇门的内角和大于180°为止,就停止当前操作,并存储起始点和上一点的直线参数,作为压缩结果,在解压缩时,只需根据存储的参数进行线性插值即可。时序数据通常变化率比较平稳,因此SDT算法常常可以取得较好的压缩效果,但其仍然存在一些问题:
1、尽管时序数据变化率较为平稳,但若数据中周期性出现离群点时,原本只需存储为一个模型的数据现在可能需要多个模型,进而导致参数变多,降低压缩率。
2、算法的ΔE选取可能难以适应整个时段的所有数据。一方面,若ΔE过大,分段模型的划分条件就会较为宽松,压缩误差较大,压缩率较高;另一方面,若ΔE过小,分段模型的划分条件会较为严苛,压缩误差较小,压缩率较低。若从很长的时段看待时序数据,数据的变化趋势常难以保持不变,初始设置的参数难以适应全局,而人为动态调整参数又极为麻烦。
发明内容
本发明是为了解决目前的压缩算法的ΔE选取可能难以适应整个时段的所有数据的问题。
时序数据库的有损压缩方法,包括以下步骤:
首先进行离群点检测,进行离群点检测的过程中,根据用户选择的检测方式进行检测;
检测出离群点后,将离群点单独存储为新的一个文件,记为离群点文件;将剔除离群点后的数据存储为一个文件,记为普通文件;将离群点文件和普通文件同时分别执行有损压缩;
有损压缩采用改进的旋转门压缩算法进行数据压缩的过程,包括以下步骤:
首先,用户设定调整系数A;
然后使用转门压缩算法对第一段数据进行压缩后,计算压缩误差:
Figure BDA0003573575680000021
其中,n是压缩点的数目,yi是原始数据点的值,
Figure BDA0003573575680000022
是压缩后的值;
对第i段数据压缩后,计算该段压缩误差ei以及误差比Pi
Figure BDA0003573575680000023
动态调整旋转门压缩算法的压缩精度参数ΔEi+1=ΔE×A×Pi,从而利用改进的旋转门压缩算法实现数据压缩。
进一步地,根据用户选择的检测方式进行检测的过程中的,用户选择的检测方式包括包括第一检测方式和第二检测方式;
第一检测方式:先对数据进行BOX-COX变换,使数据正态化,然后计算整个时序序列的均值,根据3sigma原则,识别离群点;
第二检测方式:计算时序数据每个点的局部离群因子,根据设定好的阈值,识别离群点。
进一步地,动态调整旋转门压缩算法的压缩精度参数,从而利用改进的旋转门压缩算法实现数据压缩的过程包括以下步骤:
在第一段数据进行压缩后,对剩下所有段的数据调用copress_data进行有损压缩,以上一个存储终点(t0,x)为当前线性段的起始点,设定距离ΔEi+1=ΔE×A×Pi,以(t0,x+ΔEi+1)和(t0,x-ΔEi+1)作为支点,建立两扇虚拟的门,只有一个数据时门闭合,随着数据点的不断增多,以两个支点建立的最大斜率射线和最小斜率射线构成的门会不断打开,直到两扇门的内角和大于180°为止,就停止当前操作。
时序数据库的有损压缩的解压缩方法,针对利用所述的时序数据库的有损压缩方法压缩的数据,进行解压缩;解压缩的过程中,首先判别数据点是属于普通文件还是离群点文件,若属于普通文件,则根据普通文件的压缩模型进行线性插值,实现解压缩;若属于离群点文件,则需要根据离群点文件的压缩模型进行线性插值,实现解压缩。
时序数据库的有损压缩及解压缩系统,所述系统包括离群点检测单元和压缩单元;
离群点检测单元:用于为用户提供检测方式选项,并接收用户用户选择的检测方式信号,然后调用相应的检测方式进行检测,并在检测出离群点后,将离群点单独存储为新的一个文件,记为离群点文件;将剔除离群点后的数据存储为一个文件,记为普通文件;
压缩单元:利用数据库IO模块读取普通文件与离群点文件,调用改进的旋转门压缩算法同时对离群点文件和普通文件进行有损压缩;
压缩过程中,首先获取用户设定的调整系数A;再使用转门压缩算法对第一段数据进行压缩后,计算压缩误差e0;然后对第i段数据压缩后,计算该段压缩误差ei以及误差比Pi
Figure BDA0003573575680000031
动态调整旋转门压缩算法的压缩精度参数ΔEi+1=ΔE×A×Pi,从而利用改进的旋转门压缩算法实现数据压缩。
进一步地,所述系统还包括解压缩单元;
解压缩单元:首先判别数据点是属于普通文件还是离群点文件,若属于普通文件,则根据普通文件的压缩模型进行线性插值,实现解压缩;若属于离群点文件,则需要根据离群点文件的压缩模型进行线性插值,实现解压缩。
进一步地,离群点检测单元为用户提供检测方式选项并调用的检测方式包括第一检测方式和第二检测方式;
第一检测方式:先对数据进行BOX-COX变换,使数据正态化,然后计算整个时序序列的均值,根据3sigma原则,识别离群点;
第二检测方式:计算时序数据每个点的局部离群因子,根据设定好的阈值,识别离群点。
进一步地,压缩单元动态调整旋转门压缩算法的压缩精度参数,从而利用改进的旋转门压缩算法实现数据压缩的过程包括以下步骤:
在第一段数据进行压缩后,对剩下所有段的数据调用copress_data进行有损压缩,以上一个存储终点(t0,x)为当前线性段的起始点,设定距离ΔEi+1=ΔE×A×Pi,以(t0,x+ΔEi+1)和(t0,x-ΔEi+1)作为支点,建立两扇虚拟的门,只有一个数据时门闭合,随着数据点的不断增多,以两个支点建立的最大斜率射线和最小斜率射线构成的门会不断打开,直到两扇门的内角和大于180°为止,就停止当前操作。
一种存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行所述的时序数据库的有损压缩及解压缩系统。
时序数据库的有损压缩及解压缩设备,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由处理器加载并执行所述的时序数据库的有损压缩及解压缩系统。
有益效果:
1.对于时序数据,可能出现离群点周期出现的情况,此时若直接应用SDT算法,由于原本只需要几个模型可以压缩的数据现在会需要更多模型,就会导致不必要的压缩率下降,在此情况下,本方法首先执行离群点检测,将带有位置信息的离群点文件与普通文件分离存储,然后自适应地通过旋转门算法分离压缩,可以显著提高压缩率,并提升旋转门算法在大部分数据场景下的性能。
2.本方法使用自适应的压缩参数,传统旋转么压缩算法的压缩参数再时序数据时间段跨度较大的情况下可能难以保持接近的变化速率,始终不变的压缩参数难以取得一个整体较好的压缩误差和压缩率,而人为调整又十分麻烦且会浪费不必要的人力。
附图说明
图1为离群点检测示意图;
图2为自适应SDT算法示意图;
图3为接口调用实现本发明的处理逻辑图。
具体实施方式
具体实施方式一:
本实施方式为时序数据库的有损压缩方法,综合考虑了现有有损压缩算法的问题,首先进行离群点检测,以在特殊情况下删除不必要的参数,获取较高的压缩率;然后根据用户输入的参数,自适应地动态调整SDT算法的参数大小,在整体上达到理想的压缩误差和压缩率。
S1、离群点检测:
作为时序数据库中的一个插件,本发明为用户提供了两种离群点检测方案,如图1所示,用户可根据需要进行设定:
方案1:先对数据进行BOX-COX变换,使数据正态化,然后计算整个时序序列的均值,根据3sigma原则,识别离群点。
方案2:计算时序数据每个点的局部离群因子,根据设定好的阈值,识别离群点。
检测出离群点后,将离群点单独存储为新的一个文件,记为离群点文件;将剔除离群点后的数据存储为一个文件,记为普通文件;将离群点文件和普通文件同时分别执行有损压缩。
对于时序数据,可能出现离群点周期出现的情况,此时若直接应用SDT算法,由于原本只需要几个模型可以压缩的数据现在会需要更多模型,就会导致不必要的压缩率下降,在此情况下,本方法首先执行离群点检测,将带有位置信息的离群点文件与普通文件分离存储,然后自适应地通过旋转门算法分离压缩,可以显著提高压缩率,并提升旋转门算法在大部分数据场景下的性能。
S2、数据压缩:
改进传统的旋转门压缩算法,加入自适应动态调整压缩参数的方案。旋转门压缩算法即SDT算法。
如图2所示,基于改进的旋转门压缩算法进行数据压缩的过程,包括以下步骤:
首先,用户设定调整系数A;
然后使用传统SDT算法对第一段数据进行压缩后,计算压缩误差:
Figure BDA0003573575680000061
其中,n是压缩点的数目,yi是原始数据点的值,
Figure BDA0003573575680000062
是压缩后的值。
对第i段数据压缩后,计算该段压缩误差ei以及误差比Pi
Figure BDA0003573575680000063
动态调整SDT算法的压缩精度参数ΔEi+1=ΔE×A×Pi
从而利用改进的旋转门压缩算法实现数据压缩。
实施例
在数据库中设计两种离群点检测方案的接口调用实现,设计动态SDT压缩算法的接口调用实现,如图3所示。
(1)离群点检测并分离存储的过程:
步骤1:用户根据当前的应用场景以及自身需要,设置离群点检测方案,并设定需要压缩的数据范围,例如,某个特定时间段的数据;
步骤2:数据库IO模块读取目标数据,并根据用户的选择,调用sigma_detect子过程(方案1对应的调用程序)或outlier_value_detect子过程(方案2对应的调用程序)检测离群点;
步骤3:将检测出的离群点与原文件分离,并由IO模块输出为一个新的离群点文件以及普通文件进行存储。
(2)自适应旋转门压缩算法过程:
步骤一:用户根据当前的应用场景以及自身需要,设定旋转门压缩算法的自适应参数,以供后续使用;
步骤二:数据库IO模块读取普通文件与离群点文件,并调用first_compress(数据压缩部分的程序),执行第一段数据的有损压缩;
步骤三:对剩下所有段的数据调用copress_data(数据压缩部分的程序)进行有损压缩,以上一个存储终点(t0,x)为当前线性段的起始点,设定距离ΔEi+1=ΔE×A×Pi,以(t0,x+ΔEi+1)和(t0,x-ΔEi+1)作为支点,建立两扇虚拟的门,只有一个数据时门闭合,随着数据点的不断增多,以两个支点建立的最大斜率射线和最小斜率射线构成的门会不断打开,直到两扇门的内角和大于180°为止,就停止当前操作。
具体实施方式二:
本实施方式为时序数据库的有损压缩的解压缩方法,包括以下步骤:
针对利用时序数据库的有损压缩方法(改进的旋转门压缩算法)压缩的数据,进行解压缩:
首先要判别该数据点是属于普通文件还是离群点文件,若属于普通文件,则需要根据普通文件的压缩模型进行线性插值,实现解压缩;若属于离群点文件,则需要根据离群点文件的压缩模型进行线性插值,实现解压缩。
本发明具有以下特点:
1、检测离群点并单独存储本方案解决了直接应用传统SDT有损压缩算法会导致的产生不必要模型参数的问题,提高了压缩率,并为用户准备了不同的离群点检测方案,提供了一定的灵活性。
2、自适应旋转门压缩算法本方案可以根据用户的输入以及实时的数据压缩误差的变化,动态地调节旋转门压缩算法的压缩参数,既避免了单一参数难以适应整个时间段数据变化趋势的问题,又避免了人力的浪费。
具体实施方式三:
本实施方式为时序数据库的有损压缩及解压缩系统,所述系统包括离群点检测单元、压缩单元和解压缩单元;
(1)离群点检测单元:用于为用户提供检测方式选项,并接收用户用户选择的检测方式信号,然后调用相应的检测方式进行检测,并在检测出离群点后,将离群点单独存储为新的一个文件,记为离群点文件;将剔除离群点后的数据存储为一个文件,记为普通文件;
离群点检测单元为用户提供检测方式选项并调用的检测方式包括第一检测方式和第二检测方式;
第一检测方式:先对数据进行BOX-COX变换,使数据正态化,然后计算整个时序序列的均值,根据3sigma原则,识别离群点;
第二检测方式:计算时序数据每个点的局部离群因子,根据设定好的阈值,识别离群点。
(2)压缩单元:利用数据库IO模块读取普通文件与离群点文件,调用改进的旋转门压缩算法同时对离群点文件和普通文件进行有损压缩;
压缩过程中,首先获取用户设定的调整系数A;再使用转门压缩算法对第一段数据进行压缩后,计算压缩误差e0;然后对第i段数据压缩后,计算该段压缩误差ei以及误差比Pi
Figure BDA0003573575680000081
动态调整旋转门压缩算法的压缩精度参数ΔEi+1=ΔE×A×Pi,从而利用改进的旋转门压缩算法实现数据压缩;
动态调整旋转门压缩算法的压缩精度参数,从而利用改进的旋转门压缩算法实现数据压缩的过程包括以下步骤:
在第一段数据进行压缩后,对剩下所有段的数据调用copress_data进行有损压缩,以上一个存储终点(t0,x)为当前线性段的起始点,设定距离ΔEi+1=ΔE×A×Pi,以(t0,x+ΔEi+1)和(t0,x-ΔEi+1)作为支点,建立两扇虚拟的门,只有一个数据时门闭合,随着数据点的不断增多,以两个支点建立的最大斜率射线和最小斜率射线构成的门会不断打开,直到两扇门的内角和大于180°为止,就停止当前操作。
(3)解压缩单元:首先判别数据点是属于普通文件还是离群点文件,若属于普通文件,则根据普通文件的压缩模型进行线性插值,实现解压缩;若属于离群点文件,则需要根据离群点文件的压缩模型进行线性插值,实现解压缩。
具体实施方式四:
本实施方式为一种存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行所述的时序数据库的有损压缩及解压缩系统。
本实施方式所述的存储介质包括但不限于U盘,硬盘等。
具体实施方式五:
本实施方式为时序数据库的有损压缩及解压缩设备,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由处理器加载并执行所述的时序数据库的有损压缩及解压缩系统。
本实施方式所述的设备包括但不限于移动终端、PC机、服务器、工作站等。
本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,本领域技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims (10)

1.时序数据库的有损压缩方法,其特征在于,包括以下步骤:
首先进行离群点检测,进行离群点检测的过程中,根据用户选择的检测方式进行检测;
检测出离群点后,将离群点单独存储为新的一个文件,记为离群点文件;将剔除离群点后的数据存储为一个文件,记为普通文件;将离群点文件和普通文件同时分别执行有损压缩;
有损压缩采用改进的旋转门压缩算法进行数据压缩的过程,包括以下步骤:
首先,用户设定调整系数A;
然后使用转门压缩算法对第一段数据进行压缩后,计算压缩误差:
其中,n是压缩点的数目,yi是原始数据点的值,是压缩后的值;
对第i段数据压缩后,计算该段压缩误差ei以及误差比Pi
动态调整旋转门压缩算法的压缩精度参数ΔEi+1=ΔE×A×Pi,ΔE为设定距离,从而利用改进的旋转门压缩算法实现数据压缩。
2.根据权利要求1所述的时序数据库的有损压缩方法,其特征在于,根据用户选择的检测方式进行检测的过程中的,用户选择的检测方式包括包括第一检测方式和第二检测方式;
第一检测方式:先对数据进行BOX-COX变换,使数据正态化,然后计算整个时序序列的均值,根据3sigma原则,识别离群点;
第二检测方式:计算时序数据每个点的局部离群因子,根据设定好的阈值,识别离群点。
3.根据权利要求2所述的时序数据库的有损压缩方法,其特征在于,动态调整旋转门压缩算法的压缩精度参数,从而利用改进的旋转门压缩算法实现数据压缩的过程包括以下步骤:
在第一段数据进行压缩后,对剩下所有段的数据调用copress_data进行有损压缩,以上一个存储终点(t0,x)为当前线性段的起始点,设定距离ΔEi+1=ΔE×A×Pi,以(t0,x+ΔEi+1)和(t0,x-ΔEi+1)作为支点,建立两扇虚拟的门,只有一个数据时门闭合,随着数据点的不断增多,以两个支点建立的最大斜率射线和最小斜率射线构成的门会不断打开,直到两扇门的内角和大于180°为止,就停止当前操作。
4.时序数据库的有损压缩的解压缩方法,其特征在于,针对利用权利要求1、2或3所述的时序数据库的有损压缩方法压缩的数据,进行解压缩;解压缩的过程中,首先判别数据点是属于普通文件还是离群点文件,若属于普通文件,则根据普通文件的压缩模型进行线性插值,实现解压缩;若属于离群点文件,则需要根据离群点文件的压缩模型进行线性插值,实现解压缩。
5.时序数据库的有损压缩及解压缩系统,其特征在于,所述系统包括离群点检测单元和压缩单元;
离群点检测单元:用于为用户提供检测方式选项,并接收用户用户选择的检测方式信号,然后调用相应的检测方式进行检测,并在检测出离群点后,将离群点单独存储为新的一个文件,记为离群点文件;将剔除离群点后的数据存储为一个文件,记为普通文件;
压缩单元:利用数据库IO模块读取普通文件与离群点文件,调用改进的旋转门压缩算法同时对离群点文件和普通文件进行有损压缩;
压缩过程中,首先获取用户设定的调整系数A;再使用转门压缩算法对第一段数据进行压缩后,计算压缩误差e0
其中,n是压缩点的数目,yi是原始数据点的值,是压缩后的值;
然后对第i段数据压缩后,计算该段压缩误差ei以及误差比Pi
动态调整旋转门压缩算法的压缩精度参数ΔEi+1=ΔE×A×Pi,ΔE为设定距离,从而利用改进的旋转门压缩算法实现数据压缩。
6.根据权利要求5所述的时序数据库的有损压缩及解压缩系统,其特征在于,所述系统还包括解压缩单元;
解压缩单元:首先判别数据点是属于普通文件还是离群点文件,若属于普通文件,则根据普通文件的压缩模型进行线性插值,实现解压缩;若属于离群点文件,则需要根据离群点文件的压缩模型进行线性插值,实现解压缩。
7.根据权利要求5或6所述的时序数据库的有损压缩及解压缩系统,其特征在于,离群点检测单元为用户提供检测方式选项并调用的检测方式包括第一检测方式和第二检测方式;
第一检测方式:先对数据进行BOX-COX变换,使数据正态化,然后计算整个时序序列的均值,根据3sigma原则,识别离群点;
第二检测方式:计算时序数据每个点的局部离群因子,根据设定好的阈值,识别离群点。
8.根据权利要求7所述的时序数据库的有损压缩及解压缩系统,其特征在于,压缩单元动态调整旋转门压缩算法的压缩精度参数,从而利用改进的旋转门压缩算法实现数据压缩的过程包括以下步骤:
在第一段数据进行压缩后,对剩下所有段的数据调用copress_data进行有损压缩,以上一个存储终点(t0,x)为当前线性段的起始点,设定距离ΔEi+1=ΔE×A×Pi,以(t0,x+ΔEi+1)和(t0,x-ΔEi+1)作为支点,建立两扇虚拟的门,只有一个数据时门闭合,随着数据点的不断增多,以两个支点建立的最大斜率射线和最小斜率射线构成的门会不断打开,直到两扇门的内角和大于180°为止,就停止当前操作。
9.一种存储介质,其特征在于,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行权利要求5至8之一所述的时序数据库的有损压缩及解压缩系统。
10.时序数据库的有损压缩及解压缩设备,其特征在于,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由处理器加载并执行权利要求5至8之一所述的时序数据库的有损压缩及解压缩系统。
CN202210326314.5A 2022-03-30 2022-03-30 时序数据库的有损压缩及解压缩方法、系统、存储介质、设备 Active CN114640355B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210326314.5A CN114640355B (zh) 2022-03-30 2022-03-30 时序数据库的有损压缩及解压缩方法、系统、存储介质、设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210326314.5A CN114640355B (zh) 2022-03-30 2022-03-30 时序数据库的有损压缩及解压缩方法、系统、存储介质、设备

Publications (2)

Publication Number Publication Date
CN114640355A CN114640355A (zh) 2022-06-17
CN114640355B true CN114640355B (zh) 2023-04-18

Family

ID=81951127

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210326314.5A Active CN114640355B (zh) 2022-03-30 2022-03-30 时序数据库的有损压缩及解压缩方法、系统、存储介质、设备

Country Status (1)

Country Link
CN (1) CN114640355B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114860986B (zh) * 2022-07-06 2022-10-11 西安工业大学 一种计算机非结构化数据存储方法
CN114969060B (zh) * 2022-08-01 2022-11-04 浙江木链物联网科技有限公司 一种工业设备时序数据压缩存储方法、装置
CN116155298B (zh) * 2023-04-20 2023-07-04 山东水运发展集团有限公司济宁分公司 一种基于互联网数据的船闸远程管理系统
CN116225347B (zh) * 2023-05-10 2023-06-30 上海伯镭智能科技有限公司 一种具有数据安全保护功能的无人驾驶系统数据管理方法
CN116934431B (zh) * 2023-09-19 2023-12-05 贵昌集团有限公司 一种电子商务数据智能管理系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7930436B1 (en) * 2009-03-09 2011-04-19 Znosko Dmitry Y System and method for dynamically adjusting data compression parameters
CN102437856A (zh) * 2011-11-04 2012-05-02 国电南京自动化股份有限公司 基于特征点提取的地铁综合监控系统三级数据压缩方法
CN104682962A (zh) * 2015-02-09 2015-06-03 南京邦耀科技发展有限公司 一种海量燃气数据的压缩方法
CN112965976A (zh) * 2021-02-26 2021-06-15 中国人民解放军海军工程大学 一种电磁能系统业务时序数据压缩方法、非暂态可读记录媒体及数据处理装置
CN114090654A (zh) * 2021-11-19 2022-02-25 北京信息科技大学 工业时序数据的近似查询处理方法、系统、介质及设备

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102098058B (zh) * 2010-11-12 2013-03-06 中南大学 时序数据实时高效线性压缩与解压缩方法
CN106649026B (zh) * 2016-09-26 2020-07-07 国家电网公司北京电力医院 适用于运维自动化系统的监测数据压缩方法
CN106790491B (zh) * 2016-12-14 2019-10-15 日照职业技术学院 面向数据的物联网可移动终端智能平台的实现方法
CN109143974B (zh) * 2017-06-15 2021-10-15 沈阳高精数控智能技术股份有限公司 一种应用于数控机床监控领域的sdt改进方法
CN108540136B (zh) * 2018-03-13 2021-06-29 华侨大学 一种适用于农业传感数据的压缩方法
CN108543217A (zh) * 2018-03-16 2018-09-18 广东工业大学 一种失眠治疗仪及失眠治疗方法
CN109245310A (zh) * 2018-11-13 2019-01-18 北京工业大学 一种基于实时数据库的电力监控系统
CN113869359B (zh) * 2021-08-18 2024-05-28 北京工业大学 基于模块化神经网络的城市固废焚烧过程氮氧化物预测方法
CN113727411B (zh) * 2021-09-10 2023-10-27 北京交通大学 铁路防灾监测无线传输系统路由及数据压缩自适应优化方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7930436B1 (en) * 2009-03-09 2011-04-19 Znosko Dmitry Y System and method for dynamically adjusting data compression parameters
CN102437856A (zh) * 2011-11-04 2012-05-02 国电南京自动化股份有限公司 基于特征点提取的地铁综合监控系统三级数据压缩方法
CN104682962A (zh) * 2015-02-09 2015-06-03 南京邦耀科技发展有限公司 一种海量燃气数据的压缩方法
CN112965976A (zh) * 2021-02-26 2021-06-15 中国人民解放军海军工程大学 一种电磁能系统业务时序数据压缩方法、非暂态可读记录媒体及数据处理装置
CN114090654A (zh) * 2021-11-19 2022-02-25 北京信息科技大学 工业时序数据的近似查询处理方法、系统、介质及设备

Also Published As

Publication number Publication date
CN114640355A (zh) 2022-06-17

Similar Documents

Publication Publication Date Title
CN114640355B (zh) 时序数据库的有损压缩及解压缩方法、系统、存储介质、设备
US11989186B2 (en) Scalable architecture for a distributed time-series database
US11934409B2 (en) Continuous functions in a time-series database
CN112085189B (zh) 一种神经网络的量化参数确定方法及相关产品
Eichinger et al. A time-series compression technique and its application to the smart grid
KR102511271B1 (ko) 시계열 데이터 저장 및 쿼리 방법 및 장치, 및 그 서버 및 저장 매체
CN102611454B (zh) 一种实时历史数据动态无损压缩方法
US20200167355A1 (en) Edge processing in a distributed time-series database
CN106649026B (zh) 适用于运维自动化系统的监测数据压缩方法
CN108306649A (zh) 一种用于测距传感器的数据处理的方法及设备
CN108416427A (zh) 卷积核堆积数据流、压缩编码以及深度学习算法
CN111064705B (zh) 适用于高级量测体系的数据压缩采集与传输方法
Kraus et al. Optimal data compression techniques for smart grid and power quality trend data
CN116915259B (zh) 基于物联网的仓配数据优化储存方法及系统
CN116975503B (zh) 一种土壤侵蚀信息管理方法及系统
CN115940959A (zh) 一种低功耗的电能数据采集管理系统
CN117407681B (zh) 一种基于向量聚类的时序数据预测模型建立方法
Khmelevskiy et al. Model of Transformation of the Alphabet of the Encoded Data as a Tool to Provide the Necessary Level of Video Image Qualityi in Aeromonitoring Systems.
CN106788449A (zh) 一种实时电能质量数据参数化压缩方法
WO2020106487A1 (en) Scalable architecture for a distributed time-series database
Huang et al. A piecewise linear representation method of hydrological time series based on curve feature
Sun et al. Data compression and parallel computation model research under big data environment
CN116450592B (zh) 一种基于工业大数据特征的工况自适应压缩方法及系统
CN117792403B (zh) 基于流式大数据技术的分布式农业数据存储管理方法
Kang et al. Analysis and solution of CNN accuracy reduction over channel loop tiling

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant