CN102497450B - 一种基于两级体系的分布式数据压缩处理方法 - Google Patents

一种基于两级体系的分布式数据压缩处理方法 Download PDF

Info

Publication number
CN102497450B
CN102497450B CN201110445899.4A CN201110445899A CN102497450B CN 102497450 B CN102497450 B CN 102497450B CN 201110445899 A CN201110445899 A CN 201110445899A CN 102497450 B CN102497450 B CN 102497450B
Authority
CN
China
Prior art keywords
data
server
compression
imp
cache
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201110445899.4A
Other languages
English (en)
Other versions
CN102497450A (zh
Inventor
蒋禾青
黄孝彬
程睿君
康芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guoneng Xinkong Internet Technology Co Ltd
Original Assignee
Beijing Huadian Tianren Power Controlling Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Huadian Tianren Power Controlling Technology Co Ltd filed Critical Beijing Huadian Tianren Power Controlling Technology Co Ltd
Priority to CN201110445899.4A priority Critical patent/CN102497450B/zh
Publication of CN102497450A publication Critical patent/CN102497450A/zh
Application granted granted Critical
Publication of CN102497450B publication Critical patent/CN102497450B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

基于两级体系的分布式数据压缩处理方法在原有在服务器端进行数据压缩的基础上,提出在接口机进行压缩数据,到一定时间或一定量后上传服务器,服务器再累计到一定量后调用文件处理程序保存数据。把压缩的负载由一台服务器转移到多台接口机上,不仅减少了服务器的内存负载,减少了不必要的开销,使服务器对于实时数据的响应更加快捷,又合理的利用了网络中各结点的资源,达到资源的合理配置。而在接口机进行数据压缩再上传到服务器中的压缩方式,也大大的减少了网络中数据的传输,节约了网络资源。这种在接口机压缩数据再上传到服务器的方法将更加适合超大数据量的实时数据库的实现。

Description

一种基于两级体系的分布式数据压缩处理方法
技术领域
本申请属于实时历史数据库中的数据压缩技术领域,具体涉及一种基于两级体系的分布式数据压缩处理方法。
背景技术
实时历史数据库产品是企业信息化的基础平台和管控一体化的桥梁。生产过程中所产生的大量实时数据是流程企业的宝贵资源之一。这些数据需要长期存储、快速检索,并作为生产数据分析、数据挖掘、优化控制与优化管理的基础。典型的流程企业所需集成的数据采集点通常有几千到十几万,由于采集点数据是动态变化的,刷新速度快(秒级),这样的大规模的海量数据很难以数据原型长期保存下来,实时历史数据库就是专门为处理生产过程海量数据问题而产生的新技术。
一个良好的实时历史数据库,必须要处理好实时压缩问题,只有处理好数据压缩问题,才能使系统的整体性能达到某个可用性指标。用关系数据库保存10000个每秒钟变化一次的双精度数,同时建立一个索引,保存一年需要磁盘空间为:12922G,而用实时数据库保存,则只需103G,大家可以换算一下,12922G,需要多少块磁盘?磁盘容量只是问题的一个方面,另一方面,数据的高压缩率意味着整个系统的数据处理速度更快,这体现在三个方面:高压缩率的数据,占用磁盘空间小,将数据从磁盘读入内存的速度快,网络传输的速度快,数据在内存中占用的空间小。而这三个因素,是实时数据库提高系统整体运行速度很重要的几个因素。
从数据压缩方式来看,目前市面上的实时历史数据库主要采用服务器端数据压缩方式。数据从采集端发送到数据库服务器,在服务器端进行统一的数据压缩处理,然后存储到磁盘文件。这种压缩方式极大的占用了网络资源,整个数据存储的重心都在数据库服务器上,致使服务器的性能决定了整个实时历史数据库的性能。试想拥有100000个标签点的上限要求的数据库,每秒更新一次数据,数据量为781kb,如果全部上传到服务器进行压缩,需要占用6M多的带宽,极大的耗费了网络资源。另外,每个标签点的数据只有在服务器端累计达到一定的数据量后才能利用压缩算法进行压缩,这对服务器的内存消耗也将大幅增加。即使是服务器内存够用,如此大规模的数据压缩处理过程,也将使对服务器CPU带来极大的负担。
发明内容
为了解决现有技术中存在的上述问题,本发明提出了一种基于两级体系的分布式数据压缩处理方法。
首先,对发明中使用的技术名词进行说明或定义。
接口机:负责把底层控制系统的数据经过一定的方式传送到数据库中;
服务器:以数据库的方式存储接口机上传的数据。
本发明具体采用以下技术方案。
一种基于两级体系的分布式数据压缩处理方法,所述处理方法采用接口机分布式压缩数据的处理方式,其特征在于均衡网络节点资源,所述分布式数据压缩处理方法包括以下步骤:
(1)通过接口机采集底层控制系统的数据;
(2)在接口机中对采集数据进行压缩;
(3)在接口机中设置一级缓存,将压缩后的数据存入接口机中设置的一级缓存中;
(4)当所述接口机中设置的一级缓存满或者达到设定的最大上传时间时,进入步骤(5);
(5)接口机将压缩后的数据打包上传至服务器中设置的二级缓存中,进入步骤(6);
(6)判断所述服务器中设置的二级缓存的存储状态,当二级缓存满或达到最大上传时间时,进入步骤(7);
(7)将二级缓存中的压缩数据写入磁盘文件中。
本发明具有以下技术效果:
把压缩的负载由一台服务器转移到多台接口机上,不仅减少了服务器的内存负载,减少了不必要的开销,使服务器对于实时数据的响应更加快捷,又合理的利用了网络中各结点的资源,达到资源的合理配置。而在接口机进行数据压缩再上传到服务器中的压缩方式,也大大的减少了网络中数据的传输,节约了网络资源。这种在接口机压缩数据再上传到服务器的方法将更加适合超大数据量的实时数据库的实现。
附图说明
图1所示为本发明分布式压缩处理方法原理图;
图2所示为本发明分布式压缩处理方法流程图。
具体实施方式
下面结合说明书附图对本发明的技术方案作进一步详细说明。
如图1所示为本发明公开的分布式压缩处理方法原理图。
接口机负责从底层的控制系统(如DCS、PLC等)采集数据,通过调用数据库接口API的方式往服务器中的数据库写入数据。由于数据的海量性以及采集数据的时效性,接口机需要快速的把采集到的数据写入到服务器中。而接口机与服务器之间采用的是TCP/IP协议,网络的传输速率也成为制约数据库写入速度的重要因素。因此,在接口机上先进行数据压缩,然后在上传到服务器上就可以减少网络环境对数据库速率的影响。而一台数据库服务器对应多台接口机,把压缩的负荷由一台服务器分配到多台接口机上,合理的利用了网络中各结点的资源,减少了服务器的资源占有率。
如图2所示为本发明分布式压缩方式处理方法流程图。
所述处理方法采用接口机和服务器两级压缩方式,其特征在于用户可以根据硬件环境和数据数量自定义压缩模式。压缩模式分为两种:第一种是在接口机进行数据压缩;第二种是在服务器进行数据压缩。本发明公开的基于两级体系的分布式数据压缩处理方法采用第二种压缩模式,具体操作步骤如下:
所述处理方法采用接口机和服务器两级压缩方式,其特征在于用户可以根据硬件环境和数据数量自定义压缩模式,所述分布式数据压缩处理方法包括以下步骤:
(1)通过接口机采集底层控制系统的数据,底层控制系统包括DCS、PLC、SCADA等;
(2)在接口机中对采集数据进行压缩,压缩方法为基于平行四边形的压缩方法,其基本原理是从第一个归档数据点开始,以它到当前点的连线为中轴做指定宽度(压缩精度的两倍)做平行四边形,随着当前数据点的不断更新以同样的方法做平行四边形并继续扩展,当产生的平行四边形不能容纳上个存档点到当前点之间的所有数据时,则让当前点通过本段压缩,再以最新压缩归档点为起点重复此过程;
(3)在接口机中设置一级缓存,将压缩后的数据按照一定的格式存入接口机中设置的一级缓存中(以实时历史数据库为例,压缩后的数据可以按照数据值、数据采集时间、数据状态、数据所属的标签点KKS编码的格式存储),考虑在出现断电等异常情况下缓存的数据会丢失,缓存不宜设置过大;
(4)当所述接口机中设置的一级缓存满,进入步骤(5);有时上传的数据量少,缓存长时间不能存满时,可通过设置最大上传时间即达到一定时间后,不考虑缓存的状态,直接进入步骤(5);
(5)接口机将压缩后的数据打包,通过TCP/IP协议上传至服务器;在服务器上设置二级缓存,二级缓存是以若干个大小相等的缓存块组成,每个数据源对应一个缓冲块,缓存块的个数由数据源的个数决定,上传的数据存储到数据源对应的缓冲块中;
(6)判断所述服务器中每个数据源对应缓存块的存储状态,当缓存块满或达到最大上传时间时,进入步骤(7);
(7)将对应的缓冲块中存储的数据以批量的形式写入磁盘文件中,完成数据从采集到压缩、存储的过程。
为了防止压缩算法对数据的过滤导致长时间没有数据上传到服务器,保证数据的实时性,每个标签点有一个最大上传时间的属性,数据上传站点会根据每个标签点的这个属性来上传数据,从而保证数据的实时性。
本发明申请人结合说明书附图对本发明的实施例做了详细的说明与描述,但是本领域技术人员应该理解,以上实施例仅为本发明的优选实施方案,详尽的说明只是为了帮助读者更好地理解本发明精神,而并非对本发明保护范围的限制,相反,任何基于本发明发明精神所作的任何改进或修饰都应当落在本发明的保护范围之内。

Claims (2)

1.一种基于两级体系的分布式数据压缩处理方法,所述处理方法采用接口机和服务器两级压缩方式,其特征在于用户可以根据硬件环境和数据数量自定义压缩模式,所述分布式数据压缩处理方法包括以下步骤:
(1)通过接口机采集底层控制系统的数据;
(2)在接口机中对采集数据进行压缩,从第一个归档数据点开始,以它到当前点的连线为中轴做指定宽度、即压缩精度的两倍的平行四边形,随着当前数据点的不断更新以同样的方法做平行四边形并继续扩展,当产生的平行四边形不能容纳上个存档点到当前点之间的所有数据时,则让当前点通过本段压缩,再以最新压缩归档点为起点重复此过程;
(3)在接口机中设置一级缓存,将压缩后的数据存入接口机中设置的一级缓存中,压缩后的数据可以按照数据值、数据采集时间、数据状态、数据所属的标签点KKS编码的格式存储;
(4)当所述接口机中设置的一级缓存存满,进入步骤(5);有时上传的数据量少,缓存长时间不能存满时,可通过设置最大上传时间即达到一定时间后,不考虑缓存的状态,直接进入步骤(5);
(5)接口机将压缩后的数据打包上传至服务器中设置的二级缓存中,二级缓存是以若干个大小相等的缓存块组成,每个数据源对应一个缓存块,缓存块的个数由数据源的个数决定,上传的数据存储到数据源对应的缓存块中,进入步骤(6);
(6)判断所述服务器中设置的二级缓存的存储状态,当二级缓存存满或达到最大上传时间时,进入步骤(7);
(7)将二级缓存中的压缩数据写入磁盘文件中。
2.根据权利要求1所述的基于两级体系的分布式数据压缩处理方法,其特征在于:
在步骤(5)中,采用的通讯协议为TCP/IP协议,将接口机压缩后的数据打包上传至服务器中设置的二级缓存中。
CN201110445899.4A 2011-12-28 2011-12-28 一种基于两级体系的分布式数据压缩处理方法 Active CN102497450B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110445899.4A CN102497450B (zh) 2011-12-28 2011-12-28 一种基于两级体系的分布式数据压缩处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110445899.4A CN102497450B (zh) 2011-12-28 2011-12-28 一种基于两级体系的分布式数据压缩处理方法

Publications (2)

Publication Number Publication Date
CN102497450A CN102497450A (zh) 2012-06-13
CN102497450B true CN102497450B (zh) 2015-02-11

Family

ID=46189235

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110445899.4A Active CN102497450B (zh) 2011-12-28 2011-12-28 一种基于两级体系的分布式数据压缩处理方法

Country Status (1)

Country Link
CN (1) CN102497450B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103218179A (zh) * 2013-04-23 2013-07-24 深圳市京华科讯科技有限公司 基于虚拟化的二级系统加速方法
CN104731533B (zh) * 2015-03-31 2018-06-05 百度在线网络技术(北京)有限公司 数据写入方法和装置
CN105095421A (zh) * 2015-07-14 2015-11-25 南京国电南自美卓控制系统有限公司 一种实时数据库的分布式的存储方法
CN108551490B (zh) * 2018-05-14 2021-06-18 西京学院 一种工业流数据编码解码系统及方法
CN109040264B (zh) * 2018-08-13 2021-04-06 南京工业职业技术学院 一种高性能的主备接口机数据处理方法
CN110045675A (zh) * 2019-05-10 2019-07-23 四川航天神坤科技有限公司 基于plc的数据处理方法、数据处理模块
CN115221134B (zh) * 2022-07-18 2023-05-05 陕西天行健车联网信息技术有限公司 一种车联网数据的分布式实时压缩方法、装置及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1407438A (zh) * 2001-09-07 2003-04-02 深圳市中兴通讯股份有限公司上海第二研究所 海量数据处理方法和系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004179877A (ja) * 2002-11-26 2004-06-24 Sony Corp 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1407438A (zh) * 2001-09-07 2003-04-02 深圳市中兴通讯股份有限公司上海第二研究所 海量数据处理方法和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《基于实时数据库的生产信息系统的应用》;李斌等;《第十一届全国自动化应用技术学术交流会论文集》;20060801;正文第457-459页 *
《大型实时历史数据库的系统设计与技术实现》;毛幼维;《自动化仪表》;20100820;第31卷(第8期);正文第10-12页 *

Also Published As

Publication number Publication date
CN102497450A (zh) 2012-06-13

Similar Documents

Publication Publication Date Title
CN102497450B (zh) 一种基于两级体系的分布式数据压缩处理方法
CN104380267B (zh) 数据解压/压缩装置
US20190222603A1 (en) Method and apparatus for network forensics compression and storage
CN107390650A (zh) 一种基于物联网的数据采集系统及基于该系统的数据压缩方法
CN110225074B (zh) 一种基于设备地址域的通讯报文分发系统及分发方法
CN104317800A (zh) 一种海量智能用电数据混合存储系统及方法
CN104348490A (zh) 一种基于效果优选的组合数据压缩算法
CN102880615B (zh) 一种数据存储方法和装置
CN103870393B (zh) 缓存管理方法及系统
CN105183371A (zh) 基于迁移均衡策略的用电信息分布式文件存储方法与装置
CN103729429A (zh) 一种基于HBase压缩方法
CN104125458A (zh) 内存数据无损压缩方法及装置
CN103778203B (zh) 一种网络管理数据无损压缩存储与检索的方法与系统
CN103428494A (zh) 基于云计算平台的图像序列编码及恢复方法
CN102521299A (zh) 资源描述框架数据的处理方法
CN105871382B (zh) 一种Micaps第四类格点数据无损压缩算法
CN105162622A (zh) 一种存储方法和系统
CN108334582B (zh) 一种实时数据库中历史数据的压缩方法
WO2021147319A1 (zh) 一种数据处理方法、装置、设备及介质
CN108182198A (zh) 存储先进控制器运行数据的控制装置和读取方法
CN102693315A (zh) 一种基于共享内存映射的url去重方法及装置
CN105631000B (zh) 基于移动终端位置特征信息的终端缓存的数据压缩方法
CN104008153A (zh) 一种面向大数据处理的数据处理方法和装置
CN104219102B (zh) 一种网络数据压缩统计的方法、装置和系统
CN104111945A (zh) 一种海量电能质量数据的存储管理方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CP03 Change of name, title or address

Address after: 101303 2nd floor, building 307, Guodian New Energy Institute, 9 Yingcai North 2nd Street, future science and Technology City, Changping District, Beijing

Patentee after: Guoneng xinkong Internet Technology Co.,Ltd.

Address before: Building 1, yard 16, West Fourth Ring Middle Road, Haidian District, Beijing 100039

Patentee before: BEIJING HUADIAN TIANREN ELECTRIC POWER CONTROL TECHNOLOGY Co.,Ltd.

CP03 Change of name, title or address