CN102291269A - 一种数据归并处理方法 - Google Patents
一种数据归并处理方法 Download PDFInfo
- Publication number
- CN102291269A CN102291269A CN2011102946758A CN201110294675A CN102291269A CN 102291269 A CN102291269 A CN 102291269A CN 2011102946758 A CN2011102946758 A CN 2011102946758A CN 201110294675 A CN201110294675 A CN 201110294675A CN 102291269 A CN102291269 A CN 102291269A
- Authority
- CN
- China
- Prior art keywords
- data
- merger
- hours
- metadata cache
- averaged
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及数据处理技术,其公开了一种数据归并处理方法,从软件上对原始数据进行有效的数据归并,减少数据规模,同时避免硬件成本的增加。其技术方案的要点可概括为:在数据库中创建多级归并数据表用于存储归并后的数据,在网管系统启动时开启各级定时任务,并开始采集监测项的指标数据,当时间到达定时任务的阈值时,开启该项定时任务,对数据求取平均值,并放入下一级归并缓存对象中,如此循环,直至完成预定的数据归并,并将归并后的书籍存储至数据库的对应的归并数据表中。本发明适用于在大中型网络中,对采集到的被管理设备的指标数据的归并。
Description
技术领域
本发明涉及数据处理技术,特别涉及在网络管理中,对采集到的被管理设备的各类型指标数据进行归并处理的方法。
背景技术
在进行网络管理时,网管系统通常都需要对被管理设备的运行情况和一些重要性能指标进行定时的检测,并记录下这些检测数据,供网管系统分析这些被管理设备在某个时间段的运行状态。然而,对于大中型网络而言,被管理设备数量众多,并且每一类型设备可能有若干种需要被监控的性能指标项,导致针对整个网络中的被管理设备的性能检测数据规模变得非常巨大,查询数据非常耗时,甚至可能导致系统崩溃。
为解决上述问题,目前通常的做法是选择性能更好的数据库服务器,或者改善数据库服务器的硬件配置,但其在提高服务性能的同时会带来增加成本的问题。
由于这些数据被存储在数据库服务器中,这种情况下要么选择更好的数据库服务器,从硬件上提高服务性能,或者从软件上对原始数据进行有效的数据归并,将数据规模有效降低,满足数据查询的需要。
发明内容
本发明所要解决的技术问题是:提出一种数据归并处理方法,从软件上对原始数据进行有效的数据归并,减少数据规模,同时避免硬件成本的增加。
本发明解决上述技术问题所采用的方案是:一种数据归并处理方法,包括以下步骤:
a.在数据库中创建原始数据表及N个归并数据表,所述N个归并数据表用于分别对应存储N级按照时间粒度粗细划分的归并数据,各级时间粒度之间成整数倍关系且最细时间粒度为数据采集时间间隔的整数倍,N为正整数;
b.网管系统在启动时开启与N级时间粒度一一对应的N个定时任务,并采集被管理设备的各监测项的指标数据;
c.网管系统将采集到的指标数据提交给归并线程进行处理,并在内存中创建与指标数据类型个数相等的缓存队列,每一个缓存队列用于对一类指标数据进行缓存且包括一个原始数据缓存对象及N级按照时间粒度粗细划分的归并数据缓存对象;
d.将采集到的指标数据缓存在内存中与该指标类型相对应的缓存队列的原始数据缓存对象中,直至第一个定时任务触发,则对原始数据缓存对象中的所有指标数据求取平均值,并将求取平均值的结果缓存至第一级归并数据缓存对象中,直至第二个定时任务触发,则对第一级归并数据缓存对象中的数据求取平均值,并将求取平均值的结果缓存至第二级归并数据缓存对象中……如此类推,直至第N个定时任务触发时,则对第(N-1)级归并数据缓存对象中的数据求取平均值,并将求取平均值的结果缓存至第N级归并数据缓存对象中;
e.在满足预定条件后,将内存中的各缓存队列中的数据对应存储至数据库的原始数据表及N个归并数据表中。
进一步,步骤a中,在数据库中创建原始数据表及3个归并数据表,这3个归并数据表分别为2小时表、6小时表、24小时表,分别用于存储按照2小时时间粒度划分的归并数据、按照6小时时间粒度划分的归并数据、按照24小时时间粒度划分的归并数据;
步骤b中,网管系统开启与3级时间粒度一一对应的3个定时任务,这3个定时任务分别为2小时定时任务、6小时定时任务、24小时定时任务,其触发时间间隔分别为2小时、6小时、24小时;
步骤c中,每一个缓存队列用于对一类指标数据进行缓存且包括一个原始数据缓存对象及3级按照时间粒度粗细划分的归并数据缓存对象,这3级按照时间粒度粗细划分的归并数据缓存对象分别为2小时归并数据缓存对象、6小时归并数据缓存对象、24小时归并数据缓存对象;
步骤d中,将采集到的指标数据缓存在内存中与该指标类型相对应的缓存队列的原始数据缓存对象中,直至2小时定时任务触发,则对原始数据缓存对象中的所有指标数据求取平均值,并将求取平均值的结果缓存至2小时归并数据缓存对象中,直至6小时定时任务触发,则对2小时归并数据缓存对象中的数据求取平均值,并将求取平均值的结果缓存至6小时归并数据缓存对象中,直至24小时定时任务触发,则对6小时归并数据缓存对象中的数据求取平均值,并将求取平均值的结果缓存中24小时归并数据缓存对象中;
步骤e中,在满足预定条件后,将内存中的各缓存队列中的数据对应存储至数据库的原始数据表及3个归并数据表中,即将各缓存队列中的原始数据缓存对象中的数据存储至原始数据表中,将各缓存队列中的2小时归并数据缓存对象中的数据存储至2小时表中,将各缓存队列中的6小时归并数据缓存对象中的数据存储至6小时表中,将各缓存队列中的24小时归并数据缓存对象中的数据存储至24小时表中。
进一步,步骤c中,所述指标数据的类型根据指标数据的关键字来区分,关键字中包含测量实例ID和测量指标ID。
进一步,步骤c中,所述缓存队列的结构为:(测量实例ID_测量指标ID):原始数据缓存对象,2小时归并数据缓存对象,6小时归并数据缓存对象,24小时归并数据缓存对象。
进一步,步骤e中,所述预定条件为缓存队列长度≥m,或者,从网管系统启动至当前等待时间≥n,其中,m和n的取值在网管系统的配置文件中预先设置。
本发明的有益效果是:从软件上对原始数据进行有效归并,减小数据规模,有利于查询,同时不增加硬件成本。
附图说明
图1为本发明实施例中的数据归并方法流程图。
具体实施方式
为了使本发明的技术方案更加清楚、完整,下面结合附图及实施例作进一步的描述。
参见图1,本例中的数据归并方法采用以下步骤实现:
1.在数据库中创建4张数据表:即原始数据表、2小时表、6小时表、24小时表;分别用于记录原始数据、时间粒度为2小时的归并数据、时间粒度为6小时的归并数据、时间粒度为24小时的归并数据;
2.网管系统开启时时启动2小时定时任务、6小时定时任务、24小时定时任务,其触发时间间隔分别为2小时、6小时、24小时;同时,网管系统开始采集各被管理设备的监测项指标数据,数据中包括测量实例ID和测量指标ID;如:要对被管理设备A的CPU利用率进行监测,则测量实例ID即为被管理设备A的ID编号,测量指标ID即为“CPU利用率”的ID编号;
3.网管系统对采集到的原始数据进行归并处理:首先在内存中创建缓存队列,缓存队列的个数与指标数据的类型个数相同,即保证每种指标数据对应一个缓存队列,而指标数据的类型是根据数据中的关键字(唯一性标识)来区分的,关键字采用包括测量实例ID+测量指标ID构成,每个缓存队列中都包括原始数据缓存对象、2小时归并数据缓存对象、6小时归并数据缓存对象、24小时归并数据缓存对象;例如:缓存队列“1_1”中的前一个“1”为测量实例ID,后一个“1”为测量指标ID,假设设备A的ID为1,“CPU利用率”这个指标的ID为1,则其缓存队列的结构为1_1:原始数据缓存对象,2小时归并数据缓存对象,6小时归并数据缓存对象,24小时归并数据缓存对象;
4.将采集到的指标数据缓存在内存中与该指标类型相对应的缓存队列的原始数据缓存对象中,直至2小时定时任务触发,则对原始数据缓存对象中的所有指标数据求取平均值,并将求取平均值的结果缓存至2小时归并数据缓存对象中,直至6小时定时任务触发,则对2小时归并数据缓存对象中的数据求取平均值,并将求取平均值的结果缓存至6小时归并数据缓存对象中,直至24小时定时任务触发,则对6小时归并数据缓存对象中的数据求取平均值,并将求取平均值的结果缓存中24小时归并数据缓存对象中;
如:假设对设备A的CPU利用率的采集时间间隔为10分钟,将采集到的数据对应存储至缓存队列“1_1”的原始数据缓存对象中,至2小时定时任务触发时,原始数据缓存对象中已经存储了12条数据,将这12条数据进行累加求和再除以12,即得到平均值,此平均值即为按照2小时时间粒度划分的归并数据,因此将其存储至2小时归并数据缓存对象中,至6小时定时任务触发时,2小时归并数据缓存对象中已经存储了3条数据,将这3条数据进行累加求和再除以3,即得到平均值,此平均值即为按照6小时时间粒度划分的归并数据,因此将其存储至6小时归并数据缓存对象中,同理,至24小时定时任务触发时,6小时归并数据缓存对象中已经存储了4条数据,将这4条数据进行累加求和再除以4,即得到平均值,此平均值即为按照24小时时间粒度划分的归并数据,因此将其存储至24小时归并数据缓存对象中;
5.在满足缓存队列长度≥m,或者,从网管系统启动至当前等待时间≥n时,将各缓存队列中的数据存储至数据库的对应数据表中,其中,m和n的取值在网管系统的配置文件中预先设置;如:将缓存队列(1_1:原始数据缓存对象,2小时归并数据缓存对象,6小时归并数据缓存对象,24小时归并数据缓存对象)中的数据存储至数据库的对应数据表中方法是:在原始数据表中存入(1_1:原始数据缓存对象中的数据),在2小时表中存入(1_1:2小时归并数据缓存对象中的数据),在6小时表中存入(1_1:6小时归并数据缓存对象中的数据),在24小时表中存入(1_1:24小时归并数据缓存对象中的数据)。
可以看出,在原始数据采集时间间隔为10分钟的情况下,一天的数据为144条,归并到2小时表中就只有12条数据,归并到6小时表中就只有4条数据,归并到24小时表中就只有1条数据了,有效减小数据的规模,便于查询。
Claims (5)
1.一种数据归并处理方法,其特征在于,包括以下步骤:
a.在数据库中创建原始数据表及N个归并数据表,所述N个归并数据表用于分别对应存储N级按照时间粒度粗细划分的归并数据,各级时间粒度之间成整数倍关系且最细时间粒度为数据采集时间间隔的整数倍,N为正整数;
b.网管系统在启动时开启与N级时间粒度一一对应的N个定时任务,并采集被管理设备的各监测项的指标数据;
c.网管系统将采集到的指标数据提交给归并线程进行处理,并在内存中创建与指标数据类型个数相等的缓存队列,每一个缓存队列用于对一类指标数据进行缓存且包括一个原始数据缓存对象及N级按照时间粒度粗细划分的归并数据缓存对象;
d.将采集到的指标数据缓存在内存中与该指标类型相对应的缓存队列的原始数据缓存对象中,直至第一个定时任务触发,则对原始数据缓存对象中的所有指标数据求取平均值,并将求取平均值的结果缓存至第一级归并数据缓存对象中,直至第二个定时任务触发,则对第一级归并数据缓存对象中的数据求取平均值,并将求取平均值的结果缓存至第二级归并数据缓存对象中……如此类推,直至第N个定时任务触发时,则对第(N-1)级归并数据缓存对象中的数据求取平均值,并将求取平均值的结果缓存至第N级归并数据缓存对象中;
e.在满足预定条件后,将内存中的各缓存队列中的数据对应存储至数据库的原始数据表及N个归并数据表中。
2.如权利要求1所述的一种数据归并处理方法,其特征在于,步骤c中,所述指标数据的类型根据指标数据的关键字来区分,关键字中包含测量实例ID和测量指标ID。
3.如权利要求1或2所述的一种数据归并处理方法,其特征在于,步骤e中,所述预定条件为缓存队列长度≥m,或者,从网管系统启动至当前等待时间≥n,其中,m和n的取值在网管系统的配置文件中预先设置。
4.如权利要求3所述的一种数据归并处理方法,其特征在于,步骤a中,在数据库中创建原始数据表及3个归并数据表,这3个归并数据表分别为2小时表、6小时表、24小时表,分别用于存储按照2小时时间粒度划分的归并数据、按照6小时时间粒度划分的归并数据、按照24小时时间粒度划分的归并数据;
步骤b中,网管系统开启与3级时间粒度一一对应的3个定时任务,这3个定时任务分别为2小时定时任务、6小时定时任务、24小时定时任务,其触发时间间隔分别为2小时、6小时、24小时;
步骤c中,每一个缓存队列用于对一类指标数据进行缓存且包括一个原始数据缓存对象及3级按照时间粒度粗细划分的归并数据缓存对象,这3级按照时间粒度粗细划分的归并数据缓存对象分别为2小时归并数据缓存对象、6小时归并数据缓存对象、24小时归并数据缓存对象;
步骤d中,将采集到的指标数据缓存在内存中与该指标类型相对应的缓存队列的原始数据缓存对象中,直至2小时定时任务触发,则对原始数据缓存对象中的所有指标数据求取平均值,并将求取平均值的结果缓存至2小时归并数据缓存对象中,直至6小时定时任务触发,则对2小时归并数据缓存对象中的数据求取平均值,并将求取平均值的结果缓存至6小时归并数据缓存对象中,直至24小时定时任务触发,则对6小时归并数据缓存对象中的数据求取平均值,并将求取平均值的结果缓存中24小时归并数据缓存对象中;
步骤e中,在满足预定条件后,将内存中的各缓存队列中的数据对应存储至数据库的原始数据表及3个归并数据表中,即将各缓存队列中的原始数据缓存对象中的数据存储至原始数据表中,将各缓存队列中的2小时归并数据缓存对象中的数据存储至2小时表中,将各缓存队列中的6小时归并数据缓存对象中的数据存储至6小时表中,将各缓存队列中的24小时归并数据缓存对象中的数据存储至24小时表中。
5.如权利要求4所述的一种数据归并处理方法,其特征在于,步骤c中,所述缓存队列的结构为:(测量实例ID_测量指标ID):原始数据缓存对象,2小时归并数据缓存对象,6小时归并数据缓存对象,24小时归并数据缓存对象。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011102946758A CN102291269A (zh) | 2011-09-29 | 2011-09-29 | 一种数据归并处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011102946758A CN102291269A (zh) | 2011-09-29 | 2011-09-29 | 一种数据归并处理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102291269A true CN102291269A (zh) | 2011-12-21 |
Family
ID=45337392
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2011102946758A Pending CN102291269A (zh) | 2011-09-29 | 2011-09-29 | 一种数据归并处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102291269A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104331505A (zh) * | 2014-11-20 | 2015-02-04 | 合一网络技术(北京)有限公司 | 一种基于分布式采集及存储的监控系统 |
CN103684851B (zh) * | 2013-11-26 | 2017-03-08 | 华为技术有限公司 | 数据采集方法和装置 |
CN103678627B (zh) * | 2013-12-19 | 2017-04-19 | 成都科来软件有限公司 | 一种统计数据的存储和查询方法 |
CN107633034A (zh) * | 2017-09-08 | 2018-01-26 | 郑州金润高科电子有限公司 | 一种多缓存队列并行保存方法 |
CN107844402A (zh) * | 2017-11-17 | 2018-03-27 | 北京联想超融合科技有限公司 | 一种基于超融合存储系统的资源监控方法、装置及终端 |
CN110766501A (zh) * | 2018-07-27 | 2020-02-07 | 北京京东尚科信息技术有限公司 | 数据嵌套存储方法、装置、电子设备及计算机可读介质 |
CN113177024A (zh) * | 2021-06-29 | 2021-07-27 | 南京烽火星空通信发展有限公司 | 一种海量数据场景下的数据全局合并方法 |
CN113220715A (zh) * | 2021-07-08 | 2021-08-06 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、系统、计算机及可读存储介质 |
CN113965481A (zh) * | 2021-10-11 | 2022-01-21 | 山东星维九州安全技术有限公司 | 一种网络资产探测多任务调度优化方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1747398A (zh) * | 2004-09-08 | 2006-03-15 | 大唐移动通信设备有限公司 | 网元管理系统中海量性能数据的统计方法 |
CN101001376A (zh) * | 2007-01-18 | 2007-07-18 | 北京中星微电子有限公司 | 一种数据压缩的方法和装置 |
CN101789878A (zh) * | 2009-12-30 | 2010-07-28 | 中兴通讯股份有限公司 | 网管性能数据的处理方法及装置 |
CN101997701A (zh) * | 2009-08-10 | 2011-03-30 | 中兴通讯股份有限公司 | 数据处理方法及装置 |
-
2011
- 2011-09-29 CN CN2011102946758A patent/CN102291269A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1747398A (zh) * | 2004-09-08 | 2006-03-15 | 大唐移动通信设备有限公司 | 网元管理系统中海量性能数据的统计方法 |
CN101001376A (zh) * | 2007-01-18 | 2007-07-18 | 北京中星微电子有限公司 | 一种数据压缩的方法和装置 |
CN101997701A (zh) * | 2009-08-10 | 2011-03-30 | 中兴通讯股份有限公司 | 数据处理方法及装置 |
CN101789878A (zh) * | 2009-12-30 | 2010-07-28 | 中兴通讯股份有限公司 | 网管性能数据的处理方法及装置 |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103684851B (zh) * | 2013-11-26 | 2017-03-08 | 华为技术有限公司 | 数据采集方法和装置 |
CN103678627B (zh) * | 2013-12-19 | 2017-04-19 | 成都科来软件有限公司 | 一种统计数据的存储和查询方法 |
CN104331505B (zh) * | 2014-11-20 | 2016-09-21 | 合一网络技术(北京)有限公司 | 一种基于分布式采集及存储的监控系统 |
CN104331505A (zh) * | 2014-11-20 | 2015-02-04 | 合一网络技术(北京)有限公司 | 一种基于分布式采集及存储的监控系统 |
CN107633034B (zh) * | 2017-09-08 | 2020-12-01 | 河南德朗智能科技有限公司 | 一种多缓存队列并行保存方法 |
CN107633034A (zh) * | 2017-09-08 | 2018-01-26 | 郑州金润高科电子有限公司 | 一种多缓存队列并行保存方法 |
CN107844402A (zh) * | 2017-11-17 | 2018-03-27 | 北京联想超融合科技有限公司 | 一种基于超融合存储系统的资源监控方法、装置及终端 |
CN110766501A (zh) * | 2018-07-27 | 2020-02-07 | 北京京东尚科信息技术有限公司 | 数据嵌套存储方法、装置、电子设备及计算机可读介质 |
CN113177024A (zh) * | 2021-06-29 | 2021-07-27 | 南京烽火星空通信发展有限公司 | 一种海量数据场景下的数据全局合并方法 |
CN113220715A (zh) * | 2021-07-08 | 2021-08-06 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、系统、计算机及可读存储介质 |
CN113220715B (zh) * | 2021-07-08 | 2021-10-08 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、系统、计算机及可读存储介质 |
CN113965481A (zh) * | 2021-10-11 | 2022-01-21 | 山东星维九州安全技术有限公司 | 一种网络资产探测多任务调度优化方法 |
CN113965481B (zh) * | 2021-10-11 | 2024-06-07 | 山东星维九州安全技术有限公司 | 一种网络资产探测多任务调度优化方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102291269A (zh) | 一种数据归并处理方法 | |
US9063973B2 (en) | Method and apparatus for optimizing access path in database | |
US9928281B2 (en) | Lightweight table comparison | |
US11194809B2 (en) | Predicting performance of database queries | |
CN103412916B (zh) | 一种监控系统的多维度数据存储、检索方法及装置 | |
Metwally et al. | Efficient computation of frequent and top-k elements in data streams | |
US20170242887A1 (en) | Efficient access scheduling for super scaled stream processing systems | |
CN107193960B (zh) | 一种分布式爬虫系统及周期性增量抓取方法 | |
US11294920B2 (en) | Method and apparatus for accessing time series data in memory | |
CN107329983B (zh) | 一种机器数据分布式存储、读取方法及系统 | |
Roschke et al. | A flexible and efficient alert correlation platform for distributed ids | |
CN111143158B (zh) | 一种监控数据实时存储方法、系统、电子设备及存储介质 | |
US20150234883A1 (en) | Method and system for retrieving real-time information | |
CN104036029A (zh) | 大数据一致性对比方法和系统 | |
Li et al. | Sampling big trajectory data | |
US10176231B2 (en) | Estimating most frequent values for a data set | |
CN105242873B (zh) | 云计算系统的性能数据的采集与存储方法及装置 | |
CN107818106B (zh) | 一种大数据离线计算数据质量校验方法和装置 | |
CN108255704B (zh) | 一种脚本调用事件的异常响应方法及其终端 | |
Martin et al. | Low cost energy forecasting for smart grids using Stream Mine 3G and Amazon EC2 | |
Zhu et al. | Marlin: Taming the big streaming data in large scale video similarity search | |
Shi et al. | Hedc: A histogram estimator for data in the cloud | |
CN105718485B (zh) | 一种将数据录入数据库的方法及装置 | |
CN115729907A (zh) | 为数据库实例的监控指标分类的方法和装置、为数据库实例分类的方法和装置 | |
Imawan et al. | Road traffic analytic query processing based on a timeline modeling |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20111221 |