CN102904952B - 一种自适应性的高效处理海量数据入库的系统及方法 - Google Patents

一种自适应性的高效处理海量数据入库的系统及方法 Download PDF

Info

Publication number
CN102904952B
CN102904952B CN201210387248.9A CN201210387248A CN102904952B CN 102904952 B CN102904952 B CN 102904952B CN 201210387248 A CN201210387248 A CN 201210387248A CN 102904952 B CN102904952 B CN 102904952B
Authority
CN
China
Prior art keywords
data
database server
redundant database
index
warehouse
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210387248.9A
Other languages
English (en)
Other versions
CN102904952A (zh
Inventor
董雪
火一莽
翁越龙
马楠
廉喆
史延涛
乔赞瑞
游书明
孙瑞
刘超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING MUNICIPAL PUBLIC SECURITY BUREAU
Beijing Ruian Technology Co Ltd
Original Assignee
BEIJING MUNICIPAL PUBLIC SECURITY BUREAU
Beijing Ruian Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING MUNICIPAL PUBLIC SECURITY BUREAU, Beijing Ruian Technology Co Ltd filed Critical BEIJING MUNICIPAL PUBLIC SECURITY BUREAU
Priority to CN201210387248.9A priority Critical patent/CN102904952B/zh
Publication of CN102904952A publication Critical patent/CN102904952A/zh
Application granted granted Critical
Publication of CN102904952B publication Critical patent/CN102904952B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种自适应性的高效处理海量数据入库的系统及方法。该系统包括数据接入设备、数据库服务器、监控装置和冗余数据库服务器。监控装置采集并存储数据接入设备中的数据积压状况信息以及冗余数据库服务器的运行状态信息,并根据采集的信息改变数据接入与数据入库配比,向冗余数据库服务器发送任务调度指令;冗余数据库服务器根据任务调度指令辅助数据库服务器进行数据入库及存储。本发明根据数据量的变化动态改变入库配比使其达到自动感知、判断、识别、管理和调度,实现了海量数据入库的负载均衡以及高效、准确、及时入库。

Description

一种自适应性的高效处理海量数据入库的系统及方法
技术领域
本发明属于信息技术领域,具体涉及一种自适应性的高效处理海量数据入库的系统及方法,主要用于提高海量数据库入库性能。
背景技术
随着计算机和网络通信技术的飞速发展,企业要处理的数据爆炸式的增长,数据量都达到了TB级、PB级。在电信和互联网等行业里,数据接入、数据入库、数据应用是企业架构的重要组成部分。而数据接入、数据入库是产品前端部署,如何将接入数据高效、准确、及时入库是许多企业面对的难题。
按面向对象的不同,从数据接入的角度出发可以分为:主动和被动两种模式。主动方式,主动通过程序向数据库服务器发送数据。被动方式,被动等待数据入库服务器与之建立连接处理接入设备上数据。前者需要额外进行搬运程序开发和增加硬件中转服务器,后者只需数据库服务器与数据接入设备建立连接通道。
大多数企业应用后者,在部署时依据以往的测试结论及经验将所有数据接入设备根据数据库数量均匀分配,按照确定的配比数量,使数据接入设备与数据库固化形成相互独立的数据处理通道,提供高效、持续的数据处理能力,如图1所示。但实际数据在时间和空间分布上往往具有较大的波动性,随着数据压力的增大,这类系统的问题也逐渐显现,海量处理性能下降。经过一段时间应用后发现上述系统结构僵化、缺乏灵活性,随着骨干网技术飞快发展POS技术(Packet over SONET/SDH的缩写,这是一种利用SONET/SDH提供的高速传输通道直接传送IP数据包的技术)不断扩容及数据量的成倍增加,该配置方案已逐渐落后于系统数据处理的需求,僵化的固定配比和数据流路径面对复杂的应用环境显得力不从心。系统的负载越来越大,忙闲不均造成数据处理的压力在关键位置成倍增加,系统总体性能随之下降。对系统造成的性能瓶颈,往往超出用户能承受的范围。
发明内容
本发明的目的是针对上述问题,提供一种自适应性的高效处理海量数据入库的系统及方法,解决接入设备与数据库服务器固定入库配比无法及时处理TB级、PB级海量数据的问题,将数据入库配比活化,实现海量数据入库负载均衡,提高数据库入库性能。
为实现上述目的,本发明采用如下技术方案:
一种自适应性的高效处理海量数据入库的系统,包括数据接入设备和与其连接的数据库服务器,其特征在于,还包括监控装置和冗余数据库服务器;
所述监控装置连接所述数据接入设备,包括采集模块和自适应调度模块;所述采集模块负责采集并存储所述数据接入设备中的数据积压状况信息以及所述冗余数据库服务器的运行状态信息;所述自适应调度模块连接所述采集模块,负责根据采集的信息改变数据接入与数据入库配比,并向所述冗余数据库服务器发送任务调度指令;
所述冗余数据库服务器分别连接所述监控装置和所述数据接入设备,用于根据所述任务调度指令辅助所述数据库服务器进行数据入库及存储。
进一步地,所述采集模块包括采集器和存储器,分别用于实现信息的采集和存储。
进一步地,所述自适应调度模块包括:分析器,用于对所采集信息的特征值进行对比分析,判断其是否为有效数据,并改变数据接入与数据入库配比;规则库,用于根据用户业务需要设定入库性能指标,对是否需要所述冗余数据库服务器协助解决数据入库做出界定;调度器,用于根据改变后的数据接入与数据入库配比向所述冗余数据库服务器发送任务调度指令。
一种自适应性的高效处理海量数据入库的方法,适用于上述系统,其步骤包括:
1)设置与数据接入设备连接的监控装置,以及分别连接所述数据接入设备和所述监控装置的冗余数据库服务器;
2)所述监控装置采集并存储所述数据接入设备中的数据积压状况信息以及所述冗余数据库服务器的运行状态信息,并根据采集的信息改变数据接入与数据入库配比,向所述冗余数据库服务器发送任务调度指令;
3)所述冗余数据库服务器根据所述任务调度指令辅助数据库服务器进行数据入库及存储。
进一步地,所述自适应调度模块对所采集信息的特征值进行对比分析,判断其是否为有效数据;并根据用户业务需要设定入库性能指标,对是否需要所述冗余数据库服务器协助解决数据入库做出界定。
进一步地,所述任务调度指令包括:执行命令,用于使所述冗余数据库服务器根据改变后的数据接入与数据入库配比辅助数据库服务器完成数据入库;停止命令,用于使所述冗余数据库服务器停止数据入库操作,恢复原始状态以便接收新的指令。
本发明的高效处理海量数据入库的系统及方法,通过增加监控装置和冗余数据库服务器协助解决数据入库,将传统意义上的人工监测、入库设备配比“活化”,解决了现有技术中数据接入设备与数据库服务器固定入库配比时无法及时处理的大量海量数据的问题,强化了海量数据处理的灵活性,实现了海量数据入库的负载均衡以及海量数据高效、准确、及时入库的目的,达到了以变应变的效果。
本发明利用有限的设备充分挖掘系统自身潜力,根据数据量的变化动态改变入库配比使其达到自动感知、判断、识别、管理和调度,变被动为主动以适应数据的不断变化,实现了数据入库系统的自动控制及管理,使系统整体处理能力得到较大提高,提升了客户使用的满意度。
附图说明
图1是现有技术中数据入库系统的拓扑结构示意图。
图2是实施例中自适应性的高效处理海量数据入库的系统的拓扑结构示意图。
图3是图2中监控装置的组成结构示意图。
图4是实施例中自适应性的高效处理海量数据入库的方法的步骤流程图。
具体实施方式
下面通过具体实施例并配合附图,对本发明做详细的说明。
图2是本实施例的自适应性的高效处理海量数据入库的系统的拓扑结构示意图。图中右边部分即为现有技术中数据接入、数据入库、数据应用的部署模式,也即图1所示结构。为增加数据入库的灵活性,本发明在原有系统(包括数据接入设备、数据库服务器等)基础上增加了监控装置和冗余数据库服务器(如图2左边所示)。通过监控装置采集数据接入设备的系统资源及性能指标,然后对采集的数据的特定值进行判断和识别预处理,从而根据数据接入设备的数据量变化,利用冗余的数据库服务器作为机动资源,强化原有入库模式,改变数据接入与数据入库配比,以实现接入设备数据量的负载均衡,实现数据快速、准确、及时入库。
图3是图2中监控装置的组成结构示意图,该监控装置由采集模块和自适应调度模块组成。采集模块负责信息采集和存储,可分成采集器、存储器两部分。自适应调度模块包括分析器、规则库和调度器,分析器用于对所采集信息的特征值进行对比分析,判断其是否为有效数据,并改变数据接入与数据入库配比;规则库用于根据用户业务需要设定入库性能指标,对是否需要冗余数据库服务器协助解决数据入库做出界定;调度器用于根据改变后的数据接入与数据入库配比向所述冗余数据库服务器发送任务调度指令。自适应调度模块通过分析器、规则库根据一定的特征值对采集的数据进行相关预处理分析,从而实现系统自动、判断、管理,并通过调度器进行任务分配。冗余数据库服务器根据调度器指令进行业务操作及处理,负责协助解决海量数据入库,提升数据入库速度。
上述特征值包括CPU使用值、系统负载值、数据文件大小值等。根据规则库判断监测的数据是否有效,在具体实施时,可以采集3次信息为一个集合,然后对每一次采集的信息和规则库进行比对,减少数据偶然性。可以根据cpu、MEN、loadavage、data指标标准特征,依据指标规则设定最大值及最小值进行判断,验证采集信息是否属于数字格式等,从而判断采集数据是否真实有效。比如采集数据cpu值大于100%、data数据大于硬盘大小、MEN大于总内存大小、采集数据为特殊字符或字母等,取时间最近一次有效数据转入下一个流程。规则库根据用户业务需要制定入库性能指标,默认以配置文件方式创建,包括接入设备积压指标、系统负载指标、CPU使用率指标、内存占用指标、IO指标等;进而比对采集的数据的特征值与规则库中的上述指标,对是否需要冗余数据库服务器协助解决数据入库做出界定。
图4为本实施例的自适应性的高效处理海量数据入库的方法的步骤流程图。主要步骤包括:信息采集、数据汇总分析、任务分配、建立连接、执行任务、完成任务。下面对各步骤进行详细说明:
1)信息采集
如图4中S1所示,监控模块建立服务器监控连接通道,采集并获取数据接入设备、冗余数据库服务器的性能指标。采集器通过监控程序的配置需要收集系统服务器IP,建立连接,配置固定时间段进行信息采集,收集服务器设备数据大小及积压情况,包括/DATA(接入设备存放数据路径)、CPU使用率、MEM(内存)占用率、Load average(系统负载)、磁盘数据、数据库大小等,以及冗余数据库服务器的运行状态。存储器对采集信息进行存储。为后续调度模块分析、处理提供参考和依据。调度器还负责为冗余数据库服务器进行分组,即将冗余数据库服务器对应于特定的数据接入设备。
2)数据汇总分析
如图4中S2所示,自适应调度模块负责对采集的数据(来自数据接入设备、数据库冗余服务器)的特征值进行对比、分析,获得监测数据之间的变化值;并根据监测数据之间的变化值,判断每个所述监测数据是否为有效数据;将判断为有效数据的监测数据根据业务特征规则库进行识别处理,实现系统自我感知、自动调度、调整入库配比,实现入库活化。分析器得出数据接入与数据入库需要修改的入库配比模式,形成任务优先级。
3)任务分配
调度器根据任务优先级进行任务指令调度分派,向冗余数据库服务器发送执行、停止命令:
a)发送执行命令
根据分析的数据结果,在冗余数据库服务器与数据接入设备间建立数据连接通道,完成自适应入库配比,增加或减少处理数据的入库服务器,在系统固定配比无法满足在新增大量海量数据的情况下可以实现入库配比动态灵活调配,提高入库业务操作的数据处理速度,缓解数据积压。须说明的是,在减少处理数据的入库服务器时,只能减少协助入库的冗余数据库服务器,原有数据库服务器不能减少。
b)发送停止命令
根据监控模块收集的系统特征值,进行业务判读。数据接入积压数据小于业务特征值时,自适应调度模块根据设置阀值判断原有入库配比可以处理,即像冗余数据库服务器下达停止协助指令,退出协助恢复原始状态,以便接收新的指令,解决新增入库任务。上述阀值即是规则库中的指标值,低于阀值认为原有系统可以处理,不需要冗余数据库服务器辅助完成入库操作。
3)建立连接、执行任务以及完成任务
如图3中S3所示,冗余数据库服务器安装客户端程序,用于接收来自调度器的调度指令。该冗余数据库服务器负责与数据接入设备建立连接通道,保证可以正常读取原始数据存放路径;以及负责接收指令,根据调度器输出的任务分配指令,调控入库配比,实现多对多处理积压数据内容,直至调度程序发送停止命令使任务结束。完成任务后,监控装置的采集模块采集冗余数据入库服务器的完成状态,并等待下次任务,如图3中S4所示。
下面提供一个本发明的应用实例,该实例以linux系统和oracle为基础,具体步骤如下:
步骤一:根据数据接入设备、冗余数据库服务器生成采集配置文件,配置文件包括用户名、密码、ip、cpu、men、数据文件大小等信息。
步骤二:监控装置通过读取配置文件,确定接入设备、冗余数据库服务器Ip、用户名、密码建立连接通道,采集数据文件大小、cpu、men、loadaverage等信息并进行存储。
步骤三:通过规则库中特征值,包括cpu使用率、负载、数据大小等,判断采集的数据是否有效,将判断为有效数据的监测数据根据规则库业务特征进行识别处理,得出数据接入与数据入库需要修改的入库配比模式。
步骤四:自适应调度模块根据上述分析结果,像冗余数据库服务器发送任务指令。
步骤五:冗余数据库服务器接收指令,改变数据入库配比,协助解决数据入库缓解数据积压。或者接收自适应调度模块的停止指令,等待下次任务。
以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,本发明的保护范围应以权利要求所述为准。

Claims (9)

1.一种自适应性的高效处理海量数据入库的系统,包括数据接入设备和与其连接的数据库服务器,其特征在于,还包括监控装置和冗余数据库服务器;
所述监控装置连接所述数据接入设备,包括采集模块和自适应调度模块;所述采集模块负责采集并存储所述数据接入设备中的数据积压状况信息以及所述冗余数据库服务器的运行状态信息;所述自适应调度模块连接所述采集模块,负责根据采集的信息动态改变数据接入与数据入库配比,将数据入库配比活化,并向所述冗余数据库服务器发送任务调度指令,实现海量数据入库的负载均衡;所述自适应调度模块包括:分析器,用于对所采集信息的特征值进行对比分析以判断其是否为有效数据,并改变数据接入与数据入库配比;规则库,用于根据用户业务需要设定入库性能指标,对是否需要所述冗余数据库服务器协助解决数据入库做出界定;调度器,用于根据改变后的数据接入与数据入库配比向所述冗余数据库服务器发送任务调度指令;
所述冗余数据库服务器分别连接所述监控装置和所述数据接入设备,用于根据所述任务调度指令辅助所述数据库服务器进行数据入库及存储。
2.如权利要求1所述的系统,其特征在于:所述采集模块包括采集器和存储器,分别用于实现信息的采集和存储。
3.如权利要求1所述的系统,其特征在于,所述数据积压状况信息包括:包括/DATA、CPU使用率、内存占用率、系统负载、磁盘数据、数据库大小。
4.如权利要求1所述的系统,其特征在于,所述特征值包括:CPU使用值、系统负载值、数据文件大小值;所述入库性能指标包括:接入设备积压指标、负载指标、CPU使用率指标、内存占用指标、IO指标。
5.如权利要求1所述的系统,其特征在于:所述调度器还负责为冗余数据库服务器分组,将冗余数据库服务器对应于特定的数据接入设备。
6.一种采用权利要求1所述系统的自适应性的高效处理海量数据入库的方法,其步骤包括:
1)设立与数据接入设备连接的监控装置,以及分别连接所述数据接入设备和所述监控装置的冗余数据库服务器;
2)所述监控装置采集并存储所述数据接入设备中的数据积压状况信息以及所述冗余数据库服务器的运行状态信息,并根据采集的信息改变数据接入与数据入库配比,向所述冗余数据库服务器发送任务调度指令;
3)所述冗余数据库服务器根据所述任务调度指令辅助数据库服务器进行数据入库及存储。
7.如权利要求6所述的方法,其特征在于:所述监控装置对所采集信息的特征值进行对比分析,判断其是否为有效数据;并根据用户业务需要设定入库性能指标,对是否需要所述冗余数据库服务器协助解决数据入库做出界定。
8.如权利要求7所述的方法,其特征在于:所述特征值包括:CPU使用值、系统负载值、数据文件大小值;所述入库性能指标包括:接入设备积压指标、负载指标、CPU使用率指标、内存占用指标、IO指标。
9.如权利要求6所述的方法,其特征在于,所述任务调度指令包括:执行命令,用于使所述冗余数据库服务器根据改变后的数据接入与数据入库配比辅助数据库服务器执行数据入库操作;停止命令,用于使所述冗余数据库服务器停止数据入库操作,恢复原始状态以便接收新的指令。
CN201210387248.9A 2012-10-12 2012-10-12 一种自适应性的高效处理海量数据入库的系统及方法 Active CN102904952B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210387248.9A CN102904952B (zh) 2012-10-12 2012-10-12 一种自适应性的高效处理海量数据入库的系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210387248.9A CN102904952B (zh) 2012-10-12 2012-10-12 一种自适应性的高效处理海量数据入库的系统及方法

Publications (2)

Publication Number Publication Date
CN102904952A CN102904952A (zh) 2013-01-30
CN102904952B true CN102904952B (zh) 2015-07-01

Family

ID=47576987

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210387248.9A Active CN102904952B (zh) 2012-10-12 2012-10-12 一种自适应性的高效处理海量数据入库的系统及方法

Country Status (1)

Country Link
CN (1) CN102904952B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105281778B (zh) * 2015-10-16 2019-03-26 上海通创信息技术有限公司 监控数据自适应压缩方法及系统
CN105808778B (zh) * 2016-03-30 2019-04-26 中国银行股份有限公司 一种海量数据抽取、转换、加载方法及装置
CN116566983B (zh) * 2023-05-12 2023-11-24 北京盈创力和电子科技有限公司 多功能智能感知系统、方法及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1367439A (zh) * 2002-02-10 2002-09-04 苏州市蜗牛电子有限公司 多客户端互动的负载均衡方法及系统
CN101662495A (zh) * 2009-09-16 2010-03-03 成都市华为赛门铁克科技有限公司 备份方法、主服务器、备份服务器以及备份系统
CN101916296A (zh) * 2010-08-29 2010-12-15 武汉天喻信息产业股份有限公司 基于文件的海量数据处理方法
CN102035843A (zh) * 2010-12-17 2011-04-27 北京锐安科技有限公司 一种单向数据传输系统和传输方法
CN102143215A (zh) * 2011-01-20 2011-08-03 中国人民解放军理工大学 一种基于网络的pb级云存储系统及其处理方法
CN102214236A (zh) * 2011-06-30 2011-10-12 北京新媒传信科技有限公司 一种海量数据处理方法和系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1367439A (zh) * 2002-02-10 2002-09-04 苏州市蜗牛电子有限公司 多客户端互动的负载均衡方法及系统
CN101662495A (zh) * 2009-09-16 2010-03-03 成都市华为赛门铁克科技有限公司 备份方法、主服务器、备份服务器以及备份系统
CN101916296A (zh) * 2010-08-29 2010-12-15 武汉天喻信息产业股份有限公司 基于文件的海量数据处理方法
CN102035843A (zh) * 2010-12-17 2011-04-27 北京锐安科技有限公司 一种单向数据传输系统和传输方法
CN102143215A (zh) * 2011-01-20 2011-08-03 中国人民解放军理工大学 一种基于网络的pb级云存储系统及其处理方法
CN102214236A (zh) * 2011-06-30 2011-10-12 北京新媒传信科技有限公司 一种海量数据处理方法和系统

Also Published As

Publication number Publication date
CN102904952A (zh) 2013-01-30

Similar Documents

Publication Publication Date Title
CN112162865B (zh) 服务器的调度方法、装置和服务器
CN104038540B (zh) 一种应用代理服务器自动选择方法及系统
CN110888714B (zh) 容器的调度方法、装置和计算机可读存储介质
CN108255582B (zh) java虚拟机垃圾回收的方法、系统、设备及存储介质
CN108845878A (zh) 基于无服务器计算的大数据处理方法及装置
CN110308980A (zh) 数据的批量处理方法、装置、设备及存储介质
CN104657220A (zh) 混合云中基于截止时间和费用约束的调度模型及方法
CN103530189A (zh) 一种面向流式数据的自动伸缩及迁移的方法及装置
CN103164283A (zh) 一种虚拟桌面系统中虚拟化资源动态调度管理方法及系统
CN104023042B (zh) 云平台资源调度方法
CN106506670A (zh) 一种云平台虚拟资源高速调度方法与系统
CN111338791A (zh) 集群队列资源的调度方法、装置、设备及存储介质
CN104298550A (zh) 一种面向Hadoop的动态调度方法
CN105607952B (zh) 一种虚拟化资源的调度方法及装置
CN115543577B (zh) 基于协变量的Kubernetes资源调度优化方法、存储介质及设备
CN102521662A (zh) 一种云计算环境中消费计费的方法
CN103701934A (zh) 一种资源优化调度方法及虚拟机宿主机优化选择方法
CN104536804A (zh) 面向关联任务请求的虚拟资源调度系统及调度和分配方法
CN113010576A (zh) 云计算系统容量评估的方法、装置、设备和存储介质
CN108428114A (zh) 项目的信息处理方法及装置、存储介质、电子装置
CN109684078A (zh) 用于spark streaming的资源动态分配方法和系统
CN112365366A (zh) 一种基于智能化5g切片的微电网管理方法及系统
CN102904952B (zh) 一种自适应性的高效处理海量数据入库的系统及方法
CN104753977A (zh) 基于模糊聚类的地震处理解释基础设施云资源调度方法
CN111190691A (zh) 适用于虚拟机的自动迁移方法、系统、装置及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant