CN102929961B - 基于构建快速数据分级通道的数据处理方法及其装置 - Google Patents
基于构建快速数据分级通道的数据处理方法及其装置 Download PDFInfo
- Publication number
- CN102929961B CN102929961B CN201210382483.7A CN201210382483A CN102929961B CN 102929961 B CN102929961 B CN 102929961B CN 201210382483 A CN201210382483 A CN 201210382483A CN 102929961 B CN102929961 B CN 102929961B
- Authority
- CN
- China
- Prior art keywords
- data
- channel
- loading device
- module
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Abstract
本发明提供了一种基于构建快速数据分级通道的数据处理方法及其装置,由数据筛选装置对原始数据进行识别、分类过滤,将高优先级数据分送到数据分级通道,再由调度平台根据从数据传输通道和数据入库装置获取的信息,利用调度策略动态分配设备及调用通道数据;然后由数据入库装置从调度平台获取数据源,录入数据库。本发明适用于多种实际业务,可以构建快速数据分级通道,使根据业务需求要优先处理的数据从海量繁杂的数据中分离出来,并根据实际情况,主动或被动从调度平台获取数据源,将数据及时入库,从而提高系统的灵活性和数据的有效性,为客户提供更为便捷、快速、高效的服务。
Description
技术领域
本发明属于信息技术领域,涉及基于通道进行数据处理的方法及其装置,特别涉及1000TB(Terabyte)级以上的高效的海量数据处理方法及其装置。
背景技术
随着互联网、移动互联网等网络技术的迅猛发展,互联网用户的数量急剧增长,2008年全球所创造出的数字信息达到一个惊人的22位数字—(39821798684800350000000比特),约等于40万亿亿比特。全球信息总量每过两年,就会增长一倍,仅2011年,全球被创建和被复制的数据总量就达1.8ZB。面对互联网如此庞大的海量数据,延伸出许多先进的数据处理技术,除了传统的oracle、DB2,Mysql这类数据库,近几年NoSQL技术的发展也日渐成熟,如常用Hadoop技术,mongodb,可谓百家争鸣,各领风骚。
为了保障业务功能的需要,安全高效地处理海量数据,不仅是采用先进技术就能解决的,特别是数据规模达到PB级以上时,数据处理能力会随着时间推移和存储空间的膨胀导致处理能力逐渐下降,最终产生业务功能与用户的需求脱节。本发明通过充分挖掘数据采集、存储、应用三层系统能力,提出对海量数据分批、分类、分级预处理,灵活建立各类数据链路专用通道,极大的提高数据处理的效率。此外本发明另一大创新点在于无论海量数据系统使用何种数据库存储技术,本发明的方法都能发挥巨大作用,是一种高效处理海量数据的创新思路。
发明内容
本发明提供了一种基于构建快速数据分级通道的高效海量数据处理方法及其装置,在海量数据总量一定的前提下,通过数据筛选器过滤数据,使之分批、分类、分级,流经快速数据分级通道,利用调度策略,调度模块判断出入库设备,利用数据入库装置可选择性地主动获取数据源,并将数据入库。采用该方法能够提高海量数据根据业务需求的及时响应,增加数据处理的灵活性与有效性。
本发明的方法,对数据处理的步骤为:
(1)对海量的原始数据进行识别,比对识别出的数据是否符合相应的协议格式或要求,对其进行分批、分类、分级,然后将数据根据识别结果输出到相应的大日志数据传输通道、重要数据传输通道,或快速数据分级通道;其中快速数据分级通道负责传输优先级高的数据;
(2)根据集群设备信息判断通道数据的类型、数据量,根据预存的调度策略调用数据入库装置;
(3)根据实际情况,利用不同方式获取通道数据,并对其进行录入数据库操作;
(4)保存录入的数据。
步骤(3)所述的方式包括被动获取和主动获取。被动获取是由数据传输私有工具、商用传输工具,或开源传输工具进行数据由接入方到入库设备的数据搬运,然后进行入库操作。主动获取是通过判断获取方式及配置文件内容,主动读取通道中的数据源,将数据入库。
本发明的装置包括一数据筛选器,对原始数据进行识别、分类过滤,将结果数据输出到对应的通道;多个数据传输通道,其中有一数据分级通道,对过滤的高优先级数据放行;一调度平台,根据从数据传输通道和数据入库装置获取的信息,利用预设的调度策略动态分配设备及调用通道数据;以及一数据入库装置,根据实际情况,主动或被动从调度平台获取数据源,录入数据库。
本发明适用于多种实际业务,可以构建快速数据分级通道,使根据业务需求要优先处理的数据从海量繁杂的数据中分离出来,通过有效的利用系统资源,将数据及时入库,从而提高系统的灵活性和数据的有效性,为客户提供更为便捷、快速、高效的服务。
附图说明
图1是构建快速数据分级通道的高效海量数据处理装置示意图;
图2是数据筛选装置结构示意图;
图3是数据入库装置结构示意图。
具体实施方式
无论是何种海量数据系统,其最基本的系统一般由数据接入、数据存储和数据应用三个层面构成,根据实际业务需求,在这三层之间建立快速数据分级通道,将数据按大小、类型类别、实效性、关键字或标签、重要程度等规则,分批、分类、分级有序处理,可及时响应业务需求。本发明通过灵活构建快速数据分级通道,可充分发挥其高效的作用与价值。
基于构建快速数据分级通道的高效海量数据处理装置包括图1中的数据筛选装置1、数据通道2、调度平台3、数据入库装置4及数据存储设备五部分。其中数据筛选装置1包括图2中的识别器、规则库、分类器;数据入库装置4包括图3中的数据获取模块和数据入库模块。五部分的功能分别为:
数据筛选装置1:将原始数据通过数据识别和规则库比对,利用分类器对数据进行分批、分类、分级。
数据通道2:分批、分类、分级数据的虚拟传输路径。
调度平台3:包括缓存模块和调度模块,根据收集的通道数据信息、调度平台信息及数据入库装置信息及调度策略,动态分配数据入库设备及调用通道数据。具体来讲,调度平台将收集到的数据通道信息和数据入库装置信息存放于调度平台的缓存模块中,并在缓存模块中预置的有调度策略,调度模块通过对缓存模块中的数据进行分析,最终选择连接适当的数据入库装置。
数据入库装置4:将利用不同方式从调度平台3获取到的通道数据进行录入数据库操作。
数据存储设备:即数据库,用于保存数据的设备。
具体实现方法如下:
图1中通过数据筛选装置1中的识别器对海量原始数据进行初步识别,利用规则库中的规则内容进行匹配,识别器与分类器交互信息,将匹配后的结果通过分类器进行数据分批、分类、分级划分,将结果数据输出到各个通道。所述规则包括数据的大小、类型类别、实效性、关键字或标签、重要程度等。通过图1中的数据筛选装置1可将原始数据划分为若干通道,本例中将通道划分为通道A、通道B和通道C。
例如通道A为大日志数据传输通道,可利用公共传输方式,如mount方式或socket方式,将数据挂载或接收到数据入库装置4的某目录下,使用数据入库模块将数据读取入库;
例如通道C为重要数据传输通道,由于数据的重要性,采用双道备份机制,将该通道的数据在其它通道上进行备份操作,如在通道A上备份一份通道C的数据,通道C数据通过数据入库装置4将数据入库处理,如通道C中数据出现异常,可使用备份通道A的数据进行操作。在基于以上两种设计方式外,本专利重点介绍图1中的通道B。
图1中的通道B为快速数据分级通道,经过数据筛选装置1中的过滤规则剥离出的优先权数据在此通道传输。所述过滤规则根据实际的使用情况而定,比如:业务1需要过滤出im协议,那么规则中就限制只输出im协议;业务2需要http协议,那么给它的规则中就要设置只能输出http协议的规则。
图1中的调度平台3将获取的当前业务信息、通道信息、集群中的设备状态信息,并将预设的调度策略存储于缓存模块中,通过缓存模块中的信息,首先查看调度策略,然后由调度模块判断通道数据的类型、数据量,集群设备收集到的设备cpu、内存、剩余存储空间等是否满足数据入库的要求(数据量每秒大于50Mbps,设备的cpu利用率小于20%,内存利用率小于20%,剩余存储空间不小于40%),即通道数据类型根据业务需要剥离出优先权数据,并根据判断结果确定是否调用数据入库装置4。当判断为是时,调用相应的数据入库装置4,根据获取的当前业务信息、通道信息、预设的调度策略和集群中的设备状态信息,分配调用顺序和入库装置。当缓存模块中未存在所需的上述信息时,数据则通过固定的数据入库装置进行处理。图1中的调度模块根据反馈的分配信息依照调用顺序向调度平台3调用数据库操作语句;
图1中的调度平台3从数据库中读取所述数据库操作语句对应的配置信息;
图1中的调度平台3根据所述调用顺序及设备满足触发操作条件时,对通道B(快速数据分级通道)中数据进行优先操作;
图1中的数据入库装置4,该装置的数据获取方式可分为两种,一种为被动获取方式,由数据传输私有工具,如:transceiver、convery,或商用传输工具,如:Kudaa,或开源传输工具,如:OpenPiczzais,将通道数据发出,进行数据由接入方到数据入库装置的数据搬运,由图3中的数据获取模块被动接收到数据,将数据接收到数据入库模块的指定入库数据源处,再由数据入库模块将数据从入库数据源处提取,进行入库操作。该种方式优点是适用于大数据量的入库行为,但入库数据或模块一旦存在问题,则数据被丢弃不做处理;另一种方式为主动获取方式,数据入库模块通过判断获取方式及配置文件内容,主动读取通道中的数据源,如,数据入库模块根据配置文件信息(入库设备ip、端口),建立快速数据分级通道的数据源和数据入库模块的路径,由数据入库模块中的入库程序主动读取数据源进行入库操作。该种方式的优点是可根据实际业务需要,将通过过滤规则筛选出的优先权较高的数据及时响应处理,并可对在校验中发现的错误数据,进行请求重新发送。此种方式干预性和可控性强,提高数据的真实、有效、实时性。该装置可动态选择数据获取方式,自适应进行快速数据分级通道及其它通道数据的入库操作。
由上述发明内容可见,在跨越接入、存储、应用三层建立快速数据分级通道,对构建快速数据分级通道的海量数据利用数据筛选装置1、调度平台3及数据入库装置4,根据当前业务信息、通道信息、预设的调度策略及顺序,动态分配设备,对优先权较高通道数据及时响应处理大大增强,并提高了海量数据处理的灵活性及数据的实时有效性。
以下举一具体实施例进行说明:
1、海量数据进入数据筛选装置,由识别器进行数据的特征识别,例如识别出IM或Http协议数据、email、webmail、webbbs、blog、webchat、voip、SNS数据,以及webuser数据等,再通过已知的规则库内容,包括:数据大小、类型类别、时效性、关键字或标签、重要程度等,比对识别出的数据是否符合各种协议格式或要求,将根据业务需要识别出的上述数据定义为高优先级数据,最后通过分类器将各种协议数据解析后分批、分类、分级分发到各个通道上。如将webbbs、webchat等数据分发到通道A,即大日志数据传输通道中;将http协议数据解析后分发到通道B,即快速数据分级通道中,将email、webmail、blog、SNS等数据分发到通道C,即重要数据传输通道中。因通道A、通道C为常规通道,后续的处理采用常规手段即可,这两类并非本发明的重点,故本实施例仅针对通道B中的数据进行后续的说明。
2、调度平台根据获取到的调度平台设备及数据入库装置设备信息,如:cpu、内存占用率、剩余存储空间等,判断通道中数据的类型及数据量,标准根据业务的不同而定,再协同缓存模块中存放的调度策略判断使用哪台数据入库装置。
3、数据入库装置通过判定使用的是被动获取数据方式还是主动获取数据方式来接收数据:如是被动获取数据方式,通道B中的http数据通过数据传输工具将数据传输给数据获取模块,数据获取模块将http数据接收到指定的存放路径下,数据入库模块读取指定存放路径下的数据文件,进行入库操作,存入数据存储设备;如是主动获取数据方式,则不使用数据获取模块,通过数据入库模块中的配置文件中设置的入库设备ip、端口及配置指定存放http数据的数据源等信息,进行入库操作。
4、数据入库后,存储于数据库中,通过web终端进行数据库连接,展示数据。
Claims (6)
1.一种基于构建数据分级通道的数据处理方法,步骤包括:
(1)利用识别器对海量的原始数据进行特征识别,利用规则库对识别后的原始数据进行匹配,比对识别出的数据是否符合相应的协议格式或要求,所述规则库中的规则包括数据的大小、类型类别、实效性、关键字或标签、重要程度,然后识别器与分类器交互信息,利用分类器对数据进行分批、分类、分级,并根据分类结果输送到对应的数据传输通道;所述数据传输通道包括一数据分级通道,负责传输高优先级数据;
(2)调度平台根据集群设备信息判断通道数据的类型、数据量,根据预存的调度策略调用数据入库装置;所述调度平台包括缓存模块和调度模块;所述缓存模块中预置有调度策略,并存放数据通道信息和数据入库装置信息;所述调度模块对缓存模块中的数据信息进行分析,通过缓存模块中的信息,首先查看调度策略,然后由调度模块判断通道数据的类型、数据量,以及集群设备收集到的设备Cpu、内存、剩余存储空间是否满足数据入库的要求,根据判断结果确定是否调用数据入库装置;当判断为是时,调用相应的数据入库装置,根据获取的当前业务信息、通道信息、预设的调度策略和集群中的设备状态信息,分配调用顺序和入库装置;
(3)数据入库装置动态选择主动获取方式或被动获取方式以获取通道数据,自适应地进行各数据传输通道的数据的入库操作。
2.如权利要求1所述的数据处理方法,其特征在于,所述数据传输通道还包括大日志数据传输通道和重要数据传输通道。
3.如权利要求1所述的数据处理方法,其特征在于,所述主动获取是通过判断获取方式及配置文件内容,主动读取通道中的数据源,将数据入库。
4.如权利要求1所述的数据处理方法,其特征在于,所述被动获取是由数据传输私有工具、商用传输工具,或开源传输工具进行由接入方到数据入库装置的数据搬运,然后进行入库操作。
5.一种采用权利要求1所述方法的基于构建数据分级通道的数据处理装置,其特征在于,包括
一数据筛选器,对原始数据进行识别、分类过滤,将结果数据输出到对应的通道;所述数据筛选器包括识别器、规则库和分类器;所述识别器对原始数据进行初步识别,所述规则库对初步识别后的原始数据进行匹配,将匹配后的结果发给分类器,所述分类器进行数据分批、分类、分级划分,输出到相应通道;所述规则库中的规则包括数据的大小、类型类别、实效性、关键字或标签、重要程度;
至少一数据传输通道,包括一数据分级通道,对过滤的高优先级数据放行;
一调度平台,根据从数据传输通道和数据入库装置获取的信息,利用调度策略动态分配设备及调用通道数据;所述调度平台包括缓存模块和调度模块;所述缓存模块中预置有调度策略,并用于存放数据通道信息和数据入库装置信息;所述调度模块对缓存模块中的数据信息进行分析,选择连接对应的数据入库装置;以及
一数据入库装置,动态选择主动获取方式或被动获取方式从调度平台获取数据源,自适应地进行各数据传输通道的数据的入库操作。
6.如权利要求5所述的数据处理装置,其特征在于,所述数据入库装置包括数据获取模块和数据入库模块;
当被动获取数据时,所述数据获取模块将数据接收到指定的存放路径,所述数据入库模块读取该数据文件,进行入库操作;
当主动获取数据时,所述数据入库模块根据配置文件信息建立数据源和数据入库模块的路径,由数据入库模块中的入库程序主动读取数据源进行入库操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210382483.7A CN102929961B (zh) | 2012-10-10 | 2012-10-10 | 基于构建快速数据分级通道的数据处理方法及其装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210382483.7A CN102929961B (zh) | 2012-10-10 | 2012-10-10 | 基于构建快速数据分级通道的数据处理方法及其装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102929961A CN102929961A (zh) | 2013-02-13 |
CN102929961B true CN102929961B (zh) | 2016-12-21 |
Family
ID=47644759
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210382483.7A Active CN102929961B (zh) | 2012-10-10 | 2012-10-10 | 基于构建快速数据分级通道的数据处理方法及其装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102929961B (zh) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105094956B (zh) * | 2015-06-02 | 2018-08-14 | 北京京东尚科信息技术有限公司 | 一种基于通道隔离的业务分配方法和装置 |
CN105007236A (zh) * | 2015-06-10 | 2015-10-28 | 柳州市智融科技有限公司 | 网络大数据处理系统 |
CN105007232A (zh) * | 2015-06-10 | 2015-10-28 | 柳州市智融科技有限公司 | 网络大数据处理平台 |
CN105022664A (zh) * | 2015-06-10 | 2015-11-04 | 柳州市智融科技有限公司 | 互联网信息处理系统 |
CN105049371A (zh) * | 2015-06-10 | 2015-11-11 | 柳州市智融科技有限公司 | 网络信息处理系统 |
CN105007237A (zh) * | 2015-06-10 | 2015-10-28 | 柳州市智融科技有限公司 | 网络信息处理平台 |
CN107179878B (zh) * | 2016-03-11 | 2021-03-19 | 伊姆西Ip控股有限责任公司 | 基于应用优化的数据存储的方法和装置 |
CN106528792A (zh) * | 2016-11-10 | 2017-03-22 | 福州智永信息科技有限公司 | 基于多层缓存机制的大数据采集和高速处理方法及系统 |
CN107391770B (zh) * | 2017-09-13 | 2020-02-07 | 北京锐安科技有限公司 | 一种处理数据的方法、装置、设备以及存储介质 |
CN107562930B (zh) * | 2017-09-15 | 2020-06-19 | 广州快信信息科技有限公司 | 操作行为数据的处理方法及装置 |
CN110275771B (zh) * | 2018-03-15 | 2021-12-14 | 中国移动通信集团有限公司 | 一种业务处理方法、物联网计费基础设施系统及存储介质 |
CN109821240B (zh) * | 2018-12-05 | 2022-08-30 | 广州西山居世游网络科技有限公司 | 一种基于Unity实现资源LOD分级的方法及其装置 |
CN109660620B (zh) * | 2018-12-20 | 2021-08-03 | 北京树根互联科技有限公司 | 数据分发系统 |
CN110928851B (zh) * | 2019-10-12 | 2023-04-07 | 中国平安财产保险股份有限公司 | 处理日志信息的方法、装置、设备及存储介质 |
CN112579302B (zh) * | 2020-12-28 | 2024-03-01 | 南昌工程学院 | 一种基于大数据的数据处理终端及其处理系统 |
CN114137472A (zh) * | 2021-11-16 | 2022-03-04 | 国网江苏省电力有限公司营销服务中心 | 一种数据共享和业务融通功能的智能电能表状态评价系统 |
CN115221151B (zh) * | 2022-07-13 | 2024-02-02 | 小米汽车科技有限公司 | 车辆数据的传输方法、装置、车辆、存储介质及芯片 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1487436A (zh) * | 2003-08-08 | 2004-04-07 | 华中科技大学 | 基于多通道存储设备的海量存储系统及其系统控制方法 |
CN102214236A (zh) * | 2011-06-30 | 2011-10-12 | 北京新媒传信科技有限公司 | 一种海量数据处理方法和系统 |
CN102457519A (zh) * | 2011-10-21 | 2012-05-16 | 北京安天电子设备有限公司 | 自适应协议采样方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8045458B2 (en) * | 2007-11-08 | 2011-10-25 | Mcafee, Inc. | Prioritizing network traffic |
-
2012
- 2012-10-10 CN CN201210382483.7A patent/CN102929961B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1487436A (zh) * | 2003-08-08 | 2004-04-07 | 华中科技大学 | 基于多通道存储设备的海量存储系统及其系统控制方法 |
CN102214236A (zh) * | 2011-06-30 | 2011-10-12 | 北京新媒传信科技有限公司 | 一种海量数据处理方法和系统 |
CN102457519A (zh) * | 2011-10-21 | 2012-05-16 | 北京安天电子设备有限公司 | 自适应协议采样方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN102929961A (zh) | 2013-02-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102929961B (zh) | 基于构建快速数据分级通道的数据处理方法及其装置 | |
CN109451072A (zh) | 一种基于Kafka的消息缓存系统和方法 | |
CN103701934B (zh) | 一种资源优化调度方法及虚拟机宿主机优化选择方法 | |
CN108334557B (zh) | 一种聚合数据分析方法、装置、存储介质及电子设备 | |
CN110399533A (zh) | 资金流向查询方法及装置 | |
CN101546449A (zh) | 一种基于客户身份的动态排队方法和排队管理系统及应用 | |
CN104714984A (zh) | 一种数据库优化的方法和装置 | |
CN103841129B (zh) | 云计算的资源信息采集服务器和客户端、信息处理方法 | |
CN111813573B (zh) | 管理平台与机器人软件的通信方法及其相关设备 | |
CN104317942A (zh) | 一种基于Hadoop云平台的海量数据比对方法及系统 | |
CN105955807A (zh) | 一种任务处理系统及方法 | |
CN107622064A (zh) | 一种数据读取方法及系统 | |
CN111984495A (zh) | 一种大数据监控方法、装置和存储介质 | |
CN105426285B (zh) | 数据库连接池监控和管理的方法和装置 | |
CN111126852A (zh) | 一种基于大数据建模的bi应用系统 | |
CN107612984B (zh) | 一种基于互联网的大数据平台 | |
CN103258389B (zh) | 自助终端上传文件的方法、系统和自助终端 | |
CN107426017A (zh) | 一种通过采集交换机网络流量进行数据分析的方法 | |
CN106649743A (zh) | 一种创意分类脑库资源存储与分享方法及系统 | |
CN109800133A (zh) | 一种统一监控告警的方法、一站式监控告警平台及系统 | |
CN103345527A (zh) | 数据智能统计系统 | |
CN111581087B (zh) | 应用程序测试方法和装置 | |
CN116521340B (zh) | 一种基于大带宽网络的低延时并行数据处理系统及方法 | |
CN106354493B (zh) | 一种解决传统软件开发痛点的开发模式的实现方法 | |
CN113676518A (zh) | 一种基于区块的分布式数据调度汇集平台 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |