CN106250410B - 一种基于flume系统的数据处理方法及其装置 - Google Patents

一种基于flume系统的数据处理方法及其装置 Download PDF

Info

Publication number
CN106250410B
CN106250410B CN201610581729.1A CN201610581729A CN106250410B CN 106250410 B CN106250410 B CN 106250410B CN 201610581729 A CN201610581729 A CN 201610581729A CN 106250410 B CN106250410 B CN 106250410B
Authority
CN
China
Prior art keywords
data
module
channel layer
layer
cleaning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610581729.1A
Other languages
English (en)
Other versions
CN106250410A (zh
Inventor
徐沛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Softcom Power Information Technology Co., Ltd
Original Assignee
Shenzhen Softcom Power Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Softcom Power Information Technology Co Ltd filed Critical Shenzhen Softcom Power Information Technology Co Ltd
Priority to CN201610581729.1A priority Critical patent/CN106250410B/zh
Publication of CN106250410A publication Critical patent/CN106250410A/zh
Application granted granted Critical
Publication of CN106250410B publication Critical patent/CN106250410B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Cleaning By Liquid Or Steam (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明公开了一种基于flume系统的数据处理方法及其装置,该方法应用于数据清洗系统,包括如下步骤:S1、source层从数据源采集原始数据;S2、source层将采集到的原始数据发送至channel层;S3、channel层将原始数据发送至数据清洗模块;S4、channel层从数据清洗模块获取目标数据;S5、sink层从channel层获取目标数据;S6、sink层将目标数据发送至接收方。本发明的优点在于通过将flume系统的在source层中的清洗功能剥离至flume系统外的数据清洗模块中,提高source层的数据采集效率,减少了对生产机器的损耗。

Description

一种基于flume系统的数据处理方法及其装置
技术领域
本发明涉及数据处理技术,尤其涉及一种基于flume系统的数据处理方法及其装置。
背景技术
大数据分析的基础是大数据,通常采集数据的来源多种多样,而且数据格式和编码格式也不完全一致,数据质量良莠不齐,因此在进行大数据分析之前,我们都需要对数据进行数据清洗;数据清洗(Data cleaning)是一个对数据进行重新审查和校验的过程,数据清洗的目的在于删除重复信息,纠正或剔除错误的数据,以保证数据的一致性。
在数据采集阶段,我们一般会采用Flume作为数据采集工具。Flume是Cloudera公司提供的一个高可用高可靠分布式的海量数据采集聚合和传输的系统,Flume支持在系统中定制各类数据发送方,用于收集数据;同时Flume可以对数据进行简单处理,并写到各种数据接受方的能力。
如图1所示,常规的Flume包括source层、channel层和sink层,由source层从数据源采集数据,并发送至channel层,channel层对数据进行简单的缓存,sink层从channel层中获取数据,并发送至接收方;数据源一般为需要采集数据的生产机器,接收方可以是相应的存储文件系统、数据库或者远程服务器,采集的数据一般为生产机器的日志。
常规的flume对采集到的数据进行数据清洗的方式为前置清洗,前置清洗是在source层中配置拦截器,source层采集到的数据里符合系统设定的数据可以通过拦截器,而不符合系统设定的数据将会被清理。
但是在实际应用中,flume的前置清洗有如下缺点:
(1)Flume系统附在生产机器上,而拦截器的清洗工作会占用生产机器的资源,对生产机器造成负担;
(2)拦截器配置在source层中,影响source层的数据采集进度;
(3)拦截器的清洗方式简单,无法处理复杂的清洗需求。
发明内容
为了克服现有技术的不足,本发明的目的之一在于提供一种基于flume系统的数据处理方法,其能解决解决清洗数据影响生产机器运行以及数据采集的问题。
本发明的目的之二在于提供一种基于flume系统的数据处理装置,其能解决解决清洗数据影响生产机器运行以及数据采集的问题。
本发明的目的之一采用以下技术方案实现:
一种基于flume系统的数据处理方法,应用于数据清洗系统,包括如下步骤:
S1、source层从数据源采集原始数据;
S2、source层将采集到的原始数据发送至channel层;
S3、channel层将原始数据发送至数据清洗模块;
S4、channel层从数据清洗模块获取目标数据;
S5、sink层从channel层获取目标数据;
S6、sink层将目标数据发送至接收方。
作为优选,所述S3中channel层将原始数据发送至数据清洗模块的传输方式为异步传输。
作为优选,所述channel层将原始数据异步传输至数据清洗模块的底层传输方式为TCP/UDP协议及其协议簇衍生方式。
作为优选,所述S4中channel层从数据清洗模块获取目标数据的传输方式为异步传输。
作为优选,所述channel层从数据清洗模块异步传输获取目标数据的底层传输方式为TCP/UDP协议及其协议簇衍生方式。
本发明的目的之二采用以下技术方案实现:
一种基于flume系统的数据处理装置,包括:
采集模块,应用于source层中,用于从数据源采集原始数据;
第一传送模块,应用于source层,用于将采集到的原始数据发送至channel层;
输出模块,应用于channel层,用于将原始数据发送至数据清洗模块;
输入模块,应用于channel层,用于从数据清洗模块获取清洗后的目标数据;
获取模块,应用于sink层,用于从channel层获取目标数据;
第二传送模块,应用于sink层,用于将目标数据发送至接收方。
作为优选,所述输出模块中channel层将原始数据发送至数据清洗模块的传输方式为异步传输。
作为优选,所述channel层将原始数据异步传输至数据清洗模块的底层传输方式为TCP/UDP协议及其协议簇衍生方式。
作为优选,所述输入模块中channel层从数据清洗模块获取目标数据的传输方式为异步传输。
作为优选,所述channel层从数据清洗模块异步传输获取目标数据的底层传输方式为TCP/UDP协议及其协议簇衍生方式。
相比现有技术,本发明的有益效果在于:通过将flume系统的在source层中的清洗功能剥离至flume系统外的数据清洗模块中,提高source层的数据采集效率,减少了对生产机器的损耗。
附图说明
图1为常规的flume系统的模块连接图;
图2为本发明的数据清洗系统的模块连接图;
图3为本发明的基于flume系统的数据处理方法的流程图;
图4为本发明的基于flume系统的数据处理装置的模块连接图。
具体实施方式
下面,结合附图以及具体实施方式,对本发明做进一步描述:
如图2所示,本发明的flume系统包括source层、channel层和sink层;数据清洗系统包括flume系统、数据清洗模块、数据源和接收方,数据源、source层、channel层、sink层和接收方依次连接,channel层和数据清洗模块连接。
所述数据清洗模块设置于flume系统外,数据清洗模块内包括多个清洗节点,可以根据用户业务需求的不同,设置不同清洗需求的清洗节点。
一种基于flume系统的数据处理方法,应用于数据清洗系统,如图3所示,包括如下步骤:
步骤10、source层从数据源采集原始数据。
步骤11、source层将采集到的原始数据发送至channel层;
本发明中不在source层中配置拦截器,source层仅负责采集原始数据和发送数据的工作。
步骤12、channel层将原始数据发送至数据清洗模块;
数据清洗模块对原始数据进行清理得到目标数据;channel层将原始数据通过发送至数据清洗模块的发送方式为异步传输,其底层传输方式包括但不限于TCP/UDP协议及其协议簇衍生方式。
步骤13、channel层从数据清洗模块获取清洗后的目标数据;
channel层从数据清洗模块获取目标数据的获取方式为异步传输,其底层传输方式包括但不限于TCP/UDP协议及其协议簇衍生方式。
步骤14、sink层从channel层获取目标数据;
步骤15、sink层将目标数据发送至接收方。
由于channel层将原始数据发送至flume系统外的数据清洗模块进行清洗,数据清洗模块对数据进行清洗不会影响flume系统中source层的采集进度,并且可以减少对生产机器的损耗。
另外当存在多个flume系统将原始数据从channel层中输送至数据清洗模块进行数据清洗时,数据清洗模块可以根据每个flume系统的负载不同,将清洗完的数据发送至负载较低的flume系统中,数据清洗模块可以为flume系统提供负载均衡。
一种基于flume系统的数据处理装置,如图4所示,包括:
采集模块,应用于source层中,用于从数据源采集原始数据;
第一传送模块,应用于source层,用于将采集到的原始数据发送至channel层;
输出模块,应用于channel层,用于将原始数据发送至数据清洗模块;
输入模块,应用于channel层,用于从数据清洗模块获取清洗后的目标数据;
输入模块和输出模块不会破坏flume中的层级结构,对flume的架构无侵入;输入模块和输出模块可以跟随flume的版本进行升级;输入模块和输出模块可以是但不限于以lib包的形式配置在flume系统的channel层中。
获取模块,应用于sink层,用于从channel层获取目标数据;
第二传送模块,应用于sink层,用于将目标数据发送至接收方。
对本领域的技术人员来说,可根据以上描述的技术方案以及构思,做出其它各种相应的改变以及形变,而所有的这些改变以及形变都应该属于本发明权利要求的保护范围之内。

Claims (10)

1.一种基于flume系统的数据处理方法,应用于数据清洗系统,其特征在于,包括如下步骤:
S1、source层从数据源采集原始数据;
S2、source层将采集到的原始数据发送至channel层;
S3、channel层将原始数据发送至数据清洗模块;
S4、channel层从数据清洗模块获取目标数据;
S5、sink层从channel层获取目标数据;
S6、sink层将目标数据发送至接收方;
当存在多个flume系统将原始数据从channel层中输送至数据清洗模块进行数据清洗时,数据清洗模块可以根据每个flume系统的负载不同,将清洗完的数据发送至负载较低的flume系统中,数据清洗模块可以为flume系统提供负载均衡。
2.如权利要求1所述的数据处理方法,其特征在于,所述S3中channel层将原始数据发送至数据清洗模块的传输方式为异步传输。
3.如权利要求2所述的数据处理方法,其特征在于,所述channel层将原始数据异步传输至数据清洗模块的底层传输方式为TCP/UDP协议及其协议簇衍生方式。
4.如权利要求1所述的数据处理方法,其特征在于,所述S4中channel层从数据清洗模块获取目标数据的传输方式为异步传输。
5.如权利要求4所述的数据处理方法,其特征在于,所述channel层从数据清洗模块异步传输获取目标数据的底层传输方式为TCP/UDP协议及其协议簇衍生方式。
6.一种基于flume系统的数据处理装置,其特征在于,包括:
采集模块,应用于source层中,用于从数据源采集原始数据;
第一传送模块,应用于source层,用于将采集到的原始数据发送至channel层;
输出模块,应用于channel层,用于将原始数据发送至数据清洗模块;
输入模块,应用于channel层,用于从数据清洗模块获取清洗后的目标数据;
获取模块,应用于sink层,用于从channel层获取目标数据;
第二传送模块,应用于sink层,用于将目标数据发送至接收方;
当存在多个flume系统将原始数据从channel层中输送至数据清洗模块进行数据清洗时,数据清洗模块可以根据每个flume系统的负载不同,将清洗完的数据发送至负载较低的flume系统中,数据清洗模块可以为flume系统提供负载均衡。
7.如权利要求6所述的数据处理装置,其特征在于,所述输出模块中channel层将原始数据发送至数据清洗模块的传输方式为异步传输。
8.如权利要求7所述的数据处理装置,其特征在于,所述channel层将原始数据异步传输至数据清洗模块的底层传输方式为TCP/UDP协议及其协议簇衍生方式。
9.如权利要求6所述的数据处理装置,其特征在于,所述输入模块中channel层从数据清洗模块获取目标数据的传输方式为异步传输。
10.如权利要求9所述的数据处理装置,其特征在于,所述channel层从数据清洗模块异步传输获取目标数据的底层传输方式为TCP/UDP协议及其协议簇衍生方式。
CN201610581729.1A 2016-07-21 2016-07-21 一种基于flume系统的数据处理方法及其装置 Active CN106250410B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610581729.1A CN106250410B (zh) 2016-07-21 2016-07-21 一种基于flume系统的数据处理方法及其装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610581729.1A CN106250410B (zh) 2016-07-21 2016-07-21 一种基于flume系统的数据处理方法及其装置

Publications (2)

Publication Number Publication Date
CN106250410A CN106250410A (zh) 2016-12-21
CN106250410B true CN106250410B (zh) 2020-01-07

Family

ID=57604385

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610581729.1A Active CN106250410B (zh) 2016-07-21 2016-07-21 一种基于flume系统的数据处理方法及其装置

Country Status (1)

Country Link
CN (1) CN106250410B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108073705B (zh) * 2017-12-18 2022-06-14 浪潮云信息技术股份公司 一种分布式海量数据聚合采集方法
CN108710694A (zh) * 2018-05-22 2018-10-26 浪潮软件集团有限公司 一种基于Flume的将数据存储为文件的方法及装置
CN109815221A (zh) * 2018-12-20 2019-05-28 中科曙光南京研究院有限公司 一种准实时流式数据清洗方法和清洗系统
CN110673891B (zh) * 2019-09-12 2022-08-02 济南浪潮数据技术有限公司 一种数据处理方法、装置、设备及介质
CN115086303B (zh) * 2022-06-29 2024-05-17 徐工汉云技术股份有限公司 一种多数据源数据转发器及其设计方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103955502A (zh) * 2014-04-24 2014-07-30 科技谷(厦门)信息技术有限公司 一种可视化olap的应用实现方法及系统
CN105005549A (zh) * 2015-07-31 2015-10-28 山东蚁巡网络科技有限公司 一种自定义链式日志解析装置及方法
CN105512336A (zh) * 2015-12-29 2016-04-20 中国建设银行股份有限公司 一种基于Hadoop的海量数据处理方法和装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106063191B (zh) * 2013-11-12 2019-09-17 皮沃塔尔软件公司 流事件数据收集
CN105653662A (zh) * 2015-12-29 2016-06-08 中国建设银行股份有限公司 一种基于Flume的数据处理方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103955502A (zh) * 2014-04-24 2014-07-30 科技谷(厦门)信息技术有限公司 一种可视化olap的应用实现方法及系统
CN105005549A (zh) * 2015-07-31 2015-10-28 山东蚁巡网络科技有限公司 一种自定义链式日志解析装置及方法
CN105512336A (zh) * 2015-12-29 2016-04-20 中国建设银行股份有限公司 一种基于Hadoop的海量数据处理方法和装置

Also Published As

Publication number Publication date
CN106250410A (zh) 2016-12-21

Similar Documents

Publication Publication Date Title
CN106250410B (zh) 一种基于flume系统的数据处理方法及其装置
CN107818120B (zh) 基于大数据的数据处理方法和装置
CN106452819B (zh) 数据采集系统及数据采集方法
CN102650875B (zh) 检查系统、管理服务器、检查装置及检查数据管理方法
CN106294357A (zh) 数据处理方法和流计算系统
CN110286649B (zh) 针对数控机床上传感器采集数据的建模系统及其方法
CN110162512A (zh) 一种日志检索方法、装置及存储介质
CN111209467A (zh) 一种多并发多通道环境下的数据实时查询系统
CN108154230A (zh) 深度学习处理器的监控方法和监控装置
CN103634203A (zh) 消息异步传输方法、装置和系统
RU2013143046A (ru) Система и способ для передачи изображений в режиме реального времени
CN112527530A (zh) 消息处理方法、装置、设备、存储介质及计算机程序产品
CN115567589A (zh) Json数据的压缩传输方法、装置、设备及存储介质
CN105142035A (zh) 一种视频流切片转发系统及方法
CN117332134A (zh) 遥感卫星原始数据处理和管理方法、装置、设备及介质
CN110989537A (zh) 生产数据处理方法、设备、介质及系统
CN104205852A (zh) 信息处理装置和方法以及程序
CN105763382A (zh) 一种基于端到端业务监控的实现方法和装置
CN105592135A (zh) 数据冗余消除dre字典确认方法和设备
CN105743676A (zh) 一种多数据源综合采集装置及方法
CN111401819B (zh) 系统间数据推送方法及系统
CN107480598A (zh) 基于人工智能的dsp系统
CN113641758A (zh) 一种基于实时数仓作数据采集的风控统计方法及装置
CN114490718A (zh) 数据输出方法、装置、电子设备和计算机可读介质
CN108805741B (zh) 一种电能质量数据的融合方法、装置及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TA01 Transfer of patent application right

Effective date of registration: 20191219

Address after: 518019 2-24 / F, building a, Zhongshe Plaza, No. 1028, Buji Road, Dongxiao street, Luohu District, Shenzhen City, Guangdong Province

Applicant after: Shenzhen Softcom Power Information Technology Co., Ltd

Address before: 510000. Room two, No. 122, sports east road, Guangzhou, Guangdong, Tianhe District 3304, China

Applicant before: Guangzhou hope Mdt InfoTech Ltd

TA01 Transfer of patent application right