CN108737503A - 一种高效的大数据分布式传输系统及方法 - Google Patents

一种高效的大数据分布式传输系统及方法 Download PDF

Info

Publication number
CN108737503A
CN108737503A CN201810375745.4A CN201810375745A CN108737503A CN 108737503 A CN108737503 A CN 108737503A CN 201810375745 A CN201810375745 A CN 201810375745A CN 108737503 A CN108737503 A CN 108737503A
Authority
CN
China
Prior art keywords
data
disk
distributed
harvester
big data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810375745.4A
Other languages
English (en)
Inventor
魏素扬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Ming Crane Cloud Technology Co Ltd
Original Assignee
Jiangsu Ming Crane Cloud Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Ming Crane Cloud Technology Co Ltd filed Critical Jiangsu Ming Crane Cloud Technology Co Ltd
Priority to CN201810375745.4A priority Critical patent/CN108737503A/zh
Publication of CN108737503A publication Critical patent/CN108737503A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种高效的大数据分布式传输系统及方法,大数据分布式传输系统,包括:采集机,采集机通过智能体采集网络中产生的网络数据;分布式消息总线Kafka集群,分布式消息总线Kafka集群与采集机连接,并使用Flume采集数据以接收智能体采集到的数据,并对数据进行汇聚;第一磁盘,第一磁盘与所述分布式消息总线Kafka集群连接,汇聚后的数据落入第一磁盘中;单向设备,单向设备与第一磁盘相连,以将第一磁盘上的数据进行单向摆渡分布式文件系统或第二磁盘。根据本发明的高效的大数据分布式传输系统,可以保证数据准实时传输至大数据中心。

Description

一种高效的大数据分布式传输系统及方法
技术领域
本发明设计大数据传输技术领域,具体而言,特别设计一种高效的大数据分布式传输系统及方法。
背景技术
随着互联网移动互联网技术的发展,产生的数据越来越多,数据需要被采集到大数据中心进行存储,并且使用数据挖掘算法挖掘数据的价值,指导未来的战略布局和营销。而从数据采集到数据中心化存储,必然会使用到大数据传输技术。但相关技术中的数据传输的系统,在进行大规格海量数据并发传输,把个采集机采集到的数据级联传输至大数据中心时,对采集机运行状态的监测能力差,数据的完整性容易出现问题。
发明内容
本发明旨在至少在一定程度上解决现有技术中的上述技术问题之一。有鉴于此,本发明一方面需要提供一种高效的大数据分布式传输系统保证数据准实时传输至大数据中心。同时,本发明提供了一种高效的大数据分布式传输方法。
根据本发明的实施例的高效的大数据分布式传输系统,包括:采集机,所述采集机通过智能体采集网络中产生的网络数据;分布式消息总线Kafka集群,所述分布式消息总线Kafka集群与所述采集机连接,并使用Flume采集数据以接收所述智能体采集到的数据,并对数据进行汇聚;第一磁盘,所述第一磁盘与所述分布式消息总线Kafka集群连接,汇聚后的数据落入所述第一磁盘中;单向设备,所述单向设备与所述第一磁盘相连,以将所述第一磁盘上的数据进行单向摆渡分布式文件系统或第二磁盘。
根据本发明的实施例的高效的大数据分布式传输系统,不同的数据在不同的网络中,数据存储可能是物理隔离的;数据采集机分散部署在各地,不便于管理,本专利解决采集机运行状态的监测;通过数据校验机制保证数据传输的完整性;通过对节点资源监测,适配硬件资源,保证数据准实时传输至大数据中心。
另外,根据本发明上述实施例的高效的大数据分布式传输系统还可以具有如下附加的技术特征:
根据本发明的一个实施例,所述采集机通过智能体对自定义监测采集字段进行采集。
根据本发明的一个实施例,所述采集机通过智能体对设备软件产生的数据字段进行采集。
根据本发明的一个实施例,所述单向设备与所述分布式文件系统及所述第二磁盘物理隔离。
根据本发明的一个实施例,所述单向设备为网闸。
根据本发明的实施例的高效的大数据分布式传输方法,包括以下步骤:使用采集机采集网络中产生的网络数据,并在每台采集机上部署智能体,使用Flume采集数据传输至分布式消息总线Kafka集群;所述分布式消息总线Kafka集群接收到的智能体采集的数据汇聚于kafak集群,并且落入第一磁盘;所述磁盘上的数据通过单向设备摆渡到物理网隔离的分布式文件系统和/或第二磁盘。
根据本发明的实施例的高效的大数据分布式传输方法,不同的数据在不同的网络中,数据存储可能是物理隔离的;数据采集机分散部署在各地,不便于管理,本专利解决采集机运行状态的监测;通过数据校验机制保证数据传输的完整性;通过对节点资源监测,适配硬件资源,保证数据准实时传输至大数据中心。
另外,根据本发明上述实施例的高效的大数据分布式传输方法还可以具有如下附加的技术特征:
根据本发明的一个实施例,高效的大数据分布式传输方法进一步包括以下步骤:通过自定义接口把数据上传至大数据中心的分所述布式文件系统。
根据本发明的一个实施例,通过上传数据的传输的agent性能指标及kafka的状态信息,进行硬件的扩容和消减。
根据本发明的一个实施例,所述采集机通过智能体对自定义监测采集字段进行采集。
根据本发明的一个实施例,所述采集机通过智能体对设备软件产生的数据字段进行采集。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
图1是根据本发明的一个实施例的高效的大数据分布式传输系统的结构示意图。
图2是根据本发明的一个实施例的高效的大数据分布式传输方法的流程图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本发明中,除非另有明确的规定和限定,第一特征在第二特征之“上”或之“下”可以包括第一和第二特征直接接触,也可以包括第一和第二特征不是直接接触而是通过它们之间的另外的特征接触。而且,第一特征在第二特征“之上”、“上方”和“上面”包括第一特征在第二特征正上方和斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”包括第一特征在第二特征正下方和斜下方,或仅仅表示第一特征水平高度小于第二特征。
如图1所示,根据本发明的实施例的高效的大数据分布式传输系统,包括:采集机10、分布式消息总线Kafka集群20、第一磁盘31和单向设备40。
具体而言,采集机10可以通过智能体(Agent)采集网络中产生的网络数据。采集机10可以为多个,分布式消息总线Kafka集群20可以与采集机10连接,并使用Flume采集数据以接收智能体(Agent)采集到的数据,并对数据进行汇聚。第一磁盘31与分布式消息总线Kafka集群20连接,汇聚后的数据落入第一磁盘31中。单向设备40与第一磁盘31相连,以将第一磁盘31上的数据进行单向摆渡分布式文件系统或第二磁盘32。
根据本发明的实施例的高效的大数据分布式传输系统,不同的数据在不同的网络中,数据存储可能是物理隔离的;数据采集机分散部署在各地,不便于管理,本专利解决采集机运行状态的监测;通过数据校验机制保证数据传输的完整性;通过对节点资源监测,适配硬件资源,保证数据准实时传输至大数据中心。
根据本发明的一个实施例,采集机10可以通过智能体对自定义监测采集字段进行采集。由此,可以提高数据处理的效率。可以理解的是,采集机10可以通过智能体(Agent)对设备软件产生的数据字段进行采集。
根据本发明的一个实施例,单向设备40可以与分布式文件系统(HDFS)及第二磁盘32物理隔离。可以理解的是,根据本发明的一个实施例,单向设备为网闸。
根据本发明的实施例的高效的大数据分布式传输系统,使用采集机采集网络中产生的网络数据,主要保持自定义监测采集字段和设备软件产生的数据字段;
在每台采集机上部署agent,使用Flume采集数据传输至分布式消息总线Kafka集群;
Kafka集群接收到的agent采集的数据汇聚于kafak集群,并且落入磁盘;
磁盘上的数据通过单向设备摆渡到物理网隔离的其他网络系统;
通过自定义接口把数据上传至大数据中心的分布式文件系统。
通过上传数据的传输的agent性能指标及kafka的状态信息,进行硬件的扩容和消减。
根据本发明的实施例的高效的大数据分布式传输方法,可以包括以下步骤:
S1:使用采集机采集网络中产生的网络数据,并在每台采集机上部署智能体,使用Flume采集数据传输至分布式消息总线Kafka集群。
S2:所述分布式消息总线Kafka集群接收到的智能体采集的数据汇聚于kafak集群,并且落入第一磁盘。
S3:所述磁盘上的数据通过单向设备摆渡到物理网隔离的分布式文件系统和/或第二磁盘。
根据本发明的实施例的高效的大数据分布式传输方法,不同的数据在不同的网络中,数据存储可能是物理隔离的;数据采集机分散部署在各地,不便于管理,本专利解决采集机运行状态的监测;通过数据校验机制保证数据传输的完整性;通过对节点资源监测,适配硬件资源,保证数据准实时传输至大数据中心。
进一步地,根据本发明的一个实施例,高效的大数据分布式传输方法可以进一步包括以下步骤:
可以理解的而是,可以通过自定义接口把数据上传至大数据中心的分所述布式文件系统。
根据本发明的实施例,通过上传数据的传输的agent性能指标及kafka的状态信息,进行硬件的扩容和消减。
根据本发明的一个实施例,所述采集机通过智能体对自定义监测采集字段进行采集。
根据本发明的一个实施例,所述采集机通过智能体对设备软件产生的数据字段进行采集。
本发明是面向大数据的一种高效可靠传输系统,使用优化后Flume收集海量的日志数据,采用Kafak作为数据汇聚方式,保证数据采集的高效性和完整性。Kafka采集到数据落入磁盘后,通过API写入HDFS分布式文件系统。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。此外,本领域的技术人员可以将本说明书中描述的不同实施例或示例进行接合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种高效的大数据分布式传输系统,其特征在于,包括:
采集机,所述采集机通过智能体采集网络中产生的网络数据;
分布式消息总线Kafka集群,所述分布式消息总线Kafka集群与所述采集机连接,并使用Flume采集数据以接收所述智能体采集到的数据,并对数据进行汇聚;
第一磁盘,所述第一磁盘与所述分布式消息总线Kafka集群连接,汇聚后的数据落入所述第一磁盘中;
单向设备,所述单向设备与所述第一磁盘相连,以将所述第一磁盘上的数据进行单向摆渡分布式文件系统或第二磁盘。
2.根据权利要求1所述的高效的大数据分布式传输系统,其特征在于,所述采集机通过智能体对自定义监测采集字段进行采集。
3.根据权利要求1所述的高效的大数据分布式传输系统,其特征在于,所述采集机通过智能体对设备软件产生的数据字段进行采集。
4.根据权利要求1所述的高效的大数据分布式传输系统,其特征在于,所述单向设备与所述分布式文件系统及所述第二磁盘物理隔离。
5.根据权利要求1所述的高效的大数据分布式传输系统,其特征在于,所述单向设备为网闸。
6.一种高效的大数据分布式传输方法,其特征在于,包括以下步骤:
使用采集机采集网络中产生的网络数据,并在每台采集机上部署智能体,使用Flume采集数据传输至分布式消息总线Kafka集群;
所述分布式消息总线Kafka集群接收到的智能体采集的数据汇聚于kafak集群,并且落入第一磁盘;
所述磁盘上的数据通过单向设备摆渡到物理网隔离的分布式文件系统和/或第二磁盘。
7.根据权利要求6所述的高效的大数据分布式传输方法,其特征在于,进一步包括以下步骤:
通过自定义接口把数据上传至大数据中心的分所述布式文件系统。
8.根据权利要求6所述的高效的大数据分布式传输方法,其特征在于,通过上传数据的传输的agent性能指标及kafka的状态信息,进行硬件的扩容和消减。
9.根据权利要求6所述的高效的大数据分布式传输方法,其特征在于,所述采集机通过智能体对自定义监测采集字段进行采集。
10.根据权利要求6所述的高效的大数据分布式传输方法,其特征在于,所述采集机通过智能体对设备软件产生的数据字段进行采集。
CN201810375745.4A 2018-04-25 2018-04-25 一种高效的大数据分布式传输系统及方法 Pending CN108737503A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810375745.4A CN108737503A (zh) 2018-04-25 2018-04-25 一种高效的大数据分布式传输系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810375745.4A CN108737503A (zh) 2018-04-25 2018-04-25 一种高效的大数据分布式传输系统及方法

Publications (1)

Publication Number Publication Date
CN108737503A true CN108737503A (zh) 2018-11-02

Family

ID=63939839

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810375745.4A Pending CN108737503A (zh) 2018-04-25 2018-04-25 一种高效的大数据分布式传输系统及方法

Country Status (1)

Country Link
CN (1) CN108737503A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109739921A (zh) * 2019-01-07 2019-05-10 北京云基数技术有限公司 一种大数据采集系统和方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1226511A1 (en) * 1999-09-08 2002-07-31 Freedesk.Com, Inc. System and method of permissive data flow and application transfer
CN1851702A (zh) * 2006-05-25 2006-10-25 中国工商银行股份有限公司 本地化数据采集方法和系统
CN103500173A (zh) * 2013-09-03 2014-01-08 北京泰乐德信息技术有限公司 一种轨道交通监测数据的查询方法
CN104579823A (zh) * 2014-12-12 2015-04-29 国家电网公司 一种基于大数据流的网络流量异常检测系统及方法
CN105933169A (zh) * 2016-07-04 2016-09-07 江苏飞搏软件股份有限公司 一种高效鲁棒的大数据安全聚合系统与方法
CN106452819A (zh) * 2015-08-13 2017-02-22 腾讯科技(深圳)有限公司 数据采集系统及数据采集方法
CN106649831A (zh) * 2016-12-29 2017-05-10 北京奇艺世纪科技有限公司 一种数据过滤方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1226511A1 (en) * 1999-09-08 2002-07-31 Freedesk.Com, Inc. System and method of permissive data flow and application transfer
CN1851702A (zh) * 2006-05-25 2006-10-25 中国工商银行股份有限公司 本地化数据采集方法和系统
CN103500173A (zh) * 2013-09-03 2014-01-08 北京泰乐德信息技术有限公司 一种轨道交通监测数据的查询方法
CN104579823A (zh) * 2014-12-12 2015-04-29 国家电网公司 一种基于大数据流的网络流量异常检测系统及方法
CN106452819A (zh) * 2015-08-13 2017-02-22 腾讯科技(深圳)有限公司 数据采集系统及数据采集方法
CN105933169A (zh) * 2016-07-04 2016-09-07 江苏飞搏软件股份有限公司 一种高效鲁棒的大数据安全聚合系统与方法
CN106649831A (zh) * 2016-12-29 2017-05-10 北京奇艺世纪科技有限公司 一种数据过滤方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109739921A (zh) * 2019-01-07 2019-05-10 北京云基数技术有限公司 一种大数据采集系统和方法

Similar Documents

Publication Publication Date Title
CN103236949B (zh) 一种服务器集群的监控方法、装置与系统
CN106162219B (zh) 视频云存储方法及系统
CN104639374B (zh) 一种应用程序部署管理系统
CN101741615B (zh) 基于服务器的告警过滤系统及方法
CN110247810A (zh) 一种收集容器服务监控数据的系统及方法
CN103645904B (zh) 一种接口调用的缓存实现方法
CN105893628A (zh) 一种数据实时收集系统及方法
CN109428785A (zh) 一种故障检测方法和装置
CN101969448B (zh) 在p2p流媒体系统中查找活动节点的方法、系统及设备
CN101651710A (zh) 基于p2p的容灾备份方法
CN108681488A (zh) 一种物联网平台终端数据上报方法
CN107181616A (zh) 一种监控存储系统性能数据的方法及系统
CN101114946A (zh) 在电信网管系统中性能对象数据的采集方法
CN104503894A (zh) 分布式服务器状态实时监测系统及方法
CN108737503A (zh) 一种高效的大数据分布式传输系统及方法
CN103631873A (zh) 一种数据压缩方法及存储系统
CN102866942A (zh) 一种基于贝叶斯推断的软件服务质量监控方法及系统
CN102510403B (zh) 用于车辆数据接收和实时分析的集群分布式系统及方法
CN107591850B (zh) 无线传感器网络充电方法及装置
CN103986790A (zh) 一种云数据中心基础设施监控告警的方法
CN108011979A (zh) 一种智能公厕远程监控系统
CN102118274A (zh) 一种状态监控方法、装置和系统
CN109375146A (zh) 一种用电数据的补采方法、系统及终端设备
CN103634135B (zh) 一种基于元数据的数据采集方法
CN104735097A (zh) 信息的收集方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20181102

RJ01 Rejection of invention patent application after publication