CN110989935A - Flume系统的数据处理、传输方法及装置 - Google Patents

Flume系统的数据处理、传输方法及装置 Download PDF

Info

Publication number
CN110989935A
CN110989935A CN201911242383.2A CN201911242383A CN110989935A CN 110989935 A CN110989935 A CN 110989935A CN 201911242383 A CN201911242383 A CN 201911242383A CN 110989935 A CN110989935 A CN 110989935A
Authority
CN
China
Prior art keywords
source data
data
source
reading
sink
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911242383.2A
Other languages
English (en)
Inventor
周朝卫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongying Youchuang Information Technology Co Ltd
Original Assignee
Zhongying Youchuang Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongying Youchuang Information Technology Co Ltd filed Critical Zhongying Youchuang Information Technology Co Ltd
Priority to CN201911242383.2A priority Critical patent/CN110989935A/zh
Publication of CN110989935A publication Critical patent/CN110989935A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/067Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/061Improving I/O performance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0614Improving the reliability of storage systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0655Vertical data movement, i.e. input-output transfer; data movement between one or more hosts and one or more storage devices

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种Flume系统的数据处理、传输方法及装置,其中,该数据处理方法应用于Channel端,包括:在接收到存入源数据的触发命令时,将从源Source端发来的源数据写入本地磁盘;在接收到读取源数据的触发命令时,以Sendfile零拷贝技术,从所述本地磁盘读取源数据发送到Sink端。上述提高Flume系统的容错率和性能,保证了数据高效可靠地传输,进而提高了系统的稳定性和安全性,同时降低了系统维护的成本。

Description

Flume系统的数据处理、传输方法及装置
技术领域
本发明涉及数据处理技术领域,特别涉及一种Flume系统的数据处理、传输方法及装置。
背景技术
Flume是一个分布式、高可用、可靠的海量日志采集、聚合和传输系统。目前,Flume系统的channel端数据处理方案主要有memory、file、kafka、Spillable Memory和jdbc。下面对这几种方案进行介绍。
1.数据存储在memory channel,传输效率高,但是当sink端(汇聚节点,网关节点)来不及消费(处理),则数据存在丢失的风险。
2.数据存储在file channel,能保证数据不丢失,然而性能非常低效,大数据量的日志采集场景不可用。
3.数据存储在Kafka channel,能保证数据的不丢失,且传输效率较高,但是额外引入了Kafka集群,增加了维护的成本。当采集机达到成百上千台时,需要对应维护相应数量的Kafka topic,降低了数据采集的稳定性。日志采集主机与Kafka集群的网络连通,降低网络安全性。
4.数据存储在jdbc channel,数据传输效率同样受到数据库的性能限制,且引入了第三方的产品。
5.数据保存在Spillable Memory channel,目前此channel属于测试阶段,无法保证稳定性,官方也不推荐在生产环境使用。实际的测试效果反而不如file channel。
针对上述问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种Flume系统的数据处理方法,应用于Channel端,用以提高Flume系统的容错率和性能,该方法包括:
在接收到存入源数据的触发命令时,将从源Source端发来的源数据写入本地磁盘;
在接收到读取源数据的触发命令时,以Sendfile零拷贝技术,从所述本地磁盘读取源数据发送到Sink端。
本发明实施例还提供了一种Flume系统的数据传输方法,用以提高Flume系统的容错率和性能,及传输效率,该方法包括:
Source端接收源数据;
Channel端利用上述的Flume系统的数据处理方法,将所述源数据传输至Sink端;
Sink端将所述源数据传输至目标地址。
本发明实施例还提供了一种Flume系统的数据处理装置,应用于Channel端,用以提高Flume系统的容错率和性能,该装置包括:
写单元,用于在接收到存入源数据的触发命令时,将从源Source端发来的源数据写入本地磁盘;
读单元,用于在接收到读取源数据的触发命令时,以Sendfile零拷贝技术,从所述本地磁盘读取源数据发送到Sink端。
本发明实施例还提供了一种Flume系统的数据传输装置,用以提高Flume系统的容错率和性能,及传输效率,该装置包括:
Source端,用于接收源数据;
Channel端,用于利用上述的Flume系统的数据处理方法,将所述源数据传输至Sink端;
Sink端,用于将所述源数据传输至目标地址。
本发明实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述Flume系统的数据处理、传输方法。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述Flume系统的数据处理、传输方法的计算机程序。
本发明实施例提供的Flume系统的数据处理的技术方案应用于Channel端,其通过:在接收到存入源数据的触发命令时,将从Source端发来的源数据写入本地磁盘;在接收到读取源数据的触发命令时,以Sendfile零拷贝技术,从所述本地磁盘读取源数据发送到Sink端,实现了数据写入本地磁盘,其写入速度接近内存的性能,基于Sendfile技术将数据高效地发送至Sink,由于数据在本地磁盘存储,可保证数据不丢失,且Channel端的容量依赖磁盘,可扩展至较大的容量,这样既能保证性能及高容错率,又可以保证数据的高效可靠地传输。
基于上述Flume系统的数据处理的技术方案实现的Flume系统的数据传输方案通过:Source端接收源数据;Channel端利用上述Flume系统的数据处理方法,将源数据传输至Sink端;Sink端将所述源数据传输至目标地址,实现了数据的高效可靠地传输,提高了传输效率。
综上,上述技术方案提高了Flume系统的容错率和性能,保证了数据高效可靠地传输,进而提高了系统的稳定性和安全性,同时降低了系统维护的成本。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例中Flume系统的数据处理方法的流程示意图;
图2是本发明实施例中Flume系统的数据处理的原理示意图;
图3是现有技术中发送数据的流程示意图;
图4是本发明实施例中以Sendfile零拷贝技术发送数据的流程示意图;
图5是本发明实施例中Flume系统的数据传输方法的流程示意图;
图6是本发明实施例中Flume系统的数据传输的原理示意图;
图7是本发明实施例中Flume系统的数据处理装置的结构示意图;
图8是本发明实施例中Flume系统的数据传输装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
由于发明人发现了背景中提到的技术问题,提出了一种Flume系统的数据处理、及传输方案。该方案基于Flume的channel api接口,实现一套新的channel组件,可实现数据以追加的方式顺序写入本地磁盘,其写入速度接近内存的性能,基于Sendfile技术,将数据高效地发送至Sink。数据在本地磁盘存储,可保证数据不丢失,且Channel的容量依赖磁盘,可扩展至较大的容量,这样的方案既能保证性能又可以保证数据的可靠传输。下面对该Flume系统的数据处理、传输方案进行详细介绍。
图1是本发明实施例中Flume系统的数据处理方法的流程示意图,该方法应用于Channel端,如图1所示,该方法包括如下步骤:
步骤101:在接收到存入源数据的触发命令时,将从源Source端发来的源数据写入本地磁盘;
步骤102:在接收到读取源数据的触发命令时,以Sendfile零拷贝技术,从所述本地磁盘读取源数据发送到Sink端。
与现有技术中基于内存的channel数据处理方案相比较,本发明实施例提供的Flume系统的数据处理方法,提高了Flume系统的容错率和性能,保证了数据高效可靠地传输,进而提高了系统的稳定性和安全性,同时降低了系统维护的成本。
下面结合图2至图4,对本发明实施例提供的Flume系统的数据处理方法涉及的各个步骤进行详细介绍如下。
具体实施时,Flume官方开放了Flume的API接口,自定义Channel继承AbstractChannel类(这个是flume开放接口的抽象类),实现具体的业务逻辑方法即可。如图2所示,该核心的实现方法是put和take,其中:put方法:将event存入channel,即上述步骤101;take方法:从channel中取出event,即上述步骤102。下面对这两个步骤进行介绍。
在一个实施例中,在上述步骤101中,在接收到存入源数据的触发命令时,将从源Source端发来的源数据写入本地磁盘,可以包括:
在接收到存入源数据的触发命令时,以追加的方式将从源Source端发来的源数据顺序写入本地磁盘。
具体实施时,在Channel端写Event时(Event指的是每条数据,即存入源数据)以追加的方式顺序写入本地磁盘,将Source端的数据以追加的方式写入文件,这样保证按顺序写数据,避免随机写引发的磁盘寻道开销,提高系统性能和效率。
发明人还发现一个技术问题:以顺序磁盘访问的方式写入文件,没有磁盘寻道开销,但是如果每条记录都触发一次磁盘的IO,会造成很大的性能开销。由于考虑到这个技术问题,因此,发明人提出了如下进一步提高系统性能的方案。
在一个实施例中,在接收到存入源数据的触发命令时,将从源Source端发来的源数据写入本地磁盘,可以包括:
在接收到存入源数据的触发命令时,将从源Source端发来的源数据写入页高速缓冲存储器PageCache;
定期将PageCache的数据批量保存到本地磁盘;
在接收到读取源数据的触发命令时,以Sendfile零拷贝技术,从所述本地磁盘读取源数据发送到Sink端,可以包括:
在接收到读取源数据的触发命令时:以Sendfile零拷贝技术,从所述PageCache中读取源数据发送到Sink端;在判断PageCache中不存在所述源数据时,以Sendfile零拷贝技术,从所述本地磁盘中读取源数据发送到Sink端。
具体实施时,PageCache的中文名称为页高速缓冲存储器,读写文件时,它用于缓存文件的逻辑内容,从而加快对磁盘上映像和数据的访问,速度相当于操作内存,从而提高了Flume系统的数据处理的效率以及数据传输的效率。
具体实施时,当上层有写操作时,操作系统只是将数据写入PageCache,同时标记Page属性为Dirty(dirty page,脏页)。当读操作发生时,先从PageCache中查找,如果发生缺页才进行磁盘调度,最终返回需要的数据。写入PageCache的数据被定期批量保存到文件系统,减少了磁盘的操作次数,减少系统开销,提高系统性能。
在一个实施例中,在接收到存入源数据的触发命令时,将从源Source端发来的源数据写入页高速缓冲存储器PageCache,可以包括:
在接收到存入源数据的触发命令时,利用内存映射文件MMAP技术,将从源Source端发来的源数据页高速缓冲存储器PageCache。
具体实施时,借助MMAP(内存映射文件)技术将数据写入PageCache,进一步提高系统性能。PageCache的数据由操作系统定期刷新到磁盘文件。
在一个实施例中,在上述步骤102中,在接收到读取源数据的触发命令时,以Sendfile零拷贝技术,从所述本地磁盘读取源数据发送到Sink端,可以包括:
将读取的源数据从内核空间复制到套接字缓冲区;
将读取的源数据从套接字缓冲区复制到NIC缓冲区发送到Sink端。
具体实施时,以SendFile的方法发送数据,避免传统方式的两次数据拷贝,即内核空间到用户空间、用户空间到内核空间的数据拷贝。下面通过与传统发送数据的流程方案相比,介绍本发明以SendFile的方法发送数据方案的优点。
如图3所示,传统的发送数据流程主要包括:
(1)数据从磁盘读取到内核空间的缓冲区中;
(2)应用程序从内核空间读取数据到用户空间缓冲区;
(3)应用程序将数据从内核空间写到套接字缓冲区;
(4)从套接字缓冲区复制到NIC(网卡)缓冲区,数据经网卡的缓冲区发送出去。
在Flume官方提供的memory、file channel是以传统的方式发送数据的。本发明实施例是自定义channel,实现了基于sendfile技术获取数据,如图4所示,该Flume系统的数据处理方法涉及的SendFile技术流程主要包括:
(1)数据从内核空间复制到套接字缓冲区;
(2)从套接字缓冲区复制到NIC缓冲区。
具体实施时,上述SendFile技术流程中数据都是在内核空间传递,效率高。减少了内核空间和用户空间的数据拷贝。在take方法中,以senfile方式实现数据的发送,即可实现高效地传送数据。
具体实施时,在上述步骤102中,可以以Sendfile零拷贝技术,从channel中预先配置的本地磁盘目录读取数据发送到Sink端。
在介绍介绍完上述步骤101和步骤102之后,接着介绍进一步优化系统性能的步骤。
在一个实施例中,上述Flume系统的Channel端数据处理方法还可以包括:
根据预先配置的Channel数据清理参数,清理channel的历史数据。
具体实施时,预先配置的Channel参数可以包括:Channel中数据保存时间阈值和数据大小阈值。例如Channel中数据的大小超过上述阈值时,Channel中数据的保持时间超过数据保存时间阈值时,则清理历史数据,避免磁盘空间占满。
在一个实施例中,上述Flume系统的Channel端数据处理方法还可以包括:
根据预先配置的Channel端保存已发送数据的偏移量的路径,进行Flume进程异常重启,从上次已发送的位置重新处理数据。
具体实施时,上述flume进程异常重启,进而重新处理数据的方案进一步保证了flume系统的安全性和稳定性。
基于同一发明构思,本发明实施例中还提供了一种Flume系统的数据传输方法,如下面的实施例所述。由于Flume系统的数据传输方法解决问题的原理与Flume系统的数据处理方法相似,因此Flume系统的数据传输方法的实施可以参见Flume系统的数据处理方法的实施,重复之处不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图5是本发明实施例中Flume系统的数据传输方法的流程示意图,如图5所示,该方法包括如下步骤:
步骤201:Source端接收源数据;
步骤202:Channel端利用上述的Flume系统的数据处理方法,将所述源数据传输至Sink端;
步骤203:Sink端将所述源数据传输至目标地址。
基于上述Flume系统的数据处理的技术方案实现的Flume系统的数据传输方案通过:Source端接收源数据;Channel端利用上述Flume系统的数据处理方法,将源数据传输至Sink端;Sink端将所述源数据传输至目标地址,实现了数据的高效可靠地传输,提高了数据传输的效率。
为了便于理解上述Flume系统的数据传输方法的实施,下面结合图6,对该Flume系统的数据传输方法进行详细介绍。
Flume系统的数据的传输流程:将数据(events)从clients(客户端)传输到sinks(网关节点)。注意:这里的数据指是event(即每条数据),而不是文件。
Flume运行的核心是Agent(代理)。Flume以agent为最小的独立运行单位。一个agent就是一个JVM,它是一个完整的数据收集工具,含有三个核心组件,分别是source、channel、sink。通过这些组件,Event可以从一个地方流向另一个地方,如图6所示。下面对图6中的核心概念进行介绍。
(1)Client
Client(客户端):生成事件(event)并将它们发送给一个或多个agent的实体;Client例子:Log4j、Flume Client SDK,将Flume从生成event数据的系统分离。
(2)Agent
一个agent(代理)就是一个JVM。它是一个完整的数据收集工具,含有三个核心组件,分别是source、channel、sink。通过这些组件,Event可以从一个地方流向另一个地方。托管Sources、Channels、Sinks等组件的JVM容器。将event从source传送到sink。
(3)Source
Source(源端)是数据的收集端,负责将数据捕获后进行特殊的格式化,将数据封装到事件(event)里,然后将事件推入Channel中。
Flume提供了各种source的实现,包括Avro Source、Exce Source、SpoolingDirectory Source、NetCat Source、Syslog Source、Syslog TCP Source、SyslogUDPSource、HTTP Source、HDFS Source,etc,如下表1所示。如果内置的Source无法满足需要,Flume还支持自定义Source。
Source类型 说明
Avro Source 支持Avro协议,内置支持
Thrift Source 支持Thrift协议,内置支持
Exec Source 基于Unix的command在标准输出上生产数据
Spooling Directory Source 监控指定目录内的数据变更
NetCat Source 监控某个端口,将流经端口的每一个文本行数据作为Event输入
Syslog Source 读取syslog数据,产生Event,支持UDP和TCP两种协议
HDFS Source 数据源为HDFS的目录
表1(4)Channel
Channel(Channel没有中文名称,Channel是flume系统的专有名称,本领域技术人员均知道Channel的含义,其含义可以是管道)是连接Source和Sink的组件,可以将它看作一个数据的缓冲区(数据队列),它可以将事件暂存到内存中也可以持久化到本地磁盘上,直到Sink处理完该事件。
Flume对于Channel,则提供了Memory Channel、JDBC Chanel、File Channel等等,如下表2所示。
Figure BDA0002306622730000091
表2(5)Sink
Sink(网关节点)从Channel中取出事件,然后将数据发到别处,可以向文件系统、数据库、hadoop存数据,也可以是其他agent的Source,如下表3所示。在日志数据较少时,可以将数据存储在文件系统中,并且设定一定的时间间隔保存数据。
Sink类型 说明
HDFS Sink 数据写入HDFS
Logger Sink 数据写入日志文件
Avro Sink 数据被转换成Avro Event,然后发送到配置的RPC端口上
File Roll Sink 数据存储到本地文件系统
Hbase Sink 数据存储到Hbase数据库
Elasticsearch Sink 数据存储到Elasticsearch搜索服务器
Custom Sink 自定义Sink实现
表3
下面举一个例子,以便于理解本发明如何实施。
以监控netcat数据源,将数据发送到大数据hdfs上为例进行说明。定义配置文件,配置文件内容如下表4所示:
Figure BDA0002306622730000092
Figure BDA0002306622730000101
表4
具体实施时,启动Flume进行采集,使用--conf-file指定上面的配置文件:
./bin/flume-ng agent--conf conf--conf-file./conf/example.conf--namea1-
Dflume.root.logger=INFO,console;
使用telnet发送event:$telnet localhost 44444,这样,flume就会采集数据,并入到hdfs(Hadoop分布式文件系统)。
综上,本发明实施例提供的技术方案:
(1)数据在本地磁盘存储,可保证数据不丢失,且Channel的容量依赖磁盘,可扩展至较大的容量。
(2)数据落地本地磁盘其写入速度接近内存的性能。
(3)数据发送到Sink端,数据都是在内核空间传递,效率高。
基于同一发明构思,本发明实施例中还提供了一种Flume系统的数据处理装置,如下面的实施例所述。由于Flume系统的数据处理装置解决问题的原理与Flume系统的数据处理方法相似,因此Flume系统的数据处理装置的实施可以参见Flume系统的数据处理方法的实施,重复之处不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图7是本发明实施例中Flume系统的数据处理装置的结构示意图,如图7所示,该装置应用于Channel端,其包括:
写单元11,用于在接收到存入源数据的触发命令时,将从源Source端发来的源数据写入本地磁盘;
读单元12,用于在接收到读取源数据的触发命令时,以Sendfile零拷贝技术,从所述本地磁盘读取源数据发送到Sink端。
在一个实施例中,上述写单元具体可以用于:在接收到存入源数据的触发命令时,以追加的方式将从Source端发来的源数据顺序写入本地磁盘。
在一个实施例中,上述写单元具体可以用于:
在接收到存入源数据的触发命令时,将从源Source端发来的源数据写入页高速缓冲存储器PageCache;
定期将PageCache的数据批量保存到本地磁盘;
上述读单元具体可以用于:
在接收到读取源数据的触发命令时:以Sendfile零拷贝技术,从所述PageCache中读取源数据发送到Sink端;在判断PageCache中不存在所述源数据时,以Sendfile零拷贝技术,从所述本地磁盘中读取源数据发送到Sink端。
在一个实施例中,在接收到存入源数据的触发命令时,将从源Source端发来的源数据写入页高速缓冲存储器PageCache,可以包括:
在接收到存入源数据的触发命令时,利用内存映射文件MMAP技术,将从源Source端发来的源数据页高速缓冲存储器PageCache。
在一个实施例中,上述发送单元具体可以用于:
将读取的源数据从内核空间复制到套接字缓冲区;
将读取的源数据从套接字缓冲区复制到NIC缓冲区发送到Sink端。
在一个实施例中,上述Flume系统的Channel端数据处理装置还可以包括:
优化单元,用于根据预配置的Channel参数,清理历史数据或Sink消费Channel中数据的偏移量保存路径。
基于同一发明构思,本发明实施例中还提供了一种Flume系统的数据传输装置,如下面的实施例所述。由于Flume系统的数据传输装置解决问题的原理与Flume系统的数据传输方法相似,因此Flume系统的数据传输装置的实施可以参见Flume系统的数据传输方法的实施,重复之处不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图8是本发明实施例中Flume系统的数据传输装置的结构示意图,如图8所示,该装置包括:
Source端21,用于接收源数据;
Channel端22,用于利用上述Flume系统的数据处理方法,将所述源数据传输至Sink端;
Sink端23,用于将所述源数据传输至目标地址。
具体实施时,上述Source端具体可以用于将数据捕获后,进行特殊的格式化,将数据封装到事件(event)里,然后将事件推入Channel中,该实施方式方便数据高效地传输。
具体实施时,上述Channel端为一个数据的缓冲区(数据队列),用于将事件暂存到PageCache中,也可以持久化到本地磁盘上,直到Sink处理完该事件。
具体实施时,上述目标地址可以为文件系统、数据库、hadoop存数据,也可以是其他agent的Source。
本发明实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述Flume系统的数据处理、传输方法。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述Flume系统的数据处理、传输方法的计算机程序。
本发明实施例提供技术方案的有益技术效果是:与现有技术中基于内存的channel数据处理方案相比较,本发明实施例提供的技术方案提高了Flume系统的容错率和性能,保证了数据高效可靠地传输,进而提高了系统的稳定性和安全性,同时降低了系统维护的成本。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种Flume系统的数据处理方法,应用于Channel端,其特征在于,包括:
在接收到存入源数据的触发命令时,将从源Source端发来的源数据写入本地磁盘;
在接收到读取源数据的触发命令时,以Sendfile零拷贝技术,从所述本地磁盘读取源数据发送到Sink端。
2.如权利要求1所述的Flume系统的数据处理方法,其特征在于,在接收到存入源数据的触发命令时,将从源Source端发来的源数据写入本地磁盘,包括:
在接收到存入源数据的触发命令时,将从Source端发来的源数据写入页高速缓冲存储器PageCache;
定期将PageCache的数据批量保存到本地磁盘;
在接收到读取源数据的触发命令时,以Sendfile零拷贝技术,从所述本地磁盘读取源数据发送到Sink端,包括:
在接收到读取源数据的触发命令时:以Sendfile零拷贝技术,从所述PageCache中读取源数据发送到Sink端;在判断PageCache中不存在所述源数据时,以Sendfile零拷贝技术,从所述本地磁盘中读取源数据发送到Sink端。
3.如权利要求1所述的Flume系统的数据处理方法,其特征在于,在接收到存入源数据的触发命令时,将从源Source端发来的源数据写入本地磁盘,包括:
在接收到存入源数据的触发命令时,以追加的方式将从Source端发来的源数据顺序写入本地磁盘。
4.如权利要求1所述的Flume系统的数据处理方法,其特征在于,在接收到读取源数据的触发命令时,以Sendfile零拷贝技术,从所述本地磁盘读取源数据发送到Sink端,包括:
将读取的源数据从内核空间复制到套接字缓冲区;
将读取的源数据从套接字缓冲区复制到网卡NIC缓冲区发送到Sink端。
5.一种Flume系统的数据传输方法,其特征在于,包括:
Source端接收源数据;
Channel端利用权利要求1至4任一所述的Flume系统的数据处理方法,将所述源数据传输至Sink端;
Sink端将所述源数据传输至目标地址。
6.一种Flume系统的数据处理装置,应用于Channel端,其特征在于,包括:
写单元,用于在接收到存入源数据的触发命令时,将从Source端发来的源数据写入本地磁盘;
读单元,用于在接收到读取源数据的触发命令时,以Sendfile零拷贝技术,从所述本地磁盘读取源数据发送到Sink端。
7.如权利要求6所述的Flume系统的数据处理装置,其特征在于,所述发送单元具体用于:
将读取的源数据从内核空间复制到套接字缓冲区;
将读取的源数据从套接字缓冲区复制到NIC缓冲区发送到Sink端。
8.一种Flume系统的数据传输装置,其特征在于,包括:
Source端,用于接收源数据;
Channel端,用于利用权利要求1至4任一所述的Flume系统的数据处理方法,将所述源数据传输至Sink端;
Sink端,用于将所述源数据传输至目标地址。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5任一所述方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有执行权利要求1至5任一所述方法的计算机程序。
CN201911242383.2A 2019-12-06 2019-12-06 Flume系统的数据处理、传输方法及装置 Pending CN110989935A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911242383.2A CN110989935A (zh) 2019-12-06 2019-12-06 Flume系统的数据处理、传输方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911242383.2A CN110989935A (zh) 2019-12-06 2019-12-06 Flume系统的数据处理、传输方法及装置

Publications (1)

Publication Number Publication Date
CN110989935A true CN110989935A (zh) 2020-04-10

Family

ID=70090720

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911242383.2A Pending CN110989935A (zh) 2019-12-06 2019-12-06 Flume系统的数据处理、传输方法及装置

Country Status (1)

Country Link
CN (1) CN110989935A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111880930A (zh) * 2020-07-15 2020-11-03 杭州安恒信息技术股份有限公司 一种数据分流方法及系统
CN113485747A (zh) * 2021-07-08 2021-10-08 广州钛动科技有限公司 一种数据处理方法、数据处理器、目标源组件和系统
CN114301978A (zh) * 2021-12-23 2022-04-08 阿里巴巴(中国)有限公司 一种云桌面实现方法、系统、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102609486A (zh) * 2012-01-20 2012-07-25 无锡众志和达存储技术有限公司 一种Linux文件系统的数据读写加速方法
CN105933169A (zh) * 2016-07-04 2016-09-07 江苏飞搏软件股份有限公司 一种高效鲁棒的大数据安全聚合系统与方法
CN106776680A (zh) * 2016-11-04 2017-05-31 国网浙江省电力公司 一种分布式流数据的采集方法
CN107609158A (zh) * 2017-09-26 2018-01-19 北京计算机技术及应用研究所 一种基于Flume的高可靠数据采集及存储方法
CN108399231A (zh) * 2018-02-13 2018-08-14 中体彩科技发展有限公司 一种数据采集方法及Flume数据采集客户端

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102609486A (zh) * 2012-01-20 2012-07-25 无锡众志和达存储技术有限公司 一种Linux文件系统的数据读写加速方法
CN105933169A (zh) * 2016-07-04 2016-09-07 江苏飞搏软件股份有限公司 一种高效鲁棒的大数据安全聚合系统与方法
CN106776680A (zh) * 2016-11-04 2017-05-31 国网浙江省电力公司 一种分布式流数据的采集方法
CN107609158A (zh) * 2017-09-26 2018-01-19 北京计算机技术及应用研究所 一种基于Flume的高可靠数据采集及存储方法
CN108399231A (zh) * 2018-02-13 2018-08-14 中体彩科技发展有限公司 一种数据采集方法及Flume数据采集客户端

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
吴峰光;: "Linux内核的文件预读" *
李云鹏: "基于Kafka的分布式监控视频流数据采集系统的设计与实现" *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111880930A (zh) * 2020-07-15 2020-11-03 杭州安恒信息技术股份有限公司 一种数据分流方法及系统
CN113485747A (zh) * 2021-07-08 2021-10-08 广州钛动科技有限公司 一种数据处理方法、数据处理器、目标源组件和系统
CN114301978A (zh) * 2021-12-23 2022-04-08 阿里巴巴(中国)有限公司 一种云桌面实现方法、系统、设备及存储介质
CN114301978B (zh) * 2021-12-23 2024-08-30 阿里巴巴(中国)有限公司 一种云桌面实现方法、系统、设备及存储介质

Similar Documents

Publication Publication Date Title
CN113766035B (zh) 一种业务受理及共识的方法及装置
CN110989935A (zh) Flume系统的数据处理、传输方法及装置
CN104537076B (zh) 一种文件读写方法及装置
CN108170768A (zh) 数据库同步方法、装置及可读介质
US20130073691A1 (en) File Processing Method, System and Server-clustered System for Cloud Storage
CN104020961B (zh) 分布式数据存储方法、装置及系统
CN109818934B (zh) 一种自动化日志处理的方法、装置及计算设备
JP2017531250A (ja) 粒状同期/半同期アーキテクチャ
CN104820701A (zh) 数据记录和同步方法及系统
US9542397B1 (en) File block addressing for backups
CN103559217A (zh) 一种面向异构数据库的海量组播数据入库实现方法
CN109710614A (zh) 一种实时数据存储与查询的方法及装置
CN104077420A (zh) 一种数据导入HBase数据库的方法和装置
CN110389859B (zh) 用于复制数据块的方法、设备和计算机程序产品
CN104092717A (zh) 消息处理方法及系统、消息目的端设备与分布式消息系统
CN110190992A (zh) 一种故障的监测方法及路由设备
CN108228322B (zh) 一种分布式链路跟踪、分析方法及服务器、全局调度器
CN107133231B (zh) 一种数据获取方法和装置
CN106649676A (zh) 一种基于hdfs存储文件的去重方法及装置
CN106959996A (zh) 一种基于互联网电视的后台数据同步方法
CN113162818A (zh) 一种分布式流量采集分析的实现方法及系统
CN110727727A (zh) 一种数据库的统计方法及装置
US9083725B2 (en) System and method providing hierarchical cache for big data applications
CN103716384A (zh) 跨数据中心实现云存储数据同步的方法和装置
US20160139996A1 (en) Methods for providing unified storage for backup and disaster recovery and devices thereof

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200410