CN106776680A

CN106776680A - 一种分布式流数据的采集方法

Info

Publication number: CN106776680A
Application number: CN201610963368.7A
Authority: CN
Inventors: 裴旭斌; 方舟; 沈志豪; 吴尚远; 王志强; 沈潇军; 王以良; 裘炜浩; 戚伟强; 龚小刚; 张秋霞; 王冠男; 张金帅
Original assignee: State Grid Information and Telecommunication Co Ltd; State Grid Zhejiang Electric Power Co Ltd; Beijing Guodiantong Network Technology Co Ltd
Current assignee: State Grid Information and Telecommunication Co Ltd; State Grid Zhejiang Electric Power Co Ltd; Beijing China Power Information Technology Co Ltd
Priority date: 2016-11-04
Filing date: 2016-11-04
Publication date: 2017-05-31

Abstract

本发明公开了一种分布式流数据的采集方法，包括：步骤1：Source接收Events或通过特殊机制产生Events，并将Events批量的放到一个或多个Channels；步骤2：Channel接收缓存Source输出Events，而当有Sink消费掉Channel中的数据Channel中的数据直到进入到下一个Channel中或者进入终端才会被删除；步骤3：Sink将events传输到下一跳或最终目的，成功完成后将events从channel移除，Sink会消费Channel中的数据，然后送给外部源或者其他Source。本发明的分布式流数据的采集方法，解决了关系库和大数据平台的数据复制问题，提高实时性和复制性能。

Description

一种分布式流数据的采集方法

技术领域

本发明涉及分布式系统领域，特别是指一种分布式流数据的采集方法。

背景技术

信息技术飞速发展导致数据规模极大增加，而且这些数据来源非常丰富，包括：批量日志数据，实时数据，流式数据；数据类型多样，包括：结构化数据，半结构化数据和非结构化数据，如何采集、存储和分析这些海量数据？

传统的数据采集技术，因为数据来源比较单一，主要是数据库和文件方式进行存储，且数据量较小，大多采用比较单一的工具甚至程序脚本就可以完成数据采集工作。传统的并行数据库技术追求高度一致性和容错性，根据CAP理论，难以保证其可用性、扩展性和高性能。而分布式大数据的采集数据来源广，包括批量采集，实时数据采集，流式数据采集；数据量巨大，通常都达到TB,PB级别；数据处理的性能和实时性要求高。因此，传统的集中采集和存储数据的处理方法，已经不能适应大数据的需求。目前在数据采集方面，主要存在的问题为：

1)由于在海量数据采集过程中，往往数据源类型多、数据的生成规则复杂多样，海量数据的格式转换太大，传统的数据采集工具很容易失效，即对于同一数据对象，由于采用的编码规范、命名方法的差异等数据差异或者冲突使得在数据采集过程中容易产生不一致；另外一方面则是因为在企业海量数据采集中由于并发任务高、采集数据量大等造成CPU使用率过高或者内存不足，从而导致数据处理变慢以及数据库主机自动重启等问题，无法满足海量数据的采集需求；

2)目前电网公司的业务系统基本采用的都是关系型数据库，要在数据源头改变数据产生和存储的方式很难，无法用大数据平台去替代关系库，只能是把平台所需的数据从关系库同步过来。现有方法都是采用定制周期性ETL等方式，实时性不够，性能也差，因此如何解决关系库和大数据平台的数据复制问题，提高实时性和复制性能，都是非常直接的需求。

发明内容

有鉴于此，本发明的目的在于提出一种分布式流数据的采集方法。

基于上述目的本发明提供的一种分布式流数据的采集方法，包括：

步骤1：Source接收Events或通过特殊机制产生Events，并将Events批量的放到一个或多个Channels；

步骤2：Channel接收缓存Source输出Events，而当有Sink消费掉Channel中的数据Channel中的数据直到进入到下一个Channel中或者进入终端才会被删除；

步骤3：Sink将events传输到下一跳或最终目的，成功完成后将events从channel移除，Sink会消费Channel中的数据，然后送给外部源或者其他Source。

进一步的，所述Source的类型包括：

a)系统集成的Sources：Syslog(系统日志)，Netcat；

b)自动生成事件的Sources：Exec，SEQ；

c)用于Agent和Agent之间通信的IPCSources：Avro，Thrift。

进一步的，所述Source还可以用来接收外部源发送过来的数据，不同的Source，可以接受不同的数据格式。

进一步的，每个Source至少和一个Channel关联，以将接收的数据进行缓存。

进一步的，Channel是一个存储池，介于Source和Sink之间，主要用来接收缓存Source输出Events，而当有Sink消费掉Channel中的数据，Channel中的数据直到进入到下一个Channel中或者进入终端才会被删除；当Sink写入失败后，可以自动重启。

进一步的，Flume允许多个Agent连在一起，形成前后相连的多级跳。

从上面所述可以看出，本发明提供的分布式流数据的采集方法，包括：步骤1：Source接收Events或通过特殊机制产生Events，并将Events批量的放到一个或多个Channels；步骤2：Channel接收缓存Source输出Events，而当有Sink消费掉Channel中的数据Channel中的数据直到进入到下一个Channel中或者进入终端才会被删除；步骤3：Sink将events传输到下一跳或最终目的，成功完成后将events从channel移除，Sink会消费Channel中的数据，然后送给外部源或者其他Source。本发明的分布式流数据的采集方法，解决了关系库和大数据平台的数据复制问题，提高实时性和复制性能。

附图说明

图1为本发明分布式流数据的采集方法的一个实施例的技术原理示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

本发明的目的在于提出一种分布式流数据的采集方法。

进一步的，所述Source的类型包括：

a)系统集成的Sources：Syslog(系统日志)，Netcat；

b)自动生成事件的Sources：Exec，SEQ；

c)用于Agent和Agent之间通信的IPCSources：Avro，Thrift。

进一步的，Flume允许多个Agent连在一起，形成前后相连的多级跳。本发明的分布式流数据的采集方法，解决了关系库和大数据平台的数据复制问题，提高实时性和复制性能。

如图1所示，为本发明分布式流数据的采集方法的一个实施例的技术原理示意图。Flume的核心是把数据从数据源收集过来，再送到目的地。为了保证输送一定成功，在送到目的地之前，会先缓存数据，待数据真正到达目的地后，删除自己缓存的数据。Flume传输的数据的基本单位是Event，Event由可选的hearders和载有数据的一个byte array构成。载有的数据对flume是不透明的。Headers是容纳了key-value字符串对的无序集合，key在集合内是唯一的。Headers可以在上下文路由中使用扩展。Flume运行的核心部分是Agent，它是一个完整的数据收集工具，含有三个核心组件，分别是Source、Channel、Sink。

1)Source负责接收Events或通过特殊机制产生Events，并将Events批量的放到一个或多个Channels。可以接收外部源发送过来的数据。不同的Source，可以接受不同的数据格式。比如有目录池(Spooling directory)数据源，可以监控指定文件夹中的新文件变化，如果目录中有文件产生，就会立刻读取其内容。主要的Source类型有以下几种：

a)系统集成的Sources：Syslog(系统日志)，Netcat；

b)自动生成事件的Sources：Exec，SEQ；

c)用于Agent和Agent之间通信的IPCSources：Avro，Thrift；

每个Source至少和一个Channel关联，以将接收的数据进行缓存。

2)Channel是一个存储池，介于Source和Sink之间，主要用来接收缓存Source输出Events，而当有Sink消费掉Channel中的数据。Channel中的数据直到进入到下一个Channel中或者进入终端才会被删除。当Sink写入失败后，可以自动重启，不会造成数据丢失，因此很可靠。

3)Sink负责将events传输到下一跳或最终目的，成功完成后将events从channel移除，Sink会消费Channel中的数据，然后送给外部源或者其他Source。如数据可以写入到HDFS或者HBase中。Flume允许多个Agent连在一起，形成前后相连的多级跳。

需要说明的是，本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量，可见“第一”“第二”仅为了表述的方便，不应理解为对本发明实施例的限定，后续实施例对此不再一一说明。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本公开的范围(包括权利要求)被限于这些例子；在本发明的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本发明的不同方面的许多其它变化，为了简明它们没有在细节中提供。

另外，为简化说明和讨论，并且为了不会使本发明难以理解，在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外，可以以框图的形式示出装置，以便避免使本发明难以理解，并且这也考虑了以下事实，即关于这些框图装置的实施方式的细节是高度取决于将要实施本发明的平台的(即，这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如，电路)以描述本发明的示例性实施例的情况下，对本领域技术人员来说显而易见的是，可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本发明。因此，这些描述应被认为是说明性的而不是限制性的。

尽管已经结合了本发明的具体实施例对本发明进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如，其它存储器架构(例如，动态RAM(DRAM))可以使用所讨论的实施例。

本发明的实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本发明的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种分布式流数据的采集方法，其特征在于，包括：

2.根据权利要求1所述的分布式流数据的采集方法，其特征在于，所述Source的类型包括：

a)系统集成的Sources：Syslog(系统日志)，Netcat；

b)自动生成事件的Sources：Exec，SEQ；

c)用于Agent和Agent之间通信的IPCSources：Avro，Thrift。

3.根据权利要求1所述的分布式流数据的采集方法，其特征在于，所述Source还可以用来接收外部源发送过来的数据，不同的Source，可以接受不同的数据格式。

4.根据权利要求1所述的分布式流数据的采集方法，其特征在于，每个Source至少和一个Channel关联，以将接收的数据进行缓存。

5.根据权利要求1所述的分布式流数据的采集方法，其特征在于，Channel是一个存储池，介于Source和Sink之间，主要用来接收缓存Source输出Events，而当有Sink消费掉Channel中的数据，Channel中的数据直到进入到下一个Channel中或者进入终端才会被删除；当Sink写入失败后，可以自动重启。

6.根据权利要求1所述的分布式流数据的采集方法，其特征在于，Flume允许多个Agent连在一起，形成前后相连的多级跳。