CN106452819B

CN106452819B - 数据采集系统及数据采集方法

Info

Publication number: CN106452819B
Application number: CN201510497882.1A
Authority: CN
Inventors: 黄浩; 万春晓; 徐波
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2015-08-13
Filing date: 2015-08-13
Publication date: 2020-07-07
Anticipated expiration: 2035-08-13
Also published as: CN106452819A

Abstract

本发明公开一种数据采集系统，包括采集器、分布式消息队列系统、云分拣器；其中：所述采集器用于采集业务日志服务器上的日志数据，将所采集的日志数据发送至所述共享传输通道；所述共享传输通道的接收端用于接收所述采集器采集的日志数据，所述共享传输通道的发送端用于将通道内的日志数据发送至所述分布式消息队列系统；所述云分拣器从所述分布式消息队列系统中读取日志数据，并对所述日志数据进行分拣处理，获得分拣数据，再将所述分拣数据存储至所述分布式消息队列系统；所述分布式消息队列系统将所接收到的数据和所存储的数据同步至文件存储系统。本发明避免了数据采集过程中，程序意外终止时的数据丢失，从而保证了数据的完整性。

Description

数据采集系统及数据采集方法

技术领域

本发明涉及数据处理领域，尤其涉及数据采集系统及数据采集方法。

背景技术

Flume是Cloudera提供的日志收集系统，该日志收集系统主要包括数据采集器Source、传输队列Channel、数据取出器Sink，其中Source用于对日志数据进行采集，并分成transtion和event放入Channel中进行缓存，Sink取出Channel中缓存的数据，并将其存储至相应的存储文件系统、数据库或者提交到远程服务器。但是上述Flume中使用的传输队列是基于jvm创建的用户空间内存，如果程序意外终止时存在该传输队列中的数据会丢失。

发明内容

本发明实施例的主要目的在于提供一种数据采集系统及数据采集方法，旨在避免数据采集过程中，程序意外终止时的数据丢失，从而保证了数据的完整性。

为实现上述目的，本发明实施例提供了一种数据采集系统，包括采集器、共享传输通道、分布式消息队列系统、云分拣器；其中：

所述采集器用于采集业务日志服务器上的日志数据，将所采集的日志数据发送至分布式消息队列系统；

所述共享传输通道的接收端用于接收所述采集器采集的日志数据，所述共享传输通道的发送端用于将通道内的日志数据发送至所述分布式消息队列系统；

所述云分拣器从所述分布式消息队列系统中读取日志数据，并对所述日志数据进行分拣处理，获得分拣数据，再将所述分拣数据存储至所述分布式消息队列系统；

所述分布式消息队列系统将所接收到的数据和所存储的数据同步至文件存储系统。

此外，为实现上述目的，本发明还提出了一种数据采集方法，包括以下步骤：

采集业务日志服务器上的日志数据，将所采集的日志数据发送至共享传输通道；

将所述共享传输通道内的日志数据发送至所述分布式消息队列系统；

从所述分布式消息队列系统中读取日志数据，并对所述日志数据进行分拣处理，获得分拣数据，再将所述分拣数据存储至所述分布式消息队列系统；

将所述分布式消息队列系统所接收到的数据和所存储的数据同步至文件存储系统。

本发明实施例利用共享传输通道接收采集器所采集的数据，并将所采集的数据发送至分布式消息队列系统进行存储，因此，该数据采集系统避免了数据采集过程中，程序意外终止时的数据丢失，从而保证了数据的完整性。同时，还利用云分拣器对其进行分拣处理，以供下游系统使用，而且分布式消息队列系统还将接收到的采集器的数据以及分拣处理后的分拣数据同步至文件存储系统。因此，本发明数据采集系统既实现了下游系统对分布式消息队列系统中的实时日志数据的使用，也实现了数据采集系统处于离线状态下时，下游系统对文件存储系统中的日志数据的使用。

附图说明

图1为本发明数据采集系统第一实施例的功能模块示意图；

图2为本发明数据采集系统第二实施例的功能模块示意图；

图3为本发明数据采集系统第三实施例的功能模块示意图；

图4为本发明数据采集方法第一实施例的流程示意图；

图5为本发明数据采集方法第二实施例的流程示意图；

图6为本发明数据采集方法第三实施例的流程示意图。

本发明目的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

以下结合说明书附图及具体实施例进一步说明本发明的技术方案。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提出了一种数据采集系统，利用采集器从业务日志服务器中采集日志数据，并将该日志数据先暂存至共享传输通道，再通过共享传输通道发送至分布式消息队列系统进行存储。因此，该数据采集系统避免了数据采集过程中，程序意外终止时的数据丢失，从而保证了数据的完整性。同时，还利用云分拣器对其进行分拣处理，以供下游系统使用，而且分布式消息队列系统还将存储的数据同步至文件存储系统，供下游系统使用。该数据采集系统使得下游系统可以使用分布式消息队列系统或者文件存储系统中的日志数据。因此，本发明数据采集系统既实现了下游系统对实时日志数据的使用，也实现了数据采集系统处于离线状态下时，下游系统对文件存储系统中的日志数据的使用。

如图1所示，示出了本发明一种数据采集系统第一实施例的结构。该数据采集系统100包括：采集器110、分布式消息队列系统120、云分拣器130、共享传输通道140。其中，所述采集器110用于采集业务日志服务器上的日志数据，将所采集的日志数据发送至共享传输通道140。所述共享传输通道140的接收端用于接收所述采集器采集的日志数据，所述共享传输通道140的发送端用于将通道内的日志数据发送至所述分布式消息队列系统120。所述云分拣器130从所述分布式消息队列系统中读取日志数据，并对所述日志数据进行分拣处理，获得分拣数据，再该分拣数据存储至所述分布式消息队列系统120。所述分布式消息队列系统120将所接收到的数据和所存储的数据同步至文件存储系统200。

该采集器110可与业务日志服务器300进行通信，以读取业务日志服务器上记录的日志数据。业务日志服务器300用于接收与业务日志服务器300连接的各业务单元上报的业务日志。优选地，该采集器110将设置在业务日志服务器上，且每个业务日志服务器300均设有至少1个采集器110。具体地，预先在业务日志服务器300中嵌入API接口，业务日志服务器300实时或定时将记录的日志数据通过该API接口发送至采集器110中；或者采集器110通过该API接口实时或定时获取业务日志服务器300中记录的日志数据。在此不做限定。上述文件存储系统200可包括分布式消息系统、本地文件系统、数据库系统等等。

上述共享传输通道140为共享内存队列，用于接收各采集器110发送的日志数据。该共享传输通道140为各采集器110共享，而不再属于单个的采集器110。因此，当数据采集系统100突然停止运行时，该共享内存队列中存储的日志数据将被保存下来，不会被丢失。

该分布式消息队列系统120可包括Tdbank、Kafka、metaq、RocketMQ等等。该分布式消息队列系统120对日志数据进行预处理，例如数据解压缩、数据分类分队列存储等等，并分发至离线或在线处理平台。因此，该分布式消息队列系统120用于构建数据源和数据处理系统间的桥梁，将数据处理系统与数据源进行解耦。

云分拣器130可包括实时分拣引擎，且该实时分拣引擎持续执行分拣任务，即不断从分布式消息队列系统120中读取日志数据，并对其进行分拣处理，获得分拣数据，存储至分布式消息队列系统120中。可以理解的是，采集器110发送至分布式消息队列系统120的数据与经过云分拣器130的处理后获得的分拣数据存储在分布式消息队列系统120的不同位置。

进一步地，如图2所示，上述数据采集系统还包括存储盘150，所述存储盘150用于存储所述共享传输通道140被写满时，发送至所述共享传输通道140的日志数据。该存储盘150可以为磁盘、硬盘等等。在采集器110将采集的日志数据写入共享传输通道140时，若共享传输通道140已写满，则将该写满的共享传输通道140的日志数据写入磁盘中，并将共享传输通道140的日志数据清空，以存储采集器110写入的日志数据。

上述数据采集系统100还包括数据发送器160，所述数据发送器160从所述共享传输通道140和所述存储盘150中读取日志数据，并将所读取的日志数据发送至所述分布式消息队列系统120。具体地，所述分布式消息队列系统120将读取的日志数据进行压缩处理，形成压缩包。而且，该数据发送发送器160采用TCP、多线程的方式发送到分布式消息队列系统120。

进一步地，如图3所示，上述数据采集系统100包括配置中心170，用于配置分拣规则；所述云分拣器130包括实时分拣引擎131，所述实时分拣引擎131用于按照所述配置中心的分拣规则，对从所述分布式消息队列系统120中读取的所述日志数据进行分拣处理。具体地，配置中心170用于可视化配置数据分拣的规则、数据选择的字段、分配数据分拆后在分布式消息队列系统120的存储队列等。具体可采用gojs实现可视化操作，并生成json格式的规则数据。

上述数据分拣的规则是指：数据按某些字段的值，划分到不同业务，这些字段、值的配置称为规则。该规则使用树的形式、json格式存储，易读，易配置。

上述数据选择的字段是指：具体业务所需要提取的数据字段，例如oid，cid等。

上述配置中心的配置信息可以进行更改或新增。需要说明的是，在修改保存后，并不会立即生效，而是需要单独触发“发布”配置。而且发布时，会记录该次发布的版本和备注等信息，如果遇到数据异常，则可恢复配置到历史的任意版本。

另外，该配置中心还需要对配置进行同步更新，即将数据库中当前生效的配置版本读出，更新到配置中心170和云分拣器130中，云分拣器130使用。配置更新时将做单元测试，以测试该配置是否有效。如果单元测试不通过，该配置将不会被更新。

进一步地，上述云分拣器130还包括备用分拣引擎132，所述备用分拣引擎132用于在实时分拣引擎131无法进行分拣时(例如，实时分拣引擎131出现故障时，或者分布式消息队列系统120处于离线状态时)，从所述文件存储系统200中读取日志数据，并按照预设的分拣规则对所述日志数据进行分拣处理，获得分拣数据，再存储至所述文件存储系统200；所述备用分拣引擎132的分拣规则与实时分拣引擎131的分拣规则相同。配置中心170在更新或新增分拣规则后，还将该更新后的分拣规则同步至云分拣器130中的备用分拣引擎132。

上述实时分拣引擎131和备用分拣引擎132运行的分拣规则一致，且分拣过程也一致。即先按照分拣规则，对所述日志数据进行业务分类，然后按照所选择的字段，将日志数据中相应字段值提取出来，并进行拼接后，供下游使用。具体为：

首先，分拣引擎将分拣规则解析为“多分决策树”。一条数据被分拣时，采用决策树进行决策，确定该数据应该属于哪个业务。

上述多分决策树的模型如下：

存储格式：json

如：{

"nodeDataArray":[

{"key":1,"name":"Init","title":"ad_dtype","condition":"1＝＝1"},

{"key":2,"name":"视频和IM流量","title":"ad_clienttype","condition":"ad_dtype＝＝2"},

{"key":3,"name":"IM","title":"bglct_id","condition":"ad_clienttype＝＝1"}],

"linkDataArray":[

{"from":1,"to":2},

{"from":2,"to":3}]

}

其中，nodeDataArray表示决策树的各个节点，condition表示到达该节点的条件，title表示从该节点出发，下一步的拆分键。linkDataArray表示各条可能的通路。

一条数据通过多分决策树的过程可以描述如下：

i.将数据拆分为<k,v>结构，放入map；

ii.从决策树的根节点出发，广度遍历(遍历的过程中综合节点的condition，condition不满足时，该子路返回)，得到所有可能的叶子节点；

iii.按叶子节点的名称，分别输出每条数据相应的业务类型。

其次，根据配置中心170配置的对不同业务类型需要提取的字段的配置，将确定业务类型的日志数据，提取与该业务类型相应的字段的值，并对其进行拼接，供下游使用。

另外，实时分拣引擎131从分布式消息队列系统120中读取日志数据，并按照配置中心170中配置的分拣规则对该日志数据进行业务分类，再提取该分类后的日志数据中与该业务类型对应配置的字段的字段数据，并将该提取的字段数据进行拼接，形成分拣数据。该分拣数据再存储至分布式消息队列系统120中。同时，该分布式消息队列系统120中的数据将同步至文件存储系统200中。

备用分拣引擎132从文件存储系统200中读取日志数据，并按照备用分拣引擎132中预存的分拣规则对该日志数据进行业务分类，再提取该分类后的日志数据中与该业务类型对应配置的字段的字段数据，并将该提取的字段数据进行拼接，形成分拣数据。该分拣数据再存储至文件存储系统200中。

对应地，基于上述数据采集系统，本发明还提出了一种数据采集方法。如图4所示，本发明实施例的数据采集方法包括以下步骤：

步骤S110、采集业务日志服务器上的日志数据，将所采集的日志数据发送至共享传输通道；

利用采集器110与业务日志服务器300进行通信，以读取业务日志服务器上记录的日志数据。优选地，该采集器110将设置在业务日志服务器上，且每个业务日志服务器300均设有至少1个采集器110。具体地，预先在业务日志服务器300中嵌入API接口，业务日志服务器300实时或定时将记录的日志数据通过该API接口发送至采集器110中；或者采集器110通过该API接口实时或定时获取业务日志服务器300中记录的日志数据。采集器110将采集的日志数据发送至共享传输通道140。共享传输通道140为共享内存队列，用于接收各采集器110发送的日志数据。该共享传输通道140为各采集器110共享，而不再属于单个的采集器110。因此，当数据采集系统100突然停止运行时，该共享内存队列中存储的日志数据将被保存下来，不会被丢失。

步骤S120、将所述共享传输通道内的日志数据发送至所述分布式消息队列系统；

步骤S130、从所述分布式消息队列系统中读取日志数据，并对所述日志数据进行分拣处理，获得分拣数据，再将所述分拣数据存储至所述分布式消息队列系统；

上述分布式消息队列系统120可包括Tdbank、Kafka、metaq、RocketMQ等等。该分布式消息队列系统120对日志数据进行预处理，例如数据解压缩、数据分类分队列存储等等，并分发至离线或在线处理平台。因此，该分布式消息队列系统120用于构建数据源和数据处理系统间的桥梁，将数据处理系统与数据源进行解耦。利用云分拣器130进行日志数据的分拣处理，该云分拣器130可包括实时分拣引擎，且该实时分拣引擎持续执行分拣任务，即不断从分布式消息队列系统120中读取日志数据，并对其进行分拣处理，获得分拣数据，存储至分布式消息队列系统120中。可以理解的是，采集器110发送至分布式消息队列系统120的数据与经过云分拣器130的处理后获得的分拣数据存储在分布式消息队列系统120的不同位置。

步骤S140、将所述分布式消息队列系统所接收到的数据和所存储的数据同步至文件存储系统。

上述文件存储系统200可包括分布式消息系统、本地文件系统、数据库系统等等。

进一步地，如图5所示，上述数据采集方法的步骤S110之后还包括以下步骤：

步骤S150、在所述共享传输通道被写满时，将所述共享传输通道的日志数据存储至所述存储盘；

上述存储盘150可以为磁盘、硬盘等等。在采集器110将采集的日志数据写入共享传输通道140时，若共享传输通道140已写满，则将该写满的共享传输通道140的日志数据写入磁盘中，并将共享传输通道140的日志数据清空，以存储采集器110写入的日志数据。

上述步骤S120还包括：从所述共享传输通道和所述存储盘中读取日志数据，并将所读取的日志数据发送至所述分布式消息队列系统。

具体地，通过数据发送器将共享传输通道40和存储盘150中的日志数据发送至所述分布式消息队列系统120。所述分布式消息队列系统120将读取的日志数据进行压缩处理，形成压缩包。而且，该数据发送发送器160采用TCP、多线程的方式发送到分布式消息队列系统120。

进一步地，上述步骤S130包括：按照配置中心的分拣规则，对从所述分布式消息队列系统中读取的所述日志数据进行分拣处理，获得分拣数据。

数据采集系统的配置中心170用于可视化配置数据分拣的规则、数据选择的字段、分配数据分拆后在分布式消息队列系统120的存储队列等。具体可采用gojs实现可视化操作，并生成json格式的规则数据。

上述步骤S130对日志数据的分拣过程可包括：先按照分拣规则，对所述日志数据进行业务分类，然后按照所选择的字段，将日志数据中相应字段值提取出来，并进行拼接后，供下游使用。具体为：

上述多分决策树的模型如下：

存储格式：json

如：{

"nodeDataArray":[

{"key":1,"name":"Init","title":"ad_dtype","condition":"1＝＝1"},

{"key":3,"name":"IM","title":"bglct_id","condition":"ad_clienttype＝＝1"}],

"linkDataArray":[

{"from":1,"to":2},

{"from":2,"to":3}]

}

一条数据通过多分决策树的过程可以描述如下：

i.将数据拆分为<k,v>结构，放入map；

iii.按叶子节点的名称，分别输出每条数据相应的业务类型。

进一步地，如图6所示，上述步骤S140之后还包括以下步骤：

步骤S160、从所述文件存储系统中读取日志数据，并按照预设的分拣规则对所述日志数据进行分拣处理，获得分拣数据，再将该分拣数据存储至所述文件存储系统；所述备用分拣引擎的分拣规则与实时分拣引擎的分拣规则相同。

为了保证离线状态下日志数据的正常处理，还可利用云分拣器130中的备用分拣引擎132，所述备用分拣引擎132用于在实时分拣引擎131无法进行分拣时(例如，实时分拣引擎131出现故障时，或者分布式消息队列系统120处于离线状态时)，从所述文件存储系统200中读取日志数据，并按照预设的分拣规则对所述日志数据进行分拣处理，获得分拣数据，再存储至所述文件存储系统200；所述备用分拣引擎132的分拣规则与实时分拣引擎131的分拣规则相同。配置中心170在更新或新增分拣规则后，还将该更新后的分拣规则同步至云分拣器130中的备用分拣引擎132。

上述实时分拣引擎131和备用分拣引擎132运行的分拣规则一致，且分拣过程也一致。因此具体的分拣过程可参照上述实时分拣引擎的分拣过程实施。即备用分拣引擎132从文件存储系统200中读取日志数据，并按照备用分拣引擎132中预存的分拣规则对该日志数据进行业务分类，再提取该分类后的日志数据中与该业务类型对应配置的字段的字段数据，并将该提取的字段数据进行拼接，形成分拣数据。该分拣数据再存储至文件存储系统200中。

以上所述仅为本发明的优选实施例，并非因此限制其专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种数据采集系统，其特征在于，所述数据采集系统包括采集器、共享传输通道、分布式消息队列系统、云分拣器；其中：

所述采集器用于采集业务日志服务器上的日志数据，将所采集的日志数据发送至所述共享传输通道；

所述分布式消息队列系统将所接收到的数据和所存储的数据同步至文件存储系统；

其中，所述数据采集系统包括配置中心，用于配置分拣规则；所述云分拣器包括实时分拣引擎，所述实时分拣引擎用于按照所述配置中心的分拣规则，对从所述分布式消息队列系统中读取的所述日志数据进行分拣处理，获得分拣数据，再将该分拣数据存储至所述分布式消息队列系统中；

其中，所述分拣规则是指对数据进行拆分，并将拆分后的数据放入决策树中，对所述决策树进行遍历得到拆分后的数据在决策树中节点的名称，根据所述名称输出拆分后的数据的业务类型。

2.如权利要求1所述的数据采集系统，其特征在于，所述数据采集系统还包括存储盘、数据发送器；所述存储盘用于存储所述共享传输通道被写满时所述共享传输通道的日志数据；所述数据发送器从所述共享传输通道和所述存储盘中读取日志数据，并将所读取的日志数据发送至所述分布式消息队列系统。

3.如权利要求1所述的数据采集系统，其特征在于，所述云分拣器还包括备用分拣引擎，所述备用分拣引擎用于在实时分拣引擎无法进行分拣时，从所述文件存储系统中读取日志数据，并按照所述配置中心的分拣规则对所述日志数据进行分拣处理，获得分拣数据，再将该分拣数据存储至所述文件存储系统；所述备用分拣引擎的分拣规则与实时分拣引擎的分拣规则相同。

4.如权利要求3所述的数据采集系统，其特征在于，所述配置中心还用于配置数据选择的字段；所述云分拣器用于：

按照所述分拣规则，对所述日志数据进行分类，从分类后的日志数据中提取所配置的字段的字段值，并对所提取的字段值进行拼接，获得分拣数据。

5.如权利要求1所述的数据采集系统，其特征在于，所述配置中心还用于对分拣规则进行修改或者新增。

6.一种数据采集方法，其特征在于，所述数据采集方法包括以下步骤：

将所述共享传输通道内的日志数据发送至分布式消息队列系统；

将所述分布式消息队列系统所接收到的数据和所存储的数据同步至文件存储系统；

其中，所述从所述分布式消息队列系统中读取日志数据，并对所述日志数据进行分拣处理，获得分拣数据的步骤包括：按照配置中心的分拣规则，对从所述分布式消息队列系统中读取的所述日志数据进行分拣处理，获得分拣数据，再将该分拣数据存储至所述分布式消息队列系统中；

7.如权利要求6所述的数据采集方法，其特征在于，所述数据采集方法还包括以下步骤：

在所述共享传输通道被写满时，将所述共享传输通道的日志数据存储至存储盘；

从所述共享传输通道和所述存储盘中读取日志数据，并将所读取的日志数据发送至所述分布式消息队列系统。

8.如权利要求6所述的数据采集方法，其特征在于，所述数据采集方法还包括以下步骤：

从所述文件存储系统中读取日志数据，并按照预设的分拣规则对所述日志数据进行分拣处理，获得分拣数据，再将该分拣数据存储至所述文件存储系统；备用分拣引擎的分拣规则与实时分拣引擎的分拣规则相同。