CN107395669B

CN107395669B - 一种基于流式实时分布式大数据的数据采集方法及系统

Info

Publication number: CN107395669B
Application number: CN201710402900.2A
Authority: CN
Inventors: 张星明; 梁桂煌; 林育蓓; 陈霖; 古振威; 吴世豪
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2017-06-01
Filing date: 2017-06-01
Publication date: 2020-04-07
Anticipated expiration: 2037-06-01
Also published as: CN107395669A

Abstract

本发明公开了一种基于流式实时分布式大数据的数据采集方法及系统，主要是采用分布式云集群的方式来处理数据采集，提高数据采集的处理性能和提供一定的可扩展性；构建分区关联的任务队列，不需要首先完成数据累计和落地，实时检测业务数据的变化，采用内存模型来高效存储增量收集的数据，减少本地临时文件保存时所占的空间，避免数据堆积和丢失，同时在基于内存模型的基础上，将数据块进行流化处理，直接在内存中对数据流进行并行处理并实时更新到分析数据集。本发明充分发挥了云集群的高效处理性能，同时利用基于内存的高效存储模型完成数据的收集和归类操作，为后续的实时数据分析提供数据基础，保证了实时数据采集可得到实时的反馈分析结果。

Description

一种基于流式实时分布式大数据的数据采集方法及系统

技术领域

本发明涉及大数据数据采集的技术领域，尤其是指一种基于流式实时分布式大数据的数据采集方法及系统。

背景技术

在当今互联网化趋势逐步加强的情况下，伴随着政策方针对“互联网+”工程的积极推进，互联网应用以多种多样的展示方式呈现到用户面前，使互联网应用受众的数量急剧增加，因此产生了海量的用户互联网应用数据，其中包含相关的应用业务数据和用户行为数据等珍贵数据。如果能够借助飞速发展的大数据技术，对相关的用户互联网应用数据进行数据挖掘和统计分析，可以为“互联网+”工程的推进和用户服务改善的方面提供参考依据，对打造大众创业、万众创新和增加公共产品、公共服务“双引擎”，主动适应和引领经济发展新常态，形成经济发展新动能，实现中国经济提质增效升级具有重要意义。

大数据的挖掘与分析从采集源数据到最终获得分析结果一般要经过几个主要步骤，包括数据采集、数据预处理、数据存储与管理、联机分析处理(OLAP)、数据挖掘、数据可视化等。其中，数据采集是属于首要的前提。数据分析和处理的前提是分析数据源，而数据采集的任务就是将数据分析主题相关的源数据进行采集并将其持久化为分析数据集，以供后续的数据预处理和数据存储管理等操作。在面对海量数据的情况下，数据采集尤其重要，因为如果不能有效地进行动态数据采集以更新分析数据集，将会影响后续的数据处理和分析结论。为了更好地应对海量数据采集的需求，数据采集系统的设计尤其重要，系统的主要结构包括数据汇集模块和数据归类与持久化模块。

由于互联网应用的种类和数量在近期都呈现急剧增长的趋势，应用数据的采集来源也出现了多种不同的方式，包括浏览器客户端、移动端App、桌面客户端和移动端Webview等方式，需要采集的数据量呈现指数增长的趋势，因此如何能够高效、实时地进行数据采集成为海量数据分析所面临的首要难题。对此，需要设计一种能够稳定、高效地完成海量数据采集的大数据数据采集系统。

现有的数据采集系统提供了并行多线程的方式去进行数据的采集，但是一般只会在单机上进行同种类型业务数据的采集。由于传统的业务数据来源较少，而且数据量级较轻，单机的数据采集能够满足采集需求。但在大数据发展的年代，海量数据采集层次使得单机采集服务器无法稳定高效地支持大数据的采集工作，存在较大性能瓶颈。如何能够高效地扩展数据采集的处理性能是实现海量数据采集的重要问题。

传统的处理数据采集的方式是采用“缓存-离线”处理方式，通过对采集到的数据进行临时文件的本地缓存化，完成数据积累和落地，然后通过基于MapReduce离线批处理的方式进行数据添加到分析数据集当中。这种处理方式只能适用于轻量级的数据量，面对TB级的海量数据时，通过临时文件保存的方式需要额外很大的存储空间，而且容易造成数据堆积和丢失。

传统的数据采集系统从数据汇集到数据存储的过程中都是基于批量处理的模式，操作静态的数据。但在大数据时代，多来源数据促使了数据有效性的出现，传统的批量数据采集方式无法有效实时地进行数据采集以供后续的数据分析处理，无法得到实时反馈，不能更好地把握发展的动向。

发明内容

本发明的目的在于克服现有技术的不足，提供了一种基于流式实时分布式大数据的数据采集方法及系统，充分利用分布式数据采集服务器的高效处理性能，提供一定的可扩展性，加快数据汇集的处理效率，同时通过基于内存的流式处理机制，避免了数据堆积和丢失，提高数据归类的处理性能，更加高效地构建分析数据集，保证数据采集的实时性，为后续的数据分析和处理提供完整的数据基础。

为实现上述目的，本发明所提供的技术方案，如下：

一种基于流式实时分布式大数据的数据采集方法，首先，多种客户端通过访问Web服务，产生新的业务数据，将需要进行采集的数据类型按照需求Type进行数据源分类；然后分配多个执行线程，并在分布式云集群服务器上并行执行数据汇集任务，以任务队列的形式，动态收集来自多种客户端的不同类型的业务数据，对不同类型的业务数据进行分类汇集，实现动态实时更新；云集群服务器划分为一台主服务器和多台子服务器，将每台子服务器定义为代理Agent，按照设定的分区规则，对子服务器进行分区划分，使一个类型对应多个分区，在逻辑上同一类型的数据处于同一分区，在物理上则是处于不同的子服务器中，其中，一个任务队列能够关联多个同源或异源分区，从而更好地实现负载均衡化；当子服务器完成各自的汇集任务时，按照流式处理的方式，以微批量处理时间为标准，将数据分成多段的数据流，每段数据流都基于内存进行缓存，主服务器采用内存处理方式将多段数据流进行数据并行处理，按照业务数据类型进行数据归类处理，并将之存储到持久化的原始数据集当中。

上述的基于流式实时分布式大数据的数据采集方法，包括以下步骤：

1)初始化数据采集云集群服务器，选定主从服务器；

2)将子服务器按照分区规则进行分区划分，将不同的数据类型随机分配到分区中，构建数据类型的分区关联任务队列；

3)主服务器对每个子服务器数据汇集的队列数据就进行流式处理划分，以微批处理时间间隔为定量标准将实时数据进行分批，通过时间片批量处理的形式形成相关的数据流；

4)主服务器并行执行多个微批处理任务，形成对应的数据流，基于内存处理将数据流按照数据类型进行归类操作，统一数据类型的数据流，并将归类的业务数据存储到相应的原始数据集中，以便为后续分析提供数据分析基础。

一种基于流式实时分布式大数据的数据采集系统，包括：

数据汇集模块，该数据汇集模块包括业务数据采集类型关联单元和汇集任务队列组成单元；所述业务数据采集类型关联单元实现对多种客户端使用、多种业务处理和系统日志处理进行采集类型关联，用于区分不同的采集来源；所述汇集任务队列组成单元实现对不同采集来源的业务数据进行分区关联，构建相应的任务队列，通过分区的方式来提高数据生产和消费的吞吐率，实时收集动态业务数据；

数据归类与持久化模块，该数据归类与持久化模块包括数据流转换单元、数据归类单元和数据持久化单元；所述数据流转换单元将实时数据以时间片为单位进行分批，形成对应的数据流；所述数据归类单元将生成的数据流按照对应的业务数据类型进行归类处理，形成完整的对应类型数据流；所述数据持久化单元实现将归类完毕的数据流进行持久化存储，以供后续分析使用。

本发明与现有技术相比，具有如下优点与有益效果：

1、采用多线程的方式执行数据采集任务，并通过分布式云集群的运行方式来提高数据采集的处理性能，保证数据采集的吞吐量和稳定性，并提供一定的可扩展性。

2、采用动态直接处理的模式，不同于传统的先存储后处理模式，不需要首先完成数据累计和落地，采用了分区关联的任务队列的结构，提高了数据生产和消费的吞吐率，能够实时检测业务数据的变化，使用内存模型来存储增量收集的数据，减少了本地临时文件保存时所占的空间，从而避免了数据堆积和丢失等情况的发生。

3、依据内存模型存储的高效性，采用任务队列的方式来实时更新业务数据，并通过时间片划分的方式来构造数据流；同时根据流式数据的特点能够直接在内存中对数据进行并行操作，能够加快处理的效率，提高处理性能，并及时更新到数据集中，为后续的实时数据分析提供数据基础，保证了实时数据采集能够得到实时的反馈分析结果。

附图说明

图1为业务数据产生和收集处理的流程图。

图2为分布式数据采集分区任务队列构建与数据归类的流程图。

图3为数据流化处理和归类处理的实现流程图。

图4为基于流式实时分布式大数据的数据采集方法的流程图。

图5为基于流式实时分布式大数据的数据采集系统的网络图。

具体实施方式

下面结合具体实施例对本发明作进一步说明。

本实施例所提供的基于流式实时分布式大数据的数据采集方法，具体是：首先，多种客户端通过Web服务的访问来获取服务支持，在访问的同时会产生新的业务数据，数据采集系统需要对新生产的业务数据进行数据采集操作，具体处理流程图如图1所示。数据采集流程采用的是分布式的云集群的方式执行，云集群由一台主服务器和多台子服务器组成。子服务器通过设定的分区规则进行采集分区的划分，不同的业务数据对应不同的业务类型，同一业务类型关联着多个分区构成对应的任务队列，通过队列化多分区并行收集的方式进行实时的并发数据汇集，汇集增量业务数据后由主服务器进行归类处理，并持久化到数据集，具体处理流程图如图2所示。

当子服务器完成各自的汇集任务时，主服务器会收集各个任务队列的数据集，对数据集进行流式处理，以时间片进行分割形成数据流，在依据内存模型高效存储的特性上，对数据流根据设定的业务类型进行数据归类操作，将同一业务类型的数据归类到同一存储块，并将之持久化到数据集当中，以供后续的实时分析使用，归类的具体处理流程图如图3所示。

本实施例上述基于流式实时分布式大数据的数据采集方法的整体处理流程如图4所示，具体步骤如下：

步骤1，初始化数据采集云集群服务器，选定主从服务器。

步骤2，将子服务器按照分区规则进行分区划分，将不同的数据类型随机分配到分区中，构建数据类型的分区关联任务队列。

步骤3，主服务器对每个子服务器数据汇集的队列数据就进行流式处理划分，以微批处理时间间隔为定量标准将实时数据进行分批，通过时间片批量处理的形式形成相关的数据流。

步骤4，主服务器并行执行多个微批处理任务，形成对应的数据流，基于内存处理将数据流按照数据类型进行归类操作，统一数据类型的数据流，并将归类的业务数据存储到相应的分析数据集中，以便为后续分析提供数据分析基础。

分布式云集群的数据采集方式有效地利用了云集群高并发高可用的特点，以分区关联的任务队列的实现方式，实时地监控业务数据的增量生产，进一步提高业务数据采集生产和消费的吞吐率，并提供了可扩展性；同时利用数据流在内存模型的高效率存储特性，实现基于内存模型的流式处理，为分布式数据采集系统提供了实时处理反馈的保证。

基于上述的数据采集方法进行结构设计，本实施例提供的数据采集系统，包括数据汇集模块和数据归类与持久化模块。

数据汇集模块包括业务数据采集类型关联单元和汇集任务队列组成单元。业务数据采集类型关联单元实现对多种客户端使用、多种业务处理和系统日志处理进行采集类型关联，用于区分不同的采集来源；汇集任务队列组成单元实现对不同采集来源的业务数据进行分区关联，构建相应的任务队列，通过分区的方式来提高数据生产和消费的吞吐率，实时收集动态业务数据。

数据归类与持久化模块包括数据流转换单元、数据归类单元和数据持久化单元。数据流转换单元将实时数据以时间片为单位进行分批，形成对应的数据流；数据归类单元将生成的数据流按照对应的业务数据类型进行归类处理，形成完整的对应类型数据流；数据持久化单元实现将归类完毕的数据流进行持久化存储，以供后续分析使用。

本系统的特点在于采用分布式的分区任务队列方式进行数据的增量汇集操作。同一任务队列的不同分区可以归属到不同的子服务器，这样可以实现高效的业务数据增量收集，提高业务汇集的吞吐率，并且可以通过配置子服务器的方式来实现系统的扩展，能够有效地处理海量数据的收集工作，为实时分析反馈提供保障。

为了测试本实施例上述的基于流式实时分布式大数据的数据采集方法及系统的应用效果，我们将这一技术应用到社保社会关系转移分析服务系统当中。社保社会关系转移分析服务系统是依据国家级的信息化规划方案“金保工程”和“互联网+”政策方针进行规划建设的。通过从浏览器、桌面客户端和移动端等多类型客户端进行实时的社会关系转移信息的收集，可对业务数据进行挖掘和统计分析，并以图例展示和报表展示等可视化手段进行展现，为政府政策方针的指定提供参考依据，实现创新性政府服务应用示范。数据采集系统为社保社会关系转移分析服务系统提供首要的数据采集任务，数据采集系统的网络图如图5所示，负责动态收集应用业务数据，实时更新数据集，为后续的数据分析提供数据基础，实现实时数据分析以为决策提供数据事实依据。

以上所述实施例只为本发明之较佳实施例，并非以此限制本发明的实施范围，故凡依本发明之形状、原理所作的变化，均应涵盖在本发明的保护范围内。

Claims

1.一种基于流式实时分布式大数据的数据采集方法，其特征在于：首先，多种客户端通过访问Web服务，产生新的业务数据，将需要进行采集的数据类型按照需求Type进行数据源分类；然后分配多个执行线程，并在分布式云集群服务器上并行执行数据汇集任务，以任务队列的形式，动态收集来自多种客户端的不同类型的业务数据，对不同类型的业务数据进行分类汇集，实现动态实时更新；云集群服务器划分为一台主服务器和多台子服务器，将每台子服务器定义为代理Agent，按照设定的分区规则，对子服务器进行分区划分，使一个类型对应多个分区，在逻辑上同一类型的数据处于同一分区，在物理上则是处于不同的子服务器中，其中，一个任务队列能够关联多个同源或异源分区，从而更好地实现负载均衡化；当子服务器完成各自的汇集任务时，按照流式处理的方式，以微批量处理时间为标准，将数据分成多段的数据流，每段数据流都基于内存进行缓存，主服务器采用内存处理方式将多段数据流进行数据并行处理，按照业务数据类型进行数据归类处理，并将之存储到持久化的原始数据集当中。

2.根据权利要求1所述的一种基于流式实时分布式大数据的数据采集方法，其特征在于，包括以下步骤：

1)初始化数据采集云集群服务器，选定主从服务器；

3.一种基于流式实时分布式大数据的数据采集系统，其特征在于，包括：