CN107395669B - 一种基于流式实时分布式大数据的数据采集方法及系统 - Google Patents

一种基于流式实时分布式大数据的数据采集方法及系统 Download PDF

Info

Publication number
CN107395669B
CN107395669B CN201710402900.2A CN201710402900A CN107395669B CN 107395669 B CN107395669 B CN 107395669B CN 201710402900 A CN201710402900 A CN 201710402900A CN 107395669 B CN107395669 B CN 107395669B
Authority
CN
China
Prior art keywords
data
time
real
processing
acquisition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201710402900.2A
Other languages
English (en)
Other versions
CN107395669A (zh
Inventor
张星明
梁桂煌
林育蓓
陈霖
古振威
吴世豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201710402900.2A priority Critical patent/CN107395669B/zh
Publication of CN107395669A publication Critical patent/CN107395669A/zh
Application granted granted Critical
Publication of CN107395669B publication Critical patent/CN107395669B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/12Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种基于流式实时分布式大数据的数据采集方法及系统,主要是采用分布式云集群的方式来处理数据采集,提高数据采集的处理性能和提供一定的可扩展性;构建分区关联的任务队列,不需要首先完成数据累计和落地,实时检测业务数据的变化,采用内存模型来高效存储增量收集的数据,减少本地临时文件保存时所占的空间,避免数据堆积和丢失,同时在基于内存模型的基础上,将数据块进行流化处理,直接在内存中对数据流进行并行处理并实时更新到分析数据集。本发明充分发挥了云集群的高效处理性能,同时利用基于内存的高效存储模型完成数据的收集和归类操作,为后续的实时数据分析提供数据基础,保证了实时数据采集可得到实时的反馈分析结果。

Description

一种基于流式实时分布式大数据的数据采集方法及系统
技术领域
本发明涉及大数据数据采集的技术领域,尤其是指一种基于流式实时分布式大数据的数据采集方法及系统。
背景技术
在当今互联网化趋势逐步加强的情况下,伴随着政策方针对“互联网+”工程的积极推进,互联网应用以多种多样的展示方式呈现到用户面前,使互联网应用受众的数量急剧增加,因此产生了海量的用户互联网应用数据,其中包含相关的应用业务数据和用户行为数据等珍贵数据。如果能够借助飞速发展的大数据技术,对相关的用户互联网应用数据进行数据挖掘和统计分析,可以为“互联网+”工程的推进和用户服务改善的方面提供参考依据,对打造大众创业、万众创新和增加公共产品、公共服务“双引擎”,主动适应和引领经济发展新常态,形成经济发展新动能,实现中国经济提质增效升级具有重要意义。
大数据的挖掘与分析从采集源数据到最终获得分析结果一般要经过几个主要步骤,包括数据采集、数据预处理、数据存储与管理、联机分析处理(OLAP)、数据挖掘、数据可视化等。其中,数据采集是属于首要的前提。数据分析和处理的前提是分析数据源,而数据采集的任务就是将数据分析主题相关的源数据进行采集并将其持久化为分析数据集,以供后续的数据预处理和数据存储管理等操作。在面对海量数据的情况下,数据采集尤其重要,因为如果不能有效地进行动态数据采集以更新分析数据集,将会影响后续的数据处理和分析结论。为了更好地应对海量数据采集的需求,数据采集系统的设计尤其重要,系统的主要结构包括数据汇集模块和数据归类与持久化模块。
由于互联网应用的种类和数量在近期都呈现急剧增长的趋势,应用数据的采集来源也出现了多种不同的方式,包括浏览器客户端、移动端App、桌面客户端和移动端Webview等方式,需要采集的数据量呈现指数增长的趋势,因此如何能够高效、实时地进行数据采集成为海量数据分析所面临的首要难题。对此,需要设计一种能够稳定、高效地完成海量数据采集的大数据数据采集系统。
现有的数据采集系统提供了并行多线程的方式去进行数据的采集,但是一般只会在单机上进行同种类型业务数据的采集。由于传统的业务数据来源较少,而且数据量级较轻,单机的数据采集能够满足采集需求。但在大数据发展的年代,海量数据采集层次使得单机采集服务器无法稳定高效地支持大数据的采集工作,存在较大性能瓶颈。如何能够高效地扩展数据采集的处理性能是实现海量数据采集的重要问题。
传统的处理数据采集的方式是采用“缓存-离线”处理方式,通过对采集到的数据进行临时文件的本地缓存化,完成数据积累和落地,然后通过基于MapReduce离线批处理的方式进行数据添加到分析数据集当中。这种处理方式只能适用于轻量级的数据量,面对TB级的海量数据时,通过临时文件保存的方式需要额外很大的存储空间,而且容易造成数据堆积和丢失。
传统的数据采集系统从数据汇集到数据存储的过程中都是基于批量处理的模式,操作静态的数据。但在大数据时代,多来源数据促使了数据有效性的出现,传统的批量数据采集方式无法有效实时地进行数据采集以供后续的数据分析处理,无法得到实时反馈,不能更好地把握发展的动向。
发明内容
本发明的目的在于克服现有技术的不足,提供了一种基于流式实时分布式大数据的数据采集方法及系统,充分利用分布式数据采集服务器的高效处理性能,提供一定的可扩展性,加快数据汇集的处理效率,同时通过基于内存的流式处理机制,避免了数据堆积和丢失,提高数据归类的处理性能,更加高效地构建分析数据集,保证数据采集的实时性,为后续的数据分析和处理提供完整的数据基础。
为实现上述目的,本发明所提供的技术方案,如下:
一种基于流式实时分布式大数据的数据采集方法,首先,多种客户端通过访问Web服务,产生新的业务数据,将需要进行采集的数据类型按照需求Type进行数据源分类;然后分配多个执行线程,并在分布式云集群服务器上并行执行数据汇集任务,以任务队列的形式,动态收集来自多种客户端的不同类型的业务数据,对不同类型的业务数据进行分类汇集,实现动态实时更新;云集群服务器划分为一台主服务器和多台子服务器,将每台子服务器定义为代理Agent,按照设定的分区规则,对子服务器进行分区划分,使一个类型对应多个分区,在逻辑上同一类型的数据处于同一分区,在物理上则是处于不同的子服务器中,其中,一个任务队列能够关联多个同源或异源分区,从而更好地实现负载均衡化;当子服务器完成各自的汇集任务时,按照流式处理的方式,以微批量处理时间为标准,将数据分成多段的数据流,每段数据流都基于内存进行缓存,主服务器采用内存处理方式将多段数据流进行数据并行处理,按照业务数据类型进行数据归类处理,并将之存储到持久化的原始数据集当中。
上述的基于流式实时分布式大数据的数据采集方法,包括以下步骤:
1)初始化数据采集云集群服务器,选定主从服务器;
2)将子服务器按照分区规则进行分区划分,将不同的数据类型随机分配到分区中,构建数据类型的分区关联任务队列;
3)主服务器对每个子服务器数据汇集的队列数据就进行流式处理划分,以微批处理时间间隔为定量标准将实时数据进行分批,通过时间片批量处理的形式形成相关的数据流;
4)主服务器并行执行多个微批处理任务,形成对应的数据流,基于内存处理将数据流按照数据类型进行归类操作,统一数据类型的数据流,并将归类的业务数据存储到相应的原始数据集中,以便为后续分析提供数据分析基础。
一种基于流式实时分布式大数据的数据采集系统,包括:
数据汇集模块,该数据汇集模块包括业务数据采集类型关联单元和汇集任务队列组成单元;所述业务数据采集类型关联单元实现对多种客户端使用、多种业务处理和系统日志处理进行采集类型关联,用于区分不同的采集来源;所述汇集任务队列组成单元实现对不同采集来源的业务数据进行分区关联,构建相应的任务队列,通过分区的方式来提高数据生产和消费的吞吐率,实时收集动态业务数据;
数据归类与持久化模块,该数据归类与持久化模块包括数据流转换单元、数据归类单元和数据持久化单元;所述数据流转换单元将实时数据以时间片为单位进行分批,形成对应的数据流;所述数据归类单元将生成的数据流按照对应的业务数据类型进行归类处理,形成完整的对应类型数据流;所述数据持久化单元实现将归类完毕的数据流进行持久化存储,以供后续分析使用。
本发明与现有技术相比,具有如下优点与有益效果:
1、采用多线程的方式执行数据采集任务,并通过分布式云集群的运行方式来提高数据采集的处理性能,保证数据采集的吞吐量和稳定性,并提供一定的可扩展性。
2、采用动态直接处理的模式,不同于传统的先存储后处理模式,不需要首先完成数据累计和落地,采用了分区关联的任务队列的结构,提高了数据生产和消费的吞吐率,能够实时检测业务数据的变化,使用内存模型来存储增量收集的数据,减少了本地临时文件保存时所占的空间,从而避免了数据堆积和丢失等情况的发生。
3、依据内存模型存储的高效性,采用任务队列的方式来实时更新业务数据,并通过时间片划分的方式来构造数据流;同时根据流式数据的特点能够直接在内存中对数据进行并行操作,能够加快处理的效率,提高处理性能,并及时更新到数据集中,为后续的实时数据分析提供数据基础,保证了实时数据采集能够得到实时的反馈分析结果。
附图说明
图1为业务数据产生和收集处理的流程图。
图2为分布式数据采集分区任务队列构建与数据归类的流程图。
图3为数据流化处理和归类处理的实现流程图。
图4为基于流式实时分布式大数据的数据采集方法的流程图。
图5为基于流式实时分布式大数据的数据采集系统的网络图。
具体实施方式
下面结合具体实施例对本发明作进一步说明。
本实施例所提供的基于流式实时分布式大数据的数据采集方法,具体是:首先,多种客户端通过Web服务的访问来获取服务支持,在访问的同时会产生新的业务数据,数据采集系统需要对新生产的业务数据进行数据采集操作,具体处理流程图如图1所示。数据采集流程采用的是分布式的云集群的方式执行,云集群由一台主服务器和多台子服务器组成。子服务器通过设定的分区规则进行采集分区的划分,不同的业务数据对应不同的业务类型,同一业务类型关联着多个分区构成对应的任务队列,通过队列化多分区并行收集的方式进行实时的并发数据汇集,汇集增量业务数据后由主服务器进行归类处理,并持久化到数据集,具体处理流程图如图2所示。
当子服务器完成各自的汇集任务时,主服务器会收集各个任务队列的数据集,对数据集进行流式处理,以时间片进行分割形成数据流,在依据内存模型高效存储的特性上,对数据流根据设定的业务类型进行数据归类操作,将同一业务类型的数据归类到同一存储块,并将之持久化到数据集当中,以供后续的实时分析使用,归类的具体处理流程图如图3所示。
本实施例上述基于流式实时分布式大数据的数据采集方法的整体处理流程如图4所示,具体步骤如下:
步骤1,初始化数据采集云集群服务器,选定主从服务器。
步骤2,将子服务器按照分区规则进行分区划分,将不同的数据类型随机分配到分区中,构建数据类型的分区关联任务队列。
步骤3,主服务器对每个子服务器数据汇集的队列数据就进行流式处理划分,以微批处理时间间隔为定量标准将实时数据进行分批,通过时间片批量处理的形式形成相关的数据流。
步骤4,主服务器并行执行多个微批处理任务,形成对应的数据流,基于内存处理将数据流按照数据类型进行归类操作,统一数据类型的数据流,并将归类的业务数据存储到相应的分析数据集中,以便为后续分析提供数据分析基础。
分布式云集群的数据采集方式有效地利用了云集群高并发高可用的特点,以分区关联的任务队列的实现方式,实时地监控业务数据的增量生产,进一步提高业务数据采集生产和消费的吞吐率,并提供了可扩展性;同时利用数据流在内存模型的高效率存储特性,实现基于内存模型的流式处理,为分布式数据采集系统提供了实时处理反馈的保证。
基于上述的数据采集方法进行结构设计,本实施例提供的数据采集系统,包括数据汇集模块和数据归类与持久化模块。
数据汇集模块包括业务数据采集类型关联单元和汇集任务队列组成单元。业务数据采集类型关联单元实现对多种客户端使用、多种业务处理和系统日志处理进行采集类型关联,用于区分不同的采集来源;汇集任务队列组成单元实现对不同采集来源的业务数据进行分区关联,构建相应的任务队列,通过分区的方式来提高数据生产和消费的吞吐率,实时收集动态业务数据。
数据归类与持久化模块包括数据流转换单元、数据归类单元和数据持久化单元。数据流转换单元将实时数据以时间片为单位进行分批,形成对应的数据流;数据归类单元将生成的数据流按照对应的业务数据类型进行归类处理,形成完整的对应类型数据流;数据持久化单元实现将归类完毕的数据流进行持久化存储,以供后续分析使用。
本系统的特点在于采用分布式的分区任务队列方式进行数据的增量汇集操作。同一任务队列的不同分区可以归属到不同的子服务器,这样可以实现高效的业务数据增量收集,提高业务汇集的吞吐率,并且可以通过配置子服务器的方式来实现系统的扩展,能够有效地处理海量数据的收集工作,为实时分析反馈提供保障。
为了测试本实施例上述的基于流式实时分布式大数据的数据采集方法及系统的应用效果,我们将这一技术应用到社保社会关系转移分析服务系统当中。社保社会关系转移分析服务系统是依据国家级的信息化规划方案“金保工程”和“互联网+”政策方针进行规划建设的。通过从浏览器、桌面客户端和移动端等多类型客户端进行实时的社会关系转移信息的收集,可对业务数据进行挖掘和统计分析,并以图例展示和报表展示等可视化手段进行展现,为政府政策方针的指定提供参考依据,实现创新性政府服务应用示范。数据采集系统为社保社会关系转移分析服务系统提供首要的数据采集任务,数据采集系统的网络图如图5所示,负责动态收集应用业务数据,实时更新数据集,为后续的数据分析提供数据基础,实现实时数据分析以为决策提供数据事实依据。
以上所述实施例只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。

Claims (3)

1.一种基于流式实时分布式大数据的数据采集方法,其特征在于:首先,多种客户端通过访问Web服务,产生新的业务数据,将需要进行采集的数据类型按照需求Type进行数据源分类;然后分配多个执行线程,并在分布式云集群服务器上并行执行数据汇集任务,以任务队列的形式,动态收集来自多种客户端的不同类型的业务数据,对不同类型的业务数据进行分类汇集,实现动态实时更新;云集群服务器划分为一台主服务器和多台子服务器,将每台子服务器定义为代理Agent,按照设定的分区规则,对子服务器进行分区划分,使一个类型对应多个分区,在逻辑上同一类型的数据处于同一分区,在物理上则是处于不同的子服务器中,其中,一个任务队列能够关联多个同源或异源分区,从而更好地实现负载均衡化;当子服务器完成各自的汇集任务时,按照流式处理的方式,以微批量处理时间为标准,将数据分成多段的数据流,每段数据流都基于内存进行缓存,主服务器采用内存处理方式将多段数据流进行数据并行处理,按照业务数据类型进行数据归类处理,并将之存储到持久化的原始数据集当中。
2.根据权利要求1所述的一种基于流式实时分布式大数据的数据采集方法,其特征在于,包括以下步骤:
1)初始化数据采集云集群服务器,选定主从服务器;
2)将子服务器按照分区规则进行分区划分,将不同的数据类型随机分配到分区中,构建数据类型的分区关联任务队列;
3)主服务器对每个子服务器数据汇集的队列数据就进行流式处理划分,以微批处理时间间隔为定量标准将实时数据进行分批,通过时间片批量处理的形式形成相关的数据流;
4)主服务器并行执行多个微批处理任务,形成对应的数据流,基于内存处理将数据流按照数据类型进行归类操作,统一数据类型的数据流,并将归类的业务数据存储到相应的原始数据集中,以便为后续分析提供数据分析基础。
3.一种基于流式实时分布式大数据的数据采集系统,其特征在于,包括:
数据汇集模块,该数据汇集模块包括业务数据采集类型关联单元和汇集任务队列组成单元;所述业务数据采集类型关联单元实现对多种客户端使用、多种业务处理和系统日志处理进行采集类型关联,用于区分不同的采集来源;所述汇集任务队列组成单元实现对不同采集来源的业务数据进行分区关联,构建相应的任务队列,通过分区的方式来提高数据生产和消费的吞吐率,实时收集动态业务数据;
数据归类与持久化模块,该数据归类与持久化模块包括数据流转换单元、数据归类单元和数据持久化单元;所述数据流转换单元将实时数据以时间片为单位进行分批,形成对应的数据流;所述数据归类单元将生成的数据流按照对应的业务数据类型进行归类处理,形成完整的对应类型数据流;所述数据持久化单元实现将归类完毕的数据流进行持久化存储,以供后续分析使用。
CN201710402900.2A 2017-06-01 2017-06-01 一种基于流式实时分布式大数据的数据采集方法及系统 Expired - Fee Related CN107395669B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710402900.2A CN107395669B (zh) 2017-06-01 2017-06-01 一种基于流式实时分布式大数据的数据采集方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710402900.2A CN107395669B (zh) 2017-06-01 2017-06-01 一种基于流式实时分布式大数据的数据采集方法及系统

Publications (2)

Publication Number Publication Date
CN107395669A CN107395669A (zh) 2017-11-24
CN107395669B true CN107395669B (zh) 2020-04-07

Family

ID=60331837

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710402900.2A Expired - Fee Related CN107395669B (zh) 2017-06-01 2017-06-01 一种基于流式实时分布式大数据的数据采集方法及系统

Country Status (1)

Country Link
CN (1) CN107395669B (zh)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11200258B2 (en) * 2017-12-20 2021-12-14 Acer Cloud Technology (Us), Inc. Systems and methods for fast and effective grouping of stream of information into cloud storage files
CN108334557B (zh) * 2017-12-29 2022-03-11 东软集团(上海)有限公司 一种聚合数据分析方法、装置、存储介质及电子设备
CN108519987A (zh) * 2018-02-24 2018-09-11 国家计算机网络与信息安全管理中心 一种数据持久化方法和装置
CN108681569B (zh) * 2018-05-04 2021-11-02 亚洲保理(深圳)有限公司 一种数据自动分析系统及其方法
CN108595699A (zh) * 2018-05-09 2018-09-28 国电南瑞科技股份有限公司 电力调度自动化系统中广域分布式数据的流式处理方法
CN110597890B (zh) * 2018-05-25 2022-04-05 杭州海康威视数字技术股份有限公司 数据采集系统、方法、节点设备及存储介质
CN108874313B (zh) * 2018-05-31 2021-11-23 安徽四创电子股份有限公司 一种基于数据流的大数据增量抽取的数据交换平台
CN108769255A (zh) * 2018-06-26 2018-11-06 铭阳数通科技(西安)有限公司 企业数据的采集和治理方法
CN109189835B (zh) * 2018-08-21 2021-09-03 北京京东尚科信息技术有限公司 实时生成数据宽表的方法和装置
CN109388657B (zh) * 2018-09-10 2023-08-08 平安科技(深圳)有限公司 数据处理方法、装置、计算机设备及存储介质
CN111178747A (zh) * 2019-12-26 2020-05-19 金蝶征信有限公司 企业画像生成方法、装置、计算机设备和存储介质
CN111338583B (zh) * 2020-05-19 2020-08-25 北京数字绿土科技有限公司 一种高频数据存储方法、装置、计算机
CN111491038B (zh) * 2020-06-29 2020-10-09 北京一流科技有限公司 静态网络中的数据传输系统及其方法
CN111737010B (zh) * 2020-07-30 2024-02-02 腾讯科技(深圳)有限公司 任务处理方法和装置、图形任务处理系统以及存储介质
CN112579581B (zh) * 2020-11-30 2023-04-14 贵州力创科技发展有限公司 一种数据分析引擎的数据接入方法及系统
CN112364063B (zh) * 2021-01-12 2021-06-04 北京智慧星光信息技术有限公司 流计算系统及其数据处理方法、电子设备及介质
CN112988505A (zh) * 2021-02-08 2021-06-18 深圳阿帕云计算有限公司 一种基于云计算大数据通用型实时监控预警系统
CN114860483B (zh) * 2022-06-17 2023-05-30 中国人民解放军陆军炮兵防空兵学院 一种快速采集设备数据并高效率持久化方法及系统
CN115022402A (zh) * 2022-07-01 2022-09-06 杭州乘云数字技术有限公司 一种基于一栈式集成技术的agent采集方法及系统
CN116258350B (zh) * 2023-05-15 2023-08-11 烟台岸基网络科技有限公司 海运集装箱运输监控方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104021194A (zh) * 2014-06-13 2014-09-03 浪潮(北京)电子信息产业有限公司 一种面向行业大数据多样性应用的混合型处理系统及处理方法
CN104065741A (zh) * 2014-07-04 2014-09-24 用友软件股份有限公司 数据采集系统和数据采集方法
CN105243155A (zh) * 2015-10-29 2016-01-13 贵州电网有限责任公司电力调度控制中心 一种大数据抽取和交换系统
CN105677836A (zh) * 2016-01-05 2016-06-15 北京汇商融通信息技术有限公司 一种同时支持离线数据和实时在线数据的大数据处理解决系统
CN106547882A (zh) * 2016-11-03 2017-03-29 国网重庆市电力公司电力科学研究院 一种智能电网中营销大数据的实时处理方法及系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101957863B (zh) * 2010-10-14 2012-05-09 广州从兴电子开发有限公司 数据并行处理方法、装置及系统
US20130268479A1 (en) * 2012-04-06 2013-10-10 Myspace Llc System and method for presenting and managing social media
JP6251203B2 (ja) * 2015-02-02 2017-12-20 日本電信電話株式会社 ストリーミングデータ配信システム、及び、ストリーミングデータ配信方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104021194A (zh) * 2014-06-13 2014-09-03 浪潮(北京)电子信息产业有限公司 一种面向行业大数据多样性应用的混合型处理系统及处理方法
CN104065741A (zh) * 2014-07-04 2014-09-24 用友软件股份有限公司 数据采集系统和数据采集方法
CN105243155A (zh) * 2015-10-29 2016-01-13 贵州电网有限责任公司电力调度控制中心 一种大数据抽取和交换系统
CN105677836A (zh) * 2016-01-05 2016-06-15 北京汇商融通信息技术有限公司 一种同时支持离线数据和实时在线数据的大数据处理解决系统
CN106547882A (zh) * 2016-11-03 2017-03-29 国网重庆市电力公司电力科学研究院 一种智能电网中营销大数据的实时处理方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
一种分布式消息队列研究与测试;于金良、朱志祥;《物联网技术》;20160831;32-34 *
大数据环境下分布式数据流处理关键技术探析;陈付梅,韩德志;《计算机应用》;20170310;第2017卷;620-627 *

Also Published As

Publication number Publication date
CN107395669A (zh) 2017-11-24

Similar Documents

Publication Publication Date Title
CN107395669B (zh) 一种基于流式实时分布式大数据的数据采集方法及系统
Du et al. A novel data placement strategy for data-sharing scientific workflows in heterogeneous edge-cloud computing environments
Singh et al. A survey on platforms for big data analytics
Gounaris et al. A methodology for spark parameter tuning
WO2021036936A1 (zh) 在分布式系统中资源及任务的分配方法、装置及系统
Yuan et al. A data placement strategy in scientific cloud workflows
Yuan et al. A highly practical approach toward achieving minimum data sets storage cost in the cloud
US20140358977A1 (en) Management of Intermediate Data Spills during the Shuffle Phase of a Map-Reduce Job
Yang et al. Intermediate data caching optimization for multi-stage and parallel big data frameworks
Sallinen et al. Graph colouring as a challenge problem for dynamic graph processing on distributed systems
WO2016025357A2 (en) Distributed stage-wise parallel machine learning
CN111324445A (zh) 一种任务调度模拟系统
US20150271023A1 (en) Cloud estimator tool
CN102307133A (zh) 一种公有云平台虚拟机调度方法
Alkatheri et al. A comparative study of big data frameworks
Xu et al. Sampling-based partitioning in MapReduce for skewed data
CN105681474A (zh) 一种基于企业级大数据平台支撑上层应用的系统架构
US10162830B2 (en) Systems and methods for dynamic partitioning in distributed environments
CN110838055A (zh) 一种基于大数据的电力企业财务数据管理系统
Sanchez et al. Design and implementation of a scalable hpc monitoring system
Shamsuddin et al. Data science vs big data@ UTM big data centre
Haque et al. Evolving big data stream classification with mapreduce
Bhargava et al. Performance Comparison of Big Data Analytics Platforms
Manjaly et al. Various approches to improve MapReduce performance in Hadoop
Jaradat Replica selection algorithm in data grids: the best-fit approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200407