CN108038226A - 一种数据快速采集系统及方法 - Google Patents

一种数据快速采集系统及方法 Download PDF

Info

Publication number
CN108038226A
CN108038226A CN201711419691.9A CN201711419691A CN108038226A CN 108038226 A CN108038226 A CN 108038226A CN 201711419691 A CN201711419691 A CN 201711419691A CN 108038226 A CN108038226 A CN 108038226A
Authority
CN
China
Prior art keywords
data
file
alluxio
kafka
storage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711419691.9A
Other languages
English (en)
Inventor
苑晓龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Cloud Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201711419691.9A priority Critical patent/CN108038226A/zh
Publication of CN108038226A publication Critical patent/CN108038226A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5083Techniques for rebalancing the load in a distributed system

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据快速采集系统及方法,包括Kafka Connect组件,用于进行数据采集;数据下沉组件,在分布式内存文件系统Alluxio中设计,用于连接上述Kafka Connect组件,并将Kafka Connect组件采集的数据存储到存储系统中;存储系统,用于存储来自数据下沉组件的数据。本发明的一种数据快速采集系统及方法与现有技术相比,利用Kafka Connect的任务再平衡操作,实现了数据采集集群高可用的自动容错以及负载均衡;通过配置的分配策略将数据尽量平均地分配到集群中的每个节点上,避免了一定程度的数据倾斜问题,实用性强,适用范围广泛,易于推广。

Description

一种数据快速采集系统及方法
技术领域
本发明涉及大数据领域,具体地说是一种实用性强的数据快速采集系统及方法。
背景技术
在大数据时代,面对海量数据的ETL过程经常会选择Kafka作为消息中间件应用在离线和实时的使用场景中,而Kafka的数据上游和下游一直没有一个无缝衔接的Pipeline来实现统一,通常会选择Flume或者Logstash采集数据到Kafka,然后通过其他方式pull或者push数据到目标存储如笔者申请的专利CN201710391446中所示。
分布式模式的Kafka Connect的Workers提供了可扩展性以及自动容错的功能,当Connector第一次提交到集群、新增Worker或者某个Worker出现异常退出时,会触发Task再平衡操作,避免将工作压力都集中在某个或某几个节点。而Flume的自动容错需要相当复杂的配置,仅仅是在一个节点上实现了线程级别的工作压力分担。
如图1所示,Kafka Connect是一个分布式的数据采集程序,它主要包括以下几个子组件:
SourceConnector子组件:负责接收数据单元,并将数据单元批量的放置到Kakfa集群指定Topic的消息队列中。
SinkConnector子组件:负责消费指定Topic的数据并将其传输到下一跳或最终的目标存储。
Kafka集群:位于SourceConnector与SinkConnector子组件之间,用于缓存进来的消息数据。
在该申请案中,Kafka Connect旨在围绕Kafka构建一个可扩展的,可靠的数据流通道,可以快速实现海量数据进出Kafka,从而和其他数据源或者目标数据源进行交互,构造一个低延迟的数据Pipeline。它提供了REST的API可动态添加、启动、停止Connector,目前仅支持在系统中采集普通文件系统文件的数据,同时提供对数据进行简单处理,仅支持下沉到普通文件系统。
现有的SinkConnector组件仅有FileStreamSinkConnector组件,并且数据都是下沉到基于HDD(Hard Disk Drive)硬盘驱动器的文件系统,因此Kafka Connect的SinkConnector组件的性能瓶颈就在HDD的I/O操作上。即使将数据下沉到基于SSD(SolidState Drive)固态硬盘的文件系统,不仅大大增加了硬件的投入成本,而且数据下沉组件的性能提升也有限。
因此,亟需一种提高数据下沉效率、不再像Flume一样需要复杂配置的数据快速采集技术。
发明内容
本发明的技术任务是针对以上不足之处,提供一种实用性强的数据快速采集系统及方法。
一种数据快速采集系统,包括,
Kafka Connect组件,用于进行数据采集;
数据下沉组件,在分布式内存文件系统Alluxio中设计,用于连接上述Kafka Connect组件,并将Kafka Connect组件采集的数据存储到存储系统中;
存储系统,用于存储来自数据下沉组件的数据。
所述数据下沉组件在分布式内存文件系统Alluxio启用分层存储后,提供分配、回收策略和预留空间的规则,其中,
分配规则采用轮询调度分配的方式,即分配数据块到有空间的最高存储层,存储目录通过轮询调度选出;
回收策略采用LRFU回收,即基于权重分配的最近最少使用和最不经常使用策略来移除数据块;
预留空间规则是指每层存储预留空间比例。
所述存储系统采用分布式存储系统HDFS,并配置在MEM、SSD或HDD存储结构中,相对应的,数据下沉组件提供的预留空间规则为:MEM预留0.4,SSD预留0.2,HDD不启用预留。
所述Kafka Connect组件中提供SourceConnector抽象类、SinkConnector抽象类、SinkTask抽象类,相对应的,数据下沉组件中提供继承自Kafka Connect组件中抽象类的下述结构:
AlluxioFileStreamSinkConnectork类,继承自抽象类SinkConnector,用于读取与Alluxio相关的配置参数,这里的配置参数包括Alluxio的URI地址、文件路径、文件类型、文件名称生成策略、以及文件滚动策略。
AlluxioFileStreamSinkTask类,继承自抽象类SinkTask,通过循环处理接收到的数据,将它们按照HDFS中对应的文件格式写入Alluxio分布式内存文件系统,所述HDFS中对应的文件格式包括文本、顺序文件、Avro文件。
所述AlluxioFileStreamSinkTask类还用于刷写数据到Alluxio文件系统以及提交已经当前消费的Topic各个分区的偏移量信息。
一种数据快速采集方法,基于上述系统,其实现过程为:
一、首先启动Alluxio集群,通过Alluxio分布式内存文件系统设计数据下沉组件;
二、将设计的数据下沉组件的Jar包分发到安装Kafka Connect组件的集群中每个节点机器的类加载路径;
三、通过Kafka Connect组件进行数据采集;
四、数据下沉组件将Kafka Connect组件采集的数据存储到分布式存储系统HDFS中。
所述步骤四中通过数据下沉组件实现数据下沉包括:
AlluxioFileStreamSinkConnectork类通过以下命令:start(Map<String, String>config),读取有关Alluxio的相关配置参数,这里的配置参数包括Alluxio的URI地址、文件路径、文件类型、文件名称生成策略、以及文件滚动策略;
AlluxioFileStreamSinkTask类通过以下命令:put(Collection<SinkRecord>records),循环处理接收到的数据,将它们按照HDFS中对应的文件格式写入Alluxio分布式内存文件系统,然后再将处理后的数据存储到HDFS中。
所述HDFS中对应的文件格式包括文本、顺序文件、行式存储文件、列式存储文件。
所述AlluxioFileStreamSinkTask类还通过以下命令:flush(Map<TopicPartition, OffsetAndMetadata> offsets),刷写数据到Alluxio文件系统以及提交已经当前消费的Topic各个分区的偏移量信息。
本发明的一种数据快速采集系统及方法和现有技术相比,具有以下有益效果:
本发明的一种数据快速采集系统及方法,数据下沉组件通过利用Alluxio的异步写入和层次存储特性降低了硬件的投入成本,并且提高了数据下沉的效率,提升了KafkaConnect数据采集的性能;利用Kafka Connect的任务再平衡操作,实现了数据采集集群高可用的自动容错以及负载均衡;通过配置的分配策略将数据尽量平均地分配到集群中的每个节点上,避免了一定程度的数据倾斜问题,实用性强,适用范围广泛,易于推广。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
附图1为现有技术的Kafka数据采集示意图。
附图2为本发明中的Kafka数据采集示意图。
附图3为本发明方法实现流程图。
具体实施方式
为了使本技术领域的人员更好地理解本发明的方案,下面结合具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如附图2所示,一种数据快速采集系统,采用Alluxio分布式内存文件系统作为Kafka Connect组件的目标存储,设计了AlluxioSinkConnector数据下沉组件。通过利用Alluxio系统的异步持久化特性提高了数据下沉的效率;当Connector第一次提交到集群、新增Worker或者某个Worker出现异常退出时,分布式Kafka Connect会触发Task再平衡操作,避免将工作压力都集中在某个或某些节点,实现了Kafka Connect高可用的自动容错以及负载均衡。
其结构包括,
Kafka Connect组件,用于进行数据采集;
数据下沉组件,在分布式内存文件系统Alluxio中设计,用于连接上述Kafka Connect组件,并将Kafka Connect组件采集的数据存储到式存储系统中;
存储系统,用于存储来自数据下沉组件的数据。
所述数据下沉组件在分布式内存文件系统Alluxio启用分层存储后,提供分配、回收策略和预留空间的规则,其中,
分配规则采用轮询调度分配的方式,即分配数据块到有空间的最高存储层,存储目录通过轮询调度选出;
回收策略采用LRFU回收,即基于权重分配的最近最少使用和最不经常使用策略来移除数据块;
预留空间规则是指每层存储预留空间比例。
所述存储系统采用分布式存储系统HDFS,并配置在MEM、SSD或HDD存储结构中,相对应的,数据下沉组件提供的预留空间规则为:MEM预留0.4,SSD预留0.2,HDD不启用预留。
所述Kafka Connect组件中提供SourceConnector抽象类、SinkConnector抽象类、SinkTask抽象类,相对应的,数据下沉组件中提供继承自Kafka Connect组件中抽象类的下述结构:
AlluxioFileStreamSinkConnectork类,继承自抽象类SinkConnector,用于读取与Alluxio相关的配置参数,这里的配置参数包括Alluxio的URI地址、文件路径、文件类型、文件名称生成策略、以及文件滚动策略。
在上述结构中,Kafka和其他系统之间复制数据时,需要创建自定义的从系统中pull数据或push数据到系统的Connector(连接器)。Connector有两种形式:SourceConnector,从其他系统导入数据(如:JDBCSourceConnector将导入一个关系型数据库到Kafka);SinkConnector,导出数据(如:HDFSSinkConnector将kafka主题的内容导出到HDFS文件)。connector不会执行任何复制自己的数据:它们的配置展示了要复制的数据,而Connector是负责打破这一工作变成一组可以分配worker的任务。这些任务也有两种相对应的形式:SourceTask 和 SinkTask。在手里的任务,每个任务必须复制其子集的数据或Kafka的。在Kafka系统中,这些任务作为一组具有一致性模式的记录(消息)组成的输出和输入流。有时,这种映射是明显的:在一组日志文件,每个文件可以被视为一个流,每个分析的行形成一个记录,使用相同的模式和offset存储在文件中的字节偏移。
AlluxioFileStreamSinkTask类,继承自抽象类SinkTask,通过循环处理接收到的数据,将它们按照HDFS中对应的文件格式写入Alluxio分布式内存文件系统。
所述AlluxioFileStreamSinkTask类还用于刷写数据到Alluxio文件系统以及提交已经当前消费的Topic各个分区的偏移量信息。
如附图3所示,一种数据快速采集方法,基于上述系统,其实现过程为:
一、首先启动Alluxio集群,通过Alluxio分布式内存文件系统设计数据下沉组件;
二、将设计的数据下沉组件的Jar包分发到安装Kafka Connect组件的集群中每个节点机器的类加载路径;
三、通过Kafka Connect组件进行数据采集;
四、数据下沉组件将Kafka Connect组件采集的数据存储到分布式存储系统HDFS中。
在步骤二中进行数据下沉组件的分发时,还需要配置数据采集的connector.class为AlluxioFileStreamSink,然后启动数据下沉组件进行数据采集。
所述步骤四中通过数据下沉组件实现数据下沉包括:
AlluxioFileStreamSinkConnectork类通过以下命令:start(Map<String, String>config),读取有关Alluxio的相关配置参数,这里的配置参数包括Alluxio的URI地址、文件路径、文件类型、文件名称生成策略、以及文件滚动策略;
AlluxioFileStreamSinkTask类通过以下命令:put(Collection<SinkRecord>records),循环处理接收到的数据,将它们按照HDFS中对应的文件格式写入Alluxio分布式内存文件系统,然后再将处理后的数据存储到HDFS中。
所述HDFS中对应的文件格式包括文本、顺序文件、行式存储文件、列式存储文件。
所述AlluxioFileStreamSinkTask类还通过以下命令:flush(Map<TopicPartition, OffsetAndMetadata> offsets),刷写数据到Alluxio文件系统以及提交已经当前消费的Topic各个分区的偏移量信息。
通过自定义Kafka Connect中Converter,针对HDFS中的不同文件类型,设计研发了HDFS中Text、Sequence、Parquet等格式数据与Kafka Connect内部格式数据的转换类。
本发明通过利用Alluxio的异步写入和层次存储特性降低了硬件的投入成本,并且提高了数据下沉的效率,提升了Kafka Connect数据采集的性能。利用Kafka Connect的任务再平衡操作,实现了数据采集集群高可用的自动容错以及负载均衡。通过配置的分配策略将数据尽量平均地分配到集群中的每个节点上,避免了一定程度的数据倾斜问题。
Kafka Connect是一种用于在Kafka和其他系统之间可扩展的、可靠的流式传输数据的工具。它使得能够快速定义将大量数据集合移入和移出Kafka的连接器变得简单。
分布式模式的Kafka Connect的Workers提供了可扩展性以及自动容错的功能,当Connector第一次提交到集群、新增Worker或者某个Worker出现异常退出时,会触发Task再平衡操作,避免将工作压力都集中在某个或某几个节点。而Flume的自动容错需要相当复杂的配置,而且仅仅是在一个节点上实现了线程级的工作压力分担。
在上述描述中,涉及的部分描述定义如下:
Connectors:定义了数据源和数据下沉的目标系统,Connector实例是一个需要负责在Kafka和其他系统之间复制数据的逻辑作业。
Tasks: 每个Connector会协调一系列的Task去执行任务,Connector可以把作业分成许多Task,在分布式模式下,然后再把Task分发到各个woker中执行,Task将状态信息保存在Kafka集群的指定Topic下,当Connector第一次提交到集群、新增Worker或者某个Worker出现异常退出时,会触发Task再平衡操作,避免将工作压力都集中在某个或某些节点。
Workers:Connectors和Tasks都是逻辑工作单位,必须在进程中执行,Worker就是进程。分布式模式下,Worker提供了可扩展性以及自动容错功能。
Converters:Converter会把bytes数据转换成KafkaConnect内部的格式(AVRO),也可以把内部存储格式的数据转变成bytes,converter对connector来说是解耦的。
以上所述仅为本发明的较佳实施例,本发明的专利保护范围包括但不限于上述具体实施方式,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的专利保护范围之内。
通过上面具体实施方式,所述技术领域的技术人员可容易的实现本发明。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

Claims (10)

1.一种数据快速采集系统,其特征在于,包括,
Kafka Connect组件,用于进行数据采集;
数据下沉组件,在分布式内存文件系统Alluxio中设计,用于连接上述Kafka Connect组件,并将Kafka Connect组件采集的数据存储到存储系统中;
存储系统,用于存储来自数据下沉组件的数据。
2.根据权利要求1所述的一种数据快速采集系统,其特征在于,所述数据下沉组件在分布式内存文件系统Alluxio启用分层存储后,提供分配、回收策略和预留空间的规则,其中,
分配规则采用轮询调度分配的方式,即分配数据块到有空间的最高存储层,存储目录通过轮询调度选出;
回收策略采用LRFU回收,即基于权重分配的最近最少使用和最不经常使用策略来移除数据块;
预留空间规则是指每层存储预留空间比例。
3.根据权利要求2所述的一种数据快速采集系统,其特征在于,所述存储系统采用分布式存储系统HDFS,并配置在MEM、SSD或HDD存储结构中,相对应的,数据下沉组件提供的预留空间规则为:MEM预留0.4,SSD预留0.2,HDD不启用预留。
4.根据权利要求1、2或3所述的一种数据快速采集系统,其特征在于,所述KafkaConnect组件中提供SourceConnector抽象类、SinkConnector抽象类、SinkTask抽象类,相对应的,数据下沉组件中提供继承自Kafka Connect组件中抽象类的下述结构:
AlluxioFileStreamSinkConnectork类,继承自抽象类SinkConnector,用于读取与Alluxio相关的配置参数,这里的配置参数包括Alluxio的URI地址、文件路径、文件类型、文件名称生成策略、以及文件滚动策略;
AlluxioFileStreamSinkTask类,继承自抽象类SinkTask,通过循环处理接收到的数据,将它们按照HDFS中对应的文件格式写入Alluxio分布式内存文件系统。
5.根据权利要求4所述的一种数据快速采集系统,其特征在于,所述AlluxioFileStreamSinkTask类还用于刷写数据到Alluxio文件系统以及提交已经当前消费的Topic各个分区的偏移量信息。
6.一种数据快速采集方法,其特征在于,基于权利要求1-5所述的数据快速采集系统,其实现过程为:
一、首先启动Alluxio集群,通过Alluxio分布式内存文件系统设计数据下沉组件;
二、将设计的数据下沉组件的Jar包分发到安装Kafka Connect组件的集群中每个节点机器的类加载路径;
三、通过Kafka Connect组件进行数据采集;
四、数据下沉组件将Kafka Connect组件采集的数据存储到分布式存储系统HDFS中。
7.根据权利要求6所述的一种数据快速采集方法,其特征在于,在步骤二中进行数据下沉组件的分发时,还需要配置数据采集的connector.class为AlluxioFileStreamSink,然后启动数据下沉组件进行数据采集。
8.根据权利要求6或7所述的一种数据快速采集方法,其特征在于,所述步骤四中通过数据下沉组件实现数据下沉包括:
AlluxioFileStreamSinkConnectork类通过以下命令:start(Map<String, String>config),读取有关Alluxio的相关配置参数,这里的配置参数包括Alluxio的URI地址、文件路径、文件类型、文件名称生成策略、以及文件滚动策略;
AlluxioFileStreamSinkTask类通过以下命令:put(Collection<SinkRecord>records),循环处理接收到的数据,将它们按照HDFS中对应的文件格式写入Alluxio分布式内存文件系统,然后再将处理后的数据存储到HDFS中。
9.根据权利要求8所述的一种数据快速采集方法,其特征在于,所述HDFS中对应的文件格式包括文本、顺序文件、行式存储文件、列式存储文件。
10.根据权利要求8所述的一种数据快速采集方法,其特征在于,所述AlluxioFileStreamSinkTask类还通过以下命令:flush(Map<TopicPartition,OffsetAndMetadata> offsets),刷写数据到Alluxio文件系统以及提交已经当前消费的Topic各个分区的偏移量信息。
CN201711419691.9A 2017-12-25 2017-12-25 一种数据快速采集系统及方法 Pending CN108038226A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711419691.9A CN108038226A (zh) 2017-12-25 2017-12-25 一种数据快速采集系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711419691.9A CN108038226A (zh) 2017-12-25 2017-12-25 一种数据快速采集系统及方法

Publications (1)

Publication Number Publication Date
CN108038226A true CN108038226A (zh) 2018-05-15

Family

ID=62101012

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711419691.9A Pending CN108038226A (zh) 2017-12-25 2017-12-25 一种数据快速采集系统及方法

Country Status (1)

Country Link
CN (1) CN108038226A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108665174A (zh) * 2018-05-16 2018-10-16 中国平安人寿保险股份有限公司 风险预警方法、装置、计算机设备以及存储介质
CN109325200A (zh) * 2018-07-25 2019-02-12 北京京东尚科信息技术有限公司 获取数据的方法、装置及计算机可读存储介质
CN111125207A (zh) * 2018-10-30 2020-05-08 亿度慧达教育科技(北京)有限公司 一种数据获取方法、装置、连接器及presto引擎
CN111818112A (zh) * 2019-04-11 2020-10-23 中国移动通信集团四川有限公司 一种基于Kafka系统的发送消息的方法和装置
CN112051968A (zh) * 2020-08-07 2020-12-08 东北大学 基于Kafka的分布式数据流分级缓存自动迁移算法
CN112100210A (zh) * 2020-09-17 2020-12-18 深圳市道通科技股份有限公司 数据处理方法和汽车大数据管理云平台
CN112765121A (zh) * 2021-01-08 2021-05-07 北京虹信万达科技有限公司 一种基于大数据服务的治理及应用系统
CN112799597A (zh) * 2021-02-08 2021-05-14 东北大学 面向流数据处理的分级存储容错方法
CN113806090A (zh) * 2021-09-17 2021-12-17 东云睿连(武汉)计算技术有限公司 一种基于Alluxio的大数据作业运行方法和系统
CN114461407A (zh) * 2022-04-13 2022-05-10 杭州涂鸦信息技术有限公司 数据处理方法、装置、分发服务器、系统及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140012867A1 (en) * 2010-08-27 2014-01-09 Pneuron Corp. Method And Process For Enabling Distributing Cache Data Sources For Query Processing And Distributed Disk Caching Of Large Data And Analysis Requests
CN107220348A (zh) * 2017-05-27 2017-09-29 郑州云海信息技术有限公司 一种基于Flume与Alluxio的数据收集方法
CN107329982A (zh) * 2017-06-01 2017-11-07 华南理工大学 一种基于分布式列式存储的大数据并行计算方法及系统
CN107451223A (zh) * 2017-07-17 2017-12-08 广州特道信息科技有限公司 一种高并发并行计算的大数据采集系统及方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140012867A1 (en) * 2010-08-27 2014-01-09 Pneuron Corp. Method And Process For Enabling Distributing Cache Data Sources For Query Processing And Distributed Disk Caching Of Large Data And Analysis Requests
CN107220348A (zh) * 2017-05-27 2017-09-29 郑州云海信息技术有限公司 一种基于Flume与Alluxio的数据收集方法
CN107329982A (zh) * 2017-06-01 2017-11-07 华南理工大学 一种基于分布式列式存储的大数据并行计算方法及系统
CN107451223A (zh) * 2017-07-17 2017-12-08 广州特道信息科技有限公司 一种高并发并行计算的大数据采集系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
袁宝超、刘道伟、刘丽平、王泽忠,: "基于 Spark 的大电网广域时空序列分析平台构建", 《电力建设》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108665174A (zh) * 2018-05-16 2018-10-16 中国平安人寿保险股份有限公司 风险预警方法、装置、计算机设备以及存储介质
CN109325200B (zh) * 2018-07-25 2021-05-25 北京京东尚科信息技术有限公司 获取数据的方法、装置及计算机可读存储介质
CN109325200A (zh) * 2018-07-25 2019-02-12 北京京东尚科信息技术有限公司 获取数据的方法、装置及计算机可读存储介质
CN111125207A (zh) * 2018-10-30 2020-05-08 亿度慧达教育科技(北京)有限公司 一种数据获取方法、装置、连接器及presto引擎
CN111818112A (zh) * 2019-04-11 2020-10-23 中国移动通信集团四川有限公司 一种基于Kafka系统的发送消息的方法和装置
CN112051968A (zh) * 2020-08-07 2020-12-08 东北大学 基于Kafka的分布式数据流分级缓存自动迁移算法
CN112100210A (zh) * 2020-09-17 2020-12-18 深圳市道通科技股份有限公司 数据处理方法和汽车大数据管理云平台
WO2022057640A1 (zh) * 2020-09-17 2022-03-24 深圳市道通科技股份有限公司 数据处理方法和汽车大数据管理云平台
CN112765121A (zh) * 2021-01-08 2021-05-07 北京虹信万达科技有限公司 一种基于大数据服务的治理及应用系统
CN112799597A (zh) * 2021-02-08 2021-05-14 东北大学 面向流数据处理的分级存储容错方法
CN113806090A (zh) * 2021-09-17 2021-12-17 东云睿连(武汉)计算技术有限公司 一种基于Alluxio的大数据作业运行方法和系统
CN114461407A (zh) * 2022-04-13 2022-05-10 杭州涂鸦信息技术有限公司 数据处理方法、装置、分发服务器、系统及存储介质
CN114461407B (zh) * 2022-04-13 2022-08-26 杭州涂鸦信息技术有限公司 数据处理方法、装置、分发服务器、系统及存储介质

Similar Documents

Publication Publication Date Title
CN108038226A (zh) 一种数据快速采集系统及方法
Wang et al. Optimizing load balancing and data-locality with data-aware scheduling
CN111061715B (zh) 基于Web和Kafka的分布式数据集成系统及方法
US9038079B2 (en) Reducing cross queue synchronization on systems with low memory latency across distributed processing nodes
CN104965850A (zh) 一种基于开源技术的数据库高可用实现方法
CN103095806B (zh) 一种面向大电网的实时数据库系统的负载均衡管理系统
CN110648178A (zh) 一种增加kafka消费能力的方法
EP2834749A1 (en) Consistent ring namespaces facilitating data storage and organization in network infrastructures
CN105868033A (zh) 基于Redis实现优先级消息队列的方法及系统
CN101778002B (zh) 一种大规模集群系统及其构建方法
WO2015090245A1 (zh) 文件传输方法、装置及分布式集群文件系统
CN102937964A (zh) 基于分布式系统的智能数据服务方法
CN103279386A (zh) 一种计算机作业调度系统高可用的方法
US11132221B2 (en) Method, apparatus, and computer-readable medium for dynamic binding of tasks in a data exchange
US20130152103A1 (en) Preparing parallel tasks to use a synchronization register
CN102521014A (zh) 虚拟机的部署方法及装置
CN105677251A (zh) 基于Redis集群的存储系统
CN104683408A (zh) OpenStack云计算管理平台建立虚拟机实例的方法和系统
Marcu et al. Kera: Scalable data ingestion for stream processing
CN103761146A (zh) 一种MapReduce动态设定slots数量的方法
Miao et al. Spotserve: Serving generative large language models on preemptible instances
CN106383896A (zh) 一种基于爬虫+RocketMQ的数据抓取分发方法
Gupta et al. HADOOP-An Open Source Framework for Big Data
CN101815089B (zh) Web高端磁盘阵列控制器命令执行方法及系统
CN104636327A (zh) 一种基于增量计算的分布式流式数据系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20200519

Address after: 250100 No. 1036 Tidal Road, Jinan High-tech Zone, Shandong Province, S01 Building, Tidal Science Park

Applicant after: Tidal Cloud Information Technology Co.,Ltd.

Address before: 450000 Henan province Zheng Dong New District of Zhengzhou City Xinyi Road No. 278 16 floor room 1601

Applicant before: ZHENGZHOU YUNHAI INFORMATION TECHNOLOGY Co.,Ltd.

TA01 Transfer of patent application right
RJ01 Rejection of invention patent application after publication

Application publication date: 20180515

RJ01 Rejection of invention patent application after publication