CN111625218A - 一种自定义库开发的大数据处理方法及系统 - Google Patents

一种自定义库开发的大数据处理方法及系统 Download PDF

Info

Publication number
CN111625218A
CN111625218A CN202010407340.1A CN202010407340A CN111625218A CN 111625218 A CN111625218 A CN 111625218A CN 202010407340 A CN202010407340 A CN 202010407340A CN 111625218 A CN111625218 A CN 111625218A
Authority
CN
China
Prior art keywords
data processing
data
custom
library
spark
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010407340.1A
Other languages
English (en)
Other versions
CN111625218B (zh
Inventor
胡鹏
傅苗
匡岳锋
贺群雄
曹林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Power Industry Internet Co ltd
Original Assignee
China Power Industry Internet Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Power Industry Internet Co ltd filed Critical China Power Industry Internet Co ltd
Priority to CN202010407340.1A priority Critical patent/CN111625218B/zh
Publication of CN111625218A publication Critical patent/CN111625218A/zh
Application granted granted Critical
Publication of CN111625218B publication Critical patent/CN111625218B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/20Software design
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/70Software maintenance or management
    • G06F8/71Version control; Configuration management
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Stored Programmes (AREA)

Abstract

本发明公开了一种自定义库开发的大数据处理方法及系统,该方法包括:搭建基于开源计算框架Spark兼容流计算和批处理的应用流程,定义自定义库开发的接口;进行自定义库开发,实现自定义库开发的接口协议,编写与数据处理应用中的数据处理业务逻辑相关的处理代码,输出Jar包;配置相应的自定义库信息,包括自定义库的顺序及每个自定义库的实现类的全类名;将配置的所有自定义库注册到数据处理应用中,并广播到各分布式计算节点;将数据处理应用打成Jar包并提交到Spark中分布式并行执行数据处理任务。支持根据不同业务逻辑开发相应的数据处理应用,数据处理应用之间可以相互组合,重复使用,从而实现对实时流式数据和离线批量数据一体化处理。

Description

一种自定义库开发的大数据处理方法及系统
技术领域
本发明涉及数据处理技术领域,具体是一种自定义库开发的大数据处理方法及系统。
背景技术
移动互联网、社交网络和电子商务极大的扩展了互联网应用的疆界和领域,随着互联网应用的高速发展以及业务持续增长和延伸,我们可收集获取的数据规模在不断增长,这些数据具有数据总量大,数据结构多样化,数据增长率高等特点,是典型的大数据。另一方面,用户在使用这些互联网应用时会持续不断地向服务器请求服务,过程中会产生一系列实时的流式数据。如何高效的处理历史存量大数据和实时增量流式数据,成为现阶段大数据处理领域新的研究方向。
现有技术在处理存量或增量数据时,采用并行云计算开发的ETL工具、基于MapReduce开发的流式数据处理框架、通过实现开源计算框架底层计算原理开发的大数据处理系统等,这些都会带来开发难度大,工作量大,技术门槛高等一系列问题。同时基于MapReduce技术框架开发的数据处理系统存在性能不高、处理效率低等问题。
而且,现有技术中对于大数据环境中两类数据:存量数据和增量数据是单独一套系统来处理,没有进行整合,导致相同数据处理业务逻辑需要针对两类数据场景需要进行重复开发;不支持动态配置数据处理逻辑,存在扩展难,复用率低等问题。
发明内容
针对上述现有技术中的一项或多项问题,本发明提供一种自定义库开发的大数据处理方法及系统,支持根据不同业务逻辑开发相应的数据处理应用,数据处理应用之间可以相互组合,重复使用,从而实现对实时流式数据和离线批量数据一体化处理。
为实现上述目的,本发明提供一种自定义库开发的大数据处理方法,包括如下步骤:
步骤1,搭建基于开源计算框架Spark兼容流计算和批处理的应用流程,以及定义自定义库开发的接口;
步骤2,进行自定义库开发,实现自定义库开发的接口协议,编写与数据处理应用中的数据处理业务逻辑相关的处理代码,输出Jar包;
步骤3,根据数据处理应用中的数据处理业务配置相应的自定义库信息,包括自定义库的顺序及每个自定义库的实现类的全类名;
步骤4,将配置的所有自定义库注册到数据处理应用中,并广播到各分布式计算节点;
步骤5,将数据处理应用打成Jar包并提交到Spark中分布式并行执行数据处理任务。
进一步优选的,步骤1中,所述搭建基于开源计算框架Spark兼容流计算和批处理的应用流程,具体为:
基于Spark平台编写流式计算和批处理计算的数据接入代码,包括:
初始化SparkConf,设置相关基础参数;
传入SparkConf,创建Spark应用程序的入口SparkContext;
对于流式计算,通过传入SparkContext和设置包括时间窗口长度在内的参数创建StreamingContext,然后基于StreamingContext可以创建与第三方系统之间的数据接入方式;
对于批处理计算,通过SparkContext对接本机文件系统或分布式文件系统HDFS。
进一步优选的,步骤2具体包括:
根据自定义库开发模板新建一个工程,编写类实现步骤1中定义的自定义库开发的接口,在实现的方法体里面编写与数据处理应用中的数据处理业务逻辑相关的处理代码;
利用Maven工具将工程打成Jar包。
进一步优选的,步骤4具体包括:
步骤4.1,根据步骤3中配置的所有自定义库的信息,遵循配置信息中的序号依次将自定义库注册到数据处理应用中,其中,注册方法采用的是Java反射机制,通过ClassForName方法将配置信息中的全类名反射出一个类并存储在Array数组中保证其顺序;
步骤4.2,通过Spark中的广播器将步骤4.1中构建的Array数组广播到Spark集群中执行作业的各节点,保证作业在Spark集群中能成功进行分布式并行计算。
进一步优选的,步骤5中,所述将数据处理应用打成Jar包并提交到Spark中分布式并行执行数据处理任务,具体为:
通过打包工具将数据处理应用打成Jar包形式,将Jar包上传到Spark集群中的节点上,然后使用spark-submit命令提交应用到Spark集群中执行数据处理任务。
为实现上述目的,本发明还提供一种自定义库开发的大数据处理系统,包括:
数据接入模块,用于从第三方系统或分布式文件系统中获取实时增量流数据、离线存量数据,并配置相关控制参数;
数据预处理模块,与数据接入模块通信相连,,用于将数据接入模块中接入的数据按照配置的数据源格式信息处理成开源计算框架Spark适用的DataFrame数据格式;
自定义库管理模块,与数据预处理模块通信相连,用于根据数据处理业务配置相应的自定义库,如果没有则根据提供的开发方法实现处理逻辑完成自定义库开发,并存储和集中管理;
数据处理模块,与自定义库管理模块通信相连,用于管理各自定义库处理后的数据,将配置的所有自定义库按照顺序形成一条作业线,从而像流水线一样完成对数据预处理模块输出数据的处理;
数据输出模块,与数据处理模块通信相连,用于将数据处理模块处理完的数据输出到其他系统。
本发明提供的一种自定义库开发的大数据处理方法及系统具有如下有益效果:
1.处理效率高:本发明中的自定义库开发的大数据处理方法及系统基于开源计算框架Spark搭建,处理效率和性能方面更优;
2.兼容性高:本发明中的自定义库开发的大数据处理方法及系统能兼容大数据环境中的两类数据即存量数据和增量数据,做到统一处理;
3.拓展性强:本发明中的自定义库开发的大数据处理方法及系统支持动态配置和开发自定义库,实现对相同数据处理业务逻辑的自定义库的复用,以及通过多个自定义库的组合形成数据处理作业线,减少了开发人员工作量,增强了系统的扩展性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1为本发明实施例中自定义库开发的大数据处理系统的结构示意图;
图2为本发明实施例中自定义库开发的大数据处理方法的流程示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明,本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
另外,在本发明中如涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“连接”、“固定”等应做广义理解,例如,“固定”可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接,还可以是物理连接或无线通信连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
另外,本发明各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
如图1所示为本实施例公开的一种自定义库开发的大数据处理系统,其包括数据接入模块、数据预处理模块、自定义库管理模块、数据处理模块与数据输出模块,具体的:
数据接入模块用于从第三方系统或分布式文件系统中获取实时增量流数据、离线存量数据,并配置相关控制参数;
数据预处理模块与数据接入模块通信相连,用于将数据接入模块中接入的数据按照配置的数据源格式信息处理成开源计算框架Spark适用的DataFrame数据格式;
自定义库管理模块与数据预处理模块通信相连,用于根据数据处理业务配置相应的自定义库,如果没有则根据提供的开发方法实现处理逻辑完成自定义库开发,并存储和集中管理;
数据处理模块与自定义库管理模块通信相连,用于管理各自定义库处理后的数据,将配置的所有自定义库按照顺序形成一条作业线,从而像流水线一样完成对数据预处理模块输出数据的处理;
数据输出模块与数据处理模块通信相连,用于将数据处理模块处理完的数据输出到其他系统,如消息中间件(Kafka)、关系型数据库(MySQL、Oracle)、非关系型数据库(HBase、Redis)、分布式文件系统(HDFS)等。
基于图1所示的自定义库开发的大数据处理系统,本实施例还公开了一种自定义库开发的大数据处理方法,参考图2,其具体包括如下步骤:
步骤1,搭建基于开源计算框架Spark兼容流计算和批处理的应用流程,以及定义自定义库开发的接口,其具体实现过程如下:
步骤1.1,搭建基于开源计算框架Spark兼容流计算和批处理的应用流程,具体为:
基于Spark平台编写流式计算和批处理计算的数据接入代码,包括:
步骤1.1.1,初始化SparkConf,设置相关基础参数;
步骤1.1.2,传入SparkConf,创建Spark应用程序的入口SparkContext;
步骤1.1.3,对于流式计算,通过传入SparkContext和设置包括时间窗口长度在内的参数创建StreamingContext,然后基于StreamingContext可以创建与Kafka、Flume等第三方系统之间的数据接入方式,接入的数据结构为Discretized Streams(DStreams),它表示连续的数据流,可以是从源接收到的输入数据流,也可以是通过转换输入流生成的经过处理的数据流。在内部,DStream由一系列连续的RDDs表示,RDD是Spark对不可变的分布式数据集的抽象;
步骤1.1.4,对于批处理计算,通过SparkContext对接本机文件系统或分布式文件系统HDFS等,接入的数据结构同样为RDD。
步骤1.2,定义自定义开发库接口,实现开发出的自定义库能兼容流式计算和批处理计算两种计算类型。由于流式计算和批处理计算接入的数据结构都是RDD,因此,定义自定义开发库接口的传入参数为RDD,返回参数类型也为RDD。
步骤2,进行自定义库开发,实现自定义库开发的接口协议,编写与数据处理应用中的数据处理业务逻辑相关的处理代码,输出Jar包,其具体实现过程如下:
根据自定义库开发模板新建一个工程,编写类实现步骤1中定义的自定义库开发的接口,在实现的方法体里面编写与数据处理应用中的数据处理业务逻辑相关的处理代码;
利用Maven工具将工程打成Jar包。
步骤3,根据数据处理应用中的数据处理业务配置相应的自定义库信息,包括自定义库的顺序及每个自定义库的实现类的全类名,具体的:
先分析此数据处理应用中的数据处理业务逻辑,根据现有开发的自定义库分解成一个个细粒度的处理任务,如果之前没有开发的,回到步骤2,待开发完再回到步骤3。每个细粒度的处理任务其实就对应于每个开发的自定义库,也就是步骤2中输出的Jar包,在配置自定义库信息时,需要配置两个信息,一是该库在这个应用场景的数据处理中的先后顺序,如果是第一个进行处理则配置序号1,以此类推;二是该库在步骤2中实现接口协议的类的全类名即包名+类名。这些配置信息可以存储在关系型数据库中,也可以以文件方式存储在服务器中等。
步骤4,将配置的所有自定义库注册到数据处理应用中,并广播到各分布式计算节点,其具体实现过程如下:
步骤4.1,根据步骤3中配置的所有自定义库的信息,遵循配置信息中的序号依次将自定义库注册到数据处理应用中,其中,注册方法采用的是Java反射机制,通过ClassForName方法将配置信息中的全类名反射出一个类并存储在Array数组中保证其顺序;
步骤4.2,通过Spark中的广播器将步骤4.1中构建的Array数组广播到Spark集群中执行作业的各节点,保证作业在Spark集群中能成功进行分布式并行计算。
步骤5,将数据处理应用打成Jar包并提交到Spark中分布式并行执行数据处理任务,具体为:
通过打包工具将数据处理应用打成Jar包形式,将Jar包上传到Spark集群中的节点上,然后使用spark-submit命令提交应用到Spark集群中执行数据处理任务。例如,该工程打成Jar包的文件名为data_process.jar,并且应用的入口即全类名为com.data.process.MainSpark,此应用在步骤4中配置了多个自定义库,库文件名为a_def.jar、b_def.jar等,spark-submit提交命令为:
spark-submit--deploy-mode yarn-cluster--jars a_def.jar,b_def.jar--class com.data.process.MainSparkdata_process.jar
上述spark-submit提交命令的几个参数是必须的,其他性能参数可根据需要添加但不是必须的。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是在本发明的发明构思下,利用本发明说明书及附图内容所作的等效结构变换,或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。

Claims (6)

1.一种自定义库开发的大数据处理方法,其特征在于,包括如下步骤:
步骤1,搭建基于开源计算框架Spark兼容流计算和批处理的应用流程,以及定义自定义库开发的接口;
步骤2,进行自定义库开发,实现自定义库开发的接口协议,编写与数据处理应用中的数据处理业务逻辑相关的处理代码,输出Jar包;
步骤3,根据数据处理应用中的数据处理业务配置相应的自定义库信息,包括自定义库的顺序及每个自定义库的实现类的全类名;
步骤4,将配置的所有自定义库注册到数据处理应用中,并广播到各分布式计算节点;
步骤5,将数据处理应用打成Jar包并提交到Spark中分布式并行执行数据处理任务。
2.根据权利要求1所述自定义库开发的大数据处理方法,其特征在于,步骤1中,所述搭建基于开源计算框架Spark兼容流计算和批处理的应用流程,具体为:
基于Spark平台编写流式计算和批处理计算的数据接入代码,包括:
初始化SparkConf,设置相关基础参数;
传入SparkConf,创建Spark应用程序的入口SparkContext;
对于流式计算,通过传入SparkContext和设置包括时间窗口长度在内的参数创建StreamingContext,然后基于StreamingContext可以创建与第三方系统之间的数据接入方式;
对于批处理计算,通过SparkContext对接本机文件系统或分布式文件系统HDFS。
3.根据权利要求1所述自定义库开发的大数据处理方法,其特征在于,步骤2具体包括:
根据自定义库开发模板新建一个工程,编写类实现步骤1中定义的自定义库开发的接口,在实现的方法体里面编写与数据处理应用中的数据处理业务逻辑相关的处理代码;
利用Maven工具将工程打成Jar包。
4.根据权利要求1所述自定义库开发的大数据处理方法,其特征在于,步骤4具体包括:
步骤4.1,根据步骤3中配置的所有自定义库的信息,遵循配置信息中的序号依次将自定义库注册到数据处理应用中,其中,注册方法采用的是Java反射机制,通过ClassForName方法将配置信息中的全类名反射出一个类并存储在Array数组中保证其顺序;
步骤4.2,通过Spark中的广播器将步骤4.1中构建的Array数组广播到Spark集群中执行作业的各节点,保证作业在Spark集群中能成功进行分布式并行计算。
5.根据权利要求1所述自定义库开发的大数据处理方法,其特征在于,步骤5中,所述将数据处理应用打成Jar包并提交到Spark中分布式并行执行数据处理任务,具体为:
通过打包工具将数据处理应用打成Jar包形式,将Jar包上传到Spark集群中的节点上,然后使用spark-submit命令提交应用到Spark集群中执行数据处理任务。
6.一种自定义库开发的大数据处理系统,其特征在于,包括:
数据接入模块,用于从第三方系统或分布式文件系统中获取实时增量流数据、离线存量数据,并配置相关控制参数;
数据预处理模块,与数据接入模块通信相连,,用于将数据接入模块中接入的数据按照配置的数据源格式信息处理成开源计算框架Spark适用的DataFrame数据格式;
自定义库管理模块,与数据预处理模块通信相连,用于根据数据处理业务配置相应的自定义库,如果没有则根据提供的开发方法实现处理逻辑完成自定义库开发,并存储和集中管理;
数据处理模块,与自定义库管理模块通信相连,用于管理各自定义库处理后的数据,将配置的所有自定义库按照顺序形成一条作业线,从而像流水线一样完成对数据预处理模块输出数据的处理;
数据输出模块,与数据处理模块通信相连,用于将数据处理模块处理完的数据输出到其他系统。
CN202010407340.1A 2020-05-14 2020-05-14 一种自定义库开发的大数据处理方法及系统 Active CN111625218B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010407340.1A CN111625218B (zh) 2020-05-14 2020-05-14 一种自定义库开发的大数据处理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010407340.1A CN111625218B (zh) 2020-05-14 2020-05-14 一种自定义库开发的大数据处理方法及系统

Publications (2)

Publication Number Publication Date
CN111625218A true CN111625218A (zh) 2020-09-04
CN111625218B CN111625218B (zh) 2024-01-09

Family

ID=72271923

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010407340.1A Active CN111625218B (zh) 2020-05-14 2020-05-14 一种自定义库开发的大数据处理方法及系统

Country Status (1)

Country Link
CN (1) CN111625218B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112527885A (zh) * 2020-12-23 2021-03-19 民生科技有限责任公司 一种etl中基于规则配置的数据处理的系统和方法
CN116578281A (zh) * 2023-07-13 2023-08-11 江西汉辰信息技术股份有限公司 基于代码包的网页开发方法、系统、电子设备及存储介质
EP4283953A4 (en) * 2021-01-22 2024-01-24 Guangdong Oppo Mobile Telecommunications Corp Ltd INFORMATION TRANSMISSION METHOD AND DEVICE AS WELL AS DEVICE AND STORAGE MEDIUM

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130332899A1 (en) * 2012-06-07 2013-12-12 Dell Products, Lp System for Developing Custom Data Transformations for System Integration Application Programs
CN106777142A (zh) * 2016-12-19 2017-05-31 武汉虹旭信息技术有限责任公司 基于移动互联网海量数据的服务层系统及其方法
WO2017096940A1 (zh) * 2015-12-10 2017-06-15 深圳市华讯方舟软件技术有限公司 一种基于spark-SQL大数据处理平台的数据导入方法
CN106874016A (zh) * 2017-03-07 2017-06-20 长江大学 一种新型可定制的大数据平台架构方法
US20170177309A1 (en) * 2015-12-22 2017-06-22 Opera Solutions U.S.A., Llc System and Method for Rapid Development and Deployment of Reusable Analytic Code for Use in Computerized Data Modeling and Analysis
US20180275975A1 (en) * 2017-03-22 2018-09-27 Sap Se Redistribution Of Data Processing Tasks
CN108874982A (zh) * 2018-06-11 2018-11-23 华南理工大学 一种基于Spark大数据框架离线实时处理数据的方法
CN109684377A (zh) * 2018-12-13 2019-04-26 深圳市思迪信息技术股份有限公司 通用大数据实时处理开发平台及其数据处理方法
CN109829009A (zh) * 2018-12-28 2019-05-31 北京邮电大学 可配置的异构数据实时同步并可视化的系统及方法
CN109933306A (zh) * 2019-02-11 2019-06-25 山东大学 混合计算框架生成、数据处理方法、装置及混合计算框架
CN110245175A (zh) * 2019-06-19 2019-09-17 山东浪潮商用系统有限公司 一种基于大数据的可视化加工处理系统及方法
US20190317949A1 (en) * 2015-04-06 2019-10-17 EMC IP Holding Company LLC Analytics platform for scalable distributed computations
CN110675254A (zh) * 2019-08-21 2020-01-10 武汉华夏航程信息技术有限公司 一种基于大数据的智慧金融交易系统
CN110705891A (zh) * 2019-10-11 2020-01-17 集奥聚合(北京)人工智能科技有限公司 一种基于高可配可变更的数据处理方法
CN110989983A (zh) * 2019-11-28 2020-04-10 深圳航天智慧城市系统技术研究院有限公司 一种零编码的应用软件快速构建系统

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130332899A1 (en) * 2012-06-07 2013-12-12 Dell Products, Lp System for Developing Custom Data Transformations for System Integration Application Programs
US20190317949A1 (en) * 2015-04-06 2019-10-17 EMC IP Holding Company LLC Analytics platform for scalable distributed computations
WO2017096940A1 (zh) * 2015-12-10 2017-06-15 深圳市华讯方舟软件技术有限公司 一种基于spark-SQL大数据处理平台的数据导入方法
US20170177309A1 (en) * 2015-12-22 2017-06-22 Opera Solutions U.S.A., Llc System and Method for Rapid Development and Deployment of Reusable Analytic Code for Use in Computerized Data Modeling and Analysis
CN106777142A (zh) * 2016-12-19 2017-05-31 武汉虹旭信息技术有限责任公司 基于移动互联网海量数据的服务层系统及其方法
CN106874016A (zh) * 2017-03-07 2017-06-20 长江大学 一种新型可定制的大数据平台架构方法
US20180275975A1 (en) * 2017-03-22 2018-09-27 Sap Se Redistribution Of Data Processing Tasks
CN108874982A (zh) * 2018-06-11 2018-11-23 华南理工大学 一种基于Spark大数据框架离线实时处理数据的方法
CN109684377A (zh) * 2018-12-13 2019-04-26 深圳市思迪信息技术股份有限公司 通用大数据实时处理开发平台及其数据处理方法
CN109829009A (zh) * 2018-12-28 2019-05-31 北京邮电大学 可配置的异构数据实时同步并可视化的系统及方法
CN109933306A (zh) * 2019-02-11 2019-06-25 山东大学 混合计算框架生成、数据处理方法、装置及混合计算框架
CN110245175A (zh) * 2019-06-19 2019-09-17 山东浪潮商用系统有限公司 一种基于大数据的可视化加工处理系统及方法
CN110675254A (zh) * 2019-08-21 2020-01-10 武汉华夏航程信息技术有限公司 一种基于大数据的智慧金融交易系统
CN110705891A (zh) * 2019-10-11 2020-01-17 集奥聚合(北京)人工智能科技有限公司 一种基于高可配可变更的数据处理方法
CN110989983A (zh) * 2019-11-28 2020-04-10 深圳航天智慧城市系统技术研究院有限公司 一种零编码的应用软件快速构建系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
小布大佬: "大数据-SparkStreaming", pages 1 - 12 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112527885A (zh) * 2020-12-23 2021-03-19 民生科技有限责任公司 一种etl中基于规则配置的数据处理的系统和方法
EP4283953A4 (en) * 2021-01-22 2024-01-24 Guangdong Oppo Mobile Telecommunications Corp Ltd INFORMATION TRANSMISSION METHOD AND DEVICE AS WELL AS DEVICE AND STORAGE MEDIUM
CN116578281A (zh) * 2023-07-13 2023-08-11 江西汉辰信息技术股份有限公司 基于代码包的网页开发方法、系统、电子设备及存储介质
CN116578281B (zh) * 2023-07-13 2023-11-24 江西金发金融信息服务有限公司 基于代码包的网页开发方法、系统、电子设备及存储介质

Also Published As

Publication number Publication date
CN111625218B (zh) 2024-01-09

Similar Documents

Publication Publication Date Title
US10447772B2 (en) Managed function execution for processing data streams in real time
US11836533B2 (en) Automated reconfiguration of real time data stream processing
CN111625218A (zh) 一种自定义库开发的大数据处理方法及系统
US9450895B2 (en) Context-aware dynamic policy selection for messaging behavior
US9602380B2 (en) Context-aware dynamic policy selection for load balancing behavior
CN103336813B (zh) 一种基于中间件架构的物联网数据集成管理方案
Buddhika et al. Neptune: Real time stream processing for internet of things and sensing environments
CN104618433A (zh) 一种基于eca规则的服务组合方法
US11210277B2 (en) Distributing and processing streams over one or more networks for on-the-fly schema evolution
US20200118330A1 (en) Dynamic frontend-driven generation of an hlod tree
CN110764752A (zh) 基于微服务架构实现Restful服务图形化服务编排的系统及其方法
CN112052011A (zh) 小程序的合包方法、装置、电子设备及介质
CN116414559A (zh) 算力统一标识建模、分配的方法、存储介质及电子设备
CN106161520A (zh) 大数据应用平台及基于其的交互方法
CN116700933B (zh) 一种面向异构算力联邦的多集群作业调度系统和方法
CN109829094A (zh) 分布式爬虫系统
US20230124100A1 (en) Low-Latency Data Management And Query Processing Cross-Optimizations
CN115729924A (zh) 一种基于插件化异构数据源的数仓海量数据的传输方法
CN112307270B (zh) 一种图数据库中图计算方法及装置
CN114610765A (zh) 流计算方法、装置、设备及存储介质
CN113965608A (zh) 一种数控设备数据收集及指令下发系统
CN113312075A (zh) 配置信息下发方法、装置、存储介质及处理器
CN113542390A (zh) 一种采用内存数据模型的物联网设备管理方法及系统
CN104572859A (zh) 一种分布式复杂事件处理系统
US20230195510A1 (en) Parallel execution of stateful black box operators

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant