CN111813843A - 一种数据处理方法、装置及平台 - Google Patents

一种数据处理方法、装置及平台 Download PDF

Info

Publication number
CN111813843A
CN111813843A CN201910297038.2A CN201910297038A CN111813843A CN 111813843 A CN111813843 A CN 111813843A CN 201910297038 A CN201910297038 A CN 201910297038A CN 111813843 A CN111813843 A CN 111813843A
Authority
CN
China
Prior art keywords
data
information
plug
standard interface
interface function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910297038.2A
Other languages
English (en)
Inventor
王明亚
范鑫
刘星
肖胜鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201910297038.2A priority Critical patent/CN111813843A/zh
Publication of CN111813843A publication Critical patent/CN111813843A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Stored Programmes (AREA)

Abstract

本申请公开了一种数据处理方法及装置。其中所述数据处理方法,包括:获得数据引擎信息;获得与所述数据引擎信息适配的标准接口函数的信息;根据所述与所述数据引擎信息适配的标准接口函数的信息,查找利用与所述数据引擎信息适配的标准接口函数生成的插件;利用所述查找到的插件进行数据处理。采用本申请提供的方法,解决了现有技术中,由于插件的实现和数据引擎具有强耦合关系,在数据处理的过程中针对新增的数据引擎,需要开发对应该新增的数据引擎的新插件,从而导致开发资源浪费的问题。

Description

一种数据处理方法、装置及平台
技术领域
本申请涉及大数据领域,具体涉及一种数据处理方法、装置及平台。
背景技术
传统的数据处理方法,插件的开发依赖于具体的数据引擎。插件是一种遵循一定规范的应用程序接口编写的程序,可以增加或者增强软件功能。这里,数据引擎可以采用现有技术中常用的Blink引擎、Hadoop引擎等数据引擎。
现有技术提供的这种数据处理方法,插件和数据引擎是强耦合在一起的。一旦需要向数据处理的平台中新增数据引擎,就必须开发对应该新增数据引擎的新插件,从而导致了开发资源的浪费。
发明内容
本申请提供一种数据处理方法,以解决现有技术中,由于插件的实现和数据引擎具有强耦合关系,在数据处理的过程中针对新增的数据引擎,需要开发对应该新增的数据引擎的新插件,从而导致开发资源浪费的问题。
本申请提供的一种数据处理方法,包括:
获得数据引擎信息;
获得与所述数据引擎信息适配的标准接口函数的信息;
根据所述与所述数据引擎信息适配的标准接口函数的信息,查找利用与所述数据引擎信息适配的标准接口函数生成的插件;
利用所述查找到的插件进行数据处理。
可选的,所述获得与所述数据引擎信息适配的标准接口函数的信息,包括如下步骤中的至少一种:
获得与所述数据引擎信息适配的初始化阶段的标准接口函数的信息;
获得与所述数据引擎信息适配的准备阶段的标准接口函数的信息;
获得与所述数据引擎信息适配的执行阶段的标准接口函数的信息;
获得与所述数据引擎信息适配的完成阶段的标准接口函数的信息;
获得与所述数据引擎信息适配的清理阶段的标准接口函数的信息。
可选的,所述根据所述与所述数据引擎信息适配的标准接口函数的信息,查找利用与所述数据引擎信息适配的标准接口函数生成的插件,包括:
获取数据同步的请求;
根据所述数据同步的请求以及所述与所述数据引擎信息适配的标准接口函数的信息,查找利用与所述数据引擎信息适配的标准接口函数生成的插件。
可选的,所述数据引擎信息适配的标准接口函数生成的插件,包括如下插件中的至少一种:
用于数据抽取的读插件;
用于数据写入的写插件;
用于数据转换的转换插件。
可选的,所述转换插件采用如下步骤实现数据转换:
获取指定的数据过滤规则;
根据所述指定的数据过滤规则,针对所述转换插件提供的数据进行过滤;
获得数据过滤后的目标数据。
可选的,所述转换插件采用如下步骤实现数据转换:
获取指定的数据转换规则;
根据所述指定的数据转换规则,针对所述转换插件提供的数据进行转换;
获得数据转换后的目标数据。
可选的,所述利用所述查找到的插件进行数据处理,包括:
利用所述查找到的插件,从源端抽取原始数据;
将所述原始数据写入所述数据引擎信息对应的数据引擎中。
可选的,所述利用所述查找到的插件进行数据处理,包括:
从所述数据引擎信息对应的数据引擎中获取目标数据;
利用所述查找到的插件,将所述目标数据提供给目标计算设备。
可选的,所述数据引擎信息为以下至少一种数据引擎信息:
Blink数据引擎信息;
Hadoop数据引擎信息;
DataX数据引擎信息。
可选的,所述数据处理方法,还包括:
获取用户的配置文件;
根据所述用户的配置文件,获得所述数据引擎信息对应的数据引擎需要执行的流程信息。
可选的,所述根据所述用户的配置文件,获得所述数据引擎信息对应的数据引擎需要执行的流程信息,包括:
根据用户的有向无环图文件,获得所述数据引擎信息对应的数据引擎需要执行的流程信息;
或者,根据用户的JSON文件,获得所述数据引擎信息对应的数据引擎需要执行的流程信息。
可选的,所述数据过滤规则包括基于Apriori机器学习的关联规则。
可选的,所述针对所述转换插件提供的数据进行过滤,包括:
将所述转换插件提供的数据与所述数据过滤规则进行匹配;
如果所述转换插件提供的数据与所述数据过滤规则相匹配,则对所述转换插件提供的数据进行脱敏。
本申请提供一种数据处理装置,包括:
引擎信息获得单元,用于获得数据引擎信息;
函数信息获得单元,用于获得与所述数据引擎信息适配的标准接口函数的信息;
插件查找单元,用于根据所述与所述数据引擎信息适配的标准接口函数的信息,查找利用与所述数据引擎信息适配的标准接口函数生成的插件;
数据处理单元,用于利用所述查找到的插件进行数据处理。
可选的,所述引擎信息获得单元,具体用于如下步骤中的至少一种:
获得与所述数据引擎信息适配的初始化阶段的标准接口函数的信息;
获得与所述数据引擎信息适配的准备阶段的标准接口函数的信息;
获得与所述数据引擎信息适配的执行阶段的标准接口函数的信息;
获得与所述数据引擎信息适配的完成阶段的标准接口函数的信息;
获得与所述数据引擎信息适配的清理阶段的标准接口函数的信息。
可选的,所述插件查找单元,具体用于:
获取数据同步的请求;
根据所述数据同步的请求以及所述与所述数据引擎信息适配的标准接口函数的信息,查找利用与所述数据引擎信息适配的标准接口函数生成的插件。
可选的,所述数据引擎信息适配的标准接口函数生成的插件,包括如下插件中的至少一种:
用于数据抽取的读插件;
用于数据写入的写插件;
用于数据转换的转换插件。
可选的,所述转换插件,具体用于:
获取指定的数据过滤规则;
根据所述指定的数据过滤规则,针对所述转换插件提供的数据进行过滤;
获得数据过滤后的目标数据。
可选的,所述转换插件,具体用于:
获取指定的数据转换规则;
根据所述指定的数据转换规则,针对所述转换插件提供的数据进行转换;
获得数据转换后的目标数据。
可选的,所述数据处理单元,具体用于:
利用所述查找到的插件,从源端抽取原始数据;
将所述原始数据写入所述数据引擎信息对应的数据引擎中。
可选的,所述数据处理单元,还用于:
从所述数据引擎信息对应的数据引擎中获取目标数据;
利用所述查找到的插件,将所述目标数据提供给目标计算设备。
可选的,所述数据引擎信息为以下至少一种数据引擎信息:
Blink数据引擎信息;
Hadoop数据引擎信息;
DataX数据引擎信息。
可选的,所述数据处理装置,还包括流程转换单元,所述流程转换单元用于:
获取用户的配置文件;
根据所述用户的配置文件,获得所述数据引擎信息对应的数据引擎需要执行的流程信息。
可选的,所述流程转换单元,具体用于:
根据用户的有向无环图文件,获得所述数据引擎信息对应的数据引擎需要执行的流程信息;
或者,根据用户的JSON文件,获得所述数据引擎信息对应的数据引擎需要执行的流程信息。
可选的,所述数据过滤规则包括基于Apriori机器学习的关联规则。
可选的,所述转换插件,还用于:
将所述转换插件提供的数据与所述数据过滤规则进行匹配;
如果所述转换插件提供的数据与所述数据过滤规则相匹配,则对所述转换插件提供的数据进行脱敏。
本申请提供一种电子设备,所述电子设备包括:
处理器;
存储器,用于存储程序,所述程序在被所述处理器读取执行时,执行如下操作:
获得数据引擎信息;
获得与所述数据引擎信息适配的标准接口函数的信息;
根据所述与所述数据引擎信息适配的标准接口函数的信息,查找利用与所述数据引擎信息适配的标准接口函数生成的插件;
利用所述查找到的插件进行数据处理。
本申请提供一种计算机可读取存储介质,其上存储有计算机程序,该程序被处理器执行时,实现以下步骤:
获得数据引擎信息;
获得与所述数据引擎信息适配的标准接口函数的信息;
根据所述与所述数据引擎信息适配的标准接口函数的信息,查找利用与所述数据引擎信息适配的标准接口函数生成的插件;
利用所述查找到的插件进行数据处理。
采用本申请提供的数据处理方法,获得数据引擎信息;获得与所述数据引擎信息适配的标准接口函数的信息;根据所述与所述数据引擎信息适配的标准接口函数的信息,查找利用与所述数据引擎信息适配的标准接口函数生成的插件;利用所述查找到的插件进行数据处理;将插件的实现与具体的数据引擎进行了完全解耦,解决了现有技术中,由于插件的实现和数据引擎具有强耦合关系,在数据同步的过程中针对新增的数据引擎,需要开发对应该新增的数据引擎的新插件,从而导致开发资源浪费的问题。
附图说明
图1是本申请第一实施例提供的一种数据处理方法的流程图;
图2是本申请第一实施例涉及的数据处理的应用场景的实施例示意图;
图3A是本申请第一实施例涉及的采用Blink引擎的数据处理的应用场景的实施例示意图;
图3B是本申请第一实施例涉及的采用Hadoop引擎的数据处理的应用场景的实施例示意图;
图3C是本申请第一实施例涉及的采用DataX引擎的数据处理的应用场景的实施例示意图;
图4是本申请第二实施例提供的数据处理装置的示意图;
图5是本申请第五实施例提供的数据处理平台的示意图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
本申请第一实施例提供一种方法。请参看图1,该图为本申请第一实施例的流程图。以下结合图1对本申请第一实施例提供一种处理方法进行详细说明。所述方法包括如下步骤:
步骤S101:获得数据引擎信息。
本步骤用于获得数据引擎信息。
为了使本领域的技术人员更好的理解本申请方案,下面基于本申请提供的一种数据处理方法,对其实施例的具体应用场景进行详细描述。如图2所示,其为本申请提供的一种数据处理的应用场景的实施例示意图。
本申请中,所述数据处理可以包括数据同步。
在具体实施过程中,本申请实施所述数据处理方法,在图2中,可以将数据同步的过程进行抽象,划分为四个软件层来完成。下面针对抽象出的软件层进行详细说明。
第一层即插件层,插件层提供读插件、写插件、转换插件等。其中,读插件主要用于从源端进行数据抽取;写插件主要用于向目的端数据源进行写入;转换插件主要用于数据转换。
第二层即插件中心接口层,该层定义了一个ETL(Extract-Transform-Load,数据抽取、转换、装载)处理过程完整的生命周期接口规范,包括流处理及批处理,插件只需要实现插件中心层定义的接口规范即可,并不依赖于具体的数据引擎。这里,流处理即流式处理,流式处理假设数据的潜在价值是数据的新鲜度,因此流失处理应尽可能快地处理数据并得到结果;批处理,即批量处理,可以处理有限的数据集,对实时性的要求较低。
第三层即引擎适配层,该层针对不同的数据引擎进行适配,并将用户的配置转换成具体引擎可执行的流程,针对不同的引擎调用插件中心接口层定义的接口,完成在数据引擎上的ETL过程。
第四层即引擎执行层即真正的执行引擎,比如Blink、Hadoop、Spark等都属于引擎执行层,而引擎适配层是针对不同的引擎执行层做了一层针对性封装,实现了插件中心层和引擎执行层的解耦。比如针对Blink执行引擎,引擎适配层会继承Blink的RichParallelSourceFunction类,实现一个Source适配器类SourceFunctionAdaptor,SourceFunctionAdaptor会重写run(SourceFunction.SourceContext<T>ctx)方法,该方法会真正调用具体读插件的startRead()方法,得到一条抽取的数据Record,Blink的SourceContext会收集Record,流转给下一个节点处理,从而实现在Blink引擎上调用读插件的能力。数据转换插件以及写插件与上述读插件的实现类似,这里就不再赘述了。
现有技术中,传统的数据同步工具,本质上只有两层:插件层和引擎执行层。插件层中的插件和引擎执行层中的数据引擎是强耦合在一起。强耦合意味着插件和引擎绑定,因此,基于一种数据引擎开发的插件是不能够运行在另外一种数据引擎上的,这样就浪费了大量的开发资源。请参考图3,其为现有技术中的数据处理方法的示意图,图3A采用Blink引擎,图3B采用Hadoop引擎,图3C采用DataX引擎。
而本申请提供的数据处理方法,在原有模式上继续抽象出两层:插件中心层、引擎适配层。通过插件中心层和引擎适配层,实现了将插件和数据引擎进行完全解耦,插件开发者只需要根据插件中心层定义的接口规范实现相应的接口,插件就天然具备了运行在多数据引擎上的能力。
所述数据引擎信息为以下至少一种数据引擎信息:
Blink数据引擎信息;
Hadoop数据引擎信息;
DataX数据引擎信息。
步骤S102:获得与所述数据引擎信息适配的标准接口函数的信息。
本步骤用于获得与所述数据引擎信息适配的标准接口函数的信息。
所述获得与所述数据引擎信息适配的标准接口函数的信息,包括如下步骤中的至少一种:
获得与所述数据引擎信息适配的初始化阶段的标准接口函数的信息;
获得与所述数据引擎信息适配的准备阶段的标准接口函数的信息;
获得与所述数据引擎信息适配的执行阶段的标准接口函数的信息;
获得与所述数据引擎信息适配的完成阶段的标准接口函数的信息;
获得与所述数据引擎信息适配的清理阶段的标准接口函数的信息。
这里,初始化阶段、准备阶段、执行阶段、完成阶段以及清理阶段是针对该标准接口函数的生命周期进行划分的。
例如,针对数据读取(Extract/Reader)的数据同步操作,其生命周期标准接口函数定义如下:
init();//初始化阶段
prepare();//准备阶段
mergePosition();//合并位点
getOutputFields(RowMetapreNodeOutputFields);//结合前一个节点的输出字段获取当前节点输出字段
split();//对抽取任务进行切分,以提高并发度,比如同步HDFS文件,有10个文件,可以切分为10个task(一个task可以理解为是一个并发)并行抽取,提高抽取效率
RecordstartRead();//进行数据抽取,每次startRead即返回一条记录,该记录被统一定义为Record
isNeedReload();//该抽取任务是否需要重启
post();//完成阶段
destroy();//清理阶段
针对数据转换(Transformer)的数据同步操作,其生命周期标准接口函数定义如下:
init();//初始化阶段
prepare();//准备阶段
Record evaluate(Record record);//对record进行转换
post();//完成阶段
destroy();//清理阶段
针对数据写入(Load/Writer)的数据同步操作,其生命周期标准接口函数定义如下:
Load(Writer)接口定义如下:
init();//初始化阶段
prepare();//准备阶段
startWrite(Record record);//将record写入目标端
flush();//将缓存的record flush到目的端
post();//完成阶段
destroy();//清理阶段
步骤S103:根据所述与所述数据引擎信息适配的标准接口函数的信息,查找利用与所述数据引擎信息适配的标准接口函数生成的插件。
本步骤用于根据所述与所述数据引擎信息适配的标准接口函数的信息,查找利用与所述数据引擎信息适配的标准接口函数生成的插件。
所述根据所述与所述数据引擎信息适配的标准接口函数的信息,查找利用与所述数据引擎信息适配的标准接口函数生成的插件,包括:
获取数据同步的请求;
根据所述数据同步的请求以及所述与所述数据引擎信息适配的标准接口函数的信息,查找利用与所述数据引擎信息适配的标准接口函数生成的插件。
一般而言,数据同步包括数据的读取、数据的写入以及数据的转换。这里,获取数据同步的请求,可以针对数据的读取、数据的写入以及数据转换中的至少一种。进而,根据所述数据同步的请求以及所述与所述数据引擎信息适配的标准接口函数的信息,查找利用与所述数据引擎信息适配的标准接口函数生成的插件,针对数据的读取,会查找到读插件;针对数据的写入,会查找到写插件;针对数据的转换,会查找到转换插件。
所述数据引擎信息适配的标准接口函数生成的插件,包括如下插件中的至少一种:
用于数据抽取的读插件;
用于数据写入的写插件;
用于数据转换的转换插件。
所述转换插件采用如下步骤实现数据转换:
获取指定的数据过滤规则;
根据所述指定的数据过滤规则,针对所述转换插件提供的数据进行过滤;
获得数据过滤后的目标数据。
数据过滤主要是根据用户指定的某些过滤规则对数据进行过滤,例如可以将过滤规则设置为将一条记录里某个字段为false的记录进行过滤,则根据该过滤规则转换插件将该记录过滤掉。
所述数据过滤规则包括基于Apriori机器学习的关联规则。
数据平台中的数据可能包括用户的隐私和敏感信息,如用户在酒店的入住记录、用户支付信息等,这些数据存在可能泄露的风险。数据脱敏通过对数据中某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。
Apriori算法是一种挖掘关联规则的频繁项集算法,其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。该算法已经被广泛的应用到商业、网络安全等各个领域。
该算法的基本思想是:首先找出所有的频集,这些项集出现的频繁性至少和预定义的最小支持度一样。然后由频集产生强关联规则,这些规则必须满足最小支持度和最小可信度。然后使用第1步找到的频集产生期望的规则,产生只包含集合的项的所有规则,其中每一条规则的右部只有一项,这里采用的是中规则的定义。
本实施例中,使用Apriori算法获得敏感数据之间的关联度。如果所述关联度大于规定的阈值,则认为敏感数据之间属于强关联关系,当这些强关联的敏感数据同时出现时,需要对该敏感数据同时脱敏处理。
所述针对所述转换插件提供的数据进行过滤,包括:
将所述转换插件提供的数据与所述数据过滤规则进行匹配;
如果所述转换插件提供的数据与所述数据过滤规则相匹配,则对所述转换插件提供的数据进行脱敏。
例如可以将过滤规则设置为将一条记录里某个字段为false的记录进行过滤,则根据该过滤规则,转换插件判断待处理的数据是否满足改规则,如果满足,将该记录过滤掉。
所述转换插件采用如下步骤实现数据转换:
获取指定的数据转换规则;
根据所述指定的数据转换规则,针对所述转换插件提供的数据进行转换;
获得数据转换后的目标数据。
例如,数据源端的数据类型与数据目标端的数据类型不一致,需要将二者进行数据类型的统一化处理。具体而言,数据源端为供应商在结算系统的编码是AA01,而在数据目标端CRM中编码是KK01,在这种情况下需要利用转换插件将二者的编码进行统一。
步骤S104:利用所述查找到的插件进行数据处理。
本步骤用于利用所述查找到的插件进行数据处理。
所述利用所述查找到的插件进行数据处理,包括:
利用所述查找到的插件,从源端抽取原始数据;
将所述原始数据写入所述数据引擎信息对应的数据引擎中。
在数据同步中,利用查找到的写插件,从源端抽取原始数据;将所述原始数据写入所述数据引擎信息对应的数据引擎中。
所述利用所述查找到的插件进行数据处理,包括:
从所述数据引擎信息对应的数据引擎中获取目标数据;
利用所述查找到的插件,将所述目标数据提供给目标计算设备。。
在数据同步中,从所述数据引擎信息对应的数据引擎中获取目标数据;利用所述查找到的读插件,向数据需求方提供所述目标数据。
所述的数据处理方法,还包括:
获取用户的配置文件;
根据所述用户的配置文件,获得所述数据引擎信息对应的数据引擎需要执行的流程信息。
所述根据所述用户的配置文件,获得所述数据引擎信息对应的数据引擎需要执行的流程信息,包括:
根据用户的有向无环图文件,获得所述数据引擎信息对应的数据引擎需要执行的流程信息;
或者,根据用户的JSON文件,获得所述数据引擎信息对应的数据引擎需要执行的流程信息。
有向无环图(Directed Acyclic Graph,DAG),是指任意一条边有方向,且不存在环路的图。
JSON(JavaScript Object Notation),是一种轻量级的数据交换格式。
有向无环图和JSON都可以用来描述用户的配置。
由于DAG图本质上会映射为一个JSON,下面以JSON为例进行说明,请参考下面的JSON实例。
Figure BDA0002025628550000121
Figure BDA0002025628550000131
由于JSON中hops属性定义了每个节点之间的依赖关系,如上述JSON示例中名称叫“transformer01”的节点依赖于名称叫“reader01”的节点,“writer01”的节点又依赖于“transformer01”节点。有了这样的依赖关系,引擎适配层可以将其映射为具体引擎的可执行计划,比如基于Blink引擎提供的DataStream可以实现将JSON中定义的节点依赖关系转化为Blink的执行计划。
在上述的实施例中,提供了一种数据处理方法,与之相对应的,本申请还提供一种数据处理装置。请参看图4,其为本申请的一种数据处理装置实施例的流程图。由于本实施例,即第二实施例,基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。
所述数据处理装置,包括:
引擎信息获得单元401,用于获得数据引擎信息;
函数信息获得单元402,用于获得与所述数据引擎信息适配的标准接口函数的信息;
插件查找单元403,用于根据所述与所述数据引擎信息适配的标准接口函数的信息,查找利用与所述数据引擎信息适配的标准接口函数生成的插件;
数据处理单元404,用于利用所述查找到的插件进行数据处理。
本实施例中,所述引擎信息获得单元,具体用于如下步骤中的至少一种:
获得与所述数据引擎信息适配的初始化阶段的标准接口函数的信息;
获得与所述数据引擎信息适配的准备阶段的标准接口函数的信息;
获得与所述数据引擎信息适配的执行阶段的标准接口函数的信息;
获得与所述数据引擎信息适配的完成阶段的标准接口函数的信息;
获得与所述数据引擎信息适配的清理阶段的标准接口函数的信息。
本实施例中,所述插件查找单元,具体用于:
获取数据同步的请求;
根据所述数据同步的请求以及所述与所述数据引擎信息适配的标准接口函数的信息,查找利用与所述数据引擎信息适配的标准接口函数生成的插件。
本实施例中,所述数据引擎信息适配的标准接口函数生成的插件,包括如下插件中的至少一种:
用于数据抽取的读插件;
用于数据写入的写插件;
用于数据转换的转换插件。
本实施例中,所述转换插件,具体用于:
获取指定的数据过滤规则;
根据所述指定的数据过滤规则,针对所述转换插件提供的数据进行过滤;
获得数据过滤后的目标数据。
本实施例中,所述转换插件,具体用于:
获取指定的数据转换规则;
根据所述指定的数据转换规则,针对所述转换插件提供的数据进行转换;
获得数据转换后的目标数据。
本实施例中,所述数据处理单元,具体用于:
利用所述查找到的插件,从源端抽取原始数据;
将所述原始数据写入所述数据引擎信息对应的数据引擎中。
本实施例中,所述数据处理单元,还用于:
从所述数据引擎信息对应的数据引擎中获取目标数据;
利用所述查找到的插件,将所述目标数据提供给目标计算设备。
本实施例中,所述数据引擎信息为以下至少一种数据引擎信息:
Blink数据引擎信息;
Hadoop数据引擎信息;
DataX数据引擎信息。
本实施例中,所述数据处理装置,还包括流程转换单元,所述流程转换单元用于:
获取用户的配置文件;
根据所述用户的配置文件,获得所述数据引擎信息对应的数据引擎可以执行的流程。
本实施例中,所述流程转换单元,具体用于:
根据用户的有向无环图文件,获得所述数据引擎信息对应的数据引擎可以执行的流程;
或者,根据用户的JSON文件,获得所述数据引擎信息对应的数据引擎可以执行的流程。本实施例中,所述数据过滤规则包括基于Apriori机器学习的关联规则。
本实施例中,所述转换插件,还用于:
将所述转换插件提供的数据与所述数据过滤规则进行匹配;
如果所述转换插件提供的数据与所述数据过滤规则相匹配,则对所述转换插件提供的数据进行脱敏。
本申请第三实施例提供一种电子设备,所述电子设备包括:
处理器;
存储器,用于存储程序,所述程序在被所述处理器读取执行时,执行如下操作:
获得数据引擎信息;
获得与所述数据引擎信息适配的标准接口函数的信息;
根据所述与所述数据引擎信息适配的标准接口函数的信息,查找利用与所述数据引擎信息适配的标准接口函数生成的插件;
利用所述查找到的插件进行数据处理。
本申请第四实施例提供一种计算机可读取存储介质,其上存储有计算机程序,该程序被处理器执行时,实现以下步骤:
获得数据引擎信息;
获得与所述数据引擎信息适配的标准接口函数的信息;
根据所述与所述数据引擎信息适配的标准接口函数的信息,查找利用与所述数据引擎信息适配的标准接口函数生成的插件;
利用所述查找到的插件进行数据处理。
本申请第五实施例提供一种数据同步平台,包括插件单元501、插件中心接口单元502、引擎适配单元503、数据引擎执行单元504;
所述插件中心接口单元用于,向所述插件层单元提供用于生成插件的标准接口函数;
所述插件单元用于,提供利用标准接口函数生成的插件;
所述引擎适配单元用于,获得与数据引擎信息适配的标准接口函数的信息,根据所述与所述数据引擎信息适配的标准接口函数的信息,查找利用与所述数据引擎信息适配的标准接口函数生成的插件;
所述数据引擎单元用于,利用所述引擎适配层单元查找到的插件进行数据处理。
由于本实施例在第一实施例中已经进行了详细说明,这里就不再赘述了,请参考第一实施例的相关部分。
本申请虽然以较佳实施例公开如上,但其并不是用来限定本申请,任何本领域技术人员在不脱离本申请的精神和范围内,都可以做出可能的变动和修改,因此本申请的保护范围应当以本申请权利要求所界定的范围为准。
在一个典型的配置中,计算设备包括一个或多个操作器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
2、本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

Claims (16)

1.一种数据处理方法,其特征在于,包括:
获得数据引擎信息;
获得与所述数据引擎信息适配的标准接口函数的信息;
根据所述与所述数据引擎信息适配的标准接口函数的信息,查找利用与所述数据引擎信息适配的标准接口函数生成的插件;
利用所述查找到的插件进行数据处理。
2.根据权利要求1所述的数据处理方法,其特征在于,所述获得与所述数据引擎信息适配的标准接口函数的信息,包括如下步骤中的至少一种:
获得与所述数据引擎信息适配的初始化阶段的标准接口函数的信息;
获得与所述数据引擎信息适配的准备阶段的标准接口函数的信息;
获得与所述数据引擎信息适配的执行阶段的标准接口函数的信息;
获得与所述数据引擎信息适配的完成阶段的标准接口函数的信息;
获得与所述数据引擎信息适配的清理阶段的标准接口函数的信息。
3.根据权利要求1所述的数据处理方法,其特征在于,所述根据所述与所述数据引擎信息适配的标准接口函数的信息,查找利用与所述数据引擎信息适配的标准接口函数生成的插件,包括:
获取数据同步的请求;
根据所述数据同步的请求以及所述与所述数据引擎信息适配的标准接口函数的信息,查找利用与所述数据引擎信息适配的标准接口函数生成的插件。
4.根据权利要求1所述的数据处理方法,其特征在于,所述数据引擎信息适配的标准接口函数生成的插件,包括如下插件中的至少一种:
用于数据抽取的读插件;
用于数据写入的写插件;
用于数据转换的转换插件。
5.根据权利要求4所述的数据处理方法,其特征在于,所述转换插件采用如下步骤实现数据转换:
获取指定的数据过滤规则;
根据所述指定的数据过滤规则,针对所述转换插件提供的数据进行过滤;
获得数据过滤后的目标数据。
6.根据权利要求4所述的数据处理方法,其特征在于,所述转换插件采用如下步骤实现数据转换:
获取指定的数据转换规则;
根据所述指定的数据转换规则,针对所述转换插件提供的数据进行转换;
获得数据转换后的目标数据。
7.根据权利要求1所述的数据处理方法,其特征在于,所述利用所述查找到的插件进行数据处理,包括:
利用所述查找到的插件,从源端抽取原始数据;
将所述原始数据写入所述数据引擎信息对应的数据引擎中。
8.根据权利要求1所述的数据处理方法,其特征在于,所述利用所述查找到的插件进行数据处理,包括:
从所述数据引擎信息对应的数据引擎中获取目标数据;
利用所述查找到的插件,将所述目标数据提供给目标计算设备。
9.根据权利要求1所述的数据处理方法,其特征在于,还包括:
获取用户的配置文件;
根据所述用户的配置文件,获得所述数据引擎信息对应的数据引擎需要执行的流程信息。
10.根据权利要求9所述的数据处理方法,其特征在于,所述根据所述用户的配置文件,获得所述数据引擎信息对应的数据引擎需要执行的流程信息,包括:
根据用户的有向无环图文件,获得所述数据引擎信息对应的数据引擎需要执行的流程信息;
或者,根据用户的JSON文件,获得所述数据引擎信息对应的数据引擎需要执行的流程信息。
11.根据权利要求5所述的数据处理方法,其特征在于,所述数据过滤规则包括基于Apriori机器学习的关联规则。
12.根据权利要求5所述的数据处理方法,其特征在于,所述针对所述转换插件提供的数据进行过滤,包括:
将所述转换插件提供的数据与所述数据过滤规则进行匹配;
如果所述转换插件提供的数据与所述数据过滤规则相匹配,则对所述转换插件提供的数据进行脱敏。
13.一种数据处理装置,其特征在于,包括:
引擎信息获得单元,用于获得数据引擎信息;
函数信息获得单元,用于获得与所述数据引擎信息适配的标准接口函数的信息;
插件查找单元,用于根据所述与所述数据引擎信息适配的标准接口函数的信息,查找利用与所述数据引擎信息适配的标准接口函数生成的插件;
数据处理单元,用于利用所述查找到的插件进行数据处理。
14.一种电子设备,其特征在于,所述电子设备包括:
处理器;
存储器,用于存储程序,所述程序在被所述处理器读取执行时,执行如下操作:
获得数据引擎信息;
获得与所述数据引擎信息适配的标准接口函数的信息;
根据所述与所述数据引擎信息适配的标准接口函数的信息,查找利用与所述数据引擎信息适配的标准接口函数生成的插件;
利用所述查找到的插件进行数据处理。
15.一种计算机可读取存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时,实现以下步骤:
获得数据引擎信息;
获得与所述数据引擎信息适配的标准接口函数的信息;
根据所述与所述数据引擎信息适配的标准接口函数的信息,查找利用与所述数据引擎信息适配的标准接口函数生成的插件;
利用所述查找到的插件进行数据处理。
16.一种数据处理平台,其特征在于,包括插件层单元、插件中心接口单元、引擎适配单元、数据引擎单元;
所述插件中心接口单元用于,向所述插件层单元提供用于生成插件的标准接口函数;
所述插件单元用于,提供利用标准接口函数生成的插件;
所述引擎适配单元用于,获得与数据引擎信息适配的标准接口函数的信息,根据所述与所述数据引擎信息适配的标准接口函数的信息,查找利用与所述数据引擎信息适配的标准接口函数生成的插件;
所述数据引擎单元用于,利用所述引擎适配层单元查找到的插件进行数据处理。
CN201910297038.2A 2019-04-12 2019-04-12 一种数据处理方法、装置及平台 Pending CN111813843A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910297038.2A CN111813843A (zh) 2019-04-12 2019-04-12 一种数据处理方法、装置及平台

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910297038.2A CN111813843A (zh) 2019-04-12 2019-04-12 一种数据处理方法、装置及平台

Publications (1)

Publication Number Publication Date
CN111813843A true CN111813843A (zh) 2020-10-23

Family

ID=72844036

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910297038.2A Pending CN111813843A (zh) 2019-04-12 2019-04-12 一种数据处理方法、装置及平台

Country Status (1)

Country Link
CN (1) CN111813843A (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070294710A1 (en) * 2006-06-19 2007-12-20 Alps Automotive Inc. Simple bluetooth software development kit
CN101599958A (zh) * 2009-07-02 2009-12-09 西安电子科技大学 基于场景的关联引擎系统及其数据处理方法
US20110154290A1 (en) * 2009-12-18 2011-06-23 Todd Kelly Metadata plug-in application programming interface
WO2011142651A1 (en) * 2010-05-11 2011-11-17 Mimos Berhad System and method for use in image classification
CN103544013A (zh) * 2013-10-25 2014-01-29 优视科技有限公司 一种插件系统及插件管理方法
CN106230985A (zh) * 2016-09-21 2016-12-14 广东工业大学 一种基于物联网大数据处理方法、系统及服务处理端
CN106251071A (zh) * 2016-07-27 2016-12-21 浙江大学滨海产业技术研究院 一种支持多种引擎的云工作流实现方法
CN106372963A (zh) * 2016-08-29 2017-02-01 石化盈科信息技术有限责任公司 基于推理引擎的物流计费系统及物流计费方法
CN108334317A (zh) * 2018-01-25 2018-07-27 阿里巴巴集团控股有限公司 图形引擎、图形引擎构建方法、更新方法及装置
CN108833154A (zh) * 2018-06-06 2018-11-16 中科创达软件股份有限公司 基于规则引擎的数据处理方法、装置及电子设备
CN109126124A (zh) * 2018-09-20 2019-01-04 Oppo广东移动通信有限公司 引擎适配方法、相关设备以及计算机可读存储介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070294710A1 (en) * 2006-06-19 2007-12-20 Alps Automotive Inc. Simple bluetooth software development kit
CN101599958A (zh) * 2009-07-02 2009-12-09 西安电子科技大学 基于场景的关联引擎系统及其数据处理方法
US20110154290A1 (en) * 2009-12-18 2011-06-23 Todd Kelly Metadata plug-in application programming interface
WO2011142651A1 (en) * 2010-05-11 2011-11-17 Mimos Berhad System and method for use in image classification
CN103544013A (zh) * 2013-10-25 2014-01-29 优视科技有限公司 一种插件系统及插件管理方法
CN106251071A (zh) * 2016-07-27 2016-12-21 浙江大学滨海产业技术研究院 一种支持多种引擎的云工作流实现方法
CN106372963A (zh) * 2016-08-29 2017-02-01 石化盈科信息技术有限责任公司 基于推理引擎的物流计费系统及物流计费方法
CN106230985A (zh) * 2016-09-21 2016-12-14 广东工业大学 一种基于物联网大数据处理方法、系统及服务处理端
CN108334317A (zh) * 2018-01-25 2018-07-27 阿里巴巴集团控股有限公司 图形引擎、图形引擎构建方法、更新方法及装置
CN108833154A (zh) * 2018-06-06 2018-11-16 中科创达软件股份有限公司 基于规则引擎的数据处理方法、装置及电子设备
CN109126124A (zh) * 2018-09-20 2019-01-04 Oppo广东移动通信有限公司 引擎适配方法、相关设备以及计算机可读存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
任宪臻;朱义;: "基于规则引擎的大规模网页信息抽取平台设计与实现", 北京城市学院学报, no. 05, 28 October 2010 (2010-10-28) *
吴秀莹;: "浅析工作流平台的流程引擎的实现", 数字技术与应用, no. 05, 15 May 2012 (2012-05-15) *
林昆;: "面向数据仓库的ETL工具的研究与实现", 计算技术与自动化, no. 01, 15 March 2018 (2018-03-15) *
魏青山;耶健;阎晓弟;: "插件技术在图书馆OPAC整合查询中的实证与思考", 图书馆学研究, no. 24, 23 December 2010 (2010-12-23) *

Similar Documents

Publication Publication Date Title
KR102226257B1 (ko) 서비스 데이터를 블록체인 시스템에 기입하기 위한 방법 및 디바이스
CN106611044B (zh) 一种sql优化方法及设备
US10754628B2 (en) Extracting web API endpoint data from source code to identify potential security threats
CN106598828B (zh) 一种源代码中的无效类确定方法及装置
CN104423982A (zh) 请求的处理方法和处理设备
CN110032568B (zh) 数据结构的读取及更新方法、装置、电子设备
US10558566B2 (en) Garbage collection of non-pinned objects within heap
US9116714B2 (en) Methods and systems for file processing
CN110895544B (zh) 一种接口数据处理方法、装置、系统及存储介质
CN111475150B (zh) 一种跨语言绑定方法、装置、设备及存储介质
CN111897828A (zh) 数据批处理实现方法、装置、设备及存储介质
CN112182199A (zh) 一种依赖包推荐方法、装置、电子设备和可读存储介质
CN106156904B (zh) 一种基于eID的跨平台虚拟资产溯源方法
CN116628773A (zh) 数据处理方法、装置、电子设备及存储介质
CN110019295B (zh) 数据库检索方法、装置、系统以及存储介质
CN111813843A (zh) 一种数据处理方法、装置及平台
CN110489392A (zh) 多租户间的数据访问方法、装置、系统、存储介质及设备
CN107220265A (zh) 一种数据库语句编译和执行方法及装置
US9626371B2 (en) Attribute selectable file operation
CN112181798B (zh) 数据记录方法及装置
US8214336B2 (en) Preservation of digital content
CN115391426A (zh) 一种数据查询方法、装置、存储介质及电子设备
CN109710833B (zh) 用于确定内容节点的方法与设备
CN108062329B (zh) 一种数据导入方法及装置
CN113632072A (zh) 可扩展数据跳过

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40039417

Country of ref document: HK