CN117370449A - 数据处理方法、装置、存储介质及电子装置 - Google Patents
数据处理方法、装置、存储介质及电子装置 Download PDFInfo
- Publication number
- CN117370449A CN117370449A CN202210745083.1A CN202210745083A CN117370449A CN 117370449 A CN117370449 A CN 117370449A CN 202210745083 A CN202210745083 A CN 202210745083A CN 117370449 A CN117370449 A CN 117370449A
- Authority
- CN
- China
- Prior art keywords
- data
- database
- data table
- tasks
- lake
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 27
- 230000001360 synchronised effect Effects 0.000 claims abstract description 50
- 238000000034 method Methods 0.000 claims abstract description 41
- 238000012545 processing Methods 0.000 claims abstract description 31
- 238000005516 engineering process Methods 0.000 abstract description 9
- 238000001514 detection method Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 10
- 238000010276 construction Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 238000013515 script Methods 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 238000011161 development Methods 0.000 description 6
- 230000018109 developmental process Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000011144 upstream manufacturing Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 238000005192 partition Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000013499 data model Methods 0.000 description 3
- 238000013500 data storage Methods 0.000 description 3
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 238000013479 data entry Methods 0.000 description 2
- 230000008676 import Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
- G06F16/275—Synchronous replication
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种数据处理方法、装置、存储介质及电子装置。该方法包括:确定待同步至数据湖的第一数据库,得到多个第一数据库;遍历各个第一数据库的第一配置信息,并依据各个第一配置信息分别生成与第一数据库对应的第一任务;获取每个第一数据库中的元数据和第二配置信息,依据元数据和第二配置信息生成第二任务,得到多个第二任务;依据每个第二数据表生成第三任务,得到多个第三任务,并执行第三任务。通过本申请,解决了相关技术中手动执行数据入湖操作效率低和容易出错的问题。
Description
技术领域
本申请涉及数据湖技术领域,具体而言,涉及一种数据处理方法、装置、存储介质及电子装置。
背景技术
数据湖是一个存储各种各样原始数据的大型仓库,数据湖中的数据可供存取、处理、分析及传输。数据湖从企业的多个业务系统获取原始数据,简称为数据入湖,目前Hadoop是最常用的部署数据湖的技术。
相关技术中,通过手动编写代码的方式,根据业务系统的数据模型对数据表逐一进行定制化代码开发,每次在数据湖中添加新的数据表都需要定制化开发。开发时间与需要开发的数据表数量、数据表的字段数量呈正相关,数据表数量越多,每张表的字段数量越多,那么每张表的开发工作量就越大,因此手动开发方式存在开发效率低,还无法保证代码质量,可能发生字段漏写、写错等技术问题;而且采用手动编写代码的方式不具备扩展性与可复用性,导致容易出错和测试成本较大。
针对相关技术中手动执行数据入湖操作效率低和容易出错的问题,目前尚未提出有效的解决方案。
发明内容
本申请提供一种数据处理方法、装置、存储介质及电子装置,以解决相关技术中手动执行数据入湖操作效率低和容易出错的问题。
根据本申请的一个方面,提供了一种数据处理方法。该方法包括:确定待同步至数据湖的第一数据库,得到多个第一数据库,其中,第一数据库为各应用系统的数据库;遍历各个第一数据库的第一配置信息,并依据各个第一配置信息分别生成与第一数据库对应的第一任务,其中,第一任务用于指示建立第一数据库和数据湖中的第二数据库的关联关系;获取每个第一数据库中的元数据和第二配置信息,依据元数据和第二配置信息生成第二任务,得到多个第二任务,其中,第二任务用于指示在第二数据库中构建第二数据表,第二配置信息为第二数据表的配置信息;依据每个第二数据表生成第三任务,得到多个第三任务,并执行第三任务,其中,第三任务用于指示将第一数据表中的数据同步至数据湖,第一数据表为第一数据库中的数据表。
可选地,在遍历各个第一数据库的第一配置信息之后,该方法还包括:判断第一数据库是否设置有目标任务;在第一数据库设置有目标任务的情况下,检测目标任务是否完成,其中,按照预设时长轮询目标任务,并在查询到目标任务的目标参数为预设数值的情况下,确定目标任务完成;在目标任务完成的情况下,执行依据各个第一配置信息分别生成与第一数据库对应的第一任务的步骤。
可选地,依据各个第一配置信息分别生成与第一数据库对应的第一任务包括:在第一配置信息中获取第一数据库的第一数据库名称和第一数据库地址;在数据湖中确定第一数据库名称和第一数据库地址关联的第二数据库,得到目标第二数据库,并确定目标第二数据库的第二数据库名称和第二数据库地址;依据第一数据库名称、第一数据库地址、第二数据库名称和第二数据库地址建立第一数据库和目标第二数据库的关联关系。
可选地,在获取每个第一数据库中的元数据和第二配置信息之后,该方法还包括:判断元数据对应的数据是否为首次同步至数据湖的数据;在元数据对应的数据为首次同步至数据湖的数据的情况下,在数据湖中建立数据库,得到第一数据库关联的第二数据库。
可选地,执行第三任务包括:在第一数据库中确定待同步至数据湖的数据对应的第一数据表的类型;判断第一数据表的类型是否是第一类型,并在第一数据表的类型为第一类型时,通过增量同步的方式将第一数据库中的数据同步至数据湖,其中,第一类型的第一数据表为数据湖中的历史数据未发生变化的第一数据表;在第一数据表的类型不是第一类型的情况下,判断第一数据表的类型是否是第二类型,并在第一数据表的类型为第二类型时,通过全量同步的方式将第一数据库中的数据同步至数据湖,其中,第二类型的第一数据表为字典码值类的第一数据表;在第一数据表的类型不是第一类型且不是第二类型时,通过增量同步的方式将第一数据库中的数据同步至数据湖。
可选地,在执行第三任务之前,该方法还包括:判断第一数据表的结构与数据湖中的第二数据表的结构是否相同;在第一数据表的结构与数据湖中的第二数据表的结构不相同的情况下,更新第二数据表的结构,以使得更新后的第二数据表的结构与第一数据表的结构匹配。
可选地,在依据第二数据表生成多个第三任务,并执行第三任务之后,该方法还包括:获取第二任务的并行数,得到第一并行数,并获取第三任务的并行数,得到第二并行数;判断各个第二数据库是否携带有目标标志,其中,目标标志用于指示第三任务执行结束;在各个第二数据库均携带有目标标志的情况下,确定起始节点和结束节点,根据第一数据库的数量确定多个第一分支,根据第二任务的第一并行数确定第二分支,根据第三任务的第二并行数确定第三分支,并根据第一数据库和第二任务的关系确定第一连接关系,根据第二任务和第三任务的关系确定第二连接关系;在起始节点和结束节点之间根据第一连接关系连接第一分支和第二分支,并根据第二连接关系连接第二分支和第三分支,得到有向无环图。
根据本申请的另一方面,提供了一种数据处理装置。该装置包括:确定单元,用于确定待同步至数据湖的第一数据库,得到多个第一数据库,其中,第一数据库为各应用系统的数据库;生成单元,用于遍历各个第一数据库的第一配置信息,并依据各个第一配置信息分别生成与第一数据库对应的第一任务,其中,第一任务用于指示建立第一数据库和数据湖中的第二数据库的关联关系;获取单元,用于获取每个第一数据库中的元数据和第二配置信息,依据元数据和第二配置信息生成第二任务,得到多个第二任务,其中,第二任务用于指示在第二数据库中构建第二数据表,第二配置信息为第二数据表的配置信息;执行单元,用于依据每个第二数据表生成第三任务,得到多个第三任务,并执行第三任务,其中,第三任务用于指示将第一数据表中的数据同步至数据湖,第一数据表为第一数据库中的数据表。
根据本发明实施例的另一方面,还提供了一种非易失性存储介质,非易失性存储介质包括存储的程序,其中,程序运行时控制非易失性存储介质所在的设备执行一种数据处理方法。
根据本发明实施例的另一方面,还提供了一种电子装置,包含处理器和存储器;存储器中存储有计算机可读指令,处理器用于运行计算机可读指令,其中,计算机可读指令运行时执行一种数据处理方法。
通过本申请,采用以下步骤:确定待同步至数据湖的第一数据库,得到多个第一数据库,其中,第一数据库为各应用系统的数据库;遍历各个第一数据库的第一配置信息,并依据各个第一配置信息分别生成与第一数据库对应的第一任务,其中,第一任务用于指示建立第一数据库和数据湖中的第二数据库的关联关系;获取每个第一数据库中的元数据和第二配置信息,依据元数据和第二配置信息生成第二任务,得到多个第二任务,其中,第二任务用于指示在第二数据库中构建第二数据表,第二配置信息为第二数据表的配置信息;依据每个第二数据表生成第三任务,得到多个第三任务,并执行第三任务,其中,第三任务用于指示将第一数据表中的数据同步至数据湖,第一数据表为第一数据库中的数据表,解决了相关技术中手动执行数据入湖操作效率低和容易出错的问题。通过在数据湖中依据应用系统的数据库和数据表的配置信息,进行自动建库、自动建表,执行数据同步的操作,进而达到了提高数据入湖效率,避免人为失误的效果。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例提供的数据处理方法的流程图一;
图2是跟据本申请实施例提供的数据湖的架构示意图;
图3是跟据本申请实施例提供的更新第二数据表结构的流程图;
图4是跟据本申请实施例提供的有向无环图;
图5是根据本申请实施例提供的数据处理方法的流程图二;
图6是根据本申请实施例提供的数据处理装置的示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
基于此,本申请希望提供一种能够解决上述技术问题的方案,其详细内容将在后续实施例中得以阐述。
为了便于描述,以下对本申请实施例涉及的部分名词或术语进行说明:
数据湖:数据湖是一个存储企业的各种各样原始数据的大型仓库,其中的数据可供存取、处理、分析及传输。
HAdoop:一种分布式系统基础架构。
根据本申请的实施例,提供了一种数据处理方法。
图1是根据本申请实施例提供的数据处理方法的流程图一。如图1所示,该方法包括以下步骤:
步骤S102,确定待同步至数据湖的第一数据库,得到多个第一数据库,其中,第一数据库为各应用系统的数据库。
具体地,数据湖是一种数据存储平台,企业的各个业务系统的数据需要同步至数据湖进行统一的存储和管理,第一数据库可以为企业的各个业务系统的数据库。
需要说明的是,目前Hadoop是最常用的部署数据湖的技术。本申请实施例中的数据湖是基于Hadoop大数据生态部署的,图2是跟据本申请实施例提供的数据湖的架构示意图,如图2所示,数据湖包括:数据采集层、数据存储层、计算引擎层、数据分析层、数据应用层。数据采集层包括业务系统数据的采集、日志信息采集、消息队列数据采集。数据存储层基于Hadoop的分布式文件系统HDFS和Hive,HDFS具有高度容错性、适合处理大数据、可构建在廉价的机器上,本实施例中数据存储是3副本,保持数据的高容错性,数据存储采用列式压缩存储,在压缩编码、查询性能方面做了优化。计算引擎层是数据湖大数据算力的描述,离线计算是spark引擎和hive引擎,实时计算是flink和storm引擎。数据分析层直接跟用户应用程序对接,为其提供易用的数据处理工具。典型的使用模式是:首先使用批处理框架对原始海量数据进行分析,产生较小规模的数据集,在此基础上,再使用交互式处理工具对该数据集进行快速查询,获取最终结果。数据应用层,包括但不限于智能BI、监管报送、风控模型、数据大屏、客户管理、客户营销、即席分析。
步骤S104,遍历各个第一数据库的第一配置信息,并依据各个第一配置信息分别生成与第一数据库对应的第一任务,其中,第一任务用于指示建立第一数据库和数据湖中的第二数据库的关联关系。
具体地,第一配置信息用于描述需要将数据导入到数据湖的业务系统的数据库信息,第一配置信息至少包括:业务线代码,原业务系统的英文代码简称;业务线名称,原业务系统的简称中文描述,例如核心存款系统、线上贷系统;数据库类型,例如mysql、tidb、oracle等关系型数据库;数据库名称;数据库地址、端口;导入至数据湖的库名,数据导入至数据湖后存于哪个库,也即第二数据库的数据库名称和地址。第一任务用于表征第一数据库和第二数据库间的关联关系,从而确定好数据湖中被同步的数据的存储位置。
步骤S106,获取每个第一数据库中的元数据和第二配置信息,依据元数据和第二配置信息生成第二任务,得到多个第二任务,其中,第二任务用于指示在第二数据库中构建第二数据表,第二配置信息为第二数据表的配置信息。
具体地,元数据可以为第一数据库中的第一数据表的参数,第二配置信息可以为第一数据表的配置信息,第二任务用于指示在数据湖中的第二数据库内构建与第一数据表结构相同的第二数据表,第二数据表用于接收被同步至数据湖的数据,第一数据表与第二数据表一一对应,同步数据时将第一数据表中的数据同步至第二数据表内。
步骤S108,依据每个第二数据表生成第三任务,得到多个第三任务,并执行第三任务,其中,第三任务用于指示将第一数据表中的数据同步至数据湖,第一数据表为第一数据库中的数据表。
具体地,第三任务用于指示执行数据同步的操作,数据入湖进行时,多个第一数据库同时执行数据入湖的操作,每个第一数据库执行数据入湖的操作时,按照第二并行数同时执行第三任务,例如,第二并行数为20,第一数据库则同时进行20个第一数据表的数据入湖操作。第三任务通过自动生成的python脚本执行。
本申请实施例提供的数据处理方法,通过确定待同步至数据湖的第一数据库,得到多个第一数据库,其中,第一数据库为各应用系统的数据库;遍历各个第一数据库的第一配置信息,并依据各个第一配置信息分别生成与第一数据库对应的第一任务,其中,第一任务用于指示建立第一数据库和数据湖中的第二数据库的关联关系;获取每个第一数据库中的元数据和第二配置信息,依据元数据和第二配置信息生成第二任务,得到多个第二任务,其中,第二任务用于指示在第二数据库中构建第二数据表,第二配置信息为第二数据表的配置信息;依据每个第二数据表生成第三任务,得到多个第三任务,并执行第三任务,其中,第三任务用于指示将第一数据表中的数据同步至数据湖,第一数据表为第一数据库中的数据表,解决了相关技术中手动执行数据入湖操作效率低和容易出错的问题。通过在数据湖中依据应用系统的数据库和数据表的配置信息,进行自动建库、自动建表,执行数据同步的操作,进而达到了提高数据入湖效率,避免人为失误的效果。
由于在进行数据入湖操作时第一数据库存在目标任务未完成的情况,需要执行完目标任务才可以执行数据入湖的操作,可选地,在本申请实施例提供的数据处理方法中,在遍历各个第一数据库的第一配置信息之后,该方法还包括:判断第一数据库是否设置有目标任务;在第一数据库设置有目标任务的情况下,检测目标任务是否完成,其中,按照预设时长轮询目标任务,并在查询到目标任务的目标参数为预设数值的情况下,确定目标任务完成;在目标任务完成的情况下,执行依据各个第一配置信息分别生成与第一数据库对应的第一任务的步骤。
具体地,目标任务可以为业务系统中进行结账处理的跑批任务,在业务系统的跑批任务未完成的情况下,业务系统的第一数据库中的数据未完成结账处理,此时的第一数据库中的数据由于不是最终数据无法执行数据入湖的操作。在执行数据入湖前,需要对需要进行数据入湖操作的业务系统进行批量检查,在检测到业务系统的目标任务执行成功的情况下,继续执行数据入湖的操作。通过在数据入湖前对业务系统批量检测是否有目标任务未执行完,保障数据入湖时业务系统的待同步数据处于准确可同步的状态。
例如,业务系统为线上贷款系统,目标任务为跑批任务,执行数据入湖操作前,读取批量依赖检查配置信息,遍历批量依赖检查配置信息,生成批量检测任务,批量检测任务用于检测各业务系统的sql指令。通过语句:select BATCHFLAG from SYSTEM_SETUP whereBUSINESSDATE='${data_time}'对线上贷款系统检测sql;其中,data_time为批量日期参数,每日系统自动传入,当查询结果等于2时,表征线上贷款系统批量检测任务完成,可以开始执行线上贷款系统数据同步入湖任务,否则5分钟后继续轮询检测。
在确定业务系统的目标任务完成后开始执行数据入湖操作,首先确定待同步数据在数据湖中的存储位置,可选地,在本申请实施例提供的数据处理方法中,依据各个第一配置信息分别生成与第一数据库对应的第一任务包括:在第一配置信息中获取第一数据库的第一数据库名称和第一数据库地址;在数据湖中确定第一数据库名称和第一数据库地址关联的第二数据库,得到目标第二数据库,并确定目标第二数据库的第二数据库名称和第二数据库地址;依据第一数据库名称、第一数据库地址、第二数据库名称和第二数据库地址建立第一数据库和目标第二数据库的关联关系。
例如,需要进行数据入湖的业务系统包括核心存款系统、线上贷系统,通过核心存款系统、线上贷系统各自的第一配置信息获取核心存款系统、线上贷系统的数据库名称和数据库地址,通过核心存款系统的数据库名称和数据库地址在数据湖中确定对应的第二数据库名称和第二数据库地址,通过线上贷系统的数据库名称和数据库地址在数据湖中确定对应的第二数据库名称和第二数据库地址。
数据湖中若不存在与第一数据库存在关联关系的第二数据库,需要在数据湖中构建第二数据库,可选地,在本申请实施例提供的数据处理方法中,在获取每个第一数据库中的元数据和第二配置信息之后,该方法还包括:判断元数据对应的数据是否为首次同步至数据湖的数据;在元数据对应的数据为首次同步至数据湖的数据的情况下,在数据湖中建立数据库,得到第一数据库关联的第二数据库。
具体地,通过对比数据湖中的第二数据表的参数与获取的元数据,若二者不匹配说明元数据对应的数据为新业务系统的数据,如果是新业务系统的数据首次入湖,将自动生成建库语句并在数据湖中建立与新业务系统的第一数据库对应的第二数据库。通过对首次入湖的业务系统的数据建立第二数据库,提高了数据入湖的效率。
执行数据入湖任务时根据第一数据表的类型选择对应的数据同步方式,可选地,在本申请实施例提供的数据处理方法中,执行第三任务包括:在第一数据库中确定待同步至数据湖的数据对应的第一数据表的类型;判断第一数据表的类型是否是第一类型,并在第一数据表的类型为第一类型时,通过增量同步的方式将第一数据库中的数据同步至数据湖,其中,第一类型的第一数据表为数据湖中的历史数据未发生变化的第一数据表;在第一数据表的类型不是第一类型的情况下,判断第一数据表的类型是否是第二类型,并在第一数据表的类型为第二类型时,通过全量同步的方式将第一数据库中的数据同步至数据湖,其中,第二类型的第一数据表为字典码值类的第一数据表;在第一数据表的类型不是第一类型且不是第二类型时,通过增量同步的方式将第一数据库中的数据同步至数据湖。
具体地,依据第一数据表的不同类型选择对应的数据同步方式,第一类型的第一数据表可以为日志类等历史数据不会发生改变的第一数据表,对于第一类型的数据表通过增量同步(dp,date partition)的数据同步方式执行数据入湖操作,第二类型的第一数据表可以为字典码值类的第一数据表,对于第二类型的数据表通过全量同步(sp,snapshotpartition)的数据同步方式执行数据入湖操作。对于其他类型的第一数据表,优先采用增量同步的数据同步方式执行数据入湖操作。
需要说明的是,进行数据同步至数据湖的操作时,数据的导入模式包括query、table两种,若导入模式为query,则需要填写sql语句,若导入模式为table,则不需要填写sql语句。通过全量同步的方式同步至数据湖的数据保存天数默认9999天。通过增量同步进行数据入湖的第一数据表需要设置where条件,where条件用于指示导入数据湖的第一数据库的数据范围,如果第一数据表为通过增量同步的方式首次导入数据湖的第一数据表,where条件不起作用,因为首次导入会自动进行数据初始化操作,where条件最好走索引,查询速度快。where条件中的日期信息可以通过参数与业务系统的任务信息表中的run_date进行关联,用来支持重跑操作与解决任务跨天带来的问题。例如run_date=2022-02-15,参数对应具体日期参数如下:
{run_date_before_1}:2022-02-14
{run_date_before_2}:2022-02-13
{run_date}:2022-02-15
{run_date_after_1}:2022-02-16
{run_date_after_2}:2020-02-17
通过增量同步方式数据入湖的第一数据表中的数据同步至数据湖时,会自动初始化数据并按日期分区存储,完全不需要人工手动建分区,导入初始化数据。分区生成规则根据data_time字段进行动态分区。例如:from_unixtime(update_time,'%Y-%m-%d')data_time。每个第一数据表执行数据入湖时会设置数据同步的并行数,例如每个第一数据表并行导入200-500万数据,当第一数据表的数据量较大时,为增加效率,需要进行数据切片,多任务并行导入。第一数据表中的数据并行导出时进行切分的字段,优先采用平均切分的方式对数据进行切分。
第一数据表存在结构发生改变的情况,数据湖中的第二数据表会自动更新,保持与第一数据表结构相同,可选地,在本申请实施例提供的数据处理方法中,在执行第三任务之前,该方法还包括:判断第一数据表的结构与数据湖中的第二数据表的结构是否相同;在第一数据表的结构与数据湖中的第二数据表的结构不相同的情况下,更新第二数据表的结构,以使得更新后的第二数据表的结构与第一数据表的结构匹配。
具体地,通过第二数据表的元数据和第一数据表的元数据比对,自动识别出表结构发生变化的第一数据表并同步结构变化到数据湖的第二数据表,保持业务系统的表结构信息和数据湖的表结构信息一致。
例如,图3跟据本申请实施例提供的更新第二数据表结构的流程图,如图3所示,获取需要采集的业务系统数据库列表,也即第一数据库的列表,执行数据入湖操作时,遍历业务系统数据库列表,依次采集每个第一数据库中的数据;数据湖中的元数据记录第二数据库的版本号,采集第一数据库的元数据并与数据湖中的元数据对比,判断是否存在第一数据表的结构相比数据湖中的历史版本的数据表结构发生变化,若未发生结构变化,直接执行数据同步入湖的操作,若发生结构变化,对发生变化的数据更新标识,标识至少包括已入湖、新增字段、已修改、已删除;自动同步发生变化的数据至第二数据表,并更新数据湖内元数据的版本号。
可选地,在本申请实施例提供的数据处理方法中,在依据第二数据表生成多个第三任务,并执行第三任务之后,该方法还包括:获取第二任务的并行数,得到第一并行数,并获取第三任务的并行数,得到第二并行数;判断各个第二数据库是否携带有目标标志,其中,目标标志用于指示第三任务执行结束;在各个第二数据库均携带有目标标志的情况下,确定起始节点和结束节点,根据第一数据库的数量确定多个第一分支,根据第二任务的第一并行数确定第二分支,根据第三任务的第二并行数确定第三分支,并根据第一数据库和第二任务的关系确定第一连接关系,根据第二任务和第三任务的关系确定第二连接关系;在起始节点和结束节点之间根据第一连接关系连接第一分支和第二分支,并根据第二连接关系连接第二分支和第三分支,得到有向无环图。
具体地,第一并行数可以为数据湖中每个第二数据库建表的并行数,第二并行数可以为执行数据入湖操作时,每个第一数据库向数据湖导入第一数据表中的数据的并行数,例如每个第一数据库同时导入20张第一数据表中的数据,目标标志可以为表征第一数据库中的数据入湖完成后的结果标志,根据第一配置信息依次生成每个第二数据库的目标标志。自动生成起始节点start和结束节点end,第一分支可以为start指向多个第二数据库的分支,第二分支可以为每个第二数据库构建第一并行数个第二数据表的分支,第三分支可以为每个第一数据库向数据湖同步第一数据表中的数据的分支,自动构建数据入湖的有向无环图(DAG),依次将任务脚本中的计算任务建立有向无环图,有向无环图用以描述数据入湖的任务流程,将整个DAG执行的结果写到success文件,标志着所有业务数据库数据入湖批量任务的完成。通过构建DAG图,能够完整记录数据入湖的过程,及时汇报数据入湖的进程。
例如,图4是根据本申请实施例提供的有向无环图,如图4所示,第一分支为start指向第一应用系统、第二应用系统、第三应用系统、第四应用系统、第五应用系统和第六应用系统,并检测各系统是否有目标任务的分支,第二分支为各系统生成同步任务队列,也即构建第二数据表的队列,第三分支为每个数据库执行数据入湖时同时同步第一数据表中的数据的分支,每个同步任务1、同步任务2表征同时同步20张第一数据表的数据。同步任务结束后,指向end。
根据本申请的另一个实施例,提供了一种数据处理方法。
图5是根据本申请实施例提供的数据处理方法的流程图二,如图5所示,该方法包括:
步骤S501,初始化开始任务,统计需要入湖的业务系统数据库的总数,用来智能生成下游依赖关系和同步并行数。
具体地,基于airflow生成有向无环图的开始节点(start),读取数据库模型配置信息,统计需要入湖的业务系统数据库的总数,并获取数据库模型配置信息。
步骤S502,读取批量依赖检查配置信息,遍历批量依赖检查配置信息,生成批量检测任务,将批量检测任务的上游任务设置为开始任务,检测目标指令为批量检测任务执行的检测命令。
具体地,目标指令可以为sql指令,例如第一应用系统批量检测sql:selectBATCHFLAG from SYSTEM_SETUP where BUSINESSDATE='${data_time}';data_time为批量日期参数,每日系统自动传入,当查询结果等于2(根据业务系统数据字典定义),表示第一应用系统批量完成,可以开始执行第一应用系统数据同步入湖任务,否则5分钟后继续轮询检测。
步骤S503,读取数据库模型配置信息,遍历业务系统数据库集合,根据数据库名称,对每一个业务系统生成数据库同步队列。
具体地,同步队列名称的生成规则为DAG名称_queue_数据库名,DMP_SQOOP_queue_ensemble表示核心系统数据库ensemble的数据同步队列,并行任务数通过资源槽数控制,没有获得资源的任务将在队列中等待。
步骤S504,根据读取的数据模型配置信息推导构建上游依赖关系,推导并生成下游数据表入湖任务,根据并行配置的数目N,相应生成N个数据入湖任务,数据入湖任务为自动生成的目标编程脚本。
具体地,目标编程脚本可以为python脚本,例如,N为2,每个数据库同时生成两个数据入湖任务,每个数据入湖任务同时进行20个数据表的数据入湖操作。数据入湖通过自动生成的python脚本执行。
步骤S505,根据数据库配置信息依次生成每个业务数据库数据入湖结果标志。
具体地,在数据湖中的数据库完成数据入湖后自动标识已入湖的标志。
步骤S506,自动生成最后任务节点,将整个有向无环图执行的结果写到目标文件,标志着所有业务数据库数据入湖批量任务的完成。
具体地,最后任务节点为end,目标文件可以为success文件,自动生成最后任务节点为end,自动生成上下游的依赖关系,任务的并行度,自动构建批量任务执行的有向无环图,依次将任务脚本中的计算任务建立有向无环图(DAG),有向无环图用以描述数据入湖的任务流程,将整个DAG执行的结果写到success文件,标志着所有业务数据库数据入湖批量任务的完成。
本申请实施例提供的数据处理方法,通过初始化开始任务,统计需要入湖的业务系统数据库的总数,用来智能生成下游依赖关系和同步并行数。读取批量依赖检查配置信息,遍历批量依赖检查配置信息,生成批量检测任务,将批量检测任务的上游任务设置为开始任务,检测目标指令为批量检测任务执行的检测命令。读取数据库模型配置信息,遍历业务系统数据库集合,根据数据库名称,对每一个业务系统生成数据库同步队列。根据读取的数据模型配置信息推导构建上游依赖关系,推导并生成下游数据表入湖任务,根据并行配置的数目N,相应生成N个数据入湖任务,数据入湖任务为自动生成的目标编程脚本。根据数据库配置信息依次生成每个业务数据库数据入湖结果标志。自动生成最后任务节点,将整个有向无环图执行的结果写到目标文件,标志着所有业务数据库数据入湖批量任务的完成。解决了相关技术中手动执行数据入湖操作效率低和容易出错的问题,通过在数据湖中依据应用系统的数据库和数据表的配置信息,进行自动建库、自动建表,执行数据同步的操作,进而达到了提高数据入湖效率,避免人为失误的效果。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例还提供了一种数据处理装置,需要说明的是,本申请实施例的数据处理装置可以用于执行本申请实施例所提供的用于数据处理方法。以下对本申请实施例提供的数据处理装置进行介绍。
图6是根据本申请实施例提供的数据处理装置的示意图。如图6所示,该装置包括:
确定单元10,用于确定待同步至数据湖的第一数据库,得到多个第一数据库,其中,第一数据库为各应用系统的数据库。
生成单元20,用于遍历各个第一数据库的第一配置信息,并依据各个第一配置信息分别生成与第一数据库对应的第一任务,其中,第一任务用于指示建立第一数据库和数据湖中的第二数据库的关联关系。
获取单元30,用于获取每个第一数据库中的元数据和第二配置信息,依据元数据和第二配置信息生成第二任务,得到多个第二任务,其中,第二任务用于指示在第二数据库中构建第二数据表,第二配置信息为第二数据表的配置信息。
执行单元40,用于依据每个第二数据表生成第三任务,得到多个第三任务,并执行第三任务,其中,第三任务用于指示将第一数据表中的数据同步至数据湖,第一数据表为第一数据库中的数据表。
本申请实施例提供的数据处理装置,通过确定单元10,确定待同步至数据湖的第一数据库,得到多个第一数据库,其中,第一数据库为各应用系统的数据库;生成单元20,遍历各个第一数据库的第一配置信息,并依据各个第一配置信息分别生成与第一数据库对应的第一任务,其中,第一任务用于指示建立第一数据库和数据湖中的第二数据库的关联关系;获取单元30,获取每个第一数据库中的元数据和第二配置信息,依据元数据和第二配置信息生成第二任务,得到多个第二任务,其中,第二任务用于指示在第二数据库中构建第二数据表,第二配置信息为第二数据表的配置信息;执行单元40,依据每个第二数据表生成第三任务,得到多个第三任务,并执行第三任务,其中,第三任务用于指示将第一数据表中的数据同步至数据湖,第一数据表为第一数据库中的数据表,解决了相关技术中手动执行数据入湖操作效率低和容易出错的问题,通过在数据湖中依据应用系统的数据库和数据表的配置信息,进行自动建库、自动建表,执行数据同步的操作,进而达到了提高数据入湖效率,避免人为失误的效果。
可选地,在本申请实施例提供的数据处理装置中,该装置还包括:第一判断单元,用于判断第一数据库是否设置有目标任务;检测单元,用于在第一数据库设置有目标任务的情况下,检测目标任务是否完成,其中,按照预设时长轮询目标任务,并在查询到目标任务的目标参数为预设数值的情况下,确定目标任务完成;第一任务生成单元,用于在目标任务完成的情况下,执行依据各个第一配置信息分别生成与第一数据库对应的第一任务的步骤。
可选地,在本申请实施例提供的数据处理装置中,生成单元20包括:获取模块,用于在第一配置信息中获取第一数据库的第一数据库名称和第一数据库地址;第一确定模块,用于在数据湖中确定第一数据库名称和第一数据库地址关联的第二数据库,得到目标第二数据库,并确定目标第二数据库的第二数据库名称和第二数据库地址;建立模块,用于依据第一数据库名称、第一数据库地址、第二数据库名称和第二数据库地址建立第一数据库和目标第二数据库的关联关系。
可选地,在本申请实施例提供的数据处理装置中,该装置还包括:第二判断单元,用于判断元数据对应的数据是否为首次同步至数据湖的数据;建立单元,用于在元数据对应的数据为首次同步至数据湖的数据的情况下,在数据湖中建立数据库,得到第一数据库关联的第二数据库。
可选地,在本申请实施例提供的数据处理装置中,执行单元40包括:第二确定模块,用于在第一数据库中确定待同步至数据湖的数据对应的第一数据表的类型;第一判断模块,用于判断第一数据表的类型是否是第一类型,并在第一数据表的类型为第一类型时,通过增量同步的方式将第一数据库中的数据同步至数据湖,其中,第一类型的第一数据表为数据湖中的历史数据未发生变化的第一数据表;第二判断模块,用于在第一数据表的类型不是第一类型的情况下,判断第一数据表的类型是否是第二类型,并在第一数据表的类型为第二类型时,通过全量同步的方式将第一数据库中的数据同步至数据湖,其中,第二类型的第一数据表为字典码值类的第一数据表;同步模块,用于在第一数据表的类型不是第一类型且不是第二类型时,通过增量同步的方式将第一数据库中的数据同步至数据湖。
可选地,在本申请实施例提供的数据处理装置中,该装置还包括:第三判断单元,用于判断第一数据表的结构与数据湖中的第二数据表的结构是否相同;更新单元,用于在第一数据表的结构与数据湖中的第二数据表的结构不相同的情况下,更新第二数据表的结构,以使得更新后的第二数据表的结构与第一数据表的结构匹配。
可选地,在本申请实施例提供的数据处理装置中,该装置还包括:并行数获取单元,用于获取第二任务的并行数,得到第一并行数,并获取第三任务的并行数,得到第二并行数;第四判断单元,用于判断各个第二数据库是否携带有目标标志,其中,目标标志用于指示第三任务执行结束;节点关系确定单元,用于在各个第二数据库均携带有目标标志的情况下,确定起始节点和结束节点,根据第一数据库的数量确定多个第一分支,根据第二任务的第一并行数确定第二分支,根据第三任务的第二并行数确定第三分支,并根据第一数据库和第二任务的关系确定第一连接关系,根据第二任务和第三任务的关系确定第二连接关系;连接单元,用于在起始节点和结束节点之间根据第一连接关系连接第一分支和第二分支,并根据第二连接关系连接第二分支和第三分支,得到有向无环图。
上述数据处理装置包括处理器和存储器,上述确定单元10、生成单元20、获取单元30和执行单元40等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来提高数据入湖效率,避免人为失误。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本申请实施例还提供了一种非易失性存储介质,非易失性存储介质包括存储的程序,其中,程序运行时控制非易失性存储介质所在的设备执行一种数据处理方法。
本申请实施例还提供了一种电子装置,包含处理器和存储器;存储器中存储有计算机可读指令,处理器用于运行计算机可读指令,其中,计算机可读指令运行时执行一种数据处理方法。本文中的电子装置可以是服务器、PC、PAD、手机等。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (10)
1.一种数据处理方法,其特征在于,包括:
确定待同步至数据湖的第一数据库,得到多个所述第一数据库,其中,所述第一数据库为各应用系统的数据库;
遍历各个所述第一数据库的第一配置信息,并依据各个所述第一配置信息分别生成与所述第一数据库对应的第一任务,其中,所述第一任务用于指示建立所述第一数据库和所述数据湖中的第二数据库的关联关系;
获取每个所述第一数据库中的元数据和第二配置信息,依据所述元数据和所述第二配置信息生成第二任务,得到多个所述第二任务,其中,所述第二任务用于指示在所述第二数据库中构建第二数据表,所述第二配置信息为所述第二数据表的配置信息;
依据每个所述第二数据表生成第三任务,得到多个第三任务,并执行所述第三任务,其中,所述第三任务用于指示将第一数据表中的数据同步至所述数据湖,所述第一数据表为所述第一数据库中的数据表。
2.根据权利要求1所述的方法,其特征在于,在遍历各个所述第一数据库的第一配置信息之后,所述方法还包括:
判断所述第一数据库是否设置有目标任务;
在所述第一数据库设置有所述目标任务的情况下,检测所述目标任务是否完成,其中,按照预设时长轮询所述目标任务,并在查询到所述目标任务的目标参数为预设数值的情况下,确定所述目标任务完成;
在所述目标任务完成的情况下,执行依据各个所述第一配置信息分别生成与所述第一数据库对应的所述第一任务的步骤。
3.根据权利要求1所述的方法,其特征在于,依据各个所述第一配置信息分别生成与所述第一数据库对应的所述第一任务包括:
在所述第一配置信息中获取所述第一数据库的第一数据库名称和第一数据库地址;
在所述数据湖中确定所述第一数据库名称和第一数据库地址关联的第二数据库,得到目标第二数据库,并确定所述目标第二数据库的第二数据库名称和第二数据库地址;
依据所述第一数据库名称、所述第一数据库地址、所述第二数据库名称和所述第二数据库地址建立所述第一数据库和所述目标第二数据库的关联关系。
4.根据权利要求1所述的方法,其特征在于,在获取每个所述第一数据库中的元数据和第二配置信息之后,所述方法还包括:
判断所述元数据对应的数据是否为首次同步至所述数据湖的数据;
在所述元数据对应的数据为首次同步至所述数据湖的数据的情况下,在所述数据湖中建立数据库,得到所述第一数据库关联的所述第二数据库。
5.根据权利要求1所述的方法,其特征在于,执行所述第三任务包括:
在所述第一数据库中确定待同步至所述数据湖的数据对应的所述第一数据表的类型;
判断所述第一数据表的类型是否是第一类型,并在所述第一数据表的类型为所述第一类型时,通过增量同步的方式将所述第一数据库中的数据同步至所述数据湖,其中,所述第一类型的第一数据表为所述数据湖中的历史数据未发生变化的第一数据表;
在所述第一数据表的类型不是所述第一类型的情况下,判断所述第一数据表的类型是否是第二类型,并在所述第一数据表的类型为所述第二类型时,通过全量同步的方式将所述第一数据库中的数据同步至所述数据湖,其中,所述第二类型的第一数据表为字典码值类的第一数据表;
在所述第一数据表的类型不是所述第一类型且不是所述第二类型时,通过增量同步的方式将所述第一数据库中的数据同步至所述数据湖。
6.根据权利要求5所述的方法,其特征在于,在执行所述第三任务之前,所述方法还包括:
判断所述第一数据表的结构与所述数据湖中的所述第二数据表的结构是否相同;
在所述第一数据表的结构与所述数据湖中的所述第二数据表的结构不相同的情况下,更新所述第二数据表的结构,以使得更新后的所述第二数据表的结构与所述第一数据表的结构匹配。
7.根据权利要求1所述的方法,其特征在于,在依据所述第二数据表生成多个第三任务,并执行所述第三任务之后,所述方法还包括:
获取所述第二任务的并行数,得到第一并行数,并获取所述第三任务的并行数,得到第二并行数;
判断各个所述第二数据库是否携带有目标标志,其中,所述目标标志用于指示所述第三任务执行结束;
在各个所述第二数据库均携带有目标标志的情况下,确定起始节点和结束节点,根据所述第一数据库的数量确定多个第一分支,根据所述第二任务的第一并行数确定第二分支,根据所述第三任务的第二并行数确定第三分支,并根据所述第一数据库和所述第二任务的关系确定第一连接关系,根据所述第二任务和所述第三任务的关系确定第二连接关系;
在所述起始节点和所述结束节点之间根据所述第一连接关系连接所述第一分支和所述第二分支,并根据所述第二连接关系连接所述第二分支和所述第三分支,得到有向无环图。
8.一种数据处理装置,其特征在于,包括:
确定单元,用于确定待同步至数据湖的第一数据库,得到多个所述第一数据库,其中,所述第一数据库为各应用系统的数据库;
生成单元,用于遍历各个所述第一数据库的第一配置信息,并依据各个所述第一配置信息分别生成与所述第一数据库对应的第一任务,其中,所述第一任务用于指示建立所述第一数据库和所述数据湖中的第二数据库的关联关系;
获取单元,用于获取每个所述第一数据库中的元数据和第二配置信息,依据所述元数据和所述第二配置信息生成第二任务,得到多个所述第二任务,其中,所述第二任务用于指示在所述第二数据库中构建第二数据表,所述第二配置信息为所述第二数据表的配置信息;
执行单元,用于依据每个所述第二数据表生成第三任务,得到多个第三任务,并执行所述第三任务,其中,所述第三任务用于指示将第一数据表中的数据同步至所述数据湖,所述第一数据表为所述第一数据库中的数据表。
9.一种非易失性存储介质,其特征在于,所述非易失性存储介质包括存储的程序,其中,所述程序运行时控制所述非易失性存储介质所在的设备执行权利要求1至7中任意一项所述的数据处理方法。
10.一种电子装置,其特征在于,包含处理器和存储器,所述存储器中存储有计算机可读指令,所述处理器用于运行所述计算机可读指令,其中,所述计算机可读指令运行时执行权利要求1至7中任意一项所述的数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210745083.1A CN117370449A (zh) | 2022-06-28 | 2022-06-28 | 数据处理方法、装置、存储介质及电子装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210745083.1A CN117370449A (zh) | 2022-06-28 | 2022-06-28 | 数据处理方法、装置、存储介质及电子装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117370449A true CN117370449A (zh) | 2024-01-09 |
Family
ID=89402712
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210745083.1A Pending CN117370449A (zh) | 2022-06-28 | 2022-06-28 | 数据处理方法、装置、存储介质及电子装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117370449A (zh) |
-
2022
- 2022-06-28 CN CN202210745083.1A patent/CN117370449A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107302450B (zh) | 一种数据采集任务变更方法及装置 | |
CN202339542U (zh) | 一种软件产品测试系统 | |
CN113656245B (zh) | 数据的巡检方法、装置、存储介质及处理器 | |
CN108920139B (zh) | 一种程序生成方法、装置、系统、电子设备及存储介质 | |
CN112487083B (zh) | 一种数据校验方法和设备 | |
US20240086165A1 (en) | Systems and methods for building and deploying machine learning applications | |
CN110019298B (zh) | 数据处理方法和装置 | |
CN111382069A (zh) | 一种数据流测试方法及系统 | |
CN111061733A (zh) | 数据处理方法、装置、电子设备和计算机可读存储介质 | |
CN113360581A (zh) | 数据处理方法、装置及存储介质 | |
CN116866242A (zh) | 一种交换机回归测试方法、设备及介质 | |
CN116069577A (zh) | 一种rpc服务的接口测试方法、设备及介质 | |
CN111078719A (zh) | 数据的恢复方法及装置、存储介质和处理器 | |
CN114661715A (zh) | 数据库的数据处理方法及装置、存储介质和电子设备 | |
CN114238085A (zh) | 接口测试方法、装置、计算机设备、存储介质 | |
Martinviita | Time series database in Industrial IoT and its testing tool | |
CN116028108B (zh) | 一种依赖包安装用时分析方法、装置、设备及存储介质 | |
CN117370449A (zh) | 数据处理方法、装置、存储介质及电子装置 | |
CN113220530B (zh) | 数据质量监控方法及平台 | |
CN111125087A (zh) | 数据的存储方法及装置 | |
CN114968725A (zh) | 任务依赖关系校正方法、装置、计算机设备及存储介质 | |
CN115114275A (zh) | 一种数据采集方法、设备及介质 | |
CN112433950A (zh) | 自动搭建测试环境的方法、电子设备及存储介质 | |
CN118503139B (zh) | 一种三维cad系统的自动化测试方法、设备及介质 | |
CN116643980A (zh) | 一种基于优先级执行的自动化测试方法、系统及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |