CN111506567A - 数据的跨库清洗方法、装置、计算机设备及介质 - Google Patents

数据的跨库清洗方法、装置、计算机设备及介质 Download PDF

Info

Publication number
CN111506567A
CN111506567A CN202010331209.1A CN202010331209A CN111506567A CN 111506567 A CN111506567 A CN 111506567A CN 202010331209 A CN202010331209 A CN 202010331209A CN 111506567 A CN111506567 A CN 111506567A
Authority
CN
China
Prior art keywords
data
target
stored
dependent
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010331209.1A
Other languages
English (en)
Other versions
CN111506567B (zh
Inventor
纪瑞贤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Dajiaying Information Technology Co Ltd
Original Assignee
Suzhou Dajiaying Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Dajiaying Information Technology Co Ltd filed Critical Suzhou Dajiaying Information Technology Co Ltd
Priority to CN202010331209.1A priority Critical patent/CN111506567B/zh
Publication of CN111506567A publication Critical patent/CN111506567A/zh
Application granted granted Critical
Publication of CN111506567B publication Critical patent/CN111506567B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据的跨库清洗方法、装置、计算机设备和存储介质,该方法包括:如果确定待清洗的目标数据集存储于多个目标数据库中,则分别建立与各目标数据库间的通信连接;在确定通信连接建立后,从存储于各目标数据库的目标数据集中,获取具有依赖关系的依赖数据集存储于缓存中;对缓存中的依赖数据集和存储于各目标数据库中的独立数据集,执行数据清洗操作。本发明实施例的技术方案将多个数据库中具有依赖关系的数据单独进行缓存,可以在不进行数据库间的数据备份的基础上,进行跨数据库的数据清洗,达到了在跨数据库的数据清洗过程中无需任一数据库停服的技术效果,极大的减少了操作时间和成本。

Description

数据的跨库清洗方法、装置、计算机设备及介质
技术领域
本发明实施例涉及数据库技术,尤其涉及一种数据的跨库清洗方法、装置、计算机设备及介质。
背景技术
随着行业领域的精细化发展,当客户需要某一项精细化服务时,例如,人资管理服务,无需耗费人力物力独立开发,而是可以向专门提供人资管理服务的第三方平台定制该服务。
不同客户可以针对同一类型的服务定制不同的个性化功能。为了保证第三方平台的统一性,可以在第三方平台的统一数据库中存储各客户针对该服务的通用功能数据;在与客户对应的数据库中,分别存储与各客户对应的个性化功能数据。也即:将同一客户的全部数据分别存储在多个不同的数据库中。
现有技术中,在对存储于多个数据库上的数据进行数据清洗时,需要将多个数据库中的数据先备份到同一数据库物理实例上,在备份过程中需要数据库停服,用户体验差,等待时间长;此外,如果同一时间内需要对多个客户的数据库均进行同样的数据清洗,则需要针对不同客户手动修改SQL(Structured Query Language,结构化查询语言)脚本的数据库名,容易造成操作失误。
发明内容
本发明实施例提供了一种数据的跨库清洗方法、装置、计算机设备及存储介质,在无需进行数据库间的数据备份的基础上,实现跨数据库的数据清洗。
第一方面,本发明实施例提供了一种数据的跨库清洗方法,所述方法包括:
如果确定待清洗的目标数据集存储于多个目标数据库中,则分别建立与各目标数据库间的通信连接;
在确定通信连接建立后,从存储于各目标数据库的目标数据集中,获取具有依赖关系的依赖数据集存储于缓存中;
对缓存中的依赖数据集和存储于各目标数据库中的独立数据集,执行数据清洗操作,其中,独立数据集为目标数据集中除去依赖数据集之外的数据集。
第二方面,本发明实施例还提供了一种数据的跨库清洗装置,该装置包括:
通信连接建立模块,用于如果确定待清洗的目标数据集存储于多个目标数据库中,则分别建立与各目标数据库间的通信连接;
依赖数据集缓存模块,用于在确定通信连接建立后,从存储于各目标数据库的目标数据集中,获取具有依赖关系的依赖数据集存储于缓存中;
数据清洗模块,用于对缓存中的依赖数据集和存储于各目标数据库中的独立数据集,执行数据清洗操作,其中,独立数据集为目标数据集中除去依赖数据集之外的数据集。
第三方面,本发明实施例还提供了一种计算机设备,所述计算机设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明任意实施例所述的数据的跨库清洗方法。
第四方面,本发明实施例还提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明任意实施例所述的数据的跨库清洗方法。
本发明实施例的技术方案通过在确定待清洗的目标数据集存储于多个目标数据库中时,分别建立与各目标数据库间的通信连接,并在通信连接建立后,从存储于各目标数据库的目标数据集中,获取具有依赖关系的依赖数据集存储于缓存中;进而可以对缓存中的依赖数据集和存储于各目标数据库中的独立数据集,执行数据清洗操作的技术手段,将多个数据库中具有依赖关系的数据单独进行缓存,可以在不进行数据库间的数据备份的基础上,进行跨数据库的数据清洗,达到了在跨数据库的数据清洗过程中无需任一数据库停服的技术效果,极大的减少了操作时间和成本。
附图说明
图1是本发明实施例一中的一种数据的跨库清洗方法的流程图;
图2是本发明实施例二中的一种数据的跨库清洗方法的流程图;
图3a是本发明实施例三中的一种数据的跨库清洗方法的流程图;
图3b是本发明实施例三所适用的一种数据的跨库清洗过程中的人机交互示意图;
图4是本发明实施例四中的一种数据的跨库清洗装置的结构图;
图5是本发明实施例五中的一种计算机设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
实施例一
图1为本发明实施例一提供的一种数据的跨库清洗方法的流程图,本实施例可适用于对同时存储于多个数据库中的数据进行跨数据库的数据清洗的情况,该方法可以由数据的跨库清洗装置来执行,该装置可以由软件和/或硬件来实现,并一般可以集在具有数据处理功能的终端或者服务器中,本实施例的方法具体包括如下步骤:
S110、如果确定待清洗的目标数据集存储于多个目标数据库中,则分别建立与各目标数据库间的通信连接。
其中,所述目标数据库具体是指存储有待清洗的目标数据集的数据库,一个目标数据库配置在一台独立的计算机设备(终端或者服务器等)中。每个目标数据库中存储有目标数据集中包括的部分数据,各个目标数据库中存储的数据的总和,构成所述目标数据集。其中,目标数据集中可以包括:表单、图表、以及视图等数据。
其中,可以预先建立数据集的识别标识与存储数据库之间的第一映射关系,进而在获取到所述目标数据集的识别标识后,可以通过查询该第一映射关系,确定该目标数据集存储于一个或者多个目标数据库中。如果该目标数据集仅存储于一个目标数据库中,则可以直接执行与目标数据集对应的数据清洗操作。
其中,在该目标数据集中,存储于不同数据库中的数据之间可以具有依赖关系,也可以不具有依赖关系,本实施例对此并不进行限定。
在现有技术中,为了实现数据的跨库清洗,需要将各个不同数据库中存储的数据均拷贝到同一个数据库示例中进行处理,也就是说,必然涉及某一个数据库停止服务。在本实施例中,可以使用一个第三方设备,也就是说不存储目标数据库的设备分别与各目标数据库建立连接,对各目标数据库中存储的目标数据集中的数据进行数据清洗,也就不会造成任一服务器停止服务。
在本实施例中,可以预先建立数据库标识与数据库连接信息之间的第二映射关系,在确定与目标数据集匹配的多个目标数据库的数据库标识之后,通过查询该第二映射关系,可以确定与各所述目标数据库分别对应的数据库连接信息,进而可以通过上述数据库连接信息,分别建立与各目标数据库间的通信连接。进而,可以通过访问各个目标数据库,实现对目标数据集的数据清洗。
S120、在确定通信连接建立后,从存储于各目标数据库的目标数据集中,获取具有依赖关系的依赖数据集存储于缓存中。
其中,在进行数据清洗时,如果各个目标数据库中存储的目标数据集中的数据彼此之间没有依赖关系,则可以分别对各个目标数据库中存储的目标数据集中的数据进行数据清洗;如果各个目标数据库中存储的目标数据集中的数据彼此之间有依赖关系,则需要将上述有依赖关系的数据进行汇总存储,并对汇总存储的数据进行统一的数据清洗操作。
相应的,需要首先在目标数据集中确定出具有依赖关系的依赖数据集,并将该依赖数据集存储在第三方设备的缓存中。需要再次说明的是,上述第三方设备强调的是,执行数据的跨库清洗操作的设备不属于任意一个用于存储目标数据库的设备。
在本实施例的一个可选的实施方式中,从存储于各目标数据库的目标数据集中,获取具有依赖关系的依赖数据集存储于缓存中,可以具体包括:
依次遍历各目标数据库中存储的各项目标数据;如果确定当前遍历的第一目标数据库中存储的第一数据项,引用第二目标数据库中存储的第二数据项,则确定第一数据项和第二数据项具有依赖数据;将第一数据项和第二数据项作为依赖数据加入至缓存中存储的依赖数据集。
具体的,可以分别遍历目标数据集中的各项目标数据,如果当前遍历的第一目标数据库中的数据引用了第二目标数据库中的其他数据,则说明上述两个数据之间具有依赖关系,进而可以将上述两个数据作为依赖数据集中的数据进行缓存。
当然,还可以采取其他的方式,从存储于各目标数据库的目标数据集中,获取具有依赖关系的依赖数据集,例如,通过预存的依赖索引表确定等方式,本实施例对此并不进行限制。
S130、对缓存中的依赖数据集和存储于各目标数据库中的独立数据集,执行数据清洗操作,其中,独立数据集为目标数据集中除去依赖数据集之外的数据集。
在本实施例中,可以在对第三方设备中缓存的依赖数据集进行数据清洗的同时,直接对各个目标数据库中存储的目标数据集中除去依赖数据集之外的数据集分别进行数据清洗,并在完成数据清洗后,将缓存中当前存储的数据清洗结果,重新发送至匹配的各个目标数据库中,以完成对目标数据集的数据清洗操作。
本发明实施例的技术方案通过在确定待清洗的目标数据集存储于多个目标数据库中时,分别建立与各目标数据库间的通信连接,并在通信连接建立后,从存储于各目标数据库的目标数据集中,获取具有依赖关系的依赖数据集存储于缓存中;进而可以对缓存中的依赖数据集和存储于各目标数据库中的独立数据集,执行数据清洗操作的技术手段,将多个数据库中具有依赖关系的数据单独进行缓存,可以在不进行数据库间的数据备份的基础上,进行跨数据库的数据清洗,达到了在跨数据库的数据清洗过程中无需任一数据库停服的技术效果,极大的减少了操作时间和成本。
在上述各实施例的基础上,所述方法由第三方数据清洗工具执行,所述第三方数据清洗工具与各目标数据集分别配置在不同的电子设备中。
实施例二
图2是本发明实施例二提供的一种数据的跨库清洗方法的流程图,本发明实施例以上述各实施例为基础进行进一步具体化,在本实施例中,将如果确定待清洗的目标数据集存储于多个目标数据库中,则分别建立与各目标数据库间的通信连接的操作,具体化为:获取待处理的客户标识,并识别与客户标识对应的目标数据库的数据库连接信息,所述目标数据库用于存储与客户标识匹配的目标数据集;如果确定目标数据库的数量为至少两个,则根据所述数据库连接信息,分别建立与各目标数据库间的通信连接。
相应的,如图2所示,本发明实施例的方案具体包括如下步骤:
S210、获取待处理的客户标识,并识别与客户标识对应的目标数据库的数据库连接信息,所述目标数据库用于存储与客户标识匹配的目标数据集。
在本实施例中,可以通过用户输入的客户标识,唯一确定与客户匹配的目标数据集,进而可以根据预先建立的客户标识与数据库连接信息之间的映射关系,识别与客户标识对应的目标数据库的数据库连接信息。
下述代码示例出根据用户输入的客户标识,获取数据库连接信息的示例代码。
Figure BDA0002465019480000081
Figure BDA0002465019480000091
其中,当用户通过输入客户标识(Identity document,ID),指定了需要清洗哪个客户的数据,只需要在启动数据清洗工具时输入相应的客户ID,可以在后续识别与客户标识对应的目标数据库的数据库连接信息。如果输入的客户ID不正确,可以直接给出提示后停止程序,防止操作出错。
S220、判断所述目标数据库的数量是否为至少两个:若是,则执行S230;否则,执行S240。
S230、根据所述数据库连接信息,分别建立与各目标数据库间的通信连接,执行S250。
如前所述,当第三方数据清洗工具在启动并获取到客户ID后,即可获取当前需要操作的是哪一个客户的数据库,也即,与该客户ID匹配的目标数据库。当确定目标数据库的数量为多个时,可以通过获取的数据库连接信息,分别建立与各目标数据库间的通信连接。
其中,下述代码示出了同时开启与两个数据库的数据库连接的示例代码。
Figure BDA0002465019480000092
Figure BDA0002465019480000101
在与每个目标数据库分别进行数据库连接之后,可以通过访问各目标数据库,获取目标数据集中包括的依赖数据集,并基于该依赖数据集,进行数据清洗操作。
S240、对所述目标数据库中存储的目标数据集中的数据,执行数据清洗操作。
S250、在确定通信连接建立后,从存储于各目标数据库的目标数据集中,获取具有依赖关系的依赖数据集存储于缓存中,执行S260。
S260、根据用户输入的数据清理指令,对缓存中的依赖数据集和存储于各目标数据库中的独立数据集,执行数据清洗操作,执行S270。
其中,可以根据用户输入的数据清洗指令,直接本机设备的缓存中的依赖数据集进行数据清洗操作。
同时,可以将该数据清洗指令分别发送至各个目标数据库,由各个目标数据库执行对存储于各目标数据库中的独立数据集进行数据清洗操作。或者,可以根据该数据清洗指令,构造独立数据集清洗指令(可以针对各个目标数据库分别构造不同的清洗指令,也可以构造一个统一清洗指令),并将该独立数据集清洗指令分别发送至各个目标数据库,由各个目标数据库执行对存储于各目标数据库中的独立数据集进行数据清洗操作。其中,根据用户输入的数据清理指令,对缓存中的依赖数据集和存储于各目标数据库中的独立数据集,执行数据清洗操作,具体还可以包括:
将所述数据清洗指令,与预置的至少一项标准数据清洗指令进行匹配;
如果所述数据清洗指令与全部标准数据清洗指令均不匹配,则提示用户重新输入新的数据清洗指令。
具体的,数据清洗指令或者标准清洗指令包括:对全部数据的清洗指令,以及对至少一项指定数据的清洗指令。
其中,可以在该第三方数据清洗中,预先内置有一个或者多个标准数据清洗指令,基于该标准数据清洗指令,可以实现对全部数据或者指定的部分数据的清洗操作。
其中,下述代码示出了根据用户输入的数据清理指令,对缓存中的依赖数据集和存储于各目标数据库中的独立数据集,执行数据清洗操作的示例代码。
Figure BDA0002465019480000111
Figure BDA0002465019480000121
Figure BDA0002465019480000131
S260、如果检测到所述依赖数据集,和/或所述独立数据集中的至少一项数据发生清洗错误,则对发生清洗错误的数据进行数据回滚操作。
在本实施例中,在第三方数据清洗工具中可以内置清洗错误的回滚机制,当第三方工具检测到在数据清洗过程中发生数据清洗错误时,可以对发生清洗错误的数据进行数据回滚操作,记录并反馈发生清洗错误的数据位置,用户可以根据该数据位置,继续进行至少一项指定数据的清洗指令。
本发明实施例的技术方案通过在确定待清洗的目标数据集存储于多个目标数据库中时,分别建立与各目标数据库间的通信连接,并在通信连接建立后,从存储于各目标数据库的目标数据集中,获取具有依赖关系的依赖数据集存储于缓存中;进而可以对缓存中的依赖数据集和存储于各目标数据库中的独立数据集,执行数据清洗操作的技术手段,将多个数据库中具有依赖关系的数据单独进行缓存,可以在不进行数据库间的数据备份的基础上,进行跨数据库的数据清洗,达到了在跨数据库的数据清洗过程中无需任一数据库停服的技术效果,极大的减少了操作时间和成本。
此外,通过获取待处理的客户标识,并识别与客户标识对应的目标数据库的数据库连接信息,根据所述数据库连接信息,分别建立与各目标数据库间的通信连接的方式,彻底避免了如果同一时间内需要对多个客户的数据库均进行同样的数据清洗,需要针对不同客户手动修改SQL脚本的数据库名,容易造成操作失误的问题,只要可以通过客户标识区分客户,即可实现针对不同客户的数据清洗操作。
实施例三
图3a是本发明实施例三提供的一种数据的跨库清洗方法的流程图,本发明实施例以上述各实施例为基础进行进一步具体化,在本实施例中,将获取具有依赖关系的依赖数据集存储于缓存中,具体化为:依次遍历各目标数据库中存储的各项目标数据;如果确定当前遍历的第一目标数据库中存储的第一数据项,引用第二目标数据库中存储的第二数据项,则确定第一数据项和第二数据项具有依赖数据;将第一数据项和第二数据项作为依赖数据加入至缓存中存储的依赖数据集。
相应的,如图3a所示,本发明实施例的方案具体包括如下步骤:
S310、如果确定待清洗的目标数据集存储于多个目标数据库中,则分别建立与各目标数据库间的通信连接。
S320、在确定通信连接建立后,依次遍历各目标数据库中存储的各项目标数据。
S330、如果确定当前遍历的第一目标数据库中存储的第一数据项,引用第二目标数据库中存储的第二数据项,则确定第一数据项和第二数据项具有依赖数据。
S340、将第一数据项和第二数据项作为依赖数据加入至缓存中存储的依赖数据集。
S350、调用预置的标准数据清理指令,对缓存中的依赖数据集和存储于各目标数据库中的独立数据集,执行数据清洗操作。
在本实施例中,可以不向用户提供手动输入数据清洗指令的功能,防止用户输入错误,例如,可以在第三方数据清洗工具启动前,以下拉菜单的形式提示用户选择所需的标准数据清理指令的标识,并根据用户所选择的标准数据清理指令的标识,调用与该标识匹配的标准数据清理指令,对缓存中的依赖数据集和存储于各目标数据库中的独立数据集,执行数据清洗操作。
具体的,该标准清洗指令包括:对全部数据的清洗指令,以及对至少一项指定数据的清洗指令。
其中,在图3b中示出了本发明实施例三所适用的一种数据的跨库清洗过程中的人机交互示意图。
S360、如果检测到所述依赖数据集,和/或所述独立数据集中的至少一项数据发生清洗错误,则对发生清洗错误的数据进行数据回滚操作。
本发明实施例的技术方案通过依次遍历各目标数据库中存储的各项目标数据;如果确定当前遍历的第一目标数据库中存储的第一数据项,引用第二目标数据库中存储的第二数据项,则确定第一数据项和第二数据项具有依赖数据;将第一数据项和第二数据项作为依赖数据加入至缓存中存储的依赖数据集的方式,可以快速获取各个目标数据库中具有依赖关系的数据,进而可以通过仅在第三方数据清洗工具中缓存上述依赖关系数据的方式,实现数据的跨库清洗。
实施例四
图4为本发明实施例四提供的一种数据的跨库清洗装置的结构图,如图4所示,该装置包括:通信连接建立模块410、依赖数据集缓存模块420以及数据清洗模块430,其中:
通信连接建立模块410,用于如果确定待清洗的目标数据集存储于多个目标数据库中,则分别建立与各目标数据库间的通信连接。
依赖数据集缓存模块420,用于在确定通信连接建立后,从存储于各目标数据库的目标数据集中,获取具有依赖关系的依赖数据集存储于缓存中。
数据清洗模块430,用于对缓存中的依赖数据集和存储于各目标数据库中的独立数据集,执行数据清洗操作,其中,独立数据集为目标数据集中除去依赖数据集之外的数据集。
本发明实施例的技术方案通过在确定待清洗的目标数据集存储于多个目标数据库中时,分别建立与各目标数据库间的通信连接,并在通信连接建立后,从存储于各目标数据库的目标数据集中,获取具有依赖关系的依赖数据集存储于缓存中;进而可以对缓存中的依赖数据集和存储于各目标数据库中的独立数据集,执行数据清洗操作的技术手段,将多个数据库中具有依赖关系的数据单独进行缓存,可以在不进行数据库间的数据备份的基础上,进行跨数据库的数据清洗,达到了在跨数据库的数据清洗过程中无需任一数据库停服的技术效果,极大的减少了操作时间和成本。
在上述各实施例的基础上,通信连接建立模块410,可以具体用于:
获取待处理的客户标识,并识别与客户标识对应的目标数据库的数据库连接信息,所述目标数据库用于存储与客户标识匹配的目标数据集;
如果确定目标数据库的数量为至少两个,则根据所述数据库连接信息,分别建立与各目标数据库间的通信连接。
在上述各实施例的基础上,依赖数据集缓存模块420可以具体用于:
依次遍历各目标数据库中存储的各项目标数据;
如果确定当前遍历的第一目标数据库中存储的第一数据项,引用第二目标数据库中存储的第二数据项,则确定第一数据项和第二数据项具有依赖数据;
将第一数据项和第二数据项作为依赖数据加入至缓存中存储的依赖数据集。
在上述各实施例的基础上,数据清洗模块430可以具体包括:
用户触发清洗单元,用于根据用户输入的数据清理指令,对缓存中的依赖数据集和存储于各目标数据库中的独立数据集,执行数据清洗操作。
在上述各实施例的基础上,数据清洗模块430可以具体用于:
调用预置的标准数据清理指令,对缓存中的依赖数据集和存储于各目标数据库中的独立数据集,执行数据清洗操作。
在上述各实施例的基础上,用户触发清洗单元可以具体用于:
将所述数据清洗指令,与预置的至少一项标准数据清洗指令进行匹配;
如果所述数据清洗指令与全部标准数据清洗指令均不匹配,则提示用户重新输入新的数据清洗指令。
在上述各实施例的基础上,还可以包括,数据回滚模块,用于:
在对缓存中的依赖数据集和存储于各目标数据库中的独立数据集,执行数据清洗操作之后,如果检测到所述依赖数据集,和/或所述独立数据集中的至少一项数据发生清洗错误,则对发生清洗错误的数据进行数据回滚操作。
在上述各实施例的基础上,数据清洗指令或者标准清洗指令包括:对全部数据的清洗指令,以及对至少一项指定数据的清洗指令。
在上述各实施例的基础上,所述装置由第三方数据清洗工具执行,所述第三方数据清洗工具与各目标数据集分别配置在不同的电子设备中。
本发明实施例所提供的数据的跨库清洗装置可执行本发明任意实施例所提供的数据的跨库清洗方法,具备执行方法相应的功能模块和有益效果。
实施例五
图5为本发明实施例五提供的一种计算机设备的结构示意图。图5示出了适于用来实现本发明实施方式的示例性计算机设备12的框图。图5显示的计算机设备12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MA6)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(P6I)总线。
计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图5未显示,通常称为“硬盘驱动器”)。尽管图5中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如6D-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该设备/终端/服务器12交互的设备通信,和/或与使得该设备/终端/服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白,尽管图中未示出,可以结合计算机设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的数据的跨库清洗方法。
也即:当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现:如果确定待清洗的目标数据集存储于多个目标数据库中,则分别建立与各目标数据库间的通信连接;在确定通信连接建立后,从存储于各目标数据库的目标数据集中,获取具有依赖关系的依赖数据集存储于缓存中;对缓存中的依赖数据集和存储于各目标数据库中的独立数据集,执行数据清洗操作,其中,独立数据集为目标数据集中除去依赖数据集之外的数据集。
实施例六
本发明实施例六还提供了一种计算机可读存储介质。其上存储有计算机程序,该程序被处理器执行时实现:如果确定待清洗的目标数据集存储于多个目标数据库中,则分别建立与各目标数据库间的通信连接;在确定通信连接建立后,从存储于各目标数据库的目标数据集中,获取具有依赖关系的依赖数据集存储于缓存中;对缓存中的依赖数据集和存储于各目标数据库中的独立数据集,执行数据清洗操作,其中,独立数据集为目标数据集中除去依赖数据集之外的数据集。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (12)

1.一种数据的跨库清洗方法,其特征在于,包括:
如果确定待清洗的目标数据集存储于多个目标数据库中,则分别建立与各目标数据库间的通信连接;
在确定通信连接建立后,从存储于各目标数据库的目标数据集中,获取具有依赖关系的依赖数据集存储于缓存中;
对缓存中的依赖数据集和存储于各目标数据库中的独立数据集,执行数据清洗操作,其中,独立数据集为目标数据集中除去依赖数据集之外的数据集。
2.根据权利要求1所述的方法,其特征在于,如果确定待清洗的目标数据集存储于多个目标数据库中,则分别建立与各目标数据库间的通信连接,包括:
获取待处理的客户标识,并识别与客户标识对应的目标数据库的数据库连接信息,所述目标数据库用于存储与客户标识匹配的目标数据集;
如果确定目标数据库的数量为至少两个,则根据所述数据库连接信息,分别建立与各目标数据库间的通信连接。
3.根据权利要求1所述的方法,其特征在于,获取具有依赖关系的依赖数据集存储于缓存中,包括:
依次遍历各目标数据库中存储的各项目标数据;
如果确定当前遍历的第一目标数据库中存储的第一数据项,引用第二目标数据库中存储的第二数据项,则确定第一数据项和第二数据项具有依赖数据;
将第一数据项和第二数据项作为依赖数据加入至缓存中存储的依赖数据集。
4.根据权利要求1所述的方法,其特征在于,对缓存中的依赖数据集和存储于各目标数据库中的独立数据集,执行数据清洗操作,包括:
根据用户输入的数据清理指令,对缓存中的依赖数据集和存储于各目标数据库中的独立数据集,执行数据清洗操作。
5.根据权利要求1所述的方法,其特征在于,对缓存中的依赖数据集和存储于各目标数据库中的独立数据集,执行数据清洗操作,包括:
调用预置的标准数据清理指令,对缓存中的依赖数据集和存储于各目标数据库中的独立数据集,执行数据清洗操作。
6.根据权利要求4所述的方法,其特征在于,根据用户输入的数据清理指令,对缓存中的依赖数据集和存储于各目标数据库中的独立数据集,执行数据清洗操作,具体包括:
将所述数据清洗指令,与预置的至少一项标准数据清洗指令进行匹配;
如果所述数据清洗指令与全部标准数据清洗指令均不匹配,则提示用户重新输入新的数据清洗指令。
7.根据权利要求4或5所述的方法,其特征在于,在对缓存中的依赖数据集和存储于各目标数据库中的独立数据集,执行数据清洗操作之后,还包括:
如果检测到所述依赖数据集,和/或所述独立数据集中的至少一项数据发生清洗错误,则对发生清洗错误的数据进行数据回滚操作。
8.根据权利要求4或5所述的方法,其特征在于,数据清洗指令或者标准清洗指令包括:对全部数据的清洗指令,以及对至少一项指定数据的清洗指令。
9.根据权利要求1所述的方法,其特征在于,所述方法由第三方数据清洗工具执行,所述第三方数据清洗工具与各目标数据集分别配置在不同的电子设备中。
10.一种数据的跨库清洗装置,其特征在于,包括:
通信连接建立模块,用于如果确定待清洗的目标数据集存储于多个目标数据库中,则分别建立与各目标数据库间的通信连接;
依赖数据集缓存模块,用于在确定通信连接建立后,从存储于各目标数据库的目标数据集中,获取具有依赖关系的依赖数据集存储于缓存中;
数据清洗模块,用于对缓存中的依赖数据集和存储于各目标数据库中的独立数据集,执行数据清洗操作,其中,独立数据集为目标数据集中除去依赖数据集之外的数据集。
11.一种计算机设备,其特征在于,所述计算机设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-9中任一所述的数据的跨库清洗方法。
12.一种计算机存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-9中任一所述的数据的跨库清洗方法。
CN202010331209.1A 2020-04-24 2020-04-24 数据的跨库清洗方法、装置、计算机设备及介质 Active CN111506567B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010331209.1A CN111506567B (zh) 2020-04-24 2020-04-24 数据的跨库清洗方法、装置、计算机设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010331209.1A CN111506567B (zh) 2020-04-24 2020-04-24 数据的跨库清洗方法、装置、计算机设备及介质

Publications (2)

Publication Number Publication Date
CN111506567A true CN111506567A (zh) 2020-08-07
CN111506567B CN111506567B (zh) 2022-10-28

Family

ID=71877988

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010331209.1A Active CN111506567B (zh) 2020-04-24 2020-04-24 数据的跨库清洗方法、装置、计算机设备及介质

Country Status (1)

Country Link
CN (1) CN111506567B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109683954A (zh) * 2018-12-29 2019-04-26 北京小米移动软件有限公司 lib库集成方法、装置及存储介质
CN109726196A (zh) * 2018-11-27 2019-05-07 北京奇艺世纪科技有限公司 一种数据清洗方法、装置及设备
US20190197256A1 (en) * 2017-12-21 2019-06-27 Compugroup Medical Se Method for accessing a database stored on a server using a relation
CN110489483A (zh) * 2019-07-08 2019-11-22 中国平安人寿保险股份有限公司 数据同步方法、装置、计算机设备以及存储介质
CN110597793A (zh) * 2019-07-30 2019-12-20 深圳市华傲数据技术有限公司 数据管理方法及装置、电子设备和计算机可读存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190197256A1 (en) * 2017-12-21 2019-06-27 Compugroup Medical Se Method for accessing a database stored on a server using a relation
CN109726196A (zh) * 2018-11-27 2019-05-07 北京奇艺世纪科技有限公司 一种数据清洗方法、装置及设备
CN109683954A (zh) * 2018-12-29 2019-04-26 北京小米移动软件有限公司 lib库集成方法、装置及存储介质
CN110489483A (zh) * 2019-07-08 2019-11-22 中国平安人寿保险股份有限公司 数据同步方法、装置、计算机设备以及存储介质
CN110597793A (zh) * 2019-07-30 2019-12-20 深圳市华傲数据技术有限公司 数据管理方法及装置、电子设备和计算机可读存储介质

Also Published As

Publication number Publication date
CN111506567B (zh) 2022-10-28

Similar Documents

Publication Publication Date Title
CN108519967B (zh) 图表可视化方法、装置、终端和存储介质
US11269823B1 (en) Migrating data between databases
CN111368013B (zh) 基于多账户的统一标识方法、系统、设备和存储介质
CN108733720B (zh) 多数据库类型的sql查询的在线校验方法和校验系统
CN114925084B (zh) 分布式事务处理方法、系统、设备及可读存储介质
CN111324441A (zh) 运行环境的切换方法、装置、计算机设备和存储介质
CN110704476A (zh) 数据处理方法、装置、设备及存储介质
CN111291330A (zh) 一种svn权限管理方法、装置、计算机设备及存储介质
CN112346794A (zh) 接口调用方法、装置、设备及介质
CN113971037A (zh) 应用处理方法、装置、电子设备及存储介质
CN110688111A (zh) 业务流程的配置方法、装置、服务器和存储介质
CN110677307B (zh) 一种服务监测方法、装置、设备和存储介质
CN111367813B (zh) 决策引擎自动化测试方法、装置、服务器及存储介质
CN113238815A (zh) 一种接口访问控制方法、装置、设备及存储介质
CN111782382A (zh) 任务处理方法及装置、存储介质及电子设备
CN112069158A (zh) 一种数据修复方法、装置、设备和存储介质
US20230214153A1 (en) Memory device forensics and preparation
CN111506567B (zh) 数据的跨库清洗方法、装置、计算机设备及介质
CN115022201B (zh) 一种数据处理功能测试方法、装置、设备及存储介质
CN110825802A (zh) 多类型数据库数据的备份方法、装置、设备及存储介质
CN110688305A (zh) 测试环境同步方法、装置、介质、电子设备
CN111262727B (zh) 服务的扩容方法、装置、设备及存储介质
CN112925796A (zh) 一种写一致性控制方法、装置、设备及存储介质
CN113392002A (zh) 一种测试系统构建方法、装置、设备及存储介质
CN109740027B (zh) 数据交换方法、装置、服务器和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant