CN108984652A - 一种可配置数据清洗系统和方法 - Google Patents

一种可配置数据清洗系统和方法 Download PDF

Info

Publication number
CN108984652A
CN108984652A CN201810677790.5A CN201810677790A CN108984652A CN 108984652 A CN108984652 A CN 108984652A CN 201810677790 A CN201810677790 A CN 201810677790A CN 108984652 A CN108984652 A CN 108984652A
Authority
CN
China
Prior art keywords
task
data
cleaning
source
allocation list
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810677790.5A
Other languages
English (en)
Other versions
CN108984652B (zh
Inventor
陈鹏林
郝东进
沈惟冉
王腾龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sheng Kang Huijin Technology Co Ltd
Original Assignee
Beijing Sheng Kang Huijin Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sheng Kang Huijin Technology Co Ltd filed Critical Beijing Sheng Kang Huijin Technology Co Ltd
Priority to CN201810677790.5A priority Critical patent/CN108984652B/zh
Publication of CN108984652A publication Critical patent/CN108984652A/zh
Application granted granted Critical
Publication of CN108984652B publication Critical patent/CN108984652B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种可配置数据清洗系统和方法,包括任务控制器、清洗工具、第一配置表、第二配置表、第三配置表。第一配置表包括任务编码和清洗工具。第二配置表包括任务编码、数据标识、源数据库、目标数据库和清洗规则标识。源数据库中包括源字段,目标数据库中包括目标字段。第三配置表包括数据标识、字段名称、源字段、目标字段和转换规则标识。任务控制器读取配置表,调用清洗工具。清洗工具根据任务编码对应的数据标识从源数据库中读取源数据、确定清洗规则、按照清洗规则筛选源数据。确定字段名称对应的转换规则标识,由源字段的数据转换为目标字段的数据,发送至目标数据库。所述系统和方法保证了数据清洗的连贯性,有效利用时间和资源。

Description

一种可配置数据清洗系统和方法
技术领域
本申请涉及软件领域,尤其涉及一种可配置数据清洗系统和方法。
背景技术
近年来随着互联网行业的飞速发展,越来越多的信息可以直接从网络上读取。但同时互联网端的数据来源和内容复杂,数据量过于庞大。企业在进行项目开发的过程中需要大量的数据,这些数据多数来源于互联网。需要进行二次处理将数据清洗后才可以使用,在数据清洗的过程中,不同来源的数据清洗需要不同的配置,导致配置繁琐,当数据清洗任务多的时候,数据源、目标、转换方式和步骤都难以维护。同一数据清洗在开发、测试及正式环境中的区别也会导致数据清洗过程需要重新编码。数据清洗过程需要对每个数据清洗做日志记录。
因此,本申请提出了一种可配置数据清洗系统和方法,所述系统和方法采用任务模式驱动,配置化任务模式和接口模式清洗,与数据集成方非侵入式集成,数据的读取和存储及清洗逻辑清晰,可通过可视化方案提供总览,同时可以支持清洗逻辑的变更,确保数据清洗的连贯性,有效合理的利用数据清洗的资源和时间。
发明内容
本申请实施例提供一种可配置数据清洗系统,解决了现有技术存在的配置繁琐、数据的读取和存储以及清洗步骤难以维护、统一数据在不同环境下清洗需要重新编码等问题。
所述可配置数据清洗系统包括任务控制器、清洗工具、第一配置表、第二配置表、第三配置表。
所述第一配置表包括任务编码和与所述任务编码对应的清洗工具。
所述第二配置表包括任务编码、与所述任务编码对应的至少一个数据标识,还包括与所述数据标识对应的源数据库、目标数据库和清洗规则标识。
所述源数据库中包括至少一个源字段;所述目标数据库中包括至少一个目标字段。
所述第三配置表包括数据标识、与所述数据标识对应的字段名称,还包括与所述字段名称对应的源字段、目标字段和转换规则标识。
所述任务控制器,用于读取所述各配置表,根据所述任务编码调用对应的清洗工具。
所述清洗工具,用于根据所述任务编码对应的数据标识从源数据库中读取源数据、确定清洗规则、按照所述清洗规则筛选所述源数据;确定所述字段名称对应的转换规则,由源字段的数据转换为目标字段的数据,存储至所述目标数据库。
优选地,所述可配置数据清洗系统还包括任务列表。所述任务列表中包括至少一个任务编码。所述任务控制器,还用于按照所述任务列表中的任务编码的顺序读取第一配置表。
优选地,所述任务列表还包括任务状态标识,用于所述任务控制器读取和修改任务状态标识。所述任务状态标识包括待执行、执行中、执行成功、执行失败。
优选地,所述第二配置表还包括源数据表和目标数据表。所述源数据表位于所述源数据库内,用于提供所述源数据。所述目标数据表位于所述目标数据库内,用于存储所述目标数据。
优选地,所述清洗规则包括全清洗规则和/或增量清洗规则标识。所述全清洗规则为清洗所有源数据。所述增量清洗规则为清洗未清洗过的源数据。
优选地,所述转换规则包括以下至少一种:数据格式转换、数据类型转换、数据简单处理。所述数据简单处理包括数据截取和数据扩展。
优选地,所述第一配置表还包括任务触发方式标识。所述任务触发方式包括按时间顺序触发和外部触发。
本申请实施例还提供一种可配置数据清洗方法,所述方法用于上述可配置数据清洗系统,包括以下步骤:
读取所述第一配置表、第二配置表和第三配置表,根据所述任务编码调用清洗工具。
根据所述任务编码对应的数据标识从源数据库中读取源数据、确定清洗规则、按照所述清洗规则筛选所述源数据。
确定所述字段名称对应的转换规则,由源字段的数据转换为目标字段的数据,存储至所述目标数据库。
优选地,还包括以下步骤:
按照所述任务列表中的任务编码的顺序读取第一配置表。优选地,还包括以下步骤:
仅读取所述任务列表中任务状态为待执行标识的任务编码,读取后将所述任务状态标识修改为表示执行中的符号,任务完成后将所述任务状态标识修改为表示执行结果的符号。
本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:
所述可配置数据清洗系统和方法采用任务模式驱动,配置化任务模式和接口模式清洗,与数据集成方非侵入式集成,数据的读取和存储及清洗逻辑清晰,可通过可视化方案提供总览,同时可以支持清洗逻辑的变更,确保数据清洗的连贯性,有效合理的利用数据清洗的资源和时间。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例提供的一种可配置数据清洗系统的系统图;
图2为本申请实施例提供的另一种可配置数据清洗系统的系统图;
图3为本申请实施例提供的一种可配置数据清洗方法的流程图;
图4为本申请实施例提供的一种包括任务列表的可配置数据清洗方法流程图;
图5为本申请实施例提供的一种反馈任务执行结果的可配置数据清洗方法流程图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
以下结合附图,详细说明本申请各实施例提供的技术方案。
图1为本申请实施例提供的一种可配置数据清洗系统的系统图,如图1所示,本实施例提供的可配置数据清洗系统包括:任务控制器、清洗工具、第一配置表、第二配置表、第三配置表。
所述第一配置表包括任务编码和与所述任务编码对应的清洗工具。
作为本申请的实施例,所述任务编码为计算机可识别的字符串,用于表示任务,所述任务来源于外部系统,所述任务控制器通过任务编码区分、识别不同的任务。所述清洗工具用于清洗所述任务中包含的数据,所述清洗工具有一个或多个,在所述第一配置表中每一个任务编码都有与之对应的清洗工具。
所述任务控制器,用于读取所述各配置表,根据所述任务编码调用对应的清洗工具。
所述清洗工具,用于根据所述任务编码对应的数据标识从源数据库中读取源数据、确定清洗规则、按照所述清洗规则筛选所述源数据;确定所述字段名称对应的转换规则,由源字段的数据转换为目标字段的数据,存储至所述目标数据库。
进一步的,所述第一配置表还包括任务触发方式标识,所述任务触发方式包括按时间顺序触发和外部触发。
所述任务控制器根据所述任务触发方式标识来触发从所述任务列表中读取的任务,若所述任务触发方式为按时间顺序触发,则所述任务控制器按时间顺序处理从所述任务列表中读取的任务;若所述任务触发方式为外部触发,则所述任务控制器根据外部系统的命令选取相应的任务进行处理。
所述第二配置表包括任务编码、与所述任务编码对应的至少一个数据标识,还包括与所述数据标识对应的源数据库、目标数据库和清洗规则标识。
所述源数据库中包括至少一个源字段;所述目标数据库中包括至少一个目标字段。
作为本申请的实施例,所述源数据库包括源数据库的名称和地址,用于提供源数据。所述目标数据库包括目标数据库的名称和地址,用于存储目标数据。在所述第二配置表中,每个任务编码代表的任务都有与其相对应一个或多个数据标识,所述数据标识为数字、字母等用于表示每个任务编码所代表任务的下一级子任务的字符,例如可以是1、2、3或A、B、C等。每个数据标识在所述第二配置表中都有与之对应的源数据库、目标数据库和清洗规则标识。
进一步的,所述第二配置表还包括源数据表和目标数据表,所述源数据表包括所述源数据表的名称和地址,所述目标数据表包括所述目标数据的名称和地址。所述源数据表位于所述源数据库内,每个源数据表包括至少一个源字段,用于提供所述源数据。所述目标数据表位于所述目标数据库内,每个目标数据表包括至少一个目标字段,用于存储所述目标数据。
所述清洗规则包括全清洗规则和/或增量清洗规则。所述全清洗规则为清洗所有源数据;所述增量清洗规则为清洗未清洗过的源数据。
根据所述第一配置表中与任务对应的清洗规则,所述清洗工具判断是否对所述源数据中的内容进行筛选,若清洗规则为全清洗,则不对源数据进行筛选;若清洗规则为增量清洗,所述清洗工具将读取的源数据中已经清洗过的数据剔除,只保留未清洗过的源数据部分。
所述第三配置表包括数据标识、与所述数据标识对应的字段名称,还包括与所述字段名称对应的源字段、目标字段和转换规则标识。
作为本申请的实施例,每个数据标识所代表的子任务都包含多个字段名称,例如可以是:公司简介、公司名称、股票编码、公司产值、上一年利润等。所述源字段在所述源数据库中有相应的源字段数据。所述目标字段在所述目标数据库中。每个所述字段名称都在所述第三配置表中有与之相对应的源字段、目标字段和转换规则标识,在所述源字段数据通过所述转换规则转换为目标字段数据后,将所述目标字段数据存储至所述目标数据库中与所述目标字段数据相对应的目标字段。
进一步的,所述转换规则包括以下至少一种:数据格式转换、数据类型转换、数据简单处理。所述数据简单处理包括数据截取和数据扩展。
其中所述数据格式转换例如可以是将格式为josn的源数据通过键值对的形式转换为格式为xml的目标数据;所述数据类型转换例如可以是将“*年*月*日”格式的源数据进行日期转换、字符型转数字型。
图2为本申请实施例提供的另一种可配置数据清洗系统的系统图,如图2所示,本实施例提供的一种可配置数据清洗系统包括:任务控制器、清洗工具、第一配置表、第二配置表、第三配置表、任务列表。
所述第一配置表包括任务编码和与所述任务编码对应的清洗工具。
所述第二配置表包括任务编码、与所述任务编码对应的至少一个数据标识,还包括与所述数据标识对应的源数据库、目标数据库和清洗规则标识。
所述源数据库中包括至少一个源字段;所述目标数据库中包括至少一个目标字段。
所述第三配置表包括数据标识、与所述数据标识对应的字段名称,还包括与所述字段名称对应的源字段、目标字段和转换规则标识。
所述任务列表包括至少一个任务编码。
作为本申请的实施例,所述任务编码为计算机可识别的字符串,用于表示任务,所述任务来源于外部系统,所述任务控制器通过任务编码区分、识别不同的任务。所述任务控制器根据任务列表中任务编码的顺序读取所述第一配置表,调用与所述任务编码相对应的清洗工具。
进一步的,所述任务列表还包括任务状态标识,用于所述任务控制器读取和修改任务状态标识。所述任务状态标识包括待执行、执行中、执行成功、执行失败。
所述外部系统发出的任务进入所述任务列表后任务状态标识默认为待执行,所述任务控制器在读取任务后修改任务状态标识为执行中,在执行任务后修改任务状态标识为执行结果,所述执行结果为执行成功或执行失败。
所述任务列表还可以包括任务插入时间、任务执行完成时间、任务失败原因,方便任务查找、跟踪、解决问题。其中所述任务插入时间在任务进入任务列表后自动生成,所述任务执行完成时间在任务完成后由所述任务控制器进行修改,若所述任务执行失败,则所述任务控制器将任务失败原因填写至所述任务列表内。
所述任务控制器,用于读取所述各配置表,根据所述任务编码调用对应的清洗工具;还用于按照所述任务列表中的任务编码的顺序读取第一配置表。
所述清洗工具,用于根据所述任务编码对应的数据标识从源数据库中读取源数据、确定清洗规则、按照所述清洗规则筛选所述源数据;确定所述字段名称对应的转换规则,由源字段的数据转换为目标字段的数据,存储至所述目标数据库。所述任务控制器。
图3为本申请实施例提供的一种可配置数据清洗方法的流程图,用于上述可配置数据清洗系统。如图3所示,本实施例提供的可配置数据清洗方法包括以下步骤:
步骤101:读取配置表,调用清洗工具。
在步骤101中,读取所述第一配置表、第二配置表和第三配置表,根据所述任务编码调用清洗工具。
通过所述任务控制器读取所述第一配置表、第二配置表和第三配置表中的信息,根据所述第一配置表中任务编码与所述清洗工具的对应关系,调用处理所述任务编码所代表任务的清洗工具。在整个任务清洗过程中,所述任务控制器与所述清洗工具共享数据。
步骤102:读取源数据、确定清洗规则、筛选源数据。
在所述步骤102中,运行所述清洗工具,根据所述任务编码对应的数据标识从源数据库中读取源数据、确定清洗规则、按照所述清洗规则筛选所述源数据。
在所述第二配置表中,每个任务编码分配至少一个数据标识。每个所述数据标识为所述任务编码所表示任务拆分的子任务。由所述清洗工具根据所述第二配置表中数据标识与源数据库的对应关系,确定所述任务用于获取源数据的源数据库名称、地址;根据任务编码与目标数据库的对应关系,确定所述任务用于存储目标数据的的目标数据库名称、地址;根据任务编码与清洗规则的对应关系,确定所述任务的清洗规则。
例如,任务编码为SB_BASIC的任务包含两个子任务,数据标识分别为1、2。任务编码为SB_EX的任务包含一个子任务,数据标识为3。如下表所示。
通过所述清洗工具从所述源数据库中的源数据表内查找、读取源数据,根据所述第二配置表中的清洗规则标识判断是否进行源数据的筛选,若所述清洗规则为全清洗规则,则不进行数据筛选;若所述清洗规则为增量清洗规则,则将所述源数据中曾经清洗过的数据剔除。
步骤103:确定转换规则,由源字段数据转换为目标字段数据,存储至目标数据库。
在步骤103中,运行所述清洗工具,确定所述字段名称对应的转换规则,由源字段的数据转换为目标字段的数据,存储至所述目标数据库。
在所述第三配置表中,每个数据标识对应至少一个字段名称,每个字段名称在所述第三配置表中还有相对应的源字段、目标字段和转换规则标识。所述清洗工具根据所述第三配置表内所述数据标识、字段名称、源字段、目标字段和转换规则标识的对应关系,确定每个字段名称和与所述字段名称对应的源字段和转换规则标识。通过所述清洗工具将每个源字段的数据根据转换规则转换为目标字段的数据,转换结束后将所述目标字段存储至所述目标数据库中。
图4为本申请实施例提供的一种包括任务列表的可配置数据清洗方法流程图。如图4所示,本实施例提供的可配置数据清洗方法包括以下步骤:
步骤201:按照任务列表中任务编码的顺序读取第一配置表,调用清洗工具。
在步骤201中,通过所述任务控制器,按照所述任务列表中的任务编码的顺序读取第一配置表。读取所述第一配置表、第二配置表和第三配置表,根据所述任务编码调用清洗工具。
所述任务列表中包括至少一个任务编码,通过所述任务控制器读取所述任务列表,根据所述任务列表中的任务编码顺序读取所述第一配置表。再通过所述第一配置表中任务编码与所述清洗工具的对应关系,调用处理所述任务编码所代表任务的清洗工具。
步骤202:读取源数据、确定清洗规则、筛选源数据。
在所述步骤202中,根据所述任务编码对应的数据标识从源数据库中读取源数据、确定清洗规则、按照所述清洗规则筛选所述源数据。
步骤203:确定转换规则,由源字段数据转换为目标字段数据,存储至目标数据库。
在步骤203中,确定所述字段名称对应的转换规则,由源字段的数据转换为目标字段的数据,存储至所述目标数据库。
图5为本申请实施例提供的一种反馈任务执行结果的可配置数据清洗方法流程图,如图5所示,本实施例提供的可配置数据清洗方法包括以下步骤:
步骤301:按照任务列表中任务编码的顺序和任务状态标识读取第一配置表,调用清洗工具。
在步骤301中,通过所述任务控制器,按照所述任务列表中的任务编码的顺序读取第一配置表。读取所述第一配置表、第二配置表和第三配置表,根据所述任务编码调用清洗工具。
作为本申请的实施例,仅读取所述任务列表中任务状态为待执行标识的任务编码,读取后将所述任务状态标识修改为表示执行中的符号,任务完成后将所述任务状态标识修改为表示执行结果的符号。
所述任务列表中每个任务编码都有与其对应的任务状态标识。通过所述任务控制器读取所述任务列表,获取所述任务列表中状态为待执行的任务编码,获取任务编码后将与所述任务编码相对应的任务状态标识修改为执行中,用于避免任务的重复执行。
步骤302:读取源数据、确定清洗规则、筛选源数据。
在所述步骤302中,根据所述任务编码对应的数据标识从源数据库中读取源数据、确定清洗规则、按照所述清洗规则筛选所述源数据。
步骤303:确定转换规则,由源字段数据转换为目标字段数据,存储至目标数据库。
在步骤303中,确定所述字段名称对应的转换规则,由源字段的数据转换为目标字段的数据,存储至所述目标数据库。
步骤304:通过任务控制器将任务的执行结果发送至所述任务列表。
在步骤304中,所述任务执行结束后,通过所述任务控制器将任务的执行结果发送至所述任务列表。根据所述执行结果对所述任务列表中的任务状态标识进行修改。若执行结果为成功,则将所述任务状态标识修改为表示任务成功的符号;若执行结果为失败,则将所述任务状态标识修改为任表示任务失败的符号,同时将所述任务失败的原因记录在所述任务列表中,用于方便问题的解决。
作为本申请的实施例,通过所述任务表格记录接收任务的时间以及任务完成的时间,用于方便任务查找、跟踪、解决问题。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种可配置数据清洗系统,其特征在于,包括任务控制器、清洗工具、第一配置表、第二配置表、第三配置表;
所述第一配置表包括任务编码和与所述任务编码对应的清洗工具;
所述第二配置表包括任务编码、与所述任务编码对应的至少一个数据标识,还包括与所述数据标识对应的源数据库、目标数据库和清洗规则标识;
所述源数据库中包括至少一个源字段;所述目标数据库中包括至少一个目标字段;
所述第三配置表包括数据标识、与所述数据标识对应的字段名称,还包括与所述字段名称对应的源字段、目标字段和转换规则标识;
所述任务控制器,用于读取所述各配置表,根据所述任务编码调用对应的清洗工具;
所述清洗工具,用于根据所述任务编码对应的数据标识从源数据库中读取源数据、确定清洗规则、按照所述清洗规则筛选所述源数据;确定所述字段名称对应的转换规则,由源字段的数据转换为目标字段的数据,存储至所述目标数据库。
2.如权利要求1所述的可配置数据清洗系统,其特征在于,所述可配置数据清洗系统还包括任务列表;
所述任务列表中包括至少一个任务编码;
所述任务控制器,还用于按照所述任务列表中的任务编码的顺序读取第一配置表。
3.如权利要求2所述的可配置数据清洗系统,其特征在于,所述任务列表还包括任务状态标识,用于所述任务控制器读取和修改任务状态标识;
所述任务状态标识包括待执行、执行中、执行成功、执行失败。
4.如权利要求1~3任意一个所述的可配置数据清洗系统,其特征在于,所述第二配置表还包括源数据表和目标数据表;
所述源数据表位于所述源数据库内,用于提供所述源数据;
所述目标数据表位于所述目标数据库内,用于存储所述目标数据。
5.如权利要求1~3任意一个所述的可配置数据清洗系统,其特征在于,所述清洗规则包括全清洗规则和/或增量清洗规则;
所述全清洗规则为清洗所有源数据;
所述增量清洗规则为清洗未清洗过的源数据。
6.如权利要求1~3任意一个所述的可配置数据清洗系统,其特征在于,所述转换规则包括以下至少一种:
数据格式转换、数据类型转换、数据简单处理;
所述数据简单处理包括数据截取和数据扩展。
7.如权利要求1~3任意一个所述的可配置数据清洗系统,其特征在于,所述第一配置表还包括任务触发方式标识;
所述任务触发方式包括按时间顺序触发和外部触发。
8.一种可配置数据清洗方法,用于权利要求1~7中任意一种可配置数据清洗系统,其特征在于,包括以下步骤:
读取所述第一配置表、第二配置表和第三配置表,根据所述任务编码调用清洗工具;
根据所述任务编码对应的数据标识从源数据库中读取源数据、确定清洗规则、按照所述清洗规则筛选所述源数据;
确定所述字段名称对应的转换规则,由源字段的数据转换为目标字段的数据,存储至所述目标数据库。
9.如权利要求8所述的可配置数据清洗方法,用于任务列表中包括任务状态标识的可配置数据清洗系统,其特征在于,还包括以下步骤:
按照所述任务列表中的任务编码的顺序读取第一配置表。
10.如权利要求8所述可配置数据清洗方法,用于所述第一配置表包括任务触发方式标识的可配置数据清洗系统,其特征在于,还包括以下步骤:
仅读取所述任务列表中任务状态为待执行标识的任务编码,读取后将所述任务状态标识修改为表示执行中的符号,任务完成后将所述任务状态标识修改为表示执行结果的符号。
CN201810677790.5A 2018-06-27 2018-06-27 一种可配置数据清洗系统和方法 Expired - Fee Related CN108984652B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810677790.5A CN108984652B (zh) 2018-06-27 2018-06-27 一种可配置数据清洗系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810677790.5A CN108984652B (zh) 2018-06-27 2018-06-27 一种可配置数据清洗系统和方法

Publications (2)

Publication Number Publication Date
CN108984652A true CN108984652A (zh) 2018-12-11
CN108984652B CN108984652B (zh) 2020-10-27

Family

ID=64538439

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810677790.5A Expired - Fee Related CN108984652B (zh) 2018-06-27 2018-06-27 一种可配置数据清洗系统和方法

Country Status (1)

Country Link
CN (1) CN108984652B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110457298A (zh) * 2019-07-10 2019-11-15 广州市巴图鲁信息科技有限公司 一种汽车配件编码汇总发布方法
CN110555019A (zh) * 2019-09-12 2019-12-10 成都中科大旗软件股份有限公司 一种基于业务端的数据清洗方法
CN110569298A (zh) * 2019-09-12 2019-12-13 成都中科大旗软件股份有限公司 一种数据对接、可视化方法和系统
CN111159177A (zh) * 2019-12-10 2020-05-15 大唐软件技术股份有限公司 一种基于异构数据的数据融合方法、装置、设备及介质
CN112328675A (zh) * 2020-11-25 2021-02-05 上海市计算技术研究所 异构数据转换方法、装置、设备及存储介质
CN112965962A (zh) * 2021-02-03 2021-06-15 北京中煤时代科技发展有限公司 一种行业网站数据转换方法、装置及行业网站
CN113326253A (zh) * 2020-02-28 2021-08-31 拓尔思天行网安信息技术有限责任公司 基于全文数据库的数据清洗方法、装置、设备和存储介质
CN113656427A (zh) * 2021-10-20 2021-11-16 腾讯科技(深圳)有限公司 数据同步方法及相关设备
CN115840742A (zh) * 2023-02-13 2023-03-24 每日互动股份有限公司 一种数据清洗方法、装置、设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102508919A (zh) * 2011-11-18 2012-06-20 广州从兴电子开发有限公司 数据处理方法及系统
CN105095327A (zh) * 2014-05-23 2015-11-25 深圳市珍爱网信息技术有限公司 一种分布式etl系统及调度方法
CN105701147A (zh) * 2015-12-30 2016-06-22 中国银联股份有限公司 可配置数据转移管理装置
CN105930389A (zh) * 2016-04-14 2016-09-07 北京京东尚科信息技术有限公司 数据结转的方法和系统
CN107239581A (zh) * 2017-07-07 2017-10-10 小草数语(北京)科技有限公司 数据清洗方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102508919A (zh) * 2011-11-18 2012-06-20 广州从兴电子开发有限公司 数据处理方法及系统
CN105095327A (zh) * 2014-05-23 2015-11-25 深圳市珍爱网信息技术有限公司 一种分布式etl系统及调度方法
CN105701147A (zh) * 2015-12-30 2016-06-22 中国银联股份有限公司 可配置数据转移管理装置
CN105930389A (zh) * 2016-04-14 2016-09-07 北京京东尚科信息技术有限公司 数据结转的方法和系统
CN107239581A (zh) * 2017-07-07 2017-10-10 小草数语(北京)科技有限公司 数据清洗方法及装置

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110457298A (zh) * 2019-07-10 2019-11-15 广州市巴图鲁信息科技有限公司 一种汽车配件编码汇总发布方法
CN110569298B (zh) * 2019-09-12 2023-03-24 成都中科大旗软件股份有限公司 一种数据对接、可视化方法和系统
CN110555019A (zh) * 2019-09-12 2019-12-10 成都中科大旗软件股份有限公司 一种基于业务端的数据清洗方法
CN110569298A (zh) * 2019-09-12 2019-12-13 成都中科大旗软件股份有限公司 一种数据对接、可视化方法和系统
CN110555019B (zh) * 2019-09-12 2023-03-24 成都中科大旗软件股份有限公司 一种基于业务端的数据清洗方法
CN111159177A (zh) * 2019-12-10 2020-05-15 大唐软件技术股份有限公司 一种基于异构数据的数据融合方法、装置、设备及介质
CN111159177B (zh) * 2019-12-10 2023-11-07 大唐软件技术股份有限公司 一种基于异构数据的数据融合方法、装置、设备及介质
CN113326253A (zh) * 2020-02-28 2021-08-31 拓尔思天行网安信息技术有限责任公司 基于全文数据库的数据清洗方法、装置、设备和存储介质
CN112328675A (zh) * 2020-11-25 2021-02-05 上海市计算技术研究所 异构数据转换方法、装置、设备及存储介质
CN112965962A (zh) * 2021-02-03 2021-06-15 北京中煤时代科技发展有限公司 一种行业网站数据转换方法、装置及行业网站
CN113656427A (zh) * 2021-10-20 2021-11-16 腾讯科技(深圳)有限公司 数据同步方法及相关设备
CN113656427B (zh) * 2021-10-20 2022-02-08 腾讯科技(深圳)有限公司 数据同步方法及相关设备
CN115840742A (zh) * 2023-02-13 2023-03-24 每日互动股份有限公司 一种数据清洗方法、装置、设备及介质
CN115840742B (zh) * 2023-02-13 2023-05-12 每日互动股份有限公司 一种数据清洗方法、装置、设备及介质

Also Published As

Publication number Publication date
CN108984652B (zh) 2020-10-27

Similar Documents

Publication Publication Date Title
CN108984652A (zh) 一种可配置数据清洗系统和方法
US8893118B2 (en) Migratable unit based application migration
US9619430B2 (en) Active non-volatile memory post-processing
CN110471754A (zh) 作业调度中的数据展示方法、装置、设备及存储介质
CN103942099B (zh) 基于Hive的并行执行任务方法及装置
CN105988930A (zh) 测试用例生成方法和装置
CN112328307A (zh) 一种开发运维一体化系统
CN109033365B (zh) 一种数据处理方法及相关设备
CN109144511B (zh) 数值模拟图形用户界面自动生成方法及系统
CN109934507A (zh) 一种业务流程调度的方法及装置
CN114139923A (zh) 任务关联性分析方法、装置及计算机可读存储介质
US20140310069A1 (en) Coordinated business rules management and mixed integer programming
CN112905443A (zh) 一种测试用例生成方法、设备及存储介质
US8819494B2 (en) Automatically changing parts in response to tests
CN110083437A (zh) 处理区块链事务的方法及装置
Agnetis et al. A heuristic approach to batching and scheduling a single machine to minimize setup costs
CN108845844A (zh) 一种状态转换方法及装置
CN106844242B (zh) 一种数据交换方法和系统
Ding et al. A heuristic method for data allocation and task scheduling on heterogeneous multiprocessor systems under memory constraints
CN113326117B (zh) 一种任务调度方法、装置及设备
CN111651194B (zh) 基于iOS的适配方法及装置
CN109582938A (zh) 报表生成方法和装置
CN116501653B (zh) 一种软件回归测试方法及装置
CN111062816B (zh) 账户资产监管方法及装置
CN110633216A (zh) 一种app性能测试方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20201027

Termination date: 20210627

CF01 Termination of patent right due to non-payment of annual fee