CN113064885B - 一种数据清洗方法和装置 - Google Patents
一种数据清洗方法和装置 Download PDFInfo
- Publication number
- CN113064885B CN113064885B CN202011604136.5A CN202011604136A CN113064885B CN 113064885 B CN113064885 B CN 113064885B CN 202011604136 A CN202011604136 A CN 202011604136A CN 113064885 B CN113064885 B CN 113064885B
- Authority
- CN
- China
- Prior art keywords
- data
- target
- cleaning
- target data
- cleaned
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004140 cleaning Methods 0.000 title claims abstract description 270
- 238000000034 method Methods 0.000 title claims abstract description 77
- 230000002159 abnormal effect Effects 0.000 claims abstract description 96
- 238000012545 processing Methods 0.000 claims abstract description 55
- 238000006243 chemical reaction Methods 0.000 claims description 68
- 230000000875 corresponding effect Effects 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 8
- 230000002596 correlated effect Effects 0.000 claims description 5
- 230000002547 anomalous effect Effects 0.000 claims 1
- 238000013500 data storage Methods 0.000 description 6
- 230000005856 abnormality Effects 0.000 description 5
- 238000007726 management method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 206010027339 Menstruation irregular Diseases 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000010926 purge Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种数据清洗方法和装置,用以解决数据清洗的效率低的问题。本方案包括:获取待清洗数据,待清洗数据包括至少一个目标数据;根据清洗策略库确定与各目标数据的数据类型相匹配的目标清洗策略;根据各目标数据对应的目标清洗策略对待清洗数据中异常的目标数据执行清洗处理,以得到符合目标数据格式的清洗后的目标数据;将清洗后数据和对异常的目标数据执行清洗处理的信息关联存储至数据。本发明针对于待清洗数据的数据类型确定相匹配的清洗策略,满足各类数据处理需求,提高数据清洗后的数据质量,有效提高数据清洗速度。关联存储清洗后数据和执行清洗处理的信息,避免数据丢失,保证数据质量。
Description
技术领域
本发明涉及数据处理领域,尤其涉及一种数据清洗方法和装置。
背景技术
数据清洗(Data cleaning)是对数据进行审查和校验的过程,目的在于识别出数据中异常不符合规范的问题数据,并通过清洗策略把不符合规范的异常的目标数据进行清洗转换,保证关键数据的完整性和一致性,以达到入库的要求。数据清洗是数据处理过程中的关键环节,同时也是保障关键数据准确、提高数据质量的主要手段。
在实际应用中,由于源端数据的类型多种多样且数据量通常较大,无法通过人工来执行数据清洗。另外,单一的清洗策略难以满足不同类型数据的处理需求。而且,在数据清洗过程中,可能会出现数据丢失、乱码等情况,导致清洗后数据质量低。
如何提高数据清洗的效率,是本申请所要解决的技术问题。
发明内容
本申请实施例的目的是提供一种数据清洗方法和装置,用以解决数据清洗的效率低的问题。
第一方面,提供了一种数据清洗方法,包括:
获取待清洗数据,所述待清洗数据包括至少一个目标数据;
根据清洗策略库确定与各目标数据的数据类型相匹配的目标清洗策略,所述目标清洗策略包括将所述目标数据转换为目标数据格式的转换策略;
根据各目标数据对应的目标清洗策略对所述待清洗数据中异常的目标数据执行清洗处理,以得到符合所述目标数据格式的清洗后的目标数据,所述目标清洗策略包括将异常的目标数据转换为目标数据格式的转换策略;
将清洗后数据和对所述异常的目标数据执行清洗处理的信息关联存储至数据库,所述清洗后数据包括符合所述目标数据格式的目标数据和所述清洗后的目标数据。
第二方面,提供了一种数据清洗装置,包括:
获取模块,获取待清洗数据,所述待清洗数据包括至少一个目标数据;
确定模块,根据清洗策略库确定与各目标数据的数据类型相匹配的目标清洗策略,所述目标清洗策略包括将所述目标数据转换为目标数据格式的转换策略;
处理模块,根据各目标数据对应的目标清洗策略对所述待清洗数据中异常的目标数据执行清洗处理,以得到符合所述目标数据格式的清洗后的目标数据,所述目标清洗策略包括将异常的目标数据转换为目标数据格式的转换策略;
存储模块,将清洗后数据和对所述异常的目标数据执行清洗处理的信息关联存储至数据库,所述清洗后数据包括符合所述目标数据格式的目标数据和所述清洗后的目标数据。
第三方面,提供了一种电子设备,该电子设备包括处理器、存储器及存储在该存储器上并可在该处理器上运行的计算机程序,该计算机程序被该处理器执行时实现如第一方面该的方法的步骤。
第四方面,提供了一种计算机可读存储介质,该计算机可读存储介质上存储计算机程序,该计算机程序被处理器执行时实现如第一方面该的方法的步骤。
在本申请实施例中,通过获取待清洗数据,待清洗数据包括至少一个目标数据;根据清洗策略库确定与各目标数据的数据类型相匹配的目标清洗策略;根据各目标数据对应的目标清洗策略对待清洗数据中异常的目标数据执行清洗处理,以得到符合目标数据格式的清洗后的目标数据;将清洗后数据和对异常的目标数据执行清洗处理的信息关联存储至数据。本发明针对于待清洗数据的数据类型确定相匹配的清洗策略,满足各类数据处理需求,提高数据清洗后的数据质量,有效提高数据清洗速度。关联存储清洗后数据和执行清洗处理的信息,避免数据丢失,保证数据质量。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明的一个实施例一种数据清洗方法的流程示意图之一;
图2是本发明的一个实施例一种数据清洗方法的流程示意图之二;
图3是本发明的一个实施例一种数据清洗方法的流程示意图之三;
图4是本发明的一个实施例一种数据清洗方法的流程示意图之四;
图5是本发明的一个实施例一种数据清洗方法的流程示意图之五;
图6是本发明的一个实施例一种数据清洗方法的流程示意图之六;
图7是本发明的一个实施例一种数据清洗方法的流程示意图之七;
图8是本发明的一个实施例一种数据清洗装置的结构示意图;
图9是本发明的一个实施例一种电子设备的结构示意图之一;
图10是本发明的一个实施例一种电子设备的结构示意图之二。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。本申请中附图编号仅用于区分方案中的各个步骤,不用于限定各个步骤的执行顺序,具体执行顺序以说明书中描述为准。
为了解决现有技术中存在的问题,本申请实施例提供一种数据清洗方法,数据清洗(Data cleaning)是对数据进行审查和校验的过程,目的在于识别出数据中异常不符合规范的问题数据,并通过清洗策略对异常不符合规范的数据进行清洗转换,保证清洗后数据的完整性和一致性,以达到入库的要求。数据清洗是数据处理过程中至关重要的环节之一,能起到保障关键数据准确、降低数据质量问题的作用。本申请实施例提供的方法的执行主体可以是服务器或其他具有处理功能的电子设备,如图1所示,本方法包括:
S11:获取待清洗数据,所述待清洗数据包括至少一个目标数据。
本方案中的待清洗数据可以是流式的也可以是文件式的。服务器可以通过有线或无线的方式与数据平台通信连接,以获取数据平台的待清洗数据。具体的,服务器可以实时获取待清洗数据,或者,周期性获取待清洗数据,或者,接收由数据平台不定期发送的待清洗数据。
S12:根据清洗策略库确定与各目标数据的数据类型相匹配的目标清洗策略,所述目标清洗策略包括将所述目标数据转换为目标数据格式的转换策略。
清洗策略库可以包括预先设置的与数据类型对应的清洗策略,在确定清洗策略之前,可以先确定待清洗数据的数据类型。可选的,所述待清洗数据的数据类型包括数据存储字段的类型和/或数据内容的类型。
可选的,所述目标数据格式包括数据存储字符类型和/或数据字段长度。举例而言,数据存储字符类型例如可以是String类,数据字段长度例如可以是20。即在数据清洗过程中将待清洗数据都转换为String字符类型的数据字段长度为20的数据。
获取待清洗数据的数据类型的方式有多种,通常情况下,来源于不同种类的数据库的待清洗数据可以采用不同的方式获取对应的数据类型。作为示例,本方案中通过发送预设指令的方式获取表结构,例如oracle数据库中获取表结构的指令【desc表名】,获取后的表结构信息如下:
获取到的表结构信息能表征待清洗数据的数据类型,举例而言,待清洗数据的数据类型可以包括数据存储字段的类型“varchar”,或者,也可以包括数据内容的类型“User_ID”。
获取到待清洗数据的数据类型之后,可以根据清洗策略库确定相匹配的目标清洗策略。可选的,上述步骤S12,根据清洗策略库确定与所述待清洗数据的数据类型相匹配的目标清洗策略,如图2所示,包括:
S21:确定所述清洗策略库中是否包括与目标数据的数据类型相匹配的清洗策略。
作为示例,可以在清洗策略库中检索待清洗数据的数据类型,以查找与待清洗数据的数据类型相匹配的清洗策略,例如,检索关键词可以包括“varchar”以及“User_ID”。
S22:若是,将所述清洗策略库中与目标数据的的数据类型相匹配的清洗策略确定为所述目标清洗策略。
如果清洗策略库中包括与待清洗数据的数据类型相匹配的清洗策略,则将匹配的清洗策略确定为目标清洗策略,用于在随后的步骤中对待清洗数据执行清洗。
S23:若否,生成与所述目标数据的数据类型相匹配的目标清洗策略。
如果清洗策略库中不包括与待清洗数据的数据类型相匹配的清洗策略,则根据待清洗数据的数据类型生成相匹配的目标清洗策略。待清洗数据往往包括多条数据,每条数据可以包括多个特征,作为示例,获取待清洗数据中每条数据的特征,根据预设百分比以上的数据所共有的特征来生成目标清洗策略。
可选的,在步骤S23之后,如图3所示,还包括:
S31:将所述数据类型与相匹配的目标清洗策略关联存储至所述清洗策略库。
在生成了新的清洗策略之后,将新生成的清洗策略与相匹配的数据类型关联存储至原清洗策略库。作为示例,可以以表格形式存储清洗策略和相匹配的数据类型,如下表所示:
表名 | 文件路径 | 字段位置 | 字段名称 | 清洗策略类型 | 规则 |
TableA | /home/file | 4 | User_ID | 字符类型 | String |
TableA | /home/file | 4 | User_ID | 字段长度 | 20 |
其中存储了待清洗数据的路径、字段名称等能够表征数据类型的信息以及对应的清洗策略,“字符类型”为“String”,“字段长度”为“20”。
S13:根据各目标数据对应的目标清洗策略对所述待清洗数据中异常的目标数据执行清洗处理,以得到符合所述目标数据格式的清洗后的目标数据,所述目标清洗策略包括将异常的目标数据转换为目标数据格式的转换策略。
可选的,如图4所示,本步骤S13包括:
S41:识别所述待清洗数据中不符合所述目标数据格式的异常的目标数据。
首先根据目标清洗策略确定待清洗数据中的异常的目标数据,具体的,以上表示出的清洗策略为例,目标数据格式包括“字符类型是Sting”以及“字段长度为20”。在本步骤中,将字符类型不是String或字段长度不是20的数据确定为异常的目标数据。
S42:根据异常的目标数据对应的目标清洗策略对所述异常的目标数据执行数据转换,得到清洗后的目标数据。
随后,对这些异常的目标数据的字符类型执行转换或对字段长度进行修补,使清洗后的数据的字符类型是Sting且字段长度为20,以得到符合所述目标数据格式的数据。
可选的,还可以将清洗后符合目标数据格式的数据和未执行转换或修补的符合目标数据格式的数据合并生成清洗后数据。得到的清洗后数据满足上述目标清洗策略的目标数据格式,符合入库标准。
S14:将清洗后数据和对所述异常的目标数据执行清洗处理的信息关联存储至数据库,所述清洗后数据包括符合所述目标数据格式的目标数据和所述清洗后的目标数据。
在对异常的目标数据执行清洗的过程中,还可以对执行的清洗动作进行记录,例如包括执行清洗的数据条数、数据行位置、字段位置,并根据记录的清洗动作生成对所述异常的目标数据执行清洗处理的信息,该信息能够表征清洗动作作用于哪些数据,数据清洗前后的状态等信息。通过将该信息与清洗后的数据关联存储至数据库,能够便于调取清洗后的数据并查看执行的清洗动作。可以根据实际需求,基于清洗后的数据和关联存储的信息对数据进行恢复,避免待处理数据在数据清洗的步骤中丢失特征。也可以对清洗后出现乱码和错误的数据执行修复。
本方案基于清洗策略库对数据执行清洗,能够实现在不中断清洗任务的前提下自动对异常的目标数据进行处理,根据待清洗数据的数据类型确定相匹配的目标清洗策略,以针对待清洗数据执行相匹配的清洗动作,得到符合入库标准的清洗后数据。另外,将清洗后数据和异常的目标数据执行清洗处理的信息关联存储,能实现对清洗动作的记录,实现异常的目标数据清洗过程的有迹可循。该异常的目标数据执行清洗处理的信息可以与清洗后数据存储在相同或不同的数据库中,如果存储在不同的数据库中,则可以通过打标记的方式实现关联。另外,还可以标记清洗转换的动作、转换行数等信息。
本申请实施例提供的方案能根据待清洗数据的数据类型自动维护清洗策略,具体可以包括清洗策略的变更、新增、删除等。另外,本实施例提供的方案,能够在不中断正在执行的清洗任务前提下完成对异常的目标数据的清洗,提高清洗过程的数据质量和清洗效率。而且,本方案记录完整的清洗动作及清洗后数据,便于技术人员对异常的目标数据进行调取、分析和修复。
基于上述实施例提供的方案,在实际应用中,待清洗数据还可能存在数据缺失或错误,本实施例还提供一种方案,可以用于处理存在缺失或错误的待处理数据。可选的,上述步骤S42,根据所述目标清洗策略对所述异常的目标数据执行数据转换,得到转换后的异常的目标数据,如图5所示,包括:
S51:根据所述目标清洗策略确定数据转换特征,所述数据转换特征包括预设的执行数据转换的数据具有的特征。
基于上述实例,假设目标清洗策略为字段名称为“User_ID”的数据项的字符类型为“String”并且字段长度为“20”。那么,本步骤中所述的数据转换特征可以是“User_ID”的数据项,即待清洗数据中“User_ID”数据列的数据。
S52:对具有所述数据转换特征的异常的目标数据执行数据转换,得到清洗后的目标数据。
对于待清洗数据中的任一数据行,如果“User_ID”数据列中包含有效数据,则确定该数据行具有所述数据转换特征。随后基于目标清洗策略判断该数据行的“User_ID”数据列的数据是否符合上述目标清洗策略,如果不符合则将该数据项确定为异常的目标数据,并根据目标数据格式对该异常的目标数据执行数据转换,以得到符合目标清洗策略的转换后的异常的目标数据。
通过本申请实施例提供的方案,能针对于不符合目标数据格式的数据转换特征执行转换,使转换后的异常的目标数据满足目标清洗策略。
基于上述实施例提供的方案,可选的,在步骤S51之后,如图6所示,还包括:
S61:删除不具有所述数据转换特征的异常的目标数据。
基于上述实例,对于待清洗数据中的任一数据行,如果“User_ID”数据列中不包含有效数据,则确定该数据行不具有所述数据转换特征。举例而言,如果“User_ID”数据列中的数据项为空或者为乱码,则可以确定该数据行的“User_ID”数据列中不包含有效数据。本步骤中对不具有上述数据转换特征的异常的目标数据执行删除,具体可以删除不具有数据转换特征的整行数据。删除局部有数据转换特征的异常的目标数据能够降低在数据清洗过程中出现错误的概率,避免对不包含数据的数据项赋值导致新的数据错误。
其中,上述步骤S14,将清洗后数据和对所述异常的目标数据执行清洗处理的信息关联存储至数据库,包括:
S62:将所述清洗后数据和包含被删除的异常的目标数据的信息关联存储至数据库。
本实施例提供的方案将清洗后数据和被删除的异常的目标数据的信息关联存储,便于对数据进行调取和修复。在实际应用中,如果被删除的异常的目标数据中还包括其他重要信息,则可以根据清洗后数据在数据库中查找到关联的被删除的异常的目标数据的信息,以便对被删除的异常的目标数据执行恢复,避免数据丢失。
基于上述实施例提供的方案,可选的,上述步骤S14,将所述清洗后数据和对所述异常的目标数据执行清洗处理的信息关联存储至数据库,如图7所示,包括:
S71:根据对所述异常的目标数据执行清洗处理的信息生成清洗处理数据,所述清洗处理数据包括执行清洗处理的异常的目标数据的位置信息和表征所述清洗处理是否成功的清洗结果。
在对数据执行清洗的过程中,生成清洗处理数据,用以记录对什么位置的异常的目标数据执行了怎样的清洗处理。例如,清洗处理数据可以包括“对路径为A的数据执行了字符类型转换的清洗动作”以及“清洗处理成功”。
S72:将所述清洗后数据和所述清洗处理数据关联存储至数据库。
本申请实施例提供的方案,在执行清洗处理的过程中,自动地对数据执行清洗。清洗动作可以包括格式转换、字段填补等动作。部分异常的目标数据可能无法正常执行格式转换或字段填补,本实施例中通过生成清洗处理数据的方式对执行的清洗动作进行记录,并且还记录了清洗处理是否成功。当清洗处理失败时,有可能使清洗得到的数据出现乱码,或者,清洗处理过程中损失部分数据。通过本申请实施例提供的方案,能够对清洗的处理过程和结果进行记录。在实际应用中,可以根据需求从数据库中调取查看清洗处理的具体步骤,如果清洗后数据中存在乱码或错误,可以通过从数据库中调取清洗处理数据的方式来查看对数据执行了怎样的清洗步骤,并可以根据实际需求对存在乱码或错误的数据执行恢复,避免数据丢失。
为了解决现有技术中的问题,本申请实施例还提供一种数据清洗装置,如图8所示,包括:
获取模块81,获取待清洗数据,所述待清洗数据包括至少一个目标数据;
确定模块82,根据清洗策略库确定与各目标数据的数据类型相匹配的目标清洗策略,所述目标清洗策略包括将所述目标数据转换为目标数据格式的转换策略;
处理模块83,根据各目标数据对应的目标清洗策略对所述待清洗数据中异常的目标数据执行清洗处理,以得到符合所述目标数据格式的清洗后的目标数据,所述目标清洗策略包括将异常的目标数据转换为目标数据格式的转换策略;
存储模块84,将清洗后数据和对所述异常的目标数据执行清洗处理的信息关联存储至数据库,所述清洗后数据包括符合所述目标数据格式的目标数据和所述清洗后的目标数据。
可选的,基于上述实施例提供的装置,确定模块82用于:
确定所述清洗策略库中是否包括与目标数据的数据类型相匹配的清洗策略;
若是,将所述清洗策略库中与目标数据的的数据类型相匹配的清洗策略确定为所述目标清洗策略;
若否,生成与所述目标数据的数据类型相匹配的目标清洗策略。
可选的,基于上述实施例提供的装置,所述存储模块84,还用于:
将所述数据类型与相匹配的目标清洗策略关联存储至所述清洗策略库。
可选的,基于上述实施例提供的装置,所述处理模块83,用于:
识别所述待清洗数据中不符合所述目标数据格式的异常的目标数据;
根据异常的目标数据对应的目标清洗策略对所述异常的目标数据执行数据转换,得到清洗后的目标数据。
可选的,基于上述实施例提供的装置,所述执行模块83,用于:
根据所述目标清洗策略确定数据转换特征,所述数据转换特征包括预设的执行数据转换的数据具有的特征;
对具有所述数据转换特征的异常的目标数据执行数据转换,得到清洗后的目标数据。
可选的,基于上述实施例提供的装置,所述执行模块83还用于:
删除不具有所述数据转换特征的异常的目标数据;
其中,所述存储模块84还用于:
将所述清洗后数据和包含被删除的异常的目标数据的信息关联存储至数据库。
可选的,基于上述实施例提供的装置,所述存储模块84,用于:
根据对所述异常的目标数据执行清洗处理的信息生成清洗处理数据,所述清洗处理数据包括执行清洗处理的异常的目标数据的位置信息和表征所述清洗处理是否成功的清洗结果;
将所述清洗后数据和所述清洗处理数据关联存储至数据库。
通过本申请实施例提供的装置,获取待清洗数据;根据清洗策略库确定与待清洗数据的数据类型相匹配的目标清洗策略,目标清洗策略包括与数据类型相匹配的目标数据格式;根据目标清洗策略对待清洗数据中的异常的目标数据执行清洗处理,以得到符合目标数据格式的清洗后数据,异常的目标数据包括不符合目标数据格式的数据;将清洗后数据和对异常的目标数据执行清洗处理的信息关联存储至数据库。本发明针对于待清洗数据的数据类型确定相匹配的清洗策略,满足各类数据处理需求,提高数据清洗后的数据质量,有效提高数据清洗速度。关联存储清洗后数据和执行清洗处理的信息,避免数据丢失,保证数据质量。
为了解决现有技术中存在的问题,本申请实施例还提供一种电子设备,用于执行上述实施例一种数据清洗方法。本实施例提供的电子设备包括多个模块,参见图9。
本实施例提供的电子设备可以根据获取到的待清洗数据或清洗指令自动发起数据清洗需求。待清洗数据首先流入数据清洗任务配置装置,其中包括清洗任务配置单元和清洗任务调度启动单元。该清洗任务配置单单元可以用于根据流入的待清洗数据配置清洗任务,由清洗任务调度启动单元启动执行上述清洗任务。
随后,经过启动的清洗任务流入数据清洗文件获取装置,其中包括第一清洗任务执行单元和第二清洗任务执行单元。该第一清洗任务执行单元用于获取启动的清洗任务的请求参数。第二清洗任务执行单元根据获取到的请求参数发起清洗任务。随后,发起的清洗任务流入数据清洗策略校验装置,该数据清洗策略校验装置包括清洗策略校验单元,用于匹配与待处理数据相匹配的目标清洗策略并检查数据规范性。
其中,清洗策略校验单元还与清洗策略管理装置通信连接,清洗策略管理装置中包括目标库表结构获取单元,该目标库表结构获取单元用于确定待清洗数据的数据类型。清洗策略管理装置中还包括清洗策略自动转换生成单元,用于根据待清洗数据的数据类型确定相匹配的目标清洗策略。清洗策略管理装置用于将与待清洗数据匹配的目标清洗策略发送至上述数据清洗策略校验装置。
数据清洗策略校验装置基于目标清洗策略对待清洗数据执行数据规范性检查,将不符合目标清洗策略的数据确定为异常的目标数据。由异常的目标数据处理装置对异常的目标数据执行清洗处理。该异常的目标数据处理装置可以包括异常的目标数据转换单元,用于判断异常的目标数据是否满足转换条件,该转换条件例如可以是异常的目标数据是否具有所述数据转换特征。如果异常的目标数据满足转换条件(例如具有数据转换特征),则由异常的目标数据自动转换单元执行数据转换,得到满足目标清洗策略的数据。如果异常的目标数据不满足转换条件(例如不具有数据转换特征),则由数据入库装置中的异常的目标数据入库单元将异常的目标数据存储至预设的问题数据库。异常的目标数据处理装置中还包括转换数据标识单元,可以用于对执行的清洗动作进行记录,与异常的目标数据通过标识关联。
随后,由数据入库装置中的数据入库单元将无异常的目标数据和经过清洗处理后的异常的目标数据执行入库,入库的数据均符合目标清洗策略。完成入库后清洗任务结束。
可选的,本实施例提供的电子设备还可以包括数据清洗策略管理装置,如图10所示。该装置包括目标库表结构获取单元,用于获取待清洗数据的数据类型,以生成相应的信息便于随后存储。该装置包括规则自动转换单元,用于根据待清洗数据的数据类型和待清洗数据生成相匹配的目标数据格式,进而生成相应的信息便于随后存储。由规则入库单元将转换后的清洗策略入库存储。
另外,该装置还包括规则更新单元,可以用于根据待清洗数据的数据类型等信息对清洗策略库中包含的规则进行更新。
另外,该装置还包括规则更新单元,可以用于根据待清洗数据的数据类型等信息对清洗策略库中包含的规则进行删除。
优选的,本发明实施例还提供一种电子设备,包括处理器,存储器,存储在存储器上并可在所述处理器上运行的计算机程序,该计算机程序被处理器执行时实现上述一种数据清洗方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述一种数据清洗方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本发明的保护之内。
Claims (9)
1.一种数据清洗方法,其特征在于,包括:
获取待清洗数据,所述待清洗数据包括至少一个目标数据;
根据清洗策略库确定与各目标数据的数据类型相匹配的目标清洗策略,所述目标清洗策略包括将所述目标数据转换为目标数据格式的转换策略;
根据各目标数据对应的目标清洗策略对所述待清洗数据中异常的目标数据执行清洗处理,以得到符合所述目标数据格式的清洗后的目标数据,所述异常的目标数据为具有数据转换特征且不符合所述目标数据格式的目标数据,所述目标清洗策略包括将异常的目标数据转换为目标数据格式的转换策略;
将清洗后数据和对所述异常的目标数据执行清洗处理的信息关联存储至数据库,所述清洗后数据包括符合所述目标数据格式的目标数据和所述清洗后的目标数据;
其中,根据清洗策略库确定与各目标数据的数据类型相匹配的目标清洗策略,包括:
确定所述清洗策略库中是否包括与目标数据的数据类型相匹配的清洗策略;
若是,将所述清洗策略库中与目标数据的数据类型相匹配的清洗策略确定为所述目标清洗策略;
若否,获取待清洗数据中每条数据的特征,根据预设百分比以上的数据所共有的特征生成与所述目标数据的数据类型相匹配的目标清洗策略。
2.如权利要求1所述的方法,其特征在于,在生成与所述目标数据的数据类型相匹配的目标清洗策略之后,还包括:
将所述数据类型与相匹配的目标清洗策略关联存储至所述清洗策略库。
3.如权利要求1所述的方法,其特征在于,根据各目标数据对应的目标清洗策略对所述待清洗数据中异常的目标数据执行清洗处理,以得到符合所述目标数据格式的清洗后的目标数据,包括:
识别所述待清洗数据中不符合所述目标数据格式的异常的目标数据;
根据异常的目标数据对应的目标清洗策略对所述异常的目标数据执行数据转换,得到清洗后的目标数据。
4.如权利要求3所述的方法,其特征在于,根据异常的目标数据对应的目标清洗策略对所述异常的目标数据执行数据转换,得到清洗后的目标数据,包括:
根据所述目标清洗策略确定数据转换特征,所述数据转换特征包括预设的执行数据转换的数据具有的特征;
对具有所述数据转换特征的异常的目标数据执行数据转换,得到清洗后的目标数据。
5.如权利要求4所述的方法,其特征在于,在根据所述目标清洗策略确定数据转换特征之后,还包括:
删除不具有所述数据转换特征的异常的目标数据;
其中,将清洗后数据和对所述异常的目标数据执行清洗处理的信息关联存储至数据库,包括:
将所述清洗后数据和包含被删除的异常的目标数据的信息关联存储至数据库。
6.如权利要求1所述的方法,其特征在于,将清洗后数据和对所述异常的目标数据执行清洗处理的信息关联存储至数据库,包括:
根据对所述异常的目标数据执行清洗处理的信息生成清洗处理数据,所述清洗处理数据包括执行清洗处理的异常的目标数据的位置信息和表征所述清洗处理是否成功的清洗结果;
将所述清洗后数据和所述清洗处理数据关联存储至数据库。
7.一种数据清洗装置,其特征在于,包括:
获取模块,获取待清洗数据,所述待清洗数据包括至少一个目标数据;
确定模块,根据清洗策略库确定与各目标数据的数据类型相匹配的目标清洗策略,所述目标清洗策略包括将所述目标数据转换为目标数据格式的转换策略;
处理模块,根据各目标数据对应的目标清洗策略对所述待清洗数据中异常的目标数据执行清洗处理,以得到符合所述目标数据格式的清洗后的目标数据,所述异常的目标数据为具有数据转换特征且不符合所述目标数据格式的目标数据,所述目标清洗策略包括将异常的目标数据转换为目标数据格式的转换策略;
存储模块,将清洗后数据和对所述异常的目标数据执行清洗处理的信息关联存储至数据库,所述清洗后数据包括符合所述目标数据格式的目标数据和所述清洗后的目标数据;
其中,根据清洗策略库确定与各目标数据的数据类型相匹配的目标清洗策略,包括:
确定所述清洗策略库中是否包括与目标数据的数据类型相匹配的清洗策略;
若是,将所述清洗策略库中与目标数据的数据类型相匹配的清洗策略确定为所述目标清洗策略;
若否,获取待清洗数据中每条数据的特征,根据预设百分比以上的数据所共有的特征生成与所述目标数据的数据类型相匹配的目标清洗策略。
8.一种电子设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至6中任一项所述的方法的步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011604136.5A CN113064885B (zh) | 2020-12-29 | 2020-12-29 | 一种数据清洗方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011604136.5A CN113064885B (zh) | 2020-12-29 | 2020-12-29 | 一种数据清洗方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113064885A CN113064885A (zh) | 2021-07-02 |
CN113064885B true CN113064885B (zh) | 2023-10-27 |
Family
ID=76558712
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011604136.5A Active CN113064885B (zh) | 2020-12-29 | 2020-12-29 | 一种数据清洗方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113064885B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113836126B (zh) * | 2021-09-22 | 2024-01-30 | 上海妙一生物科技有限公司 | 一种数据清洗方法、装置、设备及存储介质 |
CN114756541B (zh) * | 2022-05-25 | 2022-12-06 | 济南银华信息技术有限公司 | 用于人工智能训练的大数据特征清洗决策方法及系统 |
CN115118473B (zh) * | 2022-06-20 | 2023-07-14 | 中国联合网络通信集团有限公司 | 数据处理方法、装置、设备及存储介质 |
CN114996260B (zh) * | 2022-08-05 | 2022-11-11 | 深圳市深蓝信息科技开发有限公司 | 一种清洗ais数据的方法、装置、终端设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103593352A (zh) * | 2012-08-15 | 2014-02-19 | 阿里巴巴集团控股有限公司 | 一种海量数据清洗方法及装置 |
CN109597850A (zh) * | 2018-11-22 | 2019-04-09 | 四川省烟草公司成都市公司 | 烟草综合信息数据加工储存平台及数据加工方法 |
CN109710603A (zh) * | 2018-12-28 | 2019-05-03 | 江苏满运软件科技有限公司 | 数据清洗方法、系统、存储介质及电子设备 |
CN110147364A (zh) * | 2019-04-15 | 2019-08-20 | 平安普惠企业管理有限公司 | 数据清洗方法、装置、设备和存储介质 |
CN111563071A (zh) * | 2020-04-03 | 2020-08-21 | 深圳价值在线信息科技股份有限公司 | 数据清洗方法、装置、终端设备及计算机可读存储介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10545932B2 (en) * | 2013-02-07 | 2020-01-28 | Qatar Foundation | Methods and systems for data cleaning |
CN108984708B (zh) * | 2018-07-06 | 2022-02-01 | 蔚来(安徽)控股有限公司 | 脏数据识别方法及装置、数据清洗方法及装置、控制器 |
CN108959620A (zh) * | 2018-07-18 | 2018-12-07 | 上海汉得信息技术股份有限公司 | 一种数据清洗方法及设备 |
CN109299233B (zh) * | 2018-09-19 | 2024-03-01 | 平安科技(深圳)有限公司 | 文本数据处理方法、装置、计算机设备及存储介质 |
CN110471913A (zh) * | 2019-07-31 | 2019-11-19 | 北京慧萌信安软件技术有限公司 | 一种数据清洗方法及装置 |
CN111443926B (zh) * | 2020-04-22 | 2023-10-13 | 百度在线网络技术(北京)有限公司 | 数据清理的方法、装置、设备及存储介质 |
-
2020
- 2020-12-29 CN CN202011604136.5A patent/CN113064885B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103593352A (zh) * | 2012-08-15 | 2014-02-19 | 阿里巴巴集团控股有限公司 | 一种海量数据清洗方法及装置 |
CN109597850A (zh) * | 2018-11-22 | 2019-04-09 | 四川省烟草公司成都市公司 | 烟草综合信息数据加工储存平台及数据加工方法 |
CN109710603A (zh) * | 2018-12-28 | 2019-05-03 | 江苏满运软件科技有限公司 | 数据清洗方法、系统、存储介质及电子设备 |
CN110147364A (zh) * | 2019-04-15 | 2019-08-20 | 平安普惠企业管理有限公司 | 数据清洗方法、装置、设备和存储介质 |
CN111563071A (zh) * | 2020-04-03 | 2020-08-21 | 深圳价值在线信息科技股份有限公司 | 数据清洗方法、装置、终端设备及计算机可读存储介质 |
Non-Patent Citations (2)
Title |
---|
Modeling and simulation of the soiling dynamics of frequently cleaned reflectors in CSP plants;Bouaddi, S等;《SOLAR ENERGY》;第166卷;422-431 * |
基于置信等效边界模型的风功率数据清洗方法;胡阳等;《电力系统自动化》;第42卷(第15期);18-23+149 * |
Also Published As
Publication number | Publication date |
---|---|
CN113064885A (zh) | 2021-07-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113064885B (zh) | 一种数据清洗方法和装置 | |
CN109669844B (zh) | 设备故障处理方法、装置、设备和存储介质 | |
CN108376171B (zh) | 大数据快速导入的方法、装置、终端设备及存储介质 | |
CN110263022B (zh) | 酒店数据匹配方法及装置 | |
US9454561B2 (en) | Method and a consistency checker for finding data inconsistencies in a data repository | |
CN109714249B (zh) | 一种小程序消息的推送方法及相关装置 | |
CN109582670B (zh) | 一种车辆维修方案的推荐方法及相关设备 | |
WO2019061667A1 (zh) | 电子装置、数据处理方法、系统及计算机可读存储介质 | |
CN116303628B (zh) | 基于Elasticsearch的告警数据查询方法、系统及设备 | |
CN112256691B (zh) | 一种数据映射方法、装置及电子设备 | |
CN115329759B (zh) | 信息处理方法、装置、设备及存储介质 | |
CN114564501B (zh) | 一种数据库数据存储、查询方法、装置、设备及介质 | |
JP2007080040A (ja) | ヘルプデスク支援方法及び装置並びにヘルプデスク支援プログラム | |
CN110517010B (zh) | 一种数据处理方法、系统及存储介质 | |
CN111949428B (zh) | 提高小程序服务可用性的方法、装置、设备和存储介质 | |
CN111241082B (zh) | 数据修正方法及装置 | |
CN108197147B (zh) | 号卡数据库运维方法及装置 | |
CN113760864A (zh) | 数据模型的生成方法和装置 | |
CN110807037B (zh) | 一种数据修改方法、装置、电子设备及存储介质 | |
CN108733845B (zh) | 数据处理方法、装置、计算机设备及存储介质 | |
CN111898961A (zh) | 一种适用于同类电力设备台账数据相同字段的查错方法 | |
CN112015916A (zh) | 知识图谱的补全方法、装置、服务器和计算机存储介质 | |
CN111988479B (zh) | 通话信息处理方法、装置、计算机设备及存储介质 | |
CN113448989B (zh) | 数据的处理方法、装置、电子设备及计算机存储介质 | |
CN114546731B (zh) | 一种工作流数据恢复方法及数据恢复系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |