CN111427873B - 数据清洗方法及系统 - Google Patents

数据清洗方法及系统 Download PDF

Info

Publication number
CN111427873B
CN111427873B CN202010172546.0A CN202010172546A CN111427873B CN 111427873 B CN111427873 B CN 111427873B CN 202010172546 A CN202010172546 A CN 202010172546A CN 111427873 B CN111427873 B CN 111427873B
Authority
CN
China
Prior art keywords
data
result
sample
cleaning
result data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010172546.0A
Other languages
English (en)
Other versions
CN111427873A (zh
Inventor
袁佳奇
冯大辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nocode Tech Co ltd
Original Assignee
Nocode Tech Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nocode Tech Co ltd filed Critical Nocode Tech Co ltd
Priority to CN202010172546.0A priority Critical patent/CN111427873B/zh
Publication of CN111427873A publication Critical patent/CN111427873A/zh
Application granted granted Critical
Publication of CN111427873B publication Critical patent/CN111427873B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Factory Administration (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开一种数据清洗方法及系统,其中方法包括:基于任务映射配置依次对第一数据中每一条数据进行数据清洗,获得相对应结果数据,所述第一数据包括目标数据、样本数据和所述样本数据的标准结果数据,所述样本数据与所述目标数据的数据类型相对应,所述标准结果数据符合所述任务映射配置,所述结果数据为目标结果数据或样本结果数据;当所述结果数据为样本结果数据时,将所述样本结果数据和与其相对应的标准结果数据进行匹配,基于匹配结果生成质检数据。本发明能够在清洗过程中对清洗结果的属性和内容进行质检,并生成相应的质检数据,便于工作人员根据质检数据及时调整清洗工作,从而在提高清洗质量的同时提高清洗效率。

Description

数据清洗方法及系统
技术领域
本发明涉及数据处理领域,尤其涉及一种数据清洗方法及系统。
背景技术
数据清洗是整个数据分析过程中不可缺少的一个环节,其结果质量直接关系最终分析结论,现今通常采用人工核验的方式核验最终获得的清洗结果的质量,但通常情况下需要清洗的数据量过多,此种滞后核验的方式不便于对清洗方案进行调整,且人工核验的效率低。
发明内容
本发明针对现有技术中的缺点,提供了一种数据清洗方法及系统。
为了解决上述技术问题,本发明通过下述技术方案得以解决:
一种数据清洗方法,包括基于任务映射配置依次对第一数据中每一条数据进行数据清洗,获得相对应结果数据的步骤:
所述第一数据包括目标数据、样本数据和所述样本数据的标准结果数据,所述样本数据与所述目标数据的数据类型相对应,所述标准结果数据符合所述任务映射配置;
所述结果数据为目标结果数据或样本结果数据;
获得结果数据后还包括质检步骤,具体步骤为:
当所述结果数据为样本结果数据时,将所述样本结果数据和与其相对应的标准结果数据进行匹配,基于匹配结果生成质检数据。
作为一种可实施方式,基于任务映射配置依次对第一数据中每一条数据进行数据清洗,获得结果数据具体步骤为:
所述任务映射配置包括各任务字段的名称和属性;
基于任务映射配置对第一数据进行数据提取,生成执行数据;
基于所述执行数据生成结果数据。
作为一种可实施方式,基于任务映射配置对第一数据进行数据提取,生成执行数据的具体步骤为:
每个任务字段包括相对应的执行数据子字段和标准结果子字段;
基于任务字段的名称从第一数据的目标数据和样本数据中提取相应数据录入至执行数据子字段,并从第一数据的标准结果数据中提取相应数据录入至标准结果子字段,生成第二数据;
将第二数据的标准结果子字段进行过滤,生成执行数据。
作为一种可实施方式,基于所述执行数据生成结果数据的具体步骤为:
对所述执行数据进行质检,获得质检数据,基于所述质检数据判断是否完成数据清洗;
当判断结果为完成数据清洗时,将所述执行数据作为结果数据;
当判断结果为未完成数据清洗时,手动或自动对执行数据进行清洗,生成相对应的结果数据。
作为一种可实施方式,当所述结果数据为样本结果数据时,将所述样本结果数据和与其相对应的标准结果数据进行匹配,基于匹配结果生成质检数据的具体步骤为:
所述第二数据包括若干条源数据,每条源数据包含所有任务字段;
当所得结果数据所对应的源数据中包含标准结果数据时,判定所述结果数据为样本结果数据,将所述样本结果数据按照预设的排列规则进行排列,生成有序样本结果数据,同时将所述源数据中的标准结果数据按照预设的排列规则进行排列,生成有序标准结果数据;
将所述有序样本结果数据和所述有序标准结果数据中的数据内容一一进行匹配,根据匹配结果生成质检数据;
所述质检数据为当前质检数据和/或平均质检数据。
作为一种可实施方式,第一数据的获取方法为:
按照目标数据的数据类型对目标数据进行分类,获得至少一个第一目标数据子集;
根据所述数据类型和预设的添加规则于每个目标数据子集中添加相对应的样本数据和所述样本数据的标准结果数据,获得相对应的第二目标数据子集,由各第二目标子集构成第一数据。
本发明还提出一种数据清洗系统,包括清洗子系统和质检子系统;
所述清洗子系统用于基于任务映射配置依次对第一数据中每一条数据进行数据清洗,获得相对应结果数据:
所述第一数据包括目标数据、样本数据和所述样本数据的标准结果数据,所述样本数据与所述目标数据的数据类型相对应,所述标准结果数据符合所述任务映射配置;
所述结果数据为目标结果数据或样本结果数据;
所述质检子系统,用于当所述结果数据为样本结果数据时,将所述样本结果数据和与其相对应的标准结果数据进行匹配,基于匹配结果生成质检数据。
作为一种可实施方式,所述清洗子系统包括数据获取模块、数据提取模块和数据清洗模块;
所述任务映射配置包括各任务字段的名称和属性;
所述数据提取模块,用于基于任务映射配置对第一数据进行数据提取,生成执行数据;
所述数据清洗模块,用于基于所述执行数据生成结果数据。
作为一种可实施方式,所述数据提取模块被配置为:
每个任务字段包括相对应的执行数据子字段和标准结果子字段;
基于任务字段的名称从第一数据的目标数据和样本数据中提取相应数据录入至执行数据子字段,并从第一数据的标准结果数据中提取相应数据录入至标准结果子字段,生成第二数据;
将第二数据的标准结果子字段进行过滤,生成执行数据。
本发明还提出一种计算机可读存储介质,其存储有计算机程序,该程序被处理器执行时实现上述任意一项所述方法的步骤。
本发明由于采用了以上技术方案,具有显著的技术效果:
1、本发明通过对第一数据和质检步骤的设计,能够在清洗过程中对清洗结果的属性和内容进行质检,并生成相应的质检数据,便于工作人员根据质检数据及时调整清洗工作,如重新确定任务映射配置、对当前完成的清洗结果进行更正等,从而在提高清洗质量的同时提高清洗效率。
2、本发明通过将目标数据按照数据类型分类,获得不同类型的第一目标数据子集,于各第一目标数据子集中混入相同类型的样本数据,从而使最终获得的质检数据能够及时准确的反应实际的清洗质量。
3、本发明通过按照预设的规则将样本结果数据和标准结果数据进行排列后在进行对比,避免了侵入数据结构的按字段属性方式的比对内容所产生的逻辑复杂性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一种数据清洗方法的流程示意图;
图2是本发明一种数据处理系统的模块连接示意图。
具体实施方式
下面结合实施例对本发明做进一步地详细说明,以下实施例是对本发明的解释而本发明并不局限于以下实施例。
现今数据清洗的具体步骤为:
S100、获取第一数据,并基于清洗目标确定任务映射配置;
所述第一数据为待清洗数据;
所述任务映射配置用于确定需要清洗的字段,以及各字段的属性和或清洗规则。S200、基于任务映射配置依次对第一数据中每一条数据进行数据清洗,获得相对应结果数据;
S200、手动或自动对第一数据中每一条数据进行清洗,获得相对应的结果数据,所述结果数据各字段的内容完全符合任务映射配置。
上述,手动指人工对各字段的数据内容进行清洗,自动指按照预设的清洗规则对各字段的数据内容进行清洗,两种清洗方案均只能根据各字段的属性对进行清洗和验证,故后续还需质检人员对清洗结果中数据内容进行人工核验,以保证清洗结果的质量,该核验工作滞后且核验效率低,导致整个清洗工作的工作效率低。
实施例1、一种数据清洗方法,如图1所示,包括以下步骤:
S110、获取第一数据,并基于清洗目标确定任务映射配置;
所述第一数据包括目标数据、样本数据和所述样本数据的标准结果数据,所述样本数据与所述目标数据的数据类型相对应,所述标准结果数据符合所述任务映射配置;
本实施例中目标数据为待清洗数据。
S210、基于任务映射配置依次对第一数据中每一条数据进行数据清洗,获得相对应结果数据;
所述结果数据为目标结果数据或样本结果数据;
S310、当所述结果数据为样本结果数据时,将所述样本结果数据和与其相对应的标准结果数据进行匹配,基于匹配结果生成质检数据。
本实施例中质检数据为当前准确率和/或平均准确率。
由上可知,本实施例于需要实际清洗的目标数据中混入样本数据,所述样本数据具有符合任务映射配置的标准结果数据,在执行数据清洗的过程中,不仅对目标数据进行清洗,还会对样本数据按照相同的清洗方案(手动/自动)进行清洗,故所得与样本数据相对应的样本结果数据能够体现当前清洗质量。
将相对应的样本结果数据和标准结果数据各字段对应的数据内容一一进行匹配,数据内容完全一致才判定其匹配成功,统计分析该条样本结果数据所有字段的匹配结果,获得质检数据并进行反馈。
综上,本实施例通过对第一数据和质检步骤的设计,能够在清洗过程中对清洗结果的属性和内容进行质检,并生成相应的质检数据,便于工作人员根据质检数据及时调整清洗工作,如重新确定任务映射配置、对当前完成的清洗结果进行更正等,从而在提高清洗质量的同时提高清洗效率。
进一步地,步骤S110中所述第一数据的获取方法为:
按照目标数据的数据类型对目标数据进行分类,获得至少一个第一目标数据子集;
根据所述数据类型和预设的添加规则于每个目标数据子集中添加相对应的样本数据和所述样本数据的标准结果数据,获得相对应的第二目标数据子集,由各第二目标子集构成第一数据。
所述数据类型包括XML、JSON等结构化数据的数据类型,还包括文档、文本、图片、表格等非结构化数据的数据类型。
在实际清洗工作中,目标数据往往是具有多种数据类型的混合数据,故本实施例通过将目标数据按照数据类型分类,获得不同类型的第一目标数据子集,于各第一目标数据子集中混入相同类型的样本数据,从而使最终获得的质检数据能够及时准确的反应实际的清洗质量。
预设的添加规则为,样本数据插入目标数据的规则,如目标数据为图片时,添加规则为每隔10张属于目标数据的图片插入一张作为样本数据的图片,本领域的技术人员可根据实际需要自行设定。
进一步地,步骤S210中基于任务映射配置依次对第一数据中每一条数据进行数据清洗,获得结果数据具体步骤为:
基于任务映射配置对第一数据进行数据提取,生成执行数据,所述任务映射配置包括各任务字段的名称和属性;
基于所述执行数据生成结果数据。
上述任务字段即需要清洗的字段,通常情况下,数据清洗工作往往是根据实际需要,对目标数据进行有针对性的清洗,即,无需对目标数据中存在的所有字段进行清洗,故首先基于任务映射配置从第一数据中提取所需的数据内容,获得执行数据。
进一步地,基于任务映射配置对第一数据进行数据提取,生成执行数据的具体步骤为:
每个任务字段包括相对应的执行数据子字段和标准结果子字段;
基于任务字段的名称从第一数据的目标数据和样本数据中提取相应数据录入至执行数据子字段,并从第一数据的标准结果数据中提取相应数据录入至标准结果子字段,生成第二数据;
将第二数据的标准结果子字段进行过滤,生成执行数据。
由上可知,第一数据包括目标数据、样本数据和所述样本数据的标准结果数据,其中目标数据和样本数据为需要清洗的数据,标准结果数据为已通过验证符合任务映射配置的结果数据,执行数据子字段和标准结果子字段一一对应,便于后续对样本结果数据的判断和质检。
由上可知,目标数据可能是文档、图片,此时无法根据任务字段名称直接抽取相关数据录入执行数据子字段中,还需要人工对目标数据进行识别和填充,工作效率低。
本实施例中,采用现有以公开的识别模型和知识图谱实现对执行数据子字段的自动填充;
其中识别模型包括但不限于实体识别模型、语音识别模型和图像识别模型,如目标数据包含音频和图像时,可利用语音识别模型对音频进行文本转换,利用图像识别模型对图片进行文本转换,基于任务字段的名称对转换获得的文本数据进行实体识别,提取相关数据内容对执行数据子字段进行填充。
上述知识图谱包括现有以公开各行业的知识图谱,相关领域技术人员可根据实际需要进行选用,根据基于任务映射配置和相应知识图谱中各实体之间的关系,对执行数据子字段进行填充,如任务字段包含疾病名称,但是目标数据中往往包含疑似疾病类型的名词(疾病别名),如直接进行填充存在效率低下,准确率低的问题。针对该问题,本实施例可采用现有已公开的疾病知识图谱,根据疾病知识图谱和所抽取的疾病相关名词获取对应疾病名称进行填充,无需人工参与,提高填充效率和准确率。
进一步地,基于所述执行数据生成结果数据的具体步骤为:
对所述执行数据进行质检,获得质检数据,基于所述质检数据判断是否完成数据清洗;
当判断结果为完成数据清洗时,将所述执行数据作为结果数据;
当判断结果为未完成数据清洗时,手动或自动对执行数据进行清洗,生成相对应的结果数据。
由上可知,本实施例对第一数据进行数据提取,获得执行数据的过程也能实现对数据的预清洗,故对获得的执行数据进行质检,即,将所述执行数据作为结果数据,按照步骤S310进行质检,当质检发现所述执行数据已达到数据清洗的要求,则可直接输出执行数据,否则才对执行数据做进一步的清洗。
判断是否完成数据清洗的方法为:
获取预设的质检合格阈值,将质检数据与所述质检合格阈值进行比较,当质检数据达到质检合格阈值时,判定其完成数据清洗。
进一步地,步骤S310中当所述结果数据为样本结果数据时,将所述样本结果数据和与其相对应的标准结果数据进行匹配,基于匹配结果生成质检数据的具体步骤为:
所述第二数据包括若干条源数据,每条源数据包含所有任务字段;
当所得结果数据所对应的源数据中包含标准结果数据时,判定所述结果数据为样本结果数据,将所述样本结果数据按照预设的排列规则进行排列,生成有序样本结果数据,同时将所述源数据中的标准结果数据按照预设的排列规则进行排列,生成有序标准结果数据;
将所述有序样本结果数据和所述有序标准结果数据中的数据内容一一进行匹配,根据匹配结果生成质检数据;
所述质检数据为当前质检数据和/或平均质检数据。
注:相关领域技术人员可根据实际需要自行设置质检数据的类型,如质检数据为正确率、错误率、正确个数、错误个数。
相关领域的技术人员可根据实际需要设置排列规则,如将任务字段按照其名称首字母进行排列。
以某条样本数据为例,其源数据如下表所示:
表1
任务字段 ID name age
执行数据子字段 编号001 张三1 30A
标准结果子字段 001 张三 30
此时有序标准结果数据为:{“age”:“30”,“name”:“张三”,“ID”:“001”};
此时有序样本结果数据为:{“age”:“30”,“name”:“张三”,“ID”:“编号001”};
此时按顺序将有序标准结果数据和有序样本结果数据中的数据内容一一进行匹配(字符一致性比对),获得质检数据,如当前正确率为66%。
本实施例通过按照预设的规则将样本结果数据和标准结果数据进行排列后在进行对比,避免了侵入数据结构的按字段属性方式的比对内容所产生的逻辑复杂性。
实施例2、一种数据清洗系统,如图2所示,包括清洗子系统100和质检子系统200;
所述清洗子系统100用于基于任务映射配置依次对第一数据中每一条数据进行数据清洗,获得相对应结果数据:
所述第一数据包括目标数据、样本数据和所述样本数据的标准结果数据,所述样本数据与所述目标数据的数据类型相对应,所述标准结果数据符合所述任务映射配置;
所述结果数据为目标结果数据或样本结果数据;
所述质检子系统200,用于当所述结果数据为样本结果数据时,将所述样本结果数据和与其相对应的标准结果数据进行匹配,基于匹配结果生成质检数据。
进一步地,所述清洗子系统包括数据获取模块110、数据提取模块120和数据清洗模块130;
所述任务映射配置包括各任务字段的名称和属性;
所述数据提取模块120,用于基于任务映射配置对第一数据进行数据提取,生成执行数据;
所述数据清洗模块130,用于基于所述执行数据生成结果数据。
进一步地,所述数据提取模块120被配置为:
每个任务字段包括相对应的执行数据子字段和标准结果子字段;
基于任务字段的名称从第一数据的目标数据和样本数据中提取相应数据录入至执行数据子字段,并从第一数据的标准结果数据中提取相应数据录入至标准结果子字段,生成第二数据;
将第二数据的标准结果子字段进行过滤,生成执行数据。
实施例3、一种计算机可读存储介质,其存储有计算机程序,该程序被处理器执行时实现实施例1所述方法的步骤。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明的实施例可提供为方法、装置、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
需要说明的是:
说明书中提到的“一个实施例”或“实施例”意指结合实施例描述的特定特征、结构或特性包括在本发明的至少一个实施例中。因此,说明书通篇各个地方出现的短语“一个实施例”或“实施例”并不一定均指同一个实施例。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
此外,需要说明的是,本说明书中所描述的具体实施例,其零、部件的形状、所取名称等可以不同。凡依本发明专利构思所述的构造、特征及原理所做的等效或简单变化,均包括于本发明专利的保护范围内。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,只要不偏离本发明的结构或者超越本权利要求书所定义的范围,均应属于本发明的保护范围。

Claims (10)

1.一种数据清洗方法,包括基于任务映射配置依次对第一数据中每一条数据进行数据清洗,获得相对应结果数据的步骤,其特征在于:
所述第一数据包括目标数据、样本数据和所述样本数据的标准结果数据,所述样本数据与所述目标数据的数据类型相对应,所述标准结果数据符合所述任务映射配置;
所述结果数据为目标结果数据或样本结果数据;
获得结果数据后还包括质检步骤,具体步骤为:
当所述结果数据为样本结果数据时,将所述样本结果数据和与其相对应的标准结果数据进行匹配,基于匹配结果生成质检数据。
2.根据权利要求1所述的数据清洗方法,其特征在于,基于任务映射配置依次对第一数据中每一条数据进行数据清洗,获得结果数据具体步骤为:
所述任务映射配置包括各任务字段的名称和属性;
基于任务映射配置对第一数据进行数据提取,生成执行数据;
基于所述执行数据生成结果数据。
3.根据权利要求2所述的数据清洗方法,其特征在于,基于任务映射配置对第一数据进行数据提取,生成执行数据的具体步骤为:
每个任务字段包括相对应的执行数据子字段和标准结果子字段;
基于任务字段的名称从第一数据的目标数据和样本数据中提取相应数据录入至执行数据子字段,并从第一数据的标准结果数据中提取相应数据录入至标准结果子字段,生成第二数据;
将第二数据的标准结果子字段进行过滤,生成执行数据。
4.根据权利要求3所述的数据清洗方法,其特征在于,基于所述执行数据生成结果数据的具体步骤为:
对所述执行数据进行质检,获得质检数据,基于所述质检数据判断是否完成数据清洗;
当判断结果为完成数据清洗时,将所述执行数据作为结果数据;
当判断结果为未完成数据清洗时,手动或自动对执行数据进行清洗,生成相对应的结果数据。
5.根据权利要求3或4任一所述的数据清洗方法,其特征在于,当所述结果数据为样本结果数据时,将所述样本结果数据和与其相对应的标准结果数据进行匹配,基于匹配结果生成质检数据的具体步骤为:
所述第二数据包括若干条源数据,每条源数据包含所有任务字段;
当所得结果数据所对应的源数据中包含标准结果数据时,判定所述结果数据为样本结果数据,将所述样本结果数据按照预设的排列规则进行排列,生成有序样本结果数据,同时将所述源数据中的标准结果数据按照预设的排列规则进行排列,生成有序标准结果数据;
将所述有序样本结果数据和所述有序标准结果数据中的数据内容一一进行匹配,根据匹配结果生成质检数据;
所述质检数据为当前质检数据和/或平均质检数据。
6.根据权利要求1至4任一所述的数据清洗方法,其特征在于,第一数据的获取方法为:
按照目标数据的数据类型对目标数据进行分类,获得至少一个第一目标数据子集;
根据所述数据类型和预设的添加规则于每个目标数据子集中添加相对应的样本数据和所述样本数据的标准结果数据,获得相对应的第二目标数据子集,由各第二目标子集构成第一数据。
7.一种数据清洗系统,其特征在于,包括清洗子系统和质检子系统;
所述清洗子系统用于基于任务映射配置依次对第一数据中每一条数据进行数据清洗,获得相对应结果数据:
所述第一数据包括目标数据、样本数据和所述样本数据的标准结果数据,所述样本数据与所述目标数据的数据类型相对应,所述标准结果数据符合所述任务映射配置;
所述结果数据为目标结果数据或样本结果数据;
所述质检子系统,用于当所述结果数据为样本结果数据时,将所述样本结果数据和与其相对应的标准结果数据进行匹配,基于匹配结果生成质检数据。
8.根据权利要求7所述的数据清洗系统,其特征在于,所述清洗子系统包括数据获取模块、数据提取模块和数据清洗模块;
所述任务映射配置包括各任务字段的名称和属性;
所述数据提取模块,用于基于任务映射配置对第一数据进行数据提取,生成执行数据;
所述数据清洗模块,用于基于所述执行数据生成结果数据。
9.根据权利要求8所述的数据清洗系统,其特征在于,所述数据提取模块被配置为:
每个任务字段包括相对应的执行数据子字段和标准结果子字段;
基于任务字段的名称从第一数据的目标数据和样本数据中提取相应数据录入至执行数据子字段,并从第一数据的标准结果数据中提取相应数据录入至标准结果子字段,生成第二数据;
将第二数据的标准结果子字段进行过滤,生成执行数据。
10.一种计算机可读存储介质,其存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至6任意一项所述方法的步骤。
CN202010172546.0A 2020-03-12 2020-03-12 数据清洗方法及系统 Active CN111427873B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010172546.0A CN111427873B (zh) 2020-03-12 2020-03-12 数据清洗方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010172546.0A CN111427873B (zh) 2020-03-12 2020-03-12 数据清洗方法及系统

Publications (2)

Publication Number Publication Date
CN111427873A CN111427873A (zh) 2020-07-17
CN111427873B true CN111427873B (zh) 2023-03-14

Family

ID=71547878

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010172546.0A Active CN111427873B (zh) 2020-03-12 2020-03-12 数据清洗方法及系统

Country Status (1)

Country Link
CN (1) CN111427873B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017162083A1 (zh) * 2016-03-25 2017-09-28 阿里巴巴集团控股有限公司 数据清洗方法和装置
CN108280096A (zh) * 2017-01-06 2018-07-13 北京京东尚科信息技术有限公司 数据清洗方法及数据清洗装置
CN109684947A (zh) * 2018-12-11 2019-04-26 广州景骐科技有限公司 标注质量监控方法、装置、计算机设备和存储介质
CN109977110A (zh) * 2019-04-28 2019-07-05 杭州数梦工场科技有限公司 数据清洗方法、装置及设备
CN110263024A (zh) * 2019-05-20 2019-09-20 平安普惠企业管理有限公司 数据处理方法、终端设备及计算机存储介质
CN110413815A (zh) * 2019-07-26 2019-11-05 北京旷视科技有限公司 人像聚类清洗方法和装置
CN110458441A (zh) * 2019-08-06 2019-11-15 北京七鑫易维信息技术有限公司 质量检验的审核方法、装置、系统及存储介质
CN110471913A (zh) * 2019-07-31 2019-11-19 北京慧萌信安软件技术有限公司 一种数据清洗方法及装置
CN110490255A (zh) * 2019-08-20 2019-11-22 杨剑虹 南方土壤样点数据清洗系统及方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017162083A1 (zh) * 2016-03-25 2017-09-28 阿里巴巴集团控股有限公司 数据清洗方法和装置
CN108280096A (zh) * 2017-01-06 2018-07-13 北京京东尚科信息技术有限公司 数据清洗方法及数据清洗装置
CN109684947A (zh) * 2018-12-11 2019-04-26 广州景骐科技有限公司 标注质量监控方法、装置、计算机设备和存储介质
CN109977110A (zh) * 2019-04-28 2019-07-05 杭州数梦工场科技有限公司 数据清洗方法、装置及设备
CN110263024A (zh) * 2019-05-20 2019-09-20 平安普惠企业管理有限公司 数据处理方法、终端设备及计算机存储介质
CN110413815A (zh) * 2019-07-26 2019-11-05 北京旷视科技有限公司 人像聚类清洗方法和装置
CN110471913A (zh) * 2019-07-31 2019-11-19 北京慧萌信安软件技术有限公司 一种数据清洗方法及装置
CN110458441A (zh) * 2019-08-06 2019-11-15 北京七鑫易维信息技术有限公司 质量检验的审核方法、装置、系统及存储介质
CN110490255A (zh) * 2019-08-20 2019-11-22 杨剑虹 南方土壤样点数据清洗系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
一种基于规则的交互式数据清洗框架的设计;张武等;《微计算机应用》(第10期);全文 *

Also Published As

Publication number Publication date
CN111427873A (zh) 2020-07-17

Similar Documents

Publication Publication Date Title
CN103235759B (zh) 测试用例生成方法和装置
CN109740457B (zh) 一种人脸识别算法评测方法
CN110941562A (zh) 测试用例的验证方法、装置及电子设备
CN111767350A (zh) 数据仓库测试方法、装置、终端设备及存储介质
CN111125067B (zh) 数据维护方法及装置
CN111290905A (zh) 物联网云平台的测试方法和装置
CN111767277A (zh) 数据处理方法和装置
CN111444718A (zh) 一种保险产品需求文档处理方法、装置及电子设备
CN111427873B (zh) 数据清洗方法及系统
CN113886373A (zh) 一种数据处理方法、装置及电子设备
CN117608903A (zh) 自动生成测试报告的方法、装置、设备和存储介质
CN113112126A (zh) 基于人工智能的供水管漏损预警方法及系统
CN108304330B (zh) 内容提取方法、装置和计算机设备
CN111078526A (zh) 一种测试用例的生成方法、装置及存储介质
CN108828427B (zh) 信号完整性测试的判据查找方法、装置、设备及存储介质
CN110941830B (zh) 一种漏洞数据处理方法和装置
CN113434680A (zh) 基于坐席数据的用户意愿分析方法、装置、电子设备
CN113806231A (zh) 一种代码覆盖率分析方法、装置、设备和介质
CN113407593A (zh) 数据抽检方法、装置、电子设备和可读存储介质
CN105955879A (zh) 一种二维码生成算法的测试方法及装置
CN111813593A (zh) 一种数据处理方法、设备、服务器及存储介质
CN112084667A (zh) 一种测试用例的生成方法、装置及电子设备
CN111209183A (zh) Ui功能遍历测试方法和装置
CN113469235B (zh) 用水波动异常识别方法及装置、计算机装置及存储介质
CN114692647B (zh) 一种数据处理方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant