CN103714415A - 一种对批量数据进行自动修复的方法及系统 - Google Patents

一种对批量数据进行自动修复的方法及系统 Download PDF

Info

Publication number
CN103714415A
CN103714415A CN201310637254.XA CN201310637254A CN103714415A CN 103714415 A CN103714415 A CN 103714415A CN 201310637254 A CN201310637254 A CN 201310637254A CN 103714415 A CN103714415 A CN 103714415A
Authority
CN
China
Prior art keywords
data
rule
vset
correct
batch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310637254.XA
Other languages
English (en)
Inventor
王诗菡
贾西贝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Huaao Data Technology Co Ltd
Original Assignee
Shenzhen Huaao Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Huaao Data Technology Co Ltd filed Critical Shenzhen Huaao Data Technology Co Ltd
Priority to CN201310637254.XA priority Critical patent/CN103714415A/zh
Publication of CN103714415A publication Critical patent/CN103714415A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种对批量数据进行自动修复的方法,该方法包括:检测当前批量待录入数据,并触发自动修复步骤;采用规则过滤并逐条遍历可能不正确的待录入数据步骤;通过与用户交互来确定正确的数据步骤;根据上述正确的数据和规则来审核其他不确定的数据,并对错误的数据进行标记步骤;子系统根据参考数据对上述错误的数据进行更新,并将更新后的数据录入到子系统的数据库步骤。本发明通过采用规则对批量数据进行过滤并与用户交互确定正确数据从而对其他不确定数据进行规则审核与修复,从而对批量数据进行了自动修复,确保了数据正确和数据质量。另外,本发明还提供一种对批量数据进行自动修复的系统。

Description

一种对批量数据进行自动修复的方法及系统
技术领域
本发明涉及数据修复领域,尤其涉及一种对批量数据进行自动修复的方法及系统。
背景技术
大型的集团控股公司,拥有总公司和分散到各地的若干子公司或分公司。这些集团股份总公司的主数据系统都有统一、严格的数据管理机制;同时为了提高基础数据质量,降低业务数据分析处理难度,提高业务数据准确性,总公司会对主数据进行认真的清洗和维护,然而若干子公司或分公司则并没有如此完善的数据管理体系,每个子公司或分公司在录入待处理的业务数据时,常常都有自己的输入方式,使得不同子公司或分公司的数据形式无法保持一致。甚至于,因为不同的子公司或分公司最终都会把自己的业务数据汇总到主数据中,在数据的录入过程中,会引入错误到主数据库当中。特别是对批量数据进行处理的情况下,就会因为数据标准不一致或者人为因素会导致数据的错误,影响了公司整体数据的质量,因此需要一种对批量数据录入时就进行监控与修复的数据修复方法。
发明内容
为此,本发明为了解决上述缺陷之一。
因而本发明提供一种对批量数据进行自动修复的方法及系统,通过采用规则对批量数据进行过滤并与用户交互确定正确数据从而对其他不确定数据进行规则审核与修复,从而对批量数据进行了自动修复,确保了数据正确和数据质量。
所以,本发明一个实施例提供一种对批量数据进行自动修复的方法,该方法包括:检测当前批量待录入数据,并触发自动修复步骤;采用规则过滤并逐条遍历可能不正确的待录入数据步骤;通过与用户交互来确定正确的数据步骤;根据上述正确的数据和规则来审核其他不确定的数据,并对错误的数据进行标记步骤;子系统根据参考数据对上述错误的数据进行更新,并将更新后的数据录入到子系统的数据库步骤。
优选地,所述采用规则过滤得到正确的数据。
优选地,所述采用规则过滤得到正确的数据由规则间不冲突来确定。
优选地,所述可能不正确的待录入数据为根据规则过滤得到规则间相冲突的数据。
优选地,所述用户交互来确定正确的数据从可能不正确的待录入数据中指定。
进一步地,所述根据上述正确的数据和规则来审核其他不确定的数据具体包括以下步骤:防火墙系统获取已知规则列表和已确定的数据属性集合步骤;根据所述规则的逻辑顺序确定它们的依赖关系步骤;从上述规则中确定能直接应用的规则集合VSet步骤;遍历规则集合VSet,如果规则集合VSet为空,则输出确认的属性集合,否则,审核和修复规则集合VSet中规则对应的确定属性,并通过依赖关系找到所述规定推出的其他规则,将这些规则对应的确定属性放入到规则集合VSet中步骤。
优选地,所述依据所述规则的逻辑顺序确定它们的依赖关系依据所述规则的属性值进行。
优选地,所述对错误的数据进行更新包括根据参考数据中数据所属的正确值更新所述错误数据的对应属性。本发明通过采用规则对批量数据进行过滤并与用户交互确定正确数据从而对其他不确定数据进行规则审核与修复,从而对批量数据进行了自动修复,确保了数据正确和数据质量。
本发明另一个实施例提供一种对批量数据进行自动修复的系统,该系统包括:数据检测单元,用于检测当前批量待录入数据,并触发自动修复;数据过滤单元,用于采用规则过滤并逐条遍历可能不正确的待录入数据;数据交互单元,用于通过与用户交互来确定正确的数据;数据审核单元,用于根据上述正确的数据和规则来审核其他不确定的数据,并对错误的数据进行标记;数据更新单元,用于子系统根据参考数据对上述错误的数据进行更新,并将更新后的数据录入到子系统的数据库。
优选地,所述数据过滤单元采用规则过滤得到正确的数据。
进一步地,所述数据审核单元所述根据上述正确的数据和规则来审核其他不确定的数据具体包括以下步骤:防火墙系统获取已知规则列表和已确定的数据属性集合步骤;根据所述规则的逻辑顺序确定它们的依赖关系步骤;从上述规则中确定能直接应用的规则集合VSet步骤;遍历规则集合VSet,如果规则集合VSet为空,则输出确认的属性集合,否则,审核和修复规则集合VSet中规则对应的确定属性,并通过依赖关系找到所述规定推出的其他规则,将这些规则对应的确定属性放入到规则集合VSet中步骤。
优选地,所述依据所述规则的逻辑顺序确定它们的依赖关系依据所述规则的属性值进行。本发明通过采用规则对批量数据进行过滤并与用户交互确定正确数据从而对其他不确定数据进行规则审核与修复,从而对批量数据进行了自动修复,确保了数据正确和数据质量。
附图说明
图1是本发明一个实施例提供的一种对批量数据进行自动修复的方法的流程示意图。
图2是本发明另一个实施例提供的根据正确的数据和规则来审核其他不确定的数据的具体流程示意图。
图3是本发明另一个实施例提供的一种对批量数据进行自动修复的系统的示意图。
具体实施例
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。
本发明提供一种对批量数据进行自动修复的方法及系统,本发明通过采用规则对批量数据进行过滤并与用户交互确定正确数据从而对其他不确定数据进行规则审核与修复,从而对批量数据进行了自动修复,确保了数据正确和数据质量。附图1是本发明提供的一种对批量数据进行自动修复的方法的流程示意图,具体包括以下步骤。
步骤S110:检测当前批量待录入数据,并触发自动修复步骤。
步骤S120:采用规则过滤并逐条遍历可能不正确的待录入数据步骤。
在对当前批量待录入数据启动自动修复步骤后,在本步骤中,先采用规则过滤得到正确的数据。所述采用规则过滤得到正确的数据由规则间不冲突来确定。所述可能不正确的待录入数据为根据规则过滤得到规则间相冲突的数据。例如,对待录入根据规则进行过滤,查找匹配规则的数据,如存在两条数据,它们的属性A都为‘0’,属性B都为‘1’,而我们已知,一条规则:(A,A’)-> (B,B’)||(),则这两条数据的这两个属性值都是正确的。反之,则为可能不正确的待录入数据。
步骤S130:通过与用户交互来确定正确的数据步骤。
在本步骤中,所述用户交互来确定正确的数据从经上步骤过滤后得到的可能不正确的待录入数据中指定。所述用户交互确定正确的数据包括数据中的正确属性。所述正确属性根据用户的经验进行判断,所述用户交互来确定正确的数据可以为一条确定数据里的属性。例如:有一条待确定数据包含以下多个属性:A、B、C、D、E、F、G、H、I。用户既可以根据自身经验确定其中某一条也可以确定整条数据属性均为正确。
步骤S140:根据上述正确的数据和规则来审核其他不确定的数据,并对错误的数据进行标记步骤。
如图2所示,所述根据上述正确的数据和规则来审核其他不确定的数据具体包括以下步骤:获取已知规则列表和已确定的数据属性集合步骤;根据所述规则的逻辑顺序确定它们的依赖关系步骤;从上述规则中确定能直接应用的规则集合VSet步骤;遍历规则集合VSet,如果规则集合VSet为空,则输出确认的属性集合,否则,审核和修复规则集合VSet中规则对应的确定属性,并通过依赖关系找到所述规定推出的其他规则,将这些规则对应的确定属性放入到规则集合VSet中步骤。所述依据所述规则的逻辑顺序确定它们的依赖关系依据所述规则的属性值进行。在本步骤中,对规则的遍历顺序不同,会是推导出来的审核属性结果不一样,那么在本步骤中需要先根据规则的属性值来确定所述规则间的依赖关系,例如,已知有三条规则Rule1:(A,Am)-> (B,Bm)||(),Rule2:(B,Bm)-> (C,Cm)||(),Rule3:(E,Em)-> (B,Bm)||(D =‘0’)。根据这三条规则的属性可知Rule2同时依赖于Rule1和Rule3,也即当Rule1和Rule3中任意一个规则包含的属性值确认后,Rule2的属性值才有可能确认。比如用户交互确定正确属性为A,根据上述规则应用,首先利用Rule1,即当前VSet = {Rule1}。因为VSet不为空,所以我们根据Rule1可以推导出属性B能够被确认。因为Rule2依赖于Rule1,由此得到Rule2在当前情况下是可用的规则,把它放入VSet,此时,VSet = {Rule2},Rule1已经用完,被删除了。再次使用VSet,能够确认属性C。而此时,VSet是为空了,没有更多的规则可用了。最后属性{B、C}的集合会被返回,作为经过审核能够确认的属性,如果错误,则可以修复它们。
步骤S150:子系统根据参考数据对上述错误的数据进行更新,并将更新后的数据录入到子系统的数据库步骤。
本步骤中,所述对错误的数据进行更新包括根据参考数据中数据所属的正确值更新所述错误数据的对应属性。如上例中,发现B和C的值为错误,那么我们就把Bm的值更新到B上、Cm的值更新到C上。本发明通过采用规则对批量数据进行过滤并与用户交互确定正确数据从而对其他不确定数据进行规则审核与修复,从而对批量数据进行了自动修复,确保了数据正确和数据质量。
如图3所示是本发明另一个实施例提供的一种对批量数据进行自动修复的系统的示意图,具体为:数据检测单元10,用于检测当前批量待录入数据,并触发自动修复。
数据过滤单元20,用于采用规则过滤并逐条遍历可能不正确的待录入数据。所述数据过滤单元20采用规则过滤得到正确的数据。
数据交互单元30,用于通过与用户交互来确定正确的数据。在数据交互单元30中,所述用户交互确定正确的数据包括数据中的正确属性,所述正确属性根据用户的经验进行判断,所述用户交互来确定正确的数据可以为一条确定数据里的属性。例如:有一条待确定数据包含以下多个属性:A、B、C、D、E、F、G、H、I。用户既可以根据自身经验确定其中某一条也可以确定整条数据属性均为正确。
数据审核单元40,用于根据上述正确的数据和规则来审核其他不确定的数据,并对错误的数据进行标记。所述数据审核单元40所述根据上述正确的数据和规则来审核其他不确定的数据具体包括以下步骤:获取已知规则列表和已确定的数据属性集合步骤;根据所述规则的逻辑顺序确定它们的依赖关系步骤;从上述规则中确定能直接应用的规则集合VSet步骤;遍历规则集合VSet,如果规则集合VSet为空,则输出确认的属性集合,否则,审核和修复规则集合VSet中规则对应的确定属性,并通过依赖关系找到所述规定推出的其他规则,将这些规则对应的确定属性放入到规则集合VSet中步骤。所述数据审核单元40依据所述规则的逻辑顺序确定它们的依赖关系依据所述规则的属性值进行。
数据更新单元50,用于子系统根据参考数据对上述错误的数据进行更新,并将更新后的数据录入到子系统的数据库。本发明通过采用规则对批量数据进行过滤并与用户交互确定正确数据从而对其他不确定数据进行规则审核与修复,从而对批量数据进行了自动修复,确保了数据正确和数据质量。

Claims (12)

1.一种对批量数据进行自动修复的方法,其特征在于,所述方法包括以下步骤:
检测当前批量待录入数据,并触发自动修复步骤;
采用规则过滤并逐条遍历可能不正确的待录入数据步骤;
通过与用户交互来确定正确的数据步骤;
根据上述正确的数据和规则来审核其他不确定的数据,并对错误的数据进行标记步骤;
子系统根据参考数据对上述错误的数据进行更新,并将更新后的数据录入到子系统的数据库步骤。
2.根据权利要求1所述的方法,其特征在于,所述采用规则过滤得到正确的数据。
3.根据权利要求1或2所述的方法,其特征在于,所述采用规则过滤得到正确的数据由规则间不冲突来确定。
4.根据权利要求1所述的方法,其特征在于,所述可能不正确的待录入数据为根据规则过滤得到规则间相冲突的数据。
5.根据权利要求1或4所述的方法,其特征在于,所述用户交互来确定正确的数据从可能不正确的待录入数据中指定。
6.根据权利要求1所述的方法,其特征在于,所述根据上述正确的数据和规则来审核其他不确定的数据具体包括以下步骤:
获取已知规则列表和已确定的数据属性集合步骤;
根据所述规则的逻辑顺序确定它们的依赖关系步骤;
从上述规则中确定能直接应用的规则集合VSet步骤;
遍历规则集合VSet,如果规则集合VSet为空,则输出确认的属性集合,否则,审核和修复规则集合VSet中规则对应的确定属性,并通过依赖关系找到所述规定推出的其他规则,将这些规则对应的确定属性放入到规则集合VSet中步骤。
7.根据权利要求6所述的方法,其特征在于,所述依据所述规则的逻辑顺序确定它们的依赖关系依据所述规则的属性值进行。
8.根据权利要求1或6所述的方法,其特征在于,所述对错误的数据进行更新包括根据参考数据中数据所属的正确值更新所述错误数据的对应属性。
9.一种对批量数据进行自动修复的系统,其特征在于,所述系统包括:
数据检测单元,用于检测当前批次待录入数据,并触发自动修复;
数据过滤单元,用于采用规则过滤并逐条遍历可能不正确的待录入数据;
数据交互单元,用于通过与用户交互来确定正确的数据;
数据审核单元,用于根据上述正确的数据和规则来审核其他不确定的数据,并对错误的数据进行标记;
数据更新单元,用于子系统根据参考数据对上述错误的数据进行更新,并将更新后的数据录入到子系统的数据库。
10.根据权利要求9所述的系统,其特征在于,所述数据过滤单元采用规则过滤得到正确的数据。
11.根据权利要求9所述的系统,其特征在于,所述数据审核单元所述根据上述正确的数据和规则来审核其他不确定的数据具体包括以下步骤:
获取已知规则列表和已确定的数据属性集合步骤;
根据所述规则的逻辑顺序确定它们的依赖关系步骤;
从上述规则中确定能直接应用的规则集合VSet步骤;
遍历规则集合VSet,如果规则集合VSet为空,则输出确认的属性集合,否则,审核和修复规则集合VSet中规则对应的确定属性,并通过依赖关系找到所述规定推出的其他规则,将这些规则对应的确定属性放入到规则集合VSet中步骤。
12.根据权利要求9或11所述的系统,其特征在于,所述依据所述规则的逻辑顺序确定它们的依赖关系依据所述规则的属性值进行。
CN201310637254.XA 2013-12-04 2013-12-04 一种对批量数据进行自动修复的方法及系统 Pending CN103714415A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310637254.XA CN103714415A (zh) 2013-12-04 2013-12-04 一种对批量数据进行自动修复的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310637254.XA CN103714415A (zh) 2013-12-04 2013-12-04 一种对批量数据进行自动修复的方法及系统

Publications (1)

Publication Number Publication Date
CN103714415A true CN103714415A (zh) 2014-04-09

Family

ID=50407368

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310637254.XA Pending CN103714415A (zh) 2013-12-04 2013-12-04 一种对批量数据进行自动修复的方法及系统

Country Status (1)

Country Link
CN (1) CN103714415A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015103880A1 (zh) * 2014-01-07 2015-07-16 深圳市华傲数据技术有限公司 一种对批量数据进行自动修复的方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101110863A (zh) * 2007-08-16 2008-01-23 南京联创科技股份有限公司 增值业务综合结算分析方法
CN101593208A (zh) * 2009-07-09 2009-12-02 浙江大学 一种基于基态的动态修正扩展模型的宗地时空数据存储方法
CN101753369A (zh) * 2008-12-03 2010-06-23 北京天融信网络安全技术有限公司 一种检测防火墙规则冲突的方法及装置
CN102929607A (zh) * 2012-10-09 2013-02-13 曙光信息产业(北京)有限公司 一种基于云计算的数据挖掘系统功能层析架构
CN103136249A (zh) * 2011-11-30 2013-06-05 北京航天长峰科技工业集团有限公司 多模态异构数据整合系统及方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101110863A (zh) * 2007-08-16 2008-01-23 南京联创科技股份有限公司 增值业务综合结算分析方法
CN101753369A (zh) * 2008-12-03 2010-06-23 北京天融信网络安全技术有限公司 一种检测防火墙规则冲突的方法及装置
CN101593208A (zh) * 2009-07-09 2009-12-02 浙江大学 一种基于基态的动态修正扩展模型的宗地时空数据存储方法
CN103136249A (zh) * 2011-11-30 2013-06-05 北京航天长峰科技工业集团有限公司 多模态异构数据整合系统及方法
CN102929607A (zh) * 2012-10-09 2013-02-13 曙光信息产业(北京)有限公司 一种基于云计算的数据挖掘系统功能层析架构

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
WENFEI FAN: "CerFix: A System for Cleaning Data with Certain Fixes", 《PROCEEDINGS OF THE VLDB ENDOWMENT》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015103880A1 (zh) * 2014-01-07 2015-07-16 深圳市华傲数据技术有限公司 一种对批量数据进行自动修复的方法及系统

Similar Documents

Publication Publication Date Title
CN109121436B (zh) 增广、探索、和维护项目分层结构的方法
WO2015103880A1 (zh) 一种对批量数据进行自动修复的方法及系统
US10387236B2 (en) Processing data errors for a data processing system
US10140588B2 (en) Bill of material synchronization
CN105975392A (zh) 一种基于抽象语法树的重复代码检测方法及装置
CN115167891B (zh) 接口控制文件的数据更新方法、装置、设备及存储介质
CN106406881A (zh) 用于分析形式化的需求以及定位错误的可缩放方法
CN107918629B (zh) 一种告警故障的关联方法和装置
CN107656752A (zh) 一种车辆控制器软件更新的方法、装置及车辆
CN110442847B (zh) 基于代码仓库过程管理的代码相似性检测方法及装置
CN103473076A (zh) 一种代码版本的发布方法及系统
CN103605776A (zh) 信息数据库的数据处理方法和装置
CN106201502A (zh) 一种跨主机应用程序部署方法及装置
CN103716301A (zh) 一种基于防火墙的数据修复方法及系统
CN103455322A (zh) 用于提供关于网络中的对象的实时信息的方法和系统
US20090106285A1 (en) Method, apparatus and computer program for migrating records in a database from a source database schema to a target database schema
CN103713967A (zh) 一种基于规则优化的数据防火墙修复方法及系统
CN106156170A (zh) 舆情分析方法及装置
CN107729097B (zh) 展示页面配置方法及相应设备
CN103714415A (zh) 一种对批量数据进行自动修复的方法及系统
CN113704343A (zh) 一种数据治理中的数据血缘可视化实现方法及系统
CN105930258B (zh) 一种参数过滤的方法及装置
CN112559373A (zh) 一种软件兼容性管理方法和系统
CN109189304A (zh) 一种地图编辑方法及装置
CN115167896A (zh) 一种更新软件版本的方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20140409

RJ01 Rejection of invention patent application after publication