CN111241079A - 一种数据清洗方法、装置及计算机可读存储介质 - Google Patents

一种数据清洗方法、装置及计算机可读存储介质 Download PDF

Info

Publication number
CN111241079A
CN111241079A CN202010016926.5A CN202010016926A CN111241079A CN 111241079 A CN111241079 A CN 111241079A CN 202010016926 A CN202010016926 A CN 202010016926A CN 111241079 A CN111241079 A CN 111241079A
Authority
CN
China
Prior art keywords
tuple
aging
value
time
consistency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010016926.5A
Other languages
English (en)
Inventor
王宏志
丁小欧
苏佳轩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN202010016926.5A priority Critical patent/CN111241079A/zh
Publication of CN111241079A publication Critical patent/CN111241079A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种数据清洗方法、装置及计算机可读存储介质;该方法包括获取结构化数据和时效约束,对所有元组建立时序图,并经传递规约后得到时效子图;基于时序子图计算每条元组的时效值;以时效性‑一致性联合修复距离作为指标,计算错误元组和高质量元组之间的编辑距离,选择满足一致性规则约束,且与该错误元组时效值最为接近的修复模式对错误元组进行一致性修复;利用贝叶斯填充方法,将元组的时效值作为该元组的新增属性参与贝叶斯的训练过程,实现对缺失值的填充;得到清洗后的数据集。本发明能够对数据集中同时存在的时间戳不可用、不完整属性值、不一致属性值这三种数据质量问题进行有效地识别和修复。

Description

一种数据清洗方法、装置及计算机可读存储介质
技术领域
本发明涉及数据清洗技术领域,尤其涉及一种数据清洗方法、装置及计算机可读存储介质。
背景技术
数据清洗作为数据预处理环节的重要步骤,在数据仓库、数据质量管理和数据挖掘等领域有广泛应用。通过执行数据清洗,能够有效修复数据中的错误,提高数据质量。
在数据质量管理技术中,时效性、完整性、一致性是评价数据质量的三个重要因素。目前,现有技术通常只针对其中单一的某个因素进行数据清洗,且已有的数据清洗方法往往不考虑数据质量问题的时效性因素,易导致数据清洗方法的可靠性和准确性降低,造成更多的误判和漏判。而结构化数据中,时间标记经常发生时间戳缺失或不可用的情况,导致时效性因素难以被建模利用。同时,由于数据内容的丰富性和复杂性,导致结构化数据中错误类型多,低质量数据产生的缘由复杂,且通常存在多种类型的错误问题,而目前已有的数据清洗方法,通常只能提供一些简单的数据清洗功能,不能检测识别到数据中的复杂质量问题。由于已有的数据清洗方法往往只能在一定限制条件下,针对某种错误进行检测和修复,缺少针对多种数据质量性质的综合性数据清洗策略,数据清洗质量不佳。
发明内容
本发明的目的是针对上述至少一部分不足之处,提供一种基于时效性、完整性、一致性的综合的数据清洗方法,以解决现有技术中难以识别、修复结构化数据中复杂质量问题的缺陷。
为了实现上述目的,本发明提供了一种数据清洗方法,包括如下步骤:
S1、数据预处理:获取待清洗的结构化数据和时效约束,根据时效约束对结构化数据中所有元组建立时序图,并经传递规约后,消除所述时序图上的冲突,得到时效子图;
S2、时效性判定:基于所述时序子图计算每条元组的时效值,根据时效值量化各元组之间的时效顺序;
S3、一致性修复:输入CFD规则作为一致性规则,并从待清洗的结构化数据中提取一致性规则模式,得到一致性规则约束集合;基于各元组的时效值及元组之间的时效顺序,以时效性-一致性联合修复距离作为指标,计算错误元组和高质量元组之间的编辑距离,选择满足一致性规则约束,且与该错误元组时效值最为接近的修复模式对错误元组进行一致性修复;
S4、完整性修复:对经过一致性修复后的各个元组,利用贝叶斯填充方法,将元组的时效值作为该元组的新增属性参与贝叶斯的训练过程,实现对缺失值的填充;
S5、数据集输出:输出经过完整性修复后的各个元组,得到清洗后的数据集。
优选地,所述数据预处理步骤中,根据时效约束对结构化数据中所有元组建立时序图时,对于结构化数据中的每一个实体,先基于时效约束确定其对应的各条元组作为节点的时效值相对大小,再由任意两节点中时效值较小的节点向时效值较大的节点建立有向边。
优选地,所述数据预处理步骤中,所述时效子图定义为:
对于时效图G=(V,E),其子图Gc=(V,ETR)是时效图G经传递规约后得到的时效子图,当且仅当:
Gc与G拥有相同的传递闭包;
Figure BDA0002359235570000021
G′c的传递闭包与G的不同;
其中,V表示时效图G的点集,E表示时效图G的边集,ETR表示时效图G的边集E经传递规约后得到的边集。
优选地,所述时效性判定步骤中,基于所述时序子图计算每条元组的时效值时,包括如下步骤:
S2-1、将起始节点s、终止节点t加入到所述时序子图,并将起始节点s与所述时序子图中所有入度为0的节点相连,将所述时序子图中所有出度为0的节点与终止节点t相连,定义起始节点s的时效值为0,终止节点t的时效值为1;
S2-2、选择一条尚未确定时效值的最长时效链,为其中的所有节点均匀分配时效值,使得相邻节点之间的时效值差值相等;
S2-3、重复上述步骤S2-2,直到所述时序子图中的所有节点均被确定时效值为止。
优选地,所述一致性修复步骤中,以时效性-一致性联合修复距离作为指标,计算错误元组和高质量元组之间的编辑距离时,一条元组的时效性-一致性联合修复距离通过如下表达式计算:
Figure BDA0002359235570000031
其中,r表示一条元组,
Figure BDA0002359235570000032
表示一条CFD规则,μ、ν是在(0,1)区间内的权重系数,满足μ+ν=1;
Figure BDA0002359235570000033
代表一致性距离,
Figure BDA0002359235570000034
Figure BDA0002359235570000035
代表时效性距离;
一致性距离
Figure BDA0002359235570000036
的表达式为:
Figure BDA0002359235570000037
其中,distb代表一个0或1的数值,当
Figure BDA0002359235570000038
时,
Figure BDA0002359235570000039
的值为1,否则为0,Ai表示属性集合中的一个属性,
Figure BDA00023592355700000310
分别为
Figure BDA00023592355700000311
的左部、右部涉及到的属性数量;
时效性距离
Figure BDA00023592355700000312
的表达式为:
Figure BDA00023592355700000313
其中,Curr(r)、
Figure BDA00023592355700000314
分别代表r、
Figure BDA00023592355700000315
的时效值。
优选地,所述完整性修复步骤进一步包括:
S4-1、输入进行一致性修复后的各个元组,以及每个属性集合中的属性的置信阈值,将元组的时效值作为一个新增属性添加至相应的元组当中;
S4-2、检测带有缺失值的元组,将带有缺失值的元组作为测试数据,其余完整的所有元组作为训练集;
S4-3、预处理并离散化属性集合中的连续型变量,包括将时效值处理为虚拟的分类变量区间;
S4-4、在测试数据中,计算一个属性的缺失值相关的一组朴素贝叶斯条件概率;
S4-5、求得一组朴素贝叶斯条件概率中的最大值,若其大于该属性的置信阈值,则将其对应的填充值填入该属性的缺失值;
S4-6、返回步骤S4-4,重复执行步骤S4-4和步骤S4-5,直到所有元组中的缺失值均被填充。
优选地,所述步骤S4-3中将时效值处理为虚拟的分类变量区间时,以连续变量A表示属性集合中的一个连续型变量,以虚拟变量B表示一个离散型变量,将连续变量A和虚拟变量B创建列联表,对连续变量A和虚拟变量B进行卡方检验,根据最大卡方统计量将连续变量A划分为由虚拟变量B表示的区间。
本发明还提供了一种数据清洗装置,包括:
数据预处理模块,用于获取待清洗的结构化数据和时效约束,根据时效约束对结构化数据中所有元组建立时序图,并经传递规约后,消除所述时序图上的冲突,得到时效子图;
时效性判定模块,用于基于所述时序子图计算每条元组的时效值,根据时效值量化各元组之间的时效顺序;
一致性修复模块,用于输入CFD规则作为一致性规则,并从待清洗的结构化数据中提取一致性规则模式,得到一致性规则约束集合;基于各元组的时效值及元组之间的时效顺序,以时效性-一致性联合修复距离作为指标,计算错误元组和高质量元组之间的编辑距离,选择满足一致性规则约束,且与该错误元组时效值最为接近的修复模式对错误元组进行一致性修复;
完整性修复模块,用于对经过一致性修复后的各个元组,利用贝叶斯填充方法,将元组的时效值作为该元组的新增属性参与贝叶斯的训练过程,实现对缺失值的填充;
数据集输出模块,用于输出经过完整性修复后的各个元组,得到清洗后的数据集。
优选地,所述数据预处理模块还用于在根据时效约束对结构化数据中所有元组建立时序图时,对于结构化数据中的每一个实体,先基于时效约束确定其对应的各条元组作为节点的时效值相对大小,再由任意两节点中时效值较小的节点向时效值较大的节点建立有向边。
本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
本发明的上述技术方案具有如下优点:本发明提供了一种数据清洗方法、装置及计算机可读存储介质,本发明基于时效性、完整性、一致性三个重要因素对结构化数据进行综合性清洗,能够解决数据中同时存在时间戳不可用、不完整属性值、不一致属性值这三种数据质量问题,实现对这三种数据质量问题的有效识别和修复,同时提高数据的时效性、完整性和一致性,从而获得高质量的数据集,为后续执行建立数据库或挖掘数据特征等具体应用打下良好的基础。
附图说明
图1是本发明实施例中的一种数据清洗方法步骤示意图;
图2是本发明实施例中的一种数据清洗方法流程示意图;
图3是本发明实施例中的一种数据清洗装置结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1和图2所示,本发明实施例提供的一种数据清洗方法,该方法包括如下步骤:
S1、数据预处理:获取待清洗的结构化数据和时效约束,根据时效约束对结构化数据中所有元组建立时序图,并经传递规约后,消除所述时序图上的冲突,得到时效子图。
其中,待清洗的结构化数据可采用例如员工信息表、学生信息表、库存信息表、银行数据库等数据。该方法能够应用于包括企业人才信息库系统、人力资源管理系统(HumanResource management(HRM))、用户关系管理系统(Customer Relationship Manage-ment(CRM))等具体领域。通过对信息表等结构化数据进行综合性数据清洗,可有效提高数据库质量,提高后续其他信息处理的计算速度。
优选地,本发明提供的数据清洗方法在数据预处理步骤S1中,根据时效约束对结构化数据中所有元组建立时序图时,对于结构化数据中的每一个实体,先基于时效约束确定其对应的各条元组作为节点的时效值相对大小,再由任意两节点中时效值较小的节点向时效值较大的节点建立有向边,构成时序图。
进一步地,所述时序图的定义为:
对于待清洗的结构化数据库,R为数据库上的关系型模式,由一组属性定义(attr(R)),attr(R)表示关系型数据库模式R包含的属性集合。E为R上的一个实体(例如一个用户,银行数据库中有该用户的多条元组记录),令r(E)={r1,…,rn}代表实体E在结构化数据中的n个元组的集合,有向无环图G=(V,E)是实体E的时效图,当它满足:
i)
Figure BDA0002359235570000061
ri∈r(E),vi=ri
ii)
Figure BDA0002359235570000062
当且仅当rm<rk,rm<rk可由时效约束推得;
其中,V表示时效图的点集,vi表示节点,E表示时效图的边集,e(m,k)表示有向边;即,边e(m,k)存在的条件是:元组rm的时效值小于元组rk
进一步地,经传递规约后,消除所述时序图上的冲突,得到时效子图时,所述时效子图定义为:
对于时效图G=(V,E),其子图Gc=(V,ETR)是时效图G经传递规约后得到的时效子图,当且仅当:
i)Gc与G拥有相同的传递闭包;
ii)
Figure BDA0002359235570000071
G′c的传递闭包与G的不同;
其中,V表示时效图G的点集,E表示时效图G的边集,ETR表示时效图G的边集E经传递规约后得到的边集。
S2、时效性判定:基于所述时序子图计算每条元组的时效值,根据时效值量化各元组之间的时效顺序。这一时效顺序将作为后续的计算依据。
优选地,时效性判定步骤S2中,基于所述时序子图计算每条元组的时效值时,包括如下步骤:
S2-1、将起始节点s、终止节点t加入到所述时序子图,并将起始节点s与所述时序子图中所有入度为0的节点相连,将所述时序子图中所有出度为0的节点与终止节点t相连,定义起始节点s的时效值为0,终止节点t的时效值为1。
S2-2、选择一条尚未确定时效值,即尚未确定时间戳的最长时效链,为其中的所有节点均匀分配时效值,使得相邻节点之间的时效值差值相等。
S2-3、重复上述步骤S2-2,直到所述时序子图中的所有节点均被确定时效值为止。
具体地,计算每条元组的时效值时,可通过如下方法1(时效值计算方法CurrValue):
Figure BDA0002359235570000072
Figure BDA0002359235570000081
其中,v∈V表示时序子图中的节点,e(i,j)∈E表示时序子图中的边。上述方法1展示了计算各元组时效值的整体流程。首先将起始节点s、终止节点t加入到图中,确保所有其余节点的时效值均于(0,1)区间内。通过更新时序子图上节点的时效关系,发现新的有效边(第5-9行)。拷贝一份图Gc的副本,求得它的反图
Figure BDA0002359235570000082
通过方法2(有效边更新方法)求得每个节点时效值的上界和下界。在第10行通过方法3(最长时效链发现方法)找到了当前最长时效链后,通过上下界对链上的每一个节点进行时效值的确定(第12-14行)。重复以上步骤直到所有节点的时效值计算完成。
进一步地,方法1中调用的方法2和方法3可通过如下方式表示:
Figure BDA0002359235570000083
Figure BDA0002359235570000091
上述方法2通过一个拓扑排序,对图上每一个节点的上确界或下确界进行更新。
Figure BDA0002359235570000092
上述方法3通过一个拓扑排序,找到一条最长的时效链。第4-7行更新最深深度记录,第8-10行更新每个与当前节点相连的节点深度记录。最终第12行通过记录的pre指针追溯得到整个时效链,将这条链作为结果返回。
在完成了时效值的计算后,本发明提供的数据清洗方法通过得到的时效值对数据进行一致性和完整性修复,实现数据清洗。特别地,在执行一致性和完整性数据清洗时,本发明先执行一致性与时效性的联合修复,再执行完整性和时效性的联合修复策略。这样可以有效节省计算时间,并且该修复顺序可以有效降低因修复而产生的新的数据错误。
S3、一致性修复:输入CFD(条件函数依赖)规则作为一致性规则,并从待清洗的结构化数据中提取一致性规则模式,得到一致性规则约束集合;基于各元组的时效值及元组之间的时效顺序,以时效性-一致性联合修复距离作为指标,计算错误元组和高质量元组之间的编辑距离,选择满足一致性规则约束,且与该错误元组时效值最为接近的修复模式对错误元组进行一致性修复,得到经过一致性修复后的各个元组。本发明采用条件函数依赖规则作为一致性规则,检验关系型数据库中不一致的错误数据。
本发明提出了一个联合一致性与时效性进行数据修复的指标:时效性-一致性联合修复距离,来计算错误数据元组和高质量数据元组之间的编辑距离。
进一步地,一致性修复步骤S3中,以时效性-一致性联合修复距离作为指标,计算错误元组和高质量元组之间的编辑距离时,一条元组的时效性-一致性联合修复距离通过如下表达式计算:
Figure BDA0002359235570000101
其中,r表示一条元组,
Figure BDA0002359235570000102
表示一条CFD规则,μ、ν是在(0,1)区间内的权重系数,满足μ+ν=1;
Figure BDA0002359235570000103
代表一致性距离,
Figure BDA0002359235570000104
Figure BDA0002359235570000105
代表时效性距离;
一致性距离
Figure BDA0002359235570000106
的表达式为:
Figure BDA0002359235570000107
其中,b代表一个0或1的数值,当
Figure BDA0002359235570000108
时,
Figure BDA0002359235570000109
的值为1,否则为0,Ai表示属性集合中的一个属性,Ai∈-HS的含义是任取左部LHS或者右部RHS中的一个属性,
Figure BDA00023592355700001010
Figure BDA00023592355700001011
分别为
Figure BDA00023592355700001012
的左部、右部涉及到的属性数量。一致性距离的表达式是将一条元组r的属性值与
Figure BDA00023592355700001013
的所有左部和右部的属性值做比较,如果两者相对应的属性取值相同,则distb记为0,如果取值不同,则记为1,然后把所有属性的distb加和,除以
Figure BDA00023592355700001014
的所有左部和右部的属性总数,作为一致性距离的结果。
时效性距离
Figure BDA0002359235570000111
的表达式为:
Figure BDA0002359235570000112
其中,Curr(r)、
Figure BDA0002359235570000113
分别代表r、
Figure BDA0002359235570000114
的时效值。
具体地,所述一致性修复步骤执行一致性与时效性的联合修复时,可通过如下方法4实现:
Figure BDA0002359235570000115
上述方法4在检测一致性违反发生后(第2行),找到错误记录ri附近的一段记录(第5行),通过检测它们使用的一致性模式,更新每一种可能的修复模式与当前待修复记录的最短时效距离(第6-8行)。然后对于每一种可能的修复方式,通过计算时效性-一致性联合修复距离
Figure BDA0002359235570000116
(第11行)确定这种修复方案花费的“代价”,记录“代价”最低的方案(第12-13行)后使用这一方案进行修复(第14行)。最终返回所有数据的修复结果,得到完成一致性与时效性的联合修复的各个元组。
S4、完整性修复:对经过一致性修复后的各个元组,利用贝叶斯填充方法,即基于朴素贝叶斯的填充方法,将元组的时效值作为该元组的新增属性参与贝叶斯的训练过程,实现对缺失值的填充,得到经过完整性修复后的各个元组。
在完整性修复部分,主要针对元组中属性上的缺失值进行填充修复。本发明将计算得到的元组时效值作为每个元组的一个新的特征,参与贝叶斯的训练过程,可得到一个时效更近、更为准确的缺失值填充方案,实现完整性与时效性的联合修复。贝叶斯填充方法为现有技术,在此不再赘述。
优选地,所述完整性修复步骤S4进一步包括:
S4-1、输入进行一致性修复后的各个元组,即输入修复后的数据集Dcons,以及每个属性集合attr(R)中的属性的置信阈值σ(A),将元组的时效值Curr(r)作为一个新增属性添加至相应的元组当中。
S4-2、检测带有缺失值的元组
Figure BDA0002359235570000121
将带有缺失值的元组
Figure BDA0002359235570000122
作为测试数据,Dcons中其余完整的所有元组作为训练集。
S4-3、预处理并离散化属性集合attr(R)中的连续型变量,包括将时效值处理为虚拟的分类变量区间。
进一步地,将时效值处理为虚拟的分类变量区间时,是以连续变量A表示属性集合attr(R)中的一个连续型变量,以虚拟变量B表示一个离散型变量,将连续变量A和虚拟变量B创建列联表,对连续变量A和虚拟变量B进行卡方检验,根据最大卡方统计量将连续变量A划分为由虚拟变量B表示的区间。每个属性是缺失值填充方法中的一个变量。由于贝叶斯填充方法不支持读取连续型变量,所以需要将属性集合attr(R)中所有连续性的属性转化为离散型的变量。经过上述处理,可将连续性变量A转化为离散型变量B,以便后续应用贝叶斯填充方法。
S4-4、在测试数据中,计算一个属性
Figure BDA0002359235570000123
的缺失值相关的一组朴素贝叶斯条件概率:
Figure BDA0002359235570000124
Figure BDA0002359235570000125
为元组
Figure BDA0002359235570000126
上的缺失属性取值为zi的条件概率。
S4-5、求得一组朴素贝叶斯条件概率中的最大值,若其大于该属性的置信阈值,则将其对应的填充值填入该属性的缺失值。即,求得
Figure BDA0002359235570000131
若满足
Figure BDA0002359235570000132
则使用z填充
Figure BDA0002359235570000133
上的
Figure BDA0002359235570000134
S4-6、返回步骤S4-4,重复执行步骤S4-4和步骤S4-5,直到所有元组中的缺失值均被填充。
S5、数据集输出:输出经过完整性修复后的各个元组,得到清洗后的数据集。
清洗后的数据集时效性、完整性和一致性较好,在银行用户信息系统、人力资源管理信息系统、仓储信息系统的数据,经清洗后,可用于用户画像、行为分析、仓储库存预测等数据挖掘任务中。经清洗得到的高质量数据可保证数据挖掘模型的精度和可靠度。
为验证该数据清洗方法的有效性,本发明还在三个真实数据集上测试了效果,在准确率、召回率、F值的指标上表明本发明方法能够有效清洗劣质数据。与传统方法(未考虑时效性)相比,在修复属性时效性更新频繁的数据集中的数据质量问题时,本发明方法效果更优,而且在数据集中混合型错误率12%时,该方法表现依然稳定。
综上所述,本发明提出一种基于时效约束的元组时效判定方法,并给出了时效规则约束的一种具体应用场景和应用方法,实现了时效规则约束。同时,本发明还制定了有效的关系型时态数据上的综合型清洗策略,解决多种错误共存的低质量数据的检测和修复问题,提高数据清洗质量,并节约清洗成本,解决了不一致、不完整、时序关系不清的数据采用现有技术难以修复的问题,实现高效数据清洗,并得到质量优化后的数据集。
如图3所示,在本发明一些优选的实施方式中,还提供了一种数据清洗装置,包括:数据预处理模块100、时效性判定模块200、一致性修复模块300、完整性修复模块400和数据集输出模块500。
其中,数据预处理模块100用于获取待清洗的结构化数据和时效约束,根据时效约束对结构化数据中所有元组建立时序图,并经传递规约后,消除所述时序图上的冲突,得到时效子图。
时效性判定模块200用于基于所述时序子图计算每条元组的时效值,根据时效值量化各元组之间的时效顺序。
一致性修复模块300用于输入一致性规则,并从待清洗的结构化数据中提取一致性规则模式,得到一致性规则约束集合;基于各元组的时效值及元组之间的时效顺序,以时效性-一致性联合修复距离作为指标,计算错误元组和高质量元组之间的编辑距离,选择满足一致性规则约束,且与该错误元组时效值最为接近的修复模式对错误元组进行一致性修复,得到经过一致性修复后的各个元组。
完整性修复模块400用于对经过一致性修复后的各个元组,利用贝叶斯填充方法,将元组的时效值作为该元组的新增属性参与贝叶斯的训练过程,实现对缺失值的填充,经过完整性修复后的各个元组。
数据集输出模块500,用于输出经过完整性修复后的各个元组,得到清洗后的数据集。
优选地,数据预处理模块100还用于在根据时效约束对结构化数据中所有元组建立时序图时,对于结构化数据中的每一个实体,先基于时效约束确定其对应的各条元组作为节点的时效值相对大小,再由任意两节点中时效值较小的节点向时效值较大的节点建立有向边。
在本发明另一些优选的实施方式中,还提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述任一实施方式中所述的数据清洗方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程,在此不再重复说明。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种数据清洗方法,其特征在于,该方法包括如下步骤:
S1、数据预处理:获取待清洗的结构化数据和时效约束,根据时效约束对结构化数据中所有元组建立时序图,并经传递规约后,消除所述时序图上的冲突,得到时效子图;
S2、时效性判定:基于所述时序子图计算每条元组的时效值,根据时效值量化各元组之间的时效顺序;
S3、一致性修复:输入CFD规则作为一致性规则,并从待清洗的结构化数据中提取一致性规则模式,得到一致性规则约束集合;基于各元组的时效值及元组之间的时效顺序,以时效性-一致性联合修复距离作为指标,计算错误元组和高质量元组之间的编辑距离,选择满足一致性规则约束,且与该错误元组时效值最为接近的修复模式对错误元组进行一致性修复;
S4、完整性修复:对经过一致性修复后的各个元组,利用贝叶斯填充方法,将元组的时效值作为该元组的新增属性参与贝叶斯的训练过程,实现对缺失值的填充;
S5、数据集输出:输出经过完整性修复后的各个元组,得到清洗后的数据集。
2.根据权利要求1所述的方法,其特征在于,
所述数据预处理步骤中,根据时效约束对结构化数据中所有元组建立时序图时,对于结构化数据中的每一个实体,先基于时效约束确定其对应的各条元组作为节点的时效值相对大小,再由任意两节点中时效值较小的节点向时效值较大的节点建立有向边。
3.根据权利要求2所述的方法,其特征在于,
所述数据预处理步骤中,所述时效子图定义为:
对于时效图G=(V,E),其子图Gc=(V,ETR)是时效图G经传递规约后得到的时效子图,当且仅当:
Gc与G拥有相同的传递闭包;
Figure FDA0002359235560000021
G′c的传递闭包与G的不同;
其中,V表示时效图G的点集,E表示时效图G的边集,ETR表示时效图G的边集E经传递规约后得到的边集。
4.根据权利要求3所述的方法,其特征在于,
所述时效性判定步骤中,基于所述时序子图计算每条元组的时效值时,包括如下步骤:
S2-1、将起始节点s、终止节点t加入到所述时序子图,并将起始节点s与所述时序子图中所有入度为0的节点相连,将所述时序子图中所有出度为0的节点与终止节点t相连,定义起始节点s的时效值为0,终止节点t的时效值为1;
S2-2、选择一条尚未确定时效值的最长时效链,为其中的所有节点均匀分配时效值,使得相邻节点之间的时效值差值相等;
S2-3、重复上述步骤S2-2,直到所述时序子图中的所有节点均被确定时效值为止。
5.根据权利要求4所述的方法,其特征在于,
所述一致性修复步骤中,以时效性-一致性联合修复距离作为指标,计算错误元组和高质量元组之间的编辑距离时,一条元组的时效性-一致性联合修复距离通过如下表达式计算:
Figure FDA0002359235560000022
其中,r表示一条元组,
Figure FDA0002359235560000023
表示一条CFD规则,μ、ν是在(0,1)区间内的权重系数,满足μ+ν=1;
Figure FDA0002359235560000024
代表一致性距离,
Figure FDA0002359235560000025
Figure FDA0002359235560000026
代表时效性距离;
一致性距离
Figure FDA0002359235560000027
的表达式为:
Figure FDA0002359235560000028
其中,distb代表一个0或1的数值,当
Figure FDA0002359235560000029
时,
Figure FDA00023592355600000210
的值为1,否则为0,Ai表示属性集合中的一个属性,
Figure FDA0002359235560000031
分别为
Figure FDA0002359235560000032
的左部、右部涉及到的属性数量;
时效性距离
Figure FDA0002359235560000033
的表达式为:
Figure FDA0002359235560000034
其中,Curr(r)、
Figure FDA0002359235560000035
分别代表r、
Figure FDA0002359235560000036
的时效值。
6.根据权利要求5所述的方法,其特征在于,
所述完整性修复步骤进一步包括:
S4-1、输入进行一致性修复后的各个元组,以及每个属性集合中的属性的置信阈值,将元组的时效值作为一个新增属性添加至相应的元组当中;
S4-2、检测带有缺失值的元组,将带有缺失值的元组作为测试数据,其余完整的所有元组作为训练集;
S4-3、预处理并离散化属性集合中的连续型变量,包括将时效值处理为虚拟的分类变量区间;
S4-4、在测试数据中,计算一个属性的缺失值相关的一组朴素贝叶斯条件概率;
S4-5、求得一组朴素贝叶斯条件概率中的最大值,若其大于该属性的置信阈值,则将其对应的填充值填入该属性的缺失值;
S4-6、返回步骤S4-4,重复执行步骤S4-4和步骤S4-5,直到所有元组中的缺失值均被填充。
7.根据权利要求6所述的方法,其特征在于,
所述步骤S4-3中将时效值处理为虚拟的分类变量区间时,以连续变量A表示属性集合中的一个连续型变量,以虚拟变量B表示一个离散型变量,将连续变量A和虚拟变量B创建列联表,对连续变量A和虚拟变量B进行卡方检验,根据最大卡方统计量将连续变量A划分为由虚拟变量B表示的区间。
8.一种数据清洗装置,其特征在于,包括:
数据预处理模块,用于获取待清洗的结构化数据和时效约束,根据时效约束对结构化数据中所有元组建立时序图,并经传递规约后,消除所述时序图上的冲突,得到时效子图;
时效性判定模块,用于基于所述时序子图计算每条元组的时效值,根据时效值量化各元组之间的时效顺序;
一致性修复模块,用于输入CFD规则作为一致性规则,并从待清洗的结构化数据中提取一致性规则模式,得到一致性规则约束集合;基于各元组的时效值及元组之间的时效顺序,以时效性-一致性联合修复距离作为指标,计算错误元组和高质量元组之间的编辑距离,选择满足一致性规则约束,且与该错误元组时效值最为接近的修复模式对错误元组进行一致性修复;
完整性修复模块,用于对经过一致性修复后的各个元组,利用贝叶斯填充方法,将元组的时效值作为该元组的新增属性参与贝叶斯的训练过程,实现对缺失值的填充;
数据集输出模块,用于输出经过完整性修复后的各个元组,得到清洗后的数据集。
9.根据权利要求8所述的装置,其特征在于,
所述数据预处理模块还用于在根据时效约束对结构化数据中所有元组建立时序图时,对于结构化数据中的每一个实体,先基于时效约束确定其对应的各条元组作为节点的时效值相对大小,再由任意两节点中时效值较小的节点向时效值较大的节点建立有向边。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202010016926.5A 2020-01-08 2020-01-08 一种数据清洗方法、装置及计算机可读存储介质 Pending CN111241079A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010016926.5A CN111241079A (zh) 2020-01-08 2020-01-08 一种数据清洗方法、装置及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010016926.5A CN111241079A (zh) 2020-01-08 2020-01-08 一种数据清洗方法、装置及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN111241079A true CN111241079A (zh) 2020-06-05

Family

ID=70874361

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010016926.5A Pending CN111241079A (zh) 2020-01-08 2020-01-08 一种数据清洗方法、装置及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN111241079A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112347094A (zh) * 2020-11-06 2021-02-09 蘑菇物联技术(深圳)有限公司 工业通用设备物联数据清洗方法、装置和存储介质
CN112416854A (zh) * 2020-11-20 2021-02-26 北京灵汐科技有限公司 一种抗干扰计算方法、装置、计算芯片及存储介质
CN112464289A (zh) * 2020-12-11 2021-03-09 广东工业大学 一种隐私数据的清洗方法
CN113722306A (zh) * 2021-08-31 2021-11-30 平安科技(深圳)有限公司 基于实体相似度的医疗数据修复方法、装置及计算机设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108805156A (zh) * 2018-04-03 2018-11-13 西安理工大学 一种改进的选择性朴素贝叶斯方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108805156A (zh) * 2018-04-03 2018-11-13 西安理工大学 一种改进的选择性朴素贝叶斯方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
XIAOOU DING等: "Improve3C:Data Cleaning on Consistency and completeness with currency", 《ARXIV》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112347094A (zh) * 2020-11-06 2021-02-09 蘑菇物联技术(深圳)有限公司 工业通用设备物联数据清洗方法、装置和存储介质
CN112347094B (zh) * 2020-11-06 2024-03-15 蘑菇物联技术(深圳)有限公司 工业通用设备物联数据清洗方法、装置和存储介质
CN112416854A (zh) * 2020-11-20 2021-02-26 北京灵汐科技有限公司 一种抗干扰计算方法、装置、计算芯片及存储介质
CN112464289A (zh) * 2020-12-11 2021-03-09 广东工业大学 一种隐私数据的清洗方法
CN113722306A (zh) * 2021-08-31 2021-11-30 平安科技(深圳)有限公司 基于实体相似度的医疗数据修复方法、装置及计算机设备
CN113722306B (zh) * 2021-08-31 2023-08-11 平安科技(深圳)有限公司 基于实体相似度的医疗数据修复方法、装置及计算机设备

Similar Documents

Publication Publication Date Title
CN111241079A (zh) 一种数据清洗方法、装置及计算机可读存储介质
US20180004781A1 (en) Data lineage analysis
CN109117440B (zh) 一种元数据信息获取方法、系统和计算机可读存储介质
CN110147367B (zh) 一种温度缺失数据填补方法、系统及电子设备
US11170050B1 (en) Method and device for graph data quality verification
CN111126495A (zh) 模型训练方法、信息预测方法、装置、存储介质及设备
Janssenswillen et al. Towards confirmatory process discovery: making assertions about the underlying system
CN113704246A (zh) 一种基于虚拟索引的数据库索引优化方法和系统
US20050278301A1 (en) System and method for determining an optimized process configuration
CN115329011A (zh) 数据模型的构建方法、数据查询的方法、装置及存储介质
CN111444635A (zh) 一种基于xml语言的系统动力学仿真建模方法及引擎
US20190266163A1 (en) System and method for behavior-on-read query processing
CN116975052A (zh) 数据处理方法及相关设备
CN111523921A (zh) 漏斗分析方法、分析设备、电子设备及可读存储介质
US11762831B2 (en) Adaptive sparse indexing in cloud-based data warehouses
Karami et al. Maintaining accurate web usage models using updates from activity diagrams
CN115292167A (zh) 生命周期预测模型构建方法、装置、设备及可读存储介质
CN114780443A (zh) 微服务应用自动化测试方法、装置、电子设备及存储介质
CN113627816A (zh) 一种评估管理方法、装置、电子设备及存储介质
Winberg et al. A comparison of relational and graph databases for crm systems
Li et al. A novel completeness definition of event logs and corresponding generation algorithm
CN118427578B (zh) 基于混沌工程的微服务系统数据评估方法、设备及介质
CN115827989B (zh) 大数据环境下网络舆情人工智能预警系统及方法
Davila-Nicanor Risk Scenarios on Web Applications.
CN115904748A (zh) 基于对齐的分层业务过程模型合规性检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200605

RJ01 Rejection of invention patent application after publication