CN105447079B

CN105447079B - 一种基于函数依赖的数据清洗方法

Info

Publication number: CN105447079B
Application number: CN201510742638.7A
Authority: CN
Inventors: 莫益军; 曾志华; 谭辉
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2015-11-04
Filing date: 2015-11-04
Publication date: 2018-11-02
Anticipated expiration: 2035-11-04
Also published as: CN105447079A

Abstract

本发明公开了一种基于函数依赖的数据清洗方法，其特征在于，包括：对原始数据进行数据转换，以将其不同类型的属性全部转换为数值型属性；对于数据转换后的原始数据，提取其属性的自依赖函数特征；对于数据转换后的原始数据，提取其属性之间的互依赖函数；根据自依赖函数特征和互依赖函数确定需要进行清洗及待清洗的属性及样本，并根据该属性及样本形成相关清洗决策依据，判断待清洗的属性对象是采用自依赖函数清洗还是采用互依赖函数进行清洗，若采用自依赖函数清洗，则将不符合条件的样本根据自依赖函数确定的多项式进行校准修复，并加上白噪声作为随机扰动。本发明能够解决大数据中“脏数据”问题，为后续的大数据分析挖掘提供高质量的数据。

Description

一种基于函数依赖的数据清洗方法

技术领域

本发明属于大数据处理领域，更具体地，涉及一种基于函数依赖的数据清洗方法

背景技术

随着移动互联网和信息技术的高速发展，政府、企业和各行业领域的数据以TB/s的速度增长，人们生活、企业决策和精准服务对数据的依赖越来越重，对数据质量的要求也越来越高，任何“脏数据”都将对数据分析和目标决策产生影响。随着“数据驱动运营”的意识在各行各业得到广泛认识和普及，人们在数据分析和挖掘中花费的精力越来越大。其中花费在“脏数据”处理上的时间超过80％。

导致“脏数据”的原因包括系统故障、跨系统、多源数据、数据标准变迁、录入差错和数据稀疏等，最终导致数据缺失、数据错误、数据不一致等数据质量问题。鉴于此，近年来，数据质量提升的研究和应用逐渐增多。有采用预设规则来清洗不同域数据，基于权重和类别排序进行清洗，基于阈值和倍率为参数的横向清洗，基于时空因素的轨迹数据清洗。

然而，上述这些研究和方法在应用场景方面具有一定的局限性，要么受制于数据本身的时空特性和重要程度，要么受专家经验影响较多。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种基于函数依赖的数据清洗方法，其目的在于，通过依靠数据本身特征，先将待分析数据通过联合集成，然后提取不同属性间的函数依赖关系，根据函数依赖关系挖掘待清洗属性，并对此属性进行清洗和修复，同时能够解决大数据中“脏数据”问题，为后续的大数据分析挖掘提供高质量的数据。

为实现上述目的，按照本发明的一个方面，提供了一种基于函数依赖的数据清洗方法，包括以下步骤：

(1)对原始数据进行数据转换，以将其不同类型的属性全部转换为数值型属性；

(2)对于数据转换后的原始数据，提取其属性的自依赖函数特征；

(3)对于数据转换后的原始数据，提取其属性之间的互依赖函数；

(4)根据步骤(2)的自依赖函数特征和步骤(3)的互依赖函数确定需要进行清洗及待清洗的属性及样本，并根据该属性及样本形成相关清洗决策依据。

(5)判断待清洗的属性对象是采用自依赖函数清洗还是采用互依赖函数进行清洗，若采用自依赖函数清洗，则将不符合条件的样本根据自依赖函数确定的多项式进行校准修复，并加上白噪声作为随机扰动；若采用互依赖函数清洗，则将不符合条件的样本根据互依赖函数确定的相关函数，以已校准的属性为基础对另一属性进行校准恢复。

优选地，步骤(1)包括以下子步骤：

(1-1)从原始二维表中任选一属性列X，该属性列中的样本总数为N，将该样本按依次顺序均匀分为3个集合{X₁,X₂,X₃}，从三个集合中分别随机选取min{N/9，100}个数据样本；

(1-2)采用正则表达式“[^(-？\\d+)(\\.\\d+)？$]”分别对三个集合进行数据类型识别，并判断是否所有样本都满足正则匹配，若是则进入步骤(2)，否则进入步骤(1-3)；

(1-3)提取三个集合中不重复的值x_ni，以及该值在本集合中独立数值的个数N_ni，并判断是否有N_ni≤3，若是则进入步骤(1-4)，否则进入步骤(1-5)，其中0≤n≤2,0≤i≤min(N/9,100)；

(1-4)将x_ni离散化为0,1,若N_ni＝3，将x_ni离散化为-1，0和1，然后进入步骤(2)；

(1-5)进一步统计三个集合中不重复值x_ni出现的频次X_nij，其中j≤N_ni；

(1-6)将三个集合中不重复值x_ni更换为完成初步量化；

(1-7)判断三个集合的唯一值是否不存在交集，若不存在交集则直接进入步骤(2)，否则进入步骤(1-8)；

步骤1-8：对不同集合的X_nij求其平均值；

步骤1-9：对求平均值之后的三个集合进行合并，将合并后的集合中剩余无交集的数值修正为

优选地，步骤(2)包括以下子步骤：

(2-1)任意选择某属性列并连续抽取该列中的N个值，以形成新的序列X_i；

(2-2)将序列X_i移动1位，以形成序列

(2-3)获得序列X_i与的差值序列并判断该差值序列80％的样本是否趋近某一固定常数或0，若是则将本属性列定义为线性自依赖函数，并跳转至步骤(4)，否则进入步骤(2-4)；

(2-4)将差值序列移动1位，形成序列求其差值序列并判断该差值序列80％的样本是否趋近某一固定常数或0，若是则将本属性列定义为二次曲线自依赖函数，并跳转至步骤(4)，否则进入步骤(2-5)；

(2-5)迭代执行步骤(2-4)，迭代次数为n，若n≤5，且80％以上的样本差值为常数或0，则自依赖函数为f(x)＝axⁿ+bx^n-1+...+αx+β，并跳转至步骤(4)，否则进入步骤(2-6)；

(2-6)求序列X_i的最大值maxX_i和最小值minX_i，并以此为基础对X_i进行归一化处理，从而将X_i转换为

(2-7)以为步进长度，统计属性样本出现在10个区间的概率分布，概率密度函数，并判断10个区间中所有区间的概率密度是否低于门限值ε＝10^-2，若是则认为该属性样本的该部分区间数需被清洗，然后进入步骤(4)，否则进入步骤(3)。

优选地，步骤(3)包括以下子步骤：

(3-1)抽取任两属性列X和Y，提取两列的概率密度函数f(x)和f(y)，判断两者概率密度分布趋势是否趋同，若趋同则认为此两属性为相似属性f(x)Simf(y)，并进入步骤(4)，否则进入步骤(3-2)；

(3-2)计算列X和Y的Pearson相关系数p(x,y)和Spearman相关系数s(x,y)，判断是否满足条件0.5≤|p(x,y)ors(x,y)|≤1，若满足则表明两者强相关，可互相进行清洗，直接进入步骤(4)，否则进入步骤(3-3)；

(3-3)对属性列X、Y，分别采用加、减、乘、除算术算子形成新的列Z，针对列Z，采用步骤(2)所述方式建立自依赖函数。

优选地，步骤(4)包括以下子步骤：

(4-1)判断属性序列是否满足自依赖函数特征，且存在不满足自依赖函数的样本占比不超过ε＝10^-2，若属性序列满足上述条件则确定该属性为待清洗对象并且将不满足自依赖函数的样本作为待清洗样本，进入步骤(5)，否则进入步骤(4-2)；

(4-2)判断属性序列是否满足步骤(3)确定的互依赖函数，并且判断属性序列中其中某一属性是否为步骤(4-1)中已确定为不用清洗或待清洗的单属性对象，若是则将另一属性确定为互依赖函数待清洗对象，并且进入步骤(5)，否则进入步骤(4-3)；

(4-3)选取属性序列中的复合属性，并判断选取的复合属性是否与步骤(4-2)中的两属性存在互依赖函数关系，若存在，则以此复合属性作为另外两属性的清洗依据，进入步骤(5)，否则进入步骤(4-4)；

(4-4)采用横向的样本算术运算、装箱和积分方面对样本规约，形成新的属性序列X',Y'，并进行该属性的函数依赖关系提取。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

1、普适性好：本发明的清洗方法依赖于属性间的函数关系，对于二值数据和命名数据可转换为方便构造函数的数值属性。该方法相对其他清洗方法来说，更加客观，具备更好地普适性；

2、扩展性好：本发明随着样本数量的自适应地学习函数及参数，避免了传统清洗方法随样本空间而改变或调整数据清洗方法的缺点。

附图说明

图1是本发明基于函数依赖的数据清洗方法的总体流程图。

图2是本发明的属性转换流程图。

图3是本发明的自依赖函数特征提取流程图。

图4是自相关概率分布函数。

图5是互依赖函数提取流程。

图6是确定清洗属性和样本流程。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明包括属性变换、属性自依赖函数提取、属性互依赖函数提取、待清洗属性决策及函数依赖清洗等五个部分。如图1所示，本发明基于函数依赖的数据清洗方法包括以下步骤：

步骤1：对原始数据进行数据转换，以将其不同类型的属性全部转换为数值型属性；本步骤的目的在于，便于数据清洗和数据挖掘，尤其是为了便于建立原始数据属性的自依赖函数和互依赖函数。如图2所示，本步骤包括以下子步骤：

步骤1-1：从原始二维表中任选一属性列X，该属性列中的样本总数为N，将该样本按依次顺序均匀分为3个集合{X₁,X₂,X₃}，从三个集合中分别随机选取min{N/9，100}(即取N/9和100中的最小值)个数据样本；

步骤1-2：采用正则表达式“[^(-？\\d+)(\\.\\d+)？$]”分别对三个集合进行数据类型识别，并判断是否所有样本都满足正则匹配，若是则进入步骤2，否则进入步骤1-3；

步骤1-3：提取三个集合中不重复的值x_ni，以及该值在本集合中独立数值的个数N_ni，并判断是否有N_ni≤3，若是则进入步骤1-4，否则进入步骤1-5，其中0≤n≤2,0≤i≤min(N/9,100)；

步骤1-4：将x_ni离散化为0,1,若N_ni＝3，将x_ni离散化为-1，0和1，然后进入步骤2；

步骤1-5：进一步统计三个集合中不重复值x_ni出现的频次X_nij，其中0≤n≤2,0≤i≤min(N/9,100),0≤j≤N_ni；

步骤1-6：将三个集合中不重复值x_ni更换为完成初步量化；

步骤1-7：判断三个集合的唯一值是否不存在交集，若不存在交集则直接进入步骤2，否则进入1-8；

步骤1-8：对不同集合的X_nij求其平均值；

步骤2：对于数据转换后的原始数据，提取其属性的自依赖函数特征；具体而言，属性样本可能天然呈现出函数特征，或通过排序、算术运算之后而呈现出函数特征，本步骤将抽取其函数特征，对于无函数化可能或样本距某函数相去甚远的预判为待清洗属性；如图3所示，本步骤包括以下子步骤：

步骤2-1：任意选择某属性列并连续抽取该列中的N个值，以形成新的序列X_i；

步骤2-2：将序列X_i移动1位，以形成序列

步骤2-3：获得序列X_i与的差值序列并判断该差值序列80％的样本是否趋近某一固定常数或0，若是则将本属性列定义为线性自依赖函数，并跳转至步骤4，否则进入步骤2-4；

步骤2-4：将差值序列移动1位，形成序列求其差值序列并判断该差值序列80％的样本是否趋近某一固定常数或0，若是则将本属性列定义为二次曲线自依赖函数，并跳转至步骤4，否则进入步骤2-5；

步骤2-5：重复类似步骤2-4，重复次数记为n，若n≤5，且80％以上的样本差值为常数或0，则自依赖函数为f(x)＝axⁿ+bx^n-1+...+αx+β，并跳转至步骤4，否则进入步骤2-6；

步骤2-6：求序列X_i的最大值maxX_i和最小值minX_i，并以此为基础对X_i进行归一化处理，从而将X_i转换为

步骤2-7：以为步进长度，统计属性样本出现在10个区间的概率分布，构建如图4所示的概率密度函数，并判断10个区间中所有区间的概率密度是否低于门限值ε＝10_- ²，若是则认为该属性样本的该部分区间数需被清洗，然后进入步骤4，否则进入步骤3；

步骤3：对于数据转换后的原始数据，提取其属性之间的互依赖函数；具体而言，对于步骤2中无法提取自依赖函数的属性和样本，需借助其他属性来进行清洗和恢复，为此需提取属性之间的互依赖函数，其具体步骤如图5所示，包括以下子步骤：

步骤3-1：抽取任两属性列X和Y，提取两列的概率密度函数f(x)和f(y)，判断两者概率密度分布趋势是否趋同(即均值、方差、四分之一中位点和四分之三中位点相同)，若趋同则认为此两属性为相似属性f(x)Simf(y)，并进入步骤4，否则进入步骤3-2；

步骤3-2：计算列X和Y的Pearson相关系数p(x,y)和Spearman相关系数s(x,y)，判断是否满足条件0.5≤|p(x,y)ors(x,y)|≤1，若满足则表明两者强相关，可互相进行清洗，直接进入步骤4，否则进入步骤3-3；

步骤3-3：对属性列X、Y，分别采用加、减、乘、除等算术算子形成新的列Z，针对列Z，采用步骤2所述方式建立自依赖函数，然后进入步骤4。

步骤4：根据步骤2的自依赖函数特征和步骤3的互依赖函数确定需要进行清洗及待清洗的属性及样本，并根据该属性及样本形成相关清洗决策依据。其具体步骤如图6所示，包括以下子步骤：

步骤4-1：判断属性序列(包括步骤2中的单一属性，即满足步骤2条件的属性序列，以及步骤3中的复合属性，即满足步骤3条件的任意两个相似属性序列)是否满足自依赖函数特征，且存在不满足自依赖函数的样本占比不超过ε＝10^-2，若属性序列满足上述条件则确定该属性为待清洗对象并且将不满足自依赖函数的样本作为待清洗样本，进入步骤5，否则进入步骤4-2；

步骤4-2：判断属性序列是否满足步骤3确定的互依赖函数，并且判断属性序列中其中某一属性是否为步骤4-1中已确定为不用清洗或待清洗的单属性对象，若是则将另一属性确定为互依赖函数待清洗对象，并且进入步骤5，否则进入步骤4-3；

步骤4-3：选取属性序列中某一复合属性，并判断选取的复合属性是否与步骤4-2中的两属性存在互依赖函数关系，若存在，则以此复合属性作为另外两属性的清洗依据，进入步骤5，否则进入步骤4-4；

步骤4-4：进一步地采用横向的样本算术运算、装箱和积分方面对样本规约，形成新的属性序列X',Y'，并进行该属性的函数依赖关系提取；

步骤5：判断待清洗的属性对象是采用自依赖函数清洗还是采用互依赖函数进行清洗，若采用自依赖函数清洗，则将不符合条件的样本根据自依赖函数确定的多项式进行校准修复，并加上白噪声作为随机扰动，若采用互依赖函数清洗，则将不符合条件的样本根据互依赖函数确定的相关函数，以已校准的属性为基础对另一属性进行校准恢复。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于函数依赖的数据清洗方法，其特征在于，包括以下步骤：

(4)根据步骤(2)的自依赖函数特征和步骤(3)的互依赖函数确定需要进行清洗及待清洗的属性及样本，并根据该属性及样本形成相关清洗决策依据；

(5)判断待清洗的属性对象是采用自依赖函数清洗还是采用互依赖函数进行清洗，若采用自依赖函数清洗，则将不符合条件的样本根据自依赖函数确定的多项式进行校准修复，并加上白噪声作为随机扰动；若采用互依赖函数清洗，则将不符合条件的样本根据互依赖函数确定的相关函数，以已校准的属性为基础对另一属性进行校准恢复；

其中，步骤(2)包括以下子步骤：

(2-2)将序列X_i移动1位，以形成序列

(2-7)以为步进长度，统计属性样本出现在10个区间的概率分布，概率密度函数，并判断10个区间中所有区间的概率密度是否低于门限值ε＝10^-2，若是则认为该属性样本的该部分区间数需被清洗，然后进入步骤(4)，否则进入步骤(3)；

步骤(3)包括以下子步骤：

2.根据权利要求1所述的数据清洗方法，其特征在于，步骤(1)包括以下子步骤：

(1-6)将三个集合中不重复值x_ni更换为完成初步量化；

步骤1-8：对不同集合的X_nij求其平均值；

3.根据权利要求2所述的数据清洗方法，其特征在于，步骤(4)包括以下子步骤：