CN105447079B - 一种基于函数依赖的数据清洗方法 - Google Patents

一种基于函数依赖的数据清洗方法 Download PDF

Info

Publication number
CN105447079B
CN105447079B CN201510742638.7A CN201510742638A CN105447079B CN 105447079 B CN105447079 B CN 105447079B CN 201510742638 A CN201510742638 A CN 201510742638A CN 105447079 B CN105447079 B CN 105447079B
Authority
CN
China
Prior art keywords
attribute
function
sample
sequence
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510742638.7A
Other languages
English (en)
Other versions
CN105447079A (zh
Inventor
莫益军
曾志华
谭辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN201510742638.7A priority Critical patent/CN105447079B/zh
Publication of CN105447079A publication Critical patent/CN105447079A/zh
Application granted granted Critical
Publication of CN105447079B publication Critical patent/CN105447079B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于函数依赖的数据清洗方法,其特征在于,包括:对原始数据进行数据转换,以将其不同类型的属性全部转换为数值型属性;对于数据转换后的原始数据,提取其属性的自依赖函数特征;对于数据转换后的原始数据,提取其属性之间的互依赖函数;根据自依赖函数特征和互依赖函数确定需要进行清洗及待清洗的属性及样本,并根据该属性及样本形成相关清洗决策依据,判断待清洗的属性对象是采用自依赖函数清洗还是采用互依赖函数进行清洗,若采用自依赖函数清洗,则将不符合条件的样本根据自依赖函数确定的多项式进行校准修复,并加上白噪声作为随机扰动。本发明能够解决大数据中“脏数据”问题,为后续的大数据分析挖掘提供高质量的数据。

Description

一种基于函数依赖的数据清洗方法
技术领域
本发明属于大数据处理领域,更具体地,涉及一种基于函数依赖的数据清洗方法
背景技术
随着移动互联网和信息技术的高速发展,政府、企业和各行业领域的数据以TB/s的速度增长,人们生活、企业决策和精准服务对数据的依赖越来越重,对数据质量的要求也越来越高,任何“脏数据”都将对数据分析和目标决策产生影响。随着“数据驱动运营”的意识在各行各业得到广泛认识和普及,人们在数据分析和挖掘中花费的精力越来越大。其中花费在“脏数据”处理上的时间超过80%。
导致“脏数据”的原因包括系统故障、跨系统、多源数据、数据标准变迁、录入差错和数据稀疏等,最终导致数据缺失、数据错误、数据不一致等数据质量问题。鉴于此,近年来,数据质量提升的研究和应用逐渐增多。有采用预设规则来清洗不同域数据,基于权重和类别排序进行清洗,基于阈值和倍率为参数的横向清洗,基于时空因素的轨迹数据清洗。
然而,上述这些研究和方法在应用场景方面具有一定的局限性,要么受制于数据本身的时空特性和重要程度,要么受专家经验影响较多。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种基于函数依赖的数据清洗方法,其目的在于,通过依靠数据本身特征,先将待分析数据通过联合集成,然后提取不同属性间的函数依赖关系,根据函数依赖关系挖掘待清洗属性,并对此属性进行清洗和修复,同时能够解决大数据中“脏数据”问题,为后续的大数据分析挖掘提供高质量的数据。
为实现上述目的,按照本发明的一个方面,提供了一种基于函数依赖的数据清洗方法,包括以下步骤:
(1)对原始数据进行数据转换,以将其不同类型的属性全部转换为数值型属性;
(2)对于数据转换后的原始数据,提取其属性的自依赖函数特征;
(3)对于数据转换后的原始数据,提取其属性之间的互依赖函数;
(4)根据步骤(2)的自依赖函数特征和步骤(3)的互依赖函数确定需要进行清洗及待清洗的属性及样本,并根据该属性及样本形成相关清洗决策依据。
(5)判断待清洗的属性对象是采用自依赖函数清洗还是采用互依赖函数进行清洗,若采用自依赖函数清洗,则将不符合条件的样本根据自依赖函数确定的多项式进行校准修复,并加上白噪声作为随机扰动;若采用互依赖函数清洗,则将不符合条件的样本根据互依赖函数确定的相关函数,以已校准的属性为基础对另一属性进行校准恢复。
优选地,步骤(1)包括以下子步骤:
(1-1)从原始二维表中任选一属性列X,该属性列中的样本总数为N,将该样本按依次顺序均匀分为3个集合{X1,X2,X3},从三个集合中分别随机选取min{N/9,100}个数据样本;
(1-2)采用正则表达式“[^(-?\\d+)(\\.\\d+)?$]”分别对三个集合进行数据类型识别,并判断是否所有样本都满足正则匹配,若是则进入步骤(2),否则进入步骤(1-3);
(1-3)提取三个集合中不重复的值xni,以及该值在本集合中独立数值的个数Nni,并判断是否有Nni≤3,若是则进入步骤(1-4),否则进入步骤(1-5),其中0≤n≤2,0≤i≤min(N/9,100);
(1-4)将xni离散化为0,1,若Nni=3,将xni离散化为-1,0和1,然后进入步骤(2);
(1-5)进一步统计三个集合中不重复值xni出现的频次Xnij,其中j≤Nni
(1-6)将三个集合中不重复值xni更换为完成初步量化;
(1-7)判断三个集合的唯一值是否不存在交集,若不存在交集则直接进入步骤(2),否则进入步骤(1-8);
步骤1-8:对不同集合的Xnij求其平均值;
步骤1-9:对求平均值之后的三个集合进行合并,将合并后的集合中剩余无交集的数值修正为
优选地,步骤(2)包括以下子步骤:
(2-1)任意选择某属性列并连续抽取该列中的N个值,以形成新的序列Xi
(2-2)将序列Xi移动1位,以形成序列
(2-3)获得序列Xi的差值序列并判断该差值序列80%的样本是否趋近某一固定常数或0,若是则将本属性列定义为线性自依赖函数,并跳转至步骤(4),否则进入步骤(2-4);
(2-4)将差值序列移动1位,形成序列求其差值序列并判断该差值序列80%的样本是否趋近某一固定常数或0,若是则将本属性列定义为二次曲线自依赖函数,并跳转至步骤(4),否则进入步骤(2-5);
(2-5)迭代执行步骤(2-4),迭代次数为n,若n≤5,且80%以上的样本差值为常数或0,则自依赖函数为f(x)=axn+bxn-1+...+αx+β,并跳转至步骤(4),否则进入步骤(2-6);
(2-6)求序列Xi的最大值maxXi和最小值minXi,并以此为基础对Xi进行归一化处理,从而将Xi转换为
(2-7)以为步进长度,统计属性样本出现在10个区间的概率分布,概率密度函数,并判断10个区间中所有区间的概率密度是否低于门限值ε=10-2,若是则认为该属性样本的该部分区间数需被清洗,然后进入步骤(4),否则进入步骤(3)。
优选地,步骤(3)包括以下子步骤:
(3-1)抽取任两属性列X和Y,提取两列的概率密度函数f(x)和f(y),判断两者概率密度分布趋势是否趋同,若趋同则认为此两属性为相似属性f(x)Simf(y),并进入步骤(4),否则进入步骤(3-2);
(3-2)计算列X和Y的Pearson相关系数p(x,y)和Spearman相关系数s(x,y),判断是否满足条件0.5≤|p(x,y)ors(x,y)|≤1,若满足则表明两者强相关,可互相进行清洗,直接进入步骤(4),否则进入步骤(3-3);
(3-3)对属性列X、Y,分别采用加、减、乘、除算术算子形成新的列Z,针对列Z,采用步骤(2)所述方式建立自依赖函数。
优选地,步骤(4)包括以下子步骤:
(4-1)判断属性序列是否满足自依赖函数特征,且存在不满足自依赖函数的样本占比不超过ε=10-2,若属性序列满足上述条件则确定该属性为待清洗对象并且将不满足自依赖函数的样本作为待清洗样本,进入步骤(5),否则进入步骤(4-2);
(4-2)判断属性序列是否满足步骤(3)确定的互依赖函数,并且判断属性序列中其中某一属性是否为步骤(4-1)中已确定为不用清洗或待清洗的单属性对象,若是则将另一属性确定为互依赖函数待清洗对象,并且进入步骤(5),否则进入步骤(4-3);
(4-3)选取属性序列中的复合属性,并判断选取的复合属性是否与步骤(4-2)中的两属性存在互依赖函数关系,若存在,则以此复合属性作为另外两属性的清洗依据,进入步骤(5),否则进入步骤(4-4);
(4-4)采用横向的样本算术运算、装箱和积分方面对样本规约,形成新的属性序列X',Y',并进行该属性的函数依赖关系提取。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
1、普适性好:本发明的清洗方法依赖于属性间的函数关系,对于二值数据和命名数据可转换为方便构造函数的数值属性。该方法相对其他清洗方法来说,更加客观,具备更好地普适性;
2、扩展性好:本发明随着样本数量的自适应地学习函数及参数,避免了传统清洗方法随样本空间而改变或调整数据清洗方法的缺点。
附图说明
图1是本发明基于函数依赖的数据清洗方法的总体流程图。
图2是本发明的属性转换流程图。
图3是本发明的自依赖函数特征提取流程图。
图4是自相关概率分布函数。
图5是互依赖函数提取流程。
图6是确定清洗属性和样本流程。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明包括属性变换、属性自依赖函数提取、属性互依赖函数提取、待清洗属性决策及函数依赖清洗等五个部分。如图1所示,本发明基于函数依赖的数据清洗方法包括以下步骤:
步骤1:对原始数据进行数据转换,以将其不同类型的属性全部转换为数值型属性;本步骤的目的在于,便于数据清洗和数据挖掘,尤其是为了便于建立原始数据属性的自依赖函数和互依赖函数。如图2所示,本步骤包括以下子步骤:
步骤1-1:从原始二维表中任选一属性列X,该属性列中的样本总数为N,将该样本按依次顺序均匀分为3个集合{X1,X2,X3},从三个集合中分别随机选取min{N/9,100}(即取N/9和100中的最小值)个数据样本;
步骤1-2:采用正则表达式“[^(-?\\d+)(\\.\\d+)?$]”分别对三个集合进行数据类型识别,并判断是否所有样本都满足正则匹配,若是则进入步骤2,否则进入步骤1-3;
步骤1-3:提取三个集合中不重复的值xni,以及该值在本集合中独立数值的个数Nni,并判断是否有Nni≤3,若是则进入步骤1-4,否则进入步骤1-5,其中0≤n≤2,0≤i≤min(N/9,100);
步骤1-4:将xni离散化为0,1,若Nni=3,将xni离散化为-1,0和1,然后进入步骤2;
步骤1-5:进一步统计三个集合中不重复值xni出现的频次Xnij,其中0≤n≤2,0≤i≤min(N/9,100),0≤j≤Nni
步骤1-6:将三个集合中不重复值xni更换为完成初步量化;
步骤1-7:判断三个集合的唯一值是否不存在交集,若不存在交集则直接进入步骤2,否则进入1-8;
步骤1-8:对不同集合的Xnij求其平均值;
步骤1-9:对求平均值之后的三个集合进行合并,将合并后的集合中剩余无交集的数值修正为
步骤2:对于数据转换后的原始数据,提取其属性的自依赖函数特征;具体而言,属性样本可能天然呈现出函数特征,或通过排序、算术运算之后而呈现出函数特征,本步骤将抽取其函数特征,对于无函数化可能或样本距某函数相去甚远的预判为待清洗属性;如图3所示,本步骤包括以下子步骤:
步骤2-1:任意选择某属性列并连续抽取该列中的N个值,以形成新的序列Xi
步骤2-2:将序列Xi移动1位,以形成序列
步骤2-3:获得序列Xi的差值序列并判断该差值序列80%的样本是否趋近某一固定常数或0,若是则将本属性列定义为线性自依赖函数,并跳转至步骤4,否则进入步骤2-4;
步骤2-4:将差值序列移动1位,形成序列求其差值序列并判断该差值序列80%的样本是否趋近某一固定常数或0,若是则将本属性列定义为二次曲线自依赖函数,并跳转至步骤4,否则进入步骤2-5;
步骤2-5:重复类似步骤2-4,重复次数记为n,若n≤5,且80%以上的样本差值为常数或0,则自依赖函数为f(x)=axn+bxn-1+...+αx+β,并跳转至步骤4,否则进入步骤2-6;
步骤2-6:求序列Xi的最大值maxXi和最小值minXi,并以此为基础对Xi进行归一化处理,从而将Xi转换为
步骤2-7:以为步进长度,统计属性样本出现在10个区间的概率分布,构建如图4所示的概率密度函数,并判断10个区间中所有区间的概率密度是否低于门限值ε=10- 2,若是则认为该属性样本的该部分区间数需被清洗,然后进入步骤4,否则进入步骤3;
步骤3:对于数据转换后的原始数据,提取其属性之间的互依赖函数;具体而言,对于步骤2中无法提取自依赖函数的属性和样本,需借助其他属性来进行清洗和恢复,为此需提取属性之间的互依赖函数,其具体步骤如图5所示,包括以下子步骤:
步骤3-1:抽取任两属性列X和Y,提取两列的概率密度函数f(x)和f(y),判断两者概率密度分布趋势是否趋同(即均值、方差、四分之一中位点和四分之三中位点相同),若趋同则认为此两属性为相似属性f(x)Simf(y),并进入步骤4,否则进入步骤3-2;
步骤3-2:计算列X和Y的Pearson相关系数p(x,y)和Spearman相关系数s(x,y),判断是否满足条件0.5≤|p(x,y)ors(x,y)|≤1,若满足则表明两者强相关,可互相进行清洗,直接进入步骤4,否则进入步骤3-3;
步骤3-3:对属性列X、Y,分别采用加、减、乘、除等算术算子形成新的列Z,针对列Z,采用步骤2所述方式建立自依赖函数,然后进入步骤4。
步骤4:根据步骤2的自依赖函数特征和步骤3的互依赖函数确定需要进行清洗及待清洗的属性及样本,并根据该属性及样本形成相关清洗决策依据。其具体步骤如图6所示,包括以下子步骤:
步骤4-1:判断属性序列(包括步骤2中的单一属性,即满足步骤2条件的属性序列,以及步骤3中的复合属性,即满足步骤3条件的任意两个相似属性序列)是否满足自依赖函数特征,且存在不满足自依赖函数的样本占比不超过ε=10-2,若属性序列满足上述条件则确定该属性为待清洗对象并且将不满足自依赖函数的样本作为待清洗样本,进入步骤5,否则进入步骤4-2;
步骤4-2:判断属性序列是否满足步骤3确定的互依赖函数,并且判断属性序列中其中某一属性是否为步骤4-1中已确定为不用清洗或待清洗的单属性对象,若是则将另一属性确定为互依赖函数待清洗对象,并且进入步骤5,否则进入步骤4-3;
步骤4-3:选取属性序列中某一复合属性,并判断选取的复合属性是否与步骤4-2中的两属性存在互依赖函数关系,若存在,则以此复合属性作为另外两属性的清洗依据,进入步骤5,否则进入步骤4-4;
步骤4-4:进一步地采用横向的样本算术运算、装箱和积分方面对样本规约,形成新的属性序列X',Y',并进行该属性的函数依赖关系提取;
步骤5:判断待清洗的属性对象是采用自依赖函数清洗还是采用互依赖函数进行清洗,若采用自依赖函数清洗,则将不符合条件的样本根据自依赖函数确定的多项式进行校准修复,并加上白噪声作为随机扰动,若采用互依赖函数清洗,则将不符合条件的样本根据互依赖函数确定的相关函数,以已校准的属性为基础对另一属性进行校准恢复。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (3)

1.一种基于函数依赖的数据清洗方法,其特征在于,包括以下步骤:
(1)对原始数据进行数据转换,以将其不同类型的属性全部转换为数值型属性;
(2)对于数据转换后的原始数据,提取其属性的自依赖函数特征;
(3)对于数据转换后的原始数据,提取其属性之间的互依赖函数;
(4)根据步骤(2)的自依赖函数特征和步骤(3)的互依赖函数确定需要进行清洗及待清洗的属性及样本,并根据该属性及样本形成相关清洗决策依据;
(5)判断待清洗的属性对象是采用自依赖函数清洗还是采用互依赖函数进行清洗,若采用自依赖函数清洗,则将不符合条件的样本根据自依赖函数确定的多项式进行校准修复,并加上白噪声作为随机扰动;若采用互依赖函数清洗,则将不符合条件的样本根据互依赖函数确定的相关函数,以已校准的属性为基础对另一属性进行校准恢复;
其中,步骤(2)包括以下子步骤:
(2-1)任意选择某属性列并连续抽取该列中的N个值,以形成新的序列Xi
(2-2)将序列Xi移动1位,以形成序列
(2-3)获得序列Xi的差值序列并判断该差值序列80%的样本是否趋近某一固定常数或0,若是则将本属性列定义为线性自依赖函数,并跳转至步骤(4),否则进入步骤(2-4);
(2-4)将差值序列移动1位,形成序列求其差值序列并判断该差值序列80%的样本是否趋近某一固定常数或0,若是则将本属性列定义为二次曲线自依赖函数,并跳转至步骤(4),否则进入步骤(2-5);
(2-5)迭代执行步骤(2-4),迭代次数为n,若n≤5,且80%以上的样本差值为常数或0,则自依赖函数为f(x)=axn+bxn-1+...+αx+β,并跳转至步骤(4),否则进入步骤(2-6);
(2-6)求序列Xi的最大值maxXi和最小值minXi,并以此为基础对Xi进行归一化处理,从而将Xi转换为
(2-7)以为步进长度,统计属性样本出现在10个区间的概率分布,概率密度函数,并判断10个区间中所有区间的概率密度是否低于门限值ε=10-2,若是则认为该属性样本的该部分区间数需被清洗,然后进入步骤(4),否则进入步骤(3);
步骤(3)包括以下子步骤:
(3-1)抽取任两属性列X和Y,提取两列的概率密度函数f(x)和f(y),判断两者概率密度分布趋势是否趋同,若趋同则认为此两属性为相似属性f(x)Simf(y),并进入步骤(4),否则进入步骤(3-2);
(3-2)计算列X和Y的Pearson相关系数p(x,y)和Spearman相关系数s(x,y),判断是否满足条件0.5≤|p(x,y)ors(x,y)|≤1,若满足则表明两者强相关,可互相进行清洗,直接进入步骤(4),否则进入步骤(3-3);
(3-3)对属性列X、Y,分别采用加、减、乘、除算术算子形成新的列Z,针对列Z,采用步骤(2)所述方式建立自依赖函数。
2.根据权利要求1所述的数据清洗方法,其特征在于,步骤(1)包括以下子步骤:
(1-1)从原始二维表中任选一属性列X,该属性列中的样本总数为N,将该样本按依次顺序均匀分为3个集合{X1,X2,X3},从三个集合中分别随机选取min{N/9,100}个数据样本;
(1-2)采用正则表达式“[^(-?\\d+)(\\.\\d+)?$]”分别对三个集合进行数据类型识别,并判断是否所有样本都满足正则匹配,若是则进入步骤(2),否则进入步骤(1-3);
(1-3)提取三个集合中不重复的值xni,以及该值在本集合中独立数值的个数Nni,并判断是否有Nni≤3,若是则进入步骤(1-4),否则进入步骤(1-5),其中0≤n≤2,0≤i≤min(N/9,100);
(1-4)将xni离散化为0,1,若Nni=3,将xni离散化为-1,0和1,然后进入步骤(2);
(1-5)进一步统计三个集合中不重复值xni出现的频次Xnij,其中j≤Nni
(1-6)将三个集合中不重复值xni更换为完成初步量化;
(1-7)判断三个集合的唯一值是否不存在交集,若不存在交集则直接进入步骤(2),否则进入步骤(1-8);
步骤1-8:对不同集合的Xnij求其平均值;
步骤1-9:对求平均值之后的三个集合进行合并,将合并后的集合中剩余无交集的数值修正为
3.根据权利要求2所述的数据清洗方法,其特征在于,步骤(4)包括以下子步骤:
(4-1)判断属性序列是否满足自依赖函数特征,且存在不满足自依赖函数的样本占比不超过ε=10-2,若属性序列满足上述条件则确定该属性为待清洗对象并且将不满足自依赖函数的样本作为待清洗样本,进入步骤(5),否则进入步骤(4-2);
(4-2)判断属性序列是否满足步骤(3)确定的互依赖函数,并且判断属性序列中其中某一属性是否为步骤(4-1)中已确定为不用清洗或待清洗的单属性对象,若是则将另一属性确定为互依赖函数待清洗对象,并且进入步骤(5),否则进入步骤(4-3);
(4-3)选取属性序列中的复合属性,并判断选取的复合属性是否与步骤(4-2)中的两属性存在互依赖函数关系,若存在,则以此复合属性作为另外两属性的清洗依据,进入步骤(5),否则进入步骤(4-4);
(4-4)采用横向的样本算术运算、装箱和积分方面对样本规约,形成新的属性序列X',Y',并进行该属性的函数依赖关系提取。
CN201510742638.7A 2015-11-04 2015-11-04 一种基于函数依赖的数据清洗方法 Active CN105447079B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510742638.7A CN105447079B (zh) 2015-11-04 2015-11-04 一种基于函数依赖的数据清洗方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510742638.7A CN105447079B (zh) 2015-11-04 2015-11-04 一种基于函数依赖的数据清洗方法

Publications (2)

Publication Number Publication Date
CN105447079A CN105447079A (zh) 2016-03-30
CN105447079B true CN105447079B (zh) 2018-11-02

Family

ID=55557257

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510742638.7A Active CN105447079B (zh) 2015-11-04 2015-11-04 一种基于函数依赖的数据清洗方法

Country Status (1)

Country Link
CN (1) CN105447079B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108446294A (zh) * 2018-01-22 2018-08-24 东华大学 一种面向脏数据的清洗规则挖掘系统
CN109635015B (zh) * 2018-09-30 2023-07-18 创新先进技术有限公司 属性数据使用对象的确定方法、装置和服务器
CN109947752A (zh) * 2019-01-28 2019-06-28 西南民族大学 一种基于DeepDive的自动数据清洗方法
CN113837278B (zh) * 2021-09-24 2022-06-28 厦门市美亚柏科信息股份有限公司 一种脏数据检测的方法和装置
CN114741381B (zh) * 2022-04-14 2023-04-14 郑州轻工业大学 基于关联依赖的数据清洗方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101464910A (zh) * 2009-01-12 2009-06-24 浙江大学 基于数据相似的平衡聚类压缩方法
CN101533407A (zh) * 2009-04-10 2009-09-16 中国科学院软件研究所 一种etl流程中异常数据检测方法
CN104268216A (zh) * 2014-09-24 2015-01-07 江苏名通信息科技有限公司 一种基于互联网信息的数据清洗系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2809082B1 (fr) * 2000-05-17 2002-09-20 Eurocopter France Indicateur de marge de puissance pour un aeronef a voilure tournante, notamment un helicoptere

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101464910A (zh) * 2009-01-12 2009-06-24 浙江大学 基于数据相似的平衡聚类压缩方法
CN101533407A (zh) * 2009-04-10 2009-09-16 中国科学院软件研究所 一种etl流程中异常数据检测方法
CN104268216A (zh) * 2014-09-24 2015-01-07 江苏名通信息科技有限公司 一种基于互联网信息的数据清洗系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于条件函数依赖的数据库一致性检测研究;耿寅融 等;《计算机工程与应用》;20121231;第48卷(第3期);第122-125页 *
数据清洗及其一般性系统框架;曹建军 等;《计算机科学》;20121130;第39卷(第11期);第207-211页 *

Also Published As

Publication number Publication date
CN105447079A (zh) 2016-03-30

Similar Documents

Publication Publication Date Title
CN105447079B (zh) 一种基于函数依赖的数据清洗方法
CN107153713B (zh) 社交网络中基于节点间相似性的重叠社区检测方法及系统
CN106649260B (zh) 基于评论文本挖掘的产品特征结构树构建方法
CN105824802A (zh) 一种获取知识图谱向量化表示的方法以及装置
CN106503148B (zh) 一种基于多知识库的表格实体链接方法
CN103812872B (zh) 一种基于混合狄利克雷过程的网络水军行为检测方法及系统
CN110263230B (zh) 一种基于密度聚类的数据清洗方法及装置
CN105005553A (zh) 基于情感词典的短文本情感倾向分析方法
CN111159404B (zh) 文本的分类方法及装置
CN105022805A (zh) 一种基于so-pmi商品评价信息的情感分析方法
CN104268216A (zh) 一种基于互联网信息的数据清洗系统
CN110990718B (zh) 一种公司形象提升系统的社会网络模型构建模块
CN107025301A (zh) 航班保障数据的清理方法
CN106897359A (zh) 互联网信息收集及关联方法
CN111597331A (zh) 一种基于贝叶斯网络的裁判文书分类方法
CN109190051A (zh) 一种用户行为分析方法和基于该分析方法的资源推荐方法
Chu et al. Prefix-graph: A versatile log parsing approach merging prefix tree with probabilistic graph
CN104331523A (zh) 一种基于概念对象模型的问句检索方法
KR101625124B1 (ko) 특허 정량분석을 이용한 기술평가 방법
CN115146062A (zh) 融合专家推荐与文本聚类的智能事件分析方法和系统
CN109597901B (zh) 一种基于生物数据的数据分析方法
Pal et al. Word sense disambiguation in Bengali: An unsupervised approach
CN113282686B (zh) 一种不平衡样本的关联规则确定方法及装置
CN112150285B (zh) 基于邻域拓扑结构的异常金融组织层次划分系统及方法
Broda et al. Evaluation method for automated wordnet expansion

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant