CN102135979B - 数据清洗方法及装置 - Google Patents

数据清洗方法及装置 Download PDF

Info

Publication number
CN102135979B
CN102135979B CN2010105784799A CN201010578479A CN102135979B CN 102135979 B CN102135979 B CN 102135979B CN 2010105784799 A CN2010105784799 A CN 2010105784799A CN 201010578479 A CN201010578479 A CN 201010578479A CN 102135979 B CN102135979 B CN 102135979B
Authority
CN
China
Prior art keywords
data
sample data
classification
data set
rough sort
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2010105784799A
Other languages
English (en)
Other versions
CN102135979A (zh
Inventor
王静毅
吴向阳
荀鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Cloud Computing Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN2010105784799A priority Critical patent/CN102135979B/zh
Priority to PCT/CN2011/075350 priority patent/WO2011147366A1/zh
Publication of CN102135979A publication Critical patent/CN102135979A/zh
Application granted granted Critical
Publication of CN102135979B publication Critical patent/CN102135979B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种数据清洗方法及装置,涉及通信领域。为了能够提高数据分类的准确性,本发明提供的技术方案如下:获取经过粗分类的样本数据,将获取的样本数据作为第一数据集;对所述样本数据进行分类,获得所述样本数据的粗分类类别的权重,根据所述权重确定所述样本数据的粗分类类别在所有类别中的排序位置;根据所述样本数据的粗分类类别在所有类别中的排序位置和第一数据集中样本数据的总数量,获得综合评估结果;当根据所述综合评估结果确定需要对所述第一数据集进行清洗时,根据所述样本数据的粗分类类别在所有类别中的排序位置删除规定数量的排在末位的样本数据。本发明适用于数据分类处理。

Description

数据清洗方法及装置
技术领域
本发明涉及通信领域,尤其涉及一种数据清洗方法及装置。
背景技术
随着计算机技术和通讯技术的飞速发展,人们可以获得越来越多的数字化信息,但同时也需要投入更多的时间对信息进行组织和整理。为了减轻这种负担,人们开始研究使用计算机对数据进行自动分类。在实际应用中,互联网和文本库提供了大量已被粗分类的样本数据,但其存在数据分类错误等质量问题,因此,需要针对这些样本数据分类的正确性进行清洗。
目前,使用如下方法对数据分类正确性进行清洗:将文本权重及其特征项权重交互迭代,直到文本权重及其特征项权重趋于稳定停止迭代,并且,利用最终的迭代结果删除低权重的文本。其中,每次迭代的具体操作如下:
Wt(k+1)=(Am×n)T×Wf(k)
Wf(k+1)=Am×n×Wt(k+1)
其中,Wt(k+1)是第k+1次迭代之后得到的特征项权重估计值的改进值,Wf(k)和Wf(k+1)分别是第k次和第k+1次迭代之后得到的文本权重估计值的改进值,Am×n是特征项频次矩阵,m是总的样本数,n是特征项数。
在实现本发明的过程中,现有技术中至少存在如下问题:在清洗多类别数据时需要对每个粗分类类别的数据逐类别进行清洗,由于缺乏类别间的对比,因此,粗分类类别的数据中可能保留类别区分有误的样本,这样会使最终的迭代结果不准确,从而降低数据分类的准确性。
发明内容
本发明的实施例提供一种数据清洗方法及装置,能够提高数据分类的准确性。
为达到上述目的,本发明的实施例采用如下技术方案:
一种数据清洗方法,包括:
获取经过粗分类的样本数据,将获取的样本数据作为第一数据集;
对所述样本数据进行分类,获得所述样本数据的粗分类类别的权重,根据所述权重确定所述样本数据的粗分类类别在所有类别中的排序位置;
根据所述样本数据的粗分类类别在所有类别中的排序位置和第一数据集中样本数据的总数量,获得综合评估结果;
当根据所述综合评估结果确定需要对所述第一数据集进行清洗时,根据所述样本数据的粗分类类别在所有类别中的排序位置删除规定数量的排在末位的样本数据。
一种数据清洗装置,其特征在于,包括:
数据获取单元,用于获取经过粗分类的样本数据,将获取的样本数据作为第一数据集;
分类排序单元,用于对所述数据获取单元获取的样本数据进行分类,获得所述样本数据的粗分类类别的权重,根据所述权重确定所述样本数据的粗分类类别在所有类别中的排序位置;
综合评估单元,用于根据所述样本数据的粗分类类别在所有类别中的排序位置和第一数据集中样本数据的总数量,获得综合评估结果;
数据清洗单元,用于当根据所述综合评估结果确定需要对所述第一数据集进行清洗时,根据所述样本数据的粗分类类别在所有类别中的排序位置删除规定数量的排在末位的样本数据。
本发明实施例提供的数据清洗方法及装置,通过获取经过粗分类的样本数据,将获取的样本数据作为第一数据集,对所述第一数据集的样本数据进行分类,获得所述样本数据的粗分类类别的权重,根据所述权重确定所述样本数据的粗分类类别在所有类别中的排序位置,并根据所述样本数据的粗分类类别在所有类别中的排序位置和第一数据集中样本数据的总数量,获得综合评估结果,当根据所述综合评估结果确定需要对所述第一数据集进行清洗时,根据所述样本数据的粗分类类别在所有类别中的排序位置删除规定数量的排在末位的样本数据。因此,可以同时进行多类别数据的清洗,即,每个类别的样本数据不仅与该类别的样本数据作比较,还与所有其它类别的样本数据作比较,该类别的样本数据在经过排序清洗后,同一类别内的样本方差减小,数据分类的准确性得到提高。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种数据清洗方法的流程示意图;
图2为本发明实施例提供的另一种数据清洗方法的流程示意图;
图3为本发明实施例提供的一种数据清洗装置的构成示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了能够提高数据分类的准确性,本发明实施例提供一种数据清洗方法,如图1所示,包括:
101、获取经过粗分类的样本数据,将获取的样本数据作为第一数据集;
其中,所述“粗分类”是指样本数据库中录入时样本数据已经过粗略分类,例如,视频样本数据被粗分类为喜剧、悲剧、爱情剧等,上述喜剧、悲剧、爱情剧即为相应样本数据的粗分类类别。
102、对所述第一数据集的各类别的样本数据进行分类,获得所述样本数据的粗分类类别的权重,根据所述权重确定所述样本数据的粗分类类别在所有类别中的排序位置;
举例而言,可以将所述第一数据集中的每个粗分类类别的样本数据分成n组,n为大于等于2的正整数;将每个粗分类类别n组样本数据中的m组样本数据作为测试分类数据,剩余的n-m组样本数据作为训练样本数据,m为大于等于1且小于n的正整数;通过分类器根据所述训练样本数据对所述测试分类数据进行分类。其中,该分类器可以为Bayes(贝叶斯)分类器、KNN分类器、SVM分类器或者类中心分类器等。
当通过Bayes分类器根据所述训练样本数据对所述测试分类数据进行分类时,所述样本数据的粗分类类别的权重由公式P(Ci/X)=P(X/Ci)*P(Ci)/P(X)计算得到。其中,
Figure BDA0000036800430000041
P(X/Ci)=P(x1/Ci)*P(x2/Ci)....P(xn/Ci),样本数据用一个n维特征向量,即:X={x1,x2,...,xn},样本数据的粗分类类别共有m个类,分别用C1,C2,...,Cm表示。并且,当P(xi|Cj)=0时,将所述P(xi|Cj)采用
Figure BDA0000036800430000042
进行替代。其中,n为该类别中出现的特征的总数,nk代表特征wi出现的次数,|Vocabulary|为第一数据集中特征的总数,而所述特征为代表所属类别的关键词。
另外,当至少两个样本数据的粗分类类别在所有类别中的排序位置相同时,根据所述粗分类类别的权重对排序位置相同的所述至少两个样本数据进行排序。
103、根据所述样本数据的粗分类类别在所有类别中的排序位置和第一数据集中样本数据的总数量,获得综合评估结果;
104、当根据所述综合评估结果确定需要对所述第一数据集进行清洗时,根据所述样本数据的粗分类类别在所有类别中的排序位置删除规定数量的排在末位的样本数据。
举例而言,在确定所述综合评估结果小于第一阈值时,确定需要对所述样本数据进行清洗。当所述综合评估结果大于第一阈值时,将所述第一数据集作为最终清洗结果。
在对第一数据集的样本数据集进行清洗后,将清洗后剩余的样本数据作为第二数据集。判断所述第二数据集与第一数据集中样本数据的数量比是否大于约定比例,如果是,则对所述第二数据集继续进行清洗;如果否,则清洗失败,结束清洗。
在对第二数据集继续进行清洗的过程中,可以在对第二数据集进行分类时,可以采用与第一数据集相同的分类方式,并且,当采用与第一数据集相同的分类方式对第二数据集进行处理时,判断第二数据集的综合评估结果是否大于第一阈值,如果是,则将所述第二数据集作为最终清洗结果。或者,直接采用对第一数据集进行处理时获得的所述样本数据的粗分类类别的权重和所述样本数据的粗分类类别在所有类别中的排序位置对所述第二数据集进行清洗。
当第二数据集的综合评估结果不大于第一阈值时,判断第二数据集的综合评估结果与第一数据集的综合评估结果之差是否大于第二预设阈值,如果是,则对数据集继续进行循环清洗;如果否,则判断清洗次数是否超过预设次数,如果未超过,则对第一数据集重新进行清洗;如果超过,则退出清洗,对第一数据集的清洗失败。
本实施例提供的数据清洗方法,通过获取经过粗分类的样本数据,将获取的样本数据作为第一数据集,对所述第一数据集的样本数据进行分类,获得所述样本数据的粗分类类别的权重,根据所述权重确定所述样本数据的粗分类类别在所有类别中的排序位置,并根据所述样本数据的粗分类类别在所有类别中的排序位置和第一数据集中样本数据的总数量,获得综合评估结果,当根据所述综合评估结果确定需要对所述第一数据集进行清洗时,根据所述样本数据的粗分类类别在所有类别中的排序位置删除规定数量的排在末位的样本数据,并循环进行上述清洗操作直至数据满足条件完成清洗。因此,可以同时进行多类别数据的清洗,即,每个类别的样本数据不仅与该类别的样本数据作比较,还与所有其它类别的样本数据作比较,该类别的样本数据在经过排序清洗后,同一类别内的样本方差减小,数据分类的准确性得到提高。
下面,以Bayes分类器对样本数据进行分类为例,对上一实施例做进一步详细具体的描述。
如图2所示,本实施例数据清洗方法,包括:
201、从原始训练数据库中按照粗分类类别分别读取经过粗分类的样本数据,将这些样本数据合并,作为数据集A(即第一数据集);
其中,所述原始训练数据库中存储有已被粗分类的原始的训练样本集,并向分类器提供训练样本。例如,所述原始训练数据库可以为互联网或文本库等,进一步的样本数据可以为文本或视频等,以视频为例,在原始训练数据库中,视频样本数据被粗分类为喜剧、悲剧、爱情剧等,上述喜剧、悲剧、爱情剧即为相应样本数据的粗分类类别。
202、将数据集A中每个粗分类类别的数据分别随机分成n组。
例如,假设数据集A中存在x个类别的数据,分别将类别a分成a.group1,a.group2,......,a.group(n),将类别b分成b.group1,b.group2,......,b.group(n),......,将类别x分成x.group1,x.group2,......,x.group(n)。
203、在每个粗分类类别的n组数据中轮换确定m组数据为测试分类数据,并确定每个粗分类类别其余的n-m组数据为分类用的训练样本数据,通过Bayes分类器根据该训练样本数据对测试分类数据进行分类,得到样本数据的粗分类类别的权重,进一步的可以根据所述权重确定所述样本数据的粗分类类别在所有类别中的排序位置。
在本实施例中,分类器包括bayes分类器,但不局限于该分类器,还可以使用其他的分类器进行分类,例如:KNN分类器、SVM分类器、类中心分类器等都可以用于数据清洗。所述分类结果集中的每个样本数据都会有样本号、样本数据的粗分类类别、样本数据的粗分类类别的权重、粗分类类别在所有类别中的排序位置等记录信息。其中,样本数据的粗分类类别的权重、粗分类类别在所有类别中的排序位置是进行分类后所得到的分类结果集的元素。
例如,假设m=1,将a.group1,a.group2,......,a.group(n-1),b.group1,b.group2,......,b.group(n-1),......,x.group1,x.group2,......,x.group(n-1)作为训练样本数据,将a.group(n),b.group(n),......,x.group(n)作为测试分类数据,根据这些训练样本数据通过Bayes分类器对测试分类数据进行分类,得到分类结果1。
将a.group1,a.group2,......,a.group(n-2),a.group(n),b.group1,b.group2,......,b.group(n-2),b.group(n),......,x.group1,x.group2,......,x.group(n-2),x.group(n)作为训练样本数据,将a.group(n-1),b.group(n-1),......,x.group(n-1)作为测试分类数据,根据这些训练样本数据通过Bayes分类器对测试分类数据进行分类,得到分类结果2。
将a.group2,......,a.group(n),b.group2,......,b.group(n),......,x.group2,......,x.group(n)作为训练样本数据,将a.group(1),b.group(1),......,x.group(1)作为测试分类数据,根据这些训练样本数据通过Bayes分类器对测试分类数据进行分类,得到分类结果n。
将分类结果1,2,......,n合并,作为分类结果集1。
Bayes分类器的Bayes分类法具体可以为:假设样本数据用一个n维特征向量,即:X={x1,x2,...,xn},样本数据总共有m个类,分别用C1,C2,...,Cm表示。给定一个未知的样本数据X(即没有类标号),若Bayes分类法将未知的样本数据配给类Ci,则一定是P(Ci|X)>P(Cj|X),其中j≤m,j≠i。
根据贝叶斯定理,由于P(X)对于所有类为常数,最大化后验概率P(Ci|X)可转化为最大化先验概率P(X|Ci)P(Ci)。如果训练数据集有许多属性和元组,各属性的取值互相独立,这样先验概率P(x1|Ci),P(x2|Ci),...,P(xn|Ci)可以由训样本据集通过下述公式求得。
样本数据的粗分类类别的权重:
P(Ci/X)=P(X/Ci)*P(Ci)/P(X)
其中,
Figure BDA0000036800430000071
x1...xn为独立的事件,则:
P(X/Ci)=P(x1/Ci)*P(x2/Ci)....P(xn/Ci)
由于P(X)对于所有的分类均常数,因此P(Ci/X)和P(X/Ci)*P(Ci)成正比,即P(Ci/X)的大小依赖于P(Ci)和P(x1/Ci)..P(xn/Ci)。
在实际的分类过程中,为了避免出现P(xi|Cj)=0的情况,对P(xi|Cj)采用下式进行替代:
Figure BDA0000036800430000081
其中n为该类别中出现的特征的总数,nk代表特征wi出现的次数。|Vocabulary|为第一数据集中特征的总数。
所述特征为代表所属类别的关键词。
用以上所述的方法求得样本数据的粗分类类别的权重后,根据求得的权重确定样本数据的粗分类类别在所有类别中的排序位置。例如,将样本数据按照其粗分类类别在所有类别中的位置进行排序,当至少两个样本数据的粗分类类别在所有类别中的排序位置相同时,根据所述粗分类类别的权重对排序位置相同的该至少两个样本数据进行排序。
204、对分类结果集1进行综合评估,根据所述样本数据的粗分类类别在所有类别中的排序位置和第一数据集中样本数据的总数量,得到综合评估结果R1。
具体可以为,根据分类结果集中的样本数据的粗分类类别在所有类别中的排序位置和第一数据集中样本数据的总数量,获得综合评估结果R1:
Figure BDA0000036800430000082
综合评估结果用于表示样本数据粗分类的正确率。其中,样本归属粗分类类别根据样本数据的粗分类类别在所有类别中的排序位置确定。可以定义当粗分类类别的排序位置在预定位次之前时,则认为样本数据归属粗分类类别。例如,以视频样本数据为例,类别包括喜剧、悲剧、爱情剧、科幻剧等10个分类,预定位次为第3位,其中,样本数据的粗分类类别为喜剧,经过步骤203的分类计算后获得的排序位置为第3位,排在爱情剧、科幻剧之后,则可以确定粗分类类别在预定的第3位次,符合要求,认为该粗分类类别较为准确,因此,确定该样本数据归属所述粗分类类别。
205、判断综合评估结果R1是否小于阈值a(即为第一阈值),若R1>阈值a,则确定不需要对数据集A进行清洗,进入步骤206,若R1<=阈值a,则确定需要对数据集A进行清洗,进入步骤207;
其中,所述阈值a为预先设置好的,用于表示可接受的分类准确率,可以根据对样本数据分类准确率的要求高低进行灵活设定。
206、退出清洗流程,将数据集A作为最终清洗结果,将数据集A存入目标数据库中。
207、根据所述样本数据的粗分类类别在所有类别中的排序位置删除规定数量的排在末位的样本数据。将剩余的样本数据作为数据集B(即第二数据集)。
208、判断数据集B的样本数据总数占从原始训练数据库中读取的数据集A中的样本数据总数的比例,即数据集B与数据集A中样本数据的数量比是否大于约定比例。若数据集B与数据集A中样本数据的数量比大于约定比例,则确定数据集B中还有足够的样本数据,数据集B为可以用来对清洗效果进行评测的合格数据集,进入步骤209。否则,确定数据集B中的样本数据总数过少,其为不能用来对清洗效果进行评测的不合格数据集,则进入步骤216。
209、将数据集B中每个类别的数据分别随机分成n组。
本步骤的具体实现方式可参见步骤202,在此不再赘述。
另外,也可以采用与数据集A相同的分类方式对数据集B进行分类处理。
210、在数据集B的每个类别的n组数据中,轮换确定m组数据为测试分类数据,并确定每个类别其余的n-m组数据为分类用的训练样本数据,通过Bayes分类器根据该训练样本数据对测试分类数据进行分类,得到分类结果集2。
本步骤的具体实现方式可参见步骤203,在此不再赘述。
211、对分类结果集2进行综合评估,得到综合评估结果R2。
例如,根据分类结果集2获取数据集B的样本数据归属粗分类类别的数量,并将综合评估结果R2定义为样本数据归属粗分类类别的概率。
212、判断综合评估结果R2是否小于阈值a,若R2>阈值a,则确定不需要对数据集B进行清洗,进入步骤213,若R2<阈值a,则确定需要对数据集B进行清洗,进入步骤214;
213、退出清洗流程,将数据集B作为最终清洗结果,将数据集B存入目标数据库中。
214、判断综合评估结果R2和R1之差是否大于阈值b(即为第二阈值)。若R2-R1<=阈值b,则数据集B的分类效果没有提高,进入步骤215中。若R2-R1>阈值b,则确定B的分类效果有提高,则继续对数据集B进行清洗,将数据集B作为数据集A,返回步骤201进行清洗处理。
另外,也可以在确定需要继续对数据集B进行清洗时,直接从当前的分类结果中获知粗分类类别在所有类别中的排序位置和粗分类类别的权重,然后根据粗分类类别在所有类别中的排序位置对样本数据进行排序,并且,在至少两个样本数据的粗分类类别在所有类别中的排序位置相同时,根据粗分类类别的权重对这些样本数据进行排序,删除规定数量的排在末位的样本数据。
215、判断对数据集A中的样本数据进行清洗的总次数是否超过规定次数K。若清洗的总次数超过规定次数K,则确定对数据集A的样本数据已经进行过多次清洗,但每次清洗后的数据集的分类效果都没有提高,进入步骤216。若清洗的总次数未超过规定次数K,则可能由于对A的随机分组不当造成,对数据集A重新开始清洗流程。
216、退出清洗流程,对数据集A的清洗操作失败。
在本实施例中,配置了三个清洗判断条件,即判断综合评估结果是否小于规定的阈值,判断当前的数据集的样本数据总数占从原始训练数据库中读取的样本数据总数的比例是否大于约定比例,判断当前计算出的综合评估结果和前一次得到的综合评估结果之差是否大于规定的阈值。当然,也可以继续增加或者替换清洗判断条件。这些清洗判断条件可以通过配置文件进行配置。
本实施例提供的数据清洗方法,通过获取经过粗分类的样本数据,将获取的样本数据作为第一数据集,对所述第一数据集的样本数据进行分类,获得所述样本数据的粗分类类别的权重,根据所述权重确定所述样本数据的粗分类类别在所有类别中的排序位置,并根据所述样本数据的粗分类类别在所有类别中的排序位置和第一数据集中样本数据的总数量,获得综合评估结果,当根据所述综合评估结果确定需要对所述第一数据集进行清洗时,根据所述样本数据的粗分类类别在所有类别中的排序位置删除规定数量的排在末位的样本数据,并循环进行上述清洗操作直至数据满足条件完成清洗。因此,可以同时进行多类别数据的清洗,即,每个类别的样本数据不仅与该类别的样本数据作比较,还与所有其它类别的样本数据作比较,该类别的样本数据在经过排序清洗后,同一类别内的样本方差减小,数据分类的准确性得到提高。并且,通过在迭代过程中逐步从读取的数据集中删除不符合清洗判断规则的文本,对训练数据进行清洗,进而可以提高数据特征提取的准确性,从而可以进一步提高数据分类的准确性。
与上述方法相对应地,本发明实施例还提供了一种数据清洗装置,如图3所示,包括:
数据获取单元301,获取经过粗分类的样本数据,将获取的样本数据作为第一数据集;
分类排序单元302,用于对所述数据获取单元301获取的样本数据进行分类,获得所述样本数据的粗分类类别的权重,根据所述权重确定所述样本数据的粗分类类别在所有类别中的排序位置;
综合评估单元303,用于根据所述样本数据的粗分类类别在所有类别中的排序位置和第一数据集中样本数据的总数量,获得综合评估结果;
数据清洗单元304,用于当根据所述综合评估单元303获得的综合评估结果确定需要对所述第一数据集进行清洗时,根据所述样本数据的粗分类类别在所有类别中的排序位置删除规定数量的排在末位的样本数据。
进一步地,所述分类排序单元302具体包括:
数据分组子单元,用于将所述第一数据集中的每个粗分类类别的样本数据分成n组,n为大于等于2的正整数;
数据确定子单元,用于将每个粗分类类别n组样本数据中的m组样本数据作为测试分类数据,剩余的n-m组样本数据作为训练样本数据,m为大于等于1且小于n的正整数;
数据分类子单元,用于通过分类器根据所述训练样本数据对所述测试分类数据进行分类;
权重获取子单元,用于获得所述样本数据的粗分类类别的权重;
数据排序子单元,用于根据所述权重确定所述样本数据的粗分类类别在所有类别中的排序位置。
进一步地,所述分类器包括Bayes分类器、KNN分类器、SVM分类器或类中心分类器。
进一步地,当通过Bayes分类器根据所述训练样本数据对所述测试分类数据进行分类时,所述权重获取子单元,具体用于根据公式P(Ci/X)=P(X/Ci)*P(Ci)/P(X)获取所述样本数据的粗分类类别的权重,其中,
Figure BDA0000036800430000121
P(X/Ci)=P(x1/Ci)*P(x2/Ci)....P(xn/Ci),样本数据用一个n维特征向量,即:X={x1,x2,...,xn},样本数据的粗分类类别共有m个类,分别用C1,C2,...,Cm表示。
进一步地,所述数据排序子单元,具体用于当至少两个样本数据的粗分类类别在所有类别中的排序位置相同时,根据所述粗分类类别的权重对排序位置相同的所述至少两个样本数据进行排序。
进一步地,所述数据清洗单元304包括:
清洗判断子单元,用于当确定所述综合评估结果不大于第一阈值时,确定需要对所述样本数据进行清洗;当确定所述综合评估结果大于第一阈值时,将所述第一数据集作为最终清洗结果;
数据删除子单元,用于当所述清洗判断子单元确定需要对所述第一数据集进行清洗时,根据所述样本数据的粗分类类别在所有类别中的排序位置删除规定数量的排在末位的样本数据。
进一步地,所述数据获取单元,还用于将清洗后剩余的样本数据作为第二数据集,判断所述第二数据集与第一数据集中样本数据的数量比是否大于约定比例,如果是,则将所述第二数据集作为继续清洗的对象;如果否,则清洗失败,结束清洗;
所述数据清洗单元,还用于直接采用对第一数据集进行处理时获得的所述样本数据的粗分类类别的权重和所述样本数据的粗分类类别在所有类别中的排序位置对所述第二数据集进行清洗。
进一步地,所述数据获取单元,还用于将清洗后剩余的样本数据作为第二数据集,判断所述第二数据集与第一数据集中样本数据的数量比是否大于约定比例,如果是,则将所述第二数据集作为继续清洗的对象;如果否,则清洗失败,结束清洗;在确定第二数据集的综合评估结果不大于第一阈值,且第二数据集的综合评估结果与第一数据集的综合评估结果之差不大于第二预设阈值,且清洗次数未超过预设次数时,将第一数据集作为重新进行清洗的对象;在确定第二数据集的综合评估结果不大于第一阈值,且第二数据集的综合评估结果与第一数据集的综合评估结果之差不大于第二预设阈值,且清洗次数超过预设次数时,对第一数据集的清洗失败,结束清洗;
所述分类排序单元,还用于所述第二数据集的分类方式采用与第一数据集相同的分类方式,获得所述第二数据集的样本数据的粗分类类别的权重,根据所述权重确定所述第二数据集的样本数据的粗分类类别在所有类别中的排序位置;
所述综合评估单元,还用于根据所述第二数据集的样本数据的粗分类类别在所有类别中的排序位置和第二数据集中样本数据的总数量,获得综合评估结果;
所述数据清洗单元,还用于在确定第二数据集的综合评估结果大于第一阈值时,将所述第二数据集作为最终清洗结果;在确定第二数据集的综合评估结果不大于第一阈值,且第二数据集的综合评估结果与第一数据集的综合评估结果之差大于第二预设阈值时,根据第二数据集的样本数据的粗分类类别在所有类别中的排序位置删除规定数量的排在末位的样本数据。
本实施例数据清洗装置的工作方法可参考图1和图2所示的实施例。
本实施例提供的数据清洗装置,通过获取经过粗分类的样本数据,将获取的样本数据作为第一数据集,对所述第一数据集的样本数据进行分类,获得所述样本数据的粗分类类别的权重,根据所述权重确定所述样本数据的粗分类类别在所有类别中的排序位置,并根据所述样本数据的粗分类类别在所有类别中的排序位置和第一数据集中样本数据的总数量,获得综合评估结果,当根据所述综合评估结果确定需要对所述第一数据集进行清洗时,根据所述样本数据的粗分类类别在所有类别中的排序位置删除规定数量的排在末位的样本数据,并循环进行上述清洗操作直至数据满足条件完成清洗。因此,可以同时进行多类别数据的清洗,即,每个类别的样本数据不仅与该类别的样本数据作比较,还与所有其它类别的样本数据作比较,该类别的样本数据在经过排序清洗后,同一类别内的样本方差减小,数据分类的准确性得到提高。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (20)

1.一种数据清洗方法,其特征在于,包括:
获取经过粗分类的样本数据,将获取的样本数据作为第一数据集;
对所述样本数据进行分类,获得所述样本数据的粗分类类别的权重,根据所述权重确定所述样本数据的粗分类类别在所有类别中的排序位置;
根据所述样本数据的粗分类类别在所有类别中的排序位置和第一数据集中样本数据的总数量,获得综合评估结果;
当根据所述综合评估结果确定需要对所述第一数据集进行清洗时,根据所述样本数据的粗分类类别在所有类别中的排序位置删除规定数量的排在末位的样本数据。
2.根据权利要求1所述的数据清洗方法,其特征在于,根据所述综合评估结果确定需要对所述第一数据集进行清洗包括:
当所述综合评估结果不大于第一阈值时,即为需要对所述第一数据集进行清洗,当所述综合评估结果大于第一阈值时,将所述第一数据集作为最终清洗结果。
3.根据权利要求1或2所述的数据清洗方法,其特征在于,还包括:
将清洗后剩余的样本数据作为第二数据集;
判断所述第二数据集与第一数据集中样本数据的数量比是否大于约定比例,如果是,则对所述第二数据集继续进行清洗;如果否,则清洗失败,结束清洗。
4.根据权利要求1所述的数据清洗方法,其特征在于,所述对所述样本数据进行分类包括:
将所述第一数据集中的每个粗分类类别的样本数据分成n组,n为大于等于2的正整数;
将每个粗分类类别n组样本数据中的m组样本数据作为测试分类数据,剩余的n-m组样本数据作为训练样本数据,m为大于等于1且小于n的正整数;
通过分类器根据所述训练样本数据对所述测试分类数据进行分类。
5.根据权利要求4所述的数据清洗方法,其特征在于,
所述分类器包括Bayes分类器、KNN分类器、SVM分类器或类中心分类器。
6.根据权利要求5所述的数据清洗方法,其特征在于,当通过Bayes分类器根据所述训练样本数据对所述测试分类数据进行分类时,所述样本数据的粗分类类别的权重由下述公式计算得到:
P(Ci/X)=P(X/Ci)*P(Ci)/P(X)
其中,
Figure FDA0000036800420000021
7.根据权利要求6所述的数据清洗方法,其特征在于,
P(X/Ci)=P(x1/Ci)*P(x2/Ci)....P(xn/Ci)
其中,样本数据用一个n维特征向量,即:X={x1,x2,...,xn},样本数据的粗分类类别共有m个类,分别用C1,C2,...,Cm表示。
8.根据权利要求7所述的数据清洗方法,其特征在于,
当P(xi|Cj)=0时,将所述P(xi|Cj)采用下式进行替代:
n k + 1 n + | Vocabulary |
其中,n为该类别中出现的特征的总数,nk代表特征wi出现的次数,|Vocabulary|为第一数据集中特征的总数;
所述特征为代表所属类别的关键词。
9.根据权利要求3所述的数据清洗的方法,其特征在于,所述对所述第二数据集继续进行清洗的方法包括:
采用与第一数据集相同的分类方式;或,
直接采用对第一数据集进行处理时获得的所述样本数据的粗分类类别的权重和所述样本数据的粗分类类别在所有类别中的排序位置对所述第二数据集进行清洗。
10.根据权利要求3或9所述的数据清洗的方法,其特征在于,
当采用与第一数据集相同的分类方式对第二数据集进行处理时,判断第二数据集的综合评估结果是否大于第一阈值,如果是,则将所述第二数据集作为最终清洗结果。
11.根据权利要求10所述的数据清洗方法,其特征在于,当第二数据集的综合评估结果不大于第一阈值时,判断第二数据集的综合评估结果与第一数据集的综合评估结果之差是否大于第二预设阈值,如果是,则对数据集继续进行循环清洗;如果否,则判断清洗次数是否超过预设次数,如果未超过,则对第一数据集重新进行清洗;如果超过,则退出清洗,对第一数据集的清洗失败。
12.根据权利要求1所述的数据清洗的方法,其特征在于,所述根据所述样本数据的粗分类类别在所有类别中的排序位置删除规定数量的排在末位的样本数据还包括:
当至少两个样本数据的粗分类类别在所有类别中的排序位置相同时,根据所述粗分类类别的权重对排序位置相同的所述至少两个样本数据进行排序。
13.一种数据清洗装置,其特征在于,包括:
数据获取单元,用于获取经过粗分类的样本数据,将获取的样本数据作为第一数据集;
分类排序单元,用于对所述数据获取单元获取的样本数据进行分类,获得所述样本数据的粗分类类别的权重,根据所述权重确定所述样本数据的粗分类类别在所有类别中的排序位置;
综合评估单元,用于根据所述样本数据的粗分类类别在所有类别中的排序位置和第一数据集中样本数据的总数量,获得综合评估结果;
数据清洗单元,用于当根据所述综合评估单元获得的综合评估结果确定需要对所述第一数据集进行清洗时,根据所述样本数据的粗分类类别在所有类别中的排序位置删除规定数量的排在末位的样本数据。
14.根据权利要求13所述的数据清洗装置,其特征在于,所述分类排序单元包括:
数据分组子单元,用于将所述第一数据集中的每个粗分类类别的样本数据分成n组,n为大于等于2的正整数;
数据确定子单元,用于将每个粗分类类别n组样本数据中的m组样本数据作为测试分类数据,剩余的n-m组样本数据作为训练样本数据,m为大于等于1且小于n的正整数;
数据分类子单元,用于通过分类器根据所述训练样本数据对所述测试分类数据进行分类;
权重获取子单元,用于获得所述样本数据的粗分类类别的权重;
数据排序子单元,用于根据所述权重确定所述样本数据的粗分类类别在所有类别中的排序位置。
15.根据权利要求14所述的数据清洗装置,其特征在于,所述分类器包括Bayes分类器、KNN分类器、SVM分类器或类中心分类器。
16.根据权利要求15所述的数据清洗装置,其特征在于,当通过Bayes分类器根据所述训练样本数据对所述测试分类数据进行分类时,所述权重获取子单元,具体用于根据公式P(Ci/X)=P(X/Ci)*P(Ci)/P(X)获取所述样本数据的粗分类类别的权重,其中,
Figure FDA0000036800420000041
P(X/Ci)=P(x1/Ci)*P(x2/Ci)....P(xn/Ci),样本数据用一个n维特征向量,即:X={x1,x2,...,xn},样本数据的粗分类类别共有m个类,分别用C1,C2,...,Cm表示。
17.根据权利要求14所述的数据清洗装置,其特征在于,所述数据排序子单元,具体用于当至少两个样本数据的粗分类类别在所有类别中的排序位置相同时,根据所述粗分类类别的权重对排序位置相同的所述至少两个样本数据进行排序。
18.根据权利要求13所述的数据清洗装置,其特征在于,所述数据清洗单元包括:
清洗判断子单元,用于当确定所述综合评估结果不大于第一阈值时,确定需要对所述样本数据进行清洗;当确定所述综合评估结果大于第一阈值时,将所述第一数据集作为最终清洗结果;
数据删除子单元,用于当所述清洗判断子单元确定需要对所述第一数据集进行清洗时,根据所述样本数据的粗分类类别在所有类别中的排序位置删除规定数量的排在末位的样本数据。
19.根据权利要求13-18任一所述的数据清洗装置,其特征在于,所述数据获取单元,还用于将清洗后剩余的样本数据作为第二数据集,判断所述第二数据集与第一数据集中样本数据的数量比是否大于约定比例,如果是,则将所述第二数据集作为继续清洗的对象;如果否,则清洗失败,结束清洗;
所述数据清洗单元,还用于直接采用对第一数据集进行处理时获得的所述样本数据的粗分类类别的权重和所述样本数据的粗分类类别在所有类别中的排序位置对所述第二数据集进行清洗。
20.根据权利要求13-18任一所述的数据清洗装置,其特征在于,所述数据获取单元,还用于将清洗后剩余的样本数据作为第二数据集,判断所述第二数据集与第一数据集中样本数据的数量比是否大于约定比例,如果是,则将所述第二数据集作为继续清洗的对象;如果否,则清洗失败,结束清洗;在确定第二数据集的综合评估结果不大于第一阈值,且第二数据集的综合评估结果与第一数据集的综合评估结果之差不大于第二预设阈值,且清洗次数未超过预设次数时,将第一数据集作为重新进行清洗的对象;在确定第二数据集的综合评估结果不大于第一阈值,且第二数据集的综合评估结果与第一数据集的综合评估结果之差不大于第二预设阈值,且清洗次数超过预设次数时,对第一数据集的清洗失败,结束清洗;
所述分类排序单元,还用于所述第二数据集的分类方式采用与第一数据集相同的分类方式,获得所述第二数据集的样本数据的粗分类类别的权重,根据所述权重确定所述第二数据集的样本数据的粗分类类别在所有类别中的排序位置;
所述综合评估单元,还用于根据所述第二数据集的样本数据的粗分类类别在所有类别中的排序位置和第二数据集中样本数据的总数量,获得综合评估结果;
所述数据清洗单元,还用于在确定第二数据集的综合评估结果大于第一阈值时,将所述第二数据集作为最终清洗结果;在确定第二数据集的综合评估结果不大于第一阈值,且第二数据集的综合评估结果与第一数据集的综合评估结果之差大于第二预设阈值时,根据第二数据集的样本数据的粗分类类别在所有类别中的排序位置删除规定数量的排在末位的样本数据。
CN2010105784799A 2010-12-08 2010-12-08 数据清洗方法及装置 Active CN102135979B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN2010105784799A CN102135979B (zh) 2010-12-08 2010-12-08 数据清洗方法及装置
PCT/CN2011/075350 WO2011147366A1 (zh) 2010-12-08 2011-06-03 数据清洗方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010105784799A CN102135979B (zh) 2010-12-08 2010-12-08 数据清洗方法及装置

Publications (2)

Publication Number Publication Date
CN102135979A CN102135979A (zh) 2011-07-27
CN102135979B true CN102135979B (zh) 2013-10-09

Family

ID=44295767

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010105784799A Active CN102135979B (zh) 2010-12-08 2010-12-08 数据清洗方法及装置

Country Status (2)

Country Link
CN (1) CN102135979B (zh)
WO (1) WO2011147366A1 (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103365765B (zh) * 2012-03-28 2016-10-12 腾讯科技(深圳)有限公司 测试用例筛选方法和系统
JP6253644B2 (ja) 2012-06-21 2017-12-27 フィリップ モリス プロダクツ エス アー 統合バイアス補正およびクラス予測を用いてバイオマーカシグネチャを生成するためのシステムおよび方法
CN104750861B (zh) * 2015-04-16 2019-05-21 中国电力科学研究院 一种储能电站海量数据清洗方法及系统
CN105653696A (zh) * 2015-12-29 2016-06-08 台山核电合营有限公司 一种核电站数据库数据处理方法及系统
CN105868165B (zh) * 2016-04-15 2018-06-12 华中科技大学 一种电站锅炉运行数据清洗方法
CN106838872B (zh) * 2017-01-13 2018-11-30 华中科技大学 一种余热锅炉汽水泄漏诊断的数据预处理方法
CN108664497B (zh) * 2017-03-30 2020-11-03 大有秦鼎(北京)科技有限公司 数据匹配的方法和装置
CN107028718A (zh) * 2017-05-24 2017-08-11 深圳先进技术研究院 一种基于压力传感器的上下床监护系统和方法
CN109829315A (zh) * 2017-11-23 2019-05-31 西门子(中国)有限公司 日志处理的方法、装置及计算机可读存储介质
CN110400208B (zh) * 2018-04-25 2021-03-12 上海方付通商务服务有限公司 一种小微风险控制模型构建方法及应用方法
CN108804533B (zh) * 2018-05-04 2021-11-30 佛山科学技术学院 一种异构大数据信息的过滤方法及装置
CN111277451B (zh) * 2018-12-05 2021-10-15 中国移动通信集团北京有限公司 一种业务评估方法、装置、终端设备和介质
CN110990384B (zh) * 2019-11-04 2023-08-22 武汉中卫慧通科技有限公司 一种大数据平台bi分析方法
CN112633320B (zh) * 2020-11-26 2023-04-07 西安电子科技大学 基于相像系数和dbscan的雷达辐射源数据清洗方法
CN113315813A (zh) * 2021-05-08 2021-08-27 重庆第二师范学院 一种大数据网际信息链系统的信息交换方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1679027A (zh) * 2002-08-26 2005-10-05 皇家飞利浦电子股份有限公司 用于检测视频图像序列中内容属性的设备和方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8150814B2 (en) * 2009-04-07 2012-04-03 Business Objects Software Ltd. System and method of data cleansing using rule based formatting

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1679027A (zh) * 2002-08-26 2005-10-05 皇家飞利浦电子股份有限公司 用于检测视频图像序列中内容属性的设备和方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《基于加权加速聚类的异常数据挖掘算法》;李星毅 等;《计算机工程与应用》;20081031 *
李星毅 等.《基于加权加速聚类的异常数据挖掘算法》.《计算机工程与应用》.2008,

Also Published As

Publication number Publication date
CN102135979A (zh) 2011-07-27
WO2011147366A1 (zh) 2011-12-01

Similar Documents

Publication Publication Date Title
CN102135979B (zh) 数据清洗方法及装置
CN109189767B (zh) 数据处理方法、装置、电子设备及存储介质
CN104391835B (zh) 文本中特征词选择方法及装置
US8364618B1 (en) Large scale machine learning systems and methods
CN107391772B (zh) 一种基于朴素贝叶斯的文本分类方法
CN101604363B (zh) 基于文件指令频度的计算机恶意程序分类系统及分类方法
CN107844559A (zh) 一种文件分类方法、装置及电子设备
US10929751B2 (en) Finding K extreme values in constant processing time
US9218531B2 (en) Image identification apparatus, image identification method, and non-transitory computer readable medium
US20140207786A1 (en) System and methods for computerized information governance of electronic documents
CN108304371B (zh) 热点内容挖掘的方法、装置、计算机设备及存储介质
CN102194013A (zh) 一种基于领域知识的短文本分类方法及文本分类系统
Sun et al. Identifying and correcting mislabeled training instances
EP2356588A1 (en) Electronic document classification apparatus
US20090216780A1 (en) Efficient method for clustering nodes
CN111914090A (zh) 一种企业行业分类识别及其特征污染物识别的方法及装置
CN104598632A (zh) 热点事件检测方法和装置
CN110991476A (zh) 决策分类器的训练、音视频的推荐方法、装置及存储介质
CN115148299A (zh) 一种基于XGBoost的矿床类型鉴别方法及系统
CN108446359B (zh) 信息推荐方法和装置
CN112052154A (zh) 一种测试用例的处理方法、装置
CN108229692B (zh) 一种基于双重对比学习的机器学习识别方法
CN105787004A (zh) 一种文本分类方法及装置
KR20220032805A (ko) 메모리 관리 장치 및 방법
CN115437960A (zh) 回归测试用例排序的方法、装置、设备和存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220223

Address after: 550025 Huawei cloud data center, jiaoxinggong Road, Qianzhong Avenue, Gui'an New District, Guiyang City, Guizhou Province

Patentee after: Huawei Cloud Computing Technology Co.,Ltd.

Address before: 518129 headquarters building of Bantian HUAWEI base, Longgang District, Guangdong, Shenzhen

Patentee before: HUAWEI TECHNOLOGIES Co.,Ltd.