CN114996256A - 一种基于类别平衡的数据清洗方法 - Google Patents

一种基于类别平衡的数据清洗方法 Download PDF

Info

Publication number
CN114996256A
CN114996256A CN202210668659.9A CN202210668659A CN114996256A CN 114996256 A CN114996256 A CN 114996256A CN 202210668659 A CN202210668659 A CN 202210668659A CN 114996256 A CN114996256 A CN 114996256A
Authority
CN
China
Prior art keywords
key data
data
feature
categories
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210668659.9A
Other languages
English (en)
Other versions
CN114996256B (zh
Inventor
周海波
王占立
唱立斌
吴宗培
于宁宁
褚立明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orient Lianxin Technology Co ltd
Original Assignee
Orient Lianxin Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Orient Lianxin Technology Co ltd filed Critical Orient Lianxin Technology Co ltd
Priority to CN202210668659.9A priority Critical patent/CN114996256B/zh
Publication of CN114996256A publication Critical patent/CN114996256A/zh
Application granted granted Critical
Publication of CN114996256B publication Critical patent/CN114996256B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于类别平衡的数据清洗方法,包括以下步骤:A、用户输入需要抽取关键数据的数据集D以及需要的关键数据的个数N,将数据集D在每个类别中按照2:1的比例划分训练集
Figure DEST_PATH_IMAGE001
和测试集;B、计算每个类别中应选出关键数据的个数;C、对数据集D进行含缺失值样本的删除、按类别对异常样本进行删除,并进行归一化操作,消除因量纲不同带来的影响,并按类别划分子集;D、对每个子集进行数据清洗操作,选取规定数量的关键数据,构成最终关键数据集;E、对关键数据进行补全。本发明能够改进现有技术的不足,能够实现精确清洗并得到关键数据,对于人工智能和机器学习技术有着重要意义。

Description

一种基于类别平衡的数据清洗方法
技术领域
本发明涉及数据处理技术领域,尤其是一种基于类别平衡的数据清洗方法。
背景技术
随着经济的发展,社会的进步,信息化技术已在各行各业中普及应用并且快速的更新换代。并且随着信息量的激增,迎来了大数据及人工智能的时代。在这个时间即是宝贵财富的时代,如何快速处理大规模的数据及如何从海量数据中快速且准确的提取重要信息则是目前的研究热点。
对于分类任务而言,所使用的训练集的质量是至关重要的,它的大小、所包含的数据都会影响到学习器的性能。噪声数据和缺失数据都会使学习模型的分类正确率降低,冗余数据虽不会极大程度的影响分类模型中决策边界的构建,但是会增加训练的时间。
发明内容
本发明要解决的技术问题是提供一种基于类别平衡的数据清洗方法,能够解决现有技术的不足,能够实现精确清洗并得到关键数据,对于人工智能和机器学习技术有着重要意义。
为解决上述技术问题,本发明所采取的技术方案如下。
一种基于类别平衡的数据清洗方法,包括以下步骤:
A、用户输入需要抽取关键数据的数据集D以及需要的关键数据的个数N,将数据集D在每个类别中按照2:1的比例划分训练集D1和测试集;
B、计算每个类别中应选出关键数据的个数;
C、对数据集D进行含缺失值样本的删除、按类别对异常样本进行删除,并进行归一化操作,消除因量纲不同带来的影响,并按类别划分子集;
D、对每个子集进行数据清洗操作,选取规定数量的关键数据,构成最终关键数据集;
E、对关键数据进行补全。
作为优选,步骤B中,计算每个类别中应选出关键数据的个数包括以下步骤,
li=[xi*N/N0],其中li为第i个类别中关键据数,xi为第i个类别的样本数,N0为训练集D1中的样本数;
当∑li>N时,及每个类别应选的关键数据数的总和大于既定的关键数N,t=∑li-N,将不同类别按照关键数据个数降序排列,对前t个类别进行每个类别减少一个关键数据的操作;
当∑li<N时,及每个类别应选的关键数据数的总和小于既定的关键数N,t=N-∑li,将不同类别按照关键数据个数降序排列,对前t个类别进行每个类别增加一个关键数据的操作;
当存在某一类别关键数据个数为0时,则增加一个关键数据,同时将当前关键数据最多的类别减少一个关键数据。
作为优选,步骤D中,对每个子集进行数据清洗操作包括以下步骤,
D1、当li小于子集中关键数据的特征类别数量,且子集中关键数据数量大于关键数据的特征类别数量时,使用关键数据的特征构造特征矩阵,对特征矩阵进行正交变换,然后将特征矩阵的协方差矩阵进行特征分解,得到投影坐标系,使用投影坐标系对特征矩阵进行投影降维,然后选取贡献率大于设定阈值的主成分作为清洗后的关键数据;当子集中关键数据数量小于关键数据的特征类别数量时,对关键数据进行若干次聚类处理,每次聚类选取若干个特征类别,选取的特征类别数量小于关键数据数量,根据选取的特征类别与关键数据的关联度进行聚类,记录每次聚类处理产生的孤立关键数据,最后按照记录次数对关键数据进行降序排列,从记录次数最多的关键数据开始删除,直至达到预设的清洗比例;
D2、当li大于子集中关键数据包含的特征类别数量时,在每一个特征中提取一个关键数据,特征选择顺序随机生成,循环若干次,直至li小于子集中关键数据包含的特征类别数量后,转至步骤D1进行处理。
作为优选,步骤E中,对关键数据进行补全包括以下步骤,
E1、当特征类别大于关键数据数量时,在数据清洗之后生成的最终关键数据集中包含数据量最大的若干个特征类别中选取关键数据进行补全;
E2、当特征类别小于关键数据数量时,按照预设标准选取关键数据进行补全。
作为优选,步骤E1中,使用的特征类别的数量的确定原则为,
将特征类别按照数据量的多少降序排列,在保证选取关键数据的相关性小于设定阈值且使用的特征类别最少的前提下,从数据量最多的特征类别开始提取关键数据。
作为优选,步骤E2中,所述预设标准为,
选取的关键数据之间的相关性小于设定阈值,且选取的关键数据与现有关键数据之间的相关性小于选取的关键数据之间的相关性。
采用上述技术方案所带来的有益效果在于:本发明针对于分类任务,提出了类别平衡的概念,从而保证抽取的关键数据的类别样本数占比与原始数据集中的一致,从而解决不平衡数据集所产生的误分问题。在数据清洗过程中,根据数据的不同状态设计了不同的清洗流程,有效的去除了数据中的噪声干扰,提高了后续数据处理的正确率。
附图说明
图1是本发明一个具体实施方式的原理图。
具体实施方式
参照图1,本发明一个具体实施方式包括以下步骤:
A、用户输入需要抽取关键数据的数据集D以及需要的关键数据的个数N,将数据集D在每个类别中按照2:1的比例划分训练集D1和测试集;
B、计算每个类别中应选出关键数据的个数;
C、对数据集D进行含缺失值样本的删除、按类别对异常样本进行删除,并进行归一化操作,消除因量纲不同带来的影响,并按类别划分子集;
D、对每个子集进行数据清洗操作,选取规定数量的关键数据,构成最终关键数据集;
E、对关键数据进行补全。
步骤B中,计算每个类别中应选出关键数据的个数包括以下步骤,
li=[xi*N/N0],其中li为第i个类别中关键据数,xi为第i个类别的样本数,N0为训练集D1中的样本数;
当∑li>N时,及每个类别应选的关键数据数的总和大于既定的关键数N,t=∑li-N,将不同类别按照关键数据个数降序排列,对前t个类别进行每个类别减少一个关键数据的操作;
当∑li<N时,及每个类别应选的关键数据数的总和小于既定的关键数N,t=N-∑li,将不同类别按照关键数据个数降序排列,对前t个类别进行每个类别增加一个关键数据的操作;
当存在某一类别关键数据个数为0时,则增加一个关键数据,同时将当前关键数据最多的类别减少一个关键数据。
步骤D中,对每个子集进行数据清洗操作包括以下步骤,
D1、当li小于子集中关键数据的特征类别数量,且子集中关键数据数量大于关键数据的特征类别数量时,使用关键数据的特征构造特征矩阵,对特征矩阵进行正交变换,然后将特征矩阵的协方差矩阵进行特征分解,得到投影坐标系,使用投影坐标系对特征矩阵进行投影降维,然后选取贡献率大于设定阈值的主成分作为清洗后的关键数据;当子集中关键数据数量小于关键数据的特征类别数量时,对关键数据进行若干次聚类处理,每次聚类选取若干个特征类别,选取的特征类别数量小于关键数据数量,根据选取的特征类别与关键数据的关联度进行聚类,记录每次聚类处理产生的孤立关键数据,最后按照记录次数对关键数据进行降序排列,从记录次数最多的关键数据开始删除,直至达到预设的清洗比例;
D2、当li大于子集中关键数据包含的特征类别数量时,在每一个特征中提取一个关键数据,特征选择顺序随机生成,循环若干次,直至li小于子集中关键数据包含的特征类别数量后,转至步骤D1进行处理。
步骤E中,对关键数据进行补全包括以下步骤,
E1、当特征类别大于关键数据数量时,在数据清洗之后生成的最终关键数据集中包含数据量最大的若干个特征类别中选取关键数据进行补全;
E2、当特征类别小于关键数据数量时,按照预设标准选取关键数据进行补全。
步骤E1中,使用的特征类别的数量的确定原则为,
将特征类别按照数据量的多少降序排列,在保证选取关键数据的相关性小于设定阈值且使用的特征类别最少的前提下,从数据量最多的特征类别开始提取关键数据。
步骤E2中,所述预设标准为,
选取的关键数据之间的相关性小于设定阈值,且选取的关键数据与现有关键数据之间的相关性小于选取的关键数据之间的相关性。
数据清洗效果验证
在本方法的方法验证部分,选择了环保行业12个主要污染行业数据集。数据集描述如下。
数据集名称 数据集长 维数 类数
钢铁行业数据集 35000 5 4
玻璃行业数据集 35000 5 4
焦化行业数据集 35000 5 4
煤炭行业数据集 35000 5 4
制药行业数据集 35000 5 4
制革行业数据集 35000 5 4
印染行业数据集 35000 5 4
玻璃行业数据集 35000 5 4
水泥行业数据集 35000 5 4
电力行业数据集 35000 5 4
垃圾焚烧行业数据集 35000 5 4
污水治理行业数据集 35000 5 4
选择5个常见的分类器进行方法验证:朴素贝叶斯、决策树、决策表、提升算法、支持向量机,使用分类正确率作为性能评估指标。方法验证中使用的数据集,同样需要在类别中按2:1的比例划分为训练集D1和测试集D2,本方法的数据清洗工作在训练集D1中进行。由于本方法中需要用户输入关键数据的个数N,因此在本方法验证环节中设置N的个数为3倍的维数(3*F_N),即按最大Max_S、最小Min_S、平均Mean_S三种标准各选择3*F_N个关键数据。最后,将按三个标准选择到的关键数据集合进行合并,得到最终关键数据集合RS,具体的样本数量见表2。在方法验证正确率评估过程中,将分别对比4种关键数据集Max_S、Min_S、Mean_S和合并后的关键数据集RS的分类正确率,以及4种关键集的结果中最高的一个与原始训练集D1的对比结果,从而验证方法的可行性。下表为样本量对比,RS关键数据集的数量是由最大Max_S、最小Min_S、平均Mean_S的3种样本集合并所得。
数据集名称 训练集D<sub>1</sub> 关键数据集 关键数据数
钢铁行业数据集 28179 18268 6089
玻璃行业数据集 25727 13361 4454
焦化行业数据集 26932 14269 4756
煤炭行业数据集 27712 17242 5747
制药行业数据集 29833 19289 6429
制革行业数据集 22591 11249 3749
印染行业数据集 21304 13482 4494
玻璃行业数据集 20081 15253 5084
水泥行业数据集 23145 13368 4456
电力行业数据集 23432 17432 5810
垃圾焚烧行业数据集 19933 11831 3943
污水治理行业数据集 12680 10386 3462
下表给出在5个分类器上D1及4种关键数据集中所得到的最高的分类正确率的对比结果。方法验证结果较好的是在朴素贝叶斯分类器上有7个数据集使用关键数据集作为训练集后的分类正确率有所提升,其次是决策树分类器上有5个;效果较为不明显的是支持向量机分类器上只有3个数据集在经本方法后分类正确率有所提升,但就整体结果而言都可初步判定本方法是可行的。其原因是本方法选择的关键数据集去除了大量噪声数据对分类预测的干扰,从而证明了本方法的有效性。
Figure BDA0003693978610000081
Figure BDA0003693978610000091
下表为5个分类器的效率对比,在这些数据集上的方法验证可证明本方法是有效的,没有任何一个的效率值低于1。并且在污水治理行业、水泥行业、钢铁行业、焦化行业这4个数据集上的表现是非常好的,效率达到了五十倍以上。原因由表2的训练样本量及表3的分类正确率可知,训练样本的大量减少,同时分类正确率近乎不变、甚至有所提升,因此,分类效率得到了极大的提升,说明本方法可以提升分类任务中的学习性能。其次,在五个分类器中,对于同一个数据集的效率对比,朴素贝叶斯较其他的四个分类器获得的表现更为优秀,可认为本方法对于朴素贝叶斯分类器能获得更好的分类效果。最后,经效率分析结果的显示,本方法达到了预期的目标。
Figure BDA0003693978610000092
Figure BDA0003693978610000101
在本发明的描述中,需要理解的是,术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (6)

1.一种基于类别平衡的数据清洗方法,其特征在于包括以下步骤:
A、用户输入需要抽取关键数据的数据集D以及需要的关键数据的个数N,将数据集D在每个类别中按照2:1的比例划分训练集D1和测试集;
B、计算每个类别中应选出关键数据的个数;
C、对数据集D进行含缺失值样本的删除、按类别对异常样本进行删除,并进行归一化操作,消除因量纲不同带来的影响,并按类别划分子集;
D、对每个子集进行数据清洗操作,选取规定数量的关键数据,构成最终关键数据集;
E、对关键数据进行补全。
2.根据权利要求1所述的基于类别平衡的数据清洗方法,其特征在于:步骤B中,计算每个类别中应选出关键数据的个数包括以下步骤,
li=[xi*N/N0],其中li为第i个类别中关键据数,xi为第i个类别的样本数,N0为训练集D1中的样本数;
当∑li>N时,及每个类别应选的关键数据数的总和大于既定的关键数N,t=∑li-N,将不同类别按照关键数据个数降序排列,对前t个类别进行每个类别减少一个关键数据的操作;
当∑li<N时,及每个类别应选的关键数据数的总和小于既定的关键数N,t=N-∑li,将不同类别按照关键数据个数降序排列,对前t个类别进行每个类别增加一个关键数据的操作;
当存在某一类别关键数据个数为0时,则增加一个关键数据,同时将当前关键数据最多的类别减少一个关键数据。
3.根据权利要求2所述的基于类别平衡的数据清洗方法,其特征在于:步骤D中,对每个子集进行数据清洗操作包括以下步骤,
D1、当li小于子集中关键数据的特征类别数量,且子集中关键数据数量大于关键数据的特征类别数量时,使用关键数据的特征构造特征矩阵,对特征矩阵进行正交变换,然后将特征矩阵的协方差矩阵进行特征分解,得到投影坐标系,使用投影坐标系对特征矩阵进行投影降维,然后选取贡献率大于设定阈值的主成分作为清洗后的关键数据;当子集中关键数据数量小于关键数据的特征类别数量时,对关键数据进行若干次聚类处理,每次聚类选取若干个特征类别,选取的特征类别数量小于关键数据数量,根据选取的特征类别与关键数据的关联度进行聚类,记录每次聚类处理产生的孤立关键数据,最后按照记录次数对关键数据进行降序排列,从记录次数最多的关键数据开始删除,直至达到预设的清洗比例;
D2、当li大于子集中关键数据包含的特征类别数量时,在每一个特征中提取一个关键数据,特征选择顺序随机生成,循环若干次,直至li小于子集中关键数据包含的特征类别数量后,转至步骤D1进行处理。
4.根据权利要求3所述的基于类别平衡的数据清洗方法,其特征在于:步骤E中,对关键数据进行补全包括以下步骤,
E1、当特征类别大于关键数据数量时,在数据清洗之后生成的最终关键数据集中包含数据量最大的若干个特征类别中选取关键数据进行补全;
E2、当特征类别小于关键数据数量时,按照预设标准选取关键数据进行补全。
5.根据权利要求4所述的基于类别平衡的数据清洗方法,其特征在于:步骤E1中,使用的特征类别的数量的确定原则为,
将特征类别按照数据量的多少降序排列,在保证选取关键数据的相关性小于设定阈值且使用的特征类别最少的前提下,从数据量最多的特征类别开始提取关键数据。
6.根据权利要求4所述的基于类别平衡的数据清洗方法,其特征在于:步骤E2中,所述预设标准为,
选取的关键数据之间的相关性小于设定阈值,且选取的关键数据与现有关键数据之间的相关性小于选取的关键数据之间的相关性。
CN202210668659.9A 2022-06-14 2022-06-14 一种基于类别平衡的数据清洗方法 Active CN114996256B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210668659.9A CN114996256B (zh) 2022-06-14 2022-06-14 一种基于类别平衡的数据清洗方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210668659.9A CN114996256B (zh) 2022-06-14 2022-06-14 一种基于类别平衡的数据清洗方法

Publications (2)

Publication Number Publication Date
CN114996256A true CN114996256A (zh) 2022-09-02
CN114996256B CN114996256B (zh) 2023-01-10

Family

ID=83034767

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210668659.9A Active CN114996256B (zh) 2022-06-14 2022-06-14 一种基于类别平衡的数据清洗方法

Country Status (1)

Country Link
CN (1) CN114996256B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130097103A1 (en) * 2011-10-14 2013-04-18 International Business Machines Corporation Techniques for Generating Balanced and Class-Independent Training Data From Unlabeled Data Set
CN106055613A (zh) * 2016-05-26 2016-10-26 华东理工大学 一种基于混合范数的数据分类训练数据库清洗方法
CN108062563A (zh) * 2017-12-12 2018-05-22 华东理工大学 一种基于类别均衡的代表样本发现方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130097103A1 (en) * 2011-10-14 2013-04-18 International Business Machines Corporation Techniques for Generating Balanced and Class-Independent Training Data From Unlabeled Data Set
CN106055613A (zh) * 2016-05-26 2016-10-26 华东理工大学 一种基于混合范数的数据分类训练数据库清洗方法
CN108062563A (zh) * 2017-12-12 2018-05-22 华东理工大学 一种基于类别均衡的代表样本发现方法

Also Published As

Publication number Publication date
CN114996256B (zh) 2023-01-10

Similar Documents

Publication Publication Date Title
CN106776538A (zh) 企业非标准格式文档的信息提取方法
CN112732583B (zh) 一种基于聚类和多种群遗传算法的软件测试数据生成方法
Bicego et al. Biclustering of expression microarray data with topic models
CN107193915A (zh) 一种企业信息分类方法及装置
CN101404033A (zh) 本体层级结构的自动生成方法及系统
CN111428733A (zh) 基于语义特征空间转换的零样本目标检测方法及系统
CN110119355B (zh) 一种基于知识图谱向量化推理通用软件缺陷建模方法
CN111338950A (zh) 一种基于谱聚类的软件缺陷特征选择方法
CN113516228A (zh) 一种基于深度神经网络的网络异常检测方法
CN111833310A (zh) 一种基于神经网络架构搜索的表面缺陷分类方法
CN115185732A (zh) 一种融合遗传算法和深度神经网络的软件缺陷预测方法
CN116755753A (zh) 一种基于代码语言模型的程序缺陷自动修复方法及系统
CN111341390A (zh) 定量构效关系辅助匹配分子对分析方法
CN112306731B (zh) 基于Spacy词向量的两阶段判别缺陷报告严重程度预测方法
CN111737694B (zh) 一种基于行为树的恶意软件同源性分析方法
CN114996256B (zh) 一种基于类别平衡的数据清洗方法
CN112488188A (zh) 一种基于深度强化学习的特征选择方法
CN116796326A (zh) 一种sql注入检测方法
CN115296851B (zh) 一种基于互信息与灰狼提升算法的网络入侵检测方法
Wang et al. A new method for redundancy analysis in feature selection
CN116185684A (zh) 一种服务器故障根因分析模型的构建方法及应用
Le et al. Optimizing genetic algorithm in feature selection for named entity recognition
CN115080982A (zh) 一种针对漏洞检测模型的组合对抗攻击方法
CN114169542A (zh) 用于不完整数据分类的集成学习树构建方法
CA2494799A1 (en) Method for clustering decision trees in data classifiers

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant