CN114996256B

CN114996256B - 一种基于类别平衡的数据清洗方法

Info

Publication number: CN114996256B
Application number: CN202210668659.9A
Authority: CN
Inventors: 周海波; 王占立; 唱立斌; 吴宗培; 于宁宁; 褚立明
Original assignee: Orient Lianxin Technology Co ltd
Current assignee: Orient Lianxin Technology Co ltd
Priority date: 2022-06-14
Filing date: 2022-06-14
Publication date: 2023-01-10
Anticipated expiration: 2042-06-14
Also published as: CN114996256A

Abstract

本发明公开了一种基于类别平衡的数据清洗方法，包括以下步骤：A、用户输入需要抽取关键数据的数据集D以及需要的关键数据的个数N，将数据集D在每个类别中按照2:1的比例划分训练集

和测试集；B、计算每个类别中应选出关键数据的个数；C、对数据集D进行含缺失值样本的删除、按类别对异常样本进行删除，并进行归一化操作，消除因量纲不同带来的影响，并按类别划分子集；D、对每个子集进行数据清洗操作，选取规定数量的关键数据，构成最终关键数据集；E、对关键数据进行补全。本发明能够改进现有技术的不足，能够实现精确清洗并得到关键数据，对于人工智能和机器学习技术有着重要意义。

Description

一种基于类别平衡的数据清洗方法

技术领域

本发明涉及数据处理技术领域，尤其是一种基于类别平衡的数据清洗方法。

背景技术

随着经济的发展，社会的进步，信息化技术已在各行各业中普及应用并且快速的更新换代。并且随着信息量的激增，迎来了大数据及人工智能的时代。在这个时间即是宝贵财富的时代，如何快速处理大规模的数据及如何从海量数据中快速且准确的提取重要信息则是目前的研究热点。

对于分类任务而言，所使用的训练集的质量是至关重要的，它的大小、所包含的数据都会影响到学习器的性能。噪声数据和缺失数据都会使学习模型的分类正确率降低，冗余数据虽不会极大程度的影响分类模型中决策边界的构建，但是会增加训练的时间。

发明内容

本发明要解决的技术问题是提供一种基于类别平衡的数据清洗方法，能够解决现有技术的不足，能够实现精确清洗并得到关键数据，对于人工智能和机器学习技术有着重要意义。

为解决上述技术问题，本发明所采取的技术方案如下。

一种基于类别平衡的数据清洗方法，包括以下步骤：

A、用户输入需要抽取关键数据的数据集D以及需要的关键数据的个数N，将数据集D在每个类别中按照2∶1的比例划分训练集D₁和测试集；

B、计算每个类别中应选出关键数据的个数；

C、对数据集D进行含缺失值样本的删除、按类别对异常样本进行删除，并进行归一化操作，消除因量纲不同带来的影响，并按类别划分子集；

D、对每个子集进行数据清洗操作，选取规定数量的关键数据，构成最终关键数据集；

E、对关键数据进行补全。

作为优选，步骤B中，计算每个类别中应选出关键数据的个数包括以下步骤：

l_i＝[x_i*N/N₀]，其中l_i为第i个类别中关键据数，x_i为第i个类别的样本数，N₀为训练集D₁中的样本数；

当∑l_i＞N时，及每个类别应选的关键数据数的总和大于既定的关键数N，t＝∑l_i-N，将不同类别按照关键数据个数降序排列，对前t个类别进行每个类别减少一个关键数据的操作；

当∑l_i＜N时，及每个类别应选的关键数据数的总和小于既定的关键数N，t＝N-∑l_i，将不同类别按照关键数据个数降序排列，对前t个类别进行每个类别增加一个关键数据的操作；

当存在某一类别关键数据个数为0时，则增加一个关键数据，同时将当前关键数据最多的类别减少一个关键数据。

作为优选，步骤D中，对每个子集进行数据清洗操作包括以下步骤：

D1、当l_i小于子集中关键数据的特征类别数量，且子集中关键数据数量大于关键数据的特征类别数量时，使用关键数据的特征构造特征矩阵，对特征矩阵进行正交变换，然后将特征矩阵的协方差矩阵进行特征分解，得到投影坐标系，使用投影坐标系对特征矩阵进行投影降维，然后选取贡献率大于设定阈值的主成分作为清洗后的关键数据；当子集中关键数据数量小于关键数据的特征类别数量时，对关键数据进行若干次聚类处理，每次聚类选取若干个特征类别，选取的特征类别数量小于关键数据数量，根据选取的特征类别与关键数据的关联度进行聚类，记录每次聚类处理产生的孤立关键数据，最后按照记录次数对关键数据进行降序排列，从记录次数最多的关键数据开始删除，直至达到预设的清洗比例；

D2、当l_i大于子集中关键数据包含的特征类别数量时，在每一个特征中提取一个关键数据，特征选择顺序随机生成，循环若干次，直至l_i小于子集中关键数据包含的特征类别数量后，转至步骤D1进行处理。

作为优选，步骤E中，对关键数据进行补全包括以下步骤：

E1、当特征类别大于关键数据数量时，在数据清洗之后生成的最终关键数据集中包含数据量最大的若干个特征类别中选取关键数据进行补全；

E2、当特征类别小于关键数据数量时，按照预设标准选取关键数据进行补全。

作为优选，步骤E1中，使用的特征类别的数量的确定原则为：

将特征类别按照数据量的多少降序排列，在保证选取关键数据的相关性小于设定阈值且使用的特征类别最少的前提下，从数据量最多的特征类别开始提取关键数据。

作为优选，步骤E2中，所述预设标准为：

选取的关键数据之间的相关性小于设定阈值，且选取的关键数据与现有关键数据之间的相关性小于选取的关键数据之间的相关性。

采用上述技术方案所带来的有益效果在于：本发明针对于分类任务，提出了类别平衡的概念，从而保证抽取的关键数据的类别样本数占比与原始数据集中的一致，从而解决不平衡数据集所产生的误分问题。在数据清洗过程中，根据数据的不同状态设计了不同的清洗流程，有效的去除了数据中的噪声干扰，提高了后续数据处理的正确率。

附图说明

图1是本发明一个具体实施方式的原理图。

具体实施方式

参照图1，本发明一个具体实施方式包括以下步骤：

A、用户输入需要抽取关键数据的数据集D以及需要的关键数据的个数N，将数据集D在每个类别中按照2:1的比例划分训练集D₁和测试集；

B、计算每个类别中应选出关键数据的个数；

E、对关键数据进行补全。

步骤B中，计算每个类别中应选出关键数据的个数包括以下步骤：

步骤D中，对每个子集进行数据清洗操作包括以下步骤：

步骤E中，对关键数据进行补全包括以下步骤：

步骤E1中，使用的特征类别的数量的确定原则为：

步骤E2中，所述预设标准为：

数据清洗效果验证

在本方法的方法验证部分，选择了环保行业12个主要污染行业数据集。数据集描述如下。

表1

数据集名称	数据集长	维数	类数
				钢铁行业数据集	35000	5	4
玻璃行业数据集	35000	5	4
				焦化行业数据集	35000	5	4
煤炭行业数据集	35000	5	4
				制药行业数据集	35000	5	4
制革行业数据集	35000	5	4
				印染行业数据集	35000	5	4
玻璃行业数据集	35000	5	4
				水泥行业数据集	35000	5	4
电力行业数据集	35000	5	4
				垃圾焚烧行业数据集	35000	5	4
污水治理行业数据集	35000	5	4

选择5个常见的分类器进行方法验证：朴素贝叶斯、决策树、决策表、提升算法、支持向量机，使用分类正确率作为性能评估指标。方法验证中使用的数据集，同样需要在类别中按2:1的比例划分为训练集D₁和测试集D₂，本方法的数据清洗工作在训练集D₁中进行。由于本方法中需要用户输入关键数据的个数N，因此在本方法验证环节中设置N的个数为3倍的维数(3*F_N)，即按最大Max_S、最小Min_S、平均Mean_S三种标准各选择3*F_N个关键数据。最后，将按三个标准选择到的关键数据集合进行合并，得到最终关键数据集合RS，具体的样本数量见表2。在方法验证正确率评估过程中，将分别对比4种关键数据集Max_S、Min_S、Mean_S和合并后的关键数据集RS的分类正确率，以及4种关键集的结果中最高的一个与原始训练集D₁的对比结果，从而验证方法的可行性。下表为样本量对比，RS关键数据集的数量是由最大Max_S、最小Min_S、平均Mean_S的3种样本集合并所得。

表2

数据集名称	训练集D<sub>1</sub>	关键数据集	关键数据数
				钢铁行业数据集	28179	18268	6089
玻璃行业数据集	25727	13361	4454
				焦化行业数据集	26932	14269	4756
煤炭行业数据集	27712	17242	5747
				制药行业数据集	29833	19289	6429
制革行业数据集	22591	11249	3749
				印染行业数据集	21304	13482	4494
玻璃行业数据集	20081	15253	5084
				水泥行业数据集	23145	13368	4456
电力行业数据集	23432	17432	5810
				垃圾焚烧行业数据集	19933	11831	3943
污水治理行业数据集	12680	10386	3462

下表给出在5个分类器上D₁及4种关键数据集中所得到的最高的分类正确率的对比结果。方法验证结果较好的是在朴素贝叶斯分类器上有7个数据集使用关键数据集作为训练集后的分类正确率有所提升，其次是决策树分类器上有5个；效果较为不明显的是支持向量机分类器上只有3个数据集在经本方法后分类正确率有所提升，但就整体结果而言都可初步判定本方法是可行的。其原因是本方法选择的关键数据集去除了大量噪声数据对分类预测的干扰，从而证明了本方法的有效性。

表3

下表为5个分类器的效率对比，在这些数据集上的方法验证可证明本方法是有效的，没有任何一个的效率值低于1。并且在污水治理行业、水泥行业、钢铁行业、焦化行业这4个数据集上的表现是非常好的，效率达到了五十倍以上。原因由表2的训练样本量及表3的分类正确率可知，训练样本的大量减少，同时分类正确率近乎不变、甚至有所提升，因此，分类效率得到了极大的提升，说明本方法可以提升分类任务中的学习性能。其次，在五个分类器中，对于同一个数据集的效率对比，朴素贝叶斯较其他的四个分类器获得的表现更为优秀，可认为本方法对于朴素贝叶斯分类器能获得更好的分类效果。最后，经效率分析结果的显示，本方法达到了预期的目标。

表4

在本发明的描述中，需要理解的是，术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于类别平衡的数据清洗方法，其特征在于包括以下步骤：

B、计算每个类别中应选出关键数据的个数；包括以下步骤，

当存在某一类别关键数据个数为0时，则增加一个关键数据，同时将当前关键数据最多的类别减少一个关键数据；

对每个子集进行数据清洗操作包括以下步骤，

D2、当l_i大于子集中关键数据包含的特征类别数量时，在每一个特征中提取一个关键数据，特征选择顺序随机生成，循环若干次，直至l_i小于子集中关键数据包含的特征类别数量后，转至步骤D1进行处理；

E、对关键数据进行补全。

2.根据权利要求1所述的基于类别平衡的数据清洗方法，其特征在于：步骤E中，对关键数据进行补全包括以下步骤，

3.根据权利要求2所述的基于类别平衡的数据清洗方法，其特征在于：步骤E1中，使用的特征类别的数量的确定原则为，

4.根据权利要求2所述的基于类别平衡的数据清洗方法，其特征在于：步骤E2中，所述预设标准为，