CN108062563A

CN108062563A - 一种基于类别均衡的代表样本发现方法

Info

Publication number: CN108062563A
Application number: CN201711316558.0A
Authority: CN
Inventors: 袁玉波; 顾依依; 谈询滔; 阮彤
Original assignee: East China University of Science and Technology
Current assignee: East China University of Science and Technology
Priority date: 2017-12-12
Filing date: 2017-12-12
Publication date: 2018-05-22

Abstract

本方法公开了一种基于类别均衡的代表样本发现方法。在确保智能分类系统分类准确率的条件下，以提升机器学习的效率为目标。本方法核心技术包括：第一、候选样本集合预处理及分割方法，将用户给出的数据库进行预处理，包括缺失值、异常值的处理和数据集合预切割；第二、代表样本数量分配，给出类别均衡的定义并分配代表样本个数；第三、多标准选择代表，按照最大、最小和平均三种标准进行选举代表样本工作。此方法在保持分类准确率基本不变的情况下，有效地减少智能分类系统建模时间和内存空间。为了验证方法有效性，选择了5类智能分类算法在25个UCI数据库上展开试验，结果说明本方法选择得到了有意义的代表样本。

Description

一种基于类别均衡的代表样本发现方法

技术领域

本发明主要涉及人工智能技术，具体涉及一种基于类别均衡的代表样本发现方法。

背景技术

随着经济的迅速发展，科技的不断进步，现实世界中各个方面的数据量呈爆炸式增长，迎来了当今的大数据时代。在此背景下，有关数据驱动的各种智能系统的设计和研究成为当今的热点，尤其是人工智能以及其核心技术机器学习，备受瞩目。传统的数据处理技术已经无法应用在大规模数据之上，因此要对处理技术做出改进，以适应时代的变化。但当移动终端时代的来临，对数据的规模有了十分严格的要求，要尽量的少，包含的信息要足够全，以保证智能系统的速度足够快。因此，为了提升智能系统的性能，就要提升训练样本的质量，应用于智能系统的样本应该少而精。在此问题的驱动下，本文的研究目标是提出有效地发现高质量的代表样本的方法。

本方法是基于类别均衡的一种样本发现方法。首先，给出类别均衡的定义公式，

其中，N是用户给定的总代表数，N₀是总样本数，k是数据集包含的类别个数，x_i是第i类样本数，l_i是第i类代表数。上式表述了总代表以及总样本的构成。

上式为本方法中类别均衡的定义公式，它表述了每个类别的样本数与代表数的比值应近似相等，并且近似等于总样本数与总代表数的比值。通过此类别均衡的公式，确定的每个类别应选的代表样本的个数，最终选到的总代表样本，包含了原始数据集中的每个类别，并且保持了原始数据集中类别比例的结构，可以更好地代表原始数据集。

代表样本的发现方法是基于日常选举代表人员的思想来设计实现的。在现实生活中，我们要选出若干个代表去参加一个会议，可以根据参选人员的收入选择收入较高的、中等的、较低的去参加会议；也可以选择年龄中较大、适中的、较小的去参加会议。其中，收入和年龄就相当于数据集中的属性，而较高、中等、较低则为在属性中选择样本的标准。因此，本文的代表样本发现方法，则是在某些属性中按照最大、最小、平均这三个标准进行样本的选择工作。

在样本的与预处理过程中，对异常值的处理通常是直接将含有异常值的记录剔除，但在去除含异常值的记录前，首先需要明确哪些是异常值。一般可以选择箱型图对数据集进行异常值的分析，其好处是不需要数据服从某种特定的分布，它是根据实际的数据来绘制箱型图的。箱型图主要包含上边缘、上四分位数Q1、中位数、下四分位数Q2、下边缘、异常值，这六个结点，其中异常值被定义为大于Q1+1.5IQR或小于Q2-1.5IQR，IQR为四分位距。由此可知，箱型图判断异常值以四分位数和四分位距为标准。因为四分位数不会受到异常值的干扰，所以四分位数具有一定的耐抗性，使得用箱型图来识别异常值会比较客观。

进行特征选择或特征降维的工作一般选用主成分分析法，即PCA。通常，现实世界中的数据所构建的数据集，包含的大多数属性之间是具有一定的相关性。PCA就是去除这些属性中信息重叠的部分，合并得到新的属性，这些新属性之间两两不相关，并尽可能的保持原有的信息。其处理过程是，将原始的P个属性作线性组合F，选择一个或多个F用来代表原始的P个属性。F的方差越大，说明其包含的信息量越多。因此，按照F方差由大到小依次选择，并且每次选择的F不能包含已选择的F中的信息，直到选择到足以代表原始P个属性。本文的代表样本发现方法，就是将原始数据集利用PCA合成新的数据集，在合成的新属性中选择贡献度大的，按照标准在其中进行样本选择。

发明内容

本发明的目的在于提出一种基于类别均衡的代表样本发现方法。在基于类别均衡的概念上，通过代表选举的思想选择代表样本，使得在约减样本数量的同时，可以完整的代表原始数据集的特征。

本发明的技术方案如下：

步骤1，候选集合分割：对输入的数据库进行预处理，包括缺失值、异常值的处理和数据集合预切割。

对原始数据库进行预处理的方法为，直接删除含缺失值的记录，利用箱型图按照类别进行异常值的识别与删除，再按照类别划分子集。

步骤2，代表样本数量分配：给出类别均衡的定义，并根据用户给定的所需选取的代表样本个数，确定每个类别中应选出的代表样本个数。

其核心思想在于类别均衡的定义，定义公式如下：

其中，N是用户给定的所需选取的代表样本个数，N₀是原始数据库中总样本数，k是原始数据库包含的类别个数，x_i是第i类样本数，l_i是第i类代表数。已知N，N₀，x_i，可以根据上述公式计算得到在每个类别中应选出的代表样本的个数。

步骤3，代表样本选择：根据每个类别应选的代表个数，在相应的类别子集中，按照三种标准进行样本发现工作。

步骤3根据步骤2中确定的每个类别中应选的代表样本个数，在步骤1划分的子集中，在特征中按照最大、最小、平均三种标准来进行代表样本发现工作，在发现过程中，如果l_i小于特征的个数，那么将利用PCA合成新特征，在前l_i个特征中进行样本发现工作。如果在选择样本的过程中，存在选不到的样本，将会进行样本补全工作。最终，得到三组个数为用户给定的总代表数，并且是分别通过最大、最小、平均标准选出的代表样本，以及一组将这三组样本进行合并得到的代表样本。

附图说明

读者在参照附图阅读了本发明的具体实施方式以后，将会更清楚地了解本发明的各个方面。其中，

图1为本发明基于类别均衡的代表样本发现方法的流程图；

图2为25个原始训练样本数、合并后代表样本数、单一标准代表个数的数据量对比图；

图3为原始训练集、合并后代表样本、最大、最小、平均标准所得样本，在NaiveBayes分类器上的分类准确率对比图；

图4为原始训练集、合并后代表样本、最大、最小、平均标准所得样本，在J48分类器上的分类准确率对比图；

图5为原始训练集、合并后代表样本、最大、最小、平均标准所得样本，在DecisionTable分类器上的分类准确率对比图；

图6为原始训练集、合并后代表样本、最大、最小、平均标准所得样本，在AdaBoostM1分类器上的分类准确率对比图；

图7为原始训练集、合并后代表样本、最大、最小、平均标准所得样本，在LibSVM分类器上的分类准确率对比图；

图8为应用在五种分类算法上的效率分析图，效率的定义为：

其中代表样本量与代表样本准确率的值，是由25个数据集在对应的分类算法上所得分类准确率最高的一组代表样本所确定。

具体实施方式

对原始数据库进行预处理的方法为，直接删除含缺失值的记录，利用箱型图在每个类别的数据子集中，对每个属性进行异常值的识别，并删除识别到的异常值所在的记录；最后，按照类别划分子集。

其核心思想在于类别均衡的定义，定义公式如下：

其中，N是用户给定的所需选取的代表样本个数，N₀是原始数据库中总样本数，k是原始数据库包含的类别个数，x_i是第i类样本数，l_i是第i类代表数。已知N，N₀，x_i，可以根据上述公式计算得到在每个类别中应选出的代表样本的个数，即l_i的值。

步骤3根据步骤2中确定的每个类别中应选的代表样本个数，在步骤1划分的子集中，在特征中按照最大、最小、平均三种标准来进行代表样本发现工作。在发现过程中，(1)如果l_i<特征的个数F，(a)可供选择样本数>特征的个数时，利用PCA将可供选择的样本子集进行变换，合成新特征，在前l_i个新特征中通过最大、最小、平均三种标准选出三组l_i个样本号后，在原始数据集中根据样本号提取记录作为代表样本；(b)可供选择样本数<特征的个数时，判断所有可供选择样本之间两两的相关性，选择相关性最小的前l_i条记录作为代表样本。(2)如果l_i>特征的个数F，执行次如下操作：生成一个随机的特征选择顺序，根据这个顺序，在相应的特征中按最大、最小、平均三种标准分别选择代表样本F个，并在原始数据集中删除已选择的样本；对于最后一次不足F个代表样本发现工作，执行同(1)的操作。在步骤(1)(a)和(2)中所选择到的代表样本之间的相关性不满足强相关性的条件，即代表样本之间的相关性应小于0.8，若因相关性过大而选择不到样本，将进行样本补全工作。最终，得到三组个数为用户给定的总代表数，并且是分别通过最大、最小、平均标准选出的代表样本，以及一组将这三组样本进行合并得到的代表样本。

Claims

1.一种基于类别均衡的代表样本发现方法，其特征在于：对数据分类训练数据库进行样本发现工作时，进行了以下步骤，

步骤1，候选集合分割：对输入的数据库进行预处理，包括缺失值、异常值的处理和数据集合预切割；

步骤2，代表样本数量分配：给出类别均衡的定义，并根据用户给定的所需选取的代表样本个数，确定每个类别中应选出的代表样本个数；

2.根据权利要求1所述的基于类别均衡的代表样本发现方法，其特征在于：步骤1所述的对原始数据库进行预处理的方法为，直接删除含缺失值的记录，利用箱型图在每个类别的数据子集中，对每个属性进行异常值的识别，并删除识别到的异常值所在的记录；最后，按照类别划分子集。

3.根据权利要求1所述的基于类别均衡的代表样本发现方法，其特征在于：对类别均衡的概念给出了定义，其公式为：其中，N是用户给定的所需选取的代表样本个数，N₀是原始数据库中总样本数，k是原始数据库包含的类别个数，x_i是第i类样本数，l_i是第i类代表数；已知N，N₀，x_i，可以根据上述公式计算得到在每个类别中应选出的代表样本的个数，即l_i的值。

4.根据权利要求1所述的基于类别均衡的代表样本发现方法，其特征在于：在特征中按照最大、最小、平均三种标准来进行代表样本发现工作；在发现过程中，(1)如果l_i<特征的个数F，(a)可供选择样本数>特征的个数时，利用PCA合成新特征，在前l_i个新特征中通过最大、最小、平均三种标准选出三组个数为l_i的代表样本；(b)可供选择样本数<特征的个数时，判断所有可供选择样本之间的相关性，选择相关性最小的前l_i条记录作为代表样本；(2)如果l_i>特征的个数F，执行次如下操作：生成一个随机的特征选择顺序，在相应的特征中按最大、最小、平均三种标准分别选择代表样本F个；对于剩余的不足F个代表样本发现工作，执行同(1)的操作；在步骤(1)(a)和(2)中所选择到的代表样本之间的相关性不满足强相关性的条件，即代表样本之间的相关性应小于0.8，若因相关性过大而选择不到样本，将进行样本补全工作；最终，得到三组个数为用户给定的总代表数，并且是分别通过最大、最小、平均标准选出的代表样本，以及一组将这三组样本进行合并得到的代表样本。