CN112990277A

CN112990277A - 一种不平衡数据的分类及数据不平衡特征的选取方法

Info

Publication number: CN112990277A
Application number: CN202110203597.XA
Authority: CN
Inventors: 詹爱军; 张婷; 单君忆; 黄文博
Original assignee: Yangzhou Qiandai Technology Co ltd
Current assignee: Yangzhou Qiandai Technology Co ltd
Priority date: 2021-02-23
Filing date: 2021-02-23
Publication date: 2021-06-18

Abstract

本发明涉及一种不平衡数据的分类及数据不平衡特征的选取方法，S1，在采集的数据样本中采用有放回的随机抽样的方式多次采样稀释负类样本，将每次抽取的负类样本和全部的正类样本组成多个新的样本集，使其当中正负类别的样本数目相当；S2，对样本集进行选择，基于随机森林子空间分类即不平衡数据的分类来选择相关性特征；S3，将上一步选出的特征子集合并成一个特征合集；S4，统计特征合集中各个特征出现的次数形成数据集，并根据其特点设定出现频率的阈值，出现次数超过该阈值的特征就认为是好的特征，其余的特征认为是不好的特征。该发明提高了特征选取的精度，能更好的体现出数据样本所反映出的问题。

Description

一种不平衡数据的分类及数据不平衡特征的选取方法

技术领域

本发明涉及数据处理技术，尤其是一种不平衡数据的分类及数据不平衡特征的选取方法。

背景技术

在如今数据化的时代，每个机构都会产生不同的数据，不同的机构都在频繁进行与相关的检验、检测，尤其是在政府监管机构之间，相同的机构但由于所处地方的不同，机构之间是相互独立的，数据不能共享，造成资源浪费，也不能通过大数据进行动态的监测并及时分析、跟踪、评估，进行趋势分析从而降低风险。在这些数据之中，相对平衡化的数据集容易进行分类分析，而不平衡的数据则是通过不同方式将其平衡化来进行分类分析，比如欠采样方法、过采样方法、代价敏感方法等，由于采样方法的不同，欠采样的方法会减弱对负类有影响力的特征集合的能力，在存有明显噪音的情况下，能达到不错的效果，在没有噪音存在的情况下，就不能准确的对数据进行分类选取；过采样方法一方面容易造成分类算法过拟合，另外一方面，因为数据量的增加，会导致训练时间的延长，不利于其分类选取使用；而代价敏感方法必须事先就确定好错误分类的代价值，这在实际操作当中也是很难预知，另外一方面，代价敏感学习会比较容易导致模型的学习过度拟合，这些方法都会造成特征选取的精度偏差，从而影响到数据的准确性，不能很好的体现出数据样本所反映出的特征。

发明内容

针对现有的不足，本发明提供一种不平衡数据的分类及数据不平衡特征的选取方法。

本发明解决其技术问题所采用的技术方案是：一种数据不平衡特征的选取方法，包括以下步骤:

S1，在采集的不平衡的数据样本中采用有放回的随机抽样的方式多次采样稀释负类样本，将每次抽取的负类样本和全部的正类样本组成多个新的样本集，使得每一个新的样本集中的正负类别的样本数目相当；

S2，对多个新的样本集基于相关性的特征选择方法进行选择，选出多个好的特征子集，所述相关性的特征选择是基于随机森林子空间分类选择的，其步骤如下：

S2a，预先采样出三个集合的样本作为树模型相似性度量的验证集合V1、V2、V3，且三个验证集合V1、V2、V3都不参与Bagging和树模型的建立；

S2b，通过随机森林算法生成树模型合集；

S2c，设定树分类强度AUC阈值，根据分类强度度量指标从生成的树模型合集中选取高于阈值的树模型合集，并从决策森林中删除那些低于AUC阈值的树模型合集；

S2d，设定树相似性度量的阈值，并将上一步骤中选取的树模型合集根据相似度指标计算任意两棵树模型在验证集合V1、V2、V3上一致性分类的比例，得出这两棵树模型的相似性，删除那些高于相似度阈值的成对的树模型合集中分类强度较低的那个树模型，得出最终的树模型合集；

S3，将选出的多个特征子集合并成一个好的特征合集；

S4，统计特征合集中各个特征出现的次数来形成数据集，并根据数据集的特点设定出现频率的阈值，出现次数超过这个阈值的特征就认为是好的特征，其余的特征认为是不好的特征。

作为优选，所述相似性的计算是通过如下公式来表征的：

其中A表示树模型A，B表示树模型B，a表示树模型的数量。

作为优选，所述验证集合V1、V2、V3均是OOB集合。

作为优选，所述步骤S3的特征合集中还包括有从步骤S2中未选出的不好的特征子集，并通过选出的好的特征子集和未选出的不好的特征子集按相同比例抽取样本合成。

一种不平衡数据的分类方法，步骤如下：

a，预先采样出三个集合的样本作为树模型相似性度量的验证集合V1、V2、V3，且三个验证集合V1、V2、V3都不参与Bagging和树模型的建立；

b，通过随机森林算法生成树模型合集；

c，设定树分类强度AUC阈值，根据分类强度度量指标从生成的树模型合集中选取高于阈值的树模型合集，并从决策森林中删除那些低于AUC阈值的树模型合集；

d，设定树相似性度量的阈值，并将上一步骤中选取的树模型合集根据相似度指标计算任意两棵树模型在验证集合V1、V2、V3上一致性分类的比例，得出这两棵树模型的相似性，删除那些高于相似度阈值的成对的树模型合集中分类强度较低的那个树模型，得出最终的树模型合集。

作为优选，所述相似性的计算是通过如下公式来表征的：

其中A表示树模型A，B表示树模型B，a表示树模型的数量。

作为优选，所述验证集合V1、V2、V3均是OOB集合。

本发明的有益效果在于：该发明通过有放回的多次循环采样降低负类样本的规模所带来的对特征选取的影响，使得采样出来的负类样本和原有数据的正类样本组成比较平衡的数据子集，就极大的提高了正类样本参与有效特征选取的概率，稀释了负类样本的数据使得其在每个样本集中和正类样本在参与特征选取中是作为同等性的考量，产生的多个样本集就使得正类样本在很大程度上能够被特征选取，同时负类样本的处理也不会减弱特征选取中对负类有影响力的特征集合的能力，提高了特征选取的精确度，不平衡数据的分类全面完善，能更好的体现出数据样本所反映出的问题。

附图说明

图1是本发明不平衡特征选取方法的流程示意图；

图2是本发明不平衡数据分类的流程示意图；

图3是本发明基于分层抽样的方法示意图；

图4是本发明相似度度量的流程示意图。

具体实施方式

为了更清楚地说明本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图及实施例对本发明作进一步说明，进行清楚、完整的描述，显然，所描述的实施例是本发明的部分实施例，而不是全部实施例。基于本发明的实施例，本领域普通技术人员在没有付出创造性劳动的前提下所获得的所有其他实施例，都属于本发明的保护范围。

本发明实施例如图1中所示，一种数据不平衡特征的选取方法，包括以下步骤:

S1，在采集的不平衡的数据样本中采用有放回的随机抽样的方式多次采样稀释负类样本，在通常对于用于二类分类的不平衡数据中，其中就包含正负两类，正类样例很少而负类样例相当多，为了选出不平衡数据中对正类样本影响较大的特征，通过有放回的多次循环采样就降低了负类样本的规模，进而降低了其在所有样本中的比例，从而降低其所带来的对特征选取的影响，将每次抽取的负类样本和全部的正类样本组成多个新的样本集，使得每一个新的样本集中的正负类别的样本数目相当，这样就是基于bagging的集成特征选择，通过对负类样本采样，让采样出来的负类样本数量与正类样本数量相等，就使得采样出来的负类样本和原有数据的正类样本组成了比较平衡的数据子集，就极大的提高了正类样本参与有效特征选取的概率，在Bagging的多次采样过程中正类样例是全部参与到Bag子集中去的，就达到了如下的一种效果，稀释了负类样本的数据使得其在每个bag中和正类样本在参与特征选取中是作为同等性的考量，产生多个Bag的结果就使得正类样本很大程度上能够被特征选取，同时综合考量采样的负类样例也不会减弱算法选取对负类有影响力的特征集合的能力，经过上述装袋采样的过程后，就会生成一系列的平衡化的数据子集；

S2，对多个新的样本集基于相关性的特征选择方法进行选择，选出多个好的特征子集，它们就用来作为特征选取的输入的训练样本集，所述相关性的特征选择是基于随机森林子空间分类选择的，也就是不平衡数据的分类，如图2中所示，随机森林是由多个分类决策树组成的分类器，每一个分类器中采用的独立同分布的随机向量决定了树的生长过程，并由所有树的多数表决结果来决定最后模型的输出结果。此时从原始的训练集(数据样本)中有放回地随机采样一部分数据子集作为训练子空间(新的样本集)，然后在这个随机子空间上建树，这个建树过程当中，每一次的特征选取都是基于随机选取的特征子空间来进行的，特征选取是基于信息增益度量指标来做的，最后就形成一个决策树模型(特征子集)，而最终的训练模型决策森林(特征合集)则可以认为是这些树模型的合集，分类结果则是由多数树模型的分类结果来决定的。原始的随机森林在生成多个树模型后，最终的森林是集成所有树模型来组成的，可以看到，这个森林集合中树模型之间是有一定的差异性的，主要是因为两个因素：第一，前期的数据层次的有放回采样引入了随机因素；第二，每棵树的分裂过程的子空间选取也引入了随机因素，这些差异性的引入就保证了森林模型内部的树模型能够学习到分布在不同范围领域的数据规律，更精确更全面的体现出数据样本体现出来的特征及趋势，便于人们通过数据不平衡特征更好的进行预判，其步骤如下：

S2a，预先采样出三个集合的样本作为树模型相似性度量的验证集合V1、V2、V3，且三个验证集合V1、V2、V3都不参与Bagging和树模型的建立的，这样在衡量树模型中两棵树之间的相似性时，只需要看这两棵树在这三个预先取出来的数据集合之下的表现是否一致即可，如果两个树结构相似，那么这两个树在任何数据集上的分类效果都是相差无几的，反过来，如果两棵树在一个数据集上的分类效果相似，是不能推出这两棵树是相似的，因为不同结构的树很有可能能够产生相同的分类结果，但是在这两棵树同时在三个随机采样的数据集上都表现类似时，那么这两棵树就是相似的；

S2b，通过随机森林算法生成树模型合集；

S2c，设定树分类强度AUC阈值，根据分类强度度量指标从生成的树模型合集中选取高于阈值的树模型合集，并从决策森林中删除那些低于AUC阈值的树模型合集，对每个树模型来讲，它的训练集称为In-Bag集合，而训练集中剩余的样本组成的集合称为OOB(Out-Of-Bag)集合，OOB集合因为未参与这个树模型的训练，就成为了天然的树模型验证集，就可以根据树模型在OOB之上的AUC指标来衡量当前树模型对于不平衡数据的分类效果，然后从决策森林中删除那些低于AUC阈值的树模型，优选验证集合V1、V2、V3均是OOB集合；

S2d，设定树相似性度量的阈值，并将上一步骤中选取的树模型合集根据相似度指标计算任意两棵树模型在验证集合V1、V2、V3上一致性分类的比例，得出这两棵树模型的相似性，删除那些高于相似度阈值的成对的树模型合集中分类强度较低的那个树模型，得出最终的树模型合集，如图4中所示，其相似性的计算则是通过如下公式来表征的：

其中A表示树模型A，B表示树模型B，a表示树模型的数量；

S3，将选出的多个特征子集合并成一个好的特征合集，这个合集中就包括所有的装袋子集中被选取的特征，可能会有重复出现的特征；

S4，统计特征合集中各个特征出现的次数来形成数据集，并根据数据集的特点设定出现频率的阈值，出现次数超过这个阈值的特征就认为是好的特征，其余的特征认为是不好的特征，如果某个特征在这个合集中经常出现，那么可以认为这个特征对不平衡数据的分类效果是有积极作用的，那么我们首先可以统计特征合集中各个特征出现的次数，认为出现次数越多，特征就越重要，可以根据数据集的特点来设定一个出现频率阈值，出现次数超过这个阈值的特征就认为是好的特征，其余的特征认为是不好的特征。在实际应用中输入不平衡数据集，然后通过设置装袋次数以及特征频率阈值，执行上述集成特征选择方法，就可以选择出所需要的特征子集，特征选取的精确度更高，就更好的体现出了数据样本所反映出的问题。

进一步的改进，所述步骤S3的特征合集中还包括有从步骤S2中未选出的不好的特征子集，并通过选出的好的特征子集和未选出的不好的特征子集按相同比例抽取样本合成。如图3中所示，这样就形成一种分层特征抽样方法，此时由特征选择方法筛选出的好的特征子集为A，剩下的特征子集认为是不好的特征子集B，假定A中特征数目为a，B中特征数目为b，那么基准特征合集就可以分别从A和B中按比例抽取组合而成，假定需要采样的基准特征数目为K个，在A集合中采样K*(a/a+b)个特征，从B集合中采样K*(a/a+b)个特征，将这两组采样的特征组合起来形成最终的基准特征合集，然后再在这个基准特征合集之上采取属性选择的度量指标去选取一个最好的特征来作为当前树模型的分裂点。这样每次采样都能够保证选取到对不平衡数据分类效果好的特征，从坏的特征子集中也进行采样是为了保证所建立的树和树之间存在一定程度上的差异性，有利于模型的融合，更适合于高维数据的分类选取。

应当理解的是，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种数据不平衡特征的选取方法，其特征在于：步骤如下：

S2b，通过随机森林算法生成树模型合集；

S3，将选出的多个特征子集合并成一个好的特征合集；

2.根据权利要求1所述数据不平衡特征的选取方法，其特征在于：所述相似性的计算是通过如下公式来表征的：

其中A表示树模型A，B表示树模型B，a表示树模型的数量。

3.根据权利要求1所述数据不平衡特征的选取方法，其特征在于：所述验证集合V1、V2、V3均是OOB集合。

4.根据权利要求1所述数据不平衡特征的选取方法，其特征在于：所述步骤S3的特征合集中还包括有从步骤S2中未选出的不好的特征子集，并通过选出的好的特征子集和未选出的不好的特征子集按相同比例抽取样本合成。

5.一种不平衡数据的分类方法，其特征在于：步骤如下：

b，通过随机森林算法生成树模型合集；

6.根据权利要求5所述不平衡数据的分类方法，其特征在于：所述相似性的计算是通过如下公式来表征的：

其中A表示树模型A，B表示树模型B，a表示树模型的数量。

7.根据权利要求5所述不平衡数据的分类方法，其特征在于：所述验证集合V1、V2、V3均是OOB集合。