CN111695626A

CN111695626A - 基于混合采样与特征选择的高维度不平衡数据分类方法

Info

Publication number: CN111695626A
Application number: CN202010524269.5A
Authority: CN
Inventors: 陈佐; 易善涛; 杨胜刚; 朱桑之; 谷浩然; 杨捷琳
Original assignee: Hunan Huda Jinke Technology Development Co ltd
Current assignee: Hunan Huda Jinke Technology Development Co ltd
Priority date: 2020-06-10
Filing date: 2020-06-10
Publication date: 2020-09-22
Anticipated expiration: 2040-06-10
Also published as: CN111695626B

Abstract

本发明公开了基于混合采样与特征选择的高维度不平衡数据分类方法，本发明首先通过融合多个过滤器从多角度对信用卡欺诈数据集的特征重要性进行度量和评估并删除无关特征，避免了单一过滤器进行特征选择时效果不佳的问题，再结合SVM‑RFE特征选择算法删除冗余特征，进一步寻找最优特征子集，有效提高分类结果的精度；然后对数据集进行混合采样以平衡数据集，最后利用Stacking策略融合多个基分类器，实现了数据精准分类。本发明有效提高了高维度不平衡数据分类精度和可靠性。

Description

基于混合采样与特征选择的高维度不平衡数据分类方法

技术领域

本发明涉及机器识别技术领域，具体涉及基于混合采样与特征选择的高维度不平衡数据分类方法及系统。

背景技术

近年来，伴随着互联网技术的快速兴起和信息化建设的蓬勃发展，以及移动智能终端的广泛应用，电子商务、社交网络、金融、医疗以及科学与工程界等诸多领域积累了大量的数据，呈现指数增长的发展趋势。海量数据的背后蕴含着丰富和宝贵的知识，因此如何从这些纷繁复杂的大规模数据中抽取有意义的、有价值的潜在信息将变得尤为重要。数据挖掘(Data Mining，DM)技术是指从大量的、复杂的、存在噪声干扰的以及具有随机性和不确定性的数据中通过相应算法进行知识获取的过程。常见的数据挖掘方法包括分类(classification)、回归(regression)、聚类(clustering)、关联规则(associationrules)、特征提取(feature extraction)等。其中，分类作为数据挖掘领域的挖掘任务中一种重要且有效的方式，通过对输入数据进行学习与分析，从而得到一个分类模型，并利用发现的规律对未知数据的类标签进行合理的判断和预测。

在数据挖掘和机器学习领域相关研究中，一个新出现的关键挑战是解决现实世界数据中所谓的“不平衡类”。类不平衡问题是指当数据集由一个或多个主要类(也可称为多数类)支配时发生的问题，这些主要类的实例数量明显多于数据中其他的稀有类(也可称为少数类)。通常，在数据分布不平衡的情况中，人们对学习数据中的稀有类别有更多的兴趣，因为稀有类别一般能反映重要的信息，对稀有类别分类错误带来的损失也更加严重。例如，在信用卡欺诈检测中，异常类别往往是很少见的类别，通常只有少数用户有欺诈行为。但是，对于公司而言，通过非法用户预测和防止欺诈交易很重要，将欺诈交易认定为合法交易的成本要远远高于将合法交易认定为欺诈交易的成本，因为在第一种情况下公司的经济损失要高得多。在现实世界的生产生活中，还可以观察到许多其他类似的不平衡数据分类问题示例，例如网络攻击识别、客户流失预测、地震预测、风险管理、医疗诊断等应用场景。伴随着大规模不平衡数据分类预测问题的涌现以及相应的解决需求，数据处理和分类的难度迅速上升，对分类性能提出了更高的要求。

大数据时代，数据采集技术的进步和数据存储容量的提高导致了具有成千上百的特征的高维数据集的出现。当数据集的维数较高时，类不平衡问题往往变得更加严重。高维数据的另一个问题是，在大多数情况下，所有特征对于查找数据集的关键信息都不是至关重要的。在这种情况下，特征选择通常对于学习算法而言必不可少，因为高维度数据的特征属性之间存在高度相关性和冗余性，高维数据所引发的维度灾难往往会降低大多数学习算法的训练效率以及模型分类效果。特征选择作为一种对高维数据进行分析的主要数据降维技术，通过依据某些准则从原始特征集合空间中选择有用特征的子集，可以有效应对高维挑战，提高数据分类准确率。尽管当前数据挖掘与机器学习领域已经针对特征选择方法进行了广泛的研究，但近年来人们才逐渐意识到它对于高维不平衡数据分类问题的重要性，而数据的不平衡性是影响分类模型性能的主要因素之一。在处理复杂高维度不平衡数据时，传统特征选择算法普遍表现不佳，难以有效挖掘数据中蕴含的信息。另外，虽然现有技术也出现了很多针对高维不平衡数据的分类算法，但是当前用于高维不平衡数据集的分类模型极易产生大量误报，具有较大的局限性。

发明内容

为了解决现有技术存在的缺陷，本发明提供了基于混合采样与特征选择的高维度不平衡数据分类方法。本发明通过解决高维特征问题以及数据均衡化处理，提高了分类模型的精准度和可靠性。

本发明通过下述技术方案实现：

基于混合采样与特征选择的高维度不平衡数据分类方法，该方法包括以下步骤：

步骤S1，获取原始不平衡数据集；

步骤S2，对原始不平衡数据集进行基于多过滤器融合和SVM-RFE的特征选择，得到最优特征子集；

步骤S3，对最优特征子集进行混合采样，得到均衡化分布的数据集；

步骤S4，对均衡化分布的数据集进行训练，利用集成学习策略的两层叠加框架，构建基于多模型融合集成学习的高维不平衡数据分类模型。

优选的，本发明通过融合多种不同的过滤器，组成相关特征子集，然后再相关特征子集的基础上进行冗余性分析，剔除冗余特征，得到最优特征子集，为后续的模型训练提供更加精准的训练数据集。本发明的步骤S2具体包括：

步骤S21，对原始不平衡数据集，采用M个不同的过滤器进行特征选择，分别得到M个不同的特征序列；其中，M为大于等于2的正整数；

步骤S22，对M个特征序列中的特征进行打分，根据特征得分降序排列，选取排名前R％*D个特征，得到特征子集；

步骤S23，初始化当前特征集合S_now为特征子集，最优特征子集S_best为空，最优特征子集AUC值AUC_best为0；

步骤S24，设置每次删除的特征数量比例为p，0＜p＜1；

步骤S25，根据当前特征集合S_now建立SVM模型，得到AUC值AUC_now；

步骤S26，按照特征权重绝对值降序排列当前特征集合S_now中的特征；

步骤S27，删除当前特征集合S_now中排名靠后的p％个特征，更新当前特征集；

步骤S28，如果更新后的当前特征集S_now的AUC值AUC_now大于最优特征子集S_best的AUC值AUC_best，则S_best＝S_now；否则不变；

步骤S29，重复执行步骤S25-步骤S28，直到当前特征集合S_now为空，即得到最优特征子集。

优选的，本发明的步骤S21采用4个不同的过滤器，分别为过滤器MI、过滤器MIC、过滤器Relief-F和过滤器CS。

优选的，本发明采用混合采样法对最优数据集中的特征分别进行了不平衡数据的均衡化处理，得到可靠性更高的训练数据集，便于后续训练得到更加稳定可靠的分类模型，提高了分类的精度。本发明的步骤S3中的混合采样具体包括：

步骤S31，对最优特征子集中的少数类样本进行过采样合成新样本；

步骤S32，将过采样合成的新样本与最优特征子集中的多数类样本合并，得到新的数据集；

步骤S33，对新的数据集进行欠采样，得到均衡化分布的数据集。

优选的，本发明的步骤S31采用K-means SMOTE过采样算法进行过采样处理；所述步骤S33采用RENN算法进行欠采样处理。

另一方面，本发明还提出了一种基于混合采样与特征选择的高维度不平衡数据分类系统，该系统包括数据获取模块、特征选择模块、特征均衡模块和训练模块；

其中，所述数据获取模块用于获取原始不平衡数据集；

所述特征选择模块用于对原始不平衡数据集进行基于多过滤器融合和SVM-RFE的特征选择，得到最优特征子集；

所述特征均衡模块用于对最优特征子集进行混合采样，得到均衡化分布的数据集；

所述训练模块用于对均衡化分布的数据集进行训练，利用集成学习策略的两层叠加框架，构建基于多模型融合集成学习的高维不平衡数据分类模型。

优选的，本发明的特征选择模块包括相关性分析单元和冗余分析单元：

所述相关性分析单元采用M个不同的过滤器对原始不平衡数据集进行特征选择，分别得到M个不同的特征序列；其中，M为大于等于2的正整数；并对M个特征序列中的特征进行打分，根据特征得分降序排列，选取排名前R％*D个特征，得到相关特征子集；

所述冗余分析单元采用SVM-RFE算法对相关特征子集进行冗余特征的移除，得到最优特征子集。

优选的，本发明的SVM-RFE算法包括：

A.初始化当前特征集合S_now为特征子集，最优特征子集S_best为空，最优特征子集AUC值AUC_best为0；

B.设置每次删除的特征数量比例为p，0＜p＜1；

C.根据当前特征集合S_now建立SVM模型，得到AUC值AUC_now；

D.按照特征权重绝对值降序排列当前特征集合S_now中的特征；

E.删除当前特征集合S_now中排名靠后的p％个特征，更新当前特征集；

F.如果更新后的当前特征集S_now的AUC值AUC_now大于最优特征子集S_best的AUC值AUC_best，则S_best＝S_now；否则不变；

G.重复执行C-F，直到当前特征集合S_now为空，即得到最优特征子集。

优选的，本发明的相关性分析单元采用4个不同的过滤器，分别为过滤器MI、过滤器MIC、过滤器Relief-F和过滤器CS。

优选的，本发明的特征均衡模块包括过采样单元、混合单元和欠采样单元；

其中，所述过采样单元用于对最优特征子集中的少数类样本进行过采样合成新样本；

所述混合单元用于将过采样合成的新样本与最优特征子集中的多数类样本合并，得到新的数据集；

所述欠采样单元用于对新的数据集进行欠采样，得到均衡化分布的数据集。

本发明具有如下的优点和有益效果：

本发明通过对原始数据集进行基于多过滤器融合和SVM-RFE的特征选择，得到最优特征的数据集，并对最优特征数据集进行均衡化处理，得到更加稳定可靠的训练数据，提高了模型的分类精度和可靠性。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本申请的一部分，并不构成对本发明实施例的限定。在附图中：

图1为本发明的方法流程示意图。

图2为本发明的基于多过滤器融合和SVM-RFE的特征选择流程示意图。

图3为本发明的混合采样流程示意图。

图4为信用卡交易数据集欺诈比例图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本发明作进一步的详细说明，本发明的示意性实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。

实施例1

本实施例提出了一种基于混合采样与特征选择的高维度不平衡数据分类方法。

如图1所示，本实施例的方法主要包括以下步骤：

一、对原始不平衡数据集进行基于多过滤器融合和SVM-RFE的特征选择，去除原始数据集中的无关冗余特征，筛选出适用于分类检测的最优特征子集。

本实施例中的基于多过滤器融合和SVM-RFE的特征选择算法(MF-SVM-RFE算法)的主要思想为：从初始数据集出发，通过分析特征与类标的相关性以及特征间的冗余性，删除无关特征和冗余特征，从数据集中合理地选择更适用于分类检测的最优特征子集，解决高维特征问题。MF-SVM-RFE算法分为两个阶段：相关性分析阶段通过融合多种不同的过滤器(相关性度量方法)，组成相关特征子集；冗余性分析阶段SVM-RFE算法进一步剔除冗余特征，得到最优特征子集。

本实施例中，首先，将基于互信息(MI)、MIC、Relief-F、卡方检验(CS)的四个过滤器进行结合，共同对原始数据集的所有特征进行度量和分析，快速去除数据集中的大量与分类任务不相关的噪声特征，缩小并优化特征子集范围。然后使用支持向量机-递归特征消除SVM-RFE算法进一步优化特征子集，剔除数据集中的冗余特征，得到具有强判别能力的特征子集，有利于在后续分类算法中提高分类准确率。

MF-SVM-RFE算法具体如下表1所示：

表1 MF-SVM-RFE算法

MF-SVM-RFE算法分为两个阶段：相关性分析阶段通过融合多种不同的过滤器(相关性度量方法)，组成相关特征子集；冗余性分析阶段使用SVM-RFE算法移除冗余特征，得到最优特征子集。算法流程图如图2所示。

二、对经过特征选择后的最优特征子集进行基于K-means SMOTE和RENN的混合采样，并剔除噪声样本，从而得到均衡化分布的数据集。

本实施例的混合采样算法的主要思想为：首先根据样本分布特点对数据集中的噪声样本进行预处理，然后通过K-means SMOTE过采样算法扩大少数类样本空间，最后使用RENN欠采样算法对过采样后的完整数据集进行欠采样操作，清理模糊的决策边界样本，使得正负类边界更加清晰。通过使用HSA-KSR算法有效缓解了数据集的不平衡程度，能够在确保模型整体的分类性能的前提下提高对少数类样本的识别率。

HSA-KSR混合采样算法主要分为以下三个阶段：1)噪声样本处理：基于非均衡数据集使用KNN算法，对于其中任意一个样本，若它的K近邻样本类别均与其不一致，则将此样本视为噪声，并将其删除，从而降低噪声样本对分类决策边界的影响；2)少数类过采样：使用K-means SMOTE算法对少数类样本进行过采样合成新样本；3)使用RENN重复编辑最近邻算法清理位于决策边界较为模糊的样本，使得正负类边界更加清晰，然后基于一个经过均衡化处理的数据集构建分类器进行训练，从而提高模型分类性能。混合采样算法避免了单独使用过采样或欠采样算法存在的缺点，通过重构样本数据集使得多数类与少数类样本的分布达到一个新的平衡状态，效果更好。

HSA-KSR混合采样算法原理如图3所示：

首先对原始数据集进行去躁处理，即对最优特征子集进行去躁处理；

然后，对去躁处理之后的最优特征子集中的少数类样本进行过采样合成新样本；

之后，将过采样合成的新样本与最优特征子集中的多数类样本合并，得到新的数据集；

最后，对新的数据集进行欠采样，得到均衡化分布的数据集。

三、对均衡化分布的数据集进行训练，利用stacking集成学习策略的两层叠加框架，构建基于多模型融合stacking集成学习方式的高维不平衡数据分类模型，实现对高维不平衡数据的有效分类。

在基于Stacking集成学习策略的多分类器组合方法上，为了使得集成学习模型能够获得最佳预测效果，不仅需要保证每个基础分类器的单独预测能力，还要综合比较各个基础分类器的组合效果。由于学习能力较强的基础分类器能够提升模型整体的预测效果，因此针对单分类器的选择应具有训练机理差距大且性能优异的特点。同时为了便于比较Boosting、Bagging和Stacking的预测效果，本文在以两层Stacking为主的集成框架中，第一层选择经典机器学习算法包括支持向量机(SVM)、K-近邻(KNN)、Boosting的代表性算法梯度提升决策树(GBDT)、Bagging的代表性算法随机森林(RF)作为基础分类器，第二层使用稳定性较高的逻辑回归(LR)、RF和极度梯度提升树(XGBoost)作为元学习器，然后对第二层中的元分类器进行线性加权融合得到最终的预测结果。该框架相对于单模型，能够构造出一种更加稳定和复杂的分类模型。

梯度提升决策树(GBDT)和随机森林(RF)分别采用基于Boosting和Bagging的集成学习方式，具有优秀的学习能力和严谨的数学理论。支持向量机可解决非线性特征和大型特征空间问题，不易受噪声干扰。KNN原理简单，训练时间复杂度低。由于SVM、KNN、GBDT以及RF模型的原理差异较大，预测结果的相关性较低，模型融合的组成方式有利于提高最终分类的精确度。

在线性加权融合阶段，通过给予每个元分类器一个权重，然后按此权重将各分类器预测结果相加得到最终结果。本文采取较为简单的平均权重方式的加权融合，即对所有单一预测模型不加区别的采用相同的权重，公式如下所示。

设H_i为第i个模型的预测值，N为单一模型的个数，组合预测结果用Y来表示，那么平均权重方式的组合模型的表达式为：

基于平均权重的组合方式对分类器的选择并不敏感，但它比单一分类器风险更小。

高维不平衡数据分类模型的整体架构如图1所示。由于不同类型的分类器在分类准确率以及其它评价指标方面各有差异，而Stacking集成学习策略是基于多个弱分类器进行结合，因此可以有效解决过拟合问题，并且分类结果具有更强的稳健性。

实施例2

基于上述实施例1提出的分类方法，本实施例提出了一种基于混合采样与特征选择的高维度不平衡数据分类系统，该系统包括数据获取模块、特征选择模块、特征均衡模块和训练模块。

其中，本实施例的数据获取模块用于获取原始不平衡数据集。

本实施例的特征选择模块被配置为执行上述实施例1提出的基于多过滤器融合和SVM-RFE的特征选择算法，得到最优特征子集；其中，特征选择模块还包括相关性分析单元和冗余分析单元，分别被配置为执行相关性分析过程和冗余分析过程。

本实施例的特征均衡模块被配置为执行上述实施例1提出的混合采样算法，得到均衡化分布的数据集；其中，特征均衡模块还包括过采样单元、欠采样单元和混合单元，分别被配置为执行过采样操作、欠采样操作和样本合并操作。另外，特征均衡模块还包括预处理模块，被配置为执行原始数据集的去躁操作。

本实施例的训练模块被配置为执行上述实施例1提出的步骤S4的多模型融合集成学习算法，即对均衡化分布的数据集进行训练，利用集成学习策略的两层叠加框架，构建基于多模型融合集成学习的高维不平衡数据分类模型。

实施例3

本实施例以某一信用卡交易数据集为例，对上述实施例提出的分类方法和系统进行测试和验证。

数据集的内容如表2所示，共有590540个交易，其中有569877个合法交易，然而只有20663个欺诈交易，欺诈率只有3.5％，欺诈交易只占所有交易的很小一部分；数据集共有433个特征，分为交易特征和身份特征两部分，特征维度较高，既有连续型特征也有离散型特征，且包含较多冗余特征；类标签具有两个值0和1，0表示此次交易为合法交易，1则表示此次交易为欺诈交易。根据对信用卡数据集的简单分析，可知此数据集极其不平衡且具有高纬度，易导致机器学习分类模型预测效果下降。

表2信用卡欺诈数据集信息

信用卡欺诈比例如图4所示，其中合法交易远远多于欺诈交易，生动形象地展示了信用卡数据集的高度不平衡问题。

信用卡欺诈数据信息量较为复杂，对于数据集中存在的数据缺失、数据异常、数据不一致，一般机器学习算法无法直接处理，需要对其进行数据预处理，根据具体情况对缺失值、异常值进行删除或者填充等操作。数据中的缺失值和异常值会削弱特征有效性，给模型的预测结果引入很大的误差。对于少量数据的缺失情况，常用的处理缺失值的方法有：补插固定值、补插平均值、补插众数、补插中位数、补插最近邻或根据样本分布特点采用特定方式填补。当数据中存在大量缺失值时，如果采用填充操作会给数据集引入大量噪声，导致特征中包含大量无关信息，在分类检测中产生误差。为了避免在后续实验中产生大量噪声，对于缺失量超过96％的数据，这种缺失比例非常高的特征，不宜在训练模型中使用，因此本章直接采取删除处理。对于少量缺失值的情况则根据数据特性采用相应方法进行填补操作，如果是连续属性，可以采取补插均值的方法，如果是离散属性，则采取补插最近邻的策略补充缺失值。

传统的机器学习分类算法一般使用准确率或错误率衡量分类模型的性能，但是针对非均衡数据的分析处理，准确率或错误率受多数类数据预测性能的影响较大，因此不能通过这种指标来评估分类模型的优劣。本文选取AUC、G-mean以及F-measure作为分类模型的评价指标，用于对所有非均衡数据处理算法的实验结果综合分析，这些指标既能衡量少数类的分类精度也能体现多数类的分类正确率。在不平衡数据集中，以真正率(TruePositive，TP)表示准确分类的少数类样本个数，假反率(False Negative，FN)表示错误分类的少数类样本个数，假正率(False Positive，FP)表示错误分类的多数类样本个数，真反率(True Negative，TN)表示正确分类的多数类样本个数。以二类分类问题为例，表3为不平衡数据分类结果的混淆矩阵(confusion matrix)。

表3混淆矩阵

根据混淆矩阵，可以求出以下指标：

(1)AUC

在不平衡数据集中，接受者操作特征曲线(Receiver OperatingCharacteristic，简称ROC)是评估分类器性能的有用工具。ROC曲线以假阳性率

(False Positive Rate，简称FPR)为横轴，以真阳性率

(True Positive Rate，简称TPR)为纵轴，反映了当阈值发生变化时假阳率与真阳性率的变化情况及对预测模型分类效果的影响。当ROC曲线靠近左上角时，模型的综合分类性能最好；当ROC曲线发生交叉时，无法清楚的判断模型的好坏，使用ROC曲线下面积(Area Under Curve，AUC)值作为模型的定量评价指标进行度量。AUC指的是ROC曲线以下与横纵坐标轴围成的面积，取值范围只能在0和1之间，值越接近1表示模型分类性能越好。

(2)G-mean

G-mean(Geometric Mean)将少数类和多数类同等看待，通过计算两类的分类准确率的几何均值，可以衡量数据集的整体分类性能。为了平衡真正率

与真负率

的关系，采用G-mean作为性能评价标准：

只有当少数类和多数类的分类正确率都较高时，G-mean值才会较高，因此G-mean能作为不平衡数据集的评价指标。

(3)F-measure

面向非均衡数据集的分类问题，F-measure是一种经常使用的综合评价指标。它是查准率

与查全率

的调和平均值，如公式3.2所示。

其中β是调节Precision和Recall的系数，取值范围为0到1之间，需要结合实际情况设置，一般情况下设定为1。F-measure对于查准率与查全率进行全面考虑，可以正确衡量分类器的每一项性能，相比于G-mean，更加注重对少数类分类性能的评价。

通过以上相关评价指标的定义可以看出，AUC、G-mean以及F-measure都能很好地被用来衡量和评估非均衡的信用卡数据在信用卡欺诈检测中的分类性能。

具体过程如下：

1、本实施例采用了四种单一的过滤器(互信息、信息增益、Relief-F和卡方检验)进行特征选择。然后使用上述实施例所提的MF-SVM-RFE算法将四种过滤器全部进行融合，并与SVM-RFE结合进行特征选择。接下来使用分类算法分别对以上几种特征选择算法选择出的最优特征子集进行分类，并加入不使用特征选择的情况，比较它们在信用卡欺诈检测模型中的分类效果。

实验采用分层k折交叉验证衡量特征选择算法的分类性能，即将原始数据集随机划分为k份，每份数据子集不同类别的比例与完整数据集大致相同。每次利用k-1份数据子集对分类器进行训练，剩余的一个数据子集作为测试集，将AUC值、G-mean值以及F-measure作为分类器性能的评价指标，使用k次运行结果的平均值衡量特征子集的优劣。实验设置10折交叉验证，同时第一阶段特征选择的比例设为40％，即选择与类标最相关的前40％特征构成相关特征子集。

为消除不同特征之间的量纲影响，将所有的特征都统一到一个大致相同的数值区间内，使得不同指标之间具有可比性，需要对数据进行标准化处理。本文采用线性函数归一化(Min-Max normalization)的方式，将所有特征的取值映射到[0，1]的范围内，实现对原始数据的等比缩放，如下式所示。

其中，X_i，j表示数据集中第i个样本特征j的特征值，X_j，max和X_j，min分别表示特征j的最大值和最小值，X_i，j′表示经过归一化后的特征值。

通过使用各种特征选择算法对信用卡数据集进行特征选择之后，再利用分类方法构建分类模型对选择出的特征子集进行预测，并且进行十折交叉验证，最终得到包括AUC、G-mean以及F-measure在内的各项评价指标，实验结果统计如表4所示。

表4特征选择实验结果

在特征选择实验结果中，对最佳性能进行了加粗表示。通过对结果进行数据分析，可发现本章所提的MF-SVM-RFE特征选择算法相比于互信息、MIC、Relief-F、卡方检验等单一过滤器以及SVM-RFE在各项性能指标上都更加优秀。

从表2可以发现相对于不进行特征选择的情况，基于MI、MIC、Relief-F、CS以及SVM-RFE的特征选择都能够有效改进模型分类性能，而MF-SVM-RFE特征选择算法相对于单一特征选择算法有了进一步的性能提升，对于信用卡不平衡数据集而言，在包括AUC、G-mean以及F-measure在内的各项评价指标上取得了更好的分类效果。只对几种单一特征选择算法的分类效果进行比较，可以发现，SVM-RFE的效果最好，选择出的特征子集在C4.5中的AUC值可达到0.8655。而CS的表现最差，用它所选的特征子集的AUC值仅为0.7939。相比较之下，将多个过滤器和SVM-RFE结合进行特征选择的效果比几种单一特征选择算法进行特征选择的效果更优。MF-SVM-RFE所选出的特征子集在C4.5中的AUC值为0.8813，G-mean值为0.8853，F-measure值为0.7295。它与单一特征选择算法中的最佳算法(SVM-RFE)效果相比，三种指标分别提高了1.8％、1.9％和7.6％左右，与单一特征选择算法中的最差算法(CS)效果相比，三种指标分别提高了11％、12％和11％左右。

相比于未进行特征选择，对于所有特征选择算法而言，所选择出的特征子集在分类模型中都获得较好的性能，这表明了对高维数据集进行特征选择的必要性。此外，MF-SVM-RFE算法的AUC、G-mean、F-measure整体高于其他特征选择算法，验证了所提特征选择算法的优秀性能。由此可知，在对高维度不平衡数据集进行特征选择时，本发明提出的将多个过滤器和SVM-RFE结合进行的特征选择方法明显要优于单一过滤器的特征选择方法。

2、本实施例使用稳定性较高的决策树分类器验证HSA-KSR混合采样算法的分类效果，最终得到包括本发明提出的混合采样算法和多种采样算法的各项评价指标，如表5所示。

表5采样算法实验结果

在采样算法实验对比结果中，对最佳性能结果进行了加粗表示。通过对数据进行分析，可以发现在使用C4.5分类算法对所有均衡化后的数据集进行分类时，HSA-KSR混合采样算法处理后的数据集的AUC、G-mean和F-measure在各项性能指标上都更加优秀(在AUC值和G-mean值上获得了较好的结果，在F-measure值上仅次于SMOTE+ENN混合采样算法)。相较于未采样，经过HSA-KSR算法处理后的信用卡欺诈数据将C4.5分类模型的AUC、G-mean和F-measure最高提升了14％、15％和12％左右。

通过比较HSA-KSR与其他采样算法的AUC值、G-mean和F-measure，可以发现在信用卡欺诈数据集上，本发明提出的HSA-KSR算法在各项评价指标上相对于其它采样算法都有了提高，表明了此算法有效克服了噪声点的影响，不仅提高了少数类样本的分类精确度，而且同时增强了模型的整体分类性能，验证了本发明所提HSA-KSR混合采样算法的可行性和优越性。

3、本实施例基于信用卡欺诈数据集，首先通过对数据集使用MF-SVM-RFE特征选择算法选出最优特征子集，然后采用HSA-KSR混合采样算法均衡化处理后，接着使用单一模型包括SVM分类器、KNN分类器、GBDT分类器、随机森林分类器、逻辑回归分类器、XGBoost分类器与基于Stacking的融合模型进行对比实验。不同的分类器有不同的参数列表，实验使用网格搜索法(GridSearch CV)进行算法模型参数调优，同时利用五折交叉验证对检测模型进行综合性能评价，以避免因数据集划分产生的偶然情况，保证分类检测结果的可靠性。实验模型的评估指标依然使用AUC、G-mean和F-measure三种评价指标。

将结合特征选择和混合采样的基于Stacking的信用卡欺诈检测模型与支持向量机(SVM)、K近邻(KNN)、梯度提升决策树(GBDT)、随机森林(RF)、逻辑回归(LR)以及XGBoost的实验结果进行比较，其对比结果如表6所示。

表6各模型性能对比

从上表中可以发现，单模型中XGBoost分类器的AUC值评分最高，在所有的模型中Stacking融合模型的AUC值评分最高，达到0.9445。对于信用卡欺诈高维不平衡数据集而言，包括AUC、G-mean以及F-measure在内的各项实验结果评价指标基本上都是在经过构建Stacking融合模型后取得了更好的分类效果。大部分机器学习模型的AUC值都在0.86以上，相应预测的G-mean和F-measure也都能取得高分值，可以看出机器学习算法应用在信用卡欺诈检测模型上的可行性和有效性。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于混合采样与特征选择的高维度不平衡数据分类方法，其特征在于，包括以下步骤：

步骤S1，获取原始不平衡数据集；

2.根据权利要求1所述的基于混合采样与特征选择的高维度不平衡数据分类方法，其特征在于，所述步骤S2具体包括：

步骤S24，设置每次删除的特征数量比例为p，0＜p＜1；

3.根据权利要求2所述的基于混合采样与特征选择的高维度不平衡数据分类方法，其特征在于，所述步骤S21采用4个不同的过滤器，分别为过滤器MI、过滤器MIC、过滤器Relief-F和过滤器CS。

4.根据权利要求1-3任一项所述的基于混合采样与特征选择的高维度不平衡数据分类方法，其特征在于，所述步骤S3中的混合采样具体包括：

5.根据权利要求4所述的基于混合采样与特征选择的高维度不平衡数据分类方法，其特征在于，所述步骤S31采用K-means SMOTE过采样算法进行过采样处理；所述步骤S33采用RENN算法进行欠采样处理。

6.基于混合采样与特征选择的高维度不平衡数据分类系统，其特征在于，包括数据获取模块、特征选择模块、特征均衡模块和训练模块；

其中，所述数据获取模块用于获取原始不平衡数据集；

7.根据权利要求6所述的基于混合采样与特征选择的高维度不平衡数据分类方法，其特征在于，所述特征选择模块包括相关性分析单元和冗余分析单元：

8.根据权利要求7所述的基于混合采样与特征选择的高维度不平衡数据分类方法，其特征在于，所述SVM-RFE算法包括：

B.设置每次删除的特征数量比例为p，0＜p＜1；

C.根据当前特征集合S_now建立SVM模型，得到AUC值AUC_now；

D.按照特征权重绝对值降序排列当前特征集合S_now中的特征；

9.根据权利要求7所述的基于混合采样与特征选择的高维度不平衡数据分类方法，其特征在于，所述相关性分析单元采用4个不同的过滤器，分别为过滤器MI、过滤器MIC、过滤器Relief-F和过滤器CS。

10.根据权利要求6-9任一项所述的基于混合采样与特征选择的高维度不平衡数据分类方法，其特征在于，所述特征均衡模块包括过采样单元、混合单元和欠采样单元；