CN109858541A

CN109858541A - 一种基于数据集成的特异数据自适应检测方法

Info

Publication number: CN109858541A
Application number: CN201910071364.1A
Authority: CN
Inventors: 宫琳; 刘昉; 张宏俊; 陈西; 高俊; 杨奥; 祝德刚
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2019-01-25
Filing date: 2019-01-25
Publication date: 2019-06-07

Abstract

本发明提供了一种基于数据集成的特异数据自适应检测方法，首先把不同来源、格式、特点的数据在数据仓库中集成以实现快速、高效的统一调配，根据数据特征选择不同的基分类器作为实验分类效果评价基准，基于代价敏感学习方法提出了适应不同代价比的分类算法选择模型，获得了自适应检测特异数据的方法，具有良好的稳定性和精确性，为数据处理研究人员在特异数据检测方面提供了新的思路。

Description

一种基于数据集成的特异数据自适应检测方法

技术领域

本发明属于数据处理及大数据分析技术领域，具体涉及一种基于数据集成的特异数据自适应检测方法。

背景技术

随着信息化程度的不断提高，产品设计和制造过程中产生了服务于不同生产阶段的海量数据。人们通过数据挖掘从海量数据中得到了许多潜在的有用信息，从而提升了经济效益。但伴随而来的问题是目标数据中含有少量的特异数据，特异数据会导致挖掘结果精度降低甚至结论不可信。因此，有效检测特异数据，常常成为发现问题进而改进决策的契机，对实际生产生活具有重要意义。

产业的信息化带来了数据的多样化。针对特征不同的数据集，在一些专利中提出了检测特异数据的技术方案。噪声处理领域中，如何区分噪声样本、数据和极少数类样本及其数据一直是研究的热点问题。有的专利提出使用聚类的方法，依靠对离群值的敏感性来剔除异常值，取得了一定效果。如果噪声出现在两类样本的分类边界，那么难以避免影响到训练效果，进而这些噪声和少数样例混合在一起进入模型会极大地降低模型精度。医学诊断领域中，如何检测健康人群中少数患者的生理特征数据是该领域研究的热点问题。有的专利提出使用分类的方法，却没有进行过抽样或样本构造，而且少数类样本绝对数量少，因此其特征数据中包含的信息量也相应的较为不足，数据匮乏使得其规律难以被分类算法检测，也就无法支撑算法构建理想的分类器，容易出现欠拟合或过拟合的现象。

发明内容

有鉴于此，本发明的目的是提供一种基于数据集成的特异数据自适应检测方法，可以提高数据分类的稳定性和精确性。

一种特异数据检测方法，包括如下步骤：

步骤1、在目标数据集中切分出训练数据集；

步骤2、判断训练数据集中样本数量是否大于设定阈值：

如果不大于，使用支持向量机作为基分类器；

如果大于，再判断训练数据集中正样本比例是否大于5％：

如果不大于，则使用决策树算法作为基分类器；

如果大于，使用逻辑回归算法作为基分类器；

将训练数据集输入到选择的基分类器中进行训练，得到分类结果和运行时间Tb；

步骤3、基于代价敏感学习方法，对训练数据集进行分类并获得代价矩阵其中，C_TP表示真实为正样本而预测为正样本的代价；C_FP表示真实为负样本而预测为正样本的代价；C_TN表示真实为负样本而预测为负样本的代价；C_FN表示真实为正样本而预测为负样本的代价；最后计算代价比

步骤4、判断是否考虑错分代价：

如果不考虑代价矩阵，再判断正样本比例是否大于5％：

如果不大于，使用优化集成学习方法作为分类算法；

如果大于，再判断是否要求最终的分类算法的运行时间低于运行时间Tb：如果不要求，选择欠抽样方法结合步骤2的基分类器作为分类算法；如果要求，使用集成学习方法作为分类算法；

如果考虑代价矩阵，再判断代价比是否大于50：

如果不大于50，再判断正样本比例是否大于5％：如果不大于5％，使用优化集成学习方法作为分类算法，如果大于5％，使用集成学习方法；

如果大于50，再判断正样本比例是否大于5％：

如果不大于5％，且要求最终分类算法运行时间小于Tb时，使用MetaCost-1:1结合步骤2选择的基分类器作为分类算法，如果不大于5％且不要求运行时间时，使用优化集成学习方法作为分类算法；

如果大于5％，使用优化集成学习方法作为分类算法；

步骤5、采用步骤4选择的最终分类算法获得分类结果。

进一步的，所述步骤1中，针对不同来源的数据集，先进行过滤和筛选操作，再通过数据库语言建立与数据仓库的连接，实现不同来源、格式和特点的数据的统一处理，得到目标数据集。

进一步的，所述步骤1中，所述步骤1中，在目标数据集中切分出测试数据集，代入到最终的分类算法中，对步骤5的分类结果进行检验。

较佳的，所述步骤2中，设定阈值为1000。

本发明具有如下有益效果：

本发明提供一种基于数据集成的特异数据自适应检测方法，首先把不同来源、格式、特点的数据在数据仓库中集成以实现快速、高效的统一调配，根据数据特征选择不同的基分类器作为实验分类效果评价基准，基于代价敏感学习方法提出了适应不同代价比的分类算法选择模型，获得了自适应检测特异数据的方法，具有良好的稳定性和精确性，为数据处理研究人员在特异数据检测方面提供了新的思路。

附图说明

图1为本发明的一种特异数据自适应检测方法的流程图。

具体实施方式

下面结合附图并举实施例，对本发明进行详细描述。

本发明中涉及的分类算法分为七大类，分别是过抽样方法(ROS、SMOTE类方法、ADASYN)、欠抽样方法(RUS、ENN、RENN)、集成学习方法(Bagging、Adaboost)、优化集成学习方法(EasyEnsemble、BalanceCascade和Balanced Bagging)、随机抽样的MetaCost(MetaCost-Random)和1:1抽样的MetaCost(MetaCost-1:1)。在错分代价未知与已知两种情况下，结合代价比和数据特征，依据数据处理实验中算法表现出的特征和指标优劣，总结出一种分类算法选择模型，以实现自适应检测特异数据。下面结合图1对本发明的实施流程作进一步的介绍。

步骤1、对目标数据集进行数据集成

先对目标数据集进行过滤、筛选等预处理操作，再通过数据库语言建立与数据仓库的连接，实现不同来源、格式、特点的数据进行统一处理。其次，计算目标数据集的正例比例，并进行样本切分，得到训练集与测试集。

步骤2、训练基分类器作为Baseline

步骤1中的训练集按照样本量的大小和特异数据比例选择不同的基分类器，利用Baseline评估可以得出变更算法带来的影响值，用于评估和比较。

对于样本量较小的数据集，使用支持向量机(SVM)作为基分类器；对于样本量较大的数据集，如果数据集极度非平衡(正例占比低于5％)则使用决策树算法作为基分类器，否则可使用逻辑回归算法。基于此，得到基分类器的分类结果和运行时间Tb。

步骤3、根据错分矩阵计算代价比

基于代价矩阵的代价敏感学习方法，对训练集进行分类并求得代价比。在本发明适用解决的二分类问题中，代价矩阵应为一个与混淆矩阵对应的2×2矩阵，其元素依次为C_TP，C_FP，C_FN，C_TN，如表1所示。

表1

由于正确分类不会产生任何代价，通常设定C_TP＝C_TN＝0，而在大多数问题中，将关键少数类错分为多数类的代价大于将多数类错分为少数类的代价，例如在用户征信判别问题中，如果向一个信用极差的人误批贷款可能造成的损失远大于未通过一个正常用户的贷款申请所造成的损失，因此一般情况下C_FN＞C_FP。最后计算代价比(Cost Ratio),代价比是影响分类器性能的重要变量。

步骤4、按照错分代价选择合适的分类算法

在不考虑错分代价或代价矩阵未知时，如果特异数据占比极低(小于5％)则使用优化集成学习方法作为分类算法，否则考虑对算法的运行时间要求，在不要求算法的运行时间低于Baseline时选择欠抽样方法结合基分类器作为分类算法，反之则使用集成学习方法作为分类算法。

在考虑错分代价的情况下，如果代价比较低(低于50)，在特异数据占比极低(小于5％)的情况下使用优化集成学习方法作为分类算法，否则使用集成学习方法。如果代价比较高(高于50)，在特异数据占比极低(小于5％)且对运行时间有较高要求的情况下使用MetaCost-1:1结合基分类器作为分类算法，否则使用优化集成学习方法作为分类算法。

基于步骤3和步骤4，实现了针对不同错分代价数据的自适应分类。

步骤5、完成分类得到特异数据的检测结果

在训练完成后，将测试集代入模型测试，与Baseline对比得到优于基分类器的结果，实现对不同数据特征和错分代价的数据集的自适应检测。

实施例：

下面使用“IJCAI2018-阿里妈妈国际广告算法大赛”中的数据集对专利中的自适应检测方法进行验证。该数据集是关于“点击通过率”的预测赛题，共有478138条数据，选取其中最后一天的57421条数据作为测试集，剩余420717条作为训练集。数据集中使用“is_trade”字段(特异数据)表征用户是否产生了购买行为，即需预测的y值，其中值为1的产生了购买行为。在测试集中该字段为1的用户共971个，占比1.72％，训练集中产生购买行为的用户共8050个，占比1.95％。该原始数据集共有数据27维，其数据结构如表2所示。

表2 数据集数据结构

采用G-mean和F₁值来评价检测性能。G-mean由正例和负例的准确率计算得到，是对模型在整个样本集上的分类性能的评价指标，而F₁值是由关键少数类样本的召回率和精度计算得到的。

表3 各算法指标值表

从表3可知，在不考虑代价矩阵的情况下，集成学习方法和优化集成学习方法分类效果较好，重抽样方法次之，基分类器最差。综合考虑G-mean和F₁两指标，应当选择使用优化集成学习方法。综上所述，在该数据集的特异数据检测中，模型的有效性得以验证。

综上所述，以上仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种特异数据检测方法，其特征在于，包括如下步骤：