CN109858541A - 一种基于数据集成的特异数据自适应检测方法 - Google Patents

一种基于数据集成的特异数据自适应检测方法 Download PDF

Info

Publication number
CN109858541A
CN109858541A CN201910071364.1A CN201910071364A CN109858541A CN 109858541 A CN109858541 A CN 109858541A CN 201910071364 A CN201910071364 A CN 201910071364A CN 109858541 A CN109858541 A CN 109858541A
Authority
CN
China
Prior art keywords
cost
data
algorithm
sorting algorithm
specific data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910071364.1A
Other languages
English (en)
Inventor
宫琳
刘昉
张宏俊
陈西
高俊
杨奥
祝德刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN201910071364.1A priority Critical patent/CN109858541A/zh
Publication of CN109858541A publication Critical patent/CN109858541A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于数据集成的特异数据自适应检测方法,首先把不同来源、格式、特点的数据在数据仓库中集成以实现快速、高效的统一调配,根据数据特征选择不同的基分类器作为实验分类效果评价基准,基于代价敏感学习方法提出了适应不同代价比的分类算法选择模型,获得了自适应检测特异数据的方法,具有良好的稳定性和精确性,为数据处理研究人员在特异数据检测方面提供了新的思路。

Description

一种基于数据集成的特异数据自适应检测方法
技术领域
本发明属于数据处理及大数据分析技术领域,具体涉及一种基于数据集成的特异数据自适应检测方法。
背景技术
随着信息化程度的不断提高,产品设计和制造过程中产生了服务于不同生产阶段的海量数据。人们通过数据挖掘从海量数据中得到了许多潜在的有用信息,从而提升了经济效益。但伴随而来的问题是目标数据中含有少量的特异数据,特异数据会导致挖掘结果精度降低甚至结论不可信。因此,有效检测特异数据,常常成为发现问题进而改进决策的契机,对实际生产生活具有重要意义。
产业的信息化带来了数据的多样化。针对特征不同的数据集,在一些专利中提出了检测特异数据的技术方案。噪声处理领域中,如何区分噪声样本、数据和极少数类样本及其数据一直是研究的热点问题。有的专利提出使用聚类的方法,依靠对离群值的敏感性来剔除异常值,取得了一定效果。如果噪声出现在两类样本的分类边界,那么难以避免影响到训练效果,进而这些噪声和少数样例混合在一起进入模型会极大地降低模型精度。医学诊断领域中,如何检测健康人群中少数患者的生理特征数据是该领域研究的热点问题。有的专利提出使用分类的方法,却没有进行过抽样或样本构造,而且少数类样本绝对数量少,因此其特征数据中包含的信息量也相应的较为不足,数据匮乏使得其规律难以被分类算法检测,也就无法支撑算法构建理想的分类器,容易出现欠拟合或过拟合的现象。
发明内容
有鉴于此,本发明的目的是提供一种基于数据集成的特异数据自适应检测方法,可以提高数据分类的稳定性和精确性。
一种特异数据检测方法,包括如下步骤:
步骤1、在目标数据集中切分出训练数据集;
步骤2、判断训练数据集中样本数量是否大于设定阈值:
如果不大于,使用支持向量机作为基分类器;
如果大于,再判断训练数据集中正样本比例是否大于5%:
如果不大于,则使用决策树算法作为基分类器;
如果大于,使用逻辑回归算法作为基分类器;
将训练数据集输入到选择的基分类器中进行训练,得到分类结果和运行时间Tb;
步骤3、基于代价敏感学习方法,对训练数据集进行分类并获得代价矩阵其中,CTP表示真实为正样本而预测为正样本的代价;CFP表示真实为负样本而预测为正样本的代价;CTN表示真实为负样本而预测为负样本的代价;CFN表示真实为正样本而预测为负样本的代价;最后计算代价比
步骤4、判断是否考虑错分代价:
如果不考虑代价矩阵,再判断正样本比例是否大于5%:
如果不大于,使用优化集成学习方法作为分类算法;
如果大于,再判断是否要求最终的分类算法的运行时间低于运行时间Tb:如果不要求,选择欠抽样方法结合步骤2的基分类器作为分类算法;如果要求,使用集成学习方法作为分类算法;
如果考虑代价矩阵,再判断代价比是否大于50:
如果不大于50,再判断正样本比例是否大于5%:如果不大于5%,使用优化集成学习方法作为分类算法,如果大于5%,使用集成学习方法;
如果大于50,再判断正样本比例是否大于5%:
如果不大于5%,且要求最终分类算法运行时间小于Tb时,使用MetaCost-1:1结合步骤2选择的基分类器作为分类算法,如果不大于5%且不要求运行时间时,使用优化集成学习方法作为分类算法;
如果大于5%,使用优化集成学习方法作为分类算法;
步骤5、采用步骤4选择的最终分类算法获得分类结果。
进一步的,所述步骤1中,针对不同来源的数据集,先进行过滤和筛选操作,再通过数据库语言建立与数据仓库的连接,实现不同来源、格式和特点的数据的统一处理,得到目标数据集。
进一步的,所述步骤1中,所述步骤1中,在目标数据集中切分出测试数据集,代入到最终的分类算法中,对步骤5的分类结果进行检验。
较佳的,所述步骤2中,设定阈值为1000。
本发明具有如下有益效果:
本发明提供一种基于数据集成的特异数据自适应检测方法,首先把不同来源、格式、特点的数据在数据仓库中集成以实现快速、高效的统一调配,根据数据特征选择不同的基分类器作为实验分类效果评价基准,基于代价敏感学习方法提出了适应不同代价比的分类算法选择模型,获得了自适应检测特异数据的方法,具有良好的稳定性和精确性,为数据处理研究人员在特异数据检测方面提供了新的思路。
附图说明
图1为本发明的一种特异数据自适应检测方法的流程图。
具体实施方式
下面结合附图并举实施例,对本发明进行详细描述。
本发明中涉及的分类算法分为七大类,分别是过抽样方法(ROS、SMOTE类方法、ADASYN)、欠抽样方法(RUS、ENN、RENN)、集成学习方法(Bagging、Adaboost)、优化集成学习方法(EasyEnsemble、BalanceCascade和Balanced Bagging)、随机抽样的MetaCost(MetaCost-Random)和1:1抽样的MetaCost(MetaCost-1:1)。在错分代价未知与已知两种情况下,结合代价比和数据特征,依据数据处理实验中算法表现出的特征和指标优劣,总结出一种分类算法选择模型,以实现自适应检测特异数据。下面结合图1对本发明的实施流程作进一步的介绍。
步骤1、对目标数据集进行数据集成
先对目标数据集进行过滤、筛选等预处理操作,再通过数据库语言建立与数据仓库的连接,实现不同来源、格式、特点的数据进行统一处理。其次,计算目标数据集的正例比例,并进行样本切分,得到训练集与测试集。
步骤2、训练基分类器作为Baseline
步骤1中的训练集按照样本量的大小和特异数据比例选择不同的基分类器,利用Baseline评估可以得出变更算法带来的影响值,用于评估和比较。
对于样本量较小的数据集,使用支持向量机(SVM)作为基分类器;对于样本量较大的数据集,如果数据集极度非平衡(正例占比低于5%)则使用决策树算法作为基分类器,否则可使用逻辑回归算法。基于此,得到基分类器的分类结果和运行时间Tb。
步骤3、根据错分矩阵计算代价比
基于代价矩阵的代价敏感学习方法,对训练集进行分类并求得代价比。在本发明适用解决的二分类问题中,代价矩阵应为一个与混淆矩阵对应的2×2矩阵,其元素依次为CTP,CFP,CFN,CTN,如表1所示。
表1
由于正确分类不会产生任何代价,通常设定CTP=CTN=0,而在大多数问题中,将关键少数类错分为多数类的代价大于将多数类错分为少数类的代价,例如在用户征信判别问题中,如果向一个信用极差的人误批贷款可能造成的损失远大于未通过一个正常用户的贷款申请所造成的损失,因此一般情况下CFN>CFP。最后计算代价比(Cost Ratio),代价比是影响分类器性能的重要变量。
步骤4、按照错分代价选择合适的分类算法
在不考虑错分代价或代价矩阵未知时,如果特异数据占比极低(小于5%)则使用优化集成学习方法作为分类算法,否则考虑对算法的运行时间要求,在不要求算法的运行时间低于Baseline时选择欠抽样方法结合基分类器作为分类算法,反之则使用集成学习方法作为分类算法。
在考虑错分代价的情况下,如果代价比较低(低于50),在特异数据占比极低(小于5%)的情况下使用优化集成学习方法作为分类算法,否则使用集成学习方法。如果代价比较高(高于50),在特异数据占比极低(小于5%)且对运行时间有较高要求的情况下使用MetaCost-1:1结合基分类器作为分类算法,否则使用优化集成学习方法作为分类算法。
基于步骤3和步骤4,实现了针对不同错分代价数据的自适应分类。
步骤5、完成分类得到特异数据的检测结果
在训练完成后,将测试集代入模型测试,与Baseline对比得到优于基分类器的结果,实现对不同数据特征和错分代价的数据集的自适应检测。
实施例:
下面使用“IJCAI2018-阿里妈妈国际广告算法大赛”中的数据集对专利中的自适应检测方法进行验证。该数据集是关于“点击通过率”的预测赛题,共有478138条数据,选取其中最后一天的57421条数据作为测试集,剩余420717条作为训练集。数据集中使用“is_trade”字段(特异数据)表征用户是否产生了购买行为,即需预测的y值,其中值为1的产生了购买行为。在测试集中该字段为1的用户共971个,占比1.72%,训练集中产生购买行为的用户共8050个,占比1.95%。该原始数据集共有数据27维,其数据结构如表2所示。
表2 数据集数据结构
采用G-mean和F1值来评价检测性能。G-mean由正例和负例的准确率计算得到,是对模型在整个样本集上的分类性能的评价指标,而F1值是由关键少数类样本的召回率和精度计算得到的。
表3 各算法指标值表
从表3可知,在不考虑代价矩阵的情况下,集成学习方法和优化集成学习方法分类效果较好,重抽样方法次之,基分类器最差。综合考虑G-mean和F1两指标,应当选择使用优化集成学习方法。综上所述,在该数据集的特异数据检测中,模型的有效性得以验证。
综上所述,以上仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种特异数据检测方法,其特征在于,包括如下步骤:
步骤1、在目标数据集中切分出训练数据集;
步骤2、判断训练数据集中样本数量是否大于设定阈值:
如果不大于,使用支持向量机作为基分类器;
如果大于,再判断训练数据集中正样本比例是否大于5%:
如果不大于,则使用决策树算法作为基分类器;
如果大于,使用逻辑回归算法作为基分类器;
将训练数据集输入到选择的基分类器中进行训练,得到分类结果和运行时间Tb;
步骤3、基于代价敏感学习方法,对训练数据集进行分类并获得代价矩阵其中,CTP表示真实为正样本而预测为正样本的代价;CFP表示真实为负样本而预测为正样本的代价;CTN表示真实为负样本而预测为负样本的代价;CFN表示真实为正样本而预测为负样本的代价;最后计算代价比
步骤4、判断是否考虑错分代价:
如果不考虑代价矩阵,再判断正样本比例是否大于5%:
如果不大于,使用优化集成学习方法作为分类算法;
如果大于,再判断是否要求最终的分类算法的运行时间低于运行时间Tb:如果不要求,选择欠抽样方法结合步骤2的基分类器作为分类算法;如果要求,使用集成学习方法作为分类算法;
如果考虑代价矩阵,再判断代价比是否大于50:
如果不大于50,再判断正样本比例是否大于5%:如果不大于5%,使用优化集成学习方法作为分类算法,如果大于5%,使用集成学习方法;
如果大于50,再判断正样本比例是否大于5%:
如果不大于5%,且要求最终分类算法运行时间小于Tb时,使用MetaCost-1:1结合步骤2选择的基分类器作为分类算法,如果不大于5%且不要求运行时间时,使用优化集成学习方法作为分类算法;
如果大于5%,使用优化集成学习方法作为分类算法;
步骤5、采用步骤4选择的最终分类算法获得分类结果。
2.如权利要求1所述的一种特异数据检测方法,其特征在于,所述步骤1中,针对不同来源的数据集,先进行过滤和筛选操作,再通过数据库语言建立与数据仓库的连接,实现不同来源、格式和特点的数据的统一处理,得到目标数据集。
3.如权利要求1所述的一种特异数据检测方法,其特征在于,所述步骤1中,所述步骤1中,在目标数据集中切分出测试数据集,代入到最终的分类算法中,对步骤5的分类结果进行检验。
4.如权利要求1所述的一种特异数据检测方法,其特征在于,所述步骤2中,设定阈值为1000。
CN201910071364.1A 2019-01-25 2019-01-25 一种基于数据集成的特异数据自适应检测方法 Pending CN109858541A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910071364.1A CN109858541A (zh) 2019-01-25 2019-01-25 一种基于数据集成的特异数据自适应检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910071364.1A CN109858541A (zh) 2019-01-25 2019-01-25 一种基于数据集成的特异数据自适应检测方法

Publications (1)

Publication Number Publication Date
CN109858541A true CN109858541A (zh) 2019-06-07

Family

ID=66896038

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910071364.1A Pending CN109858541A (zh) 2019-01-25 2019-01-25 一种基于数据集成的特异数据自适应检测方法

Country Status (1)

Country Link
CN (1) CN109858541A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111126503A (zh) * 2019-12-27 2020-05-08 北京同邦卓益科技有限公司 一种训练样本的生成方法和装置
CN111181939A (zh) * 2019-12-20 2020-05-19 广东工业大学 一种基于集成学习的网络入侵检测方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111181939A (zh) * 2019-12-20 2020-05-19 广东工业大学 一种基于集成学习的网络入侵检测方法及装置
CN111181939B (zh) * 2019-12-20 2022-02-25 广东工业大学 一种基于集成学习的网络入侵检测方法及装置
CN111126503A (zh) * 2019-12-27 2020-05-08 北京同邦卓益科技有限公司 一种训练样本的生成方法和装置
CN111126503B (zh) * 2019-12-27 2023-09-26 北京同邦卓益科技有限公司 一种训练样本的生成方法和装置

Similar Documents

Publication Publication Date Title
Hapfelmeier et al. A new variable selection approach using random forests
Gupta et al. Performance analysis of classification tree learning algorithms
CN105069470A (zh) 分类模型训练方法及装置
Casalino et al. Data stream classification by dynamic incremental semi-supervised fuzzy clustering
US11699106B2 (en) Categorical feature enhancement mechanism for gradient boosting decision tree
Shaleena et al. Data mining techniques for predicting student performance
Chug et al. Software defect prediction using supervised learning algorithm and unsupervised learning algorithm
CN111090579B (zh) 基于皮尔森相关性加权关联分类规则的软件缺陷预测方法
CN104834940A (zh) 一种基于支持向量机的医疗影像检查疾病分类方法
Utari et al. Implementation of data mining for drop-out prediction using random forest method
CN105045913B (zh) 基于WordNet以及潜在语义分析的文本分类方法
CN106445908A (zh) 文本识别方法和装置
Khoshgoftaar et al. Software quality assessment using a multi-strategy classifier
CN111950645A (zh) 一种通过改进随机森林提高类不平衡分类性能的方法
CN109858541A (zh) 一种基于数据集成的特异数据自适应检测方法
CN110109902A (zh) 一种基于集成学习方法的电商平台推荐系统
CN108268979A (zh) 一种基于演化模糊关联规则的中厚板质量预测方法
Dahiya et al. A rank aggregation algorithm for ensemble of multiple feature selection techniques in credit risk evaluation
CN113837266A (zh) 一种基于特征提取和Stacking集成学习的软件缺陷预测方法
CN106096635B (zh) 基于阈值操作的代价敏感神经网络的警告分类方法
CN111105041B (zh) 一种用于智慧数据碰撞的机器学习方法及装置
CN106055483B (zh) 基于欠采样操作的代价敏感神经网络的警告分类方法
CN115186776A (zh) 一种红宝石产地分类的方法、装置及存储介质
CN115730152A (zh) 基于用户画像分析的大数据处理方法及大数据处理系统
CN109146232A (zh) 主成分与变异系数的股市投资者情绪代理指标选择方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190607