CN106056130A - 针对不平衡数据集的组合降采样线性判别分类方法 - Google Patents

针对不平衡数据集的组合降采样线性判别分类方法 Download PDF

Info

Publication number
CN106056130A
CN106056130A CN201610331710.1A CN201610331710A CN106056130A CN 106056130 A CN106056130 A CN 106056130A CN 201610331710 A CN201610331710 A CN 201610331710A CN 106056130 A CN106056130 A CN 106056130A
Authority
CN
China
Prior art keywords
sample
negative
training
positive
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610331710.1A
Other languages
English (en)
Inventor
李喆
吕卫
褚晶辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201610331710.1A priority Critical patent/CN106056130A/zh
Publication of CN106056130A publication Critical patent/CN106056130A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/245Classification techniques relating to the decision surface
    • G06F18/2451Classification techniques relating to the decision surface linear, e.g. hyperplane

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种针对不平衡数据集的组合降采样线性判别分类方法,包括以下步骤:得到原始数据的不平衡数据集的不平衡率IR;将全部的负样本进行不放回随机抽样,均匀生成IR个不相交的负样本子集,各子集中均包含约个负样本;对于每一个负样本子集,将其分别与全部正样本集组合,此时各子训练集中正负样本数目基本相同,得到IR个平衡的子训练集;分别使用上述的子训练集训练得到IR个相互独立的线性判别分类器LDA。本发明在获得更好的分类性能的同时保持了极高的分类器训练效率。

Description

针对不平衡数据集的组合降采样线性判别分类方法
技术领域
本发明涉及模式识别技术,具体涉及一种针对不平衡数据集的分类器。
背景技术
机器学习是研究如何使计算机通过经验累积来学习的技术。近年来,随着计算机及人工智能技术的迅速发展,机器学习已在多个领域得到广泛应用。分类是机器学习技术重要的研究领域与应用方向,诸如支持向量机、极限学习机、决策树等多种分类算法在人工智能技术的发展中均扮演了重要角色。然而,这些算法在设计时均假定正样本(样本数量较小的一类样本)和负样本(样本数量较多的一类样本)两类的样本空间大小接近。然而,在实际应用中,包括医学诊断、信用卡欺诈检测在内的大量的应用场合无法满足这一假设。在这些场景中,正负样本数量往往差距很大,若使用传统分类技术,为提高分类的整体准确率,判决边界会向正样本方向倾斜,导致部分正样本区域被误判为负样本区域,最终使得正样本的检出率受到严重影响。为解决这一问题,致力于将分类器进行级联、并行等操作以用于解决数据不平衡问题的集成学习技术得到了广泛关注。
专利“基于不平衡分类指标与集成学习的不平衡数据分类方法”(CN104951809A)将多个分类器进行级联,通过加大错分样本在下一分类器中权重的方式提高分类器准确率,从而减小数据不平衡带来的分类性能损失。然而,该方法并未改变数据分布,仅通过对不同样本的权值进行调整以提升分类性能,其效果较为有限。专利“组合降采样极限学习机”(CN104573708A)受到经典的组合降采样支持向量机方法启发,将负样本划分为多个子集分别与全体正样本组成子训练,最后通过子分类器投票方式给出分类结果。组合降采样极限学习机在获得与组合降采样支持向量机相近的分类准确率的同时,省去了大量参数调节时间,大幅提高了分类器的训练效率,具有良好的应用前景。然而,由于其省去参数调节过程,不设置训练停止准则直接通过广义逆得到分类结果,分类模型易陷入过拟合,故极限学习机分类器本身的分类性能不够理想,从而导致组合降采样学习机的整体性能仍有提升空间。
从上述分析可以看出,当前,集成学习方法虽然已经在不平衡数据分类方面得到应用并取得较好的效果,但其性能依然有待进一步提高。
发明内容
本发明的目的是克服现有方法的不足,对经典集成学习算法进行改进,提供一种针对不平衡数据集的 组合降采样线性判别分类方法,在维持较高运算效率的同时取得更高的准确率。本发明的技术方案如下:
一种针对不平衡数据集的组合降采样线性判别分类方法,设原始数据集中正样本数目为np,负样本数目为nn,该方法具体包括以下几个技术步骤:
(1)对原始数据集的nn和np求四舍五入整数商,得到不平衡数据集的不平衡率IR;
(2)将全部的负样本进行不放回随机抽样,均匀生成IR个不相交的负样本子集,各子集中均包含约np个负样本;
(3)对于每一个负样本子集,将其分别与全部正样本集组合,此时各子训练集中正负样本数目基本相同,得到IR个平衡的子训练集;
(4)分别使用上述的子训练集训练得到IR个相互独立的线性判别分类器LDA;
(5)对新样本进行分类,方法如下:将待分类样本输入训练完成后的每一个LDA分类器中,每个LDA分类器对这一样本给出分类结果,通过预先设定决策阈值th来改变分类系统对正负类的关注程度,确定为该样本的最终分类结果。
本发明受组合降采样支持向量机和组合降采样极限学习机启发,继承组合降采样结构,使用线性判别分类器作为基分类器,在获得更好的分类性能的同时保持了极高的分类器训练效率。经实验比较,本发明在多个分类器评价指标上具有明显优势。
具体实施方式
下面结合实施例对本发明作进一步详细的说明:
(1)取得测试和训练数据:提取自数字乳腺X线图像数据库(Digital Databasefor Screening Mammography)的感兴趣区域共1950个。该数据集用于考察分类器对于肿瘤是否存在的分类准确度,数据集中正负样本(即有肿瘤与无肿瘤样本)数目不平衡,共有正样本401个,负样本1549个,即np=401,nn=1549。根据下式计算不平衡率
IR=round(nn/np) (1)
其中,round为四舍五入取整函数,确保最终得到的不平衡率为以整数值,可知不平衡率IR=4。对每个样本提取形态及纹理特征用于分类,包括是圆度、径向长度的平均值和标准差、灰度熵、灰度均值、灰度标准差、肿块面积、平均分形维数、分形维数标准差、光度惯性动力、各向异性、轮廓梯度熵、平滑度、偏度和峰度等共34维,进行归一化处理。
(2)将正负样本按十折交叉验证划分出训练集与测试集,用于对分类器进行训练与测试。每一折应由360个正样本和1495个负样本组成训练集,其余样本构成测试集。
(3)将训练集中的负样本平均分为容量基本相同的4部分,将此4部分分别与训练集中的全体正样 本相结合,得到4个基本平衡的训练集。
(4)用上述得到的4个平衡训练集分别训练线性判别分类器,训练过程如下:
假设给定一组n个d维的样本{x1,x2,…xn},其中有n1个样本属于类别χ1,而剩余的n2个样本属于类别χ2。取各自的类内均值为LDA的目标即为确定最佳的直线方向w,使分类效果最好。两类中,各自可得到类内均值LDA算法的目标即为找到使(2)式结果最大(max(J(w)))的w:
J ( w ) = w T S B w w T S W w - - - ( 2 )
(2)式中,SB=(m1-m2)(m1-m2)T为类间散布矩阵,用于表征两类样本之间的离散程度;
为总类内散布矩阵,表示两类样本内各样本点之间的离散程度的总和。当J(w)取得最大时,即可搜索到一个方向w并由此得到一个判决边界,使各样本点的投影在此方向上满足类间离散度最大的同时两类各自的类内方差之和最小,即取得最高的类内耦合度和最低的类间耦合度。
对于一个新输入的样本x,在对其进行分类时,首先计算判别函数y=wTx,将其与判决边界进行比较,从而完成分类。
由于该种算法的目标是将高维模式样本投影以将所有样本分成两类,因此具有非常良好的降维效果,可大大提升分类效率。LDA更多依赖数据分布的均值信息,在两类均值具备投影可分的性质时可表现出良好的分类性能。
有关LDA的更详细内容,还可以参考下列两篇文献:
1)Welling M.Fisher linear discriminant analysis[J].Department ofComputer Science,University of Toronto,2005,3.
2)Scholkopft B,Mullert K R.Fisher discriminant analysis with kernels[J].Neural networks for signal processing IX,1999,1(1):1.
(5)将测试集中的样本输入组合降采样线性判别分类器中,每个子分类器均输出一个分类结果。对分类结果进行简单多数投票,若正类得票大于等于2,则将该样本分入正类,反之则分入负类。
表1给出了直接运用线性判别分类器对不平衡数据集进行分类、用组合降采样极限学习机进行分类及本发明所使用的方法进行分类分别得到的测试结果。本发明采用以下几个指标对分类器性能进行评价:
在实际应用中,执行效率也是衡量算法性能的非常重要的指标,执行效率越高的算法在实际应用中越有可能得到广泛应用。因此,也对各算法的执行效率进行比较与讨论,对于每种算法进行十折交叉验证并测试所需要的时间进行统计和比较。
表1分类算法结果与比较(同一指标下最好的结果用黑体标出)
由表1可以看出,组合降采样LDA在灵敏度和特异性两项指标上取得了最好的折中效果,同时顾及到了良性肿瘤和恶性肿瘤的检测准确率,且整体性能比简单LDA和组合降采样极限学习机均有提升。
在实际应用中,执行效率也是衡量算法性能的非常重要的指标,执行效率越高的算法在实际应用中越有可能得到广泛应用,此处也将对各算法的执行效率进行比较与讨论。耗时越长的算法执行效率越低,反之则执行效率越高。十折交叉验证的训练与分类总耗时如表2所示。
表2十折交叉验证执行时间
可以看出,组合降采样LDA的执行效率与简单LDA接近,且比组合降采样极限学习机效率更高。
综合表1和表2可以看出,本发明不仅在分类性能上比原先的集成学习算法有所提高,且可以保证较高的执行效率。

Claims (1)

1.一种针对不平衡数据集的组合降采样线性判别分类方法,设原始数据集中正样本数目为np,负样本数目为nn,该方法具体包括以下几个技术步骤:
(1)对原始数据集的nn和np求四舍五入整数商,得到不平衡数据集的不平衡率IR;
(2)将全部的负样本进行不放回随机抽样,均匀生成IR个不相交的负样本子集,各子集中均包含约np个负样本;
(3)对于每一个负样本子集,将其分别与全部正样本集组合,此时各子训练集中正负样本数目基本相同,得到IR个平衡的子训练集;
(4)分别使用上述的子训练集训练得到IR个相互独立的线性判别分类器LDA;
(5)对新样本进行分类,方法如下:将待分类样本输入训练完成后的每一个LDA分类器中,每个LDA分类器对这一样本给出分类结果,通过预先设定决策阈值th来改变分类系统对正负类的关注程度,确定为该样本的最终分类结果。
CN201610331710.1A 2016-05-18 2016-05-18 针对不平衡数据集的组合降采样线性判别分类方法 Pending CN106056130A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610331710.1A CN106056130A (zh) 2016-05-18 2016-05-18 针对不平衡数据集的组合降采样线性判别分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610331710.1A CN106056130A (zh) 2016-05-18 2016-05-18 针对不平衡数据集的组合降采样线性判别分类方法

Publications (1)

Publication Number Publication Date
CN106056130A true CN106056130A (zh) 2016-10-26

Family

ID=57176448

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610331710.1A Pending CN106056130A (zh) 2016-05-18 2016-05-18 针对不平衡数据集的组合降采样线性判别分类方法

Country Status (1)

Country Link
CN (1) CN106056130A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106529598A (zh) * 2016-11-11 2017-03-22 北京工业大学 一种基于不均衡医疗图像数据集的分类方法与系统
CN109145128A (zh) * 2018-08-15 2019-01-04 东北大学 一种大规模数据在线可视化方法
CN109446324A (zh) * 2018-10-16 2019-03-08 北京字节跳动网络技术有限公司 样本数据的处理方法、装置、存储介质及电子设备
CN110222559A (zh) * 2019-04-24 2019-09-10 深圳市微纳集成电路与系统应用研究院 基于卷积神经网络的烟雾图像检测方法及装置
CN110276409A (zh) * 2019-06-27 2019-09-24 腾讯科技(深圳)有限公司 一种时间序列异常检测方法、装置、服务器和存储介质
CN110321427A (zh) * 2018-03-28 2019-10-11 广东亿迅科技有限公司 面向不平衡数据集的基于bagging算法的文本分类方法及装置
CN111062806A (zh) * 2019-12-13 2020-04-24 合肥工业大学 个人金融信用风险评价方法、系统和存储介质
CN111091142A (zh) * 2019-11-25 2020-05-01 国网四川省电力公司电力科学研究院 样本数量不平衡的电力系统暂态稳定状态集成预测方法
WO2020140597A1 (zh) * 2018-12-31 2020-07-09 华南理工大学 一种适用于无标签不平衡数据流的在线主动学习方法
CN113223727A (zh) * 2021-05-08 2021-08-06 浙江大学 非小细胞肺癌集成预后预测模型及其构建方法、装置和应用
CN114220026A (zh) * 2021-12-30 2022-03-22 杭州电子科技大学 一种基于多分类思想的海面小目标检测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102254177A (zh) * 2011-04-22 2011-11-23 哈尔滨工程大学 一种不均衡数据svm轴承故障检测方法
CN102298646A (zh) * 2011-09-21 2011-12-28 苏州大学 一种主观文本和客观文本分类方法及装置
CN102945280A (zh) * 2012-11-15 2013-02-27 翟云 一种基于非平衡数据分布的多异质基分类器融合分类方法
CN103645249A (zh) * 2013-11-27 2014-03-19 国网黑龙江省电力有限公司 基于精简集下采样不均衡svm变压器在线故障检测方法
CN103927874A (zh) * 2014-04-29 2014-07-16 东南大学 基于欠抽样面向不平衡数据集的交通事件自动检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102254177A (zh) * 2011-04-22 2011-11-23 哈尔滨工程大学 一种不均衡数据svm轴承故障检测方法
CN102298646A (zh) * 2011-09-21 2011-12-28 苏州大学 一种主观文本和客观文本分类方法及装置
CN102945280A (zh) * 2012-11-15 2013-02-27 翟云 一种基于非平衡数据分布的多异质基分类器融合分类方法
CN103645249A (zh) * 2013-11-27 2014-03-19 国网黑龙江省电力有限公司 基于精简集下采样不均衡svm变压器在线故障检测方法
CN103927874A (zh) * 2014-04-29 2014-07-16 东南大学 基于欠抽样面向不平衡数据集的交通事件自动检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
PILSUNG KANG,SUNGZOON CHO: "EUS SVMs: Ensemble of Under-Sampled SVMs for Data Imbalance Problems", 《ICONIP 2006》 *
XIAOGUANG LU 等: "Resampling for Face Recognition", 《AVBPA 2003》 *
闵行 等: "组合降采样极限学习机", 《信息技术》 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106529598A (zh) * 2016-11-11 2017-03-22 北京工业大学 一种基于不均衡医疗图像数据集的分类方法与系统
CN106529598B (zh) * 2016-11-11 2020-05-08 北京工业大学 一种基于不均衡医疗图像数据集的分类方法与系统
CN110321427A (zh) * 2018-03-28 2019-10-11 广东亿迅科技有限公司 面向不平衡数据集的基于bagging算法的文本分类方法及装置
CN109145128A (zh) * 2018-08-15 2019-01-04 东北大学 一种大规模数据在线可视化方法
CN109145128B (zh) * 2018-08-15 2021-06-29 东北大学 一种大规模数据在线可视化方法
CN109446324A (zh) * 2018-10-16 2019-03-08 北京字节跳动网络技术有限公司 样本数据的处理方法、装置、存储介质及电子设备
CN109446324B (zh) * 2018-10-16 2020-12-15 北京字节跳动网络技术有限公司 样本数据的处理方法、装置、存储介质及电子设备
WO2020140597A1 (zh) * 2018-12-31 2020-07-09 华南理工大学 一种适用于无标签不平衡数据流的在线主动学习方法
CN110222559A (zh) * 2019-04-24 2019-09-10 深圳市微纳集成电路与系统应用研究院 基于卷积神经网络的烟雾图像检测方法及装置
CN110276409A (zh) * 2019-06-27 2019-09-24 腾讯科技(深圳)有限公司 一种时间序列异常检测方法、装置、服务器和存储介质
CN111091142A (zh) * 2019-11-25 2020-05-01 国网四川省电力公司电力科学研究院 样本数量不平衡的电力系统暂态稳定状态集成预测方法
CN111062806A (zh) * 2019-12-13 2020-04-24 合肥工业大学 个人金融信用风险评价方法、系统和存储介质
CN111062806B (zh) * 2019-12-13 2022-05-10 合肥工业大学 个人金融信用风险评价方法、系统和存储介质
CN113223727A (zh) * 2021-05-08 2021-08-06 浙江大学 非小细胞肺癌集成预后预测模型及其构建方法、装置和应用
CN113223727B (zh) * 2021-05-08 2022-07-12 浙江大学 非小细胞肺癌集成预后预测模型及其构建方法、装置和应用
CN114220026A (zh) * 2021-12-30 2022-03-22 杭州电子科技大学 一种基于多分类思想的海面小目标检测方法

Similar Documents

Publication Publication Date Title
CN106056130A (zh) 针对不平衡数据集的组合降采样线性判别分类方法
Gupta et al. Breast cancer histopathological image classification: is magnification important?
Nanni et al. Survey on LBP based texture descriptors for image classification
Saha et al. Brain image segmentation using semi-supervised clustering
Rathore et al. Automated colon cancer detection using hybrid of novel geometric features and some traditional features
Hussain et al. A comparison of SVM kernel functions for breast cancer detection
Wajid et al. Local energy-based shape histogram feature extraction technique for breast cancer diagnosis
Naseem et al. An automatic detection of breast cancer diagnosis and prognosis based on machine learning using ensemble of classifiers
CN109658411A (zh) 一种基于ct影像学特征与非小细胞肺癌患者预后情况的相关性分析方法
Suresh et al. A novel internet of things framework integrated with real time monitoring for intelligent healthcare environment
CN108764366A (zh) 针对非均衡数据的特征选择和聚类抽样集成二分类方法
CN108647736A (zh) 一种基于感知损失和匹配注意力机制的图像分类方法
CN105975518B (zh) 基于信息熵的期望交叉熵特征选择文本分类系统及方法
CN102208020A (zh) 基于最优维数标度切判据的人脸识别方法
Xu et al. Adjustable adaboost classifier and pyramid features for image-based cervical cancer diagnosis
CN107679368A (zh) 基于遗传算法和变精度粗糙集的pet/ct高维特征级选择方法
CN109934278A (zh) 一种信息增益混合邻域粗糙集的高维度特征选择方法
CN106250701B (zh) 计算机软件系统中实现肺结节危险程度分类的系统和方法
Abdel-Nasser et al. Towards cost reduction of breast cancer diagnosis using mammography texture analysis
CN103246894A (zh) 一种解决光照不敏感问题的地基云图识别方法
CN103955709A (zh) 基于加权合成核与tmf的极化sar图像分类方法
Dong et al. Cervical cell classification based on the CART feature selection algorithm
Tian et al. Breast cancer diagnosis using feature extraction and boosted C5. 0 decision tree algorithm with penalty factor
CN101853401B (zh) 一种基于二维经验模态分解的多分组图像分类方法
Thibault et al. Efficient statistical/morphological cell texture characterization and classification

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20161026

RJ01 Rejection of invention patent application after publication