CN102495901B - 通过局部均值保持实现类数据平衡的方法 - Google Patents
通过局部均值保持实现类数据平衡的方法 Download PDFInfo
- Publication number
- CN102495901B CN102495901B CN201110424646.9A CN201110424646A CN102495901B CN 102495901 B CN102495901 B CN 102495901B CN 201110424646 A CN201110424646 A CN 201110424646A CN 102495901 B CN102495901 B CN 102495901B
- Authority
- CN
- China
- Prior art keywords
- data
- class
- minority class
- minority
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Image Analysis (AREA)
Abstract
本发明公开了一种通过局部均值保持实现类数据平衡的方法,1)通过获取训练数据,判别少数类;计算多数类与少数类数据的个数,同时计算多数类数据个数与少数类数据个数比值的整数;2)对少数类中的每个数据计算少数类中的k个近邻,并利用它的k个近邻加权生成一个新数据;3)通过调整权重中的参数并利用每个数据的k个近邻加权求和为每个数据多次生成新数据;4)将新数据标记为少数类,并与原数据合并得到平衡的两类数据;5)平衡后的两类数据用于后续处理,即训练分类算法,实现对新的未标记数据的分类。本发明可以提高医疗诊断的准确率、提高网络攻击的识别率、提高服务器故障的识别率、提高垃圾网页的识别率等。
Description
技术领域
本发明涉及一种通过局部均值保持实现类数据平衡的方法,属于信息技术领域。
背景技术
在生产生活中,我们需要对各类数据进行处理,以便从数据中发现有用信息,如分析大量卫星图像确定石油勘探的位置;比对大量的医学影像资料,确定病人是否患有某种疾病;从大量的网络登陆及访问信息中,发现哪些是正常访问及哪些是恶意访问;从收集的大量服务器健康运营信息中发现哪些是非正常信息,以便采取必要措施;从大量的DNA结构中发现不正常结构信息,从而获取导致不同疾病的根本原因。类似上述问题大量出现,并存在如下共同点:数据中不同类别的样例数量存在巨大差异,如网络访问信息,绝大部分访问都是正常访问数据,而恶意访问只占极少部分;识别出现频率低的数据具有更重要意义。具有上述特点的数据集称为类别不平衡数据。其中对两类问题而言,数量多的一类称为多数类,另一类称为少数类。
传统分类技术不能很好地对类别不平衡数据进行分类,尤其少数类数据的错分将会导致严重后果。如对一个患有癌症的病人,若通过其影像资料将其诊断为无癌症患者,将耽误治疗,带来生命财产的重大损失。为此解决该问题具有重要价值。
目前平衡不同类数据的技术主要有三种,分别是欠采样技术、过采样技术及两者的结合技术。欠取样技术通过从多数类中取出与少数类相当数量的数据,然后应用传统分类技术对平衡后的数据处理。主要技术有随机欠采样、Tomeklinks(I.Tomek.Two Modifications of CNN.IEEE Transactions on Systems[J],Man and Communications SMC-6.1976,769-772.)欠取样及基于k近邻技术的欠取样。欠采样去掉部分多数类数据,会丢失原数据集的部分信息。另一种技术对少数类数据进行过取样处理,主要技术有:随机过采样、SMOTE技术及各种SMOTE变种。过采样技术通过随机复制少数类数据增加少数类,但单纯复制少数类数据会造成分类算法的过拟合。SMOTE(N.Chawla,K.Bowyer,L.Hall,W.P.Kegelmeyer,SMOTE:synthetic minority over-sampling technique,Journal of Artificial Intelligence Research 16(2002)321-357.)在少数类两相邻数据间采用线性插值产生人工数据达到平衡不同类数据的目的,其他SMOTE变种方法采用类似技术,只是对特定的少数类数据执行插值操作。该类方法不是通过复制而是通过生成新数据平衡数据,避免了分类算法的过拟合,但存在破坏数据局部一致性等问题。将上述欠取样及过取样两者结合的技术同样存在上述问题。
发明内容
本发明的目的就是为解决上述问题,提供一种通过局部均值保持实现类数据平衡的方法,可保证数据的分类效果较少受到为提高分类准确度而做的各种数据变换的影响;同时对于大量具有流形结构的数据如DNA数据、医学影像数据等,局部一致性保持更加重要,直接影响数据的分类效果。
为实现上述目的,本发明采用如下技术方案:
一种通过局部均值保持实现类数据平衡的方法,
1)通过获取训练数据,判别少数类;计算多数类与少数类数据的个数,同时计算多数类数据个数与少数类数据个数比值的整数;
2)对少数类中的每个数据计算少数类中的k个近邻,并利用它的k个近邻加权生成一个新数据;
3)通过调整权重中的参数并利用每个数据的k个近邻加权求和为每个数据多次生成新数据;
4)将新数据标记为少数类,并与原数据一并作为训练数据,训练分类算法,实现对数据的分类。
所述步骤1)中,少数类是指具有某个标记的数据个数最少的那一类,具有其它标记的数据都称为多数类数据。
所述步骤1)中,计算多数类与少数类数据的个数只针对类别标记个数为2的情况。
所述步骤1)中,多数类数据个数与少数类数据个数比值的整数是指不大于两者商的最大整数。
所述步骤2)中,k个近邻指k个与指定数据的欧几里德距离最近的数据,欧几里德距离为两个数据差的模。
所述步骤3)中,权重由高斯分布函数定义,其中的参数为该分布的方差。
所述加权求和为计算k个近邻与对应权重的乘积之和,并除以k个权重之和。
所述方差的调整通过方差乘以0.9实现。
本发明的具体步骤为:
a假设给定的少数类数据集合由D+表示,多数类数据集合由D-,令s=inf|(D-|/|D+|,其中|D-|和|D+|分别表示多数类及少数类数据的个数,s为不大于两者商的最大整数;
b计算D+数据集合中数据的方差,记为t;对于(其中i=1,2,…,|D+|),从集合D+中选择k个与xi的欧式距离最小的数据,这些数据组成集合Ne(xi);对于(其中j=1,2,…,k),则xi与xj的欧式距离为范数||xi-xj||;k一般设定为6;
c定义权重
其中t为少数类数据的方差,按照如下方法生成人工数据:
(1)输入D+、s及t,建立空的数据集合D用于存储新生成的数据,并对(2)循环操作s-1次;
(2)依次对D+中的每个数据进行如下操作:计算权重,并计算与xi对应的新生成数据(其中i=1,2,…,|D+|);将生成的数据赋予少数类标记,同时令t=0.9t及
令D+=D+∪D,并与D-一并构成训练数据训练分类算法,实现对数据的分类。
所述分类算法为决策树、神经网络、贝叶斯分类器与支持向量机算法。
本发明提出一种局部均值保持实现类数据平衡的技术,平衡数据时能够很好保持数据的局部一致性,同时该对平衡具有流形结构的数据如DNA数据、人脸图像数据等具有更加明显的优势。
本发明的有益效果是:具有数据局部一致性保持功能;降低数据变换对分类效果的影响;对具有流形结构数据的类平衡优势更加明显。经过处理后的数据在后续的分类中,可很好提高少数类的分类准确度。
附图说明
图1为本发明的工作流程图。
具体实施方式
下面结合附图与实施例对本发明做进一步说明。
实施例1:医学图像数据平衡处理用于肺部癌症诊断
说明:病人所拍摄的肺部医学图像中,大多数为被诊断为非癌症的图像,只有少数被诊断为患癌症的图像,这些图像首先用来训练分类算法,用训练好的分类算法对新拍摄图像诊断前,需要平衡两类数据的数量,否则,对患癌症的诊断准确性就会很低。
图1中,数据平衡过程如下:
1)收集肺部医疗诊断病人的医学图像,根据医生的诊断结果将其标记为非肺癌病人与肺癌病人两类,其中患癌症的图像数据为少数类数据;
2)采用通用软件工具如matlab,将医学图像转化成多维向量数据,计算两类图像个数比值,按照发明具体步骤a中的方法取整,并对肺癌病人数据做后续平衡处理;
3)计算癌症图像数据的方差,记为t;对于任意一个癌症患者的图像数据xi,从所有癌症图像数据中找出k个与xi欧式距离最小的数据,这些数据组成集合Ne(xi);对于(其中j=1,2,…,k),则xi与xj的欧式距离为范数||xi-xj||。k一般设定为6;
计算权重
4)下面过程循环操作s-1次:对每个癌症图像数据xi,按照生成一个人工医学图像数据,并将t=0.9t;
5)步骤4)生成的图像数据都作为癌症图像数据,与2)中转化后的图像数据合并到一起,用于后续处理;
6)后续处理:上述经过类平衡的医学图像数据首先用来训练分类器,如决策树、支持向量机等皆可;对于新病人的医学图像按2)处理后,经训练好的分类器进行分类,分为癌症图像或非癌症图像。
实施例2:DNA数据平衡用于异常DNA链识别
说明:DNA图像中,大多数为正常链结构图像,只有少数为异常链结构图像,用人工方法去标记费时费力,需要借助计算机辅助完成。用标记好地数据训练分类算法前,需要平衡两类数据的数量,否则学习好的分类算法对新图像识别时,异常链结构的识别准确性就会很低。
数据平衡过程如下:
1)收集人工标记的DNA图像数据,标记分为正常链图像数据及异常链图像数据;
2)按照实施例1的从步骤2)到步骤5)相同的方法平衡数据;
3)后续处理:上述经过类平衡的DNA数据首先用来训练分类器,如决策树、支持向量机等皆可;对于新DNA数据示例的步骤按2)处理后,经训练好的分类器进行分类,分为正常DNA链数据或异常DNA链数据。
实施例3:web网页数据平衡用于垃圾页面识别
说明:web网页大多数为正常页面,只有少数为垃圾页面,用人工方法去标记费时费力,需要借助计算机辅助完成。用标记好地数据训练分类算法前,需要平衡人工标记好的两类页面数据的数量,否则学习好的分类算法对新页面区分时,新的页面若为垃圾页面时被正确识别的准确性就会很低。
数据平衡过程如下:
1)将人工标记为正常与垃圾的每个web页面采用流行的VSM(向量空间模型)表示,即每个页面通过一个向量表示;
2)按照实施例1的从步骤3)到步骤5)相同的方法平衡数据;
3)后续处理:上述经过类平衡的web页面数据首先用来训练分类器,如决策树、支持向量机等皆可;对于新的web页面,首先将其表示成向量,经训练好的分类器进行分类,分为正常页面或垃圾页面。
Claims (1)
1.一种通过局部均值保持实现类数据平衡的方法,其特征是,
1)通过获取训练数据,判别少数类;计算多数类与少数类数据的个数,同时计算多数类数据个数与少数类数据个数比值的整数;所述步骤1)中,少数类是指具有某个标记的数据个数最少的那一类,具有其它标记的数据都称为多数类数据;计算多数类与少数类数据的个数只针对类别标记个数为2的情况;多数类数据个数与少数类数据个数比值的整数是指不大于两者商的最大整数;所述训练数据包括医学图像数据;
2)对少数类中的每个数据计算少数类中的k个近邻,并利用它的k个近邻加权生成一个新数据;所述步骤2)中,k个近邻指k个与指定数据的欧几里德距离最近的数据,欧几里德距离为两个数据差的模;权重由高斯分布函数定义,其中的参数为该分布的方差;所述加权生成一个新数据为计算k个近邻与对应权重的乘积之和,并除以k个权重之和;所述方差的调整通过方差乘以0.9实现;
3)通过调整权重中的参数并利用每个数据的k个近邻加权求和为每个数据多次生成新数据;
4)将新数据标记为少数类,并与原数据一并作为训练数据,训练分类算法,实现对数据的分类;
所述的通过局部均值保持实现类数据平衡的方法,具体步骤为:
a假设给定的少数类数据集合由D+表示,多数类数据集合由D-表示,令s=inf(|D-|/|D+|其中|D-|和|D+|分别表示多数类及少数类数据的个数,s为不大于两者商的最大整数;
b计算D+数据集合中数据的方差,记为t;对于从集合D+中选择k个与xi的欧式距离最小的数据,这些数据组成集合Ne(xi);对于则xi与xj的欧式距离为范数||xi-xj||;k设定为6;其中j=1,2,…,k;
c定义权重
其中t为少数类数据的方差,按照如下方法生成人工数据:
(1)输入D+、s及t,建立空的数据集合D用于存储新生成的数据,并对(2)循环操作s-1次;
(2)依次对D+中的每个数据进行如下操作:计算权重,并计算与xi对应的新生成数据其中i=1,2,…,|D+|;将生成的数据赋予少数类标记,同时令t=0.9t及
令D+=D+∪D,并与D-一并构成训练数据训练分类算法,实现对数据的分类;
所述通过局部均值保持实现类平衡的数据,用于训练分类器,所述分类算法为决策树、神经网络、贝叶斯分类器及支持向量机算法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110424646.9A CN102495901B (zh) | 2011-12-16 | 2011-12-16 | 通过局部均值保持实现类数据平衡的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110424646.9A CN102495901B (zh) | 2011-12-16 | 2011-12-16 | 通过局部均值保持实现类数据平衡的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102495901A CN102495901A (zh) | 2012-06-13 |
CN102495901B true CN102495901B (zh) | 2014-10-15 |
Family
ID=46187726
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201110424646.9A Expired - Fee Related CN102495901B (zh) | 2011-12-16 | 2011-12-16 | 通过局部均值保持实现类数据平衡的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102495901B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104239516A (zh) * | 2014-09-17 | 2014-12-24 | 南京大学 | 一种不平衡数据分类方法 |
CN106021299B (zh) * | 2016-05-03 | 2020-07-10 | Tcl科技集团股份有限公司 | 文本的降维特征向量确定方法及装置 |
JP6828587B2 (ja) * | 2017-05-22 | 2021-02-10 | トヨタ自動車株式会社 | 画像処理システム、画像処理方法、情報処理装置及び記録媒体 |
CN108647728B (zh) * | 2018-05-10 | 2019-04-19 | 广州大学 | 不平衡数据分类过采样方法、装置、设备及介质 |
CN109726821B (zh) * | 2018-11-27 | 2021-07-09 | 东软集团股份有限公司 | 数据均衡方法、装置、计算机可读存储介质及电子设备 |
CN110852396A (zh) * | 2019-11-15 | 2020-02-28 | 苏州中科华影健康科技有限公司 | 一种宫颈图像的样本数据处理方法 |
CN112989207B (zh) * | 2021-04-27 | 2021-08-27 | 武汉卓尔数字传媒科技有限公司 | 一种信息推荐方法及装置、电子设备、存储介质 |
CN116230193B (zh) * | 2023-05-11 | 2023-07-21 | 聊城市第二人民医院 | 一种智能化医院用档案管理方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101742080A (zh) * | 2008-11-04 | 2010-06-16 | 深圳市融创天下科技发展有限公司 | 一种视频图像4/3倍放大方法 |
CN101980202A (zh) * | 2010-11-04 | 2011-02-23 | 西安电子科技大学 | 不平衡数据的半监督分类方法 |
-
2011
- 2011-12-16 CN CN201110424646.9A patent/CN102495901B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101742080A (zh) * | 2008-11-04 | 2010-06-16 | 深圳市融创天下科技发展有限公司 | 一种视频图像4/3倍放大方法 |
CN101980202A (zh) * | 2010-11-04 | 2011-02-23 | 西安电子科技大学 | 不平衡数据的半监督分类方法 |
Non-Patent Citations (2)
Title |
---|
王晓芹.类别不平衡数据的集成学习研究.《中国优秀硕士学位论文全文数据库信息科技辑》.2011, |
类别不平衡数据的集成学习研究;王晓芹;《中国优秀硕士学位论文全文数据库信息科技辑》;20110315;正文第1页、第4-6页、第23-28页,表4-2、4-3,图4-4 * |
Also Published As
Publication number | Publication date |
---|---|
CN102495901A (zh) | 2012-06-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102495901B (zh) | 通过局部均值保持实现类数据平衡的方法 | |
Kiran et al. | Offline signature recognition using image processing techniques and back propagation neuron network system | |
Saha et al. | Brain image segmentation using semi-supervised clustering | |
Oyedotun et al. | Document segmentation using textural features summarization and feedforward neural network | |
Yen et al. | Cluster-based under-sampling approaches for imbalanced data distributions | |
Yen et al. | Under-sampling approaches for improving prediction of the minority class in an imbalanced dataset | |
CN104915673B (zh) | 一种基于视觉词袋模型的目标分类方法和系统 | |
Zhao et al. | Adaptive logit adjustment loss for long-tailed visual recognition | |
CN114492768B (zh) | 一种基于小样本学习的孪生胶囊网络入侵检测方法 | |
CN107992887A (zh) | 分类器生成方法、分类方法、装置、电子设备及存储介质 | |
CN102129568B (zh) | 利用改进的高斯混合模型分类器检测图像垃圾邮件的方法 | |
CN103310227A (zh) | 基于神经网络的自动窗宽窗位提取方法 | |
CN104091038A (zh) | 基于大间隔分类准则的多示例学习特征加权方法 | |
Gupta et al. | Partially-independent framework for breast cancer histopathological image classification | |
CN106250701B (zh) | 计算机软件系统中实现肺结节危险程度分类的系统和方法 | |
Zeng et al. | Detection of double JPEG compression using modified DenseNet model | |
CN101251896A (zh) | 一种基于多分类器的物体检测系统及方法 | |
Frank et al. | Salient slices: Improved neural network training and performance with image entropy | |
Zhuang et al. | A handwritten Chinese character recognition based on convolutional neural network and median filtering | |
Maddumala | A Weight Based Feature Extraction Model on Multifaceted Multimedia Bigdata Using Convolutional Neural Network. | |
Hammad et al. | An secure and effective copy move detection based on pretrained model | |
Zhang et al. | Multicontext 3D residual CNN for false positive reduction of pulmonary nodule detection | |
CN110991485B (zh) | 一种目标检测算法的性能评估方法及系统 | |
Liang et al. | Identification of coal and gangue by self-organizing competitive neural network and SVM | |
Chi et al. | Cluster-based ensemble classification for hyperspectral remote sensing images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20141015 Termination date: 20201216 |
|
CF01 | Termination of patent right due to non-payment of annual fee |