CN105469122A - 一种基于非平衡样本的计算机数据挖掘方法 - Google Patents

一种基于非平衡样本的计算机数据挖掘方法 Download PDF

Info

Publication number
CN105469122A
CN105469122A CN201511015488.6A CN201511015488A CN105469122A CN 105469122 A CN105469122 A CN 105469122A CN 201511015488 A CN201511015488 A CN 201511015488A CN 105469122 A CN105469122 A CN 105469122A
Authority
CN
China
Prior art keywords
feature
kernel function
sample
unbalance
samples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201511015488.6A
Other languages
English (en)
Inventor
黄海洋
关宏波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou University of Light Industry
Original Assignee
Zhengzhou University of Light Industry
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou University of Light Industry filed Critical Zhengzhou University of Light Industry
Priority to CN201511015488.6A priority Critical patent/CN105469122A/zh
Publication of CN105469122A publication Critical patent/CN105469122A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于非平衡样本的计算机数据挖掘方法,该挖掘方法通过输入给定非平衡样本集,并对输入样本进行特征集求解,再采用基于流形学习的特征加权法计算特征的权重系数,建立基于权重系数的线性变换加权矩阵,并采用线性变换加权矩阵改造Gauss核函数,得到基于特征加权的核函数,最后建立基于特征加权核函数的支持向量机分类模型,对非平衡样本进行筛选分类。本发明能有效处理非平衡样本数据,具有更强的泛化能力和鲁棒性,提高了数据挖掘的精度,便于高效地对非平衡样本进行筛选分类。

Description

一种基于非平衡样本的计算机数据挖掘方法
技术领域
本发明涉及计算机数据挖掘的领域,尤其是涉及一种基于非平衡样本的计算机数据挖掘方法。
背景技术
近年来,随着数据采集和存储等技术的发展,信息社会的数据呈现了爆棚式增长,出现了“数据丰富,信息贫乏”的局面。海量数据不仅使得人们难以分辨出有用的数据,更大大增加了数据分析工作的复杂程度。为了解决这个问题,数据挖掘技术应运而生。数据挖掘的诞生,旨在将社会上存在的可以广泛使用的大量数据,转换成有用的知识和信息,应用于市场分析、欺诈监测、顾客保有、产品控制和科学探索等。
在实际应用中,数据挖掘任务繁多,但通常可以分为两类:预测和播述。它涉及多个学科,比如机器学习、数理统计、棋式识别、信号处理、数据库等等,数据挖掘作为一口面向应用的技术,传统的数据挖掘算法不能适用于所有应用场景。因为在实际应用中,数据库中的数据往往不是十分理想,比如非平衡数据、多分类数据、时间序列和数据流等。
非平衡数据集分为两种,一种是本质非平衡数据集,比如电信恶意欠费问题,实际上恶意欠费的客户样本就比较少;另一种是非本质非平衡数据集,由于部分样本数据采集成本较少。但不过哪一种非平衡数据其数据挖掘目前都还没有很好的处理方法,都有待于进一步研究。
发明内容
本发明的目的是克服现有技术中存在的上述缺陷,提供一种基于非平衡样本的计算机数据挖掘方法,使其能有效处理非平衡样本数据,具有更强的泛华能力和鲁棒性,提高了数据挖掘的精度,便于高效地对非平衡样本进行筛选分类。
为了实现上述目的,本发明提供了一种基于非平衡样本的计算机数据挖掘方法,该方法包括如下步骤:
步骤1:输入给定非平衡样本集X,其中X={X1,X2,…,Xn};
步骤2:对输入样本进行特征集求解,求取其特征集为fs,其特征集fs表示为:
fs={f1,f2,…,fn};
步骤3:采用层次分析法计算特征fi的权重系数Wi
步骤4:建立基于权重系数Wi的线性变换加权矩阵P,其线性变换加权矩阵P表示为:
步骤5:采用线性变换加权矩阵P改造Gauss核函数,得到基于特征加权的核函数K(Xi,Xj),其核函数K(Xi,Xj)表示为:
K(Xi,Xj)=Φ(Xi)Φ(Xj),
其中,Φ表示输入空间到特征空间的映射,Xi和Xj为非平衡样本集X中的样本;
步骤6:建立基于特征加权核函数的支持向量机分类模型f(x),其表达式为:
f ( x ) = sgn { Σ i = 1 n Σ j = 1 n y i a i K ( X i , X j ) - C } ,
其中,yi为类标签,xi为样本数据,ai为样本点xi的拉格朗日乘子,C为惩罚参数; C = Σ i = 1 n a i ;
步骤7:设定需分类的分类种数m,利用Matlab编程软件对支持向量机分类模型f(x)求解,从而得到对非平衡样本的筛选分类结果。
与现有技术相比,本发明的主要优势在于:
本发明公开了一种基于非平衡样本的计算机数据挖掘方法,该挖掘方法通过输入给定非平衡样本集,并对输入样本进行特征集求解,再采用基于流形学习的特征加权法计算特征的权重系数,建立基于权重系数的线性变换加权矩阵,并采用线性变换加权矩阵改造Gauss核函数,得到基于特征加权的核函数,最后建立基于特征加权核函数的支持向量机分类模型,对非平衡样本进行筛选分类。本发明能有效处理非平衡样本数据,具有更强的泛化能力和鲁棒性,提高了数据挖掘的精度,便于高效地对非平衡样本进行筛选分类。
附图说明
图1为本发明的实现原理框图。
具体实施方式
以下结合附图对本发明的具体实施方式进行详细说明,以便本领域的技术人员更好地理解本发明。
如图1所示,是本发明所述的一种基于非平衡样本的计算机数据挖掘方法的具体实施方式,其具体实施步骤为:
步骤1:输入给定非平衡样本集X,其中X={X1,X2,…,Xn};
步骤2:对输入样本进行特征集求解,求取其特征集为fs,其特征集fs表示为:
fs={f1,f2,…,fn};
步骤3:采用层次分析法计算特征fi的权重系数Wi
步骤4:建立基于权重系数Wi的线性变换加权矩阵P,其线性变换加权矩阵P表示为:
步骤5:采用线性变换加权矩阵P改造Gauss核函数,得到基于特征加权的核函数K(Xi,Xj),其核函数K(Xi,Xj)表示为:
K(Xi,Xj)=Φ(Xi)Φ(Xj),
其中,Φ表示输入空间到特征空间的映射,Xi和Xj为非平衡样本集X中的样本;
步骤6:建立基于特征加权核函数的支持向量机分类模型f(x),其表达式为:
f ( x ) = sgn { Σ i = 1 n Σ j = 1 n y i a i K ( X i , X j ) - C } ,
其中,yi为类标签,xi为样本数据,ai为样本点xi的拉格朗日乘子,C为惩罚参数; C = Σ i = 1 n a i ;
步骤7:设定需分类的分类种数m,利用Matlab编程软件对支持向量机分类模型f(x)求解,从而得到对非平衡样本的筛选分类结果。
该挖掘方法通过输入给定非平衡样本集,并对输入样本进行特征集求解,再采用基于流形学习的特征加权法计算特征的权重系数,建立基于权重系数的线性变换加权矩阵,并采用线性变换加权矩阵改造Gauss核函数,得到基于特征加权的核函数,最后建立基于特征加权核函数的支持向量机分类模型,对非平衡样本进行筛选分类。本发明能有效处理非平衡样本数据,具有更强的泛化能力和鲁棒性,提高了数据挖掘的精度,便于高效地对非平衡样本进行筛选分类。
以上实施方式仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。

Claims (1)

1.一种基于非平衡样本的计算机数据挖掘方法,其特征在于,包括以下步骤:
步骤1:输入给定非平衡样本集X,其中X={X1,X2,···,Xn};
步骤2:对输入样本进行特征集求解,求取其特征集为fs,其特征集fs表示为:
fs={f1,f2,···,fn};
步骤3:采用层次分析法计算特征fi的权重系数Wi
步骤4:建立基于权重系数Wi的线性变换加权矩阵P,其线性变换加权矩阵P表示为:
步骤5:采用线性变换加权矩阵P改造Gauss核函数,得到基于特征加权的核函数K(Xi,Xj),其核函数K(Xi,Xj)表示为:
K(Xi,Xj)=Φ(Xi)Φ(Xj),
其中,Φ表示输入空间到特征空间的映射,Xi和Xj为非平衡样本集X中的样本;
步骤6:建立基于特征加权核函数的支持向量机分类模型f(x),其表达式为:
F ( x ) = sgn { Σ i = 1 n Σ j = 1 n y i a i K ( X i , X j ) - C } ,
其中,yi为类标签,xi为样本数据,ai为样本点xi的拉格朗日乘子,C为惩罚参数, C = Σ i = 1 n a i ;
步骤7:设定需分类的分类种数m,利用Matlab编程软件对支持向量机分类模型f(x)求解,从而得到对非平衡样本的筛选分类结果。
CN201511015488.6A 2015-12-29 2015-12-29 一种基于非平衡样本的计算机数据挖掘方法 Pending CN105469122A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201511015488.6A CN105469122A (zh) 2015-12-29 2015-12-29 一种基于非平衡样本的计算机数据挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201511015488.6A CN105469122A (zh) 2015-12-29 2015-12-29 一种基于非平衡样本的计算机数据挖掘方法

Publications (1)

Publication Number Publication Date
CN105469122A true CN105469122A (zh) 2016-04-06

Family

ID=55606793

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201511015488.6A Pending CN105469122A (zh) 2015-12-29 2015-12-29 一种基于非平衡样本的计算机数据挖掘方法

Country Status (1)

Country Link
CN (1) CN105469122A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110147804A (zh) * 2018-05-25 2019-08-20 腾讯科技(深圳)有限公司 一种不平衡数据处理方法、终端及计算机可读存储介质
CN111616686A (zh) * 2019-12-27 2020-09-04 电子科技大学 基于Heaviside核函数的生理信号非平衡性分析方法
CN112598340A (zh) * 2021-03-04 2021-04-02 成都飞机工业(集团)有限责任公司 一种基于不确定性支持向量机的数据模型比较方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110147804A (zh) * 2018-05-25 2019-08-20 腾讯科技(深圳)有限公司 一种不平衡数据处理方法、终端及计算机可读存储介质
CN110147804B (zh) * 2018-05-25 2023-07-14 腾讯科技(深圳)有限公司 一种不平衡数据处理方法、终端及计算机可读存储介质
CN111616686A (zh) * 2019-12-27 2020-09-04 电子科技大学 基于Heaviside核函数的生理信号非平衡性分析方法
CN111616686B (zh) * 2019-12-27 2020-12-29 电子科技大学 基于Heaviside核函数的生理信号非平衡性分析方法
CN112598340A (zh) * 2021-03-04 2021-04-02 成都飞机工业(集团)有限责任公司 一种基于不确定性支持向量机的数据模型比较方法
CN112598340B (zh) * 2021-03-04 2021-06-22 成都飞机工业(集团)有限责任公司 一种基于不确定性支持向量机的数据模型比较方法

Similar Documents

Publication Publication Date Title
CN102081655B (zh) 基于贝叶斯分类算法的信息检索方法
Cheng et al. Minimizing makespan and total completion time for parallel batch processing machines with non-identical job sizes
CN103617429A (zh) 一种主动学习分类方法和系统
CN106228398A (zh) 基于c4.5决策树算法的特定用户挖掘系统及其方法
CN105469122A (zh) 一种基于非平衡样本的计算机数据挖掘方法
CN103226728B (zh) 高密度聚乙烯串级聚合反应过程智能检测与收率优化方法
CN106126882A (zh) 基于肯德尔和谐系数排序的勘查区元素地球化学数据优选方法
Anding et al. Application of intelligent image processing in the construction material industry
CN108345620B (zh) 品牌信息处理方法、装置、存储介质及电子设备
CN104268217A (zh) 一种用户行为时间相关性的确定方法及装置
Gangopadhyay et al. CGBNet: A Deep Learning Framework for Compost Classification
Girsang et al. Classification organic and inorganic waste with convolutional neural network using deep learning
Poojary et al. Classification of garbage for robtic system using deep learning techniques
CN1936887A (zh) 基于类别概念空间的自动文本分类方法
Indumathi et al. Prediction and analysis of plant growth promoting bacteria using machine learning for millet crops
Nijkamp et al. Impacts of Multiple‐Period Lags in Dynamic Logit Models
Farzanegan et al. Scenario-based multi-objective genetic algorithm optimization of closed ball-milling circuit of esfordi phosphate plant
CN105653615A (zh) 基于大数据的计算机数据挖掘探索方法
Song et al. The optimized support vector machine with correlative features for classification of natural spearmint essence
Wadmare et al. A Vision-Based Approach for Solid Waste Materials Feature Extraction Using Deep Learning Techniques
Kim et al. Development of an actor-critic deep reinforcement learning platform for robotic grasping in real world
Emeksiz et al. An investigation of the effect of meteorological parameters on wind speed estimation using bagging algorithm
Jiang et al. Attribute Reduction Method of Power Big Data Based on Rough Set
Trif et al. ASPECTS REGARDING THE DEVELOPMENT OF A ROBOTIC SYSTEM USED FOR WASTE MANAGEMENT.
Singh Biogeochemical Cycles: Modeling the Interaction of Carbon and Nitrogen Cycles with Industrial Systems

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20160406

RJ01 Rejection of invention patent application after publication