CN105469122A - 一种基于非平衡样本的计算机数据挖掘方法 - Google Patents
一种基于非平衡样本的计算机数据挖掘方法 Download PDFInfo
- Publication number
- CN105469122A CN105469122A CN201511015488.6A CN201511015488A CN105469122A CN 105469122 A CN105469122 A CN 105469122A CN 201511015488 A CN201511015488 A CN 201511015488A CN 105469122 A CN105469122 A CN 105469122A
- Authority
- CN
- China
- Prior art keywords
- feature
- kernel function
- sample
- unbalance
- samples
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于非平衡样本的计算机数据挖掘方法,该挖掘方法通过输入给定非平衡样本集,并对输入样本进行特征集求解,再采用基于流形学习的特征加权法计算特征的权重系数,建立基于权重系数的线性变换加权矩阵,并采用线性变换加权矩阵改造Gauss核函数,得到基于特征加权的核函数,最后建立基于特征加权核函数的支持向量机分类模型,对非平衡样本进行筛选分类。本发明能有效处理非平衡样本数据,具有更强的泛化能力和鲁棒性,提高了数据挖掘的精度,便于高效地对非平衡样本进行筛选分类。
Description
技术领域
本发明涉及计算机数据挖掘的领域,尤其是涉及一种基于非平衡样本的计算机数据挖掘方法。
背景技术
近年来,随着数据采集和存储等技术的发展,信息社会的数据呈现了爆棚式增长,出现了“数据丰富,信息贫乏”的局面。海量数据不仅使得人们难以分辨出有用的数据,更大大增加了数据分析工作的复杂程度。为了解决这个问题,数据挖掘技术应运而生。数据挖掘的诞生,旨在将社会上存在的可以广泛使用的大量数据,转换成有用的知识和信息,应用于市场分析、欺诈监测、顾客保有、产品控制和科学探索等。
在实际应用中,数据挖掘任务繁多,但通常可以分为两类:预测和播述。它涉及多个学科,比如机器学习、数理统计、棋式识别、信号处理、数据库等等,数据挖掘作为一口面向应用的技术,传统的数据挖掘算法不能适用于所有应用场景。因为在实际应用中,数据库中的数据往往不是十分理想,比如非平衡数据、多分类数据、时间序列和数据流等。
非平衡数据集分为两种,一种是本质非平衡数据集,比如电信恶意欠费问题,实际上恶意欠费的客户样本就比较少;另一种是非本质非平衡数据集,由于部分样本数据采集成本较少。但不过哪一种非平衡数据其数据挖掘目前都还没有很好的处理方法,都有待于进一步研究。
发明内容
本发明的目的是克服现有技术中存在的上述缺陷,提供一种基于非平衡样本的计算机数据挖掘方法,使其能有效处理非平衡样本数据,具有更强的泛华能力和鲁棒性,提高了数据挖掘的精度,便于高效地对非平衡样本进行筛选分类。
为了实现上述目的,本发明提供了一种基于非平衡样本的计算机数据挖掘方法,该方法包括如下步骤:
步骤1:输入给定非平衡样本集X,其中X={X1,X2,…,Xn};
步骤2:对输入样本进行特征集求解,求取其特征集为fs,其特征集fs表示为:
fs={f1,f2,…,fn};
步骤3:采用层次分析法计算特征fi的权重系数Wi;
步骤4:建立基于权重系数Wi的线性变换加权矩阵P,其线性变换加权矩阵P表示为:
步骤5:采用线性变换加权矩阵P改造Gauss核函数,得到基于特征加权的核函数K(Xi,Xj),其核函数K(Xi,Xj)表示为:
K(Xi,Xj)=Φ(Xi)Φ(Xj),
其中,Φ表示输入空间到特征空间的映射,Xi和Xj为非平衡样本集X中的样本;
步骤6:建立基于特征加权核函数的支持向量机分类模型f(x),其表达式为:
其中,yi为类标签,xi为样本数据,ai为样本点xi的拉格朗日乘子,C为惩罚参数;
步骤7:设定需分类的分类种数m,利用Matlab编程软件对支持向量机分类模型f(x)求解,从而得到对非平衡样本的筛选分类结果。
与现有技术相比,本发明的主要优势在于:
本发明公开了一种基于非平衡样本的计算机数据挖掘方法,该挖掘方法通过输入给定非平衡样本集,并对输入样本进行特征集求解,再采用基于流形学习的特征加权法计算特征的权重系数,建立基于权重系数的线性变换加权矩阵,并采用线性变换加权矩阵改造Gauss核函数,得到基于特征加权的核函数,最后建立基于特征加权核函数的支持向量机分类模型,对非平衡样本进行筛选分类。本发明能有效处理非平衡样本数据,具有更强的泛化能力和鲁棒性,提高了数据挖掘的精度,便于高效地对非平衡样本进行筛选分类。
附图说明
图1为本发明的实现原理框图。
具体实施方式
以下结合附图对本发明的具体实施方式进行详细说明,以便本领域的技术人员更好地理解本发明。
如图1所示,是本发明所述的一种基于非平衡样本的计算机数据挖掘方法的具体实施方式,其具体实施步骤为:
步骤1:输入给定非平衡样本集X,其中X={X1,X2,…,Xn};
步骤2:对输入样本进行特征集求解,求取其特征集为fs,其特征集fs表示为:
fs={f1,f2,…,fn};
步骤3:采用层次分析法计算特征fi的权重系数Wi;
步骤4:建立基于权重系数Wi的线性变换加权矩阵P,其线性变换加权矩阵P表示为:
步骤5:采用线性变换加权矩阵P改造Gauss核函数,得到基于特征加权的核函数K(Xi,Xj),其核函数K(Xi,Xj)表示为:
K(Xi,Xj)=Φ(Xi)Φ(Xj),
其中,Φ表示输入空间到特征空间的映射,Xi和Xj为非平衡样本集X中的样本;
步骤6:建立基于特征加权核函数的支持向量机分类模型f(x),其表达式为:
其中,yi为类标签,xi为样本数据,ai为样本点xi的拉格朗日乘子,C为惩罚参数;
步骤7:设定需分类的分类种数m,利用Matlab编程软件对支持向量机分类模型f(x)求解,从而得到对非平衡样本的筛选分类结果。
该挖掘方法通过输入给定非平衡样本集,并对输入样本进行特征集求解,再采用基于流形学习的特征加权法计算特征的权重系数,建立基于权重系数的线性变换加权矩阵,并采用线性变换加权矩阵改造Gauss核函数,得到基于特征加权的核函数,最后建立基于特征加权核函数的支持向量机分类模型,对非平衡样本进行筛选分类。本发明能有效处理非平衡样本数据,具有更强的泛化能力和鲁棒性,提高了数据挖掘的精度,便于高效地对非平衡样本进行筛选分类。
以上实施方式仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。
Claims (1)
1.一种基于非平衡样本的计算机数据挖掘方法,其特征在于,包括以下步骤:
步骤1:输入给定非平衡样本集X,其中X={X1,X2,···,Xn};
步骤2:对输入样本进行特征集求解,求取其特征集为fs,其特征集fs表示为:
fs={f1,f2,···,fn};
步骤3:采用层次分析法计算特征fi的权重系数Wi;
步骤4:建立基于权重系数Wi的线性变换加权矩阵P,其线性变换加权矩阵P表示为:
步骤5:采用线性变换加权矩阵P改造Gauss核函数,得到基于特征加权的核函数K(Xi,Xj),其核函数K(Xi,Xj)表示为:
K(Xi,Xj)=Φ(Xi)Φ(Xj),
其中,Φ表示输入空间到特征空间的映射,Xi和Xj为非平衡样本集X中的样本;
步骤6:建立基于特征加权核函数的支持向量机分类模型f(x),其表达式为:
其中,yi为类标签,xi为样本数据,ai为样本点xi的拉格朗日乘子,C为惩罚参数,
步骤7:设定需分类的分类种数m,利用Matlab编程软件对支持向量机分类模型f(x)求解,从而得到对非平衡样本的筛选分类结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201511015488.6A CN105469122A (zh) | 2015-12-29 | 2015-12-29 | 一种基于非平衡样本的计算机数据挖掘方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201511015488.6A CN105469122A (zh) | 2015-12-29 | 2015-12-29 | 一种基于非平衡样本的计算机数据挖掘方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105469122A true CN105469122A (zh) | 2016-04-06 |
Family
ID=55606793
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201511015488.6A Pending CN105469122A (zh) | 2015-12-29 | 2015-12-29 | 一种基于非平衡样本的计算机数据挖掘方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105469122A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110147804A (zh) * | 2018-05-25 | 2019-08-20 | 腾讯科技(深圳)有限公司 | 一种不平衡数据处理方法、终端及计算机可读存储介质 |
CN111616686A (zh) * | 2019-12-27 | 2020-09-04 | 电子科技大学 | 基于Heaviside核函数的生理信号非平衡性分析方法 |
CN112598340A (zh) * | 2021-03-04 | 2021-04-02 | 成都飞机工业(集团)有限责任公司 | 一种基于不确定性支持向量机的数据模型比较方法 |
-
2015
- 2015-12-29 CN CN201511015488.6A patent/CN105469122A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110147804A (zh) * | 2018-05-25 | 2019-08-20 | 腾讯科技(深圳)有限公司 | 一种不平衡数据处理方法、终端及计算机可读存储介质 |
CN110147804B (zh) * | 2018-05-25 | 2023-07-14 | 腾讯科技(深圳)有限公司 | 一种不平衡数据处理方法、终端及计算机可读存储介质 |
CN111616686A (zh) * | 2019-12-27 | 2020-09-04 | 电子科技大学 | 基于Heaviside核函数的生理信号非平衡性分析方法 |
CN111616686B (zh) * | 2019-12-27 | 2020-12-29 | 电子科技大学 | 基于Heaviside核函数的生理信号非平衡性分析方法 |
CN112598340A (zh) * | 2021-03-04 | 2021-04-02 | 成都飞机工业(集团)有限责任公司 | 一种基于不确定性支持向量机的数据模型比较方法 |
CN112598340B (zh) * | 2021-03-04 | 2021-06-22 | 成都飞机工业(集团)有限责任公司 | 一种基于不确定性支持向量机的数据模型比较方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102081655B (zh) | 基于贝叶斯分类算法的信息检索方法 | |
CN106228398A (zh) | 基于c4.5决策树算法的特定用户挖掘系统及其方法 | |
CN105469122A (zh) | 一种基于非平衡样本的计算机数据挖掘方法 | |
CN103092931A (zh) | 多策略结合文档自动分类方法 | |
Peruzzi et al. | Does actually mean chromosome number increase with latitude in vascular plants? An answer from the comparison of Italian, Slovak and Polish floras | |
CN107092743A (zh) | 基于规则辅助的高炉冶炼过程数据驱动建模方法 | |
CN103744935A (zh) | 一种计算机快速海量数据聚类处理方法 | |
Duhayyim et al. | Deep Reinforcement Learning Enabled Smart City Recycling Waste Object Classification. | |
Gangopadhyay et al. | CGBNet: A Deep Learning Framework for Compost Classification | |
Anding et al. | Application of intelligent image processing in the construction material industry | |
CN102156824B (zh) | 一种ssr分子标记冗余性的生物信息学分析方法 | |
CN103207804A (zh) | 基于集群作业日志的MapReduce负载模拟方法 | |
Poojary et al. | Classification of garbage for robtic system using deep learning techniques | |
Nijkamp et al. | Impacts of Multiple‐Period Lags in Dynamic Logit Models | |
Jamkhaneh et al. | Fuzzy system reliability analysis based on confidence interval | |
CN105653615A (zh) | 基于大数据的计算机数据挖掘探索方法 | |
Amin | Optimal solution of technology selection model: a computational efficient form | |
Wadmare et al. | A Vision-Based Approach for Solid Waste Materials Feature Extraction Using Deep Learning Techniques | |
Kim et al. | Development of an actor-critic deep reinforcement learning platform for robotic grasping in real world | |
CN107133258A (zh) | 一种基于选择性集成分类器的数据打标签方法 | |
Menaka et al. | To Improving the Performance of Identification and Segregation of Liquid and Solid from Municipal Waste Using Adam Optimization Algorithm | |
CN102426631A (zh) | 一种基于高维空间映射的k调和均值聚类方法 | |
Jiang et al. | Attribute reduction method of power big data based on rough set | |
Trif et al. | ASPECTS REGARDING THE DEVELOPMENT OF A ROBOTIC SYSTEM USED FOR WASTE MANAGEMENT. | |
Das et al. | Outdoor Trash Detection in Natural Environment Using a Deep Learning Model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160406 |
|
RJ01 | Rejection of invention patent application after publication |