CN105469122A

CN105469122A - 一种基于非平衡样本的计算机数据挖掘方法

Info

Publication number: CN105469122A
Application number: CN201511015488.6A
Authority: CN
Inventors: 黄海洋; 关宏波
Original assignee: Zhengzhou University of Light Industry
Current assignee: Zhengzhou University of Light Industry
Priority date: 2015-12-29
Filing date: 2015-12-29
Publication date: 2016-04-06

Abstract

本发明公开了一种基于非平衡样本的计算机数据挖掘方法，该挖掘方法通过输入给定非平衡样本集，并对输入样本进行特征集求解，再采用基于流形学习的特征加权法计算特征的权重系数，建立基于权重系数的线性变换加权矩阵，并采用线性变换加权矩阵改造Gauss核函数，得到基于特征加权的核函数，最后建立基于特征加权核函数的支持向量机分类模型，对非平衡样本进行筛选分类。本发明能有效处理非平衡样本数据，具有更强的泛化能力和鲁棒性，提高了数据挖掘的精度，便于高效地对非平衡样本进行筛选分类。

Description

一种基于非平衡样本的计算机数据挖掘方法

技术领域

本发明涉及计算机数据挖掘的领域，尤其是涉及一种基于非平衡样本的计算机数据挖掘方法。

背景技术

近年来，随着数据采集和存储等技术的发展，信息社会的数据呈现了爆棚式增长，出现了“数据丰富，信息贫乏”的局面。海量数据不仅使得人们难以分辨出有用的数据，更大大增加了数据分析工作的复杂程度。为了解决这个问题，数据挖掘技术应运而生。数据挖掘的诞生，旨在将社会上存在的可以广泛使用的大量数据，转换成有用的知识和信息，应用于市场分析、欺诈监测、顾客保有、产品控制和科学探索等。

在实际应用中，数据挖掘任务繁多，但通常可以分为两类:预测和播述。它涉及多个学科，比如机器学习、数理统计、棋式识别、信号处理、数据库等等，数据挖掘作为一口面向应用的技术，传统的数据挖掘算法不能适用于所有应用场景。因为在实际应用中，数据库中的数据往往不是十分理想，比如非平衡数据、多分类数据、时间序列和数据流等。

非平衡数据集分为两种，一种是本质非平衡数据集，比如电信恶意欠费问题，实际上恶意欠费的客户样本就比较少；另一种是非本质非平衡数据集，由于部分样本数据采集成本较少。但不过哪一种非平衡数据其数据挖掘目前都还没有很好的处理方法，都有待于进一步研究。

发明内容

本发明的目的是克服现有技术中存在的上述缺陷，提供一种基于非平衡样本的计算机数据挖掘方法，使其能有效处理非平衡样本数据，具有更强的泛华能力和鲁棒性，提高了数据挖掘的精度，便于高效地对非平衡样本进行筛选分类。

为了实现上述目的，本发明提供了一种基于非平衡样本的计算机数据挖掘方法，该方法包括如下步骤：

步骤1：输入给定非平衡样本集X，其中X＝{X₁,X₂,…,X_n}；

步骤2：对输入样本进行特征集求解，求取其特征集为f_s，其特征集f_s表示为：

f_s＝{f₁,f₂,…,f_n}；

步骤3：采用层次分析法计算特征f_i的权重系数W_i；

步骤4：建立基于权重系数W_i的线性变换加权矩阵P，其线性变换加权矩阵P表示为：

步骤5：采用线性变换加权矩阵P改造Gauss核函数，得到基于特征加权的核函数K(X_i,X_j)，其核函数K(X_i,X_j)表示为：

K(X_i,X_j)＝Φ(X_i)Φ(X_j)，

其中，Φ表示输入空间到特征空间的映射，X_i和X_j为非平衡样本集X中的样本；

步骤6：建立基于特征加权核函数的支持向量机分类模型f(x)，其表达式为：

f (x) = sgn {Σ_{i = 1}^{n} Σ_{j = 1}^{n} y_{i} a_{i} K (X_{i}, X_{j}) - C},

其中，y_i为类标签，x_i为样本数据，a_i为样本点x_i的拉格朗日乘子，C为惩罚参数；

C = Σ_{i = 1}^{n} a_{i};

步骤7：设定需分类的分类种数m，利用Matlab编程软件对支持向量机分类模型f(x)求解，从而得到对非平衡样本的筛选分类结果。

与现有技术相比，本发明的主要优势在于：

附图说明

图1为本发明的实现原理框图。

具体实施方式

以下结合附图对本发明的具体实施方式进行详细说明，以便本领域的技术人员更好地理解本发明。

如图1所示，是本发明所述的一种基于非平衡样本的计算机数据挖掘方法的具体实施方式，其具体实施步骤为：

步骤1：输入给定非平衡样本集X，其中X＝{X₁,X₂,…,X_n}；

f_s＝{f₁,f₂,…,f_n}；

步骤3：采用层次分析法计算特征f_i的权重系数W_i；

K(X_i,X_j)＝Φ(X_i)Φ(X_j)，

f (x) = sgn {Σ_{i = 1}^{n} Σ_{j = 1}^{n} y_{i} a_{i} K (X_{i}, X_{j}) - C},

C = Σ_{i = 1}^{n} a_{i};

该挖掘方法通过输入给定非平衡样本集，并对输入样本进行特征集求解，再采用基于流形学习的特征加权法计算特征的权重系数，建立基于权重系数的线性变换加权矩阵，并采用线性变换加权矩阵改造Gauss核函数，得到基于特征加权的核函数，最后建立基于特征加权核函数的支持向量机分类模型，对非平衡样本进行筛选分类。本发明能有效处理非平衡样本数据，具有更强的泛化能力和鲁棒性，提高了数据挖掘的精度，便于高效地对非平衡样本进行筛选分类。

以上实施方式仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内。

Claims

1.一种基于非平衡样本的计算机数据挖掘方法，其特征在于，包括以下步骤：

步骤1：输入给定非平衡样本集X，其中X＝{X₁,X₂,···,X_n}；

f_s＝{f₁,f₂,···,f_n}；

步骤3：采用层次分析法计算特征f_i的权重系数W_i；

K(X_i,X_j)＝Φ(X_i)Φ(X_j)，

F (x) = sgn {Σ_{i = 1}^{n} Σ_{j = 1}^{n} y_{i} a_{i} K (X_{i}, X_{j}) - C},

其中，y_i为类标签，x_i为样本数据，a_i为样本点x_i的拉格朗日乘子，C为惩罚参数，

C = Σ_{i = 1}^{n} a_{i};