CN110598071A

CN110598071A - 一种基于dpso-wkelm-ifsvm的非线性数据分类方法

Info

Publication number: CN110598071A
Application number: CN201910891353.8A
Authority: CN
Inventors: 胡燕祝; 王松
Original assignee: Individual
Current assignee: Individual
Priority date: 2019-09-21
Filing date: 2019-09-21
Publication date: 2019-12-20

Abstract

本发明涉及基于DPSO‑WKELM‑IFSVM的非线性数据分类方法，是一种对非线性数据进行分类的方法，属于数据处理领域，其特征在于采用如下步骤：(1)更新样本数据收敛位置及速度；(2)求得网络输出权值；(3)构造核函数；(4)求学习机核变换函数；(5)样本隶属度函数构建；(6)构造决策函数。本发明克服非线性映射能力较差，识别率低问题。改进的极限学习机在函数逼近能力效果好，更好的处理非线性数据，有效提高分类准确率，完成非线性数据分类。这说明本发明对非线性数据分类，达到较好分类效果。采用等式约束替代不等式约束，降低计算复杂度，加快运行速度。为非线性数据进行分类提供了一种拥有较高分类准确率的方法。

Description

一种基于DPSO-WKELM-IFSVM的非线性数据分类方法

技术领域

本发明涉及数据处理与机器学习领域，主要是一种对非线性数据进行分类的方法。

背景技术

数据分类是多个学科的交叉学科，被广泛用于市场风险预测，风险管控等方面。随着数据量和形式的急剧增长，复杂数据分类的研究充满了挑战，尤其是非线性数据分类中，从建模到分类算法方面均未达到令人满意的效果。一方面，随着上述新兴技术、产业的发展与推广，大量实时在线数据的快速收集得以实现，以数据分类为代表的数据挖掘技术将在越来越多的领域中发挥更大的作用。另一方面，从数据维度、数据类型及数据体量等不同层面来看，数据对象正变的越来越多样化、复杂化，这极大的增加了精准化和精细化挖掘的难度，同时在知识获取的准确性、合理性、可靠性及实用性等多个方面对数据分类的要求也越来越严格。

数据分类方法主要用于离散型数据样本的样本类别辨识与分析，随着关系数据库管理系统、数据仓库、数据抽取转换与装载化及联机分析处理等技术在商业应用中的成熟，C4.5、K-means算法、ISVM等许多经典机器学习算法得在数据分类等不同领域推广和发展。现有的IFSVM等方式，在引入参数时未做优化，分类效果不够明显。经典的PSO方式虽然使用了样本到类中心的间距，但是在样本周围密度及信息量的隶属度函数是为进行很好的优化，不能起到较好的分类效果。另外，ELM在训练过程中随机产生的输入层权值和隐层节点偏置对模型的稳定性及分类精度产生的较大影响。随着数据量的急剧增加，在数据分类精度和速度方面，都提出了相对较高的要求。因此，要实时准确数据分类，必须要建立一种高效、准确的数据分类方法，有效的减少处理时间，提高分类准确率，为后续数据处理步骤提供更加精确的数据类别。

发明内容

针对上述现有技术中存在的问题，本发明要解决的技术问题是提供一种基于DPSO-WKELM-IFSVM的非线性数据分类方法，其具体流程如图1所示。

技术方案实施步骤如下：

(1)更新样本数据收敛位置及速度

式中，表示样本的位置属性，表示速度向量，k表示迭代次数，d表示搜索空间维度，i表示粒子实例，c_s1,c_s2表示学习因子，为[0,1]内的随机数，描述样本个体和周围紧密度大小，T_target取可行域内的值。

(2)训练网络输出T_i：

式中，g(x)表示模型激活函数，L表示隐藏层节点数，w_i＝[w₁,w₁,...w_N]为神经元权值向量，β_i＝[β₁,β₂...β_m]为隐藏层和输出层链接权值，b_i＝[b₁,b₂...b_m]^T为隐藏节点偏置。

(3)构造核函数Ω_ELM：

式中，α为伸缩因子，F(x_i,x)大于等于0。

(4)构建学习机核变换函数

式中，C是惩罚参数，Ω_ELM隐含层输出矩阵的内积。

(5)构建样本隶属度函数

式中，表示样本到类中心的距离，δ表示引如用于保证隶属度为正的正数，表示样本周围的密度函数，有距离范数获得，α为权值，用于均衡类中心与样本密度重要性。

(6)构造决策函数f(x)^{DPSO-WKELM-IFSVM}：

式中,K是非线性映射的核函数，表示训练的第i个样本及其标签，b用对偶方式获得的分类平面的截距。

本发明比现有技术具有的优点：

(1)本发明克服了之前方式在处理非线性映射能力时映射能力较差，识别率较低的问题。改进的极限学习机在函数逼近能力方面效果更好，能够更好的处理非线性数据，可以有效地提高非线性数据分类准确率。

(2)本发明将可以完成非线性数据的识别分类问题，通过改进的惩罚因子IFSVM取得了较高的分类准确率。这说明本发明针对非线性数据进行分类时，可以达到较好的分类效果。

(3)通过构造新的核函数，采用等式约束替代了支持向量机的不等式约束，降低了计算复杂度，加快了运行速度。

附图说明

为了更好地理解本发明，下面结合附图作进一步的说明。

图1是建立基于DPSO-WKELM-IFSVM的非线性数据分类方法的步骤流程图；

图2是建立基于DPSO-WKELM-IFSVM的非线性数据分类方法流程图；

图3是基于DPSO-WKELM-IFSVM的非线性数据分类方法的和其他算法的鲁棒性比较图；

具体实施方案

下面通过实施案例对本发明作进一步详细说明。

本实施案例选用的数据集一共有800组样本，其中，敲击、攀越、行人路过、人工挖掘和正常情况下的非线性数据各160组，采用随机抽样的方法从5组数据中各抽取120组样本作为训练集，剩余的40组作为测试集。最终，用作训练的样本总数为600，用作测试的样本总数为200。

本发明所提供的基于DPSO-WKELM-IFSVM的非线性数据分类方法整体流程如图1所示，具体步骤如下：

(1)更新样本数据收敛位置及速度

式中，表示样本的位置属性，表示速度向量，k表示迭代次数，取500次，d表示搜索空间维度，为200维，i表示粒子实例，c_s1,c_s2表示学习因子，为[0,1]内的随机数，取0.8，用于描述样本个体和周围紧密度大小。T_target取可行域内的值。通过计算每个样本的速度和位置，对数据进行拟合。

按照上述算法不断更新样本的速度和位置，并将第j个粒子作为探测粒子，重新选取目标标签，反复迭代更新公式值。

(2)训练网络输出T_i：

式中，g(x)表示模型激活函数，使用sigmod函数，L表示隐藏层节点数，取200，w_i＝[0.2,0.5,...0.6]为神经元权值向量，β_i＝[0.2,0.3...0.7]为隐藏层和输出层链接权值，b_i＝[0.1,0.2...0.6]^T为隐藏节点偏置。算法流程图如图2所示。

(3)构造核函数Ω_ELM：

式中，伸缩因子α取0.1。重复上述步骤，简历数据极限学习机神经网络拓扑结构，设置隐藏层神经元数目，选择激活函数。产生每个数据的2维数据分类标签。

(4)构建学习机核变换函数

式中，C是惩罚参数，取0.9，Ω_ELM隐含层输出矩阵的内积，计算可得则传统极限学习机就转变为核极限学习机。重复上述步骤，简历数据极限学习机神经网络拓扑结构，设置隐藏层神经元数目，选择激活函数。产生每个数据的2维数据分类标签。

(5)构建样本隶属度函数

式中，表示样本到类中心的距离，使用欧式距离计算得到；δ表示引如用于保证隶属度为正的正数，取0.2，表示样本周围的密度函数，有距离范数获得，α为权值，用于均衡类中心与样本密度重要性。

(6)构造决策函数f(x)^{DPSO-WKELM-IFSVM}：

为了验证本发明对非线性数据分类的准确性，对本发明进行了四组振动信号分类实验，实验结果如图3所示。由图3可知，本发明所建立的DPSO-WKELM-IFSVM算法对非线性数据进行分类的准确率均保持在99％以上，能够在保证稳定性的基础上达到较高的准确率，分类效果良好。这表明本发明建立的DPSO-WKELM-IFSVM算法是有效的，为建立精确的非线性数据分类模型提供了更好的方法，具有一定的实用性。与其他算法比较发现DPSO-WKELM-IFSVM算法均方差最小，稳定性最好，且分类精度最高，说明DPSO-WKELM-IFSVM算法是一种可靠有效的分类算法。实验结果表明基于探测粒子群的小波核极限学习机在基因数据分类上能够获得较高的分类精度。

Claims

1.本发明一种基于DPSO-WKELM-IFSVM的非线性数据分类方法，其特征在于：(1)更新样本数据收敛位置及速度；(2)求得网络输出权值；(3)构造核函数；(4)求学习机核变换函数；(5)样本隶属度函数构建；(6)构造决策函数；具体包括以下六个步骤：

步骤一：更新样本数据收敛位置及速度

式中，表示样本的位置属性，表示速度向量，k表示迭代次数，d表示搜索空间维度，i表示粒子实例，c_s1,c_s2表示学习因子，为[0,1]内的随机数，描述样本个体和周围紧密度大小，T_target取可行域内的值；

步骤二：训练网络输出T_i：

式中，g(x)表示模型激活函数，L表示隐藏层节点数，w_i＝[w₁,w₁,...w_N]为神经元权值向量，β_i＝[β₁,β₂...β_m]为隐藏层和输出层链接权值，b_i＝[b₁,b₂...b_m]^T为隐藏节点偏置；

步骤三：构造核函数Ω_ELM：

式中，α为伸缩因子，F(x_i,x)大于等于0；

步骤四：构建学习机核变换函数

式中，C是惩罚参数，Ω_ELM隐含层输出矩阵的内积；

步骤五：构建样本隶属度函数

式中，表示样本到类中心的距离；δ表示引如用于保证隶属度为正的正数，表示样本周围的密度函数，有距离范数获得，α为权值，用于均衡类中心与样本密度重要性；

步骤六：构造决策函数f(x)^{DPSO-WKELM-IFSVM}