CN110598071A - 一种基于dpso-wkelm-ifsvm的非线性数据分类方法 - Google Patents

一种基于dpso-wkelm-ifsvm的非线性数据分类方法 Download PDF

Info

Publication number
CN110598071A
CN110598071A CN201910891353.8A CN201910891353A CN110598071A CN 110598071 A CN110598071 A CN 110598071A CN 201910891353 A CN201910891353 A CN 201910891353A CN 110598071 A CN110598071 A CN 110598071A
Authority
CN
China
Prior art keywords
sample
function
data
constructing
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910891353.8A
Other languages
English (en)
Inventor
胡燕祝
王松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201910891353.8A priority Critical patent/CN110598071A/zh
Publication of CN110598071A publication Critical patent/CN110598071A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/245Classification techniques relating to the decision surface
    • G06F18/2453Classification techniques relating to the decision surface non-linear, e.g. polynomial classifier

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Nonlinear Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及基于DPSO‑WKELM‑IFSVM的非线性数据分类方法,是一种对非线性数据进行分类的方法,属于数据处理领域,其特征在于采用如下步骤:(1)更新样本数据收敛位置及速度;(2)求得网络输出权值;(3)构造核函数;(4)求学习机核变换函数;(5)样本隶属度函数构建;(6)构造决策函数。本发明克服非线性映射能力较差,识别率低问题。改进的极限学习机在函数逼近能力效果好,更好的处理非线性数据,有效提高分类准确率,完成非线性数据分类。这说明本发明对非线性数据分类,达到较好分类效果。采用等式约束替代不等式约束,降低计算复杂度,加快运行速度。为非线性数据进行分类提供了一种拥有较高分类准确率的方法。

Description

一种基于DPSO-WKELM-IFSVM的非线性数据分类方法
技术领域
本发明涉及数据处理与机器学习领域,主要是一种对非线性数据进行分类的方法。
背景技术
数据分类是多个学科的交叉学科,被广泛用于市场风险预测,风险管控等方面。随着数据量和形式的急剧增长,复杂数据分类的研究充满了挑战,尤其是非线性数据分类中,从建模到分类算法方面均未达到令人满意的效果。一方面,随着上述新兴技术、产业的发展与推广,大量实时在线数据的快速收集得以实现,以数据分类为代表的数据挖掘技术将在越来越多的领域中发挥更大的作用。另一方面,从数据维度、数据类型及数据体量等不同层面来看,数据对象正变的越来越多样化、复杂化,这极大的增加了精准化和精细化挖掘的难度,同时在知识获取的准确性、合理性、可靠性及实用性等多个方面对数据分类的要求也越来越严格。
数据分类方法主要用于离散型数据样本的样本类别辨识与分析,随着关系数据库管理系统、数据仓库、数据抽取转换与装载化及联机分析处理等技术在商业应用中的成熟,C4.5、K-means算法、ISVM等许多经典机器学习算法得在数据分类等不同领域推广和发展。现有的IFSVM等方式,在引入参数时未做优化,分类效果不够明显。经典的PSO方式虽然使用了样本到类中心的间距,但是在样本周围密度及信息量的隶属度函数是为进行很好的优化,不能起到较好的分类效果。另外,ELM在训练过程中随机产生的输入层权值和隐层节点偏置对模型的稳定性及分类精度产生的较大影响。随着数据量的急剧增加,在数据分类精度和速度方面,都提出了相对较高的要求。因此,要实时准确数据分类,必须要建立一种高效、准确的数据分类方法,有效的减少处理时间,提高分类准确率,为后续数据处理步骤提供更加精确的数据类别。
发明内容
针对上述现有技术中存在的问题,本发明要解决的技术问题是提供一种基于DPSO-WKELM-IFSVM的非线性数据分类方法,其具体流程如图1所示。
技术方案实施步骤如下:
(1)更新样本数据收敛位置及速度
式中,表示样本的位置属性,表示速度向量,k表示迭代次数,d表示搜索空间维度,i表示粒子实例,cs1,cs2表示学习因子,为[0,1]内的随机数,描述样本个体和周围紧密度大小,Ttarget取可行域内的值。
(2)训练网络输出Ti
式中,g(x)表示模型激活函数,L表示隐藏层节点数,wi=[w1,w1,...wN]为神经元权值向量,βi=[β12...βm]为隐藏层和输出层链接权值,bi=[b1,b2...bm]T为隐藏节点偏置。
(3)构造核函数ΩELM
式中,α为伸缩因子,F(xi,x)大于等于0。
(4)构建学习机核变换函数
式中,C是惩罚参数,ΩELM隐含层输出矩阵的内积。
(5)构建样本隶属度函数
式中,表示样本到类中心的距离,δ表示引如用于保证隶属度为正的正数,表示样本周围的密度函数,有距离范数获得,α为权值,用于均衡类中心与样本密度重要性。
(6)构造决策函数f(x)DPSO-WKELM-IFSVM
式中,K是非线性映射的核函数,表示训练的第i个样本及其标签,b用对偶方式获得的分类平面的截距。
本发明比现有技术具有的优点:
(1)本发明克服了之前方式在处理非线性映射能力时映射能力较差,识别率较低的问题。改进的极限学习机在函数逼近能力方面效果更好,能够更好的处理非线性数据,可以有效地提高非线性数据分类准确率。
(2)本发明将可以完成非线性数据的识别分类问题,通过改进的惩罚因子IFSVM取得了较高的分类准确率。这说明本发明针对非线性数据进行分类时,可以达到较好的分类效果。
(3)通过构造新的核函数,采用等式约束替代了支持向量机的不等式约束,降低了计算复杂度,加快了运行速度。
附图说明
为了更好地理解本发明,下面结合附图作进一步的说明。
图1是建立基于DPSO-WKELM-IFSVM的非线性数据分类方法的步骤流程图;
图2是建立基于DPSO-WKELM-IFSVM的非线性数据分类方法流程图;
图3是基于DPSO-WKELM-IFSVM的非线性数据分类方法的和其他算法的鲁棒性比较图;
具体实施方案
下面通过实施案例对本发明作进一步详细说明。
本实施案例选用的数据集一共有800组样本,其中,敲击、攀越、行人路过、人工挖掘和正常情况下的非线性数据各160组,采用随机抽样的方法从5组数据中各抽取120组样本作为训练集,剩余的40组作为测试集。最终,用作训练的样本总数为600,用作测试的样本总数为200。
本发明所提供的基于DPSO-WKELM-IFSVM的非线性数据分类方法整体流程如图1所示,具体步骤如下:
(1)更新样本数据收敛位置及速度
式中,表示样本的位置属性,表示速度向量,k表示迭代次数,取500次,d表示搜索空间维度,为200维,i表示粒子实例,cs1,cs2表示学习因子,为[0,1]内的随机数,取0.8,用于描述样本个体和周围紧密度大小。Ttarget取可行域内的值。通过计算每个样本的速度和位置,对数据进行拟合。
按照上述算法不断更新样本的速度和位置,并将第j个粒子作为探测粒子,重新选取目标标签,反复迭代更新公式值。
(2)训练网络输出Ti
式中,g(x)表示模型激活函数,使用sigmod函数,L表示隐藏层节点数,取200,wi=[0.2,0.5,...0.6]为神经元权值向量,βi=[0.2,0.3...0.7]为隐藏层和输出层链接权值,bi=[0.1,0.2...0.6]T为隐藏节点偏置。算法流程图如图2所示。
(3)构造核函数ΩELM
式中,伸缩因子α取0.1。重复上述步骤,简历数据极限学习机神经网络拓扑结构,设置隐藏层神经元数目,选择激活函数。产生每个数据的2维数据分类标签。
(4)构建学习机核变换函数
式中,C是惩罚参数,取0.9,ΩELM隐含层输出矩阵的内积,计算可得则传统极限学习机就转变为核极限学习机。重复上述步骤,简历数据极限学习机神经网络拓扑结构,设置隐藏层神经元数目,选择激活函数。产生每个数据的2维数据分类标签。
(5)构建样本隶属度函数
式中,表示样本到类中心的距离,使用欧式距离计算得到;δ表示引如用于保证隶属度为正的正数,取0.2,表示样本周围的密度函数,有距离范数获得,α为权值,用于均衡类中心与样本密度重要性。
(6)构造决策函数f(x)DPSO-WKELM-IFSVM
式中,K是非线性映射的核函数,表示训练的第i个样本及其标签,b用对偶方式获得的分类平面的截距。
为了验证本发明对非线性数据分类的准确性,对本发明进行了四组振动信号分类实验,实验结果如图3所示。由图3可知,本发明所建立的DPSO-WKELM-IFSVM算法对非线性数据进行分类的准确率均保持在99%以上,能够在保证稳定性的基础上达到较高的准确率,分类效果良好。这表明本发明建立的DPSO-WKELM-IFSVM算法是有效的,为建立精确的非线性数据分类模型提供了更好的方法,具有一定的实用性。与其他算法比较发现DPSO-WKELM-IFSVM算法均方差最小,稳定性最好,且分类精度最高,说明DPSO-WKELM-IFSVM算法是一种可靠有效的分类算法。实验结果表明基于探测粒子群的小波核极限学习机在基因数据分类上能够获得较高的分类精度。

Claims (1)

1.本发明一种基于DPSO-WKELM-IFSVM的非线性数据分类方法,其特征在于:(1)更新样本数据收敛位置及速度;(2)求得网络输出权值;(3)构造核函数;(4)求学习机核变换函数;(5)样本隶属度函数构建;(6)构造决策函数;具体包括以下六个步骤:
步骤一:更新样本数据收敛位置及速度
式中,表示样本的位置属性,表示速度向量,k表示迭代次数,d表示搜索空间维度,i表示粒子实例,cs1,cs2表示学习因子,为[0,1]内的随机数,描述样本个体和周围紧密度大小,Ttarget取可行域内的值;
步骤二:训练网络输出Ti
式中,g(x)表示模型激活函数,L表示隐藏层节点数,wi=[w1,w1,...wN]为神经元权值向量,βi=[β12...βm]为隐藏层和输出层链接权值,bi=[b1,b2...bm]T为隐藏节点偏置;
步骤三:构造核函数ΩELM
式中,α为伸缩因子,F(xi,x)大于等于0;
步骤四:构建学习机核变换函数
式中,C是惩罚参数,ΩELM隐含层输出矩阵的内积;
步骤五:构建样本隶属度函数
式中,表示样本到类中心的距离;δ表示引如用于保证隶属度为正的正数,表示样本周围的密度函数,有距离范数获得,α为权值,用于均衡类中心与样本密度重要性;
步骤六:构造决策函数f(x)DPSO-WKELM-IFSVM
式中,K是非线性映射的核函数,表示训练的第i个样本及其标签,b用对偶方式获得的分类平面的截距。
CN201910891353.8A 2019-09-21 2019-09-21 一种基于dpso-wkelm-ifsvm的非线性数据分类方法 Pending CN110598071A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910891353.8A CN110598071A (zh) 2019-09-21 2019-09-21 一种基于dpso-wkelm-ifsvm的非线性数据分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910891353.8A CN110598071A (zh) 2019-09-21 2019-09-21 一种基于dpso-wkelm-ifsvm的非线性数据分类方法

Publications (1)

Publication Number Publication Date
CN110598071A true CN110598071A (zh) 2019-12-20

Family

ID=68861675

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910891353.8A Pending CN110598071A (zh) 2019-09-21 2019-09-21 一种基于dpso-wkelm-ifsvm的非线性数据分类方法

Country Status (1)

Country Link
CN (1) CN110598071A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111553800A (zh) * 2020-04-30 2020-08-18 上海商汤智能科技有限公司 一种数据处理方法及装置、电子设备和存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111553800A (zh) * 2020-04-30 2020-08-18 上海商汤智能科技有限公司 一种数据处理方法及装置、电子设备和存储介质
CN111553800B (zh) * 2020-04-30 2023-08-25 上海商汤智能科技有限公司 一种数据处理方法及装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
CN110033021B (zh) 一种基于一维多路卷积神经网络的故障分类方法
Fornarelli et al. An unsupervised multi-swarm clustering technique for image segmentation
CN110880369A (zh) 基于径向基函数神经网络的气体标志物检测方法及应用
Ana-Maria Ramona et al. Data mining algorithms for knowledge extraction
AL-Behadili Classification algorithms for determining handwritten digit
Pei et al. The clustering algorithm based on particle swarm optimization algorithm
Xing et al. Fuzzy c-means algorithm automatically determining optimal number of clusters
CN114494947A (zh) 一种基于量子优化算法的交通视频车辆分类方法
CN110598071A (zh) 一种基于dpso-wkelm-ifsvm的非线性数据分类方法
Han et al. Classifying uncertain and evolving data streams with distributed extreme learning machine
Devanta Optimization of the K-Means Clustering Algorithm Using Davies Bouldin Index in Iris Data Classification
CN115083511A (zh) 基于图表示学习与注意力的外围基因调控特征提取方法
Sakthi et al. An enhanced K means clustering using improved Hopfield artificial neural network and genetic algorithm
CN111984762B (zh) 一种对抗攻击敏感的文本分类方法
CN114970684A (zh) 一种结合vae的提取网络核心结构的社区检测方法
Wang et al. Graspel: Graph spectral learning at scale
Lou et al. A Hybrid K-means Method based on Modified Rat Swarm Optimization Algorithm for Data Clustering
Haghighi Analyzing astronomical data with machine learning techniques
Alrammahi et al. A new approach for improving clustering algorithms performance
Wang et al. Pattern matching strategy based on optimized fuzzy clustering algorithm for industrial internet
CN114093436B (zh) 迭代式结合亲和力评估模型的构建方法和系统
Wu et al. An RBF-LVQPNN model and its application to time-varying signal classification
Xu et al. Artificial Neural Networks and Its Applications in Chemical Industry
Tan et al. Anomaly detection algorithm based on cluster of entropy
Manjunatha Swamy et al. Performance analysis of feature selection and classification in Big Data Information extraction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20191220