CN108364030A - 一种基于三层动态粒子群算法的多分类器模型构建方法 - Google Patents

一种基于三层动态粒子群算法的多分类器模型构建方法 Download PDF

Info

Publication number
CN108364030A
CN108364030A CN201810227288.4A CN201810227288A CN108364030A CN 108364030 A CN108364030 A CN 108364030A CN 201810227288 A CN201810227288 A CN 201810227288A CN 108364030 A CN108364030 A CN 108364030A
Authority
CN
China
Prior art keywords
vector
class
algorithm
layers
supporting vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810227288.4A
Other languages
English (en)
Other versions
CN108364030B (zh
Inventor
代钰
杨雷
阚志浩
张斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeastern University China
Original Assignee
Northeastern University China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeastern University China filed Critical Northeastern University China
Priority to CN201810227288.4A priority Critical patent/CN108364030B/zh
Publication of CN108364030A publication Critical patent/CN108364030A/zh
Application granted granted Critical
Publication of CN108364030B publication Critical patent/CN108364030B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于三层动态粒子群算法的多分类器模型构建方法,涉及数据分析处理技术领域。该方法包括:预处理输入特征向量集;对预处理后的特征向量集反复分类、切分、训练和合并,直到获得支持向量机的支持向量;采用改进的三层粒子群算法对支持向量机核函数进行优化,构建多分类器模型。本发明提供的一种基于三层动态粒子群算法的多分类器模型构建方法,采用分治方法,对初始数据集进行数据块切分,降低子支持向量机的数据处理规模,加快训练时间,同时,对每一层利用相同数量的独立的支持向量机训练,获得支持向量集,充分利用集群环境,提高并行效率,再对最终的支持向量机核参数进行优化,获得最优的支持向量集,从而获得多分类器模型。

Description

一种基于三层动态粒子群算法的多分类器模型构建方法
技术领域
本发明涉及数据分析处理技术领域,具体涉及一种基于三层动态粒子群算法的多分类器模型构建方法。
背景技术
随着信息技术的发展,用户所产生的数据总量成指数型增长。如何从海量数据中提取有用的信息或知识,并应用到相关领域已经成为了一个重要的研究课题,其中数据分类问题已经在工业生产、生活、服务等方面得到了非常广泛的应用。常见的大数据分类方法主要应用于故障诊断、销售系统、疾病诊断以及信贷评级等。然而,由于大数据高维度以及应用的实时性需求,大数据环境下数据分类方法往往面临数据处理高效率以及高精度的挑战。因此,传统的集中式分类器往往难以解决高效的大数据分类模型构建需求。为此,目前研究工作开展了关于分布式分类方法的研究。SVM分类器作为最为普遍应用的一种分类工具也已经开展了很多关于它的分布式方法研究。分布式SVM分类器的基本思想是采用分治的方式将大数据集分块处理,然后通过两两合并的方式构建最终的SVM分类器。然而,目前的方法由于两两合并进行最终SVM分类器的构建,容易在合并构成中产生大量的计算节点空余,同时,容易陷入局部最优解,从而难以保证分类的效率以及精度。为此,如何提高分布式SVM分类器对大数据的分类效率以及精度仍然是目前研究的一个难点和热点。
发明内容
针对现有技术存在的问题,本发明提供一种基于三层动态粒子群算法的多分类器模型构建方法,采用改进的三层动态粒子群算法对生成的支持向量机核函数的参数进行优化,充分利用分布式计算环境,大大提高了模型的训练速度,并且支持多分类问题,广泛应用于工业生产、生活、服务等方面,例如故障诊断、销售系统、疾病诊断以及信贷评级等。
为了实现上述目的,一种基于三层动态粒子群算法的多分类器模型构建方法,包括以下步骤:
步骤1:根据样本集中各类之间的类间距离对用户输入的特征向量集进行预处理,具体方法如下:
步骤1.1:计算样本集中k类样本之间两两的类间距离δi,j,其中i,j=[1,2,…,k],且i≠j;
步骤1.2:将k类样本中每一类与其他k-1类之间的类间距离值重新编号,根据每一类的距离值进行升序排列,第i类与其他k-1类之间的类间距离值升序排列为其中i=[1,2,…,k];
步骤1.3:重新排列的特征向量集,先将重新编号的k类样本类间距离中的所有最小值进行降序排列,若两个或两个以上的类间距离最小值相同,再按照类标号i升序排列,最终得到重新排列的特征向量集;
步骤2:将预处理后的特征向量集进行反复的分类、切分、训练和合并,直到获得支持向量机的支持向量,具体步骤如下:
步骤2.1:初始化对预处理后的特征向量集的切分次数q=1,设置上下两层所获得的输出向量数量比λ的阈值;
步骤2.2:将预处理后的特征向量集进行分类并切分为a份,对a份数据逐一进行单独的支持向量机训练,再将训练得到的支持向量集进行合并,得到支持向量数据集MDq
步骤2.3:删除支持向量数据集MDq中无关的非支持向量,重新将支持向量数据集MDq切分成a份,对重新切分的a份数据再逐一进行单独的支持向量机训练,将训练得到的支持向量集合并得到当前层的支持向量数据集MDq+1
步骤2.4:计算当前层的支持向量数据集MDq+1和上一层支持向量数据集MDq所获得的输出向量数量比λ;
步骤2.5:判断λ与阈值之间的关系,若λ小于阈值,则令q=q+1,返回步骤2.2,否则继续步骤2.6;
步骤2.6:将当前MDq+1作为最终的支持向量集,进行最后一次支持向量机训练,输出最终得到的支持向量数据集MDq+2,即支持向量机的支持向量;
步骤3:采用改进的三层粒子群算法对支持向量机核函数进行优化,得到最终的支持向量机的支持向量,从而构建多分类器模型,具体步骤如下:
步骤3.1:将步骤2中得到的支持向量机的支持向量带入到支持向量机核函数中,初始化改进的三层动态粒子群算法的第s个个体的局部最优位置向量Ps,best、种群的全局最优位置向量Gbest、当前迭代次数g,设置算法的最大迭代次数gmax
步骤3.2:更新算法中个体的速度向量Vs和位置向量Xs,然后更新个体的局部最优位置向量Ps,best、种群的全局最优位置向量Gbest
步骤3.3:判断当前迭代次数g与最大迭代次数gmax之间的关系,若g<gmax,则令g=g+1,返回步骤3.2,否则继续步骤3.4;
步骤3.4:输出种群的全局最优位置向量Gbest,即支持向量机的最终支持向量,将最终支持向量带入到支持向量机核函数中,从而构建多分类器模型。
进一步地,所述步骤1.1中计算样本集中各类之间的类间距离δi,j的公式如下:
δi,j=||mi-mj||2-ri-rj
其中,mi为第i类的样本集的均值向量,||mi-mj||为第i类和第j类的类均值向量距离,ri为第i类样本集的平均半径;所述第i类样本集的均值向量mi和平均半径ri的计算公式如下:
其中,ni为第i类样本集的样本总数量,v表示第i类样本集中的样本数量,为第i类样本集中的第v个数据点。
进一步地,所述步骤3.2中更新算法中个体的速度向量Vs和位置向量Xs的公式如下:
Xs(t+1)=Xs(t)+Vs(t+1);
其中,ω为惯性权重因子,r1、r2、r3为[0,1]范围内不同的随机常量,c1、c2、c3分别为粒子、子种群、种群的学习因子,k(t)为当前粒子所属的子种群中的最优解,r1(t)和r2(t)分别是子种群和整个种群中的随机粒子。
进一步地,所述惯性权重因子ω的动态更新公式如下:
其中,ωmin、ωmax为预设值。
进一步地,所述粒子、子种群、种群的学习因子c1、c2、c3的计算公式如下:
c1=|ω|(c*ω)
c2=|1-ω|(c/(1-ω))
其中,c为惩罚系数,其计算公式如下:
其中,cf、ci为常数。
本发明的有益效果:
本发明提出一种基于三层动态粒子群算法的多分类器模型构建方法,该算法采用处理大规模数据常用的分治方法,对初始的数据集进行数据块切分,降低每一个子支持向量机所处理的数据规模,进而加快训练时间,同时,为了充分利用集群环境,提高并行效率,对每一层利用相同数量的独立的支持向量机训练,进而获得支持向量集,最终获得最优的支持向量集,从而获得多分类器模型。
附图说明
图1为本发明实施例中基于三层动态粒子群算法的多分类器模型构建方法的流程图;
图2为本发明实施例中基于三层动态粒子群算法的多分类器模型构建方法步骤1的流程图;
图3为本发明实施例中基于三层动态粒子群算法的多分类器模型构建方法步骤2的流程图;
图4为本发明实施例中改进的三层动态粒子群算法流程示意图;
图5为本发明实施例中基于三层动态粒子群算法的多分类器模型构建方法步骤3的流程图;
图6为本发明实施例中采用不同支持向量机算法的训练时间对比图;
图7为本发明实施例中采用不同支持向量机算法的总体分类准确率对比图。
具体实施方式
为了使本发明的目的、技术方案及优势更加清晰,下面结合附图和具体实施例对本发明做进一步详细说明。此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
一种基于三层动态粒子群算法的多分类器模型构建方法,流程如图1所示,具体方法如下所述:
步骤1:根据样本集中各类之间的类间距离对用户输入的特征向量集进行预处理,流程图如图2所示,具体方法如下:
步骤1.1:计算样本集中k类样本之间两两的类间距离δi,j,其中i,j=[1,2,…,k],且i≠j。
所述计算样本集中各类之间的类间距离δi,j的公式如公式(1)所示:
δi,j=||mi-mj||2-ri-rj (1)
其中,mi、mj分别为第i类样本集和第j类样本集的类均值向量,||mi-mj||为第i类和第j类的类均值向量距离,ri、ri分别为第i类样本集和第j类样本集的平均半径;所述第i类样本集的均值向量mi和平均半径ri的计算公式如公式(2)和公式(3)所示:
其中,ni为第i类样本集的样本总数量,v表示第i类样本集中的样本数量,xv i为第i类样本集中的第v个数据点。
其中,第j类样本集的均值向量mj和平均半径rj的计算公式同mi和ri
步骤1.2:将k类样本中每一类与其他k-1类之间的类间距离值重新编号,根据每一类的距离值进行升序排列,第i类与其他k-1类之间的类间距离值升序排列为其中i=[1,2,…,k]。
步骤1.3:重新排列的特征向量集,先将重新编号的k类样本类间距离中的所有最小值进行降序排列,若两个或两个以上的类间距离最小值相同,再按照类标号i升序排列,最终得到重新排列的特征向量集。
步骤2:将预处理后的特征向量集进行反复的分类、切分、训练和合并,直到获得支持向量机的支持向量,流程如图3所示,具体步骤如下:
步骤2.1:初始化对预处理后的特征向量集的切分次数q=1,设置上下两层所获得的输出向量数量比λ的阈值。
本实施例中,设置λ的阈值为0.95。
步骤2.2:将预处理后的特征向量集进行分类并切分为a份,对a份数据逐一进行单独的支持向量机训练,再将训练得到的支持向量集进行合并,得到支持向量数据集MDq
本实施例中,取a=8,每次对支持向量数据集切分份数均为8。
步骤2.3:删除支持向量数据集MDq中无关的非支持向量,重新将支持向量数据集MDq切分成a份,对重新切分的a份数据再逐一进行单独的支持向量机训练,将训练得到的支持向量集合并得到当前层的支持向量数据集MDq+1
步骤2.4:计算当前层的支持向量数据集MDq+1和上一层支持向量数据集MDq所获得的输出向量数量比λ。
步骤2.5:判断λ与阈值之间的关系,若λ小于阈值,则令q=q+1,返回步骤2.2,否则继续步骤2.6。
步骤2.6:将当前MDq+1作为最终的支持向量集,进行最后一次支持向量机训练,输出最终得到的支持向量数据集MDq+2,即支持向量机的支持向量。
本实施例中,上述步骤2的方法简称为改进的三层动态粒子群算法,即PSO-SVM算法,采用该算法进行分类、切分、训练和合并的流程示意图如图4所示,先将预处理后的特征向量集分分类切分成8份,标号为Ts1至Ts8,然后对Ts1至Ts8逐一进行单独的支持向量机训练,再将训练得到的支持向量集进行合并,得到支持向量数据集MD1,再将MD1重新分类切分成8份,标号为Ts1至Ts8,然后对Ts1至Ts8逐一进行单独的支持向量机训练,再将训练得到的支持向量集进行合并,得到支持向量数据集MD2,以此类推,直到得到支持向量机的支持向量MDq
步骤3:采用改进的三层粒子群算法对支持向量机核函数进行优化,得到最终的支持向量机的支持向量,从而构建多分类器模型。
本实施例中,选取SVM中常用的RBF核函数作为测试对象,RBF函数公式如下:
其中,需要优化的支持向量为γ,x表示数据点,xt表示选取的核函数中心。
流程如图5所示,具体步骤如下:
步骤3.1:将步骤2中得到的支持向量机的支持向量带入到支持向量机核函数中,初始化改进的三层动态粒子群算法的第s个个体的局部最优位置向量Ps,best、种群的全局最优位置向量Gbest、当前迭代次数g=1,设置算法的最大迭代次数gmax=50。
步骤3.2:更新算法中个体的速度向量Vs和位置向量Xs,然后更新个体的局部最优位置向量Ps,best、种群的全局最优位置向量Gbest
所述更新算法中个体的速度向量Vs和位置向量Xs的公式如公式(4)和公式(5)所示:
Xs(t+1)=Xs(t)+Vs(t+1) (5)
其中,ω为惯性权重因子,r1、r2、r3为[0,1]范围内不同的随机常量,c1、c2、c3分别为粒子、子种群、种群的学习因子,k(t)为当前粒子所属的子种群中的最优解,r1(t)和r2(t)分别是子种群和整个种群中的随机粒子。
所述惯性权重因子ω的动态更新公式如公式(6)所示:
其中,ωmin、ωmax为预设值。
所述粒子、子种群、种群的学习因子c1、c2、c3的计算公式如公式(7)-(9)所示:
c1=|ω|(c*ω) (7)
c2=|1-ω|(c/(1-ω)) (8)
其中,c为惩罚系数,其计算公式如公式(10)所示:
其中,cf、ci为常数。
步骤3.3:判断当前迭代次数g与最大迭代次数gmax之间的关系,若g<gmax,则令g=g+1,返回步骤3.2,否则继续步骤3.4。
步骤3.4:输出种群的全局最优位置向量Gbest,即支持向量机的最终支持向量,将最终支持向量带入到支持向量机核函数中,从而构建多分类器模型。
本实施例中,采用三层动态粒子群算法的多分类器模型构建方法简称为MCDC-SVM分类模型对数据集进行处理,涉及到的参数包括学习因子和权重因子均采用公式进行初始化,现有技术中常采用CascadeSVM分类模型和单机版的SVM分类模型对数据集进行处理,此两种方法均是设定学习因子c1=1.5和c2=1.5、权重因子ω∈[0.2,1],三种模型训练时间的对比图如图6所示。
由图6可以看出,在处理不同规模数据集时,MCDC-SVM分类模型、CascadeSVM分类模型以及单机版的SVM分类模型在训练时间上存在较大差异。当训练集规模在0-15万行数据时,单机版SVM分类模型的训练速度比其他两种的训练时间要更快,然而随着数据集的不断增加,如数据规模在15-35万行时,单机版的SVM分类模型的训练速度开始逐渐上升,而其他两种分类模型的训练时间只有小幅度的上升,然而随着数据规模的继续增加,单机版的SVM分类模型训练时间增长速度明显加快,接近指数增长速度,而CascadeSVM分类模型和MCDC-SVM分类模型的训练速度虽有一定程度增加,但和单机版的SVM分类模型相比,上升速度较慢。对于单机的SVM分类模型,由于数据量的大量增加,单一节点对数据集的处理能力有限,所以当数据量越大时,机器无法对其进行处理,导致训练时间指数型增加。对于传统的分布式SVM和MCDC-SVM来说,由于采用分布式的处理方式,在小规模数据集的处理中,首先需要对数据集进行分块,而分块所占的时间以及分布式系统结点之间的通信和调度会导致整体的训练时间减慢,然而随着数据集的不断增加,对数据集本身的训练时间将远远大于数据集分块时间和调度时间,使得采用分布式处理的算法具有更好的时间效率。同时,分布式算法的训练时间主要取决于迭代的次数,由于本文引入了新的处理迭代终止的阈值定义,使得MCDC-SVM分类模型总体的训练时间要优于传统的CascadeSVM分类模型。
将单机SVM、传统CascadeSVM和MCDC-SVM分类器的总体分类效果进行对比,实验结果如图7所示。
从图7可以看出,随着训练集规模的不断增加,三种SVM分类模型的分类准确率均有所提升,这也证明了SVM分类模型的分类准确率和数据集规模的大小是具有正相关的。然而当数据集的大小到达一定规模之后,采用不同的SVM分类模型的分类准确率并没有很大的差距。
为了验证多类别分类器的分类效率,引入混淆矩阵,如表1所示。
表1四分类混淆矩阵
类别 一类 二类 三类 四类
一类 P11 P12 P13 P14 P1
二类 P21 P22 P23 P24 P2
三类 P31 P32 P33 P34 P3
四类 P41 P42 P43 P44 P4
在表1中,Pij表示为第i类样本分到了第j类的样本数目比重,对角上的值,即i=j时代表该分类预测准确的比重,非对角线上的值,即i≠j时代表样本集被误分的比重。
根据混淆矩阵的描述,每个样本的准确率P1、P2、P3、P4和样本的总体分类准确率P定义如下:
统计三种分类算法的在各个子类的分类准确率情况,统计结果如表2所示。
表2各个模型的性能参数比较
模型 训练集规模/万行 P1 P2 P3 P4 P 时间/s
单机SVM 40 84.3 89.7 86.1 88.2 88.3 794
CascadeSVM 40 83.9 88.6 85.3 87.2 87.1 612
MCDC-SVM 40 84.7 88.4 86.1 88.1 87.9 463
从表2中可以看出,在训练集规模为40万行时,采用三种分类算法的分类准确率从大到小分别是:单机SVM、MCDC-SVM以及CasacdeSVM,可以看到模型间的分类准确率差距较小。由于单机SVM分类算法不涉及到数据块的切分,所以所获取的支持向量在当前数据规模下更加完整,致使最后的分类准确率最高,MCDC-SVM相比CascadeSVM能够充分利用集群的计算资源并对SVM核函数继续了优化,所以分类准确率要更高。单机SVM算法由于无法利用集群并行计算,所花费的时间最多,而CascadeSVM和MCDC-SVM所花时间更少,MCDC-SVM的训练时间略优于CascadeSVM算法。
综上所述,本文提出的MCDC-SVM算法在对不同规模数据集进行分类预测时分类准确率均值最高,且在数据集越大的情况下,所需花费的模型训练时间越少,并能保证分类的准确率。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解;其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;因而这些修改或者替换,并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims (6)

1.一种基于三层动态粒子群算法的多分类器模型构建方法,其特征在于,包括以下步骤:
步骤1:根据样本集中各类之间的类间距离对用户输入的特征向量集进行预处理;
步骤2:将预处理后的特征向量集进行反复的分类、切分、训练和合并,直到获得支持向量机的支持向量,具体步骤如下:
步骤2.1:初始化对预处理后的特征向量集的切分次数q=1,设置上下两层所获得的输出向量数量比λ的阈值;
步骤2.2:将预处理后的特征向量集进行分类并切分为a份,对a份数据逐一进行单独的支持向量机训练,再将训练得到的支持向量集进行合并,得到支持向量数据集MDq
步骤2.3:删除支持向量数据集MDq中无关的非支持向量,重新将支持向量数据集MDq切分成a份,对重新切分的a份数据再逐一进行单独的支持向量机训练,将训练得到的支持向量集合并得到当前层的支持向量数据集MDq+1
步骤2.4:计算当前层的支持向量数据集MDq+1和上一层支持向量数据集MDq所获得的输出向量数量比λ;
步骤2.5:判断λ与阈值之间的关系,若λ小于阈值,则令q=q+1,返回步骤2.2,否则继续步骤2.6;
步骤2.6:将当前MDq+1作为最终的支持向量集,进行最后一次支持向量机训练,输出最终得到的支持向量数据集MDq+2,即支持向量机的支持向量;
步骤3:采用改进的三层粒子群算法对支持向量机核函数进行优化,得到最终的支持向量机的支持向量,从而构建多分类器模型,具体步骤如下:
步骤3.1:将步骤2中得到的支持向量机的支持向量带入到支持向量机核函数中,初始化改进的三层动态粒子群算法的第s个个体的局部最优位置向量Ps,best、种群的全局最优位置向量Gbest、当前迭代次数g,设置算法的最大迭代次数gmax
步骤3.2:更新算法中个体的速度向量Vs和位置向量Xs,然后更新个体的局部最优位置向量Ps,best、种群的全局最优位置向量Gbest
步骤3.3:判断当前迭代次数g与最大迭代次数gmax之间的关系,若g<gmax,则令g=g+1,返回步骤3.2,否则继续步骤3.4;
步骤3.4:输出种群的全局最优位置向量Gbest,即支持向量机的最终支持向量,将最终支持向量带入到支持向量机核函数中,从而构建多分类器模型。
2.根据权利要求1所述的基于三层动态粒子群算法的多分类器模型构建方法,其特征在于,所述步骤1中包括如下步骤:
步骤1.1:计算样本集中k类样本之间两两的类间距离δi,j,其中i,j=[1,2,…,k],且i≠j;
步骤1.2:将k类样本中每一类与其他k-1类之间的类间距离值重新编号,根据每一类的距离值进行升序排列,第i类与其他k-1类之间的类间距离值升序排列为其中i=[1,2,…,k];
步骤1.3:重新排列的特征向量集,先将重新编号的k类样本类间距离中的所有最小值进行降序排列,若两个或两个以上的类间距离最小值相同,再按照类标号i升序排列,最终得到重新排列的特征向量集。
3.根据权利要求2所述的基于三层动态粒子群算法的多分类器模型构建方法,其特征在于,所述步骤1.1中计算样本集中各类之间的类间距离δi,j的公式如下:
δi,j=||mi-mj||2-ri-rj
其中,mi、mj分别为第i类样本集和第j类样本集的类均值向量,||mi-mj||为第i类和第j类的类均值向量距离,ri、ri分别为第i类样本集和第j类样本集的平均半径;所述第i类样本集的均值向量mi和平均半径ri的计算公式如下:
其中,ni为第i类样本集的样本总数量,v表示第i类样本集中的样本数量,为第i类样本集中的第v个数据点。
4.根据权利要求1所述的基于三层动态粒子群算法的多分类器模型构建方法,其特征在于,所述步骤3.2中更新算法中个体的速度向量Vs和位置向量Xs的公式如下:
Xs(t+1)=Xs(t)+Vs(t+1);
其中,ω为惯性权重因子,r1、r2、r3为[0,1]范围内不同的随机常量,c1、c2、c3分别为粒子、子种群、种群的学习因子,k(t)为当前粒子所属的子种群中的最优解,r1(t)和r2(t)分别是子种群和整个种群中的随机粒子。
5.根据权利要求4所述的基于三层动态粒子群算法的多分类器模型构建方法,其特征在于,所述惯性权重因子ω的动态更新公式如下:
其中,ωmin、ωmax为预设值。
6.根据权利要求5所述的基于三层动态粒子群算法的多分类器模型构建方法,其特征在于,所述粒子、子种群、种群的学习因子c1、c2、c3的计算公式如下:
c1=|ω|(c*ω)
c2=|1-ω|(c/(1-ω))
其中,c为惩罚系数,其计算公式如下:
其中,cf、ci为常数。
CN201810227288.4A 2018-03-20 2018-03-20 一种基于三层动态粒子群算法的多分类器模型构建方法 Expired - Fee Related CN108364030B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810227288.4A CN108364030B (zh) 2018-03-20 2018-03-20 一种基于三层动态粒子群算法的多分类器模型构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810227288.4A CN108364030B (zh) 2018-03-20 2018-03-20 一种基于三层动态粒子群算法的多分类器模型构建方法

Publications (2)

Publication Number Publication Date
CN108364030A true CN108364030A (zh) 2018-08-03
CN108364030B CN108364030B (zh) 2019-08-20

Family

ID=63001030

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810227288.4A Expired - Fee Related CN108364030B (zh) 2018-03-20 2018-03-20 一种基于三层动态粒子群算法的多分类器模型构建方法

Country Status (1)

Country Link
CN (1) CN108364030B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111353582A (zh) * 2020-02-19 2020-06-30 四川大学 一种基于粒子群算法的分布式深度学习参数更新方法
CN111382210A (zh) * 2018-12-27 2020-07-07 中国移动通信集团山西有限公司 一种分类方法、装置及设备
CN112381051A (zh) * 2020-11-30 2021-02-19 闽江师范高等专科学校 基于改进支持向量机核函数的植物叶片分类方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110246402A1 (en) * 2010-03-31 2011-10-06 Teledyne Scientific & Imaging, Llc Acoustic event classification using particle swarm optimization with flexible time correlation matching
CN106650667A (zh) * 2016-12-26 2017-05-10 北京交通大学 一种基于支持向量机的行人检测方法及系统
CN106682682A (zh) * 2016-10-20 2017-05-17 北京工业大学 一种基于粒子群优化算法对支持向量机的优化方法
CN107194411A (zh) * 2017-04-13 2017-09-22 哈尔滨工程大学 一种改进的分层级联的支持向量机并行化方法
CN107547457A (zh) * 2017-09-15 2018-01-05 重庆大学 一种基于改进粒子群优化bp神经网络的盲信道均衡方法
CN107657037A (zh) * 2017-09-29 2018-02-02 郑州云海信息技术有限公司 一种高效图像检索方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110246402A1 (en) * 2010-03-31 2011-10-06 Teledyne Scientific & Imaging, Llc Acoustic event classification using particle swarm optimization with flexible time correlation matching
CN106682682A (zh) * 2016-10-20 2017-05-17 北京工业大学 一种基于粒子群优化算法对支持向量机的优化方法
CN106650667A (zh) * 2016-12-26 2017-05-10 北京交通大学 一种基于支持向量机的行人检测方法及系统
CN107194411A (zh) * 2017-04-13 2017-09-22 哈尔滨工程大学 一种改进的分层级联的支持向量机并行化方法
CN107547457A (zh) * 2017-09-15 2018-01-05 重庆大学 一种基于改进粒子群优化bp神经网络的盲信道均衡方法
CN107657037A (zh) * 2017-09-29 2018-02-02 郑州云海信息技术有限公司 一种高效图像检索方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LILIYA DEMIDOVA 等: "The SVM Classifier Based on the Modified Particle Swarm Optimization", 《(IJACSA) INTERNATIONAL JOURNAL OF ADVANCED COMPUTER SCIENCE AND APPLICATIONS》 *
邓广彪: "改进的粒子群算法在云计算下的数据挖掘中的研究", 《科技通报》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111382210A (zh) * 2018-12-27 2020-07-07 中国移动通信集团山西有限公司 一种分类方法、装置及设备
CN111382210B (zh) * 2018-12-27 2023-11-10 中国移动通信集团山西有限公司 一种分类方法、装置及设备
CN111353582A (zh) * 2020-02-19 2020-06-30 四川大学 一种基于粒子群算法的分布式深度学习参数更新方法
CN112381051A (zh) * 2020-11-30 2021-02-19 闽江师范高等专科学校 基于改进支持向量机核函数的植物叶片分类方法及系统
CN112381051B (zh) * 2020-11-30 2023-12-19 闽江师范高等专科学校 基于改进支持向量机核函数的植物叶片分类方法及系统

Also Published As

Publication number Publication date
CN108364030B (zh) 2019-08-20

Similar Documents

Publication Publication Date Title
Mei et al. An efficient feature selection algorithm for evolving job shop scheduling rules with genetic programming
CN106815369B (zh) 一种基于Xgboost分类算法的文本分类方法
CN107103332B (zh) 一种面向大规模数据集的相关向量机分类方法
CN105929690B (zh) 一种基于分解多目标进化算法的柔性车间鲁棒调度方法
CN110111113B (zh) 一种异常交易节点的检测方法及装置
CN108364030B (zh) 一种基于三层动态粒子群算法的多分类器模型构建方法
CN108363810A (zh) 一种文本分类方法及装置
CN109284626A (zh) 面向差分隐私保护的随机森林算法
Boyabatli et al. Parameter selection in genetic algorithms
CN105843189B (zh) 一种用于半导体生产线基于简化仿真模型的高效调度规则选择方法
CN102054002A (zh) 一种数据挖掘系统中决策树的生成方法及装置
CN106446931A (zh) 基于支持向量数据描述的特征提取及分类方法及其系统
CN105654196A (zh) 一种基于电力大数据的自适应负荷预测选择方法
CN108053077A (zh) 一种基于区间二型t-s模糊模型的短期风速预测方法与系统
CN108446741A (zh) 机器学习超参数重要性评估方法、系统及存储介质
CN105808582A (zh) 基于分层策略的决策树并行生成方法和装置
CN106202092A (zh) 数据处理的方法及系统
CN106384161B (zh) 一种用于航天巡视计划区域划分的优化方法
CN102831432A (zh) 一种适用于支持向量机训练的冗余数据约减方法
CN103971136A (zh) 一种面向大规模数据的并行结构化支持向量机分类方法
Amruthnath et al. Modified rank order clustering algorithm approach by including manufacturing data
CN111143685A (zh) 一种推荐系统的构建方法及装置
CN110414569A (zh) 聚类实现方法及装置
CN114821106A (zh) 一种基于特征金字塔的圣女果检测识别方法
CN107193940A (zh) 大数据优化分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190820

Termination date: 20210320

CF01 Termination of patent right due to non-payment of annual fee