CN108364030A

CN108364030A - 一种基于三层动态粒子群算法的多分类器模型构建方法

Info

Publication number: CN108364030A
Application number: CN201810227288.4A
Authority: CN
Inventors: 代钰; 杨雷; 阚志浩; 张斌
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2018-03-20
Filing date: 2018-03-20
Publication date: 2018-08-03
Anticipated expiration: 2038-03-20
Also published as: CN108364030B

Abstract

本发明提供一种基于三层动态粒子群算法的多分类器模型构建方法，涉及数据分析处理技术领域。该方法包括：预处理输入特征向量集；对预处理后的特征向量集反复分类、切分、训练和合并，直到获得支持向量机的支持向量；采用改进的三层粒子群算法对支持向量机核函数进行优化，构建多分类器模型。本发明提供的一种基于三层动态粒子群算法的多分类器模型构建方法，采用分治方法，对初始数据集进行数据块切分，降低子支持向量机的数据处理规模，加快训练时间，同时，对每一层利用相同数量的独立的支持向量机训练，获得支持向量集，充分利用集群环境，提高并行效率，再对最终的支持向量机核参数进行优化，获得最优的支持向量集，从而获得多分类器模型。

Description

一种基于三层动态粒子群算法的多分类器模型构建方法

技术领域

本发明涉及数据分析处理技术领域，具体涉及一种基于三层动态粒子群算法的多分类器模型构建方法。

背景技术

随着信息技术的发展，用户所产生的数据总量成指数型增长。如何从海量数据中提取有用的信息或知识，并应用到相关领域已经成为了一个重要的研究课题，其中数据分类问题已经在工业生产、生活、服务等方面得到了非常广泛的应用。常见的大数据分类方法主要应用于故障诊断、销售系统、疾病诊断以及信贷评级等。然而，由于大数据高维度以及应用的实时性需求，大数据环境下数据分类方法往往面临数据处理高效率以及高精度的挑战。因此，传统的集中式分类器往往难以解决高效的大数据分类模型构建需求。为此，目前研究工作开展了关于分布式分类方法的研究。SVM分类器作为最为普遍应用的一种分类工具也已经开展了很多关于它的分布式方法研究。分布式SVM分类器的基本思想是采用分治的方式将大数据集分块处理，然后通过两两合并的方式构建最终的SVM分类器。然而，目前的方法由于两两合并进行最终SVM分类器的构建，容易在合并构成中产生大量的计算节点空余，同时，容易陷入局部最优解，从而难以保证分类的效率以及精度。为此，如何提高分布式SVM分类器对大数据的分类效率以及精度仍然是目前研究的一个难点和热点。

发明内容

针对现有技术存在的问题，本发明提供一种基于三层动态粒子群算法的多分类器模型构建方法，采用改进的三层动态粒子群算法对生成的支持向量机核函数的参数进行优化，充分利用分布式计算环境，大大提高了模型的训练速度，并且支持多分类问题，广泛应用于工业生产、生活、服务等方面，例如故障诊断、销售系统、疾病诊断以及信贷评级等。

为了实现上述目的，一种基于三层动态粒子群算法的多分类器模型构建方法，包括以下步骤：

步骤1：根据样本集中各类之间的类间距离对用户输入的特征向量集进行预处理，具体方法如下：

步骤1.1：计算样本集中k类样本之间两两的类间距离δ_i,j，其中i,j＝[1,2,…,k]，且i≠j；

步骤1.2：将k类样本中每一类与其他k-1类之间的类间距离值重新编号，根据每一类的距离值进行升序排列，第i类与其他k-1类之间的类间距离值升序排列为其中i＝[1,2,…,k]；

步骤1.3：重新排列的特征向量集，先将重新编号的k类样本类间距离中的所有最小值进行降序排列，若两个或两个以上的类间距离最小值相同，再按照类标号i升序排列，最终得到重新排列的特征向量集；

步骤2：将预处理后的特征向量集进行反复的分类、切分、训练和合并，直到获得支持向量机的支持向量，具体步骤如下：

步骤2.1：初始化对预处理后的特征向量集的切分次数q＝1，设置上下两层所获得的输出向量数量比λ的阈值；

步骤2.2：将预处理后的特征向量集进行分类并切分为a份，对a份数据逐一进行单独的支持向量机训练，再将训练得到的支持向量集进行合并，得到支持向量数据集MD_q；

步骤2.3：删除支持向量数据集MD_q中无关的非支持向量，重新将支持向量数据集MD_q切分成a份，对重新切分的a份数据再逐一进行单独的支持向量机训练，将训练得到的支持向量集合并得到当前层的支持向量数据集MD_q+1；

步骤2.4：计算当前层的支持向量数据集MD_q+1和上一层支持向量数据集MD_q所获得的输出向量数量比λ；

步骤2.5：判断λ与阈值之间的关系，若λ小于阈值，则令q＝q+1，返回步骤2.2，否则继续步骤2.6；

步骤2.6：将当前MD_q+1作为最终的支持向量集，进行最后一次支持向量机训练，输出最终得到的支持向量数据集MD_q+2，即支持向量机的支持向量；

步骤3：采用改进的三层粒子群算法对支持向量机核函数进行优化，得到最终的支持向量机的支持向量，从而构建多分类器模型，具体步骤如下：

步骤3.1：将步骤2中得到的支持向量机的支持向量带入到支持向量机核函数中，初始化改进的三层动态粒子群算法的第s个个体的局部最优位置向量P_s，best、种群的全局最优位置向量G_best、当前迭代次数g，设置算法的最大迭代次数g_max；

步骤3.2：更新算法中个体的速度向量V_s和位置向量X_s，然后更新个体的局部最优位置向量P_s，best、种群的全局最优位置向量G_best；

步骤3.3：判断当前迭代次数g与最大迭代次数g_max之间的关系，若g<g_max，则令g＝g+1，返回步骤3.2，否则继续步骤3.4；

步骤3.4：输出种群的全局最优位置向量G_best，即支持向量机的最终支持向量，将最终支持向量带入到支持向量机核函数中，从而构建多分类器模型。

进一步地，所述步骤1.1中计算样本集中各类之间的类间距离δ_i,j的公式如下：

δ_i,j＝||m_i-m_j||²-r_i-r_j；

其中，m_i为第i类的样本集的均值向量，||m_i-m_j||为第i类和第j类的类均值向量距离，r_i为第i类样本集的平均半径；所述第i类样本集的均值向量m_i和平均半径r_i的计算公式如下：

其中，n_i为第i类样本集的样本总数量，v表示第i类样本集中的样本数量，为第i类样本集中的第v个数据点。

进一步地，所述步骤3.2中更新算法中个体的速度向量V_s和位置向量X_s的公式如下：

X_s(t+1)＝X_s(t)+V_s(t+1)；

其中，ω为惯性权重因子，r₁、r₂、r₃为[0,1]范围内不同的随机常量，c₁、c₂、c₃分别为粒子、子种群、种群的学习因子，k(t)为当前粒子所属的子种群中的最优解，r₁(t)和r₂(t)分别是子种群和整个种群中的随机粒子。

进一步地，所述惯性权重因子ω的动态更新公式如下：

其中，ω_min、ω_max为预设值。

进一步地，所述粒子、子种群、种群的学习因子c₁、c₂、c₃的计算公式如下：

c₁＝|ω|^(c*ω)；

c₂＝|1-ω|^(c/(1-ω))；

其中，c为惩罚系数，其计算公式如下：

其中，c_f、c_i为常数。

本发明的有益效果：

本发明提出一种基于三层动态粒子群算法的多分类器模型构建方法，该算法采用处理大规模数据常用的分治方法，对初始的数据集进行数据块切分，降低每一个子支持向量机所处理的数据规模，进而加快训练时间，同时，为了充分利用集群环境，提高并行效率，对每一层利用相同数量的独立的支持向量机训练，进而获得支持向量集，最终获得最优的支持向量集，从而获得多分类器模型。

附图说明

图1为本发明实施例中基于三层动态粒子群算法的多分类器模型构建方法的流程图；

图2为本发明实施例中基于三层动态粒子群算法的多分类器模型构建方法步骤1的流程图；

图3为本发明实施例中基于三层动态粒子群算法的多分类器模型构建方法步骤2的流程图；

图4为本发明实施例中改进的三层动态粒子群算法流程示意图；

图5为本发明实施例中基于三层动态粒子群算法的多分类器模型构建方法步骤3的流程图；

图6为本发明实施例中采用不同支持向量机算法的训练时间对比图；

图7为本发明实施例中采用不同支持向量机算法的总体分类准确率对比图。

具体实施方式

为了使本发明的目的、技术方案及优势更加清晰,下面结合附图和具体实施例对本发明做进一步详细说明。此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。

一种基于三层动态粒子群算法的多分类器模型构建方法，流程如图1所示，具体方法如下所述：

步骤1：根据样本集中各类之间的类间距离对用户输入的特征向量集进行预处理，流程图如图2所示，具体方法如下：

步骤1.1：计算样本集中k类样本之间两两的类间距离δ_i,j，其中i,j＝[1,2,…,k]，且i≠j。

所述计算样本集中各类之间的类间距离δ_i,j的公式如公式(1)所示：

δ_i,j＝||m_i-m_j||²-r_i-r_j (1)

其中，m_i、m_j分别为第i类样本集和第j类样本集的类均值向量，||m_i-m_j||为第i类和第j类的类均值向量距离，r_i、r_i分别为第i类样本集和第j类样本集的平均半径；所述第i类样本集的均值向量m_i和平均半径r_i的计算公式如公式(2)和公式(3)所示：

其中，n_i为第i类样本集的样本总数量，v表示第i类样本集中的样本数量，x_v ⁱ为第i类样本集中的第v个数据点。

其中，第j类样本集的均值向量m_j和平均半径r_j的计算公式同m_i和r_i。

步骤1.2：将k类样本中每一类与其他k-1类之间的类间距离值重新编号，根据每一类的距离值进行升序排列，第i类与其他k-1类之间的类间距离值升序排列为其中i＝[1,2,…,k]。

步骤1.3：重新排列的特征向量集，先将重新编号的k类样本类间距离中的所有最小值进行降序排列，若两个或两个以上的类间距离最小值相同，再按照类标号i升序排列，最终得到重新排列的特征向量集。

步骤2：将预处理后的特征向量集进行反复的分类、切分、训练和合并，直到获得支持向量机的支持向量，流程如图3所示，具体步骤如下：

步骤2.1：初始化对预处理后的特征向量集的切分次数q＝1，设置上下两层所获得的输出向量数量比λ的阈值。

本实施例中，设置λ的阈值为0.95。

步骤2.2：将预处理后的特征向量集进行分类并切分为a份，对a份数据逐一进行单独的支持向量机训练，再将训练得到的支持向量集进行合并，得到支持向量数据集MD_q。

本实施例中，取a＝8，每次对支持向量数据集切分份数均为8。

步骤2.3：删除支持向量数据集MD_q中无关的非支持向量，重新将支持向量数据集MD_q切分成a份，对重新切分的a份数据再逐一进行单独的支持向量机训练，将训练得到的支持向量集合并得到当前层的支持向量数据集MD_q+1。

步骤2.4：计算当前层的支持向量数据集MD_q+1和上一层支持向量数据集MD_q所获得的输出向量数量比λ。

步骤2.5：判断λ与阈值之间的关系，若λ小于阈值，则令q＝q+1，返回步骤2.2，否则继续步骤2.6。

步骤2.6：将当前MD_q+1作为最终的支持向量集，进行最后一次支持向量机训练，输出最终得到的支持向量数据集MD_q+2，即支持向量机的支持向量。

本实施例中，上述步骤2的方法简称为改进的三层动态粒子群算法，即PSO-SVM算法，采用该算法进行分类、切分、训练和合并的流程示意图如图4所示，先将预处理后的特征向量集分分类切分成8份，标号为Ts1至Ts8，然后对Ts1至Ts8逐一进行单独的支持向量机训练，再将训练得到的支持向量集进行合并，得到支持向量数据集MD₁，再将MD₁重新分类切分成8份，标号为Ts1至Ts8，然后对Ts1至Ts8逐一进行单独的支持向量机训练，再将训练得到的支持向量集进行合并，得到支持向量数据集MD₂，以此类推，直到得到支持向量机的支持向量MD_q。

步骤3：采用改进的三层粒子群算法对支持向量机核函数进行优化，得到最终的支持向量机的支持向量，从而构建多分类器模型。

本实施例中，选取SVM中常用的RBF核函数作为测试对象，RBF函数公式如下：

其中，需要优化的支持向量为γ，x表示数据点，x_t表示选取的核函数中心。

流程如图5所示，具体步骤如下：

步骤3.1：将步骤2中得到的支持向量机的支持向量带入到支持向量机核函数中，初始化改进的三层动态粒子群算法的第s个个体的局部最优位置向量P_s，best、种群的全局最优位置向量G_best、当前迭代次数g＝1，设置算法的最大迭代次数g_max＝50。

步骤3.2：更新算法中个体的速度向量V_s和位置向量X_s，然后更新个体的局部最优位置向量P_s，best、种群的全局最优位置向量G_best。

所述更新算法中个体的速度向量V_s和位置向量X_s的公式如公式(4)和公式(5)所示：

X_s(t+1)＝X_s(t)+V_s(t+1) (5)

所述惯性权重因子ω的动态更新公式如公式(6)所示：

其中，ω_min、ω_max为预设值。

所述粒子、子种群、种群的学习因子c₁、c₂、c₃的计算公式如公式(7)-(9)所示：

c₁＝|ω|^(c*ω) (7)

c₂＝|1-ω|^(c/(1-ω)) (8)

其中，c为惩罚系数，其计算公式如公式(10)所示：

其中，c_f、c_i为常数。

步骤3.3：判断当前迭代次数g与最大迭代次数g_max之间的关系，若g<g_max，则令g＝g+1，返回步骤3.2，否则继续步骤3.4。

本实施例中，采用三层动态粒子群算法的多分类器模型构建方法简称为MCDC-SVM分类模型对数据集进行处理，涉及到的参数包括学习因子和权重因子均采用公式进行初始化，现有技术中常采用CascadeSVM分类模型和单机版的SVM分类模型对数据集进行处理，此两种方法均是设定学习因子c₁＝1.5和c₂＝1.5、权重因子ω∈[0.2,1]，三种模型训练时间的对比图如图6所示。

由图6可以看出，在处理不同规模数据集时，MCDC-SVM分类模型、CascadeSVM分类模型以及单机版的SVM分类模型在训练时间上存在较大差异。当训练集规模在0-15万行数据时，单机版SVM分类模型的训练速度比其他两种的训练时间要更快，然而随着数据集的不断增加，如数据规模在15-35万行时，单机版的SVM分类模型的训练速度开始逐渐上升，而其他两种分类模型的训练时间只有小幅度的上升，然而随着数据规模的继续增加，单机版的SVM分类模型训练时间增长速度明显加快，接近指数增长速度，而CascadeSVM分类模型和MCDC-SVM分类模型的训练速度虽有一定程度增加，但和单机版的SVM分类模型相比，上升速度较慢。对于单机的SVM分类模型，由于数据量的大量增加，单一节点对数据集的处理能力有限，所以当数据量越大时，机器无法对其进行处理，导致训练时间指数型增加。对于传统的分布式SVM和MCDC-SVM来说，由于采用分布式的处理方式，在小规模数据集的处理中，首先需要对数据集进行分块，而分块所占的时间以及分布式系统结点之间的通信和调度会导致整体的训练时间减慢，然而随着数据集的不断增加，对数据集本身的训练时间将远远大于数据集分块时间和调度时间，使得采用分布式处理的算法具有更好的时间效率。同时，分布式算法的训练时间主要取决于迭代的次数，由于本文引入了新的处理迭代终止的阈值定义，使得MCDC-SVM分类模型总体的训练时间要优于传统的CascadeSVM分类模型。

将单机SVM、传统CascadeSVM和MCDC-SVM分类器的总体分类效果进行对比，实验结果如图7所示。

从图7可以看出，随着训练集规模的不断增加，三种SVM分类模型的分类准确率均有所提升，这也证明了SVM分类模型的分类准确率和数据集规模的大小是具有正相关的。然而当数据集的大小到达一定规模之后，采用不同的SVM分类模型的分类准确率并没有很大的差距。

为了验证多类别分类器的分类效率，引入混淆矩阵，如表1所示。

表1四分类混淆矩阵

类别	一类	二类	三类	四类
						一类	P₁₁	P₁₂	P₁₃	P₁₄	P₁
二类	P₂₁	P₂₂	P₂₃	P₂₄	P₂
						三类	P₃₁	P₃₂	P₃₃	P₃₄	P₃
四类	P₄₁	P₄₂	P₄₃	P₄₄	P₄

在表1中，P_ij表示为第i类样本分到了第j类的样本数目比重，对角上的值，即i＝j时代表该分类预测准确的比重，非对角线上的值，即i≠j时代表样本集被误分的比重。

根据混淆矩阵的描述，每个样本的准确率P₁、P₂、P₃、P₄和样本的总体分类准确率P定义如下：

统计三种分类算法的在各个子类的分类准确率情况，统计结果如表2所示。

表2各个模型的性能参数比较

模型	训练集规模/万行	P₁	P₂	P₃	P₄	P	时间/s
								单机SVM	40	84.3	89.7	86.1	88.2	88.3	794
CascadeSVM	40	83.9	88.6	85.3	87.2	87.1	612
								MCDC-SVM	40	84.7	88.4	86.1	88.1	87.9	463

从表2中可以看出，在训练集规模为40万行时，采用三种分类算法的分类准确率从大到小分别是：单机SVM、MCDC-SVM以及CasacdeSVM，可以看到模型间的分类准确率差距较小。由于单机SVM分类算法不涉及到数据块的切分，所以所获取的支持向量在当前数据规模下更加完整，致使最后的分类准确率最高，MCDC-SVM相比CascadeSVM能够充分利用集群的计算资源并对SVM核函数继续了优化，所以分类准确率要更高。单机SVM算法由于无法利用集群并行计算，所花费的时间最多，而CascadeSVM和MCDC-SVM所花时间更少，MCDC-SVM的训练时间略优于CascadeSVM算法。

综上所述，本文提出的MCDC-SVM算法在对不同规模数据集进行分类预测时分类准确率均值最高，且在数据集越大的情况下，所需花费的模型训练时间越少，并能保证分类的准确率。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解；其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；因而这些修改或者替换，并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims

1.一种基于三层动态粒子群算法的多分类器模型构建方法，其特征在于，包括以下步骤：

步骤1：根据样本集中各类之间的类间距离对用户输入的特征向量集进行预处理；

2.根据权利要求1所述的基于三层动态粒子群算法的多分类器模型构建方法，其特征在于，所述步骤1中包括如下步骤：

3.根据权利要求2所述的基于三层动态粒子群算法的多分类器模型构建方法，其特征在于，所述步骤1.1中计算样本集中各类之间的类间距离δ_i,j的公式如下：

δ_i,j＝||m_i-m_j||²-r_i-r_j；

其中，m_i、m_j分别为第i类样本集和第j类样本集的类均值向量，||m_i-m_j||为第i类和第j类的类均值向量距离，r_i、r_i分别为第i类样本集和第j类样本集的平均半径；所述第i类样本集的均值向量m_i和平均半径r_i的计算公式如下：

4.根据权利要求1所述的基于三层动态粒子群算法的多分类器模型构建方法，其特征在于，所述步骤3.2中更新算法中个体的速度向量V_s和位置向量X_s的公式如下：

X_s(t+1)＝X_s(t)+V_s(t+1)；

5.根据权利要求4所述的基于三层动态粒子群算法的多分类器模型构建方法，其特征在于，所述惯性权重因子ω的动态更新公式如下：

其中，ω_min、ω_max为预设值。

6.根据权利要求5所述的基于三层动态粒子群算法的多分类器模型构建方法，其特征在于，所述粒子、子种群、种群的学习因子c₁、c₂、c₃的计算公式如下：

c₁＝|ω|^(c*ω)；

c₂＝|1-ω|^(c/(1-ω))；

其中，c为惩罚系数，其计算公式如下：

其中，c_f、c_i为常数。