CN116415177A

CN116415177A - 一种基于极限学习机的分类器参数辨识方法

Info

Publication number: CN116415177A
Application number: CN202310196313.8A
Authority: CN
Inventors: 王艳娇; 刘益廷; 李伟迪; 邓木清
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2023-03-02
Filing date: 2023-03-02
Publication date: 2023-07-11

Abstract

本发明公开了一种基于极限学习机的分类器参数辨识方法，步骤1：对分类数据集划分训练数据集和测试数据集；步骤2：构造极限学习机模型，采用改良的鲸鱼优化算法获取多新息极限学习机的最佳初始化参数，步骤3：利用训练数据集对极限学习机模型进行在线训练，用结构风险损失函数对极限学习机模型进行模型评估，进行输出权重的辨识更新，完成对所获数据集的分类训练，完善极限学习机模型参数；步骤4：将待分类的测试数据集输入到步骤3在线训练后的多新息极限学习机模型中，在线识别获得测试数据集的类别，若有新的数据输入，重复步骤3，对新输入的分类数据集进行分类。通过本发明方法，提高了极限学习机模型分类精度。

Description

一种基于极限学习机的分类器参数辨识方法

技术领域

本发明涉及分类器参数辨识技术领域，特别是涉及极限学习机的分类器参数辨识方法。

背景技术

随着工程应用上的要求越来越高，人们对图片或者文本等需分类的对象进行预处理以及正确分类的方法也在不断更新发展，而机器学习就是当前进行分类操作的主流方法之一；大部分数学模型的构造都离不开系统辨识，多新息理论是系统辨识的分支，它的基本思想是扩展创新长度和充分利用来自数据的有用信息；换句话说，多新息理论引入了移动数据窗口建模学习的信息不仅包含当前信息，还包含一些以前的信息；在机器学习中，极限学习机(ExtremeLearningMachine，ELM)由于其简单的单隐层前馈神经网络结构，以及输入层采用随机赋值输入权值从而在训练时不用再反复学习的特性，相比于其他传统的机器学习算法，ELM在保证算法精度的基础上在训练速度上有一定优势，而其内核版本核极限学习机(ELMwithkernel，KELM)改变原始ELM映射方式为核函数隐性映射，在保留原有优势的同时降低了不确定性，提高了算法的性能；因此KELM也被广泛应用于分类器参数辨识领域；

实际工程应用过程中，会有不同的新的数据输入，如果只取过往的数据当做依据，对于分类器的性能保住有着一定的难度，在复杂的现实环境中，所采集的输入数据极为嘈杂，甚至一些输入数据在本质上有可能对于分类器参数的辨识是不利的，因此，在分类器参数辨识方法中尽量减少甚至排除不利数据对参数辨识的影响的能力变得十分重要。

发明内容

本发明提供一种基于极限学习机的分类器参数辨识方法，解决极限学习机对于相关性较差的不利数据的处理能力受限问题，提高极限学习机模型分类精度。

为实现上述效果，本发明的技术方案如下：

一种基于极限学习机的分类器参数辨识方法，包括以下步骤：

步骤1：获取分类数据集，对分类数据集划分训练数据集和测试数据集；其中，训练数据集中每个元素为每一次在线训练的输入(x,y)，含m个数据，x为n维列向量，n表示每一个输入样本中的特征数量；y为t维输出列向量，t表示类别数量，并对训练数据集和测试数据集内的数据进行归一化处理；

步骤2：构造极限学习机模型，采用改良的鲸鱼优化算法获取多新息极限学习机的最佳初始化参数：正则化因子C、核函数参数γ；其中，鲸鱼优化算法其改良过程为：引入自适应权重策略、莱维飞行搜索扰动机制对鲸鱼优化算法的鲸鱼个体进行位置更新；

步骤3：利用训练数据集对极限学习机模型进行在线训练，用结构风险损失函数对极限学习机模型进行模型评估，进行输出权重的辨识更新，完成对所获数据集的分类训练；

步骤4：将待分类的测试数据集输入到步骤3在线训练后的多新息极限学习机模型中，在线识别获得测试数据集的类别，若有新的数据输入，重复步骤3，对新输入的分类数据集进行分类。

上述方案中，极限学习机为多新息核极限学习机模型；本发明结合多新息理论与极限学习机，在线训练过程中建立一个多数据移动窗口，提高了数据利用率，加强了模型与当前数据的联系，也为极限学习机算法在精度上的优化提供了有效思路。多新息理论引入了移动数据窗口建模学习的信息不仅包含当前信息，还包含一些以前的信息；极限学习机作为优化算法，将显性映射转化为隐性映射。

进一步的，步骤2中极限学习机基础模型如下所示：

Hβ＝Y (1)

式中，Y为极限学习机模型，即线性矩阵方程，β＝[β₁,β₂,...,β_i]^T为极限学习机的输出权重，β_i＝[β_i1,β_i2,...,β_it]，极限学习机输出权重的维度取决于极限学习机隐含层节点数i以及输出标签类的数量t；H为特征映射矩阵，表示为：

式中，g()为激活函数，(a,b)是极限学习机输入层与隐含层之间的输入权重，输入权重为随机赋值；

通过求解极限学习机模型(1)所在线性矩阵方程，得到最小二乘解β，最小二乘解β即为极限学习机的输出权重，极限学习机的输出权重转化为以下形式；

β＝H^T(I/C+HH^T)^-1Y (3)

式中，C表示正则化因子，是一个常量；I是对应维度的单位矩阵。

进一步的，步骤2获取多新息极限学习机的最佳初始化参数，具体包括如下步骤：

步骤2.1：设置鲸鱼优化算法的初始化参数，初始化参数包括鲸鱼种群数量N、维度数D、最大迭代次数T_max、鲸鱼种群在各个维度的上下限取值范围U_d；

步骤2.2：采取网格搜索的策略在需要的范围内搜索鲸鱼种群X＝{X₁,X₂,...,X_N}，其中，X_i(i＝1,2,...,N)表示第i个鲸鱼个体的位置信息，X_i＝{X_i1,X_i2,...,X_iD}，X_ij(j＝1,2,...,D)表示第i个鲸鱼个体第j维的位置信息；

步骤2.3：使用F-score评判标准计算每一个鲸鱼种群中鲸鱼个体的适应度函数值F，并筛选保留最优的适应度值F_best，将最优的适应度值F_best对应的最佳鲸鱼个体X_best作为当前的全局最优解；

步骤2.4：引入自适应权重策略、莱维飞行搜索扰动机制对鲸鱼优化算法的鲸鱼个体进行位置更新，完成对鲸鱼优化算法的改良；即引入自适应权重策略作用于最佳鲸鱼个体X_best，调整最佳鲸鱼个体X_best的权重比例，充分发挥鲸鱼个体在位置更新中的作用；引入莱维飞行搜索扰动机制，增强鲸鱼优化算法跳出局部最优的能力；

步骤2.5：使用一种变异改良机制对鲸鱼优化算法进行迭代更新，即根据人为设定条件概率进行高斯变异，使用优胜劣汰机制，若更新或变异后鲸鱼种群X_t的适应度值优于前一次迭代的最佳鲸鱼个体X_best，则当前的全局最优解替换为X_t；若更新或变异后鲸鱼种群X_t的适应度值劣于前一次迭代的最佳鲸鱼个体X_best，则当前的全局最优解为前一次迭代的最佳鲸鱼个体X_best，直到迭代次数t达到最大迭代次数T_max时结束更新。

进一步的，步骤2.3中适应度函数值F为：

式中，Classes为分类类别数量；Recall_i为召回率，Precision_i为精确率，表示为：

其中，TP_i、FP_i、TN_i和FN_i分别表示分类中真阳性、假阳性、真阴性和假阴性结果的数量。

进一步的，步骤2.4中鲸鱼个体的位置更新如下式所示：

式中，t为迭代次数，q是一个(0,1)之间随机生成的概率；A＝a·(2r1-1)为系数向量，a为从2线性减小到0线性的收敛因子，

bl为[0,1]之间的随机数，b为对数螺旋形常数，通常b＝1，l表示[-1,1]之间的随机数；/>

ω为自适应权重策略。

进一步的，步骤2.4中莱维飞行搜素扰动机制中，α为随机步长，s为扰动步长，s计算公式如下：

式中，u和v为标准正态分布随机数；λ为[0,2]之间的随机数，Γ()为伽马函数。

进一步的，步骤2.5中变异改良机制如下式所示：

X_new＝X(t+1)(1+Gaussion(τ)), (8)

式中，X_new为X(t+1)更新后鲸鱼种群，Gaussion()为高斯函数，τ为高斯核参数；X(t+1)为下一迭代次数的鲸鱼种群。

进一步的，步骤3中结构风险损失函数如下式所示：

式中，p为新息长度，β＝[β₁,β₂,…,β_i]^T,β_i＝[β_i1,β_i2,…,β_it],,Y(p,j)和Φ(p,j)分别是基于新息长度p的输出滑动窗口和特征映射矩阵；所述输出滑动窗口Y(p,j)和特征映射矩阵Φ(p,j)定义如下所示：

式中，h(j)为显性映射向量；

求解结构风险损失函数方程(10)，得到输出权重β：

β＝(I/C+Φ(p,m)Φ^T(p,m))^-1Y(p,m) (12)。

进一步的，步骤3中输出权重的辨识更新具体包括：

步骤3.1：获取包含m个样本的训练数据集，将训练数据集记为(x_i,y_i)，i＝1，2,...,m，其中x_i＝[x_i1,x_i2,...,x_in]^T，y_i＝[y_i1,y_i2,…,y_it]^T，取d＝m/10的分类数据集作为测试数据集，剩余的9m/10的分类数据集作为训练数据集用于实时更新训练；

步骤3.2：将显性特征映射方式转变为隐性映射；训练数据集为输入数据，利用核函数k(x_i,x_j)与输入数据构造核矩阵Ω＝HH^T，经由公式推导，结合多新息理论下的核矩阵Ω_m；选择核矩阵Ω_d，利用公式(13)获得初始输出权重β₁＝(I_p/C+Ω_d)^-1Y_d；

β＝(I/C+Ω)^-1Y (13)

步骤3.3：根据核矩阵Ω_d以及初始输出权重β₁计算误差E₁＝Y_d-Ω_d·β₁，每一次更新核矩阵Ω和输出权重β后都计算误差项E_m，再根据公式(14)计算新的核矩阵Ω_m，经由推导根据核矩阵Ω_m、误差项E_m以及β_m-1对输出权重β_m进行在线更新。

进一步的，步骤3.3中输出权重β_m表示为：

式中，n_m＝β_m-1Ω_m(:,1:p(m-1))，r_n＝I_p/C+Ω_m(:,p(m-1)+1:pm)。

上述方案中，本发明提出了一种基于极限学习机的分类器参数辨识方法，结合多新息理论方法对极限学习机算法分类器进行优化，通过建立一个滑动数据窗口提高对过往数据的利用率，增加了当前数据与过去所构模型之间的联系；在预处理采集到的分类数据集之后，利用该优化方法进行在线训练完成模型实时构造，进而完成对待分类数据的分类，提高了分类器参数辨识的精度，同时利用鲸鱼优化算法优化模型参数初始化，以达到模型效果最优的目的。

与现有技术相比，本发明技术方案的有益效果是：

本发明极限学习机模型训练更新的过程减少了非必要的重复训练，节省了时间，解决了极限学习机对于相关性较差的不利数据的处理能力受限问题，提高了极限学习机模型分类精度，使用变异改良机制进行迭代更新，使本发明极限学习机模型达到最优分类效果。

附图说明

附图仅用于示例性说明，不能理解为对本发明的限制；为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

图1是本发明基于极限学习机的分类器参数辨识方法流程示意图；

图2是本发明在不同p值下数据集Ecoli的分类情况示意图；

图3是本发明改良的鲸鱼算法在Musk(Version1)数据集下与其他基于群的优化算法的优化效果对比曲线示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都是本发明保护的范围。

实施例1

为了便于理解，请参阅图1，一种基于极限学习机的分类器参数辨识方法，包括以下步骤：

步骤1：获取分类数据集，对分类数据集划分训练数据集(X,Y)和测试数据集(TX,TY)；其中，训练数据集中每个元素为每一次在线训练的输入(x,y)，含m个数据，x为n维列向量，n表示每一个输入样本中的特征数量；y为t维输出列向量，t表示类别数量，一般y表示为标签向量；并对训练数据集和测试数据集内的数据进行归一化处理；

其中，分类数据集选用UCI(University of California Irvine)数据集。

其中，极限学习机模型如下所示：

Hβ＝Y (1)

式中，Y为极限学习机模型，即线性矩阵方程，β＝[β₁,β₂,…,β_i]^T为极限学习机的输出权重，β_i＝[β_i1,β_i2,…,β_it]，极限学习机输出权重的维度取决于极限学习机隐含层节点数i以及输出标签类的数量t；H为特征映射矩阵，表示为：

β＝H^T(I/C+HH^T)^-1Y (3)

在具体实施过程中，获取多新息极限学习机的最佳初始化参数，具体包括如下步骤：步骤2.1：设置鲸鱼优化算法的初始化参数，初始化参数包括鲸鱼种群数量N、维度数D、最大迭代次数T_max、鲸鱼种群在各个维度的上下限取值范围U_d；

在具体实施过程中，适应度函数值F为：

在具体实施过程中，鲸鱼个体的位置更新如下式所示：

ω为自适应权重策略。

在具体实施过程中，步骤2.4中莱维飞行搜素扰动机制中，α为随机步长，s为扰动步长，s计算公式如下：

在具体实施过程中，变异改良机制如下式所示：

X_new＝X(t+1)(1+Gaussion(τ)), (8)

需要说明的是，本发明对鲸鱼优化算法进行改良：在位置更新阶段引入了自适应权重和莱维飞行机制，位置更新后有一个依概率(人为设定)执行的高斯变异。

步骤3：利用训练数据集对极限学习机模型进行在线训练，用结构风险损失函数对极限学习机模型进行模型评估，进行输出权重的辨识更新，完成对所获数据集的分类训练，完善极限学习机模型参数；

其中，结构风险损失函数如下式所示：

式中，h(j)为显性映射向量；

求解结构风险损失函数方程(10)，得到输出权重β：

β＝(I/C+Φ(p,m)Φ^T(p,m))^-1Y(p,m) (12)。

需要说明的是，11式中，j为一个从1到m的数，当j＝m时，√(p,j)和√(p,m)相同。

具体的，步骤3中输出权重的辨识更新具体包括：

步骤3.2：将显性特征映射方式转变为隐性映射；训练数据集为输入数据，利用核函数k(x_i,x_j,γ)与输入数据构造核矩阵Ω＝HH^T，经由公式推导，结合多新息理论下的核矩阵Ω_m；选择核矩阵Ω_d，利用公式(13)获得初始输出权重β₁＝(I_p/C+Ω_d)^-1Y_d；

β＝(I/C+Ω)^-1Y (13)

在具体实施过程中，输出权重β_m表示为：

式中，n_m＝β_m-1Ω_m(:,1:p(m-1))，r_n＝I_p/C+Ω_m(:,p(m-1)+1:pm)；

需要说明的是，Ip为p维单位矩阵，Ω_m(:,1:p(m-1))表示由矩阵Ω_m的所有行以及第一列到第p(m-1)列的所有元素组成的矩阵，后面Ω_m(:,p(m-1)+1:pm)解释类似。核函数k(x_i,x_j,γ)与输入数据构造核矩阵Ω＝HH^T是由极限学习机到极限学习机的转变，由显性映射到隐性映射，因此才有多新息(核)极限学习机。

如若有新的相似数据集引入需要重新训练，可以直接通过上本发明参数辨识的方法，在已经训练好的极限学习机模型基础上继续进行步骤3.3更新模型参数。

本发明极限学习机模型训练更新的过程减少了非必要的重复训练，节省了时间，解决了极限学习机对于相关性较差的不利数据的处理能力受限问题，提高了极限学习机模型分类精度。

实施例2

具体地，在实施例1的基础上，结合具体的实施例子对方案进行说明，进一步体现本方案的技术效果。具体为：

在本发明另一实施例中，图2是在不同新息长度p值下数据集Ecoli的样本类别的分类情况示意图，可以看出，p＝1的情况下，分类错误个数相对较高(没有与图中AC重合的即为分类错误，EC是预测结果)。相对于p＝1的情况，随着p值的增加，参数辨识效果更佳(p＝7为最佳，对应表2Ecoli数据集准确率)，证明本发明算法是有效的。

图3是改良的鲸鱼算法在Musk(Version1)数据集下与其他基于群的优化算法的优化效果对比曲线示意图，图3中图例后缀MIKOSELM是本发明所提出分类器参数辨识方法多新息核在线的极限学习机；图例前缀(DE、PSO、GA、MWOA、WOA)为所结合的群智能优化算法，分别表示为差分进化算法、粒子群优化算法、遗传算法、本发明鲸鱼优化算法、鲸鱼优化算法。

为了验证本发明方案的有效性，进行仿真测试例，测试例目标一是验证极限学习机算法在不同新息长度p值下相对极限学习机(即p＝1)的分类精度有所提升，测试例一数据集选择UCI数据库中的一些分类用的数据集，数据集详细内容如下表：

表1 UCI数据集信息

UCI数据集	训练数据集	测试集	类别	属性
					Ecoli	235	101	8	7
Parkinsons	136	59	2	23
					WDBC	398	171	2	30
Musk(Version1)	333	143	2	166

测试例一中，选择相同的初始化值进行测试例，设置核函数k()为RBF核函数，惩罚参数以及核参数分别设置为2和8，得到测试例结果如下表所示：

表2测试集准确度

测试例一结果表明，对于所使用的分类数据集，在极限学习机算法上(p＞1)的准确度都有一定程度的提升(1.34％～7.92％)，不同的数据集由不同的p值达到一个最优提升，这也证明了本发明极限学习机算法的有效性和灵活性，也是提升机器学习算法精确度的一个新思路。

测试例目标二是验证鲸鱼优化算法的有效性，测试例二中使用UCI数据库中的LowResolutionSpectromete数据集，对比相同参数下其他基于群的优化算法优化效果，鲸鱼优化算法的初始化参数为：鲸鱼种群数量设为20，最大迭代次数设为25；对于粒子群算法(PSO)，自学习系数和全局学习系数都设置为2，惯性系数设置为1，最大初始速度限制为值范围长度的1/10；差分进化算法(DE)中的交叉率和突变率分别设置为0.3和0.5；在遗传算法(GA)中，将交叉率设置为0.8，将突变率设置为0.05；得到的测试例二结果曲线图如图3；

测试例二结果表明，本发明中所用鲸鱼优化算法(MWOA)相比于差分进化算法(DE)的输出权重更大，有着更快的收敛速度；相较于粒子群算法(PSO)和遗传算法(GA)有着更为显著良好的优化效果，因此，本发明方法可以有效优化模型参数。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于极限学习机的分类器参数辨识方法，其特征在于，包括以下步骤：

2.根据权利要求1所述一种基于极限学习机的分类器参数辨识方法，其特征在于，步骤2中极限学习机基础模型如下所示：

Hβ＝Y (1)

β＝H^T(I/C+HH^T)^-1Y (3)

3.根据权利要求2所述一种基于极限学习机的分类器参数辨识方法，其特征在于，步骤2获取多新息极限学习机的最佳初始化参数，具体包括如下步骤：

4.根据权利要求3所述一种基于极限学习机的分类器参数辨识方法，其特征在于，步骤2.3中适应度函数值F为：

5.根据权利要求4所述一种基于极限学习机的分类器参数辨识方法，其特征在于，步骤2.4中鲸鱼个体的位置更新如下式所示：

ω为自适应权重策略。

6.根据权利要求5所述一种基于极限学习机的分类器参数辨识方法，其特征在于，步骤2.4中莱维飞行搜素扰动机制中，α为随机步长，s为扰动步长，s计算公式如下：

7.根据权利要求6所述一种基于极限学习机的分类器参数辨识方法，其特征在于，步骤2.5中变异改良机制如下式所示：

X_new＝X(t+1)(1+Gaussion(τ)), (8)

8.根据权利要求7所述一种基于极限学习机的分类器参数辨识方法，其特征在于，步骤3中结构风险损失函数如下式所示：

式中，p为新息长度，β＝[β₁,β₂,...,β_i]^T,β_i＝[β_i1,β_i2,...,β_it],,Y(p,j)和Φ(p,j)分别是基于新息长度p的输出滑动窗口和特征映射矩阵；所述输出滑动窗口Y(p,j)和特征映射矩阵Φ(p,j)定义如下所示：

式中，h(j)为显性映射向量；

求解结构风险损失函数方程(10)，得到输出权重β：

β＝(I/C+Φ(p,m)Φ^T(p,m))^-1Y(p,m) (12)。

9.根据权利要求8所述一种基于极限学习机的分类器参数辨识方法，其特征在于，步骤3中输出权重的辨识更新具体包括：

步骤3.1：获取包含m个样本的训练数据集，将训练数据集记为(x_i,y_i)，i＝1，2,...,m，其中x_i＝[x_i1,x_i2,...,x_in]^T，y_i＝[y_i1,y_i2,...,y_it]^T，取d＝m/10的分类数据集作为测试数据集，剩余的9m/10的分类数据集作为训练数据集用于实时更新训练；

β＝(I/C+Ω)^-1Y (13)

10.根据权利要求9所述一种基于极限学习机的分类器参数辨识方法，其特征在于，步骤3.3中输出权重β_m表示为：

式中，n_m＝β_m-1Ω_m(:,1:p(m-1))，r_n＝I_p/C+Ω_m(:,p(m-1)+1:pm)。