CN104166691A - 基于波形叠加布谷鸟优化的极限学习机分类方法 - Google Patents
基于波形叠加布谷鸟优化的极限学习机分类方法 Download PDFInfo
- Publication number
- CN104166691A CN104166691A CN201410365700.0A CN201410365700A CN104166691A CN 104166691 A CN104166691 A CN 104166691A CN 201410365700 A CN201410365700 A CN 201410365700A CN 104166691 A CN104166691 A CN 104166691A
- Authority
- CN
- China
- Prior art keywords
- centerdot
- learning machine
- extreme learning
- parasitic
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
Abstract
本发明为一种基于波形叠加布谷鸟优化的极限学习机分类方法,主要步骤为:Ⅰ、建立训练样本矩阵;Ⅱ、在每个隐层节点上生成M个初始寄生巢;Ⅲ、求波形叠加极限学习机分类模型的分类准确度;Ⅳ、训练样本随机等分为份,求交叉验证的极限学习机分类模型的分类准确度输出值;Ⅴ、用反双曲线正弦函数和Morlet小波函数叠加作为极限学习机的激励函数,构建波形叠加极限学习机分类模型,得布谷鸟算法当前代分类准确度;Ⅵ、求布谷鸟算法的下一代结果,以概率Pa新建寄生巢;Ⅶ、重复迭代,判断是否终止迭代,满足终止条件则建立最佳极限学习机分类模型,用于对于未知样本进行分类。本方法计算复杂度低,效率高,分类性能稳定精度高,全局最优、性泛化能力强。
Description
技术领域
本发明属于计算机智能、神经网络技术领域。涉及极限学习机分类方法,具体为一种基于波形叠加布谷鸟优化的极限学习机分类方法。
背景技术
传统的前馈神经网络学习方法(如BP神经网络算法)大多数采用梯度下降法寻优方式。极限学习机(Extreme Learning Machine,ELM)与之不同,是2006年由Huang等人根据摩尔-彭罗斯(MP)广义逆矩阵理论提出的,是一种简单有效的单隐层前馈神经网络学习方法(Single-Hidden-Layer Feedforward NeuralNetwork,SLFNs)。该方法具有与神经网络相同的全局逼近性质,通过随机生成网络输入权值及隐层神经元,并设置隐层节点数,便可以通过据摩尔-彭罗斯(MP)广义逆得出输出权重的最优解。该方法在保证良好泛化性能的同时,极大地提高了学习速度,同时避免了由于梯度下降法产生的训练速度慢、过学习、易陷入局部极小值以及对学习率的难确定等诸多问题。然而极限学习机的本身也存在固有缺陷,由于隐含层初始参数连接权值、偏置值与节点个数对的参数设置对分类结果具有较大影响,且极限学习机网络输入权值及隐层神经元偏移量是随机生成的,不可避免的一些较为差的随机参数被选出来,严重影响极限学习机的稳定性和泛化能力,导致单个极限学习机的学习性能具有不确定性。
为解决上述极限学习机存在的问题,近年来集中于针对参数优化的方法改善极限学习机分类器的方案,如申请号为201210141568.6的中国发明专利“融合最小二乘向量机回归学习思想的改进极限学习机”,以及申请号为201310351903.X的中国发明专利申请“一种使用遗传算法优化极限学习机的集成框架方法”,都是通过参数优化的方法改善极限学习机的分类性能和拟合能力,然而这些改进的方法容易陷入局部最小点、分类结果不稳定以及分类可靠性差。申请号为201310425815.X的中国发明专利申请“基于变长度粒子群优化算法的极限学习机”的方案虽然被广泛采用,然而粒子群优化极限学习机计算复杂度过高、计算时间比较长。
发明内容
本发明的目的是针对现有极限学习机分类方法的分类效果不稳定以及分类准确度较低等问题,提供一种基于波形叠加布谷鸟优化的极限学习机分类方法,本分类方法利用两种波形叠加作为波形叠加极限学习机的激励函数代替标准极限学习机的单一激励函数,增加了快速收敛性能以及信号高低频动态逼近能力,同时结合布谷鸟寻优算法优化极限学习机参数,建立最佳波形叠加极限学习机分类模型。本发明的波形叠加极限学习机分类方法在可接受的时间内,相比传统极限学习机分类建模方法具有更高的分类准确率、调参更快捷以及寻优能力强等特点,解决现有标准极限学习机分类结果不稳定,分类可靠性差等问题。
为实现上述目的,本发明所提供的基于波形叠加布谷鸟优化的极限学习机分类方法包括如下步骤:
步骤Ⅰ、训练样本的矩阵
在N个样本集中抽取N0个样本作为训练样本,N0≥50,输入训练样本的矩阵为(xj,yj),j=1,2,…,N0,xj=[xj1,xj2,…,xjn]T∈Rn,yj=[yj1,yj2,…,yjm]T∈Rm,其中T表示转置,R为实数集合,m和n表示样本的特征维数。xj表示训练样本,yj表示训练样本的分类标签,设定不同类别的不同输出标签值。如二分类时可为-1和+1,三分类时为0、1和2。隐层节点的数目为由于计算复杂度和计算时间随着隐层节点数增加而增加,因此需要根据具体实施方案的时间限制选择隐层节点数。本发明方法中隐层结点的数目的优选值域为[1,100]。
步骤Ⅱ、生成初始寄生巢
使用布谷鸟寻优算法随机初始化值域为[-0.5,0.5]输入节点的隐层节点权重wk以及隐层神经元的阈值bk,同时在每个隐层节点上生成M个初始寄生巢(或称为初始种群)ωik和bik,i=1,2,…,M,初始寄生巢数M>1。
步骤Ⅲ、求波形叠加极限学习机分类模型的分类准确度
本方法的波形叠加极限学习机分类模型的表达式为:
j=1,2,…,N0,i=1,2,…,M,
其中f1与f2分别表示不同的两种波形函数,θ(t)=arcsinh(t),w0≥5且k0≥2,βk为波形叠加极限学习机分类模型系数,
所述f1为反双曲线正弦函数,
f2为Morlet小波函数,
本方法取
本方法用此两种波形叠加作为激励函数代替标准极限学习机的单一激励函数,增加了快速收敛性能以及信号高低频动态逼近能力。得到本非线性逼近极限学习机分类方法的激励函数为波形叠加双激励函数
其中反双曲线正弦函数的加快了函数的快速收敛,小波函数则具有强调高低频波形信号相似能力,两种激励函数叠加组合改善了标准极限学习机的网络结构使得隐含层网络具有更强的动态性能处理能力。
波形叠加极限学习机的矩阵表示为:
Havgβk=Y,
其中
其中
则最小输出权重矩阵 其中为神经网络的隐层输出矩阵H的Moore-penrose逆,由广义逆定理通过奇异值分解求得
本步骤先将训练样本(xj,yj)、步骤Ⅱ所得的M个初始寄生巢的随机数权重wk以及阈值bk输入波形叠加极限学习机分类模型的表达式中,求出最小输出权重矩阵然后将测试样本xj、分类模型参数隐层节点权重wk以及隐层神经元的阈值bk输入波形叠加极限学习机分类模型的表达式中,获取新的波形叠加极限学习机分类标签y′j;最后得到训练样本(xj,yj)分类准确度为i=1,2,…,M,此为第i次xj训练样本输入的波形叠加极限学习机分类模型分类准确度。
步骤Ⅳ、交叉验证
为了使波形叠加极限学习机分类模型具有更好的泛化能力,进行交叉验证。
Ⅳ-1、将N0个训练样本随机等分为份,为N0的因数,
Ⅳ-2、从份训练样本中抽取一份个样本作为交叉验证测试样本(xlq,ylq), 其中第q次交叉验证测试样本的分类标签为{y1q,y2q,…,ylq};剩余份个样本作为交叉验证训练样本,
Ⅳ-3、将剩余份交叉验证训练样本和寄生巢ωik和bik输入波形叠加极限学习机分类模型的表达式中,得到最小输出权重矩阵
Ⅳ-4、将抽取的一份个交叉验证测试样本的xlq、最小输出权重矩阵以及寄生巢ωik和bik输入波形叠加极限学习机分类模型的表达式中得到该分类模型输出的分类标签值为y′lq;记录第q次交叉验证的波形叠加极限学习机分类模型输出的分类标签值{y′lq,y′2q,…,y′lq};步骤Ⅳ-3所得波形叠加极限学习机分类模型输出的分类标签值y′lq等于该交叉验证测试样本的分类标签ylq的个数count{y′lq=ylq}、与交叉验证测试样本个数之比即为波形叠加极限学习机分类模型第q次交叉验证的分类准确度。
Ⅳ-5、重复步骤次;
求所得到个分类准确度的算术平均值
为N0个训练样本倍交叉验证的波形叠加极限学习机分类模型的分类准确度输出值。
步骤Ⅴ、求目标函数
求步骤Ⅲ所得的训练样本分类准确度fi(xj,ωik,bik)和步骤Ⅳ所得的训练样本交叉验证的输出值二者平均值的公式作为目标函数,即目标函数为:
最大迭代次数Mn设置为100。
步骤Ⅵ、求布谷鸟算法的下一代结果
Ⅵ-1、步骤Ⅴ得到布谷鸟算法的第n0代目标函数结果对比该组M个寄生巢中目标函数值,将目标函数值最高对应的寄生巢ω′ik和b′ik作为当前代最优寄生巢保留;采用莱维飞行的理论(sigma分布的可变步长)、求该组中剩余的M-1个寄生巢对应的M-1个临近寄生巢和并对比M-1个寄生巢和其对应临近寄生巢的目标函数值大小。如果临近寄生巢和对应的目标函数值大于当前代寄生巢ωik和bik的对应目标函数值临近寄生巢替代原位置的寄生巢;反之,保留原位置的寄生巢。
Ⅵ-2、由于寄生巢数量是固定的以及莱维飞行的理论的局限性,使得布谷鸟算法容易陷入局部最优值,希望以一定概率跳出该局限。布谷鸟所选寄生巢的宿主鸟发现外来鸟蛋并另建一个新巢的概率为Pa,Pa值域为[0,1],即以概率Pa随机新建M*Pa个寄生巢ωik和bik,并随机替代步骤Ⅵ-1所得的除当前代最优寄生巢以外的其它M-1个寄生巢(包括临近寄生巢或原位置的寄生巢)中的M*Pa个。
将步骤Ⅵ-2处理所得的M-1个寄生巢和步骤Ⅵ-1保留的最优寄生巢一起作为下一代的寄生巢,按照步骤Ⅲ~Ⅴ求布谷鸟算法的下一代目标函数结果
步骤Ⅶ、建立最佳波形叠加极限学习机分类模型
按照步骤Ⅲ~Ⅵ重复迭代,每一代求得目标函数的分类准确度多次迭代后,当目标函数值达到100%,停止迭代,以此时的寄生巢为最优的寄生巢ω′ik和b′ik;若目标函数值未达到100%,继续重复步骤III~VI,当达到最大迭代次数Mn后,结束迭代,以此时满足目标函数值最大的寄生巢为最优的寄生巢ω′ik和b′ik;
将最优寄生巢的ω′ik和b′ik带入f(x)中,构建最佳波形叠加极限学习机分类模型,
此分类模型即可用于对于未知样本进行分类,其分类准确度最高、分类稳定性最好。
与现有技术相比,本发明基于波形叠加布谷鸟优化的极限学习机分类方法的优点为:1、采用反双曲线正弦函数和Morlet小波函数来代替原有的单一激励函数,加快了函数的快速收敛性,强调了高低频波形信号相似能力,该种双激励函数组合的方式改进标准极限学习机的结构,使得隐含层网络具有更强的动态性能处理能力以及收敛速度和稳健性,并为其他学习算法的核函数提出了一种信号特征提取及拟合的新思想;2、采用波形叠加极限学习机分类模型避免了求解线性不可分问题计算复杂度过高、分类性能不稳定以及对训练样本数据敏感等问题;3、本发明采用布谷鸟参数优化方法,参数调整简单,全局最优性及泛化能力强,加快了分类模型的收敛速度;4、本方法可进行二分类或多分类实验,相比其他方法具有更稳定分类性能和更高的分类准确度以及对训练样本的敏感性小等特点;特别适用于近红外光谱检测分析结果的分类,如近红外光谱的真假药品鉴别。
附图说明
图1为本基于波形叠加布谷鸟优化的极限学习机分类方法实施例1流程示意图;
图2为本基于波形叠加布谷鸟优化的极限学习机分类方法实施例及实施例2流程图;
图3为本基于波形叠加布谷鸟优化的极限学习机分类方法实施例数据集1样本光谱吸光率曲线图;
图4为本基于波形叠加布谷鸟优化的极限学习机分类方法实施例数据集2样本光谱吸光率曲线图;
图5为本基于波形叠加布谷鸟优化的极限学习机分类方法实施例数据集3样本光谱吸光率曲线图;
具体实施方式
本发明是一种基于波形叠加布谷鸟优化的极限学习机分类方法,实施例均为本方法用于近红外光谱的药品分类,下面结合附图以及具体实施例对本发明作进一步的说明,但本发明的保护范围并不限于此。
近红外光谱药品鉴别方法由于能同时对多组样品进行快速无损的测定和判别,因而在药物分析领域中得到广泛重视与推广。然而该方法具有谱带宽、重叠严重、吸收信号弱及信息解析复杂等特点,传统分类方法的预测精度和稳健性很难达到实际应用的需要,且实际情况往往存在建模样本数量少,实验结果偏差较大;分类算法对训练样本敏感,导致分类器稳定性及可靠性较差;分类问题计算复杂度较高等问题。
各实施例所采用的软件为OPUS7.0(一阶导数化和矢量归一化预处理预处理)及Lunix服务器下Mac版Matlab2013a(分类器模型建立)。
各实施例中程序来源:
极限学习机程序来源黄广斌(2004,http://www.ntu.edu.sg/home/egbhuang/elm_codes.html)、
布谷鸟算法Xin-She Yang(2009,Cambridge University))、
粒子群算法(http://www.ilovematlab.cn/thread-64644-1-1.html)
偏最小二乘PLS(http://www.ilovematlab.cn/forum.php?mod=viewthread&tid=171645)。
实施例1不同活性物质浓度近红外检测光谱的药品样本分类
对来自http://www.models.life.ku.dk/Tablets公共数据网站的310个药品近红外光谱进行药品活性物质鉴别。其中近红外光谱波长范围在7400-10507nm,4类不同剂量的药品分为两种,一种为5mg,其活性物质浓度5.6%w/w;另一种为10、15、20mg,其活性物质浓度8.0%w/w。药品活性物质的成分含量不足会使得药品疗效降低,少数不良厂家偷工减料故意减少药品活性物质的含量,若这些假冒伪劣药品不被检测出来、流通于市面,将会严重危害消费者的权益和健康。
本实施例首先采用近红外光谱仪获取各个药品样本的检测光谱,然后利用OPUS7.0对所得检测光谱进行一阶导数化(13个平滑点)和矢量归一化预处理预处理,消除由于偏移和漂移引起的光谱偏差。同时为减少导数光谱的噪声,利用Matlab函数对光谱样本进行7点Savitzky-Golay平滑和0-1归一化处理,最后通过偏最小二乘PLS特征提取方法对处理后的光谱样本的数据信息进行分解和筛选,提取对决策变量Y解释性最强的输入特征空间上的x进行训练,压缩后本例样本的特征维数为2~3维。
本实施例基于波形叠加布谷鸟优化的极限学习机分类方法用于药品样本的检测光谱分类的流程如图1所示,具体步骤如下:
步骤Ⅰ、训练样本的矩阵
将N=310的样本集按照上述光谱预处理方法平滑和0-1归一化处理后,从310个样本中随机抽取活性物质浓度为5.6%的药品光谱样本40个作为正类样本(真药),活性物质浓度为8.0%的药品光谱样本120个作为负类样本(假药),抽取N0=160个药品光谱样本作为训练样本,剩余的150个混合药品光谱样本作为测试样本,其中样本的特征维数m和n由原来的404维经过PLS压缩后为2~3维,隐层节点的数目为xj为训练样本,yj为分类标签,j=1,2,…160,本例负类样本分类标签值为-1、正类样本分类标签值为+1。
步骤Ⅱ、生成初始寄生巢
使用布谷鸟寻优算法随机初始化值域为[-0.5,0.5]输入节点隐层节点权重wk以及隐层神经元的阈值bk,k=1,2,…20,并同时在各隐层节点生成初始寄生巢为M=20个ωik和bik,i=1,2,…,20。
步骤Ⅲ、求波形叠加极限学习机分类模型的分类准确度
本方法的波形叠加极限学习机分类模型的表达式为:
j=1,2,…,160,i=1,2,…,20,k=1,2,…20,
其中 θ(t)=arcsinh(t), βk为波形叠加极限学习机分类模型系数,
本例用f1为反双曲线正弦函数
本例f2为Morlet小波函数,选取频率w0=5、w0=7与w0=9,
本例基于波形叠加极限学习机分类方法的激励函数为
本步骤先将训练样本(xj,yj)、权重wk以及阈值bk输入波形叠加极限学习机分类模型的表达式中,求出最小输出权重矩阵然后将测试样本xj、模型参数隐层节点权重wk以及隐层神经元的阈值bk输入波形叠加极限学习机分类模型的表达式中,获取新的波形叠加极限学习机分类模型的分类标签值y′j;最后得到训练样本(xj,yj)分类准确度为i=1,2,…,20。
步骤Ⅳ、交叉验证
Ⅳ-1、将N0=160个训练样本随机等分为份,一份为32个样本;
Ⅳ-2、从5份训练样本中抽取一份32个样本作为交叉验证测试样本(xlq,ylq),l=1,2,…,32,q=1,2,…,5;剩余4份4×32个样本作为交叉验证训练样本,
Ⅳ-3、将剩余4份交叉验证训练样本和寄生巢ωik和bik输入波形叠加极限学习机分类模型中,得到最小输出权重矩阵
Ⅳ-4、将抽取的一份32个交叉验证测试样本的xlq、最小输出权重矩阵以及寄生巢ωik和bik输入波形叠加极限学习机分类模型的表达式中,得到输出的分类标签值为y′lq;记录第q次交叉验证的分类标签输出值{y′1q,y′2q,…,y′lq};步骤Ⅳ-3所得波形叠加极限学习机分类模型的分类标签值y′lq等于该交叉验证测试样本的分类标签值ylq的个数count{y′lq=ylq}与交叉验证测试样本个数32之比、作为第q次波形叠加极限学习机分类模型的交叉验证的分类准确度。
Ⅳ-5、重复5次步骤Ⅲ-1~Ⅲ-4,得到5个分类准确度;
求所得个的交叉验证分类准确度的算术平均值此为160个训练样本5倍交叉验证的输出值。
步骤Ⅴ、求目标函数
求步骤Ⅲ所得的训练样本(xj,yj)的分类准确度fi(xj,ωik,bik)和步骤Ⅳ所得的训练样本交叉验证的输出值二者平均值的公式作为目标函数,
即:
其中为布谷鸟算法第n0代目标函数的结果,本例最大迭代次数为Mn=100,1≤n0≤5,i=1,2,…,20。
步骤Ⅵ、求布谷鸟算法的下一代结果
Ⅵ-1、步骤Ⅴ得到布谷鸟算法的第n0代目标函数结果对比该组20个寄生巢中目标函数值,将目标函数值最高对应的寄生巢ω′ik和b′ik作为当前代最优寄生巢保留;采用莱维飞行的理论(sigma分布的可变步长)求该组中剩余的19个寄生巢对应的19个临近寄生巢和并对比19个寄生巢和其对应临近寄生巢的目标函数值大小。如果临近寄生巢的目标函数值大于其对应寄生巢的目标函数值,临近寄生巢替代原位置的寄生巢;反之,保留原位置的寄生巢。
Ⅵ-2、以概率Pa=0.25随机新建4个寄生巢ωik和bik,并随机替代步骤Ⅵ-1所得除当前代最优寄生巢以外的其它19个寄生巢(包括临近寄生巢或原位置的寄生巢)中的4个。
将步骤Ⅵ-2处理所得的19个寄生巢和步骤Ⅵ-1保留的最优寄生巢一起作为下一代的寄生巢,按照步骤Ⅲ~Ⅴ求布谷鸟算法的下一代目标函数结果
步骤Ⅶ、建立最佳波形叠加极限学习机分类模型
按照步骤Ⅲ~Ⅵ重复迭代,每一代求得目标函数的分类准确度多次迭代后,当目标函数值达到100%,停止迭代,以此时的寄生巢为最优的寄生巢ω′ik和b′ik;若目标函数值未达到100%,继续重复步骤Ⅲ~Ⅵ,当达到最大迭代次数100后,结束迭代,以此时满足目标函数值最大的寄生巢为最优的寄生巢ω′ik和b′ik;
将最优寄生巢的ω′ik和b′ik带入f(x)中,构建最佳波形叠加极限学习机分类模型,
此分类模型即可用于对于未知样本进行分类,其分类准确度最高、分类稳定性最好。所获得的最佳波形叠加极限学习机分类模型即可用于对相同的药品活性物质的未知样本进行分类。
为了验证本发明基于波形叠加布谷鸟优化的极限学习机分类方法针对不同活性浓度的药品样本集建立数学模型获取分类准确度以及分类稳定性,本例进行了第二次实验,仍使用与第一次实验相同的预处理后的4类不同剂量、活性物质浓度分别为5.6%和8.0%的310个药品样本近红外检测光谱。随机抽取浓度为5.6%的样本50个作为正类样本(真药),浓度为8.0%的样本150个作为负类样本(假药),即第二次实施的训练样本为200个,剩余的110个混合样本为测试样本。
第二次实验步骤与第一次实验步骤相同,第二次实验步骤不再详述。
本例两次实验所用训练样本和测试样本主要特征如表1所示。表1中“维数”表示光谱样本的维数(样本采集点个数),其值决定PLS压缩后的样本维数以及建立分类模型所需要的训练时间;表1中“属性数”表示本例药品样本中不同剂量药品种类数。
表1实施例1两次实验样本集情况一览表
本例两次实验验证了本发明的基于波形叠加布谷鸟优化的极限学习机分类方法不仅是对特殊分配数据样本集能获取较高分类准确度,而且对于任意数据样本分配均可以获取较高的分类准确度及分类稳定性。
实施例2西安杨森制药厂生产的药品与其它厂商药品、不同品种药品的鉴别
本实施例对西安杨森不同批次的171个琥乙红霉素光谱样本、49个不同厂家(中杰、扬州三药、武汉四药、太极等)生产的琥乙红霉素光谱样本和非同品种的其它29种药品(乙酰螺旋霉素、乙酰吉他霉素、麦白霉素、红霉素等)光谱样本,混合样本共计249个。其中近红外光谱波长范围在1000-9500nm,包括有非铝塑包装药品(拆去包装的药品)和铝塑包装药品(未拆去包装的药品)。
目前市场上有一些厂商将自己生产的药品伪装为知名厂商(西安杨森制药)药品的外包装,或直接将其它种类的药品与真药品混合欺瞒消费者。现有的药品质监,多是抽取少量样本的化学测量方法,不仅需要消耗一定量的药品,而且测量方法繁琐。
本实施例采用近红外光谱无损鉴别的方法对药品样本进行鉴别,并采用本发明基于波形叠加布谷鸟优化的极限学习机分类方法对包括西安杨森琥乙红霉素的249个混合样本的检测光谱进行分类。
对各药品样本的采集和预处理与实施例1相同。
同样为了验证本发明方法的分类准确度以及分类稳定性进行两次实验。第一次实验随机抽取西安杨森制药厂生产的琥乙红霉素近红外光谱样本100个作为正类样本(真药),随机抽取其他厂商生产的琥乙红霉素近红外光谱样本25个及不同品种的药品近红外光谱样本15个作为负类样本(假药),即100个正类样本和40个负类样本共140个作为本实施例2第一次实验的训练样本集,249个混合样本中剩余的109个作为测试样本。
第二次实验增加训练样本,即随机抽取130个正类样本和60个负类样本作为训练样本集。将原249个混合样本中剩余的59个样本作为测试样本。
本实施例2两次实验所用训练样本和测试样本主要特征如表2所示,表2中“属性数”表示本例药品样本的不同厂家数及不同药品种类数之和。
表2实施例2两次实验样本集情况一览表
本实施例2两次实验基于波形叠加布谷鸟优化的极限学习机分类方法用于西安杨森制药厂生产的琥乙红霉素药品与其它厂商的琥乙红霉素药品、不同品种药品的鉴别的具体步骤与实施例1相同,其参数的选择也与实施例1相似,即:
光谱样本特征维数m和n由原来的1247维经过PLS压缩处理后为2~4维;
隐层节点的数
负类样本分类标签值为-1、正类样本分类标签值为+1;
寄生巢数M=20,
最大迭代次数Mn=100
交叉验证
选取频率w0=5、w0=7与w0=9
本例两次实验的步骤与实施例1相同,不在此详述。
实施例3中诺药业生产的阿莫西林药品与其它制药厂生产的药品的鉴别
本例的样本集为贵州省食品药品检验所的139个阿莫西林药品样本,其中包括海口制药生产的30个药品样本、四川制药生产的32个药品样本、西南药业生产42个药品样本以及中诺药业生产35个药品样本,均为铝塑包装药品。采集各药品样本的近红外检测光谱,近红外波长范围在1000-11000nm。
第一次实验随机抽取139个阿莫西林光谱样本中的中诺药业生产的阿莫西林20个作为正类样本(真药),海口、四川、西南制药生产的阿莫西林60个作为负类样本(假药),即20个正类样本和60个负类样本作为本实施例3第一次实验的训练样本集,用于建立数学模型;剩余的59个混合药品作为测试样本。
第二次实验增加训练样本,随机抽取30个正类样本和90个负类样本作为训练样本集。将混合样本中剩余的19个样本作为测试样本。
通过两次实验验证基于波形叠加布谷鸟优化的极限学习机分类方法建立的分类模型针对不同制药厂生产的阿莫西林样本的分类准确度及分类稳定性。
本例两次实验所用训练样本和测试样本主要特征如表3所示,表3中的“属性数”表示本例的药品样本中不同厂家生产药品种类数。
表3实施例3两次实验样本集情况一览表
本实施例3两次实验基于波形叠加布谷鸟优化的极限学习机分类方法用于中诺药业生产的阿莫西林药品与其它厂商的阿莫西林药品的鉴别的具体步骤与实施例1相同,其参数的选择也与实施例1相同,不再重复。
用MATLAB以偏最小二乘PLS、BP神经网络、极限学习机ELM(选取正弦函数sine作为激励函数)、布谷鸟优化极限学习机ELM(CS)、粒子群优化极限学习机ELM(PSO)及粒子群优化波形叠加极限学习机SWELM(PSO)(粒子群大小m=20、最大迭代次数Mn=100、学习因子c1=1.49445、c2=1.49445)等六种现有的分类方法对以上三个实施例的样本集进行分类,作为对比例。比较不同分类方法所需的计算时间、测试精度、分类稳定性,对比结果如表4所示。本发明基于波形叠加布谷鸟优化的极限学习机分类方法的三个实施例用SWELM(CS)表示。
表4不同分类方法用于药品样本的近红外检测光谱的二分类性能比较表
从表4可以看出,本发明三个实施例的基于波形叠加布谷鸟优化的极限学习机分类方法对各样本集均表现出了良好的泛化性能,通过同时优化输入权重和隐元偏置,对三个样本集的分类结果SWELM(CS)所得到的测试精度优于ELM(PSO)分类方法和传统的ELM分类方法,泛化性能得到了很大提高。并且SWELM(CS)的训练时间是远远小于ELM(PSO)算法,可以达到用户的需求时间。虽然其中PLS分类方法出现较优的分类结果和计算时间,但其为线性分类器,只能对少样本的近红外光谱样本分类可获取好的效果,对高维的近红外光谱样本,其分类准确度明显变差且计算时间变长。而BP分类方法分类准确度的不稳定,分类准确度忽高忽低,可靠性差不适合工程应用。稳定性判别为10次分类准确度结果相对于10次均值的平均累积误差,从表4可以看出,SWELM(CS)相对于其他分类方法稳定性较好、可靠性较高,更容易推广到实际应用。
由三个实施例可知SWELM(CS)药品鉴别方法不同于偏最小二乘PLS、BP神经网络、极限学习机ELM、布谷鸟优化极限学习机CSELM、粒子群优化极限学习机PSOELM方法,该方法首先采用ELM代替传统BP神经网络、偏最小二乘PLS避免了线性不可分、分类性能不稳定以及对训练样本数据敏感等问题,其次SWELM(CS)两种激励函数叠加组合改善了标准ELM的网络结构使得隐含层网络具有更强的动态性能处理能力,最后通过布谷鸟算法在给定隐元个数的情况下搜索使得泛化性能最大的输入权重和隐元偏置。
实施例4 多分类药品鉴别方法
在药品的实际质检中,常需要对同一个厂家的多种药品或不同厂家的同种药品同时检测。只用二分类的药品鉴别效率过低。本发明的分类方法也可用于一对多的分类。
本实施例4采用实施例2西安杨森和不同厂家生产的琥乙红霉素及其它品种药品样本的近红外光谱数据共249个作为样本集,用本发明基于波形叠加布谷鸟优化的极限学习机分类方法对西安杨森生产的琥乙红霉素、不同厂家生产的琥乙红霉素及其它品种药品这三类药品样本同时进行分类。
第一次实验随机抽取西安杨森制药厂生产的琥乙红霉素光谱样本75个作为第一类;其他厂商生产的琥乙红霉素光谱样本15个作为第二类,非琥乙红霉素的其它品种药品光谱样本10个作为第三类,构成100个的训练样本集,剩余的149个混合样本中随机取59个作为测试样本。
第二次实验递增训练样本,随机抽取第一类样本100个,第二类样本25个,第三类样本15个,构成140个的训练样本集,剩余的109个混合样本中随机取59个作为测试样本。
第三次实验递增训练样本,随机抽取第一类样本130个,第二类样本40个,第三类样本20个,构成190个的训练样本集,剩余的59个混合样本作为测试样本。
本例三次实验所用的训练样本和测试样本主要特征如表5所示。
表5实施例4三次实验样本集情况一览表
三次实验是为了验证本发明基于波形叠加布谷鸟优化的极限学习机分类方法不仅单独针对特殊分配数据样本集获取较高分类准确度,而且对于任意数据样本分配均可以获取较高的分类准确度及分类稳定性。
一对多分类是二分类的基础上,通过多个二分类的分类模型实现多分类,该方法为目前最为常用的方法。虽然多标签分类仅采用一个分类模型分类,在计算时间上具有明显优势。但传统的多标签分类是通过线性拟合的方法构建分类模型,分类性能较低,无法达到实际应用的要求。而本发明构建的分类模型可解决多分类问题。
本实施例4的三分类有两种途径:
第一种途径进行两次二分类:
将实施例2建立的基于波形叠加布谷鸟优化的极限学习机分类模型作为第一个分类模型f(1)(x),用该模型二分类判别出未知样本中的西安杨森制药厂生产的琥乙红霉素光谱样本,剩余的为其他厂商生产的琥乙红霉素及不同品种的药品。
以剩余的其他厂商生产的琥乙红霉素及不同品种的药品的光谱样本为样本集进行第二次二分类,按本方法构建第二个分类模型f(2)(x),即可区分其他厂商生产的琥乙红霉素光谱样本和不同种类药品的光谱样本。得到药品光谱样本的三个类别。
此种第一途径的方法称为一对多基于波形叠加布谷鸟优化的极限学习机分类方法,用OAA-SWELM(CS)表示。
第二种途径是直接进行多标签分类:
本实施例的步骤Ⅰ按三分类设置三个不同的分类标签值,西安杨森制药厂生产的琥乙红霉素光谱样本作为第一类、输出标签值设置为0;其他厂商生产的琥乙红霉素光谱样本作为第二类、输出标签值设置为1;非琥乙红霉素的其它药品光谱样本作为第三类、输出标签值设置为2。其它具体步骤与实施例1的步骤Ⅰ~Ⅷ相同。
此第二种途径的方法被称为多标签基于波形叠加布谷鸟优化的极限学习机分类方法,用SWELM(CS)表示。
同时用一对多-多分类极限学习机(OAA-ELM)、一对多-波形叠加布谷鸟优化的极限学习机(OAA-SWELM(CS))、多标签分类极限学习机(ELM)以及粒子群优化极限学习机ELM(PSO)等四种现有的分类方法对本实施例4的样本集进行分类作为对比例。
本实施例和对比例的分类结果如表6所示。
表6不同分类方法用于药品样本的近红外检测光谱的三分类性能比较表
表6中稳定性判别为10次实验分类准确度结果相对于10次均值的平均累积误差。从表6可以看出,本实施例4的多标签分类方法SWELM(CS)相对于其他多分类方法表现出了良好的泛化性能,稳定性较好且可靠性较高,更容易推广到实际应用。且本例的SWELM(CS)多标签分类方法相对于本例的一对多分类方法OAA-SWELM(CS)计算时间更短分类准确度更高,可以推广到其他多分类应用中。
上述实施例1~4提供了本发明基于波形叠加布谷鸟优化的极限学习机分类方法用于近红外光谱鉴别药品的方案,不仅在二分类真假药品鉴别中表现其较高的分类准确度,同样在药品多分类实验中发挥良好分类性能,满足了对多种药品真伪鉴定的实际应用需要,本发明方法采用的ELM分类避免了求解线性不可分问题计算复杂度过高、分类性能不稳定以及对训练样本数据敏感等问题;且波形叠加激励函数的的极限学习机为核函数提供了一种针对信号特征提取及拟合的新途径。同时在极限学习机ELM与支持向量机SVM结构近似的条件下,可以针对SVM核函数加以推广;本发明采用布谷鸟寻优的方法优化参数,调整简单、全局最优性泛化能力强。实施例1~4给出了本发明分类方法的详细步骤及仿真实验结果,表明本发明分类方法相比其他分类方法具有更稳定分类性能和更高的分类准确度。
上述实施例,仅为对本发明的目的、技术方案和有益效果进一步详细说明的具体个例,本发明并非限定于此。凡在本发明的公开的范围之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围之内。
Claims (5)
1.一种基于波形叠加布谷鸟优化的极限学习机分类方法,其特征在于包括如下步骤:
步骤Ⅰ、训练样本的矩阵
在N个样本集中抽取N0个样本作为训练样本,N0≥50,输入训练样本的矩阵为(xj,yj),j=1,2,…,N0,xj=[xj1,xj2,…,xjn]T∈Rn,yj=[yj1,yj2,…,yjm]T∈Rm,其中T表示转置,R为实数集合,m和n表示样本的特征维数;xj表示训练样本,yj表示训练样本的分类标签,设定不同类别的不同输出标签值;隐层节点的数目为
步骤Ⅱ、生成初始寄生巢
使用布谷鸟寻优算法随机初始化值域为[-0.5,0.5]输入节点的隐层节点权重wk以及隐层神经元的阈值bk,同时在每个隐层节点上生成M个初始寄生巢ωik和bik,i=1,2,…,M,初始寄生巢数为M>1;
步骤Ⅲ、求波形叠加极限学习机分类模型的分类准确度
本方法的波形叠加极限学习机分类模型的表达式为:
j=1,2,…,N0,i=1,2,…,M,
其中 θ(t)=arcsinh(t), w0≥5且k0≥2,βk为波形叠加极限学习机分类模型系数,
所述f1为反双曲线正弦函数,
f2为Morlet小波函数,
本方法取
波形叠加双激励函数为
基于波形叠加极限学习机的矩阵表示为:
Havgβk=Y,
其中
其中
则最小输出权重矩阵 其中为神经网络的隐层输出矩阵H的Moore-penrose逆,由广义逆定理通过奇异值分解求得
本步骤先将训练样本(xj,yj)、权重wk以及阈值bk输入波形叠加极限学习机分类模型的表达式中,求出最小输出权重矩阵然后将测试样本xj、模型参数隐层节点权重wk以及隐层神经元的阈值bk输入波形叠加极限学习机分类模型的表达式中,获取新的波形叠加极限学习机分类模型的分类标签值y′j;最后得到训练样本(xj,yj)分类准确度为i=1,2,…,M;
步骤Ⅳ、交叉验证
Ⅳ-1、将N0个训练样本随机等分为份,为N0的因数,
Ⅳ-2、从份训练样本中抽取一份个样本作为交叉验证测试样本(xlq,ylq), 其中第q次交叉验证测试样本的分类标签为{y1q,y2q,…,ylq};剩余份个样本作为交叉验证训练样本,
Ⅳ-3、将剩余份交叉验证训练样本和寄生巢ωik和bik输入波形叠加极限学习机分类模型中,得到最小输出权重矩阵
Ⅳ-4、将抽取的一份个交叉验证测试样本的xlq、最小输出权重矩阵以及寄生巢ωik和bik输入波形叠加极限学习机分类模型的表达式中得到该分类模型输出的分类标签值为y′lq;记录第q次交叉验证的波形叠加极限学习机分类模型输出的分类标签值{y′1q,y′2q,…,y′lq};步骤Ⅳ-3所得波形叠加极限学习机分类模型输出的分类标签值y′lq等于该交叉验证测试样本的分类标签ylq的个数count{y′lq=ylq}、与交叉验证测试样本个数之比即为波形叠加极限学习机分类模型第q次交叉验证的分类准确度;
Ⅳ-5、重复步骤次;
求所得到个分类准确度的算术平均值
为N0个训练样本倍交叉验证的波形叠加极限学习机分类模型的分类准确度输出值;
步骤Ⅴ、求目标函数
求步骤Ⅲ所得的训练样本分类准确度为fi(xj,ωik,bik)和步骤Ⅳ所得的训练样本交叉验证的输出值二者平均值的公式作为目标函数,即目标函数为:
步骤Ⅵ、求布谷鸟算法的下一代结果
Ⅵ-1、步骤Ⅴ得到布谷鸟算法的第n0代目标函数结果对比该组M个寄生巢中目标函数值,将目标函数值最高对应的寄生巢ω′ik和b′ik作为当前代最优寄生巢保留;采用莱维飞行的理论、求该组中剩余的M-1个寄生巢对应的M-1个临近寄生巢和并对比M-1个寄生巢和其对应临近寄生巢的目标函数值大小;如果临近寄生巢的目标函数值大于其对应寄生巢的目标函数值,临近寄生巢替代原位置的寄生巢;反之,保留原位置的寄生巢;
Ⅵ-2、布谷鸟所选寄生巢的宿主鸟发现外来鸟蛋并另建一个新巢的概率为Pa,Pa值域为[0,1],即以概率Pa随机新建M*Pa个寄生巢ωik和bik,并随机替代步骤Ⅵ-1所得的除当前代最优寄生巢以外的其它M-1个寄生巢中的M*Pa个;
将步骤Ⅵ-2处理所得的M-1个寄生巢和步骤Ⅵ-1保留的最优寄生巢一起作为下一代的寄生巢,按照步骤Ⅲ~Ⅴ求布谷鸟算法的下一代目标函数结果
步骤Ⅶ、建立最佳波形叠加极限学习机分类模型
按照步骤Ⅲ~Ⅵ重复迭代,每一代求得目标函数的分类准确度多次迭代后,当目标函数值达到100%,停止迭代,以此时的寄生巢为最优的寄生巢ω′ik和b′ik;若目标函数值未达到100%,继续重复步骤III~VI,当达到最大迭代次数Mn后,结束迭代,以此时满足目标函数值最大的寄生巢为最优的寄生巢ω′ik和b′ik;
将最优寄生巢的ω′ik和b′ik带入f(x)中,构建最佳波形叠加极限学习机分类模型,
此分类模型即可用于对于未知样本进行分类。
2.根据权利要求1所述的基于波形叠加布谷鸟优化的极限学习机分类方法,其特征在于:
所述步骤Ⅱ中,进行二分类时输出标签值设置为-1和+1,进行三分类时输出标签值设置为0、1和2。
3.根据权利要求1所述的基于波形叠加布谷鸟优化的极限学习机分类方法,其特征在于:
所述步骤Ⅱ中,隐层结点的数目的值域为[1,100]。
4.根据权利要求1所述的基于波形叠加布谷鸟优化的极限学习机分类方法,其特征在于:
所述步骤Ⅳ中设置最大迭代次数Mn=100。
5.根据权利要求1所述的基于波形叠加布谷鸟优化的极限学习机分类方法,其特征在于:
所述步骤Ⅳ中
选取频率w0=5、w0=7与w0=9,
得极限学习机分类方法的激励函数为
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410365700.0A CN104166691A (zh) | 2014-07-29 | 2014-07-29 | 基于波形叠加布谷鸟优化的极限学习机分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410365700.0A CN104166691A (zh) | 2014-07-29 | 2014-07-29 | 基于波形叠加布谷鸟优化的极限学习机分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104166691A true CN104166691A (zh) | 2014-11-26 |
Family
ID=51910504
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410365700.0A Pending CN104166691A (zh) | 2014-07-29 | 2014-07-29 | 基于波形叠加布谷鸟优化的极限学习机分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104166691A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106384122A (zh) * | 2016-09-05 | 2017-02-08 | 江苏科技大学 | 一种基于改进cs‑lssvm的设备故障模式识别方法 |
CN106651012A (zh) * | 2016-12-02 | 2017-05-10 | 东华大学 | 一种基于改进极限学习机的作物蒸腾量预测方法 |
CN108245194A (zh) * | 2017-12-21 | 2018-07-06 | 四川省人民医院 | 基于布谷鸟优化策略的超声图像心脏流场运动估计方法 |
CN108694390A (zh) * | 2018-05-15 | 2018-10-23 | 南京邮电大学 | 一种布谷鸟搜索改进灰狼优化支持向量机的调制信号分类方法 |
CN108896330A (zh) * | 2018-04-26 | 2018-11-27 | 红河学院 | 一种水电机组的故障诊断方法 |
CN109034484A (zh) * | 2018-08-02 | 2018-12-18 | 广东工业大学 | 一种风速预测方法、装置及设备 |
CN109855875A (zh) * | 2019-01-15 | 2019-06-07 | 沈阳化工大学 | 一种滚动轴承运行可靠度预测方法 |
CN111488927A (zh) * | 2020-04-08 | 2020-08-04 | 中国医学科学院肿瘤医院 | 分类阈值确定方法、装置、电子设备及存储介质 |
CN113155774A (zh) * | 2021-03-31 | 2021-07-23 | 桂林电子科技大学 | 一种纺织品材料太赫兹光谱定量检测方法 |
-
2014
- 2014-07-29 CN CN201410365700.0A patent/CN104166691A/zh active Pending
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106384122A (zh) * | 2016-09-05 | 2017-02-08 | 江苏科技大学 | 一种基于改进cs‑lssvm的设备故障模式识别方法 |
CN106651012A (zh) * | 2016-12-02 | 2017-05-10 | 东华大学 | 一种基于改进极限学习机的作物蒸腾量预测方法 |
CN108245194A (zh) * | 2017-12-21 | 2018-07-06 | 四川省人民医院 | 基于布谷鸟优化策略的超声图像心脏流场运动估计方法 |
CN108896330A (zh) * | 2018-04-26 | 2018-11-27 | 红河学院 | 一种水电机组的故障诊断方法 |
CN108694390A (zh) * | 2018-05-15 | 2018-10-23 | 南京邮电大学 | 一种布谷鸟搜索改进灰狼优化支持向量机的调制信号分类方法 |
CN108694390B (zh) * | 2018-05-15 | 2022-06-14 | 南京邮电大学 | 一种布谷鸟搜索改进灰狼优化支持向量机的调制信号分类方法 |
CN109034484A (zh) * | 2018-08-02 | 2018-12-18 | 广东工业大学 | 一种风速预测方法、装置及设备 |
CN109855875A (zh) * | 2019-01-15 | 2019-06-07 | 沈阳化工大学 | 一种滚动轴承运行可靠度预测方法 |
CN111488927A (zh) * | 2020-04-08 | 2020-08-04 | 中国医学科学院肿瘤医院 | 分类阈值确定方法、装置、电子设备及存储介质 |
CN111488927B (zh) * | 2020-04-08 | 2023-07-21 | 中国医学科学院肿瘤医院 | 分类阈值确定方法、装置、电子设备及存储介质 |
CN113155774A (zh) * | 2021-03-31 | 2021-07-23 | 桂林电子科技大学 | 一种纺织品材料太赫兹光谱定量检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104166691A (zh) | 基于波形叠加布谷鸟优化的极限学习机分类方法 | |
Lines et al. | Hive-cote: The hierarchical vote collective of transformation-based ensembles for time series classification | |
Zhang et al. | Fraudre: Fraud detection dual-resistant to graph inconsistency and imbalance | |
Aly et al. | Hierarchical multi-label classification of text with capsule networks | |
Jitkrittum et al. | Interpretable distribution features with maximum testing power | |
Ooi et al. | Defect cluster recognition system for fabricated semiconductor wafers | |
Augasta et al. | Reverse engineering the neural networks for rule extraction in classification problems | |
Wu et al. | Using improved conditional generative adversarial networks to detect social bots on Twitter | |
Gupta et al. | Comparing the performance of machine learning algorithms using estimated accuracy | |
Huang et al. | Density-based shrinkage for revealing hierarchical and overlapping community structure in networks | |
CN104239436A (zh) | 一种基于文本分类和聚类分析的网络热点事件发现方法 | |
CN105045812A (zh) | 文本主题的分类方法及系统 | |
CN105389505B (zh) | 基于栈式稀疏自编码器的托攻击检测方法 | |
CN104809069A (zh) | 一种基于集成神经网络的源代码漏洞检测方法 | |
Xu et al. | Random rough subspace based neural network ensemble for insurance fraud detection | |
Jarad et al. | Offline handwritten signature verification system using a supervised neural network approach | |
Mauceri et al. | Dissimilarity-based representations for one-class classification on time series | |
CN104142960A (zh) | 互联网数据分析系统 | |
Yang et al. | Deep belief network-based drug identification using near infrared spectroscopy | |
Rustam et al. | Malware detection using image representation of malware data and transfer learning | |
Zhao et al. | Comparison of two cluster analysis methods using single particle mass spectra | |
Zhu et al. | An automatic identification method of imbalanced lithology based on Deep Forest and K-means SMOTE | |
CN103778342A (zh) | 一种基于区间数和证据理论的辐射源识别算法 | |
Pasquato et al. | Merged or monolithic? Using machine-learning to reconstruct the dynamical history of simulated star clusters | |
CN111984762B (zh) | 一种对抗攻击敏感的文本分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20141126 |