CN103411913B - 一种基于遗传算法自适应选择分段点的鱼油红外光谱pls识别方法 - Google Patents
一种基于遗传算法自适应选择分段点的鱼油红外光谱pls识别方法 Download PDFInfo
- Publication number
- CN103411913B CN103411913B CN201310194197.2A CN201310194197A CN103411913B CN 103411913 B CN103411913 B CN 103411913B CN 201310194197 A CN201310194197 A CN 201310194197A CN 103411913 B CN103411913 B CN 103411913B
- Authority
- CN
- China
- Prior art keywords
- fish oil
- matrix
- sample
- model
- genetic algorithm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Investigating Or Analysing Materials By Optical Means (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及红外光谱分析技术领域,具体是一种基于遗传算法自适应选择分段点的鱼油红外光谱PLS识别方法,解决了红外光谱分段PLS建模过程中难以选择合适分段点的问题。本方法利用遗传算法自适应得到样本的分段组合,具体步骤为:(1)根据遗传算法,对采集到的红外光谱样本进行合适的编码;(2)设置目标函数;(3)根据遗传算法,得到优化的样本组合;(4)根据最终的样本组合,进行分段PLS建模。现本发明提供了一种不需要数据分布的先验知识,通过遗传算法自适应的找到合适的分段点的方法,操作简单,速度快。
Description
技术领域
本发明属于红外光谱识别领域,具体是一种基于遗传算法自适应选择分段点的鱼油红外光谱PLS识别方法。
背景技术
PLS是偏最小二乘法(partial least squares-PLS),在小样本多变量的红外光谱数据中,PLS模型可以很好的解决其它建模方法所遇到的变量共线性问题和维数灾难。但是PLS模型是一种线性模型,模型的精确度在很大程度上取决光谱数据线性的程度。一个严重的非线性数据用PLS建模是不合适的,而现实的红外数据往往带有非线性性质。一个PLS模型对一个非线性数据的近似能力有限。因此有学者提出了一种分段PLS的建模思想。通过几个分段PLS逼近一个非线性系统,其逼近的精度比一个PLS模型高。但是分段PLS的难点在于分段点的选择。目前常用的分段方法主要是基于数据本身的模糊聚类和拼凑(T.Naes and T.Isaksson,J.Chemometrics,5,49-65(1991).),或者采用迭代的方法逐渐逼近(LarsAarhus,1994.),但是这些分段方法使用起来不是很方便,而且对不同的数据的效果往往存在较大的差别。现本发明提供了一种基于遗传算法自适应选择分段点的红外光谱分段PLS建模方法,可以不需要数据分布的知识,通过遗传算法自适应的找到合适的分段点,操作简单,速度快。
发明内容
本发明为了解决红外光谱分段PLS建模过程中难以选择合适分段点的问题,提供了一种基于遗传算法自适应选择分段点的鱼油红外光谱PLS识别方法。
本发明是采用如下技术方案实现的:一种基于遗传算法自适应选择分段点的红外光谱PLS建模方法,包括如下步骤:
步骤一,样品的划分,每种类别准备多个不同的样品数据,每种类别的样品划分为三部分SET1,SET2,SET3,SET1用于分段模型的建立,SET2用于分段模型的测试,SET3用于最终分段模型的验证,由SET1构成的矩阵为校正集,由SET2构成的矩阵为预测子集,由SET3构成的矩阵为独立预测集;
步骤二,设置Y变量的值,如果有n种类别,则这些类别的Y变量的值分别设置为1,2,3,…n,如有6种类别,则Y变量的值设置为1,2,3,4,5,6;
步骤三,对校正集样品做主成分分析,得到一个得分矩阵Sc、投影方向矩阵T和每列平均值构成的行矩阵M;
步骤四,创建初始种群:包括设置个体每位的进制数,代表最大的分段数p,如分p段则采用p进制,如p=3,表示个体每位有0,1,2这3种取值可能;设置个体的长度n,代表类别数,即Crom矩阵的列数;设置种群的大小v,代表一个种群内个体的数量,即Crom矩阵的行数,如p=3,n=6,v=4,随机产生的初始种群如下所示:
a,b,c,d,e,f表示类别,Crom矩阵的每一行对应一个个体,个体的每一位数字对应一种类别,分别对应a,b,c,d,e,f这6种类别,数字相同的类别归为一段,第一行[1 1 1 1 1 1]表示,a,b,c,d,e,f归为一段,即不分段的形式,第二行[1 1 1 2 2 2]表示a,b,c三类归为一段,d,e,f归为一段,一共只出现两种不同的数字,即全部类别分为两段,第三段[1 1 0 0 2 2],表示a,b归为一段,c,d归为一段,e,f归为一段,一共出现三种不同的数字,即全部类别共分为三段,
Crom矩阵对应的Y变量矩阵如下所示,
Y变量矩阵是建立PLS模型的因变量的值;
步骤五,对初始种群的每个个体代表的模型进行建模,方法如下:对矩阵的每一行数据,先看每个数字出现的次数,如果存在多种不同的数字而有个数字只出现一次,则这个模型的目标函数值直接设为一个较大的值,接着再判断是不是全部数字都一样的情况,如果是则将所有类别归为一段,建立相应的回归模型,回归方程的自变量矩阵就是全部的校正集样品的红外光谱数据,因变量矩阵就是全部的校正集样品的因变量值,每类样品的因变量的设置值如Y矩阵所示,用所求的回归方程模型求得预测子集样品的因变量的值,从而判断其类别,目标函数是预测子集样品的误判数,如果是其它的情况,则从0开始,用数字相同的类别建立相应的分段回归模型1:包括相应的PLS方程和类别信息矩阵,回归方程的自变量矩阵就是归为同一段的校正集样品的红外光谱数据,因变量矩阵就是这些样品对应的Y变量值,类别信息矩阵就是归为同一段的校正集样品的红外光谱数据做主成分分析后的得分,接着寻找标号为1的数字,重复建模的动作,建立分段回归模型2,依次类推,直到所有的样本都划分完毕,求这个模型的目标函数值,方法如下:先求测试样品数据的得分,再求得分和各个类别信息矩阵的马氏距离,然后把该测试样品数据带入马氏距离最小的分段回归模型,求出预测值,如果该测试样本不属于马氏距离最小的分段回归模型,则该样本定位错误,所有预测子集样品都预测完毕,通过和真实的Y变量的值进行比较,得到测试集样品的误判数,记录测试集样品定位错误数,目标函数值为误判数和样品定位错误数之和,所有个体的目标函数值构成一个列矩阵F;
步骤六,根据目标函数值矩阵F,种群,由遗传算法的相关操作得到下一代种群;
步骤七,判断遗传是否终止,是的话选出这代种群中目标函数值最小的个体,这个就是遗传算法选中的最终分段模型,否的话,回到步骤六;
步骤八,遗传过程结束,构造遗传算法找的的最优的模型;
步骤九,将独立预测集的样本代入最终的模型,算出误判数W1,和普通PLS模型的误判数W2进行比较,如果W1比W2小则接受这个新模型,否则还是采用普通PLS模型。
本发明通过基于遗传算法选择分段点来建立PLS模型,操作简单,通过分段点的优化选择提高了PLS模型的适应性。
附图说明
图1为本发明的流程图。
具体实施方式
下面结合一个鱼油的红外光谱识别实例对本发明的技术方案进行进一步说明。
实施例:一种基于遗传算法自适应选择分段点的鱼油红外光谱PLS识别方法,流程图如图1所示,包括以下步骤:
步骤一,样品的划分。一共有四类鱼油,分别为鱼油a,鱼油b,鱼油c,鱼油d。每个鱼油样品的红外光谱数据为1×1375的行矩阵。每种鱼油样品数为20个。每种鱼油样品随机的分为三部分10,5,5:10个用于分段模型的建立,5个用于分段模型的测试,剩下的5个用于最终分段模型的验证。由第一部分样品构成的矩阵为校正集,由第二部分样品构成的矩阵为预测子集,由第三部分样品构成的矩阵为独立预测集。
步骤二,设置因变量Y的值。一共有4种类别,鱼油a,鱼油b,鱼油c,鱼油d的Y值分别设置为1,2,3,4。
步骤三,对校正集样品做主成分分析。得到一个得分矩阵Sc20×15、投影方向矩阵T1735×15和每列平均值构成的行矩阵M1×1735。
步骤四,创建初始种群:包括设置个体每位的进制数2,代表最大的分段数2;设置个体的长度4,代表鱼油的类别数;设置种群的大小4,代表一个种群内个体的数量。随机产生的初始种群如下所示,
对应的Y变量矩阵如下。
步骤五,求种群的目标函数值矩阵F。对种群的每个个体代表的模型进行建模。第一行[1 1 1 1],表示全部鱼油类别归为一段。
由(1)式求得模型的回归系数Beta。a10×1735,b10×1735,c10×1735,d10×1735分别表示校正集中鱼油a,鱼油b,鱼油c,鱼油d的样本。由Y变量矩阵可知,鱼油a,鱼油b,鱼油c,鱼油d对应的Y变量的值分别为1,2,3,4。从而回归方程的因变量矩阵为 110×1,210×1,310×1,410×1表示10行1列的矩阵,矩阵的元素分别是1,2,3,4。
a5×1735,b5×1735,c5×1735,d5×1735分别表示预测子集中鱼油a,鱼油b,鱼油c,鱼油d的样本。由式(2)求得 15×1,25×1,35×1,45×1表示5行1列的矩阵,矩阵元素分别是1,2,3,4。目标函数值为矩阵中的元素取绝对值、四舍五入后不等于0的元素的个数,经计算目标函数值为5。
第二行[1 1 1 0],表示鱼油a,鱼油b,鱼油c,归为一段,鱼油d,归为一段。因为有存在单独一种鱼油归为一段情况。目标函数值设为一个较大值,本例为100。
第三行[0 0 1 1],表示鱼油a,鱼油b归为一段,鱼油c,鱼油d归为一段,需建立两个分段回归模型。
分段模型1对应鱼油a,鱼油b: 类别信息矩阵 Sca10×15为得分矩阵Sc中对应鱼油a的部分,Scb10×15是得分矩阵中对应鱼油b的部分。
分段模型2对应鱼油c,鱼油d: 类别信息矩阵 Scc10×15为得分矩阵Sc中对应鱼油c的部分,Scd10×15是得分矩阵中对应鱼油d的部分。
x(i)是预测子集中的第i样本数据,求其得分S=(x(i)-M)×T。分别求S与 的马氏距离。如果前者小,如果x(i)是鱼油c或者鱼油d,该样品定位错误;如果后者小,,如果x(i)是鱼油a,或者鱼油b,该样品定位错误。x(i)的类别值,也就是1,2,3,4中的一个,假设为1,如果的绝对值在四舍五入后不为0,则该样本类别误判。目标函数为预测子集中全部样本的误判数和定位错误数之和。该个体的目标函数值为3。
第四行[1 0 1 0],表示鱼油a,鱼油c归为一段,鱼油b,鱼油d归为一段。需建立两个分段回归模型。
分段模型1对应鱼油a,鱼油c: 类别信息矩阵 为得分矩阵Sc中对应鱼油a的部分,Scc10×15是得分矩阵中对已鱼油b的部分。
分段模型2对应鱼油b,鱼油d: 类别信息矩阵 Scb10×15为得分矩阵Sc中对应鱼油b的部分,Scd10×15是得分矩阵中对应鱼油d的部分。
x(i)是预测子集中的第i样本数据,求其得分S=(x(i)-M)×T。分别求S与 的马氏距离。如果前者小,,如果x(i)是鱼油b或者鱼油d,该样品定位错误;如果后者小,如果x(i)是鱼油a或者鱼油c,该样品定位错误。x(i)的类别值,也就是1,2,3,4中的一个,假设为2,如果的绝对值在四舍五入后不为0,则该样本类别误判。目标函数为预测子集中全部样本的误判数和定位错误数之和。该个体的目标函数值为4。
种群的目标函数值矩阵为F。
步骤六,根据目标函数值矩阵F,种群,由遗传算法的相关操作得到下一代种群。如下所示
步骤七,判断遗传算法是否终止。本例的终止条件是遗传5代。不满足终止条件,回到步骤六。
步骤八,遗传过程终止。最后的种群为
对应的目标函数值矩阵
目标函数值最小的个体[0 0 1 1]就是遗传算法找的的最优的模型。
构造遗传算法找的的最优的模型。
分段模型1对应鱼油a,鱼油b; 类别信息矩阵 Sca10×15为得分矩阵Sc中对应鱼油a的部分,Scb10×15是得分矩阵中对应鱼油b的部分。
分段模型2对应鱼油c,鱼油d; 类别信息矩阵 Scc10×15为得分矩阵Sc中对应鱼油c的部分,Scd10×15是得分矩阵中对应鱼油d的部分。
步骤九,将独立预测集的样本带入最终的模型,算出误判数为3。普通的PLS模型的误判数5。前者比后者小,接受这个分段模型。
Claims (1)
1.一种基于遗传算法自适应选择分段点的鱼油红外光谱PLS识别方法,其特征在于,用于鱼油红外光谱识别实例PLS建模方法,包括以下步骤:
步骤一,样品的划分,一共有四类鱼油,分别为鱼油a,鱼油b,鱼油c,鱼油d,每个鱼油样品的红外光谱数据为1×1375的行矩阵,每种鱼油样品数为20个,每种鱼油样品随机的分为三部分10,5,5:10个用于分段模型的建立,5个用于分段模型的测试,剩下的5个用于最终分段模型的验证,由第一部分样品构成的矩阵为校正集,由第二部分样品构成的矩阵为预测子集,由第三部分样品构成的矩阵为独立预测集;
步骤二,设置因变量Y的值,一共有4种类别,鱼油a,鱼油b,鱼油c,鱼油d的Y值分别设置为1,2,3,4;
步骤三,对校正集样品做主成分分析,得到一个得分矩阵Sc20×15、投影方向矩阵T1735×15和每列平均值构成的行矩阵M1×1735;
步骤四,创建初始种群:包括设置个体每位的进制数2,代表最大的分段数2;设置个体的长度4,代表鱼油的类别数;设置种群的大小4,代表一个种群内个体的数量,随机产生的初始种群如下所示,
对应的Y变量矩阵如下,
步骤五,求种群的目标函数值矩阵F,对种群的每个个体代表的模型进行建模,第一行[1 1 1 1],表示全部鱼油类别归为一段,
方程式一
由方程式一求得模型的回归系数Beta,a10×1735,b10×1735,c10×1735,d10×1735分别表示校正集中鱼油a,鱼油b,鱼油c,鱼油d的样本,由Y变量矩阵可知,鱼油a,鱼油b,鱼油c,鱼油d对应的Y变量的值分别为1,2,3,4,从而回归方程的因变量矩阵为 110×1,210×1,310×1,410×1表示10行1列的矩阵,矩阵的元素分别是1,2,3,4,
方程式二
a5×1735,b5×1735,c5×1735,d5×1735分别表示预测子集中鱼油a,鱼油b,鱼油c,鱼油d的样本,由方程式二求得 15×1,25×1,35×1,45×1表示5行1列的矩阵,矩阵元素分别是1,2,3,4,目标函数值为矩阵中的元素取绝对值、四舍五入后不等于0的元素的个数,经计算目标函数值为5,
第二行[1 1 1 0],表示鱼油a,鱼油b,鱼油c,归为一段,鱼油d,归为一段,因为有存在单独一种鱼油归为一段情况,目标函数值设为100,
第三行[0 0 1 1],表示鱼油a,鱼油b归为一段,鱼油c,鱼油d归为一段,需建立两个分段回归模型,
分段模型1对应鱼油a,鱼油b: 类别信息矩阵 Sca10×15为得分矩阵Sc中对应鱼油a的部分,Scb10×15是得分矩阵中对应鱼油b的部分,
分段模型2对应鱼油c,鱼油d: 类别信息矩阵 Scc10×15为得分矩阵Sc中对应鱼油c的部分,Scd10×15是得分矩阵中对应鱼油d的部分,
x(i)是预测子集中的第i样本数据,求其得分S=(x(i)-M)×T,分别求S与 的马氏距离,如果前者小,如果x(i)是鱼油c或者鱼油d,该样品定位错误;如果后者小,如果x(i)是鱼油a,或者鱼油b,该样品定位错误,x(i)的类别值,也就是1,2,3,4中的一个,假设为1,如果的绝对值在四舍五入后不为0,则该样本类别误判,目标函数为预测子集中全部样本的误判数和定位错误数之和,该个体的目标函数值为3,
第四行[1 0 1 0],表示鱼油a,鱼油c归为一段,鱼油b,鱼油d归为一段,需建立两个分段回归模型,
分段模型1对应鱼油a,鱼油c: 类别信息矩阵 Sca10×15为得分矩阵Sc中对应鱼油a的部分,Scc10×15是得分矩阵中对已鱼油b的部分,
分段模型2对应鱼油b,鱼油d: 类别信息矩阵 Scb10×15为得分矩阵Sc中对应鱼油b的部分,Scd10×15是得分矩阵中对应鱼油d的部分,
x(i)是预测子集中的第i样本数据,求其得分S=(x(i)-M)×T,分别求S与 的马氏距离,如果前者小,如果x(i)是鱼油b或者鱼油d,该样品定位错误;如果后者小,如果x(i)是鱼油a或者鱼油c,该样品定位错误,x(i)的类别值,也就是1,2,3,4中的一个,假设为2,如果的绝对值在四舍五入后不为0,则该样本类别误判,目标函数为预测子集中全部样本的误判数和定位错误数之和,该个体的目标函数值为4,
种群的目标函数值矩阵为F,
步骤六,根据目标函数值矩阵F,种群,由遗传算法的相关操作得到下一代种群,如下所示
步骤七,判断遗传算法是否终止,本例的终止条件是遗传5代,不满足终止条件,回到步骤六,
步骤八,遗传过程终止,最后的种群为
对应的目标函数值矩阵
目标函数值最小的个体[0 0 1 1]就是遗传算法找的的最优的模型,
构造遗传算法找的的最优的模型,
分段模型1对应鱼油a,鱼油b; 类别信息矩阵 Sca10×15为得分矩阵Sc中对应鱼油a的部分,Scb10×15是得分矩阵中对应鱼油b的部分,
分段模型2对应鱼油c,鱼油d; 类别信息矩阵 Scc10×15为得分矩阵Sc中对应鱼油c的部分,Scd10×15是得分矩阵中对应鱼油d的部分,
步骤九,将独立预测集的样本带入最终的模型,算出误判数为3,普通的PLS模型的误判数5,前者比后者小,接受这个分段模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310194197.2A CN103411913B (zh) | 2013-05-22 | 2013-05-22 | 一种基于遗传算法自适应选择分段点的鱼油红外光谱pls识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310194197.2A CN103411913B (zh) | 2013-05-22 | 2013-05-22 | 一种基于遗传算法自适应选择分段点的鱼油红外光谱pls识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103411913A CN103411913A (zh) | 2013-11-27 |
CN103411913B true CN103411913B (zh) | 2015-10-14 |
Family
ID=49604940
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310194197.2A Active CN103411913B (zh) | 2013-05-22 | 2013-05-22 | 一种基于遗传算法自适应选择分段点的鱼油红外光谱pls识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103411913B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104462751B (zh) * | 2014-10-29 | 2017-05-03 | 温州大学 | 一种基于多元高斯拟合的近红外光谱建模方法 |
CN108581633B (zh) * | 2018-04-11 | 2020-10-23 | 温州大学 | 一种基于遗传算法优化多传感监测刀具状态的方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5711089B2 (ja) * | 2011-09-27 | 2015-04-30 | 築野食品工業株式会社 | 近赤外分光法を用いた玄米中のトリアシルグリセロールの定量方法 |
CN102495005B (zh) * | 2011-11-17 | 2013-05-08 | 江苏大学 | 高光谱图像技术诊断作物水分亏缺的方法 |
-
2013
- 2013-05-22 CN CN201310194197.2A patent/CN103411913B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN103411913A (zh) | 2013-11-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN100440092C (zh) | 生产管理系统 | |
CN108985380B (zh) | 一种基于聚类集成的转辙机故障识别方法 | |
CN104807589B (zh) | 一种集输-立管系统内气液两相流流型的在线识别方法 | |
CN105760673A (zh) | 一种河流相储层地震敏感参数模板分析方法 | |
CN107037306A (zh) | 基于隐马尔科夫模型的变压器故障动态预警方法 | |
CN106127242A (zh) | 基于集成学习的年极端降水预测系统及其预测方法 | |
CN111649779B (zh) | 基于密集神经网络的油井含油率和总流速测量方法及应用 | |
CN113420795B (zh) | 一种基于空洞卷积神经网络的矿物光谱分类方法 | |
CN107067341A (zh) | 一种基于多级熵权的rbfnn配电自动化系统状态操作评价方法 | |
CN110991471A (zh) | 一种高速列车牵引系统故障诊断方法 | |
CN109447153A (zh) | 用于非均衡数据分类的散度-激励自编码器及其分类方法 | |
CN103411913B (zh) | 一种基于遗传算法自适应选择分段点的鱼油红外光谱pls识别方法 | |
CN116542429A (zh) | 一种融合时空特征的油藏生产指标机器学习预测方法 | |
CN109063983A (zh) | 一种基于社交媒体数据的自然灾害损失实时评估方法 | |
CN117609836A (zh) | 一种综合模块的电磁敏感预测与健康管理方法 | |
Gamero et al. | Process diagnosis based on qualitative trend similarities using a sequence matching algorithm | |
SA515360901B1 (ar) | طريقة لمراقبة أداء حجم تحت سطح الأرض | |
CN113127716A (zh) | 一种基于显著性图的情感时间序列异常检测方法 | |
CN111105041B (zh) | 一种用于智慧数据碰撞的机器学习方法及装置 | |
Cheung et al. | Oreonet: Deep convolutional network for oil reservoir optimization | |
CN115660221B (zh) | 基于混合神经网络的油气藏经济可采储量评估方法及系统 | |
Arifin et al. | Comparative analysis on educational data mining algorithm to predict academic performance | |
CN106096634A (zh) | 基于自适应滑动窗口算法与区间折半算法的故障检测方法 | |
CN108363738B (zh) | 一种工业设备数据分析算法的推荐方法 | |
CN116720743A (zh) | 基于数据聚类和机器学习的碳排放测算方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |