CN104237158B - 一种具有普适性的近红外光谱定性分析方法 - Google Patents

一种具有普适性的近红外光谱定性分析方法 Download PDF

Info

Publication number
CN104237158B
CN104237158B CN201410448988.8A CN201410448988A CN104237158B CN 104237158 B CN104237158 B CN 104237158B CN 201410448988 A CN201410448988 A CN 201410448988A CN 104237158 B CN104237158 B CN 104237158B
Authority
CN
China
Prior art keywords
matrix
near infrared
vector
light spectrum
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410448988.8A
Other languages
English (en)
Other versions
CN104237158A (zh
Inventor
周扬
刘铁兵
陈正伟
施秧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lover Health Science and Technology Development Co Ltd
Original Assignee
Zhejiang Lover Health Science and Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lover Health Science and Technology Development Co Ltd filed Critical Zhejiang Lover Health Science and Technology Development Co Ltd
Priority to CN201410448988.8A priority Critical patent/CN104237158B/zh
Publication of CN104237158A publication Critical patent/CN104237158A/zh
Application granted granted Critical
Publication of CN104237158B publication Critical patent/CN104237158B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Investigating Or Analysing Materials By Optical Means (AREA)

Abstract

一种具有普适性的近红外光谱定性分析方法,获取训练集和预测集样本近红外光谱,构造余弦字典,求解训练集和预测集样本在余弦字典下的表示系数,然后结合表示系数的稀疏度完成光谱重构,再根据重构后的训练集近红外光谱及训练集样本类别编号寻找定性分类的有效投影方向,并完成重构后训练集和预测集近红外光谱的投影变换,接下来计算变换后的训练集和预测集近红外光谱的图拉普拉斯矩阵,并将分类问题转化成优化问题,最后完成分类函数的求解及执行预测集近红外光谱的定性分析。本发明提供了一种精度较高、准确性良好、有效适用于小样本复杂体系的具有普适性的近红外光谱定性分析方法。

Description

一种具有普适性的近红外光谱定性分析方法
技术领域
本发明涉及化工、食品、农业、环境、生物等行业的近红外仪器分析和检测领域,特别是一种近红外光谱定性分析方法。
背景技术
近红外光谱分析技术是利用物质中敏感基团对不同波长近红外光的吸收强度来进行定性分析的方法,近年来在农业、食品、药物、医学、石油化工等领域有着广泛的应用。各个领域应用近红外分析技术后,优势明显,主要表现如下几个方面:分析测试速度有较大幅度地提高,测试时间通常在几分钟内;测试效率有较大提升,通过一次光谱测量,可对样本多个性质同时进行测量;测试成本进一步降低,近红外技术是无损检测,除仪器供电外无其他试剂、预处理损耗。近红外分析技术被越来越多的分析工作者认可和使用,近红外光谱技术作为在线快速分析技术在生产过程和工业控制中发挥了的巨大作用,应用潜力巨大。将近红外光谱与待检测参数建立定性分析模型是近红外法检测的关键技术。
在定性模型建立方面,由于光谱中不同波长变量间存在复共线性关系,即某个波长点的信息可以用其他波长点线性表示,这些波长点的存在对现有的定性分析方法存在干扰作用,降低建模精度。此外,由于光谱波长点过多,而不同波长点之间的信息差别较小,在计算过程中易引起散度、方差矩阵奇异。
为解决上述问题及完成近红外光谱的定性分析,光谱分析工作者主要使用两类方法,一类是无监督的方法,以根据距离测度分类的聚类分析为典型代表,之后出现了K均值聚类、模糊K均值聚类等动态聚类算法。采用了迭代分级聚类策略思想的系统聚类分析,神经网络中的自组织神经网络也逐步在近红外光谱聚类分析中应用。另一类是有监督的方法,根据已知样本距离判断的最小距离判别法、K最邻近法,根据样本之间的相关性判断的线性判别分析法,在主成分分析基础上进行拟合判别的SIMCA方法等模式识别方法在近红外光谱分析文献中较为常见。同时对定量分析方法进行适当改造,将定量值定义为特定的类别编号,就可将定量分析方法用于定性分析,比如判别偏最小二乘法(PLS-DA),支持向量机,BP神经网络等。
现有的神经网络、支持向量机等定性分析方法难以拟合样本光谱和类别特征存在的非线性关系,容易造成预测失败。光谱各吸收峰之间存在交叠现象,加上在光谱采集过程中由于光谱仪器本身或者外界因素的干扰,不可避免地存在噪声,这仍旧给光谱的定性析造成很大困难。通常近红外法应用的检测对象,如农业、食品的产品,由于种类的多样性和不确定性,在定性模型建立过程中,在特定波长下,朗伯比尔定律约束具有多样性、交叠性,光谱建模就从单一体系问题演变成为复杂体系问题,加大分类预测的难度。
样本数量对于复杂体系下近红外分类模型精度有较大的影响,常规近红外定性分析方法需通过收集大量样品建立分类模型,使模型尽可能地涵盖样品信息,从而具有较好的稳定性和适用性。在工程实际中,每次取得的样本不一定处于同一体系,则大多数近红外光谱定性分析成为一小样本建模问题,其预测精度和稳定性尚待提升。同时获得样本物理化学类别特性信息的过程将会消耗大量的时间、人力和财力,在极端情况下,部分样本光谱的物理化学类别信息可能无法获得。而获得未知物理化学类别信息的样本光谱较为容易,仅需一次或多次的光谱采集。
如上所述,现用于提高近红外光谱定性分析结果精度的方法和途径存在各种局限性和不足,制约了近红外光谱分析技术在复杂体系中的应用范围。目前大多应用实践尚不能满足近红外光谱定性分析中需大量已知物理化学类别特性信息样本的要求,且针对复杂体系的应用对象,无法提供标准物理化学类别特性信息的样本。那么为了提高近红外光谱定性分析的精度和稳定性,必须发展新的近红外光谱定性分析方法,克服噪声、吸收峰混叠、复共线性的干扰,从未知分类信息的样本光谱提取更多信息,实现复杂混合体系近红外光谱的准确定性分析,对于当前近红外光谱定性分析的研究和应用具有十分重要的意义。
发明内容
为了克服已有近红外光谱定性分析方法的精度较低、准确性较差、不能适用于小样本复杂体系的不足,本发明提供了一种精度较高、准确性良好、有效适用于小样本复杂体系的具有普适性的近红外光谱定性分析方法。
本发明解决其技术问题所采用的技术方案是:
一种具有普适性的近红外光谱定性分析方法,所述方法包括以下步骤:
(1)获取训练集和预测集样本近红外光谱,将训练集近红外光谱表示为X(n×p),其中n为训练集样本数量,p为光谱数据维度;将预测集近红外光谱表示为X'(m×p),其中m为预测集样本数量;X(i,j)表示训练集近红外光谱矩阵中坐标位置为(i,j)的吸光度值,X'(i,j)表示预测集近红外光谱矩阵中坐标位置为(i,j)的吸光度值;构造训练集近红外光谱的类属性矩阵Y(n×K),Y(i,j)表示类属性矩阵中坐标位置为(i,j)的类别属性,其中K为校正集样本中类别数;Y矩阵的每一行对应一个训练集样本,若第t号训练集样本的类别编号为z,则Y(t,j=z)=1,
(2)用离散余弦函数ga[b]=cos(bπa/(10*n*m))逼近近红外光谱中余弦信号特征的吸收峰并构造字典中原子ga,每个原子ga为一p维列向量,其中b=0,1,...,p-1,下标a=0,1,...,10*n*m-1代表频率参量;在10*n*m个原子形成后,使用原子ga组成具有过完备特性的字典矩阵G,字典矩阵G的计算式为:
G(p×(10*n*m))=[g0,g1,g2...g10*n*m-1];
(3)逐一提取训练集近红外光谱矩阵X(n×p)的每个样本光谱,即光谱矩阵X(n×p)的p维行向量,向量记为xc,c=1,2...n;逐一提取预测集近红外光谱矩阵X'(m×p)的每个样本光谱,即光谱矩阵X'(m×p)的p维行向量,向量记为x'd,d=1,2...m;计算每个近红外光谱xc和x'd在字典矩阵G下的稀疏表示系数αc和αd,c=1,2...n,d=1,2...m,其中αc和αd均为10*n*m维行向量;
(4)使用稀疏表示系数向量αc重构训练集近红外光谱矩阵中的行向量x'c=(G*αc)T,c=1,2...n,其中,上标T为向量或矩阵转置运算;使用稀疏表示系数向量αd重构预测集近红外光谱矩阵中的行向量x″d=(G*αd)T,d=1,2...m,其中上标T为向量或矩阵转置运算;使用重构后的x'c,c=1,2...n,逐行替换训练集近红外光谱矩阵X(n×p)中的行向量,形成新的训练集近红外光谱矩阵Xnew(n×p);使用重构后的x″d,d=1,2...m逐行替换预测集近红外光谱矩阵X'(m×p)中的行向量,形成新的预测集近红外光谱矩阵X'new(m×p);
(5)利用训练集近红外光谱数据,寻找实施定性判别的q个投影方向wk,wk为p维向量,k=1,2...q该方向能对光谱类别信息数据进行有效分类;
(6)将新的训练集近红外光谱矩阵Xnew(n×p)和新的预测集近红外光谱矩阵X'new(m×p)向向量wk,k=1,2,3...q,方向进行投影变换Xcal=(Xneww1,Xneww2...Xnewwq)、Xtst=(X'neww1,X'neww2...X'newwq),得到变换后的训练集近红外光谱矩阵和预测集近红外光谱矩阵,分别记作Xcal(n×q)和Xtst(m×q);
(7)将变换后的训练集近红外光谱矩阵Xcal(n×q)和预测集近红外光谱矩阵Xtst(m×q)按行合并为一全体光谱矩阵Xall((n+m)×q),逐一提取全体光谱矩阵Xall((n+m)×q)的每个样本光谱,即光谱矩阵Xall((n+m)×q)的q维行向量,向量记为xii或xjj,ii,jj=1,2...n+m;计算关联矩阵W,Wii,jj表示关联矩阵中坐标位置为(ii,jj)的值,ii,jj=1,2...n+m且Wii,jj=exp(||xii-xjj||2/0.48),其中||||为向量2范数;计算对角矩阵D,Dii,jj表示对角矩阵中坐标位置为(ii,jj)的值,且Dii,jj=0(ii≠jj)ii,jj=1,2...n+m;计算n+m阶图拉普拉斯方阵L,L=D-W;
(8)将预测集样本的定性分析转换成 min f ∈ H k 1 n Σ ii = 1 n max ( 0,1 - yf ( x ii ) ) + γ K | | f | | K 2 + γ I f T Lf 优化问题,其中;γK为控制空间复杂度参数,γI为控制结构复杂度参数,Hk为希尔伯特空间,xii为光谱矩阵Xall((n+m)×q)的q维行向量,ii=1,2...n+m,xii的前n个样本由训练集近红外光谱组成,y为前n个xii光谱向量对应样本的类别编号向量;f(xii)为xii的分类函数,该函数在输入后m个预测集光谱向量xii时,预测xii光谱对应样本的类别编号;
(9)使用拉格朗日乘子法,计算 min f ∈ H k 1 n Σ ii = 1 n max ( 0,1 - yf ( x ii ) ) + γ K | | f | | K 2 + γ I f T Lf 优化问题的解,得到ii=1,2...n+m,其中xii为光谱矩阵Xall((n+m)×q)的q维行向量,αii为核表示系数,e为截距,均由拉格朗日乘子法求得,K'(,)为核函数;
(10)逐一提取预测集近红外光谱矩阵Xtst(m×q)的每个样本光谱,即光谱矩阵Xtst(m×q)的q维行向量,向量记为xu,u=1,2...m;将m个预测集光谱xu代入分类函数中,即可获得预测集光谱的类别编号,完成定性分析。
进一步,所述的步骤(3)中,xc和x'd在字典下G的稀疏表示系数αc和αd计算具体过程为:
(3-1)xc在字典矩阵G下的稀疏表示系数αc求解过程等价于优化问题,其中||αc||0表示αc的l0范数,即αc中非零元素的个数,l0范数上限T为稀疏度;初始化残差r=xc、清空索引集和重组字典
(3-2)计算稀疏表示系数αc
(3-2-1):找出残差r与字典中内积最大原子ga所对应的标号其中(,)为向量内积运算,并更新索引集Λ=Λ∪{λ}和重组字典G'=[G',gλ];
(3-2-2):由最小二乘法计算当前xc向量的稀疏表示系数αc=argmin2||xc-G'αc||2并更新残差r=xc-G'αc
(3-2-3):重复(3-2-1)和(3-2-2)T次后停止迭代;
(3-3)x'd在字典矩阵G下的稀疏表示系数αd求解过程等价于优化问题,其中||αd||0表示αd的l0范数,即αd中非零元素的个数;初始化残差r=x'd、清空索引集和重组字典
(3-4)计算稀疏表示系数αj
(3-4-1):找出残差r与字典中内积最大原子ga所对应的标号其中(,)为向量内积运算,并更新索引集Λ=Λ∪{λ}和重组字典G'=[G',gλ];
(3-4-2):由最小二乘法计算当前x'd向量的稀疏表示系数αd=argmin2||x'd-G'αd||2并更新残差r=x'd-G'αd
(3-4-3):重复(3-4-1)和(3-4-2)T次后停止迭代。
再进一步,所述的步骤(5)的具体过程为:
(5-1)计算K方阵D'=1/nYTY;定义K行k列矩阵Qk(K×k),k=1,2,3...q,Q1作为Qk的初始矩阵为全1矩阵;q为投影方向个数,同时也代表Qk矩阵更新过程的次数;随机生成一个K阶过渡方阵θ*,计算K阶方阵
(5-2)按照k=1,2,3...q的取值顺序,执行q次两步循环法求解p维投影列向量wk
(5-2-1)利用弹性网眼回归(ElasticNet)优化求解方法求解优化问题
arg min w k { | | Y θ k - X new w k | | 2 + 0.1 * w k T I w k + 0.2 * | | w k | | 1 } , 其中I为p阶单位矩阵,符号“||||1”表示求向量1范数运算;优化求解结果为此次循环的wk
(5-2-2)计算矩阵 θ k ′ = ( I - Q k Q k T D ′ ) D ′ - 1 Y T X new w k ; 更新矩阵 θ k = θ k ′ / θ k ′ T D ′ θ k ′ 和矩阵Qk+1=(Qkk),其中符号“:”表示向量或矩阵的联结运算。
所述的步骤(8)的控制空间复杂度参数γk=0.9,控制结构复杂度参数γI=1;
所述的步骤(9-10)中,核函数为K'(yy,zz)=exp(-||yy-zz||2/2σ2),yy、zz表示核函数的输入参数,σ为平滑度,σ=0.35。
与现有技术相比,本发明首先构造了余弦冗余字典,并求取了近红外光谱数据在该字典下的稀疏表示系数,通过控制稀疏度,完成光谱信号的重构,滤除了近红外光谱仪器本身或者外界因素的噪声,再通过构造一弹性网眼优化问题,确定了利于定性分类的最优投影方向,随即完成近红外光谱数据投影变换,克服了复共线性、光谱混叠、光谱非线性的干扰,最后使用核函数表示理论,将压缩后的训练集和预测集样本共同形成定性分类优化问题并求解该问题完成定性分类,由于本发明提出的方法,让预测集样本在分类优化问题中参与了模型的辅助训练,提取了其内部结构和空间信息,丰富了定性分析过程中的已知信息量,因此本发明的方法能取得相对较优的分类准确率;此外,由于预测集样本的使用,本发明方法需要的训练集样本数量可缩减,适合在近红外光谱小样本复杂体系建模时使用。
附图说明
图1为本发明所述一种具有普适性的近红外光谱定性分析方法的流程图;
图2为所采集的199个油品样本近红外光谱图;
图3为参数γK和参数γI在区间搜索时定性分类平均准确率的等高线图。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1~图3,一种具有普适性的近红外光谱定性分析方法,由字典构造、表示系数求解、光谱重构、投影方向搜索、投影变换、图拉普拉斯矩阵计算、分类优化问题构造及分类函数求解等部分组成,图1给出了本发明方法的总体实现框图,其具体包括以下步骤:
(1)获取训练集和预测集样本近红外光谱,将训练集近红外光谱表示为X(n×p),其中n=20为训练集样本数量,p=2051为光谱数据维度;将预测集近红外光谱表示为X'(m×p),其中m=179为预测集样本数量,p=2051为光谱数据维度;X(i,j)表示训练集近红外光谱矩阵中坐标位置为(i,j)的吸光度值,X'(i,j)表示预测集近红外光谱矩阵中坐标位置为(i,j)的吸光度值;构造训练集近红外光谱的类属性矩阵Y(n×K),Y(i,j)表示类属性矩阵中坐标位置为(i,j)的类别属性,其中K=2为校正集样本中类别数;类属性矩阵Y的每一行对应一个训练集样本,若第t号训练集样本的类别编号为z=0,1,则Y(t,j=z)=1,其中c=0代表食用油样本,c=1代表混有地沟油的食用油样本;图2为所采集的199个油品样本近红外光谱;
(2)用离散余弦函数ga[b]=cos(bπj/(10*n*m))逼近近红外光谱中余弦信号特征的吸收峰并构造字典中原子ga,每个原子ga为一p维列向量,其中b=0,1,...,2050,下标a=0,1,...,10*n*m-1代表频率参量;在10*n*m个原子形成后,使用原子ga组成具有过完备特性的字典矩阵G,字典矩阵G的计算式为:
G(p×(10*n*m))=[g0,g1,g2...g10*n*m-1];
(3)逐一提取训练集近红外光谱矩阵X(n×p)的每个样本光谱,即光谱矩阵X(n×p)的p=2051维行向量,向量记为xc,c=1,2...20;逐一提取预测集近红外光谱矩阵X'(m×p)的每个样本光谱,即光谱矩阵X'(m×p)的p=2051维行向量,向量记为x'd,d=1,2...179;计算每个近红外光谱xc和x'd在字典下G的稀疏表示系数αc和αd,c=1,2...20,d=1,2...179,其中αc和αd均为10*20*179维行向量;在此具体实施例中,xc和x'd在字典矩阵G下的稀疏表示系数αc和αd计算具体过程为:
(3-1)xc在字典矩阵G下的稀疏表示系数αc求解过程等价于优化问题,其中||αc||0表示αc的l0范数,即αc中非零元素的个数,l0范数上限T为稀疏度;初始化残差r=xc、清空索引集和重组字典
(3-2)计算稀疏表示系数αc
(3-2-1):找出残差r与字典中内积最大原子ga所对应的标号其中(,)为向量内积运算,并更新索引集Λ=Λ∪{λ}和重组字典G'=[G',gλ]G'=[G',gλ],λ表示残差r与字典中内积最大原子ga所对应的标号;
(3-2-2):由最小二乘法计算当前xc向量的稀疏表示系数αc=argmin2||xc-G'αc||2并更新残差r=xc-G'αc
(3-2-3):重复(3-2-1)和(3-2-2)T次后停止迭代;
(3-3)x'd在字典矩阵G下的稀疏表示系数αd求解过程等价于优化问题,其中||αd||0表示αd的l0范数,即αd中非零元素的个数;初始化残差r=x'd、清空索引集和重组字典
(3-4)计算稀疏表示系数αj
(3-4-1):找出残差r与字典中内积最大原子ga所对应的标号其中(,)为向量内积运算,并更新索引集Λ=Λ∪{λ}和重组字典G'=[G',gλ];
(3-4-2):由最小二乘法计算当前x'd向量的稀疏表示系数αd=argmin2||x'd-G'αd||2并更新残差r=x'd-G'αd
(3-4-3):重复(3-4-1)和(3-4-2)T次后停止迭代。
(3-5):所述的稀疏度T=6;
(4)使用稀疏表示系数向量αc重构训练集近红外光谱矩阵中的行向量x'c=(G*ac)T,c=1,2...n,其中上标T为向量或矩阵转置运算;使用稀疏表示系数向量αd重构预测集近红外光谱矩阵中的行向量x″d=(G*αd)T,d=1,2...179,其中上标T为向量或矩阵转置运算;使用重构后的x'c,c=1,2...20逐行替换训练集近红外光谱矩阵X(n×p)中的行向量,形成新的训练集近红外光谱矩阵Xnew(n×p);使用重构后的x″d,d=1,2...179逐行替换预测集近红外光谱矩阵X'(m×p)中的行向量,形成新的预测集近红外光谱矩阵X'new(m×p);
(5)利用训练集近红外光谱数据,寻实施找定性判别的q个投影方向wk=1,2,3...q,wk为p维向量,该方向能对光谱类别信息数据进行有效分类;
(5-1)计算K方阵D'=1/nYTY;定义K行k列矩阵Qk(K×k),k=1,2,3...q,Q1作为Qk的初始矩阵为全1矩阵;q为投影方向个数,同时也代表Qk矩阵更新过程的次数;随机生成一个K阶过渡方阵θ*,计算K阶方阵
(5-2)按照k=1,2,3...q的取值顺序,执行q次两步循环法求解p维投影列向量wk
(5-2-1)利用弹性网眼回归(ElasticNet)优化求解方法求解优化问题
arg min w k { | | Y θ k - X new w k | | 2 + 0.1 * w k T I w k + 0.2 * | | w k | | 1 } , 其中I为p阶单位矩阵,符号“||||1”表示求向量1范数运算;优化求解结果为此次循环的wk
(5-2-2)计算矩阵 θ k ′ = ( I - Q k Q k T D ′ ) D ′ - 1 Y T X new w k ; 更新矩阵 θ k = θ k ′ / θ k ′ T D ′ θ k ′ 和矩阵Qk+1=(Qkk),其中符号“:”表示向量或矩阵的联结运算。
(5-3)所述的投影方向个数q=8;
(6)将新的训练集近红外光谱矩阵Xnew(n×p)和新的预测集近红外光谱矩阵X'new(m×p)向向量wk,k=1,2,3...8,方向进行投影变换Xcal=(Xneww1,Xneww2...Xneww8)、Xtst=(X'neww1,X'neww2...X'neww8),得到变换后的训练集近红外光谱矩阵和预测集近红外光谱矩阵,分别记作Xcal(20×8)和Xtst(179×8);
(7)将变换后的训练集近红外光谱矩阵Xcal(20×8)和预测集近红外光谱矩阵Xtst(179×8)按行合并为一全体光谱矩阵Xall(199×8),逐一提取全体光谱矩阵Xall(199×8)的每个样本光谱,即光谱矩阵Xall(199×8)的q=8维行向量,向量记为xii或xjj,ii,jj=1,2...199;计算关联矩阵W,Wii,jj表示关联矩阵中坐标位置为(ii,jj)的值,ii,jj=1,2...199且Wii,jj=exp(||xii-xjj||2/0.48),其中||||为向量2范数;计算对角矩阵D,Dii,jj表示对角矩阵中坐标位置为(ii,jj)的值,且Dii,jj=0(ii≠jj)ii,jj=1,2...n+m;计算n+m阶图拉普拉斯方阵L,L=D-W;
(8)将预测集样本的定性分析转换成 min f ∈ H k 1 n Σ ii = 1 n max ( 0,1 - yf ( x ii ) ) + γ K | | f | | K 2 + γ I f T Lf 优化问题,其中;γK为控制空间复杂度参数,γI为控制结构复杂度参数,Hk为希尔伯特空间,xii为光谱矩阵Xall(199×8)的q=8维行向量,ii=1,2...199,xii的前n=20个样本由训练集近红外光谱组成,y为前n=20个xii光谱向量对应样本的类别编号向量;f(xii)为xii的分类函数,该函数在输入后m=179个预测集光谱向量xii时,预测xii光谱对应样本的类别编号;所述的步骤(8)的控制空间复杂度参数γk=0.9,控制结构复杂度参数γI=1;
(9)使用拉格朗日乘子法,计算 min f ∈ H k 1 n Σ ii = 1 n = 20 max ( 0,1 - yf ( x ii ) ) + γ K | | f | | K 2 + γ I f T Lf 优化问题的解,得到ii=1,2...199,其中xii为光谱矩阵Xall((n+m)×q)的q=8维行向量,αii为核表示系数,e为截距,均由拉格朗日乘子法求得,K'(,)为核函数;
(10)逐一提取预测集近红外光谱矩阵Xtst(179×8)的每个样本光谱,即光谱矩阵Xtst(179×8)的q=8维行向量,向量记为xu,u=1,2...179;将179个预测集光谱xu代入分类函数中,即可获得预测集光谱的类别编号,完成定性分析。
进一步,所述的步骤(9-10)的核函数为K'(yy,zz)=exp(-||yy-zz||2/2σ2),yy、zz表示核函数的输入参数,σ为平滑度,σ=0.35。
本实施实例收集了花生油、大豆油、菜籽油、葵花仁油、芝麻油五个品种的食用油样本各20个和由绍兴市质量技术监督局查获含地沟油的食用油样本99个,累计199个样本分别装入100ml烧杯中,使用MPA傅立叶变换型近红外光谱仪(德国Bruker)及自带光程2mm的光纤附件伸入烧杯中测量每个样本的近红外光谱。光谱测量范围为2500cm-1到4000cm-1,分辨率设定为4cm-1,每个光谱扫描16次并取平均值。该光谱数据被划分为训练集样本20个,验证集样本179个。训练集样本中,随机选取了食用油样本10个和地沟油样本10个,构造了一复杂体系的小样本问题。
比较本发明提出的近红外光谱定性分析方法与使用偏最小二乘判别分析(PLSDA)和支持向量机(SVM)传统方法在分类准确度的性能差异。偏最小二乘判别分析和支持向量机只使用了训练集20个样本建立了定性分析模型,而本发明提出的方法,在步骤(7)-(10),让预测集样本参与了模型的辅助训练,提取了其内部结构和空间信息,丰富了定性分析过程中的已知信息量。表1给出了不同方法的预测结果,结果表明本发明的方法取得了相对最优分类准确率,说明了本发明方法的有效性和优越性。
图3显示了空间复杂度参数γK和结构复杂度参数γI在区间{0.5e-6,1e-6,0.5e-5,1e-5,0.5e-4,1e-4,0.5e-3,1e-3,0.5e-2,1e-2,0.5e-1,1e-1,0.5151020304050}搜索时,利用所述的一种具有普适性的近红外光谱定性分析方法对177个预测集食用油和地沟油样本执行100次定性分类平均准确率的等高线图。在控制空间复杂度参数γk=0.9,控制结构复杂度参数γI=1区间内,等高线图显示本发明方法最优的分类准确率为96.67%。
表1为本发明方法最终分类准确率与常规方法的比较结果
表1。

Claims (5)

1.一种具有普适性的近红外光谱定性分析方法,其特征在于:所述方法包括以下步骤:
(1)获取训练集和预测集样本近红外光谱,将训练集近红外光谱矩阵表示为X(n×p),其中n为训练集样本数量,p为光谱数据维度;将预测集近红外光谱矩阵表示为X'(m×p),其中m为预测集样本数量;X(i,j)表示训练集近红外光谱矩阵中坐标位置为(i,j)的吸光度值,X'(i,j)表示预测集近红外光谱矩阵中坐标位置为(i,j)的吸光度值;构造训练集近红外光谱的类属性矩阵Y(n×K),Y(i,j)表示类属性矩阵中坐标位置为(i,j)的类别属性,其中K为校正集样本中类别数;Y矩阵的每一行对应一个训练集样本,若第t号训练集样本的类别编号为z,则Y(t,j=z)=1,
(2)用离散余弦函数ga[b]=cos(bπa/(10*n*m))逼近近红外光谱中余弦信号特征的吸收峰并构造字典中原子ga,每个原子ga为一p维列向量,其中b=0,1,...,p-1,a=0,1,...,10*n*m-1代表频率参量;在10*n*m个原子形成后,使用原子ga组成具有过完备特性的字典矩阵G,字典矩阵G的计算式为:
G(p×(10*n*m))=[g0,g1,g2...g10*n*m-1];
(3)逐一提取训练集近红外光谱矩阵X(n×p)的每个样本光谱,即光谱矩阵X(n×p)的p维行向量,向量记为xc,c=1,2...n;逐一提取预测集近红外光谱矩阵X'(m×p)的每个样本光谱,即光谱矩阵X'(m×p)的p维行向量,向量记为x'd,d=1,2...m;计算每个近红外光谱xc和x'd在字典矩阵G下的稀疏表示系数αc和αd,c=1,2...n,d=1,2...m,其中αc和αd均为10*n*m维行向量;
(4)使用稀疏表示系数αc重构训练集近红外光谱矩阵中的行向量x'c=(G*αc)T,c=1,2...n,其中,上标T为向量或矩阵转置运算;使用稀疏表示系数αd重构预测集近红外光谱矩阵中的行向量x”d=(G*αd)T,d=1,2...m,其中上标T为向量或矩阵转置运算;使用重构后的x'c,c=1,2...n,逐行替换训练集近红外光谱矩阵X(n×p)中的行向量,形成新的训练集近红外光谱矩阵Xnew(n×p);使用重构后的x″d,d=1,2...m逐行替换预测集近红外光谱矩阵X'(m×p)中的行向量,形成新的预测集近红外光谱矩阵X'new(m×p);
(5)利用训练集近红外光谱数据,寻找实施定性判别的q个投影方向wk,wk为p维向量,k=1,2...q,该方向能对光谱类别信息数据进行有效分类;
(6)将新的训练集近红外光谱矩阵Xnew(n×p)和新的预测集近红外光谱矩阵X'new(m×p)向向量wk,k=1,2,3...q,方向进行投影变换Xcal=(Xneww1,Xneww2...Xnewwq)、Xtst=(X'neww1,X'neww2...X'newwq),得到变换后的训练集近红外光谱矩阵和预测集近红外光谱矩阵,分别记作Xcal(n×q)和Xtst(m×q);
(7)将变换后的训练集近红外光谱矩阵Xcal(n×q)和预测集近红外光谱矩阵Xtst(m×q)按行合并为一全体光谱矩阵Xall((n+m)×q),逐一提取全体光谱矩阵Xall((n+m)×q)的每个样本光谱,即光谱矩阵Xall((n+m)×q)的q维行向量,向量记为xii或xjj,ii,jj=1,2...n+m;计算关联矩阵W,Wii,jj表示关联矩阵中坐标位置为(ii,jj)的值,ii,jj=1,2...n+m且Wii,jj=exp(||xii-xjj||2/0.48),其中||||为向量2范数;计算对角矩阵D,Dii,jj表示对角矩阵中坐标位置为(ii,jj)的值,且Dii,jj=0(ii≠jj)ii,jj=1,2...n+m;计算n+m阶图拉普拉斯方阵L,L=D-W;
(8)将预测集样本的定性分析转换成
优化问题,其中;γK为控制空间复杂度参数,γI为控制结构复杂度参数,Hk为希尔伯特空间,xii为光谱矩阵Xall((n+m)×q)的q维行向量,ii=1,2...n+m,xii的前n个样本由训练集近红外光谱组成,y为前n个xii光谱向量对应样本的类别编号向量;f(xii)为xii的分类函数,该函数在输入后m个预测集光谱向量xii时,预测xii光谱对应样本的类别编号;
(9)使用拉格朗日乘子法,计算
优化问题的解,得到ii=1,2...n+m,其中xii为光谱矩阵Xall((n+m)×q)的q维行向量,αii为核表示系数,e为截距,均由拉格朗日乘子法求得,K'(,)为核函数;
(10)逐一提取变换后的预测集近红外光谱矩阵Xtst(m×q)的每个样本光谱,即光谱矩阵Xtst(m×q)的q维行向量,向量记为xu,u=1,2...m;将m个预测集光谱xu代入分类函数中,即可获得预测集光谱的类别编号,完成定性分析。
2.如权利要求1所述的一种具有普适性的近红外光谱定性分析方法,其特征在于:所述的步骤(3)中,xc和x'd在字典矩阵G下的稀疏表示系数αc和αd计算具体过程为:
(3-1)xc在字典矩阵G下的稀疏表示系数αc求解过程等价于优化问题,其中||αc||0表示αc的l0范数,即αc中非零元素的个数,l0范数上限T为稀疏度;初始化残差r=xc、清空索引集和重组字典
(3-2)计算稀疏表示系数αc
(3-2-1):找出残差r与字典中内积最大原子ga所对应的标号其中(,)为向量内积运算,并更新索引集Λ=Λ∪{λ}和重组字典G'=[G',gλ];
(3-2-2):由最小二乘法计算当前xc向量的稀疏表示系数αc=argmin2||xc-G'αc||2并更新残差r=xc-G'αc
(3-2-3):重复(3-2-1)和(3-2-2)T次后停止迭代;
(3-3)x'd在字典矩阵G下的稀疏表示系数αd求解过程等价于优化问题,其中||αd||0表示αd的l0范数,即αd中非零元素的个数;初始化残差r=x'd、清空索引集和重组字典
(3-4)计算稀疏表示系数αd
(3-4-1):找出残差r与字典中内积最大原子ga所对应的标号其中(,)为向量内积运算,并更新索引集Λ=Λ∪{λ}和重组字典G'=[G',gλ];
(3-4-2):由最小二乘法计算当前x'd向量的稀疏表示系数αd=argmin2||x'd-G'αd||2并更新残差r=x'd-G'αd
(3-4-3):重复(3-4-1)和(3-4-2)T次后停止迭代。
3.如权利要求1或2所述的一种具有普适性的近红外光谱定性分析方法,其特征在于:所述的步骤(5)的具体过程为:
(5-1)计算K方阵D'=1/nYTY;定义K行k列矩阵Qk(K×k),k=1,2,3...q,Q1作为Qk的初始矩阵为全1矩阵;q为投影方向个数,同时也代表Qk矩阵更新过程的次数;随机生成一个K阶过渡方阵θ*,计算K阶方阵
(5-2)按照k=1,2,3...q的取值顺序,执行q次两步循环法求解p维投影列向量wk
(5-2-1)利用弹性网眼回归优化求解方法求解优化问题
其中I为p阶单位矩阵,符号“||||1”表示求向量1范数运算;优化求解结果为此次循环的wk
(5-2-2)计算矩阵更新矩阵和矩阵Qk+1=(Qkk),其中符号“:”表示向量或矩阵的联结运算。
4.如权利要求1或2所述的一种具有普适性的近红外光谱定性分析方法,其特征在于:所述的步骤(8)的控制空间复杂度参数γk=0.9,控制结构复杂度参数γI=1。
5.如权利要求1或2所述的一种具有普适性的近红外光谱定性分析方法,其特征在于:所述的步骤(9)-(10)中,核函数为K'(yy,zz)=exp(-||yy-zz||2/2σ2),yy、zz表示核函数的输入参数,σ为平滑度,σ=0.35。
CN201410448988.8A 2014-09-04 2014-09-04 一种具有普适性的近红外光谱定性分析方法 Active CN104237158B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410448988.8A CN104237158B (zh) 2014-09-04 2014-09-04 一种具有普适性的近红外光谱定性分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410448988.8A CN104237158B (zh) 2014-09-04 2014-09-04 一种具有普适性的近红外光谱定性分析方法

Publications (2)

Publication Number Publication Date
CN104237158A CN104237158A (zh) 2014-12-24
CN104237158B true CN104237158B (zh) 2016-07-27

Family

ID=52225665

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410448988.8A Active CN104237158B (zh) 2014-09-04 2014-09-04 一种具有普适性的近红外光谱定性分析方法

Country Status (1)

Country Link
CN (1) CN104237158B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109883990A (zh) * 2019-02-28 2019-06-14 吉林大学 一种药用真菌近红外光谱分析方法

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104568824B (zh) * 2015-01-15 2018-03-02 浙江大学宁波理工学院 基于可见/近红外光谱的虾类新鲜度等级检测方法及装置
CN104851116A (zh) * 2015-05-21 2015-08-19 广东中烟工业有限责任公司 一种近红外光谱数据压缩方法、装置及系统
CN105241823B (zh) * 2015-09-30 2017-10-20 西安交通大学 基于稀疏表示的火电厂烟气光谱定量分析方法
CN106126879B (zh) * 2016-06-07 2018-09-28 中国科学院合肥物质科学研究院 一种基于稀疏表示技术的土壤近红外光谱分析预测方法
CN107064042B (zh) * 2017-03-02 2020-01-10 中国科学院合肥物质科学研究院 红外光谱的定性分析方法
CN108593582A (zh) * 2018-04-12 2018-09-28 山东建筑大学 一种红外光谱快速判定沥青油源的方法
CN109508440B (zh) * 2018-11-28 2023-01-03 武汉轻工大学 光谱分析模型的构建方法、装置、设备及存储介质
CN109991181B (zh) * 2019-03-19 2020-08-18 谱诉光电科技(苏州)有限公司 自适应表面吸收光谱分析方法、系统、存储介质、设备
CN111125629B (zh) * 2019-12-25 2023-04-07 温州大学 一种域自适应的pls回归模型建模方法
CN112016385B (zh) * 2020-07-03 2023-04-28 温州大学 基于空间分解的近红外光谱数据单分类特征抽取方法
CN111815425A (zh) * 2020-07-27 2020-10-23 上海观安信息技术股份有限公司 一种基于实体嵌入的用户信用风险等级判定方法及系统
CN114548282B (zh) * 2022-02-23 2022-10-25 杭州师范大学 基于荧光光谱的分类方法、装置及可读存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2025330C (en) * 1989-09-18 2002-01-22 David W. Osten Characterizing biological matter in a dynamic condition using near infrared spectroscopy
IT1296939B1 (it) * 1997-12-09 1999-08-03 Euron Spa Procedimento per la predizione delle caratteristiche a freddo di gasoli
CN1696660A (zh) * 2005-04-05 2005-11-16 中国药品生物制品检定所 利用近红外光谱分析方法识别药物的方法与装置
CN101915744B (zh) * 2010-07-05 2012-11-07 北京航空航天大学 物质成分含量的近红外光谱无损检测方法及装置
CN103411906B (zh) * 2013-08-23 2015-10-14 中国检验检疫科学研究院 珍珠粉和贝壳粉的近红外光谱定性鉴别方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109883990A (zh) * 2019-02-28 2019-06-14 吉林大学 一种药用真菌近红外光谱分析方法

Also Published As

Publication number Publication date
CN104237158A (zh) 2014-12-24

Similar Documents

Publication Publication Date Title
CN104237158B (zh) 一种具有普适性的近红外光谱定性分析方法
CN102324047B (zh) 基于稀疏核编码skr的高光谱图像地物识别方法
CN104374738B (zh) 一种基于近红外提高鉴别结果的定性分析方法
CN107219188B (zh) 一种基于改进dbn的近红外光谱分析纺织品棉含量的方法
CN102722892B (zh) 基于低秩矩阵分解的sar图像变化检测方法
CN104751169A (zh) 高铁钢轨伤损分类方法
CN102663447B (zh) 基于判别相关分析的跨媒体检索方法
CN101976331B (zh) 一种多组分重叠三维荧光光谱的成分识别方法
CN105678343A (zh) 基于自适应加权组稀疏表达的水电机组噪声异常诊断方法
CN109978872B (zh) 基于白质纤维束的白质微结构特征筛选系统及方法
CN102023137A (zh) 一种白酒鉴别方法
CN105103166A (zh) 用于涂料配制的纹理评估的系统和方法
CN105424641A (zh) 一种原油种类的近红外光谱识别方法
CN106250925A (zh) 一种基于改进的典型相关分析的零样本视频分类方法
CN104155245B (zh) 一种基于模式识别与谱图映射的油品多类性质的检测方法
CN112712108A (zh) 一种拉曼光谱多元数据分析方法
CN105628670A (zh) 一种适于橄榄油掺杂识别的二维相关光谱多尺度建模方法
CN104809471A (zh) 一种基于空间光谱信息的高光谱图像残差融合分类方法
Wang et al. Modeling of oil near-infrared spectroscopy based on similarity and transfer learning algorithm
CN104616022A (zh) 一种近红外光谱的分类方法
CN105930859A (zh) 基于线性流形聚类的雷达信号分选方法
CN107632010A (zh) 一种结合激光诱导击穿光谱对钢铁样品的定量方法
CN113408616B (zh) 基于pca-uve-elm的光谱分类方法
CN110458071A (zh) 一种基于dwt-dfpa-gbdt的光纤振动信号特征提取与分类方法
CN105930788A (zh) 非下采样轮廓波和主成分分析相结合的人脸识别方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant