CN109145887B - 一种基于光谱潜变量混淆判别的阈值分析方法 - Google Patents

一种基于光谱潜变量混淆判别的阈值分析方法 Download PDF

Info

Publication number
CN109145887B
CN109145887B CN201811236503.3A CN201811236503A CN109145887B CN 109145887 B CN109145887 B CN 109145887B CN 201811236503 A CN201811236503 A CN 201811236503A CN 109145887 B CN109145887 B CN 109145887B
Authority
CN
China
Prior art keywords
spectral
sub
discrimination
spectrum
threshold
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811236503.3A
Other languages
English (en)
Other versions
CN109145887A (zh
Inventor
陈华舟
辜洁
蔡肯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guilin University of Technology
Original Assignee
Guilin University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guilin University of Technology filed Critical Guilin University of Technology
Priority to CN201811236503.3A priority Critical patent/CN109145887B/zh
Publication of CN109145887A publication Critical patent/CN109145887A/zh
Application granted granted Critical
Publication of CN109145887B publication Critical patent/CN109145887B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/12Classification; Matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • G06V10/12Details of acquisition arrangements; Constructional details thereof
    • G06V10/14Optical characteristics of the device performing the acquisition or on the illumination arrangements
    • G06V10/143Sensing or illuminating at different wavelengths

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Investigating Or Analysing Materials By Optical Means (AREA)

Abstract

本发明公开了一种基于光谱潜变量混淆判别的阈值分析方法。该方法以PLS回归为基础,将点对点定量预测问题转化为半定性阈值界定问题,设置准确率阈值,结合Logistic判别的训练和验证机制,通过比较先验阈值和预测阈值构造混淆矩阵来衡量模型的判别准确度,以解决定量预测不能容错诠释光谱响应的问题。利用分段光谱潜变量提取技术,分析获取具有较高判别准确度的信息子波段,降低Logistic判别的模型复杂度,为光谱半定性阈值分析建模的优化过程提高效率,以更好地适应在线光谱分析的建模调试和预测判别,所得光谱半定性阈值分析模型可以胜任近红外/红外光谱快速检测,为便携式专用光谱仪的研发和推广应用提供了算法技术支持。

Description

一种基于光谱潜变量混淆判别的阈值分析方法
技术领域
本发明涉及近红外(NIR)光谱分析中的计量学分析方法研究领域,具体涉及建模过程中的一种基于光谱潜变量混淆判别的阈值分析方法。
背景技术
利用某特定频段的光检测待测对象,根据入射光强和出射光强的差异形成光谱响应数据,光谱分析就是将光谱响应数据和常规实验室测定数据进行建模分析,可以定量分析待测对象中的特定物质成分,具有分析速度快、效率高、成本低、实时在线分析等特点,结合计量学方法研究,可以提高定量分析的预测精准度和分析效率。近年来,随着大数据科学、智能技术和化学计量学的发展,NIR光谱的计量分析方法在食品、农业、环境、生物医学等众多领域得到广泛的应用。
偏最小二乘(PLS)回归等常规计量学方法已经逐渐成为NIR定量分析中的标准方法,其定量分析结果为数值型点对点预测,在此基础上建立定量分析模型的分析结果存在一定的预测误差,虽然计量学方法的持续研究能够降低预测误差和提高建模精准度,但由于NIR光谱信号重叠严重,点对点的定量预测结果不能诠释待测成分的光谱响应信息,如果使用便携式光谱仪进行快速在线检测,定量分析模型需要在应用前期进行一定的模型传递调整和建模可行性研究,不利于NIR光谱技术的在线推广应用。因此,为了提高光谱模型的在线适用性,有必要对定量模型进行阈值分析,将点对点定量预测问题转化为半定性阈值界定问题,这其中涉及的关键技术是如何确定目标成分的定量阈值,以及如何有效地衡量目标成分的预测准确度。
由于NIR光谱响应数据的复杂性,常规标准方法PLS回归是利用潜变量技术寻找光谱特征波长,进而定量预测待测成分的含量。基于此,本发明提出一种基于光谱潜变量混淆判别的阈值分析方法(Confusion Discrimination Threshold Analysis,简称CDTA方法)。此方法根据指定阈值范围对PLS的点对点定量预测结果进行划分,根据预测结果是否落在阈值范围内来划分预测准确与否;进一步结合Logistic回归判别模型混淆分析预测准确率,进而在光谱波段性能分析过程中获取指定光谱波段的信息贡献程度,并进一步判别该光谱波段的在线检测适用性。
发明内容
本发明是为近红外光谱定量分析提供一种基于光谱潜变量混淆判别的阈值分析方法(CDTA)。该方法能够针对不同的分析对象,快速地将定量分析的点对点预测转化为半定性的阈值区间判别,以更好地适应在线光谱分析的建模调试和预测判别。
数据准备:利用近红外光谱仪器测量光谱数据,设置测量的光谱波段起止波长和光谱分辨率,以确定输出的连续光谱波段共包含p个波长变量;将n个样本逐次放入光谱仪中进行测量,获得光谱响应数据以矩阵的形式保存,称为光谱矩阵Xn×p;此外,利用常规化学方法测定相同n个样本的指定目标成分的含量,作为光谱分析建模优化的目标数据Yn×1
本发明CDTA方法的具体步骤为:
步骤一,利用经典PLS算法结合留一交叉检验模式,基于全谱段光谱数据Xn×p对待测成分含量进行建模定量计算,光谱定量预测值为
Figure GDA0003421432350000031
步骤二,将经典PLS建模的预测结果转换为定性阈值判别:设置准确率阈值百分比为δ,根据光谱定量分析的精准度要求,δ的取值限定在15%以下;基于此,将每个样本(i,i=1,2,…,n)的预测值
Figure GDA0003421432350000032
和实际值Yi做比较分析,如果
Figure GDA0003421432350000033
则认为光谱定量建模对该样本的含量预测准确,标记PYi=1,否则认为预测不准确,标记PYi=0,所有样本的预测结果构成先验阈值判别向量PY;
步骤三,对光谱矩阵Xn×p进行分段数据处理:将全谱段所包含的p个光谱数据点按照波长维度平均划分为m个子波段,其中m的取值可变,由于p不一定能整除m,于是每个子波段包含波长数量是根据p值对m值求余的数值mod(p,m)来确定的:当mod(p,m)=0时,确定划分为m个子波段;当mod(p,m)≠0时,引入符号
Figure GDA0003421432350000034
来记录小于
Figure GDA0003421432350000035
值的最大整数,再做进一步的判断:当
Figure GDA0003421432350000036
时,将m等分之外剩余的波长合并到第m份,确定划分为m个子波段;当
Figure GDA0003421432350000037
时,将m等分之外剩余的波长归列为第m+1份,确定划分为m+1个子波段,再对m的取值修正为m=m+1。
步骤四,对m个子波段分别进行光谱信息潜变量提取,调试不同的潜变量个数,利用Logistic回归判别函数
Figure GDA0003421432350000041
对全体样本进行初步建模训练,其中x为光谱变量,θ为Logistic函数内部参数,代表曲线变化的快慢。根据Logistic回归模型预测准确度决定信息潜变量的数量,对于m的每一个固定取值,均对子m个子波段进行潜变量提取:
步骤五,训练样本集和验证样本集的划分:训练集和验证集的样本数量比例设为2:1,采用SPXY方法进行划分,划分后识别训练集和验证集中每个样本的先验阈值判别标记;
步骤六,针对步骤四的光谱子波段潜变量信息,结合步骤五对训练样本集和验证样本集划分的先验准确率阈值标记PYi=1或PYi=0进行识别,基于训练样本建立Logistic回归模型,利用梯度下降迭代算法优化模型参数θ,对建模优化计算获得的阈值准确率预测结果构造混淆矩阵进行判别,以确定光谱子波段潜变量信息提取的有效性;
步骤七,利用Logistic优化模型对验证集样本进行预测判别,预测结果向量标记为PYpred,根据PYpred和先验判别向量PY构造混淆矩阵,判断预测准确率。
与现有技术相比,本发明的CDTA方法的优势在于,以标准PLS回归方法为基础,构造定量分析的准确率阈值,将点对点定量预测问题转化为半定性阈值界定问题,进一步结合Logistic回归判别的训练优化和验证机制,通过比较先验判别和预测判别的结果构造混淆矩阵衡量模型的判别准确度,能够解决点对点定量预测不能容错诠释待测成分光谱响应信息的问题,有利于NIR快速检测技术的在线推广应用。同时,利用光谱分段数据处理方法的信息潜变量提取技术,分析获取具有较高判别准确度的光谱信息波段,能够大大降低Logistic判别的模型复杂度,缩短计算时间,能够为光谱半定性阈值分析建模的变量筛选优化过程提高效率。该方法能够针对不同的分析对象,快速地将定量分析的点对点预测转化为半定性的阈值区间判别,以更好地适应在线光谱分析的建模调试和预测判别,所得光谱半定性阈值分析模型具有较高的预测准确度,可以胜任待测对象的近红外/红外光谱快速检测,为小型便携式专用近红外光谱仪器的研发和推广应用提供了算法理论和技术支持。
本发明的CDTA方法针对近红外、红外光谱分析领域而提出,同时可以应用于远红外、紫外等不同频段的光谱分析过程,并有望推广至高光谱图像分析领域。已经在土壤总氮的傅里叶变换NIR光谱定量预测中得到验证。
附图说明
图1为本发明的CDTA的算法流程示意图。
图2为本发明实施例1中CDTA方法应用于土壤样本总氮的FT-NIR判别分析中的光谱子波段和信息潜变量提取结果的三维图示。
图3为本发明实施例1中CDTA方法应用于土壤样本总氮的FT-NIR判别分析中的光谱子波段提取结果的最佳投影图示。
图4为本发明实施例1中CDTA方法应用于土壤样本总氮的FT-NIR判别分析中的信息潜变量提取结果的最佳投影图示。
具体实施方式
以下将利用两个实施例对本发明予以进一步的说明,但并不因此而限制本发明。
实施例1:
土壤样本总氮含量的FT-NIR光谱定量分析。共有135个粉末状固体土壤样品,总氮含量范围是0.056-0.289(wt%),光谱测量设置的连续长波段区域是10000-4000(cm-1),光谱分辨率为8cm-1,每个样本测得共有1512个波长变量的光谱值;光谱建模采用留一交叉检验的模式,利用本发明的CDQT方法将经典的PLS定量问题转换为定性阈值问题,利用潜变量技术结合Logistic混淆判别方法判断光谱预测准确率。
具体步骤为:
步骤一,采集土壤样本135个(n=135),测量近红外光谱数据为X135×1512,包含有1512个波长点(p=1512),对总氮含量进行建模定量计算,光谱定量预测值为
Figure GDA0003421432350000061
步骤二,设置准确率阈值百分比为δ=10%,将每个样本(i,i=1,2,…,135)的预测值
Figure GDA0003421432350000062
和实际值Yi做比较分析,将经典PLS建模的预测结果转换为定性阈值判别;判别结果为:存在98个样本的总氮含量预测值
Figure GDA0003421432350000071
在区间[Yi×(1-10%),Yi×(1+10%)]内,标记为PYi=1,其他37个样本则标记为PYi=0,构成先验阈值判别向量PY。
步骤三,对光谱矩阵X135×1512进行分段数据处理。将全谱段光谱数据按照波长维度划分为20等份(即m=20),每一份(即每一个子波段)包含波长数量为
Figure GDA0003421432350000072
由于p不能整除m而且
Figure GDA0003421432350000073
则确定划分为20个子波段。
步骤四,对20个子波段分别进行光谱信息潜变量提取,调试不同的潜变量个数,利用Logistic回归判别函数对全体样本进行初步建模训练,结果如图2所示,将其最佳结果投影于子波段维度(见图3)和潜变量维度(见图4),根据模型预测准确度选择最优波段为6133-6427cm-1(第13段),该波段的最优潜变量数为22。
步骤五,利用SPXY方法将全体135个土壤样本划分为训练集(90个样本)和验证集(45个样本),训练验证比为2:1。训练集包含先验阈值标记为PY=1的样本65个和标记为PY=0的样本25个;验证集包含标记为PY=1的样本33个和标记为PY=0的样本12个)。
步骤六,利用步骤四的最优光谱子波段6133-6427cm-1和对应贡献最大的22个潜变量,针对步骤五划分的90个训练样本(包括65个标记为PY=1的样本和25个标记为PY=0的样本)建立Logistic回归判别模型,利用梯度下降迭代算法优化模型参数θ,设置迭代次数上限为50次,θ初始化取值为全1向量
Figure GDA0003421432350000074
经过28次迭代后得到θ22×1的优化取值为[max,min,ave,std]=[1.096,0.327,0.856,0.174],对应所获得的样本定性阈值判别准确率结果构造混淆矩阵如表1所示,结果表明,阈值判别准确率为(56+21)/90=85.6%,以确定光谱子波段潜变量信息提取的有效性。
表1训练样本的定性阈值准确率判别混淆矩阵
Figure GDA0003421432350000081
步骤七,利用Logistic优化模型对验证集45个样本进行预测判别,预测结果向量标记为PYpred,根据PYpred和先验判别向量PY构造混淆矩阵如表2所示,判断预测准确率为(29+9)/45=84.4%。
表2验证样本的定性阈值准确率判别混淆矩阵
Figure GDA0003421432350000082

Claims (1)

1.一种基于光谱潜变量混淆判别的阈值分析方法,其特征在于具体步骤为:
步骤一,利用经典PLS算法结合留一交叉检验模式,基于全谱段光谱数据Xn×p对待测成分含量进行建模定量计算,光谱定量预测值为
Figure FDA0003421432340000011
步骤二,将经典PLS建模的预测结果转换为定性阈值判别:设置准确率阈值百分比为δ,根据光谱定量分析的精准度要求,δ的取值限定在15%以下;基于此,将每个样本(i,i=1,2,…,n)的预测值
Figure FDA0003421432340000012
和实际值Yi做比较分析,如果
Figure FDA0003421432340000013
则认为光谱定量建模对该样本的含量预测准确,标记PYi=1,否则认为预测不准确,标记PYi=0,所有样本的预测结果构成先验阈值判别向量PY;
步骤三,对光谱矩阵Xn×p进行分段数据处理:将全谱段所包含的p个光谱数据点按照波长维度平均划分为m个子波段,其中m的取值可变,由于p不一定能整除m,于是每个子波段包含波长数量是根据p值对m值求余的数值mod(p,m)来确定的:当mod(p,m)=0时,确定划分为m个子波段;当mod(p,m)≠0时,引入符号
Figure FDA0003421432340000014
来记录小于
Figure FDA0003421432340000015
值的最大整数,再做进一步的判断:当
Figure FDA0003421432340000016
Figure FDA0003421432340000017
时,将m等分之外剩余的波长合并到第m份,确定划分为m个子波段;当
Figure FDA0003421432340000018
时,将m等分之外剩余的波长归列为第m+1份,确定划分为m+1个子波段,再对m的取值修正为m=m+1;
步骤四,对m个子波段分别进行光谱信息潜变量提取,调试不同的潜变量个数,利用Logistic回归判别函数
Figure FDA0003421432340000019
对全体样本进行初步建模训练,其中x为光谱变量,θ为Logistic函数内部参数,代表曲线变化的快慢,根据Logistic回归模型预测准确度决定信息潜变量的数量,对于m的每一个固定取值,均对子m个子波段进行潜变量提取:
步骤五,训练样本集和验证样本集的划分:训练集和验证集的样本数量比例设为2:1,采用SPXY方法进行划分,划分后识别训练集和验证集中每个样本的先验阈值判别标记;
步骤六,针对步骤四的光谱子波段潜变量信息,结合步骤五对训练样本集和验证样本集划分的先验准确率阈值标记PYi=1或PYi=0进行识别,基于训练样本建立Logistic回归模型,利用梯度下降迭代算法优化模型参数θ,对建模优化计算获得的阈值准确率预测结果构造混淆矩阵进行判别,以确定光谱子波段潜变量信息提取的有效性;
步骤七,利用Logistic优化模型对验证集样本进行预测判别,预测结果向量标记为PYpred,根据PYpred和先验判别向量PY构造混淆矩阵,判断预测准确率。
CN201811236503.3A 2018-10-23 2018-10-23 一种基于光谱潜变量混淆判别的阈值分析方法 Active CN109145887B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811236503.3A CN109145887B (zh) 2018-10-23 2018-10-23 一种基于光谱潜变量混淆判别的阈值分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811236503.3A CN109145887B (zh) 2018-10-23 2018-10-23 一种基于光谱潜变量混淆判别的阈值分析方法

Publications (2)

Publication Number Publication Date
CN109145887A CN109145887A (zh) 2019-01-04
CN109145887B true CN109145887B (zh) 2022-03-22

Family

ID=64809064

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811236503.3A Active CN109145887B (zh) 2018-10-23 2018-10-23 一种基于光谱潜变量混淆判别的阈值分析方法

Country Status (1)

Country Link
CN (1) CN109145887B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116165165B (zh) * 2023-04-25 2023-07-07 四川威斯派克科技有限公司 一种药品原辅料在线实时放行的检测方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105911000A (zh) * 2016-04-15 2016-08-31 华中农业大学 基于特征波段的血斑蛋在线检测方法
CN107271389A (zh) * 2017-06-24 2017-10-20 桂林理工大学 一种基于指标极值的光谱特征变量快速匹配方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002025405A2 (en) * 2000-09-19 2002-03-28 The Regents Of The University Of California Methods for classifying high-dimensional biological data

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105911000A (zh) * 2016-04-15 2016-08-31 华中农业大学 基于特征波段的血斑蛋在线检测方法
CN107271389A (zh) * 2017-06-24 2017-10-20 桂林理工大学 一种基于指标极值的光谱特征变量快速匹配方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
ICP-AES结合SVDV技术应用于饮用水品质检测性能诊断;陈华舟等;《光谱学与光谱分析》;20180531(第05期);摘要 *
Near-infrared imaging for quantitative analysis of active component in counterfeit dimethomorph using partial least squares regression;Y Huang等;《Chemical Papers》;20121130;第66卷(第11期);摘要 *
Qualitative in situ analysis of multiple solid-state forms using;Kogermann K等;《JOURNAL OF PHARMACEUTICAL SCIENCES》;20070731;第96卷(第7期);摘要 *
基于高光谱智能检测及支持向量机分类的香肠品质判定;陈晓东等;《中国食品添加剂》;20180827(第08期);摘要 *

Also Published As

Publication number Publication date
CN109145887A (zh) 2019-01-04

Similar Documents

Publication Publication Date Title
CN110084261B (zh) 用于光谱分类的减少的误报识别
CN102564993B (zh) 一种利用傅里叶变换红外光谱识别大米品种方法及其应用
CN110657890B (zh) 对光谱模型的基于交叉验证的校准
JP6760380B2 (ja) 分析データ処理方法及び分析データ処理装置
CN110687072A (zh) 一种基于光谱相似度的校正集和验证集选择及建模方法
CN111488926B (zh) 一种基于优化模型的土壤有机质测定方法
CN105486655A (zh) 基于红外光谱智能鉴定模型的土壤有机质快速检测方法
CN107958267B (zh) 一种基于光谱线性表示的油品性质预测方法
CN109324013A (zh) 一种利用高斯过程回归模型构建原油性质近红外快速分析的方法
CN108956583A (zh) 用于激光诱导击穿光谱分析的特征谱线自动选择方法
CN109738413A (zh) 基于稀疏非负最小二乘的混合物拉曼光谱定性分析方法
CN115993344A (zh) 一种近红外光谱分析仪质量监测分析系统及方法
CN111999258B (zh) 一种面向光谱基线校正的加权建模局部优化方法
CN115420707A (zh) 一种污水近红外光谱的化学需氧量评估方法及系统
CN109145887B (zh) 一种基于光谱潜变量混淆判别的阈值分析方法
CN114611582A (zh) 一种基于近红外光谱技术分析物质浓度的方法及系统
CN107064042B (zh) 红外光谱的定性分析方法
CN110836878B (zh) 一种卷积插值耦合高斯混合模型快速三维荧光寻峰方法
CN108120694B (zh) 用于晒红烟化学成分分析的多元校正方法及系统
CN107356556A (zh) 一种近红外光谱定量分析的双集成建模方法
CN111896497A (zh) 一种基于预测值的光谱数据修正方法
CN109145403B (zh) 一种基于样本共识的近红外光谱建模方法
CN109829513B (zh) 一种顺序式波长色散x射线荧光光谱智能分析方法
CN104181125A (zh) 快速测定啤酒麦芽中库尔巴哈值的方法
CN111220565B (zh) 一种基于cpls的红外光谱测量仪器标定迁移方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant