CN108844917A - 一种基于显著性假设检验和偏最小二乘法的近红外光谱数据分析方法 - Google Patents

一种基于显著性假设检验和偏最小二乘法的近红外光谱数据分析方法 Download PDF

Info

Publication number
CN108844917A
CN108844917A CN201811147588.8A CN201811147588A CN108844917A CN 108844917 A CN108844917 A CN 108844917A CN 201811147588 A CN201811147588 A CN 201811147588A CN 108844917 A CN108844917 A CN 108844917A
Authority
CN
China
Prior art keywords
data
near infrared
wavelength
class
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811147588.8A
Other languages
English (en)
Inventor
王丽丽
焦德晓
房常峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN201811147588.8A priority Critical patent/CN108844917A/zh
Publication of CN108844917A publication Critical patent/CN108844917A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/17Systems in which incident light is modified in accordance with the properties of the material investigated
    • G01N21/25Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
    • G01N21/31Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry
    • G01N21/35Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light
    • G01N21/359Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light using near infrared light

Abstract

本发明涉及一种基于显著性假设检验和偏最小二乘法的近红外光谱数据分析方法。本发明所述近红外光谱数据分析方法,显著性假设检验采用显著性参数衡量数据的重要性,利用不同的分数提取特征波段信息,得到的特征子集维数较小,减少数据处理量,有效提取同种物质近红外光谱明显差异的特征波段,实现对光谱数据的有效特征快速提取;结合偏最小二乘定性回归模型提高了识别正确率。

Description

一种基于显著性假设检验和偏最小二乘法的近红外光谱数据 分析方法
技术领域
本发明涉及一种基于显著性假设检验和偏最小二乘法的近红外光谱数据分析方法,属于近红外光谱数据分析处理的技术领域。
背景技术
近红外光谱分析技术是一种发展速度很快的成分快速分析技术,具有分析速度快、分析效率高、分析成本低、测试重现性好、无损测量、便于实现在线分析的特点,被广泛应用在农业、食品、医药等领域。
由于不同的物质对近红外光的吸收程度不一样,因此利用近红外光谱进行物质识别,选出特征差异比较明显的特征波长,建立校正模型。目前常用的特征波段选择算法复杂计算量大、速度慢、识别率低。
主成分分析-马氏距离法,首先利用主成分分析法将样本的光谱数据降维,得到主成分载荷矩阵和得分矩阵,然后利用得分向量计算马氏距离,最后结合设定阈值将异常样本剔除。张灵帅等人利用近红外光谱的主成分分析-马氏距离聚类判别卷烟的真伪,结果前4个的主成分贡献率已达到了98.46%,说明4个主成分就可以代表原始光谱主要的信息;120个样本随机抽取100个建立4个主成分的定性判别模型,其相关系数达到了0.95;对20个未知样本做预测,准确率达到100%。
显著性差异处理,是一种特征选择的方法。该方法是计算每组数据与其他组数据的显著性分数,然后逐个与设定好的显著性分数做比较,如果大于设定好的显著性分数,说明差异比较大,可作为分类的重要依据。王东利用显著性假设检验方法有效的对癌症基因进行特征选择,并且利用特征数据进行建模,分类的精度达到了99.02%。
发明内容
针对现有技术的不足,本发明提供一种基于显著性假设检验和偏最小二乘法的近红外光谱数据分析方法。
本发明的技术方案为:
一种基于显著性假设检验和偏最小二乘法的近红外光谱数据分析方法,包括以下步骤:
(1)采集样本的近红外光谱数据,并进行样本预处理;所述样本预处理的方法为主成分分析-马氏距离法;
(2)将样本预处理后的数据进行显著性差异处理;具体步骤为:设波长对应属性吸光度有n个类C1,C2,…Ci…,Cn;n个类对应的属性均值分别是每一类的显著分数为zl;设定zl的阈值;如果显著分数zl超过设定的阈值,判定相应的波段差异较大,相应的波长数据为重要数据,并且保留该波长数据;
显著性差异参数zl采用以下公式:
其中:l表示波长,是l波长Cj类吸光度的平均值;是l波长Ci类吸光度的平均值;sli是l波长Ci类吸光度的方差;ni是Ci类样本数;slj是l波长Cj类吸光度的方差;nj是Cj类样本数;显著性差异处理的有益效果是,放大有用波段,减少光谱数据,提高建模速度和分类准确率。
(3)将显著性差异处理后的数据按比例分为训练集和预测集;
(4)将训练集和预测集带入偏最小二乘定性回归模型获得预测结果。其建模思想是,选出相关性较大的自变量和因变量的主成分,建立回归模型,得出残差向量,逐次迭代,最后根据交叉有效性判定主成分数,停止迭代,建立回归模型。
根据本发明优选的,所述步骤(1)中,采集样本的近红外光谱数据的方法是:选取1300~2300nm的波长范围,间隔为6.4nm,每条光谱曲线取10次测试平均值;多次测量样品不同位置的反射光谱,并取平均后,作为建模的样本数据。
本发明的有益效果为:
1.本发明所述近红外光谱数据分析方法,显著性假设检验采用显著性参数衡量数据的重要性,利用不同的分数提取特征波段信息,得到的特征子集维数较小,减少数据处理量,有效提取同种物质近红外光谱明显差异的特征波段,实现对光谱数据的有效特征快速提取;结合偏最小二乘定性回归模型提高了识别正确率;
2.本发明所述近红外光谱数据分析方法,采用显著性假设检验计算每组每个波长数据与其他组对应波长数据的显著分数,之后与设定的显著分数做比较,得到差异比较大的波长的数据,选取了有用的波长,降低其他不重要的波长的扰;利用显著性假设方法算出的有用波段,降低了其他无用波段对建模的干扰,进而提高了建模速度和识别准确率;
3.本发明所述近红外光谱数据分析方法在农业和食品品种、产地溯源、真伪等方面具有良好的应用前景。
附图说明
图1是本发明所述近红外光谱数据分析方法的流程图;
图2是实施例1采用的茶叶样本的近红外光谱图;
图3实施例1分析得到的茶叶近红外光谱的特征光谱波段;
图4为实施例1得到的日照绿茶的识别结果;
图5为实施例1得到的崂山绿茶的识别结果;
其中,图3中的圆圈表示选出的特征波段。
具体实施方式
下面结合实施例和说明书附图对本发明做进一步说明,但不限于此。
实施例1
利用基于显著性假设检验和偏最小二乘法的近红外光谱数据分析方法进行茶叶的特征光谱波段提取,进一步利用近红外光谱进行茶叶产地溯源。包括以下步骤:
(1)采集样本的近红外光谱数据,并进行样本预处理;所述样本预处理的方法为主成分分析-马氏距离法;
本实施例中,共采集了200个茶叶样本的近红外光谱数据,其中包括100个崂山茶叶、100个日照茶叶。
采集样本的近红外光谱数据的方法是:选取1300~2300nm的波长范围,间隔为6.4nm;每条光谱曲线取10次测试平均值;三次测量样品不同位置的反射光谱,并取平均后,作为建模的样本数据。其中,样品的不同位置为随机选取。本实施例利用型号为AvaSpec-NIR256/2.5TEC的近红外光谱仪共采集156个数据点。
(2)将样本预处理后的数据进行显著性差异处理;具体步骤为:设波长对应属性吸光度有n个类C1,C2,…Ci…,Cn;n个类对应的属性均值分别是每一类的显著分数为zl;设定zl的阈值;如果显著分数zl超过设定的阈值,判定相应的波段差异较大,相应的波长数据为重要数据,并且保留该波长数据;
显著性差异参数zl采用以下公式:
其中:l表示波长,是l波长Cj类吸光度的平均值;是l波长Ci类吸光度的平均值;sli是l波长Ci类吸光度的方差;ni是Ci类样本数;slj是l波长Cj类吸光度的方差;nj是Cj类样本数;显著性差异处理的有益效果是,放大有用波段,减少光谱数据,提高建模速度和分类准确率。
(3)将显著性差异处理后的数据按7:3的比例分为训练集和预测集;本实施例中,140个样本划为训练集,60个样本划为预测集。
(4)将训练集和预测集带入偏最小二乘定性回归模型获得预测结果。其建模思想是,选出相关性较大的自变量和因变量的主成分,建立回归模型,得出残差向量,逐次迭代,最后根据交叉有效性判定主成分数,停止迭代,建立回归模型。
分析结果如图3-图5所示;利用上述方法得到的训练集的识别率是100%,预测集的识别率是94.64%;而预处理后直接建立偏最小二乘回归模型的训练集的识别率是100%,预测集的识别率是89.29%。相比较而言,利用本发明所述方法对茶叶产地预测集的识别率有明显提高。
本实施例通过对近红外光谱数据进行样本预处理,再进行光谱显著性假设检验,由于茶叶的光谱曲线大致相同,通过显著性参数比较出光谱差异较大的波段,得到特征光谱波段,从而快速建立近红外光谱校正模型,并且提高产地识别率。

Claims (2)

1.一种基于显著性假设检验和偏最小二乘法的近红外光谱数据分析方法,其特征在于,包括以下步骤:
(1)采集样本的近红外光谱数据,并进行样本预处理;所述样本预处理的方法为主成分分析-马氏距离法;
(2)将样本预处理后的数据进行显著性差异处理;具体步骤为:设波长对应属性吸光度有n个类C1,C2,…Ci…,Cn;n个类对应的属性均值分别是每一类的显著分数为zl;设定zl的阈值;如果显著分数zl超过设定的阈值,判定相应的波段差异较大,相应的波长数据为重要数据,并且保留该波长数据;
显著性差异参数zl采用以下公式:
其中:l表示波长,是l波长Cj类吸光度的平均值;是l波长Ci类吸光度的平均值;sli是l波长Ci类吸光度的方差;ni是Ci类样本数;slj是l波长Cj类吸光度的方差;nj是Cj类样本数;
(3)将显著性差异处理后的数据按比例分为训练集和预测集;
(4)将训练集和预测集带入偏最小二乘定性回归模型获得预测结果。
2.根据权利要求1所述的基于显著性假设检验和偏最小二乘法的近红外光谱数据分析方法,其特征在于,所述步骤(1)中,采集样本的近红外光谱数据的方法是:选取1300~2300nm的波长范围,间隔为6.4nm,每条光谱曲线取10次测试平均值;多次测量样品不同位置的反射光谱,并取平均后,作为建模的样本数据。
CN201811147588.8A 2018-09-29 2018-09-29 一种基于显著性假设检验和偏最小二乘法的近红外光谱数据分析方法 Pending CN108844917A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811147588.8A CN108844917A (zh) 2018-09-29 2018-09-29 一种基于显著性假设检验和偏最小二乘法的近红外光谱数据分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811147588.8A CN108844917A (zh) 2018-09-29 2018-09-29 一种基于显著性假设检验和偏最小二乘法的近红外光谱数据分析方法

Publications (1)

Publication Number Publication Date
CN108844917A true CN108844917A (zh) 2018-11-20

Family

ID=64187998

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811147588.8A Pending CN108844917A (zh) 2018-09-29 2018-09-29 一种基于显著性假设检验和偏最小二乘法的近红外光谱数据分析方法

Country Status (1)

Country Link
CN (1) CN108844917A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109916850A (zh) * 2019-04-04 2019-06-21 新疆大学 基于近红外光谱显著性分析检测样品理化性质的方法
CN111879724A (zh) * 2020-08-05 2020-11-03 中国工程物理研究院流体物理研究所 基于近红外光谱成像的人皮面具识别方法及系统
CN113310932A (zh) * 2021-05-10 2021-08-27 华中农业大学 巴氏杀菌水牛鲜奶中掺加高温灭菌奶的快速鉴别方法
CN113310936A (zh) * 2021-05-10 2021-08-27 华中农业大学 四种高温灭菌商品牛奶的快速鉴定方法
CN113310930A (zh) * 2021-05-10 2021-08-27 华中农业大学 高温灭菌奶、巴氏杀菌奶和掺加高温灭菌奶的巴氏杀菌奶的光谱鉴定方法
CN113310928A (zh) * 2021-05-10 2021-08-27 华中农业大学 保质期内和过期高温灭菌牛奶的快速鉴定方法
CN113310937A (zh) * 2021-05-10 2021-08-27 华中农业大学 高温灭菌牛奶、巴氏杀菌奶牛鲜奶及奶粉复原牛奶的快速鉴定方法
CN113310934A (zh) * 2021-05-10 2021-08-27 华中农业大学 骆驼奶中掺加奶牛奶及其掺加比例的快速鉴定方法
CN113390824A (zh) * 2021-07-09 2021-09-14 河北建筑工程学院 基于近红外光谱的物质类别识别方法及终端设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1120723A2 (en) * 2000-01-26 2001-08-01 Pfizer Products Inc. Identification of the cytochrome P-450 inhibitory potency of neurokinin-1 receptor antagonists and associated pharmacophore models and screening methods
WO2012128435A1 (en) * 2011-03-22 2012-09-27 Industry Academic Cooperation Foundation Keimyung University Significance parameter extraction method and its clinical decision support system for differential diagnosis of abdominal diseases based on entropy rough approximation technology
CN103063605A (zh) * 2013-01-04 2013-04-24 云南植物药业有限公司 用傅立叶变换近红外光谱仪快速测定三七提取物及其制剂中五种皂苷含量的方法
CN103487537A (zh) * 2013-07-30 2014-01-01 中国标准化研究院 一种基于遗传算法优化西湖龙井茶产地检测方法
CN103822894A (zh) * 2014-02-11 2014-05-28 广东恒兴饲料实业股份有限公司 一种基于近红外光谱法快速检测鱼粉中牛磺酸含量的方法
CN105334186A (zh) * 2015-12-10 2016-02-17 山东大学 一种近红外光谱分析方法
CN105352913A (zh) * 2015-11-25 2016-02-24 浙江百山祖生物科技有限公司 一种近红外光谱检测灵芝提取物多糖含量的方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1120723A2 (en) * 2000-01-26 2001-08-01 Pfizer Products Inc. Identification of the cytochrome P-450 inhibitory potency of neurokinin-1 receptor antagonists and associated pharmacophore models and screening methods
WO2012128435A1 (en) * 2011-03-22 2012-09-27 Industry Academic Cooperation Foundation Keimyung University Significance parameter extraction method and its clinical decision support system for differential diagnosis of abdominal diseases based on entropy rough approximation technology
CN103063605A (zh) * 2013-01-04 2013-04-24 云南植物药业有限公司 用傅立叶变换近红外光谱仪快速测定三七提取物及其制剂中五种皂苷含量的方法
CN103487537A (zh) * 2013-07-30 2014-01-01 中国标准化研究院 一种基于遗传算法优化西湖龙井茶产地检测方法
CN103822894A (zh) * 2014-02-11 2014-05-28 广东恒兴饲料实业股份有限公司 一种基于近红外光谱法快速检测鱼粉中牛磺酸含量的方法
CN105352913A (zh) * 2015-11-25 2016-02-24 浙江百山祖生物科技有限公司 一种近红外光谱检测灵芝提取物多糖含量的方法
CN105334186A (zh) * 2015-12-10 2016-02-17 山东大学 一种近红外光谱分析方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
ZHUANG XINGANG 等: ""Identification of green tea origins by near-infrared (NIR) spectroscopy and different regression tools"", 《SCI CHINA TECH SCI》 *
ZHUANG XINGANG 等: ""Rapid determination of production date for green tea by near-infrared spectroscopy"", 《JOURNAL OF MEASUREMENT SCIENCE AND INSTRUMENTATION 》 *
张连蓬 等: "《高光谱遥感影像特征提取与分类》", 31 December 2012 *
王东: ""显著性假设检验的特征选择方法"", 《计算机产品与流通》 *
王丽丽 等: ""化学计量学方法在近红外光谱分析中的应用研究"", 《中国化学会第30届学术年会论文集》 *
陈斌 等: ""PCA结合马氏距离法剔除近红外异常样品"", 《江苏大学学报 自然科学版》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109916850A (zh) * 2019-04-04 2019-06-21 新疆大学 基于近红外光谱显著性分析检测样品理化性质的方法
CN111879724A (zh) * 2020-08-05 2020-11-03 中国工程物理研究院流体物理研究所 基于近红外光谱成像的人皮面具识别方法及系统
CN113310932A (zh) * 2021-05-10 2021-08-27 华中农业大学 巴氏杀菌水牛鲜奶中掺加高温灭菌奶的快速鉴别方法
CN113310936A (zh) * 2021-05-10 2021-08-27 华中农业大学 四种高温灭菌商品牛奶的快速鉴定方法
CN113310930A (zh) * 2021-05-10 2021-08-27 华中农业大学 高温灭菌奶、巴氏杀菌奶和掺加高温灭菌奶的巴氏杀菌奶的光谱鉴定方法
CN113310928A (zh) * 2021-05-10 2021-08-27 华中农业大学 保质期内和过期高温灭菌牛奶的快速鉴定方法
CN113310937A (zh) * 2021-05-10 2021-08-27 华中农业大学 高温灭菌牛奶、巴氏杀菌奶牛鲜奶及奶粉复原牛奶的快速鉴定方法
CN113310934A (zh) * 2021-05-10 2021-08-27 华中农业大学 骆驼奶中掺加奶牛奶及其掺加比例的快速鉴定方法
CN113390824A (zh) * 2021-07-09 2021-09-14 河北建筑工程学院 基于近红外光谱的物质类别识别方法及终端设备

Similar Documents

Publication Publication Date Title
CN108844917A (zh) 一种基于显著性假设检验和偏最小二乘法的近红外光谱数据分析方法
WO2016150130A1 (zh) 一种基于近红外光谱的杂交种纯度鉴别方法
CN108872132A (zh) 一种利用近红外光谱判别茶鲜叶品种的方法
CN106568738A (zh) 一种近红外光谱快速判定不同质量等级茶鲜叶的方法
CN103487411A (zh) 一种随机森林算法结合激光诱导击穿光谱识别钢材牌号的方法
CN104376325A (zh) 一种近红外定性分析模型的建立方法
CN104374739A (zh) 一种基于近红外定性分析的种子品种真实性鉴别方法
CN106596513A (zh) 一种基于激光诱导击穿光谱茶叶品种识别方法
CN110749565A (zh) 一种快速鉴别普洱茶存储年份的方法
CN115905881B (zh) 黄珍珠分类的方法以及装置、电子设备、存储介质
CN105717066A (zh) 一种基于加权相关系数的近红外光谱识别模型
CN103411912A (zh) 一种利用THz-TDS结合模糊规则专家系统鉴定中草药的方法
Cui et al. Identification of maize seed varieties based on near infrared reflectance spectroscopy and chemometrics
CN114112983B (zh) 一种基于Python数据融合的藏药全缘叶绿绒蒿产地判别方法
CN107976417B (zh) 一种基于红外光谱的原油种类识别方法
CN109358022A (zh) 一种快速判别烟用爆珠类型的方法
CN112485238B (zh) 一种基于拉曼光谱技术鉴别姜黄精油产地的方法
CN109685099B (zh) 一种光谱波段优选模糊聚类的苹果品种辨别方法
CN111929285A (zh) 一种激光诱导荧光红酒掺杂酒精的光谱识别方法
CN106442400B (zh) 一种近红外光谱快速判定不同土壤类型茶鲜叶的方法
CN102880861A (zh) 基于线性预测倒谱系数的高光谱图像分类方法
Bin et al. Research on anthracnose grade of Camellia oleifera based on the combined LIBS and THz technology
CN113252641B (zh) 一种拉曼光谱下基于残差分析的物质鉴别方法
CN106568740A (zh) 一种近红外光谱快速判定茶鲜叶品种的方法
CN112782148B (zh) 阿拉比卡和罗伯斯塔两种咖啡豆的快速鉴别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20181120