CN115656088A - 三七质量等级的近红外定性鉴别方法 - Google Patents

三七质量等级的近红外定性鉴别方法 Download PDF

Info

Publication number
CN115656088A
CN115656088A CN202211264868.3A CN202211264868A CN115656088A CN 115656088 A CN115656088 A CN 115656088A CN 202211264868 A CN202211264868 A CN 202211264868A CN 115656088 A CN115656088 A CN 115656088A
Authority
CN
China
Prior art keywords
pseudo
ginseng
near infrared
quality grade
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211264868.3A
Other languages
English (en)
Inventor
邱昌桂
刘静
周文忠
陈勋
朱叶梅
邹悦
杨盼盼
董胜强
杨晓云
胡建西
卢潇婷
杨飚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yunnan Comtestor Co ltd
Original Assignee
Yunnan Comtestor Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yunnan Comtestor Co ltd filed Critical Yunnan Comtestor Co ltd
Priority to CN202211264868.3A priority Critical patent/CN115656088A/zh
Publication of CN115656088A publication Critical patent/CN115656088A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Investigating Or Analysing Materials By Optical Means (AREA)

Abstract

本发明公开了一种三七质量等级的近红外定性鉴别方法,该方法首先采集不同品质三七样品的近红外光谱,对光谱数据进行一阶导数、S‑G平滑、多元散射校正、矢量归一化的预处理,对预处理后光谱进行t‑分布随机邻域嵌入降维,采用随机森林算法对t‑分布随机邻域嵌入降维后的训练集数据进行训练,获得三七质量等级定性判别模型,待测三七样品采用三七质量等级定性判别模型能实现对三七质量等级(头数)的快速鉴定,且时间短,效果高,准确度高。

Description

三七质量等级的近红外定性鉴别方法
技术领域
本发明涉及三七质量等级的近红外光谱定性鉴别方法,特别是一种近红外定性鉴别特征提取方法。
背景技术
三七作为一种名贵的中药材,具有化瘀止血,活血定痛的功效。不同三七质量等级(头数)的药用价值和市场价值存在差异,另外,云南文山州生产的三七产量大、质量好。由于三七价格昂贵,市场上出现大量以次充好、真假混和的三七粉,因此,实现三七质量等级的快速识别具有较好的推广应用价值。
由于三七粉及其伪次品粉末无法用肉眼直接鉴别,研究人员使用高效液相色谱、气相色谱、高效液相色谱-串联质谱等鉴别方法对三七粉化学成分展开研究,这些化学分析方法虽然能对三七实现准确的定量分析,但成本较高、耗时较长,且容易污染三七样品。
近红外光谱(Near Infrared Spectrum,NIRS)分析是利用近红外光谱区包含的有机分子含氢基团的特征信息,用于被检测样品定性定量分析的一种分析方法,因其具有快速、无污染、低成本等优点被越来越多地应用于药材药物的定性和定量分析。
由于光谱变量之间常会存在一定程度的相关关系,因此,在定性分析中,光谱降维能在一定程度上生成一个维数更低,各维之间相互独立的特征空间,能更好可视化样本的特征分布。传统光谱降维主要是以主成分分析(Principal Component Analysis,PCA)为代表的线性方法,但PCA不能有效地发现非线性结构数据的本质特征且可视化效果较差。
支持向量机(SVM)和随机森林(RF)可实现有标签高维数据的分类识别,是两种被广泛应用的非线性模式识别算法,具有较好的模型稳定性和可解释性。
发明内容
本发明提供了一种三七质量等级的近红外光谱定性鉴别方法,本发明方法通过采集三七样品的近红外光谱,对光谱进行一阶导数、S-G平滑、多元散射校正、矢量归一化预处理,对预处理后光谱进行t-分布随机邻域嵌入降维,建立降维后样品质量等级的随机森林识别模型,实现对三七质量等级(头数)的快速鉴定。
本发明定性分析中,模型性能的评价主要包括模型的分类效果和模型的计算复杂度两个方面,模型分类效果采用准确率和F1分数两个指标来衡量,模型计算复杂度主要通过建模平均消耗时间来体现。
本发明基于t-SNE-RF的三七质量等级的近红外光谱定性鉴别方法如下:
(1)使用近红外光谱仪采集不同质量三七粉的近红外光谱数据,并用Kennard-Stone(K-S)方法划分训练集和测试集;
近红外光谱的采集条件为积分球漫反射附件、波长范围10000-4000cm-1、分辨率8cm-1、扫描次数64次;
(2)分别对训练集和测试集的近红外光谱数据进行光谱预处理,即依次通过一阶导数、S-G平滑、多元散射校正、矢量归一化对近红外光谱数据进行处理;
(3)使用t-分布随机邻域嵌入对预处理后训练集和测试集近红外光谱数据做降维处理;
降维处理步骤如下:
(1)计算高维空间下的联合概率pef
高维空间的光谱两两之间的相似条件概率pe|f:
Figure BDA0003892685020000021
其中n为样本数,xf、xe、xg表示高维空间下第f、e、g个样本的预处理后光谱数据,
Figure BDA0003892685020000022
表示以xf为中心点高斯分布的方差,pe|f表示第f个样本分布在样本e周围的概率,pf|e表示第e个样本分布在样本f周围的概率,高维联合概率pef则表示为:
Figure BDA0003892685020000023
(2)计算低维空间下的联合概率qef
t-SNE算法在低维空间采用的是t分布,低维空间Z的联合概率qef表示为:
Figure BDA0003892685020000024
其中zf、ze、zg、zl表示低维空间下第f、e、g、l个样本的光谱数据;
(3)计算pef和qef之间的KL散度,将其设为目标函数C
Figure BDA0003892685020000025
KL散度用来衡量高维和低维两个空间分布的相似性,t-SNE算法的目标就是对所有样本集合的数据点最小化KL距离;
(4)采用随机森林算法对t-分布随机邻域嵌入降维后的训练集数据进行训练,获得三七质量等级定性判别模型;
(5)将步骤(3)降维处理后的测试集近红外光谱导入步骤(4)的三七质量等级定性判别模型,获得其质量等级;对于待测定三七样品,采集其近红外光谱,按照步骤(2)和步骤(3)的方法进行光谱预处理和降维处理,然后将降维后的数据导入步骤(4)的三七质量等级定性判别模型,获得其质量等级。
本发明优点和技术效果:
本发明采用近红外光谱数据来进行三七质量等级定性鉴别,快速高效、操作简单且无污染无破坏,无需专业人士即可实现,通过多种定性模型的比较,本发明建立的模型有更好的预测效果和更短的预测时间。
附图说明
图1是三七原始光谱曲线图;
图2是光谱预处理后曲线图;
图3是训练集PCA降维后第1、2主成分得分图;
图4是训练集t-SNE降维后第1、2主成分得分图;
图5是PCA-RF模型预测样本分布示意图;
图6是t-SNE-RF模型预测样本分布示意图;
图7是PCA-RF模型预测混淆矩阵示意图;
图8是t-SNE-RF模型预测混淆矩阵示意图。
具体实施方式
下面结合附图以及具体实施方式对本发明作进一步的说明,但本发明的保护范围并不限于此,实施例中方法如无特殊说明的,均为常规方法;
实施例1:本实验的三七样品来自云南文山,采集了三七质量等级为20头、40头、60头、80头和无数头的样品各114个、114个、87个、108和114个,在采集样品的近红外光谱之前,先用旋风式磨粉机将三七磨成三七粉,过60目筛,然后使用美国Thermo仪器公司生产的型号为Antaris II型近红外光谱仪采集三七粉的光谱,采集近红外光谱的条件为:积分球漫反射附件、波长范围10000-4000cm-1、分辨率8cm-1、扫描次数64次,三七样品采集的光谱曲线见图1;
用Kennard-Stone方法将采集的样本按4:1随机划分训练集和测试集,Kennard-Stone方法是基于光谱变量之间的欧氏距离,在特征空间中均匀选取样本,可用于样本集的划分;选取波长范围为9000-4100cm-1的光谱用Python实现一阶求导(D1)、S-G平滑、多元散射校正(MSC)和矢量归一化(VN)处理;其中S-G平滑通过调用scipysignal库中的savgol_filter函数实现,设置多项式阶次为3,窗口框长度为7,训练集预处理后的光谱曲线图如图2所示;
使用t-分布随机邻域嵌入(t-SNE)对预处理后训练集和测试集近红外光谱数据做降维处理;t-SNE基于随机邻域嵌入(Stochastic Neighbor Embedding,SNE)算法改进而来,它是一种利用概率进行降维分析的流形学习方法,它将高维空间中任意两个数据点之间的欧氏距离转换为相似概率,并且利用高维空间数据点和对应低维空间模拟的数据点之间的联合概率代替了SNE中的条件概率,从而解决了SNE算法中不对称的问题。另外,该算法在低维空间中采用t分布,t分布是一种典型的长尾分布,可以使高维度下中低距离的数据点在映射后有一个较大的距离,从而有效解决低维空间中数据点拥挤的问题;
对于n×m维的光谱阵X,n为样本数,m为波长点数,t-SNE的步骤如下:
(1)计算高维空间下的联合概率pef
高维空间的光谱两两之间的相似条件概率pe|f:
Figure BDA0003892685020000041
其中xf、xe、xg表示高维空间下第f、e、g个样本的预处理后光谱数据,
Figure BDA0003892685020000042
表示以xf为中心点高斯分布的方差,pe|f表示第f个样本分布在样本e周围的概率,pf|e表示第e个样本分布在样本f周围的概率;高维联合概率pef则表示为:
Figure BDA0003892685020000043
(2)计算低维空间下的联合概率qef
t-SNE算法在低维空间采用的是t分布,低维空间Z(n×d,d为降维后的维度)的联合概率qef表示为:
Figure BDA0003892685020000044
其中zf、ze、zg、zl表示低维空间下第f、e、g、l个样本的光谱数据;
(3)计算pef和qef之间的KL散度,将其设为目标函数C
Figure BDA0003892685020000045
KL散度用来衡量高维和低维两个空间分布的相似性,t-SNE算法的目标就是对所有样本集合的数据点最小化KL距离;
同时采用主成分分析(PCA)对预处理后训练集和测试集近红外光谱数据做降维处理作为对照;在PCA降维时,通过sklearn封装的PCA方法实现降维后保留90%的数据信息,得到的主成分数为4,PCA降维后样本分布如图3所示;t-SNE则将高维光谱数据降至二维,t-SNE降维后样本分布如图4所示;
在训练集上做五折交叉验证并用网格搜索方法确定模型最优超参数,即RF超参数n_estimators=9,采用随机森林算法对t-分布随机邻域嵌入降维后的训练集数据进行训练,建立随机森林(RF)定性模型,同时采用PCA降维后的光谱数据建立支持向量机(SupportVector Machine SVM)定性模型作为对照,其中SVM超参数C=2.0,gamma=0.01;由于RF每次结果都是随机的,所以重复实验十次,取平均值作为RF最终预测结果,定性模型评价指标采用准确率和F1分数;F1分数是统计学中用来衡量分类模型精确度的一种指标,它同时兼顾了类模型的正确率(NER)和灵敏度(TPR),结果见表2,其中TP表示实际为真预测为真,FP表示实际为假预测为真,TN表示实际为真预测为真,FN表示实际为假预测为假;
二分类混淆矩阵如表1所示:
表1
Figure BDA0003892685020000051
Figure BDA0003892685020000052
Figure BDA0003892685020000053
Figure BDA0003892685020000054
本实施例中F1分数是针对每一个类别建立二分类所得F1分数的平均值,例如20头为一个类别,那剩余40头、60头、80头、无数头的为另一个类别,求得F1分数;再以40头为一个类别,剩余20头、60头、80头、无数头为另一个类别,求得F1分数;重复上述操作,将所求F1分数取平均值得到最终F1分数。
将光谱预处理和降维后的测试集数据导入上述构建的随机森林(RF)定性模型,进一步验证模型的分类效果和计算复杂度,结果见表2、图5-8,表中不做处理为原始采集的近红外光谱;
表2不同预处理及建模方法的测试结果
Figure BDA0003892685020000055
由表2可以看出,RF的建模效果普遍优于SVM,且消耗更少的时间,光谱预处理可以有效消除光谱中噪声和散射影响,提高模型预测性能,光谱降维处理可以进一步利用光谱中有效信息,结合图5-8可以看出,t-SNE降维比PCA可以更有效地找出隐藏在高维数据中的低维结构,可视化效果和模型预测效果更好。本发明提供的t-SNE-RF建模方法取得了最高的预测准确率和F1分数,且平均运行消耗时间最少;本发明方法在实际中能具有一定实用价值。
以上的具体实施例对本发明的目的、技术方案和有益效果做了进一步详细说明,但以上所述仅为本发明的具体实施例而已,并非对本发明的范围进行限定,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (3)

1.一种三七质量等级的近红外定性鉴别方法,其特征在于,步骤如下:
(1)使用近红外光谱仪采集不同质量三七粉的近红外光谱数据,并用Kennard-Stone方法划分训练集和测试集;
(2)分别对训练集和测试集的近红外光谱数据进行光谱预处理,即依次通过一阶求导、S-G平滑、多元散射校正、矢量归一化对近红外光谱数据进行处理;
(3)使用t-分布随机邻域嵌入对预处理后训练集和测试集近红外光谱数据做降维处理;
(4)采用随机森林算法对t-分布随机邻域嵌入降维后的训练集数据进行训练,获得三七质量等级定性判别模型;
(5)将步骤(3)降维处理后的测试集近红外光谱导入步骤(4)的三七质量等级定性判别模型,获得其质量等级;对于待测定三七样品,采集其近红外光谱,按照步骤(2)和步骤(3)的方法进行光谱预处理和降维处理,然后将降维后的数据导入步骤(4)的三七质量等级定性判别模型,获得其质量等级。
2.根据权利要求1所述的三七质量等级的近红外定性鉴别方法,其特征在于:近红外光谱的采集条件为积分球漫反射附件、波长范围10000-4000cm-1、分辨率8cm-1、扫描次数64次。
3.根据权利要求1所述的三七质量等级的近红外定性鉴别方法,其特征在于,降维处理步骤如下:
(1)计算高维空间下的联合概率pef
高维空间的光谱两两之间的相似条件概率pe|f:
Figure FDA0003892685010000011
其中n为样本数,xf、xe、xg表示高维空间下第f、e、g个样本的预处理后光谱数据,
Figure FDA0003892685010000012
表示以xf为中心点高斯分布的方差,pe|f表示第f个样本分布在样本e周围的概率,pf|e表示第e个样本分布在样本f周围的概率,高维联合概率pef则表示为:
Figure FDA0003892685010000013
(2)计算低维空间下的联合概率qef
t-SNE算法在低维空间采用的是t分布,低维空间Z的联合概率qef表示为:
Figure FDA0003892685010000014
其中zf、ze、zg、zl表示低维空间下第f、e、g、l个样本的光谱数据;
(3)计算pef和qef之间的KL散度,将其设为目标函数C
Figure FDA0003892685010000021
KL散度用来衡量高维和低维两个空间分布的相似性,t-SNE算法的目标就是对所有样本集合的数据点最小化KL距离。
CN202211264868.3A 2022-10-17 2022-10-17 三七质量等级的近红外定性鉴别方法 Pending CN115656088A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211264868.3A CN115656088A (zh) 2022-10-17 2022-10-17 三七质量等级的近红外定性鉴别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211264868.3A CN115656088A (zh) 2022-10-17 2022-10-17 三七质量等级的近红外定性鉴别方法

Publications (1)

Publication Number Publication Date
CN115656088A true CN115656088A (zh) 2023-01-31

Family

ID=84987043

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211264868.3A Pending CN115656088A (zh) 2022-10-17 2022-10-17 三七质量等级的近红外定性鉴别方法

Country Status (1)

Country Link
CN (1) CN115656088A (zh)

Similar Documents

Publication Publication Date Title
CN107677647B (zh) 基于主成分分析和bp神经网络的中药材产地鉴别方法
WO2018121122A1 (zh) 用于物品查验的拉曼光谱检测方法和电子设备
CN110243806B (zh) 拉曼光谱下基于相似度的混合物组分识别方法
CN108489929B (zh) 人参、三七和西洋参三种法定基源人参属多糖的鉴别方法
CN110068544B (zh) 物质识别网络模型训练方法及太赫兹光谱物质识别方法
CN105528580B (zh) 一种基于吸收峰特征的高光谱曲线匹配方法
CN104374739A (zh) 一种基于近红外定性分析的种子品种真实性鉴别方法
CN108844917A (zh) 一种基于显著性假设检验和偏最小二乘法的近红外光谱数据分析方法
CN106408012A (zh) 一种模糊鉴别聚类的茶叶红外光谱分类方法
CN107037001A (zh) 一种基于近红外光谱技术的玉米单倍体籽粒鉴别方法
CN110749565A (zh) 一种快速鉴别普洱茶存储年份的方法
CN109472287A (zh) 基于二维Gabor小波的三维荧光光谱特征提取方法
CN104020128A (zh) 一种快速鉴别蜂胶胶源的方法
CN107220625A (zh) 一种对样品的libs光谱自动识别分类方法
CN113138181B (zh) 一种对清香型原酒品质分级的方法
CN111426657B (zh) 一种溶解性有机物三维荧光谱图的识别比对方法
CN111523587A (zh) 一种基于机器学习的木本植物物种光谱识别方法
CN117949429A (zh) 基于拉曼光谱和多模态混合式模型的杏仁产地鉴别方法
Rajesh et al. Studies on identification of medicinal plant variety based on NIR spectroscopy using plant leaves
CN117874609A (zh) 快速鉴别天然产物是否为特定产地的通用快速方法
CN105067558B (zh) 近红外定性鉴别特征提取方法
CN115656088A (zh) 三七质量等级的近红外定性鉴别方法
CN116026808A (zh) 一种拉曼光谱判别方法和系统
CN114062306B (zh) 一种近红外光谱数据分段预处理方法
KR20200133083A (ko) 측정 환경 조건에 강인한 라만 스펙트럼 판별 방법 및 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination