CN105740898A - 一种利用光谱特征向量结合主成分分析建立分类模型的方法 - Google Patents

一种利用光谱特征向量结合主成分分析建立分类模型的方法 Download PDF

Info

Publication number
CN105740898A
CN105740898A CN201610064682.1A CN201610064682A CN105740898A CN 105740898 A CN105740898 A CN 105740898A CN 201610064682 A CN201610064682 A CN 201610064682A CN 105740898 A CN105740898 A CN 105740898A
Authority
CN
China
Prior art keywords
principal component
production
component analysis
model
place
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610064682.1A
Other languages
English (en)
Inventor
徐雪芹
李小兰
刘鸿
黄善松
贾海江
周芸
周艳枚
潘玉灵
吴晶晶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Tobacco Guangxi Industrial Co Ltd
Original Assignee
China Tobacco Guangxi Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Tobacco Guangxi Industrial Co Ltd filed Critical China Tobacco Guangxi Industrial Co Ltd
Priority to CN201610064682.1A priority Critical patent/CN105740898A/zh
Publication of CN105740898A publication Critical patent/CN105740898A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Investigating Or Analysing Materials By Optical Means (AREA)

Abstract

本发明提供一种利用光谱特征向量结合主成分分析建立分类模型的方法,首先利用近红外光谱仪将同产地的烟叶光谱扫描提取特征向量,然后对光谱按行排列,得数据矩阵,对其进行主成分分析,通过特征向量计算出主成分相关数据,确定识别线,建立分类模型。本发明能够实现准确、快速的对烟叶产地进行鉴别,与传统的仪器分析和评吸方法相比,该方法操作简单、易于操作,环保无污染,具有成本低,效率高的显著优点。

Description

一种利用光谱特征向量结合主成分分析建立分类模型的方法
技术领域
本发明属于近红外无损检测技术领域,具体涉及一种利用光谱特征向量结合主成分分析建立定性分析模型的方法,用于烟叶产地的区分识别。
背景技术
近红外(NearInfrared),简称NIR,谱区是介于可见光(VIS)和中红外(MIR)谱区之间的电磁波,是人们认识最早的非可见光区域。根据美国实验和材料协会(ASTM)的规定,其波长范围为780~2526mn。分子在NIR区的吸收主要由C-H、0-H、N-H和C=0等基团的合频吸收与倍频吸收组成,此区的吸收强度低、谱带复杂、重叠严重,无法使用经典定性、定量的方法,必须借助化学计量学中的多元统计、曲线拟合、聚类分析等方法进行定标建模,并结合合适的模型实现快速多组分分析。NIR光谱技术具有分析过程高效、绿色、环保的现代分析特征,因而成为近年来发展较快、引人注目的光谱分析技术之一。
烟叶是卷烟生产的基础,烟叶内在品质的好坏直接影响卷烟产品的质量由于气候条件土壤类型农业措施和水肥状况等因素能显著改变烟叶的化学组成,从而影响烟叶的燃吸品质,形成具有不同产地吸味特征的烟叶在叶组配方中充分利用各地烟叶的吸味特征,突出卷烟品牌风格特征和风味品质,但迄今为止,很难做到对各地烟叶的吸味特征进行定量分析和描述,卷烟生产企业也很难对烟叶供应商提供的烟叶原料产地进行有效的鉴定和确认,因此,以次充好,以劣充优和混淆产地的烟叶时有出现,造成卷烟企业产品质量的不稳定和直接的经济损失。以此,迫切需要一种快速、高效、简便的分析方法用于烟叶产地的区分与控制。
发明内容
发明目的:提供一种能够快速、简便、准确区分烟叶产地的方法。本发明操作简单、易于操作,环保无污染。
本发明的技术方案是提供一种不同产地烟叶分类的测定方法,利用近红外光谱仪将同产地的烟叶光谱进行扫描,然后对每个光谱的特征向量进行提取,然后对所有同产地的近红外光谱按行排列,获得数据矩阵,对矩阵进行主成分分析,通过特征向量计算出主成分,通过计算相关数据,确定识别线,建立分类模型。具体包括以下步骤:
(1)光谱扫描:对待测样品进行近红外光谱扫描,提取光谱的特征向量;
(2)建立数据矩阵:将n个同一产地的烟叶的近红外光谱按行排列,获得数据矩阵D;
(3)主成分分析:对D进行主成分分析,通过特征向量计算出主成分,然后保留第一主成分P1和第三主成分P3;
(4)计算P1和P3的均值,以此均值作为“某”产地烟叶的模型区分中心;
(5)计算所有“某”产地烟叶到此中心的距离di(i=1,2,…,n)。计算所有距离di的均值和标准偏差s,以为“某”产地烟叶的识别线。
应用该模型对未知品牌产品进行识别时,按照以下步骤进行:
(1)扫描并获得该样品的近红外光谱;
(2)通过建模步骤2中的特征向量计算出该产品的第一主成分PC1和第三主成分PC3;
(3)计算PC1和PC3到“某”产地烟叶中心的距离d未知,根据距离判断属地,若则可判定该未知产品属于该产地,否则判定其不属于该产地。
根据主成分分析,所有同产地光谱到中心的距离d未知应小于区间值;加权相关系数wcc均大于该类产品的识别区间为
通过扫描待分析样品的光谱,计算第一主成分和第三主成分到所建模型中该产地烟叶中心的距离d未知,若该距离落入识别区间,可判定其为同产地烟叶。
该模型以一系列同产地的近红外光谱为基础,通过主成分分析建立产地区分模型。
本发明提供的一种利用光谱特征向量结合主成分分析建立分类模型的方法,包括扫描前步骤将样品粉碎为40-80目。所属样品为烟丝、烟梗/或烟末。
本发明的有益效果如下:
1、本发明利用近红外光谱特征向量结合主成分分析对不同产地的烟叶特征进行描述,建立不同产地烟叶的识别模式。
2、本发明实验过程不使用有毒有害化学品,简便、快捷、对样品无破坏性、对环境无污染。
3、本发明具有操作简便、快速、准确、成本低、效率高的优点。
附图说明
图1是本发明的建模流程图;
图2是烟叶的近红外扫描原始谱图;
图3是YN产地烟叶近红外光谱建立的识别模型;
图4是GX、YN两产地分类识别模型;
具体实施方式
下面结合附图对本发明的具体实施方式作进一步详细说明。
本实验的建模流程如下:首先进行实验设计,根据设计进行样品采集,对采集到的有代表性的样品进行预处理,用近红外光谱仪进行光谱采集,对采集的光谱参数进行优化,光谱预处理方法采用Norris导数平滑滤波、微分处理、多元散射校正、标准归一化等方法;波段选择利用偏最小二乘法、遗传算法、无信息变量消除等方式对光谱波段进行优化。光谱优化后建立定性分析模型,按照提取光谱特征向量、建立数据矩阵、进行主成分分析、计算光谱相关距离等步骤建立近红外分类模型,模型建立后,对待测样品进行光谱扫描,应用模型进行分析。见图1。
实施例1
1、实验仪器
BRUKER公司(德国)生产的MPA型傅里叶近红外光谱仪,1095Cyclotec(XF-98B)型旋风精密粉碎机。
2、样品采集
为了使建立的定性分析模型具有广泛的适用性,本实施例样品选取了2012~2014年YN产区、不同等级的初烤把烟样品共计90个样品用于建立YN产区烟叶模型,选取20个未知样品进行模型外部验证。
3、样品制备
将烟叶置于40℃的烘箱中烘干,使样品的水份基本保持一致,再用1095Cyclotec(XF-98B)型旋风精密粉碎机充分粉碎,过60目筛。
4、光谱扫描和数据处理
烟叶样品谱图扫描采用BRUKER公司(德国)生产的MPA型傅里叶近红外光谱仪(带近红外定量分析漫反射镀金大积分球和样品旋转器采样附件)进行,应用BrukerOPUS中定性分析软件QUANT6.5对谱图进行处理。具体操作如下:将烟草粉末装入样品杯,在杯中的高度约为3cm,将砝码压在样品上10s后取出,用纱布将杯子底部的石英玻璃擦拭干净,然后将样品杯置于旋转平台上进行NIR扫描。操作参数为:光谱扫描范围12000~4000cm-1,光谱分辨率8cm-1,扫描次数64次(约30S)。以透过方式采集光谱数据并处理为吸收光谱的一阶微分。卷烟烟丝的原始扫描图见图2。在建模过程中,为消除噪音和基线的影响,采用一阶导数9点平滑(Savitzky-Golay)对扫描后的原始光谱进行预处理。样品扫描后,用统计学软件对光谱数据进行处理。
5、模型建立
模型的建立步骤如下:
(1)光谱扫描:对待测样品进行近红外光谱扫描,提取光谱的特征向量;
(2)建立数据矩阵:将n个同一产地的烟叶的近红外光谱按行排列,获得数据矩阵D;
(3)主成分分析:对D进行主成分分析,通过特征向量计算出主成分,然后保留第一主成分P1和第三主成分P3;
(4)计算P1和P3的均值,以此均值作为“某”产地烟叶的模型区分中心;
(5)计算所有“某”产地烟叶到此中心的距离di(i=1,2,…,n)。计算所有距离di的均值和标准偏差s,以为“某”产地烟叶的识别线。
通过对扫描的两个产区烟叶光谱进行第一和第三主成分分析,
所建立的YN产地烟叶近红外光谱建立的识别模型模型见图3:
5、模型的预测效果
为了检验以上所建模型预测的准确性,从广西中烟物资采购中心随机抽取了20个2014年的YN产地不同地市(均在模型预测的产地范围)的烟叶样品,对模型的鉴定能力进行了外部检验,样品经处理后,用近红外进行光谱采集,最后用所建的产地鉴别模型对光谱进行了产地预测,结果见表1,
表1“YN”产地烟叶特征模型的识别结果
从上表可以看出,模型对20个样品中的个预测到19个正确的产地,产地鉴别正确率达到95%,说明模型预测精度很高。
实施例2
1、实验仪器
BRUKER公司(德国)生产的MPA型傅里叶近红外光谱仪,1095Cyclotec(XF-98B)型旋风精密粉碎机。
2、样品采集
本实施例样品分别选取了2012~2014年YN产区和GX产区不同等级的初烤把烟样品共计141个样品用于建立YN、GX产区的区分模型,选取30个未知样品进行模型外部验证。
3、样品制备
将烟叶置于40℃的烘箱中烘干,使样品的水份基本保持一致,再用1095Cyclotec(XF-98B)型旋风精密粉碎机充分粉碎,过80目筛。
本实施例中样品光谱扫描级模型建立方法同实施例一,所建GX、YN两产地分类识别模型见图4:
4、模型的预测效果
为了检验以上所建模型预测的准确性,从广西中烟物资采购中心随机抽取了30个2014年的两产地不同地市(均在模型预测的产地范围)的烟叶样品,对模型的鉴定能力进行了外部检验,样品经处理后,用近红外进行光谱采集,最后用所建的产地鉴别模型对光谱进行了产地预测,结果见表2,
表2两产地烟叶特征模型的识别结果
从上表可以看出,模型对30个样品中的个预测到28个正确的产地,产地鉴别正确率达到93.3%,说明模型预测精度较高。
通过上述实施例可以看出,本发明利用光谱特征向量结合主成分分析法建立的模型,对烟叶产地的预测准确率高达90%以上,由此可见,应用近红外分析技术能够很好地反映烟叶样本产地不同的差异,能有效判别烟叶产地,是一种有效可行的方法,具较强的实用性和现实意义。
本发明的上述实施例仅仅清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定,对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其他不同形式的变化或变动,这里无法对所用的实施方式予以穷举,凡是属于本发明技术方案所引申出的显而易见的变化或变动仍处于本发明的保护范围之列。

Claims (8)

1.一种利用光谱特征向量结合主成分分析建立分类模型的方法,其特征在于:利用近红外光谱仪将同产地的烟叶光谱进行扫描,然后对每个光谱的特征向量进行提取,然后对所有同产地的近红外光谱按行排列,获得数据矩阵,对矩阵进行主成分分析,通过特征向量计算出主成分,通过计算相关数据,确定识别线,建立区分模型。
2.根据权利要求1所述的一种利用光谱特征向量结合主成分分析建立分类模型的方法,其特征在于,所述模型建立包括如下步骤:
(1)光谱扫描:对待测样品进行近红外光谱扫描,提取光谱的特征向量;
(2)建立数据矩阵:将n个同一产地的烟叶的近红外光谱按行排列,获得数据矩阵D;
(3)主成分分析:对D进行主成分分析,通过特征向量计算出主成分,然后保留第一主成分P1和第三主成分P3;
(4)计算P1和P3的均值,以此均值作为“某”产地烟叶的模型区分中心;
(5)计算所有“某”产地烟叶到此中心的距离di(i=1,2,…,n);计算所有距离di的均值和标准偏差s,以为“某”产地烟叶的识别线。
3.根据权利要求2所述的一种利用光谱特征向量结合主成分分析法建立分类模型的方法,其特征在于,应用该模型对未知样品进行识别时,分析步骤如下:
(1)扫描并获得该样品的近红外光谱;
(2)通过建模步骤2中的特征向量计算出该产品的第一主成分PC1和第三主成分PC3;
(3)计算PC1和PC3到“某”产地烟叶中心的距离d未知,根据距离判断属地,若则可判定该未知产品属于该产地,否则判定其不属于该产地。
4.根据权利要求2和3所述的一种利用光谱特征向量结合主成分分析建立分类模型的方法,其特征在于:根据主成分分析,所有同产地光谱到中心的距离d未知应小于区间值。
5.根据权利要求4中所述一种利用光谱特征向量结合主成分分析建立分类模型的方法,其特征在于:通过扫描待分析样品的光谱,计算第一主成分和第三主成分到所建模型中该产地烟叶中心的距离d未知,若该距离落入识别区间,可判定其为同产地烟叶。
6.根据权利要求1-5中任一所述的一种利用光谱特征向量结合主成分分析建立分类模型的方法,其特征在于:该模型以一系列同产地的近红外光谱为基础,通过主成分分析建立产地区分模型。
7.根据权利要求1-6中任一所述的一种利用光谱特征向量结合主成分分析建立分类模型的方法,其特征在于:包括扫描前步骤将样品粉碎为40-80目。
8.根据权利要求7所述的一种利用光谱特征向量结合主成分分析建立分类模型的方法,其特征在于:所属样品为烟丝、烟梗/或烟末。
CN201610064682.1A 2016-01-29 2016-01-29 一种利用光谱特征向量结合主成分分析建立分类模型的方法 Pending CN105740898A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610064682.1A CN105740898A (zh) 2016-01-29 2016-01-29 一种利用光谱特征向量结合主成分分析建立分类模型的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610064682.1A CN105740898A (zh) 2016-01-29 2016-01-29 一种利用光谱特征向量结合主成分分析建立分类模型的方法

Publications (1)

Publication Number Publication Date
CN105740898A true CN105740898A (zh) 2016-07-06

Family

ID=56248050

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610064682.1A Pending CN105740898A (zh) 2016-01-29 2016-01-29 一种利用光谱特征向量结合主成分分析建立分类模型的方法

Country Status (1)

Country Link
CN (1) CN105740898A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106248617A (zh) * 2016-07-12 2016-12-21 上海创和亿电子科技发展有限公司 基于近红外的烟叶焦油检测方法
CN106501208A (zh) * 2016-09-20 2017-03-15 广西中烟工业有限责任公司 一种基于近红外光谱特征的烟叶风格相似性分类方法
CN107101972A (zh) * 2017-05-24 2017-08-29 福州大学 一种近红外光谱快速检测三叶青产地方法
CN107402192A (zh) * 2017-03-03 2017-11-28 广西中烟工业有限责任公司 一种快速分析香精香料质量稳定性的方法
CN108732127A (zh) * 2018-05-08 2018-11-02 河南中烟工业有限责任公司 一种检测烟丝中各组分掺配比例的方法
CN110736718A (zh) * 2019-10-16 2020-01-31 浙江中烟工业有限责任公司 一种烤烟烟丝的产地及等级识别方法
CN113536927A (zh) * 2021-06-15 2021-10-22 南昌海关技术中心 一种赣南脐橙鉴别方法、系统及存储介质
CN114295578A (zh) * 2021-11-08 2022-04-08 浙江中烟工业有限责任公司 基于近红外光谱的烟叶常规化学成分通用模型建模方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004000113A1 (en) * 2002-06-25 2003-12-31 Sensys Medical, Inc. Targeted interference subtraction applied to near-infrared measurement of analytes
CN102288573A (zh) * 2011-05-27 2011-12-21 中国人民解放军总后勤部油料研究所 一种利用中红外光谱技术快速识别发动机燃料种类和牌号方法
CN102841063A (zh) * 2012-08-30 2012-12-26 浙江工业大学 一种基于光谱技术的生物炭溯源鉴别方法
CN103344598A (zh) * 2013-06-18 2013-10-09 川渝中烟工业有限责任公司 一种梗丝与卷烟叶组配伍性的判定方法
CN104730030A (zh) * 2015-03-27 2015-06-24 山东大学 基于近红外分析技术的党参真伪鉴别和产地判定的方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004000113A1 (en) * 2002-06-25 2003-12-31 Sensys Medical, Inc. Targeted interference subtraction applied to near-infrared measurement of analytes
CN102288573A (zh) * 2011-05-27 2011-12-21 中国人民解放军总后勤部油料研究所 一种利用中红外光谱技术快速识别发动机燃料种类和牌号方法
CN102841063A (zh) * 2012-08-30 2012-12-26 浙江工业大学 一种基于光谱技术的生物炭溯源鉴别方法
CN103344598A (zh) * 2013-06-18 2013-10-09 川渝中烟工业有限责任公司 一种梗丝与卷烟叶组配伍性的判定方法
CN104730030A (zh) * 2015-03-27 2015-06-24 山东大学 基于近红外分析技术的党参真伪鉴别和产地判定的方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106248617A (zh) * 2016-07-12 2016-12-21 上海创和亿电子科技发展有限公司 基于近红外的烟叶焦油检测方法
CN106501208A (zh) * 2016-09-20 2017-03-15 广西中烟工业有限责任公司 一种基于近红外光谱特征的烟叶风格相似性分类方法
CN107402192A (zh) * 2017-03-03 2017-11-28 广西中烟工业有限责任公司 一种快速分析香精香料质量稳定性的方法
CN107101972A (zh) * 2017-05-24 2017-08-29 福州大学 一种近红外光谱快速检测三叶青产地方法
CN108732127A (zh) * 2018-05-08 2018-11-02 河南中烟工业有限责任公司 一种检测烟丝中各组分掺配比例的方法
CN108732127B (zh) * 2018-05-08 2021-03-19 河南中烟工业有限责任公司 一种检测烟丝中各组分掺配比例的方法
CN110736718A (zh) * 2019-10-16 2020-01-31 浙江中烟工业有限责任公司 一种烤烟烟丝的产地及等级识别方法
CN113536927A (zh) * 2021-06-15 2021-10-22 南昌海关技术中心 一种赣南脐橙鉴别方法、系统及存储介质
CN114295578A (zh) * 2021-11-08 2022-04-08 浙江中烟工业有限责任公司 基于近红外光谱的烟叶常规化学成分通用模型建模方法
CN114295578B (zh) * 2021-11-08 2024-01-09 浙江中烟工业有限责任公司 基于近红外光谱的烟叶常规化学成分通用模型建模方法

Similar Documents

Publication Publication Date Title
CN105740898A (zh) 一种利用光谱特征向量结合主成分分析建立分类模型的方法
CN106501208A (zh) 一种基于近红外光谱特征的烟叶风格相似性分类方法
Zhao et al. Near infrared reflectance spectroscopy for determination of the geographical origin of wheat
CN103344602B (zh) 一种基于近红外光谱的水稻种质真伪无损检测方法
CN105717066B (zh) 一种基于加权相关系数的近红外光谱识别模型
CN104677875B (zh) 一种三维荧光光谱结合平行因子鉴别不同品牌白酒的方法
CN107796782B (zh) 基于烟叶特征光谱一致性度量的复烤质量稳定性评价方法
CN101285768B (zh) 应用近红外光谱分析技术无损鉴别卷烟真伪的方法
CN108519348A (zh) 甘草药材近红外定量分析模型及检测方法和标准
CN103278473B (zh) 白胡椒中胡椒碱及水分含量的测定和品质评价方法
CN103411906B (zh) 珍珠粉和贝壳粉的近红外光谱定性鉴别方法
CN102706813B (zh) 基于高光谱图像的草地早熟禾品种识别方法
CN103674884A (zh) 基于近红外光谱信息的烟叶风格特征的随机森林分类方法
CN105136738A (zh) 一种基于近红外识别桉木和相思木属间树种的方法
CN107515203A (zh) 近红外技术定量分析水稻单籽粒直链淀粉含量的研究
CN102937575B (zh) 一种基于二次光谱重组的西瓜糖度快速建模方法
CN109520962A (zh) 一种葡萄酒近红外光谱检测方法
CN107402192A (zh) 一种快速分析香精香料质量稳定性的方法
CN109374548A (zh) 一种利用近红外快速测定大米中营养成分的方法
CN106770189A (zh) 一种基于激光诱导击穿光谱的烟叶铜元素快速检测方法
Cui et al. Identification of maize seed varieties based on near infrared reflectance spectroscopy and chemometrics
CN110346445A (zh) 一种基于气体分析质谱及近红外光谱分析烟叶霉变的方法
CN105138834A (zh) 基于近红外光谱波数k均值聚类的烟草化学值定量方法
CN102230885A (zh) 一种基于近红外光谱分析的甘蔗汁品质快速检测方法
WO2020248961A1 (zh) 一种无参考值的光谱波数选择方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20160706

RJ01 Rejection of invention patent application after publication