CN106918570A - 一种基于光谱的转基因稻谷智能分类器 - Google Patents
一种基于光谱的转基因稻谷智能分类器 Download PDFInfo
- Publication number
- CN106918570A CN106918570A CN201710179385.6A CN201710179385A CN106918570A CN 106918570 A CN106918570 A CN 106918570A CN 201710179385 A CN201710179385 A CN 201710179385A CN 106918570 A CN106918570 A CN 106918570A
- Authority
- CN
- China
- Prior art keywords
- sample
- data
- standard specimen
- pca
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000009261 transgenic effect Effects 0.000 title claims abstract description 26
- 235000007164 Oryza sativa Nutrition 0.000 title claims abstract description 24
- 235000009566 rice Nutrition 0.000 title claims abstract description 24
- 238000001228 spectrum Methods 0.000 title claims abstract description 16
- 240000007594 Oryza sativa Species 0.000 title abstract 2
- 238000001514 detection method Methods 0.000 claims abstract description 39
- 238000012360 testing method Methods 0.000 claims abstract description 39
- 238000000034 method Methods 0.000 claims abstract description 37
- 239000013598 vector Substances 0.000 claims abstract description 36
- 238000000513 principal component analysis Methods 0.000 claims abstract description 29
- 238000013461 design Methods 0.000 claims abstract description 17
- 230000008569 process Effects 0.000 claims abstract description 17
- 238000001328 terahertz time-domain spectroscopy Methods 0.000 claims abstract description 15
- 238000005516 engineering process Methods 0.000 claims abstract description 12
- 238000005457 optimization Methods 0.000 claims abstract description 7
- 238000002360 preparation method Methods 0.000 claims abstract description 7
- 241000209094 Oryza Species 0.000 claims description 22
- 239000000126 substance Substances 0.000 claims description 18
- 238000012549 training Methods 0.000 claims description 13
- 238000012706 support-vector machine Methods 0.000 claims description 11
- 230000001186 cumulative effect Effects 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 9
- 238000004611 spectroscopical analysis Methods 0.000 claims description 9
- 239000002994 raw material Substances 0.000 claims description 8
- 238000002835 absorbance Methods 0.000 claims description 6
- 241001269238 Data Species 0.000 claims description 5
- 230000005540 biological transmission Effects 0.000 claims description 5
- 235000013339 cereals Nutrition 0.000 claims description 4
- 238000013480 data collection Methods 0.000 claims description 4
- 230000003595 spectral effect Effects 0.000 claims description 4
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims description 4
- 239000004698 Polyethylene Substances 0.000 claims description 3
- 238000000862 absorption spectrum Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 238000009826 distribution Methods 0.000 claims description 3
- 230000007613 environmental effect Effects 0.000 claims description 3
- 239000000463 material Substances 0.000 claims description 3
- -1 polyethylene Polymers 0.000 claims description 3
- 229920000573 polyethylene Polymers 0.000 claims description 3
- 239000000843 powder Substances 0.000 claims description 3
- 238000003860 storage Methods 0.000 claims description 3
- 238000011282 treatment Methods 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims 2
- 241000208340 Araliaceae Species 0.000 claims 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 claims 1
- 235000003140 Panax quinquefolius Nutrition 0.000 claims 1
- 235000008434 ginseng Nutrition 0.000 claims 1
- 238000000227 grinding Methods 0.000 claims 1
- 238000004519 manufacturing process Methods 0.000 claims 1
- 238000011160 research Methods 0.000 claims 1
- 108700019146 Transgenes Proteins 0.000 abstract description 8
- 230000008901 benefit Effects 0.000 abstract description 4
- 108090000623 proteins and genes Proteins 0.000 description 8
- 230000014509 gene expression Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 244000037671 genetically modified crops Species 0.000 description 3
- 108020004414 DNA Proteins 0.000 description 2
- 108091028043 Nucleic acid sequence Proteins 0.000 description 2
- 238000010521 absorption reaction Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000004907 flux Effects 0.000 description 2
- 235000013305 food Nutrition 0.000 description 2
- 238000009396 hybridization Methods 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 238000002331 protein detection Methods 0.000 description 2
- 102000004169 proteins and genes Human genes 0.000 description 2
- 238000007789 sealing Methods 0.000 description 2
- QCVGEOXPDFCNHA-UHFFFAOYSA-N 5,5-dimethyl-2,4-dioxo-1,3-oxazolidine-3-carboxamide Chemical compound CC1(C)OC(=O)N(C(N)=O)C1=O QCVGEOXPDFCNHA-UHFFFAOYSA-N 0.000 description 1
- 230000005457 Black-body radiation Effects 0.000 description 1
- 238000002965 ELISA Methods 0.000 description 1
- 102000002322 Egg Proteins Human genes 0.000 description 1
- 108010000912 Egg Proteins Proteins 0.000 description 1
- 238000005033 Fourier transform infrared spectroscopy Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 239000000427 antigen Substances 0.000 description 1
- 108091007433 antigens Proteins 0.000 description 1
- 102000036639 antigens Human genes 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000005842 biochemical reaction Methods 0.000 description 1
- 230000004071 biological effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003153 chemical reaction reagent Substances 0.000 description 1
- 238000010224 classification analysis Methods 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 235000014103 egg white Nutrition 0.000 description 1
- 210000000969 egg white Anatomy 0.000 description 1
- 230000001900 immune effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002329 infrared spectrum Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000001556 precipitation Methods 0.000 description 1
- 238000002203 pretreatment Methods 0.000 description 1
- 238000003753 real-time PCR Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000002834 transmittance Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N21/00—Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
- G01N21/17—Systems in which incident light is modified in accordance with the properties of the material investigated
- G01N21/25—Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
- G01N21/31—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry
- G01N21/35—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light
- G01N21/3581—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light using far infrared light; using Terahertz radiation
- G01N21/3586—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light using far infrared light; using Terahertz radiation by Terahertz time domain spectroscopy [THz-TDS]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
Landscapes
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Immunology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biochemistry (AREA)
- Pathology (AREA)
- Analytical Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Toxicology (AREA)
- Investigating Or Analysing Materials By Optical Means (AREA)
Abstract
本发明公开了一种基于光谱的转基因稻谷智能分类器,包括以下步骤:1)、标样和样品制备方案:2)、标样和样品的太赫兹时域光谱数据的获取:3)、分类器的设计;3.1)、利用主成分分析法压缩原始数据空间维度:3.2)、支持向量机分类模型的设计:3.3)、支持向量机分类模型的参数优化。本发明采用太赫兹时域光谱技术获取原始数据,采用主成分分析结合支持向量机的方法设计分类器,对稻谷转基因成分的阳性和阴性进行分类,具有样本制备简单、数据获取速度快、分类精度高、定性鉴别准确、智能化程度高、对检测人员要求水平低等优点,可有效解决传统生化检测方法对转基因农作物存在的检测速度慢、检测过程复杂的问题。
Description
技术领域
本发明涉及转基因稻谷智能分类器领域,具体为一种基于光谱的转基因稻谷智能分类器。
背景技术
农作物转基因检测方法主要有2类:第1类方法在市场监管检测中最为常用,是以外源基因的特定DNA序列为对象的检测技术;第2类是蛋白质检测技术。
1.基于DNA序列的检测方法
(1)PCR检测方法。依据其检测对象不同分为4类:元件特异性PCR、基因特异性PCR、构建特异性PCR、转化体特异性PCR。通过PCR技术检测转基因转化载体携带的启动子、标记基因、终止子等特定序列,判断其是否为转基因作物。该方法特异性较好、效率较高、费用低,是目前我国农业转基因监管部门进行转基因监管检测的主要方法,目前已发布此类检测标准逾50项。该方法通过普通PCR或实时荧光定量PCR对转基因作物通用元件进行检测,是一种较快速、高效的方法,但缺陷是目前通量较小、周期较长,容易出现假阳性。
(2)基因芯片法。基因芯片法又称为DNA微探针阵列法,其实质就是高度集成化的反向斑点杂交技术,通过将外源基因的特异性片断制成检测芯片,与待测样本的DNA进行杂交,反应结果扫描后,通过计算机软件分析,来判断出待测样品是否为转基因产品。该方法通量高,但是检测过程繁琐,尤其是费用很高,对实验设备要求高,可普及性较低。
2.基于表达产物蛋白质的检测方法。以抗体、抗原为基础的免疫学蛋白质检测方法,通过定性、定量外源基因表达产生的蛋白质来判断作物是否为转基因产品。外源表达蛋白的检测方法有3种:生化反应检测法;免疫学检测法,主要有Western杂交、ELISA法及免疫沉淀法;外源表达蛋白生物学活性的检测。外源表达蛋白的检测是转基因作物检测及安全性评价最有效的方法之一,但此种方法只针对某一个转化事件,需要采取逐个排除的方法来达到检测目的,繁琐、成本高,不适于大批量盲样检测。此外还要考虑转基因后基因表达沉默的问题,易出现漏检。
稻谷转基因成分的检测,现有技术主要是生化检测方法,存在着样品前处理复杂、检测过程繁琐、动用试剂多、检测费用昂贵、检测时间长、易出现假阳性,以及检测人员专业水平要求高等技术问题。
发明内容
为了克服上述现有技术中的不足,本发明提供了一种对稻谷转基因成分阳性和阴性进行分类的方法,具有样本制备简单、数据获取速度快、分类精度高、定性鉴别准确、智能化程度高、对检测人员要求水平低等优点,可有效解决传统生化检测方法对转基因农作物存在的检测速度慢、检测过程复杂的问题。
本发明的目的是这样实现的:
一种基于光谱的转基因稻谷智能分类器,包括以下步骤:
1)、标样和样品制备方案:
2)、标样和样品的太赫兹时域光谱数据的获取:
3)、分类器的设计;
3.1)、利用主成分分析法压缩原始数据空间维度:
3.2)、支持向量机分类模型的设计:
3.3)、支持向量机分类模型的参数优化。
所述的步骤1)、标样和样品制备方案,标样用于建立各品系稻谷(包括转基因和非转基因的)的太赫兹标准光谱数据集,用于作为分类器的训练集;样品用于对转基因稻谷分类器的测试,用于作为测试集;制作标样的原材料来源于各稻谷品系的标准物质,标准物质从国家粮食局科学研究院购买,并具有标准物质证书;标准物质原材料在充分粉碎、研磨后,取120mg,加入40mg聚乙烯粉末,经均质器充分混合后,放置压片机进行压片。压片时保持压力10MPa三分钟,取出压片,用电子螺旋测微器测量厚度(精确到0.01mm)后,放置密封袋封好,密封袋贴标签注明品系名称和厚度,至此,标样制作完毕;样品制作过程同标样制作过程;标样或样品需在半小时内测试完毕,以避免标样放置在空气中发生的理化变化;标样或样品原材料在使用前保持水分含量在12%-15%左右,若水分过高,会影响样品对太赫兹辐射的吸收,因此需要使用烘干机进行烘干后再进行制样。12%-15%的水分参数确定来源于粮食安全储藏相关国家标准。
所述的步骤2)、标样和样品的太赫兹时域光谱数据的获取,具体为:将标样放置于太赫兹时域光谱仪中,采用透射方式获取标样的太赫兹时域光谱数据;检测的环境条件设置为:环境温度:20℃,环境湿度:≤10%。每种稻谷品系制作30个标样,每个标样测量3次,取0.2T-1.2T波段作为有效数据进行平均,得到每个标样3次平均的时域光谱数据,再利用光谱仪本身的随机软件,获取该标样的太赫兹吸收谱数据,总共获取每种稻谷品系的30组原始吸收谱数据,作为主成分分析法的输入数据,经主成分分析法压缩数据空间后,由主成分分析法得到的该组数据的输出数据,作为支持向量机分类器的训练集;取30个稻谷样品,采用上述太赫兹测试方案,获取30组原始吸收谱数据,在经过主成分分析法的处理,获取主成分分析的输出数据集,作为支持向量机分类器的测试集。
所述的步骤3.1)、利用主成分分析法压缩原始数据空间维度,具体为:取每个样本的0.2T-1.2T之间的256个光谱数据作为原始数据进行压缩;采用PCA算法抽取了原始太赫兹光谱数据的最有代表性的前四个特征向量,这四个特征向量的累计信息贡献率应达到不低于90%,覆盖原始数据绝大部分的信息。如果抽取的四个主成分的累计信息贡献率低于90%,则应采用更多的主成分,使所有主成分的累计贡献率达到不低于90%;实验证明,提取出的前四个主成分,累计信息贡献率已经达到95.2%,因此本专利发明建议采用PCA抽取的前4个主成分代替原始数据,这可使得原始数据从最初的256维降低至4维,大大简化了支持向量机模型的设计和模型的运算效率;利用PCA提取主成分的算法可通过matlab实现。
所述的步骤3.2)、支持向量机分类模型的设计,具体为:用PCA对每个标样的数据进行前四个主成分的提取构成训练集,对每个实际样品的数据进行前四个主成分的提取构成测试集。利用训练集构造SVM分类器,核函数选择径向基函数,利用测试集对SVM分类器的分类性能进行测试;利用径向基核函数构造SVM分类器的算法可通过matlab实现。
所述的步骤3.3)、支持向量机分类模型的参数优化,具体为:在支持向量机模型中,有两个重要的参数影响支持向量机的分类性能。一个是C参数,称为惩罚系数,表示对误差的宽容度,C值越高,表示越不能容忍出现误差,另一个是与径向基函数有关的γ参数,它隐含地决定了数据映射到新的特征空间后的分布。支持向量机分类模型的建立过程实际上就是对这两个参数的寻优过程。首先对γ参数进行寻优,设置不同的γ参数值(本技术发明建议γ从0到5设置,间隔为0.5),再通过网格搜索法,确定对应的C值,构建不同的SVM分类模型,SVM分类模型的性能评估采用下面的指标(称为均方根误差):
式中N″代表测试集中的样本数,Yi是测试集中第i个样本的实际值,是模型对第i个样本的预测值;利用测试集中的数据,对构建的每个SVM模型进行RMSE计算,选取RMSE值最小的模型作为最终的分类器模型。
积极有益效果:本发明采用太赫兹时域光谱技术获取原始数据,采用主成分分析结合支持向量机的方法设计分类器,对稻谷转基因成分的阳性和阴性进行分类,具有样本制备简单、数据获取速度快、分类精度高、定性鉴别准确、智能化程度高、对检测人员要求水平低等优点,可有效解决传统生化检测方法对转基因农作物存在的检测速度慢、检测过程复杂的问题。
附图说明
图1为四种水稻太赫兹光谱数据主成分分析前两个主成分(PC1,PC2)得分图;
图2为不同参数r对应的支持向量机模型均方根误差(RMSE)与r对应关系图。
具体实施方式
下面结合具体实施方式,对本发明做进一步的说明:
本发明的目的是这样实现的:
一种基于光谱的转基因稻谷智能分类器,包括以下步骤:
1)、标样和样品制备方案:
2)、标样和样品的太赫兹时域光谱数据的获取:
3)、分类器的设计;
3.1)、利用主成分分析法压缩原始数据空间维度:
3.2)、支持向量机分类模型的设计:
3.3)、支持向量机分类模型的参数优化。
所述的步骤1)、标样和样品制备方案,标样用于建立各品系稻谷(包括转基因和非转基因的)的太赫兹标准光谱数据集,用于作为分类器的训练集;样品用于对转基因稻谷分类器的测试,用于作为测试集;制作标样的原材料来源于各稻谷品系的标准物质,标准物质从国家粮食局科学研究院购买,并具有标准物质证书;标准物质原材料在充分粉碎、研磨后,取120mg,加入40mg聚乙烯粉末,经均质器充分混合后,放置压片机进行压片。压片时保持压力10MPa三分钟,取出压片,用电子螺旋测微器测量厚度(精确到0.01mm)后,放置密封袋封好,密封袋贴标签注明品系名称和厚度,至此,标样制作完毕;样品制作过程同标样制作过程;标样或样品需在半小时内测试完毕,以避免标样放置在空气中发生的理化变化;标样或样品原材料在使用前保持水分含量在12%-15%左右,若水分过高,会影响样品对太赫兹辐射的吸收,因此需要使用烘干机进行烘干后再进行制样。12%-15%的水分参数确定来源于粮食安全储藏相关国家标准。
所述的步骤2)、标样和样品的太赫兹时域光谱数据的获取,具体为:
将标样放置于太赫兹时域光谱仪中,采用透射方式获取标样的太赫兹时域光谱数据;检测的环境条件设置为:环境温度:20℃,环境湿度:≤10%。每种稻谷品系制作30个标样,每个标样测量3次,取0.2T-1.2T波段作为有效数据进行平均,得到每个标样3次平均的时域光谱数据,在利用光谱仪本身的随机软件,获取该标样的太赫兹吸收谱数据,总共获取每种稻谷品系的30组原始吸收谱数据,作为主成分分析法的输入数据,经主成分分析法压缩数据空间后,由主成分分析法得到的该组数据的输出数据,作为支持向量机分类器的训练集;取30个稻谷样品,采用上述太赫兹测试方案,获取30组原始吸收谱数据,在经过主成分分析法的处理,获取主成分分析的输出数据集,作为支持向量机分类器的测试集。
所述的步骤3.1)、利用主成分分析法压缩原始数据空间维度,具体为:取每个样本的0.2T-1.2T之间的256个光谱数据作为原始数据进行压缩;采用PCA算法抽取了原始太赫兹光谱数据的最有代表性的前四个特征向量,这四个特征向量的累计信息贡献率应达到90%以上,覆盖原始数据绝大部分的信息。如果抽取的四个主成分的累计信息贡献率低于90%,则应采用更多的主成分,使所有主成分的累计贡献率达到90%以上;实验证明,提取出的前四个主成分,累计信息贡献率已经达到95.2%,因此本专利发明建议采用PCA抽取的前4个主成分代替原始数据,这可使得原始数据从最初的256维降低至4维,大大简化了支持向量机模型的设计和模型的运算效率;利用PCA提取主成分的算法可通过matlab实现。
所述的步骤3.2)、支持向量机分类模型的设计,具体为:用PCA对每个标样的数据进行前四个主成分的提取构成训练集,对每个实际样品的数据进行前四个主成分的提取构成测试集。利用训练集构造SVM分类器,核函数选择径向基函数,利用测试集对SVM分类器的分类性能进行测试;利用径向基核函数构造SVM分类器的算法可通过matlab实现。
所述的步骤3.3)、支持向量机分类模型的参数优化,具体为:在支持向量机模型中,有两个重要的参数影响支持向量机的分类性能。一个是C参数,称为惩罚系数,表示对误差的宽容度,C值越高,表示越不能容忍出现误差,另一个是与径向基函数有关的γ参数,它隐含地决定了数据映射到新的特征空间后的分布。支持向量机分类模型的建立过程实际上就是对这两个参数的寻优过程。首先对γ参数进行寻优,设置不同的y参数值(本技术发明建议y从0到5设置,间隔为0.5),再通过网格搜索法,确定对应的C值,构建不同的SVM分类模型,SVM分类模型的性能评估采用下面的指标(称为均方根误差):
式中N″代表测试集中的样本数,Yi是测试集中第i个样本的实际值,是模型对第i个样本的预测值;利用测试集中的数据,对构建的每个SVM模型进行RMSE计算,选取RMSE值最小的模型作为最终的分类器模型。
实施例
如图1所示四种水稻太赫兹光谱数据主成分分析前两个主成分(PC1,PC2)得分图,其中华恢1号,BT汕优63为转基因水稻,天优998、吉粳88为非转基因水稻;
如图2所示不同参数r对应的支持向量机模型均方根误差(RMSE)与r对应关系图;主:最佳r值为2.6,对应的最佳C值为3.1
术语解释:1.太赫兹波:太赫兹波是指频率在0.1THz到10THz(1T=1012Hz)范围的电磁波,波长大概在0.03到3mm范围,介于微波与红外之间。
2.太赫兹时域光谱(THz-TDS):是一种新型的、非常有效的相干光谱探测技术。特征有:(1)对黑体辐射不敏感,信噪比远高于傅里叶变换红外光谱技术。(2)可探测材料在太赫兹波段的物理和化学信息。(3)可测得电介质材料、半导体材料、生物大分子的振幅和相位信息。(4)可进行时间分辨的测量。
3、主成分分析法(PCA):是一个统计方法,它可以将高维的原始数据集近似成一个更小维度的正交空间。它是一个基于特征向量的多变量分析方法,用于在原始数据集中提取有限数目的变量(称为主成分)构成一个正交的低维数据集。主成分(PCs)的数目不大于原始变量的数目。主成分PC1有最大的信息量,并且正交于主成分PC2,PC2的信息量多于PC3,以此类推。所有PCs互相正交。
4.支持向量机(SVM):在机器学习中,支持向量机是与相关的学习算法有关的监督学习模型,可以分析数据,识别模式,用于分类和回归分析。给定一组训练样本,每个样本标记为属于两类,一个SVM训练算法建立了一个模型,通过该模型可分配新的实例为属于一类或其他类,使其成为非概率二元线性分类。
太赫兹波透射性强,其透射能力远强于红外,因此可以采用透射方式获得关于样品的太赫兹光谱,太赫兹透射光谱必然携带了更多的关于样品内部的物理化学性能,因而太赫兹光谱比红外光谱更能反映样品内部理化信息,利用太赫兹光谱对样品进行定性分类也就具有了更高的精确性。
本发明着力解决稻谷转基因成分快速定性的问题:主要解决两个问题:一是检测速度的问题,本技术发明采用太赫兹时域光谱技术快速获取被检稻谷的光谱数据,力求大幅度减少稻谷转基因成分的检测时间;二是分类器的设计问题,本技术发明针对光谱检测数据量大的问题,采用主成分分析(PCA)降低特征空间维度,结合支持向量机(SVM)算法,实现对稻谷转基因成分阳性和阴性的分类。
本发明采用太赫兹时域光谱技术获取原始数据,采用主成分分析结合支持向量机的方法设计分类器,对稻谷转基因成分的阳性和阴性进行分类,具有样本制备简单、数据获取速度快、分类精度高、定性鉴别准确、智能化程度高、对检测人员要求水平低等优点,可有效解决传统生化检测方法对转基因农作物存在的检测速度慢、检测过程复杂的问题。
以上实施案例仅用于说明本发明的优选实施方式,但本发明并不限于上述实施方式,在所述领域普通技术人员所具备的知识范围内,本发明的精神和原则之内所作的任何修改、等同替代及改进等,均应视为本申请的保护范围。
Claims (6)
1.一种基于光谱的转基因稻谷智能分类器,其特征在于,包括以下步骤:
1)、标样和样品制备方案:
2)、标样和样品的太赫兹时域光谱数据的获取:
3)、分类器的设计;
3.1)、利用主成分分析法压缩原始数据空间维度:
3.2)、支持向量机分类模型的设计:
3.3)、支持向量机分类模型的参数优化。
2.根据权利要求1所述的一种基于光谱的转基因稻谷智能分类器,其特征在于:所述的步骤1)、标样和样品制备方案,标样用于建立各品系稻谷(包括转基因和非转基因的)的太赫兹标准光谱数据集,用于作为分类器的训练集;样品用于对转基因稻谷分类器的测试,用于作为测试集;制作标样的原材料来源于各稻谷品系的标准物质,标准物质从国家粮食局科学研究院购买,并具有标准物质证书;标准物质原材料在充分粉碎、研磨后,取120mg,加入40mg聚乙烯粉末,经均质器充分混合后,放置压片机进行压片;压片时保持压力10MPa三分钟,取出压片,用电子螺旋测微器测量厚度(精确到0.01mm)后,放置密封袋封好,密封袋贴标签注明品系名称和厚度,至此,标样制作完毕;样品制作过程同标样制作过程;标样或样品需在半小时内测试完毕,以避免标样放置在空气中发生的理化变化;标样或样品原材料在使用前保持水分含量在12%-15%左右,若水分过高,会影响样品对太赫兹辐射的吸收,因此需要使用烘干机进行烘干后再进行制样;12%-15%的水分参数确定来源于粮食安全储藏相关国家标准。
3.根据权利要求1所述的一种基于光谱的转基因稻谷智能分类器,其特征在于:所述的步骤2)、标样和样品的太赫兹时域光谱数据的获取,具体为:将标样放置于太赫兹时域光谱仪中,采用透射方式获取标样的太赫兹时域光谱数据;检测的环境条件设置为:环境温度:20℃,环境湿度:≤10%,每种稻谷品系制作30个标样,每个标样测量3次,取0.2T-1.2T波段作为有效数据进行平均,得到每个标样3次平均的时域光谱数据,再利用光谱仪本身的随机软件,获取该标样的太赫兹吸收谱数据,总共获取每种稻谷品系的30组原始吸收谱数据,作为主成分分析法的输入数据,经主成分分析法压缩数据空间后,由主成分分析法得到的该组数据的输出数据,作为支持向量机分类器的训练集;取30个稻谷样品,采用上述太赫兹测试方案,获取30组原始吸收谱数据,在经过主成分分析法的处理,获取主成分分析的输出数据集,作为支持向量机分类器的测试集。
4.根据权利要求1所述的一种基于光谱的转基因稻谷智能分类器,其特征在于:所述的步骤3.1)、利用主成分分析法压缩原始数据空间维度,具体为:取每个样本的0.2T-1.2T之间的256个光谱数据作为原始数据进行压缩;采用PCA算法抽取了原始太赫兹光谱数据的最有代表性的前四个特征向量,这四个特征向量的累计信息贡献率应达到不低于90%,覆盖原始数据绝大部分的信息;如果抽取的四个主成分的累计信息贡献率低于90%,则应采用更多的主成分,使所有主成分的累计贡献率达到不低于90%;实验证明,提取出的前四个主成分,累计信息贡献率已经达到995.2%,因此本专利发明建议采用PCA抽取的前4个主成分代替原始数据,这可使得原始数据从最初的256维降低至4维,大大简化了支持向量机模型的设计和模型的运算效率;利用PCA提取主成分的算法可通过matlab实现。
5.根据权利要求1所述的一种基于光谱的转基因稻谷智能分类器,其特征在于:所述的步骤3.2)、支持向量机分类模型的设计,具体为:用PCA对每个标样的数据进行前四个主成分的提取构成训练集,对每个实际样品的数据进行前四个主成分的提取构成测试集;利用训练集构造SVM分类器,核函数选择径向基函数,利用测试集对SVM分类器的分类性能进行测试;利用径向基核函数构造SVM分类器的算法可通过matlab实现。
6.根据权利要求1所述的一种基于光谱的转基因稻谷智能分类器,其特征在于:所述的步骤3.3)、支持向量机分类模型的参数优化,具体为:在支持向量机模型中,有两个重要的参数影响支持向量机的分类性能;一个是C参数,称为惩罚系数,表示对误差的宽容度,C值越高,表示越不能容忍出现误差,另一个是与径向基函数有关的y参数,它隐含地决定了数据映射到新的特征空间后的分布;支持向量机分类模型的建立过程实际上就是对这两个参数的寻优过程;
首先对γ参数进行寻优,设置不同的y参数值(本技术发明建议γ从0到5设置,间隔为0.5),再通过网格搜索法,确定对应的C值,构建不同的SVM分类模型,SVM分类模型的性能评估采用下面的指标(称为均方根误差):
式中N″代表测试集中的样本数,Yi是测试集中第i个样本的实际值,是模型对第i个样本的预测值;利用测试集中的数据,对构建的每个SVM模型进行RMSE计算,选取RMSE值最小的模型作为最终的分类器模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710179385.6A CN106918570A (zh) | 2017-03-23 | 2017-03-23 | 一种基于光谱的转基因稻谷智能分类器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710179385.6A CN106918570A (zh) | 2017-03-23 | 2017-03-23 | 一种基于光谱的转基因稻谷智能分类器 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106918570A true CN106918570A (zh) | 2017-07-04 |
Family
ID=59461422
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710179385.6A Pending CN106918570A (zh) | 2017-03-23 | 2017-03-23 | 一种基于光谱的转基因稻谷智能分类器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106918570A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107909110A (zh) * | 2017-11-24 | 2018-04-13 | 西南大学 | 一种基于THz吸收谱和LOO‑RELM算法的转基因豆油快速鉴别方法 |
CN109001004A (zh) * | 2018-07-16 | 2018-12-14 | 湖南农业大学 | 转基因油菜标准样品及其建立方法 |
CN109580634A (zh) * | 2018-12-03 | 2019-04-05 | 高佳太阳能股份有限公司 | 一种金刚线表面金刚石团聚的确认方法 |
CN112602153A (zh) * | 2018-08-30 | 2021-04-02 | 生命科技股份有限公司 | 用于对pcr测定进行基因分型的机器学习系统 |
CN113504198A (zh) * | 2021-06-15 | 2021-10-15 | 武汉工程大学 | 一种苋菜红色素浓度检测方法、装置及存储介质 |
CN114018858A (zh) * | 2021-11-26 | 2022-02-08 | 太赫兹科技应用(广东)有限公司 | 一种基于太赫兹技术鉴别同一年份干湿仓陈皮真伪的方法 |
CN114881113A (zh) * | 2022-04-01 | 2022-08-09 | 燕山大学 | 基于改进蜜獾算法结合近红外光谱的阻燃塑料分类方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103033479A (zh) * | 2012-12-18 | 2013-04-10 | 浙江大学 | 基于太赫兹时域光谱的峰谷位鉴别转基因稻米的方法 |
-
2017
- 2017-03-23 CN CN201710179385.6A patent/CN106918570A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103033479A (zh) * | 2012-12-18 | 2013-04-10 | 浙江大学 | 基于太赫兹时域光谱的峰谷位鉴别转基因稻米的方法 |
Non-Patent Citations (2)
Title |
---|
涂闪: "基于太赫兹光谱技术的转基因农产品无损鉴别方法研究", 《万方数据服务平台》 * |
葛宏义: "储粮品质的THz波检测理论与分析方法研究", 《中国科学院大学博士学位论文》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107909110A (zh) * | 2017-11-24 | 2018-04-13 | 西南大学 | 一种基于THz吸收谱和LOO‑RELM算法的转基因豆油快速鉴别方法 |
CN109001004A (zh) * | 2018-07-16 | 2018-12-14 | 湖南农业大学 | 转基因油菜标准样品及其建立方法 |
CN112602153A (zh) * | 2018-08-30 | 2021-04-02 | 生命科技股份有限公司 | 用于对pcr测定进行基因分型的机器学习系统 |
CN109580634A (zh) * | 2018-12-03 | 2019-04-05 | 高佳太阳能股份有限公司 | 一种金刚线表面金刚石团聚的确认方法 |
CN113504198A (zh) * | 2021-06-15 | 2021-10-15 | 武汉工程大学 | 一种苋菜红色素浓度检测方法、装置及存储介质 |
CN114018858A (zh) * | 2021-11-26 | 2022-02-08 | 太赫兹科技应用(广东)有限公司 | 一种基于太赫兹技术鉴别同一年份干湿仓陈皮真伪的方法 |
CN114881113A (zh) * | 2022-04-01 | 2022-08-09 | 燕山大学 | 基于改进蜜獾算法结合近红外光谱的阻燃塑料分类方法 |
CN114881113B (zh) * | 2022-04-01 | 2024-08-02 | 燕山大学 | 基于改进蜜獾算法结合近红外光谱的阻燃塑料分类方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106918570A (zh) | 一种基于光谱的转基因稻谷智能分类器 | |
Feng et al. | Investigation on data fusion of multisource spectral data for rice leaf diseases identification using machine learning methods | |
Tan et al. | Analysis of different hyperspectral variables for diagnosing leaf nitrogen accumulation in wheat | |
CN102590129B (zh) | 近红外检测花生中氨基酸含量的方法 | |
CN113049530A (zh) | 一种基于近红外高光谱的单粒玉米种子水分含量检测方法 | |
CN105044022B (zh) | 一种基于近红外光谱技术快速无损检测小麦硬度的方法及应用 | |
Kunz et al. | Updating a synchronous fluorescence spectroscopic virgin olive oil adulteration calibration to a new geographical region | |
CN107515203A (zh) | 近红外技术定量分析水稻单籽粒直链淀粉含量的研究 | |
CN108169165B (zh) | 基于太赫兹光谱和图像信息融合的麦芽糖混合物定量分析方法 | |
CN109669023A (zh) | 一种基于多传感器融合的土壤属性预测方法 | |
Beghi et al. | Rapid evaluation of grape phytosanitary status directly at the check point station entering the winery by using visible/near infrared spectroscopy | |
CN102564993A (zh) | 一种利用傅里叶变换红外光谱识别大米品种方法及其应用 | |
CN108680515A (zh) | 一种单粒水稻直链淀粉定量分析模型构建及其检测方法 | |
CN106442338A (zh) | 一种基于svr算法的苹果叶片叶绿素含量高光谱反演方法 | |
CN106198447A (zh) | 基于近红外光谱技术的复混肥主要成分无损定量检测方法 | |
CN106951720A (zh) | 基于典型相关性分析及线性插值的土壤养分模型转移方法 | |
Hu et al. | A non-destructive terahertz spectroscopy-based method for transgenic rice seed discrimination via sparse representation | |
CN106918572A (zh) | 马铃薯复配主食中马铃薯含量的测定方法 | |
CN103278467A (zh) | 一种植物叶片氮素丰缺快速无损高准确率的鉴别方法 | |
Cao et al. | Near-infrared spectroscopy as a tool to assist Sargassum fusiforme quality grading: Harvest time discrimination and polyphenol prediction | |
CN106018321A (zh) | 玉米单粒种子蛋白质检测模型的构建方法及其应用 | |
Phate et al. | Classification and weighing of sweet lime (Citrus limetta) for packaging using computer vision system | |
Hu et al. | As the number falls, alternatives to the Hagberg–Perten falling number method: A review | |
Tamburini et al. | Quantitative determination of Fusarium proliferatum concentration in intact garlic cloves using near-infrared spectroscopy | |
Rathna Priya et al. | Characterising corn grain using infrared imaging and spectroscopic techniques: a review |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170704 |