CN111912816A - 太赫兹光谱与均值漂移算法结合的转基因作物检测方法 - Google Patents
太赫兹光谱与均值漂移算法结合的转基因作物检测方法 Download PDFInfo
- Publication number
- CN111912816A CN111912816A CN202010802260.6A CN202010802260A CN111912816A CN 111912816 A CN111912816 A CN 111912816A CN 202010802260 A CN202010802260 A CN 202010802260A CN 111912816 A CN111912816 A CN 111912816A
- Authority
- CN
- China
- Prior art keywords
- sample
- spectrum
- terahertz
- mean shift
- shift algorithm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001228 spectrum Methods 0.000 title claims abstract description 52
- 230000009261 transgenic effect Effects 0.000 title claims abstract description 51
- 238000001514 detection method Methods 0.000 title claims abstract description 25
- 238000000034 method Methods 0.000 claims abstract description 43
- 238000000513 principal component analysis Methods 0.000 claims abstract description 16
- 238000000862 absorption spectrum Methods 0.000 claims abstract description 14
- 230000008569 process Effects 0.000 claims abstract description 6
- 230000003595 spectral effect Effects 0.000 claims abstract description 5
- 239000007787 solid Substances 0.000 claims abstract description 4
- 239000011159 matrix material Substances 0.000 claims description 15
- 239000013598 vector Substances 0.000 claims description 10
- 238000005259 measurement Methods 0.000 claims description 6
- 230000009467 reduction Effects 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 4
- 238000000354 decomposition reaction Methods 0.000 claims description 3
- 238000001035 drying Methods 0.000 claims description 3
- 238000000227 grinding Methods 0.000 claims description 3
- 238000007873 sieving Methods 0.000 claims description 3
- 238000002360 preparation method Methods 0.000 claims description 2
- 238000001291 vacuum drying Methods 0.000 claims description 2
- 230000001131 transforming effect Effects 0.000 claims 1
- 238000012549 training Methods 0.000 abstract description 17
- 238000012360 testing method Methods 0.000 abstract description 8
- 240000008042 Zea mays Species 0.000 description 8
- 235000005824 Zea mays ssp. parviglumis Nutrition 0.000 description 8
- 235000002017 Zea mays subsp mays Nutrition 0.000 description 8
- 235000005822 corn Nutrition 0.000 description 8
- 241000209094 Oryza Species 0.000 description 7
- 235000007164 Oryza sativa Nutrition 0.000 description 7
- 235000009566 rice Nutrition 0.000 description 7
- 239000000843 powder Substances 0.000 description 6
- 108090000623 proteins and genes Proteins 0.000 description 5
- 229920000742 Cotton Polymers 0.000 description 4
- 230000001186 cumulative effect Effects 0.000 description 3
- 102000004169 proteins and genes Human genes 0.000 description 3
- 238000010521 absorption reaction Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 235000012343 cottonseed oil Nutrition 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 229920002521 macromolecule Polymers 0.000 description 2
- 108091040857 miR-604 stem-loop Proteins 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 208000003643 Callosities Diseases 0.000 description 1
- 244000068988 Glycine max Species 0.000 description 1
- 235000010469 Glycine max Nutrition 0.000 description 1
- 241000219146 Gossypium Species 0.000 description 1
- 241000238631 Hexapoda Species 0.000 description 1
- 206010020649 Hyperkeratosis Diseases 0.000 description 1
- VYPSYNLAJGMNEJ-UHFFFAOYSA-N Silicium dioxide Chemical compound O=[Si]=O VYPSYNLAJGMNEJ-UHFFFAOYSA-N 0.000 description 1
- 108010074506 Transfer Factor Proteins 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010353 genetic engineering Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 239000004570 mortar (masonry) Substances 0.000 description 1
- 229910001220 stainless steel Inorganic materials 0.000 description 1
- 239000010935 stainless steel Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000001328 terahertz time-domain spectroscopy Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N21/00—Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
- G01N21/17—Systems in which incident light is modified in accordance with the properties of the material investigated
- G01N21/25—Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
- G01N21/31—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry
- G01N21/35—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light
- G01N21/3581—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light using far infrared light; using Terahertz radiation
- G01N21/3586—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light using far infrared light; using Terahertz radiation by Terahertz time domain spectroscopy [THz-TDS]
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N21/00—Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
- G01N21/17—Systems in which incident light is modified in accordance with the properties of the material investigated
- G01N21/25—Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
- G01N21/31—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry
- G01N21/35—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light
- G01N21/3563—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light for analysing solids; Preparation of samples therefor
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/30—Unsupervised data analysis
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N21/00—Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
- G01N21/17—Systems in which incident light is modified in accordance with the properties of the material investigated
- G01N21/25—Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
- G01N21/31—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry
- G01N21/35—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light
- G01N2021/3595—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light using FTIR
Landscapes
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Immunology (AREA)
- General Physics & Mathematics (AREA)
- Biochemistry (AREA)
- Analytical Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- Pathology (AREA)
- Medical Informatics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Public Health (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Epidemiology (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biophysics (AREA)
- Bioethics (AREA)
- Artificial Intelligence (AREA)
- Toxicology (AREA)
- Investigating Or Analysing Materials By Optical Means (AREA)
Abstract
本发明公开了一种太赫兹光谱与均值漂移算法结合的转基因作物检测方法,属于分子生物学领域。其包括以下步骤:将待测样品制成固体压片样本;对样本进行太赫兹时域光谱扫描,得到样本太赫兹吸收光谱;利用PCA算法和Mean Shift算法对样本太赫兹吸收光谱进行分析。本发明将主成分分析和均值漂移算法结合;当样品中存不同品种的作物时,在无需构建训练集前提下即可将其自动区分成不同类别;当需要经一步具体指认某个样品是否为转基因作物时,只需标准数据库比对即可。本发明整个过程中避免了需要构建训练集和测试集和对训练集样本进行人工标注的问题;适用于较小数量的样品检测和减轻了人工工作量和干预误差。
Description
技术领域
本发明涉及分子生物学技术领域,具体涉及一种太赫兹光谱与均值漂移算法结合的转基因作物检测方法。
背景技术
转基因作物,是指利用基因工程将原有作物的基因加入其它生物的遗传物质,并将不良基因移除,从而造成品质更好的作物。自转基因作物商业化以来,全球转基因农作物种植面积呈急速增长趋势。目前,转基因作物种植品种主要以大豆、玉米、棉花和油菜四类作物为主。据有关数据统计,截止至2017年,全球转基因作物种植面积达1.898亿公顷。虽然跟传统农作物相比,转基因作物具有产量更高,抗旱、抗虫性更强的优点。但是,转基因作物对人体健康和生态环境产生的潜在危害同样不容忽视。
传统的转基因作物检测方法存在耗时、检测过程复杂、低效率的问题,难以满足快速检测的需要。太赫兹光谱作为一种新兴的光谱快速检测技术,它对分子间的弱相互作用、大分子的骨架振动、晶格低频振动等敏感。DNA、蛋白质等有机大分子在太赫兹频段内具有强烈的吸收和色散。与非转基因作物不同,转基因作物中含有转基因蛋白,因此借助太赫兹时域光谱有望实现转基因作物的快速检测。
中国发明文献CN103033479A公布了一种基于太赫兹时域光谱的峰谷鉴别转基因稻米的方法。该方法对待测稻米的鉴别是在时域中进行,通过对比待测稻米是否具有转基因稻米的波峰和波谷,实现转基因稻米检测。但是,样本太赫兹时域光谱的峰谷位置容易受样本厚度的影响。同类的样本会由于厚度不同,而使得时域光谱峰谷的位置发生移动。这给使用时域光谱鉴别带来了不确定性。相比于时域光谱,样本的频域光谱具有更为丰富的特征。
中国发明文献CN109443863A公布了一种基于样本折射率光谱鉴别转基因物质的方法。该方法对测量得到的时域信号进行计算,得到样本折射率谱,然后将待测样本的折射率谱与标准样本的折射率谱对比,实现转基因物质的检测。然而,该方法待测样本与标准样本折射率的对比,需要人工进行,当待测样本数量庞大时,人员的工作量急剧增加。
为了实现对待测样本的自动检测,中国发明文献CN105372202A公布了一种转基因棉花种子的识别方法。该方法将太赫兹光谱检测与支持向量机结合,建立了转基因棉花种子识别模型。
中国发明文献CN106959284A公布了一种区分转基因玉米和非转基因玉米的检测方法。该方法对比了LS-VM、BPNN、RF三种机器学习方法对太赫兹光谱数据建模结果,选取最优模型实现检测。
中国发明文献CN106918570A公布了一种基于光谱的转移因稻谷只能分类器,该分类器是使用主成分分析结合支持向量机来实现转基因稻谷分类。
然而上述的实现自动检测的方法,都属于有监督的学习方法,这类方法在实际使用中会遇到以下两个问题:
样本数量要求高:这一类方法将检测样本划分为训练集和测试集。其中,训练集是用来训练模型或确定模型参数。在使用有监督学习方法时,训练集中样本需要人工标注;即需要依靠标准数据库事先知道数据是属于哪类作物。模型经过训练集训练后,才能检测测试集中的样本是否属于转基因样本。当采集到的样本数量小时,划分为训练集的样本数量也会相应减少,这将会导致模型在训练过程中出现过拟合问题,影响模型的预测性能,甚至导致无法区分是否为转基因作物。
人工工作量较大:由于构建训练集时需要对训练集中的样本进行人工标注。当训练集中样本量较大时,需要耗费更多的工作量,同时容易因为人工误差导致训练集构建出现误差。
发明内容
本发明针对上述现有技术存在的问题,本发明的目的是提供一种太赫兹光谱与均值漂移算法结合的转基因作物检测方法。
为实现本发明的目的,通过以下技术方案予以实现:
一种太赫兹光谱与均值漂移算法结合的转基因作物检测方法,包括以下步骤:
(1)样本制备:将待测样品制成固体压片样本;
(2)样本光谱测量:对样本进行太赫兹时域光谱扫描,得到样本太赫兹吸收光谱;
(3)样本识别:利用PCA算法和Mean Shift算法对样本太赫兹吸收光谱进行分析。
优选地,在步骤(1)中:需要对待测样品干燥、研磨、过筛和压片。
进一步优选地,所述干燥为将待测样品在≥50℃下真空干燥至少1小时。
进一步优选地,所述研磨、过筛为将待测样品研磨后过≥150目筛子。
进一步优选地,所述压片的条件为≥8MPa,≥3min。
优选地,所述步骤(2)中,在测量样本前需要先测量没放置样本时的空气光谱作为参考时域光谱。
进一步优选地,对参考时域光谱和样本太赫兹时域光谱按下计算得到样本太赫兹吸收光谱:
其中Es(ω)是样本太赫兹时域光谱的傅里叶变换,Eref(ω)为参考时域光谱的傅里叶变换。
优选地,所述步骤(3)中,需要利用PCA算法对样本太赫兹吸收光谱进行降维处理;所述降维处理的原理为:
假设原始数据集为,通过奇异值分解得到三个矩阵:
X=UΛVT
其中,A是由X的奇异值构成的对角阵,
U和V分别是由特征向量按照列和行构成的正交矩阵;
在主成分分析中,U和Λ的乘积构成了得分矩阵T,得分矩阵T包含了所有主成分;矩阵V是载荷矩阵P;PCA表示为:
X=TPT
经过PCA算法处理后的数据作为Mean Shift算法的输入,实现检测。
进一步优选地,所述步骤(3)中,
假设在一个d维空间Rd中有n个样本xi,i=1,...,n,对于样本点x,Mean Shift算法定义为:
其中,k是在Sh中样本点个数;
而Sh是一个半径为h的高维球区域,其定义为:
Sh(x)={y|(y-x)T(y-x)≤h2}。
进一步优选地,所述步骤(3)中,Mean Shift算法的执行步骤如下:
(1)从没有标记的样本点中随机选取一个样本点作为起始中心点Center;
(2)选取以该中心点Center为中心,半径为h的区域中包含的所有未标记的样本点;将所选取的样本点归属于同一簇类C,记为集合M;
(3)计算从中心点Center开始到集合M中每个元素的向量,将这些向量相加,得到向量Mh(x);
(4)计算:
Center=Center+Mh(x);
(5)重复步骤(2)、(3)、(4),直到的值小于阈值ξ,记录下中心点Center,并将迭代过程中遇Mh(x)到的点均归类为簇类C;
(6)如果簇类C的中心Center与已存在的簇类C1的中心Center1之间的距离小于阈值ξ,则将两个簇类对应的样本点合并;如果大于阈值ξ则把簇类C定义为新类;
(7)重复步骤(1)-(5)直到所有的点都被标记为已访问;
(8)根据每个类,对每个样本点的访问频率,取访问频率最大的那个类,作为当前样本点集的所属类。
本发明将主成分分析(Principal component analysis,PCA)和均值漂移算法(Mean Shift)结合,提出了一种检测转基因农作物的方法,属于机器学习中的无监督学习方法。由于算法的优势,当样品中存不同品种的作物时,在无需构建训练集前提下即可将其自动区分成不同类别;当需要经一步具体指认某个样品是否为转基因作物时,只需标准数据库比对即可。本发明整个过程中避免了需要构建训练集和测试集和对训练集样本进行人工标注的问题;适用于较小数量的样品检测和减轻了人工工作量和干预误差。
附图说明
图1为本发明的流程示意图;
图2是使用本发明方法测量及处理后得到的转基因作物样本的太赫兹吸收系光谱;
图3是使用本发明方法得到检测结果;
图4是使用本发明方法所得检测结果的混淆矩阵。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
在具体实施例中,“样本(即待测样品)”包含5类:2种转基因棉花种子(鲁棉18、鑫秋638)、2种转基因玉米(GA21、MIR604)、1种非转基因玉米,并将所述“样本”作为盲样采用本发明方法进行检测,具体步骤如下:
(1)将所述样本粉末分别放入真空干燥箱,在50℃下干燥1小时;将干燥好的粉末分别置于玛瑙研钵中充分研磨,以减小粉末颗粒的直径,从而减小散射影响;
为了进一步避免由于粉末颗粒直径过大引起的散射影响,研磨后的粉末倒入150目不锈钢筛中过筛;
将经过上面步骤的粉末装入压片模具中,用压片机加压至8MPa压强保持3分钟,可以得到直径13mm,厚度1mm的圆形薄片。
合格的固体样本应是表面光滑且相互平行。对于不合格的样本,需要打碎重新压片。
(2)使用Zomega公司生产的Z-3太赫兹时域光谱仪,选择透射测量模式,对所述“样本”进行逐一测量。
为了消除随机误差,每个样本测量3次取平均后所得的光谱作为样本太赫兹时域光谱,并在测量每个样本光谱之前,先测量没放置样本时的空气光谱作为参考时域光谱;对样本和参考的时域光谱做快速傅里叶变换,按照公式(1)计算得到样本的吸收光谱。其中,Es(ω)是样本太赫兹时域光谱的傅里叶变换,Eref(ω)是参考信号时域光谱的傅里叶变换。图2为5种样本的吸收光谱。
所述的测量条件是:室温为23℃,湿度<1%.
(3)为了使得检测结果可视化,首先使用PCA对样本吸收光谱进行降维处理,然后将降维后的数据作为Mean Shift的输入,实现检测,并以混淆矩阵作为检测性能判断的依据。
针对样本吸收光谱是高维数据的特点,首先使用PCA进行降维,PCA的原理如下:
假设原始数据集为X,通过奇异值分解可得到三个矩阵:
X=UΛVT
其中,Λ是由X的奇异值构成的对角阵,U和V分别是由特征向量按照列和行构成的正交矩阵。
在主成分分析中,U和Λ的乘积构成了得分矩阵T,得分矩阵T包含了所有主成分。矩阵V是载荷矩阵P。因此,PCA可以表示为:
X=TPT
主成分是按照方差贡献率的大小进行降序排序的,方差贡献率最大的主成分称为第1主成分,依次类推。将多个主成分的方差贡献率相加,可得到方差累积贡献率。在本方法中,主成分个数的选取依据方差累计贡献率准则,当方差累积贡献率达到85%以上时,认为相应的主成分包含了原始数据的绝大多数信息。
将经过PCA处理后的数据作为Mean Shift的输入,实现检测。
假设在一个d维空间Rd中有n个样本xi,i=1,...,n,对于样本点x,Mean Shift向量定义为:
其中,k是在Sh中样本点个数。
而Sh是一个半径为h的高维球区域,其定义为:
Sh(x)={y|(y-x)T(y-x)≤h2}
则Mean Shift的执行步骤如下:
①从没有标记的样本点中随机选取一个样本点作为起始中心点Center;
②选取以该中心点Center为中心,半径为h的区域中包含的所有未标记的样本点。将所选取的样本点归属于同一簇类C,记为集合M;
③计算从中心点Center开始到集合M中每个元素的向量,将这些向量相加,得到向量Mh(x);
④:
Center=Center+Mh(x)。
即Center沿着Mh(x)的方向移动,移动距离是||Mh(x)||。
⑤重复步骤(2)、(3)、(4),直到Mh(x)的值小于阈值ξ,此时任务迭代收敛,记录下中心点Center,并将迭代过程中遇到的点均归类为簇类C;
⑥如果簇类C的中心Center与已存在的簇类C1的中心Center1之间的距离小于阈值ξ,则将两个簇类对应的样本点合并。反之,则把簇类C定义为新类。
⑦重复步骤(1)-(5)直到所有的点都被标记为已访问。
⑧根据每个类,对每个样本点的访问频率,取访问频率最大的那个类,作为当前样本点集的所属类。
图3由Mean Shift得到的结果。从图3看到测试样本被分为5类,然后与标准数据库比对分别指出各样本的具体归属;与实际样本类别吻合。其中,非转基因玉米、转基因玉米MIR604、转基因玉米GA21三种类别具有很好的区分度,鲁棉18有2个样本被误判为鑫秋638。混淆矩阵如图4所示,数据基本集中在对角线上,表明提出的方法可信可靠,可用于对转基因农作物检测。
Claims (10)
1.一种太赫兹光谱与均值漂移算法结合的转基因作物检测方法,其特征在于包括以下步骤:
(1)样本制备:将待测样品制成固体压片样本;
(2)样本光谱测量:对样本进行太赫兹时域光谱扫描,得到样本太赫兹吸收光谱;
(3)样本识别:利用PCA算法和Mean Shift算法对样本太赫兹吸收光谱进行分析。
2.根据权利要求1所述的太赫兹光谱与均值漂移算法结合的转基因作物检测方法,其特征在于,在步骤(1)中:需要对待测样品干燥、研磨、过筛和压片。
3.根据权利要求2所述的太赫兹光谱与均值漂移算法结合的转基因作物检测方法,其特征在于:所述干燥为将待测样品在≥50℃下真空干燥至少1小时。
4.根据权利要求2所述的太赫兹光谱与均值漂移算法结合的转基因作物检测方法,其特征在于:所述研磨、过筛为将待测样品研磨后过≥150目筛子。
5.根据权利要求2所述的太赫兹光谱与均值漂移算法结合的转基因作物检测方法,其特征在于:所述压片的条件为≥8MPa,≥3min。
6.根据权利要求1所述的太赫兹光谱与均值漂移算法结合的转基因作物检测方法,其特征在于:所述步骤(2)中,在测量样本前需要先测量没放置样本时的空气光谱作为参考时域光谱。
8.根据权利要求1所述的太赫兹光谱与均值漂移算法结合的转基因作物检测方法,其特征在于:所述步骤(3)中,需要利用PCA算法对样本太赫兹吸收光谱进行降维处理;所述降维处理的原理为:
假设原始数据集为X,通过奇异值分解得到三个矩阵:
X=UΛVT
其中,Λ是由X的奇异值构成的对角阵,
U和V分别是由特征向量按照列和行构成的正交矩阵;
在主成分分析中,U和Λ的乘积构成了得分矩阵T,得分矩阵T包含了所有主成分;矩阵V是载荷矩阵P;PCA表示为:
X=TPT
经过PCA算法处理后的数据作为Mean Shift算法的输入,实现检测。
10.根据权利要求9所述的太赫兹光谱与均值漂移算法结合的转基因作物检测方法,其特征在于:所述步骤(3)中,Mean Shift算法的执行步骤如下:
(1)从没有标记的样本点中随机选取一个样本点作为起始中心点Center;
(2)选取以该中心点Center为中心,半径为h的区域中包含的所有未标记的样本点;将所选取的样本点归属于同一簇类C,记为集合M;
(3)计算从中心点Center开始到集合M中每个元素的向量,将这些向量相加,得到向量Mh(x);
(4)计算:
Center=Center+Mh(x);
(5)重复步骤(2)、(3)、(4),直到Mh(x)的值小于阈值ξ,记录下中心点Center,并将迭代过程中遇到的点均归类为簇类C;
(6)如果簇类C的中心Center与已存在的簇类C1的中心Center1之间的距离小于阈值ξ,则将两个簇类对应的样本点合并;如果大于阈值ξ则把簇类C定义为新类;
(7)重复步骤(1)-(5)直到所有的点都被标记为已访问;
(8)根据每个类,对每个样本点的访问频率,取访问频率最大的那个类,作为当前样本点集的所属类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010802260.6A CN111912816A (zh) | 2020-08-11 | 2020-08-11 | 太赫兹光谱与均值漂移算法结合的转基因作物检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010802260.6A CN111912816A (zh) | 2020-08-11 | 2020-08-11 | 太赫兹光谱与均值漂移算法结合的转基因作物检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111912816A true CN111912816A (zh) | 2020-11-10 |
Family
ID=73284094
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010802260.6A Pending CN111912816A (zh) | 2020-08-11 | 2020-08-11 | 太赫兹光谱与均值漂移算法结合的转基因作物检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111912816A (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104237143A (zh) * | 2013-06-08 | 2014-12-24 | 青岛科技大学 | 一种基于太赫兹光谱的固体农药鉴别方法 |
CN105718942A (zh) * | 2016-01-19 | 2016-06-29 | 重庆邮电大学 | 基于均值漂移和过采样的高光谱图像不平衡分类方法 |
CN106525759A (zh) * | 2016-10-11 | 2017-03-22 | 中国农业大学 | 一种基于衰减全反射太赫兹介电谱鉴别蜂蜜品种的方法 |
CN108279217A (zh) * | 2018-04-28 | 2018-07-13 | 江苏建筑职业技术学院 | 一种基于太赫兹时域光谱的煤岩判别方法 |
CN109459407A (zh) * | 2019-01-15 | 2019-03-12 | 玉林师范学院 | 一种基于太赫兹光谱的定性检测茶叶中农药残留的方法 |
CN110308108A (zh) * | 2019-07-15 | 2019-10-08 | 山东省科学院自动化研究所 | 基于太赫兹时域光谱技术的黄芩苷含量检测方法及系统 |
CN110765916A (zh) * | 2019-10-17 | 2020-02-07 | 北京中科原动力科技有限公司 | 一种基于语义和实例分割的农田苗垄识别方法及系统 |
US20200217790A1 (en) * | 2019-01-09 | 2020-07-09 | University Of Shanghai For Science And Technology | Method for qualitative and quantitative determination of key substances in mixture based on terahertz spectrum |
-
2020
- 2020-08-11 CN CN202010802260.6A patent/CN111912816A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104237143A (zh) * | 2013-06-08 | 2014-12-24 | 青岛科技大学 | 一种基于太赫兹光谱的固体农药鉴别方法 |
CN105718942A (zh) * | 2016-01-19 | 2016-06-29 | 重庆邮电大学 | 基于均值漂移和过采样的高光谱图像不平衡分类方法 |
CN106525759A (zh) * | 2016-10-11 | 2017-03-22 | 中国农业大学 | 一种基于衰减全反射太赫兹介电谱鉴别蜂蜜品种的方法 |
CN108279217A (zh) * | 2018-04-28 | 2018-07-13 | 江苏建筑职业技术学院 | 一种基于太赫兹时域光谱的煤岩判别方法 |
US20200217790A1 (en) * | 2019-01-09 | 2020-07-09 | University Of Shanghai For Science And Technology | Method for qualitative and quantitative determination of key substances in mixture based on terahertz spectrum |
CN109459407A (zh) * | 2019-01-15 | 2019-03-12 | 玉林师范学院 | 一种基于太赫兹光谱的定性检测茶叶中农药残留的方法 |
CN110308108A (zh) * | 2019-07-15 | 2019-10-08 | 山东省科学院自动化研究所 | 基于太赫兹时域光谱技术的黄芩苷含量检测方法及系统 |
CN110765916A (zh) * | 2019-10-17 | 2020-02-07 | 北京中科原动力科技有限公司 | 一种基于语义和实例分割的农田苗垄识别方法及系统 |
Non-Patent Citations (4)
Title |
---|
BE-REAL: "机器学习:均值漂移(Mean Shift)详细解释", 《CSDN-机器学习专栏》 * |
李英浩: "太赫兹宽带信号的盲检测研究", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》 * |
董儒汲: "连续太赫兹同轴数字全息再现像图像分割研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
覃斌毅: "太赫兹光谱结合化学计量在农...药残留快速检测中的应用研究", 《中国博士学位论文全文数据库 工程科技Ⅰ辑》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Xie et al. | A deep-learning-based real-time detector for grape leaf diseases using improved convolutional neural networks | |
Khatri et al. | Wheat seed classification: utilizing ensemble machine learning approach | |
CN101819141B (zh) | 基于近红外光谱与信息处理的玉米品种鉴别方法 | |
CN103048273A (zh) | 基于模糊聚类的水果近红外光谱分类方法 | |
CN105548066A (zh) | 一种胶体种类区分方法及系统 | |
CN106124445A (zh) | 一种快速、无损鉴别转基因大豆方法 | |
CN104215591A (zh) | 一种可见-近红外光谱无损判别的方法 | |
Wu et al. | Deep convolution neural network with weighted loss to detect rice seeds vigor based on hyperspectral imaging under the sample-imbalanced condition | |
Tu et al. | A model for genuineness detection in genetically and phenotypically similar maize variety seeds based on hyperspectral imaging and machine learning | |
Zhao et al. | Study on the classification method of rice leaf blast levels based on fusion features and adaptive-weight immune particle swarm optimization extreme learning machine algorithm | |
CN114399674A (zh) | 一种基于高光谱图像技术的贝类毒素无损快速检测方法及系统 | |
CN104345045A (zh) | 一种基于化学模式识别和近红外光谱的相似药材鉴别方法 | |
CN105869161B (zh) | 基于图像质量评价的高光谱图像波段选择方法 | |
Wang et al. | Intelligent detection of hard seeds of snap bean based on hyperspectral imaging | |
CN111309577A (zh) | 一种面向Spark的批处理应用执行时间预测模型构建方法 | |
Wu et al. | Variety identification of Chinese cabbage seeds using visible and near-infrared spectroscopy | |
Jiang et al. | Classification of Camellia species from 3 sections using leaf anatomical data with back-propagation neural networks and support vector machines | |
CN111912816A (zh) | 太赫兹光谱与均值漂移算法结合的转基因作物检测方法 | |
Rathna Priya et al. | Characterising corn grain using infrared imaging and spectroscopic techniques: a review | |
Xu et al. | Hyperspectral imaging with machine learning for non-destructive classification of Astragalus membranaceus var. mongholicus, Astragalus membranaceus, and similar seeds | |
CN106546553A (zh) | 一种转基因大豆油的快速无损鉴别方法 | |
Li et al. | Genetic algorithms (GAs) and evolutionary strategy to optimize electronic nose sensor selection | |
Zhao et al. | Electrochemical fingerprints identification of tea based on one-dimensional convolutional neural network | |
Lilhare et al. | Classification of paddy Varieties using Image processing | |
Gupta et al. | Survey on Tea Discriminator |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20201110 |