CN110376153B - 一种atr-ftir结合rbf神经网络对市售西红花产地溯源的方法 - Google Patents
一种atr-ftir结合rbf神经网络对市售西红花产地溯源的方法 Download PDFInfo
- Publication number
- CN110376153B CN110376153B CN201910494461.1A CN201910494461A CN110376153B CN 110376153 B CN110376153 B CN 110376153B CN 201910494461 A CN201910494461 A CN 201910494461A CN 110376153 B CN110376153 B CN 110376153B
- Authority
- CN
- China
- Prior art keywords
- saffron
- data
- sample
- model
- ftir
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 244000124209 Crocus sativus Species 0.000 title claims abstract description 97
- 235000015655 Crocus sativus Nutrition 0.000 title claims abstract description 97
- 235000013974 saffron Nutrition 0.000 title claims abstract description 83
- 239000004248 saffron Substances 0.000 title claims abstract description 83
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 22
- 238000004483 ATR-FTIR spectroscopy Methods 0.000 title claims 3
- 238000004519 manufacturing process Methods 0.000 claims abstract description 33
- 238000007781 pre-processing Methods 0.000 claims abstract description 22
- 230000003595 spectral effect Effects 0.000 claims abstract description 16
- 238000002329 infrared spectrum Methods 0.000 claims abstract description 14
- 238000005033 Fourier transform infrared spectroscopy Methods 0.000 claims abstract description 9
- 238000012545 processing Methods 0.000 claims abstract description 6
- 238000012549 training Methods 0.000 claims description 18
- 238000012360 testing method Methods 0.000 claims description 15
- 238000012937 correction Methods 0.000 claims description 10
- 238000001035 drying Methods 0.000 claims description 9
- 210000002569 neuron Anatomy 0.000 claims description 6
- SBIBMFFZSBJNJF-UHFFFAOYSA-N selenium;zinc Chemical compound [Se]=[Zn] SBIBMFFZSBJNJF-UHFFFAOYSA-N 0.000 claims description 6
- 239000000843 powder Substances 0.000 claims description 5
- 238000005259 measurement Methods 0.000 claims description 4
- 239000013078 crystal Substances 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 2
- 238000004458 analytical method Methods 0.000 abstract description 18
- 238000005516 engineering process Methods 0.000 abstract description 12
- 238000003306 harvesting Methods 0.000 abstract description 7
- 238000011160 research Methods 0.000 abstract description 5
- 238000003860 storage Methods 0.000 abstract description 5
- 238000005102 attenuated total reflection Methods 0.000 abstract description 2
- 239000003814 drug Substances 0.000 abstract description 2
- 238000001228 spectrum Methods 0.000 description 13
- 239000000463 material Substances 0.000 description 7
- 238000003062 neural network model Methods 0.000 description 6
- SEBIKDIMAPSUBY-ARYZWOCPSA-N Crocin Chemical compound C([C@H]1O[C@H]([C@@H]([C@@H](O)[C@@H]1O)O)OC(=O)C(C)=CC=CC(C)=C\C=C\C=C(/C)\C=C\C=C(C)C(=O)O[C@H]1[C@@H]([C@@H](O)[C@H](O)[C@@H](CO[C@H]2[C@@H]([C@@H](O)[C@H](O)[C@@H](CO)O2)O)O1)O)O[C@@H]1O[C@H](CO)[C@@H](O)[C@H](O)[C@H]1O SEBIKDIMAPSUBY-ARYZWOCPSA-N 0.000 description 5
- SEBIKDIMAPSUBY-JAUCNNNOSA-N Crocin Natural products CC(=C/C=C/C=C(C)/C=C/C=C(C)/C(=O)OC1OC(COC2OC(CO)C(O)C(O)C2O)C(O)C(O)C1O)C=CC=C(/C)C(=O)OC3OC(COC4OC(CO)C(O)C(O)C4O)C(O)C(O)C3O SEBIKDIMAPSUBY-JAUCNNNOSA-N 0.000 description 5
- 238000000513 principal component analysis Methods 0.000 description 5
- 235000003255 Carthamus tinctorius Nutrition 0.000 description 4
- 244000020518 Carthamus tinctorius Species 0.000 description 4
- 238000010521 absorption reaction Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 239000010410 layer Substances 0.000 description 4
- 239000000126 substance Substances 0.000 description 4
- 238000005452 bending Methods 0.000 description 3
- 238000007405 data analysis Methods 0.000 description 3
- 239000008280 blood Substances 0.000 description 2
- 210000004369 blood Anatomy 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 239000001209 crocus sativus l. Substances 0.000 description 2
- 238000002790 cross-validation Methods 0.000 description 2
- 230000001186 cumulative effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000002994 raw material Substances 0.000 description 2
- 210000004243 sweat Anatomy 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000017260 vegetative to reproductive phase transition of meristem Effects 0.000 description 2
- 235000007516 Chrysanthemum Nutrition 0.000 description 1
- 244000189548 Chrysanthemum x morifolium Species 0.000 description 1
- 241001515002 Elaeodendron croceum Species 0.000 description 1
- 241000196324 Embryophyta Species 0.000 description 1
- 238000001157 Fourier transform infrared spectrum Methods 0.000 description 1
- 241001636356 Irania Species 0.000 description 1
- 241001113425 Iridaceae Species 0.000 description 1
- 240000002853 Nelumbo nucifera Species 0.000 description 1
- 235000006508 Nelumbo nucifera Nutrition 0.000 description 1
- 235000006510 Nelumbo pentapetala Nutrition 0.000 description 1
- 229920001131 Pulp (paper) Polymers 0.000 description 1
- 240000008042 Zea mays Species 0.000 description 1
- 235000005824 Zea mays ssp. parviglumis Nutrition 0.000 description 1
- 235000002017 Zea mays subsp mays Nutrition 0.000 description 1
- 125000003158 alcohol group Chemical group 0.000 description 1
- 125000003172 aldehyde group Chemical group 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000011681 asexual reproduction Effects 0.000 description 1
- 238000013465 asexual reproduction Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000017531 blood circulation Effects 0.000 description 1
- 238000007664 blowing Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 125000002915 carbonyl group Chemical group [*:2]C([*:1])=O 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000004087 circulation Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000001816 cooling Methods 0.000 description 1
- 235000005822 corn Nutrition 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000004090 dissolution Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000004134 energy conservation Methods 0.000 description 1
- 125000002485 formyl group Chemical class [H]C(*)=O 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000009659 non-destructive testing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 231100000614 poison Toxicity 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 238000002203 pretreatment Methods 0.000 description 1
- 238000012847 principal component analysis method Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 239000002344 surface layer Substances 0.000 description 1
- 239000003440 toxic substance Substances 0.000 description 1
- 235000013619 trace mineral Nutrition 0.000 description 1
- 239000011573 trace mineral Substances 0.000 description 1
- 230000002936 tranquilizing effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 238000011179 visual inspection Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N21/00—Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
- G01N21/17—Systems in which incident light is modified in accordance with the properties of the material investigated
- G01N21/25—Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
- G01N21/31—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry
- G01N21/35—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light
- G01N21/3563—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light for analysing solids; Preparation of samples therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N21/00—Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
- G01N21/17—Systems in which incident light is modified in accordance with the properties of the material investigated
- G01N21/25—Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
- G01N21/31—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry
- G01N21/35—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light
- G01N2021/3595—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light using FTIR
Landscapes
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Immunology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Biochemistry (AREA)
- Molecular Biology (AREA)
- Pathology (AREA)
- Analytical Chemistry (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Chemical & Material Sciences (AREA)
- Computer Hardware Design (AREA)
- Geometry (AREA)
- Investigating Or Analysing Materials By Optical Means (AREA)
Abstract
本发明涉及中药材鉴别技术领域,公开了一种ATR‑FTIR结合RBF神经网络对市售西红花产地溯源的方法,包括1)样品预处理;2)红外光谱数据采集;3)光谱数据预处理;4)代入模型:将步骤3)所得数据代入RBF神经网络溯源模型中,根据结果判断样品的产地。本发明以收集到的7个不同国家生产的129份西红花样品作为研究对象,利用ATR‑FTIR联合的计量学分析技术,建立对分析样品限制较少的(无需考虑采收年份、加工、存储、品牌、等级等因素)西红花产地判别模型,本发明方法精准性高、分析速度快、样品消耗少、检测费用低,无需标准品。
Description
技术领域
本发明涉及中药材鉴别技术领域,尤其涉及一种ATR-FTIR结合RBF神经网络对市售西红花产地溯源的方法。
背景技术
西红花,为鸢尾科植物番红花Crocus sativus L.的干燥红色柱头,具有活血化瘀,凉血解毒,解郁安神的功效,是浙江省新“浙八味”品种之一。西红花原产于地中海地区,全球主要产区在伊朗南部的呼罗珊地区,1986年我国开始在上海崇明岛、浙江建德引种栽培。尽管上海、浙江是新引种地,但由于不同的栽培模式,西红花品质质量远高于伊朗等主产区。从市场售价来看,伊朗西红花的价格在15~20元/g,而浙江产西红花的售价则达25~30元/g。目前,市场上销售的西红花药材存在2种现象:①西红花药材中掺入其他相似植物。常见西红花药材掺入红花、菊花,玉米须,莲须,纸浆等相似物,通常可利用西红花独特的水中溶解特性或者辅助仪器加以区分。②西红花产地不清,进口西红花与国产西红花易混淆,以次充好。而如何鉴别西红花产地则是一个难题,西红花为3倍体无性繁殖,种间差异小,进口西红花与国产西红花基源、成分类型相同,仅凭有效成分西红花苷含量差异难以对西红花的产地进行判别(浙江产西红花苷含量27.6%~4.94%,伊朗产西红花苷含量19.09%)。
目前已报道的西红花产地溯源研究中,西红花样品多为同一时间段内采收,同一加工储存条件下进行产地判别。对于市场上销售的不同采收年份、不同干燥方式的西红花样品产地判别几乎没有研究。产地溯源的分析技术产生的数据内在与化学成分(包括微量元素)含量存在一定相关性,故西红花采集时间相同,加工方式相同,储存条件一致其影响化学成分变化的变异因素就越少,变异系数越小,产地判别就越容易。但是市售西红花因具有商品的流通性,商家的采收年份、干燥方式、储存条件具有多样性,因此,对于市售西红花产品的产地溯源技术难度要远高于现有技术中西红花的产地判别技术难度。
为此,亟需开发出一种能够针对市售西红花产品进行准确、快速、低成本产地溯源的方法。
发明内容
针对市场上销售的西红花产地不清,消费者无法正确对市售西红花的产地判别这一现实性问题,本发明提供了一种ATR-FTIR结合RBF神经网络对市售西红花产地溯源的方法,本发明以收集到的7个不同国家生产的129份西红花样品作为研究对象,利用ATR-FTIR联合的计量学分析技术,建立对分析样品限制较少的(无需考虑采收年份、加工、存储、品牌、等级等因素)西红花产地判别模型,本发明方法精准性高、分析速度快、样品消耗少、检测费用低,无需标准品。
本发明的具体技术方案为:一种ATR-FTIR结合RBF神经网络对市售西红花产地溯源的方法,包括以下步骤:
1)样品预处理:对待检的西红花干燥柱头样品进行粉碎、干燥处理,得到西红花样品粉末。
2)红外光谱数据采集:将ZnSe ATR附件放置于FTIR光谱仪中,将西红花样品粉末置于ZnSe晶体与校正压力装置之间的凹槽内,每次所用机械校正压力保持不变,测定样品的 ATR-FTIR数据;测定前对背景进行扫描,得到的红外光谱采用自动校正方法进行基线校正。
3)光谱数据预处理:选取步骤3)所得数据中波段为500-1180cm-1与1490-1800cm-1部分数据,将其导入SIMCA-P 11.5软件中,进行小波去噪法数据预处理。
4)代入模型:将步骤3)所得数据代入RBF神经网络溯源模型中,根据结果判断样品的产地。
本发明团队在前期研究了解到,采收年份、干燥方式和储存时间均显著影响西红花的有效成分,每个环节的数据的不可控性相互叠加,使得市售西红花的产地判别变得更加复杂。例如干燥温度不同,西红花有效成分差异可达45%。为实现市售西红花的产地溯源,①在选择分析手段时,既要保证数据信息量的全面性,对特征数据信息均有采集,不遗失关键数据。②还要选择高效的数据分析模型,既能精准地将西红花产地进行区分,且运算速度能满足方法开发的需求。在此背景下,研发获得了上述西红花产地溯源方法。
作为优选,步骤1)中,所述西红花样品在收集后储存于干燥环境中。
作为优选,步骤1)中,所述西红花样品粉碎过60-100目筛;干燥条件为35-45℃、20-30h。
作为优选,步骤2)中,仪器操作环境温度为18-22℃。
,步骤4)中,所述RBF神经网络溯源模型的建立方法如下:
A)样品预处理:与步骤1)的区别在于,所述样品取自各大产地。
B)红外光谱数据采集:同步骤2)。
C)光谱数据预处理:同步骤3)。
D)模型建立:将各产地的样品随机分为两部分:训练集和测试集;所述训练集用于建立模型,所述测试集用于验证模型;将步骤C)预处理后数据作为输入变量,产地变量作为输出变量导入MATLAB,数据进行归一化处理,得到模型。
本发明在模型建立过程中,在结合理论指导的情况下进行了大量的摸索试验,对每一步骤中所选择而得方法进行了分析比对,从而获得了从整体上来看最为精准、高效率、低成本的模型。例如,在光谱数据预处理方法、模型建立方法上进行了大量的试验,最终发现小波去噪结合RBF神经网络建模所得的模型综合性最为理想。
作为优选,步骤D)中,所述训练集和测试集的数量比为(2.5-3.5)∶1。
训练集中样本的数量过少,会影响预测的准确度,过多,易造成过度拟合。因此,训练集和测试集的样本数大致为上述比例。
作为优选,步骤D)中,在模型建立过程中,选择6个神经元,学习速度为0.05,误差为0.65*10-3,迭代次数为5000次。
根据RBF神经网络的设计原理,预测判断可通过隐含层的神经网络来实现,当隐含层设为6个神经元时,发现对每次学习的结果差别不大,比较稳定。因此选择6个神经元,学习的速度是0.05,误差是0.65*10-3,迭代的次数是5000次。
作为优选,步骤4)中,所述产地分为中国产地、地中海地区产地、伊朗-阿富汗产地。
与现有技术对比,本发明的有益效果是:
1、西红花药材价格昂贵,在产地溯源分析技术选择上尽可能选择无损测定技术,且还要保证分析结果的有效性和可靠性,这给市售西红花的产地溯源技术带来了一定的困难。像HPLC 方法、液质联用方法、气相质谱法、同位素法、电感耦合等离子体质谱法、核磁共振方法常用的溯源分析技术,均无法做到无损,本发明在分析技术上选择ATR-FTIR光谱分析技术, FTIR技术可以用来检测各种不同的化学分子,并且对于同时出现的不同种类化学物质具有相当高的鉴别率,但是需要压片,无法做到无损测定。ATR技术是一种表面取样技术,获得的主要是样品表面层的光谱信息,ATR结合FTIR光谱技术可以做到西红花样品无损测定,显示出本发明的经济性和环保性。
2、本发明利用小波去噪预处理方法结合RBF神经网络模型可以实现对市售西红花3 大区域的产地判别。常见的产地溯源方法一般集中在一定的区域范围内,区域划分内在与空间地域、西红花种植模式等因素有密切的内在联系,很难做到对区域跨度如此大的产地溯源。本发明根据西红花全球的产区地域分类角度去将西红花分为中国产区,伊朗阿富汗产区及地中海产区(产地包括意大利、摩洛哥、希腊、西班牙),3大区域的分类具有一定独创性,符合西红花全球主要产区的划分特点。伊朗阿富汗地区是最早西红花的种植区域,也是市售西红花产量最大的地区,全球西红花产量的80%均出自该地区。地中海地区包括了地中海沿岸的欧洲、非洲国家,产量虽然无法和伊朗比较,但该地区西红花品质较伊朗高,特别是意大利、希腊、及西班牙对西红花的科研投入较大,对西红花品质把控严格。中国是西红花新的引种国家,目前在上海、浙江、江苏、河南等地有种植,相比传统的西红花种植国家,中国的西红花种植历史还比较短。中国西红花种植采取二段式种植模式,与伊朗连续栽培模式不同,二段式种植可人为调节开花期间的温湿度和光线条件,有效保证了开花率,因此,花丝产量和品质明显高于连续栽培的西红花种植地区。
3、本发明是将市售西红花作为研究对象,仅针对现实中产地不清这一问题,未考虑采收年份、药材等级、干燥方式等因素。研究表明西红花等级因素、采收时间、成分含量等均对样本光谱信息造成影响,进而影响化学计量学模型的判断,造成一定的误判率。在ATR-FTIR 光谱分析技术中选择了最具有判断意义的波长区间500-1180cm-1+1490-1800cm-1;为去除背景和噪音信息干扰,选择了小波去噪的数据预处理方法;比较了不同建模方法对西红花产地判别的正确率,最后以判别正确率最高的RBF神经网络作为本发明的建模方法。即使如此,化学计量学分析结果显示,RBF神经网络对训练集和预测集的产地识别率均未达到100%。对于市售西红花而言,本方法已经能满足西红花3大区域的划分,能较准确的对市售西红花进行产地溯源。
附图说明
图1为实施例1中129个西红花样品的ATR-FTIR光谱图;
图2为实施例1中西红花主成分分析3D图。
具体实施方式
下面结合实施例对本发明作进一步的描述。
实施例1
1材料与仪器
1.1样品
所有西红花样品均为市场销售的西红花药材,经周桂芬副教授鉴定为番红花(Crocus sativus L.)的干燥柱头。129个市售样品地理产地分别为中国(n=42)(其中包括浙江(n=21),上海(n=11),江苏(n=10)),意大利(n=8),摩洛哥(n=12),希腊(n=12),西班牙(n=14),阿富汗(n=19),伊朗(n=22),每组样本量以n来表示。中国产的西红花样品通过国内药材销售企业或零售商购得,其他国家的样品通过国内药材经销商或电子商务销售渠道购得。由于本研究是对不同产地的市售西红花进行研究,所以样品的收集不考虑采收年份、品牌、等级因素,但所有样品需要明确其产地信息。
西红花样品收集后储存在干燥器中直至分析。分析前,西红花样品碾钵粉碎,过80目筛。为了消除或减少水分差异对光谱采集的影响,分析前所有样品放入40℃烘箱干燥24h。
1.2仪器
傅里叶变换红外光谱仪(德国Bruker公司)Tensor 27,DLATGS检测器,光谱范围4000~ 400cm-1,分辨率为2cm-1,扫描累加次数为64次,HATR附件。BGZ-246电热鼓风干燥箱(上海博迅医疗生物仪器股份有限公司)。样品的原始光谱数据通过软件OPUS 6.5(Bruker公司) 采集。
2方法与结果
2.1红外光谱数据采集
在采集数据前,按仪器测试要求将ZnSe ATR附件放置于FTIR光谱仪中,仪器操作在20℃环境温度。将西红花样品粉末置于ZnSe晶体与校正压力装置之间的凹槽内,每次所用机械校正压力保持不变,分别测定各样品的ATR-FTIR数据。每个样品测定前均对背景进行扫描,得到的红外光谱采用自动校正方法进行基线校正,所得红外图谱见图1。
2.2ATR-FTIR图谱解析与表征.
图1为129个西红花样品的原始ATR-FTIR光谱,所有样本的原始光谱图的趋势是基本一致的。在3330cm-1处都出现了一个宽大的谱峰,这个吸收峰归属于游离或缔结的O-H的伸缩振动。波长在2970-2815cm-1之间的两个峰归属于C-H伸缩振动,这两个峰可能与西红花挥发性成分藏红花醛中的醛基相关。西红花中主要成分分西红花苷是7个双键的共轭体系,在 1655cm-1附近的C=O伸缩振动由于共轭体系影响,相比其他羰基结构的化合物其吸收值偏于更低的波数。1612cm-1波段归属为C-C骨架振动,1440-1194cm-1处的谱带的为O=C-O基团的伸缩振动以及醇基基团的弯曲振动和水平振动。1024-1054cm-1波段的强峰是C-O-糖基团的特征,这也是西红花中西红花苷糖苷键的特征区域。893-930cm-1处和720-752cm-1处分别对应双键反式C-H面外弯曲和顺式C-H面外弯曲。从不同地区西红花样品的光谱图可以看出,它们之间在一些波段区域有显著的差异,尽管如此,通过肉眼观察光谱以区分不同来源的样品是比较困难的。因此,红外光谱数据需要通过模式识别方法去进一步分析。
2.3光谱区间选择和化学计量学分析方法
在进行光谱数据预处理和化学计量学分析之前,对ATR-FTIR光谱进行了有效信息的筛选,减少冗杂的无用数据对产地判别的干扰。选择500-1800cm-1区域的吸收峰作为西红花产地判别的数据来源,除去了以H2O和CO2为主要干扰的1800-4000cm-1波段,以及400-500cm-1区域的噪音干扰。并且为进一步提高效率,从500-1800cm-1波段中进一步筛选有效波段,将最终选定的波段区域作为红外光谱分析“指纹区”。
将500-1800cm-1波段的指纹区继续进一步细化,分为860cm-1、1180cm-1、1490cm-1三
个节点,共计四个波段。进行排列组合,分析有效波段的判别准确率。(详见示例1)
序号 | 波段/cm<sup>-1</sup> |
1 | 500-860 |
2 | 860-1180 |
3 | 1180-1490 |
4 | 1490-1800 |
通过分析不同波段的准确识别比率,目的是找到最短的可靠区间,减少红外的扫描波段,进而减少扫描时间,体现出本方法高效、节能、环保的优点。
比较发现1+2+4波段组合结合小波去噪(WD)的RBF神经网络判别正确率最高,达96.6%,最终选定500-1180cm-1+1490-1800cm-1两个区间作为本次ATR-FTIR分析选择的波长区间。
示例1不同波长的WD+RBF 3大产地判别结果
将129个西红花柱头样品ATR-FTIR光谱指纹匹数据导入SIMCA-P 11.5(Umetrics,Sweden) 软件和MATLAB 7.11(Mathworks Inc.,USA)软件。SIMCA-P用于原始数据的预处理和主成分分析(Principal component analysis,PCA),MATLAB用于径向基函数(Radialbasis function,RBF)神经网络模型的建立。
2.4光谱数据预处理方法
西红花原始光谱图存在背景和噪音信息干扰,为达到最大化样品之间所需信息的变异性和最小化无关信息,将原始光谱数据进行预处理,减少噪音信息。不同的预处理方法会使结果有所差异,本研究对以下5种不同的信号预处理方法进行比较,以改善西红花产地判别模型性能。
2.4.1多元散射校正可以有效地消除散射影响,增强差异位点的光谱吸收信息,提高光谱的信噪比。
2.4.2标准正态变换主要是用来消除物体的表面散射、固态物体颗粒的大小以及光程大小的变化对红外光谱的影响。
2.4.3一阶导数主要作用是基线校正,原始光谱通过求导变换可有效地消除基线和其它背景的干扰,从而提高灵敏度和分辨率。
2.4.4二阶导数类似一阶导数,除可以基线校正,还能消除线性趋势。
2.4.5小波去噪是一种信号时频分析法,具有多分辨率的特点,在频域和时域有表征该信号局部信息的能力。通过小波变换可以容易地分离出噪声或其他我们不需要的信息,小波去噪在特征信息保留和保护分析精度上具有优势。
2.5.主成分分析
红外光谱指纹区仍有468个数据节点,形成468×129数据矩阵,数据信息繁杂庞大,且之间具有多重共线性,因此用主成分分析的方法对数据进行降维处理。对129份样品提取特征信息,最终选取3个有效主成分(见表1),其方差贡献率分别为89.2%、6.8%和1.2%,累计贡献率可以达到97.1%,3个主成分基本能代表整个光谱信息。从表1可见,主成分交叉验证正确率较高,证明其构建方法有效、可靠。
表1.129个西红花样品红外图谱指纹区5个主成分特征值和累计可信度
主成分 | 特征值 | 方差贡献率 | 累计贡献率 | 交叉验证率 | 累计验证率 |
PC1 | 107 | 89.2% | 89.2% | 89.1% | 89.1% |
PC2 | 8.16 | 6.8% | 95.9% | 61.9% | 95.8% |
PC3 | 1.44 | 1.2% | 97.1% | 28.3% | 97.0% |
将西红花样品的3个主成分得分作3D图,图2可见129份不同国家产地的西红花样品大致可分成3个主要趋势,对照每个数据点地理信息,将西红花129个样品产地划分成3大区域,分别为中国产区,伊朗阿富汗产区及地中海产区(产地包括意大利、摩洛哥、希腊、西班牙),且每个产区样品相对趋于集中。主成分分析结果表明,该方法可以对不同产地西红花进行产地判别,区分出3个不同地理区域。但是主成分分析只能对已知的西红花产地提供聚类信息,不能对未知产地的西红花进行产地判别,为得到更为准确、可靠的信息,还需借助计量学模型进行判别分析。
2.6 RBF神经网络溯源模型
在RBF神经网络识别模型数据分析前,将3大产地区域共129个样本,随机分为两部分:训练集和测试集。为保证数据的公平分配,尽量减少人为因素的干扰,所以由计算机生成129 个随机数,每个随机数与一个样本编号对应,将129个随机数按降序排列;训练集中样本的数量过少,会影响预测的准确度,过多,易造成过度拟合。因此,训练集和测试集的样本数大致为3∶1,取降序排列的随机数的前100个样本为训练集样本,后29个为测试集样本。
将预处理后数据为输入变量,产地变量作为输出变量导入MATLAB,为使光谱具有可比性,数据进行归一化处理。根据RBF神经网络的设计原理,预测判断可通过隐含层的神经网络来实现,当隐含层设为6个神经元时,发现对每次学习的结果差别不大,比较稳定。因此选择6个神经元,学习的速度是0.05,误差是0.65*10-3,迭代的次数是5000次。不同光谱数据预处理的产地判断结果见表2,可见小波去噪预处理方法结合RBF神经网络模型对3大区域的判别正确率最高,样本在训练集和测试集正确率分别为97.0%和96.6%,结果令人满意。其他预处理方法判别效果均一般,虽然多元散射校正预处理对训练集的正确率最高,但是测试集正确率较低。相对整体而言,小波去噪预处理方法结合RBF神经网络模型可以较好的用于对西红花产地差异化判别,可快速、准确的预测3大区域的归属,小波去噪也是该模型最有效的数据预处理方法。
表2.RBF神经网络模型对3大区域的鉴别结果
本发明小波去噪(WD)结合RBF神经网络模型是最佳的市售西红花产地判别模型,本发明团队之前也比较不同模型的预测能力,具体数据如下表。
用小波去噪(WD)预处理数据代入其他预测模型后的3大区域的判别正确率
综上,本实施例最优方案的建模方法如下:
第一步,将WD预处理后ATR-FTIR数据和产地数据导入Matlab;第二步,按随机数的从小至大的顺序选取前100个样本数据作为训练集,进行RBF网络训练;第三步,对训练集数据进行仿真并将仿真的结果与已知样本进行比对;第四步,对预测集中29个样本数据进行仿真。所有过程都由Matlab程序完成。结果如下:
备注:产地1:中国产区;产地2:地中海区域产区;产地3:伊朗-阿富汗产区
本发明中所用原料、设备,若无特别说明,均为本领域的常用原料、设备;本发明中所用方法,若无特别说明,均为本领域的常规方法。
以上所述,仅是本发明的较佳实施例,并非对本发明作任何限制,凡是根据本发明技术实质对以上实施例所作的任何简单修改、变更以及等效变换,均仍属于本发明技术方案的保护范围。
Claims (6)
1.一种ATR-FTIR结合RBF神经网络对市售西红花产地溯源的方法,其特征在于包括以下步骤:
1)样品预处理:对待检的西红花干燥柱头样品进行粉碎、干燥处理,得到西红花样品粉末;
2)红外光谱数据采集:将ZnSe ATR附件放置于FTIR光谱仪中,将西红花样品粉末置于ZnSe晶体与校正压力装置之间的凹槽内,每次所用机械校正压力保持不变,测定样品的ATR-FTIR数据;测定前对背景进行扫描,得到的红外光谱采用自动校正方法进行基线校正;
3)光谱数据预处理:选取步骤2)所得数据中波段为500-1180cm-1与1490-1800cm-1部分数据,将其导入SIMCA-P 11.5软件中,进行小波去噪法数据预处理;
4)代入模型:将步骤3)所得数据代入RBF神经网络溯源模型中,根据结果判断样品的产地;
所述RBF神经网络溯源模型的建立方法如下:
A)样品预处理:与步骤1)的区别在于,所述样品取自各大产地;
B)红外光谱数据采集:同步骤2);
C)光谱数据预处理:同步骤3);
D)模型建立:将各产地的样品随机分为两部分:训练集和测试集;所述训练集用于建立模型,所述测试集用于验证模型;将步骤C)预处理后数据作为输入变量,产地变量作为输出变量导入MATLAB,数据进行归一化处理,得到模型;在模型建立过程中,选择6个神经元,学习速度为0.05,误差为0.65*10-3,迭代次数为5000次。
2.如权利要求1所述的方法,其特征在于,步骤1)中,所述西红花样品在收集后储存于干燥环境中。
3.如权利要求1或2所述的方法,其特征在于,步骤1)中,所述西红花样品粉碎过60-100目筛;干燥条件为35-45℃、20-30h。
4.如权利要求1所述的方法,其特征在于,步骤2)中,仪器操作环境温度为18-22℃。
5.如权利要求1所述的方法,其特征在于,步骤D)中,所述训练集和测试集的数量比为(2.5-3.5):1。
6.如权利要求1所述的方法,其特征在于,步骤4)中,所述产地分为中国产地、地中海地区产地、伊朗-阿富汗产地。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910494461.1A CN110376153B (zh) | 2019-06-06 | 2019-06-06 | 一种atr-ftir结合rbf神经网络对市售西红花产地溯源的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910494461.1A CN110376153B (zh) | 2019-06-06 | 2019-06-06 | 一种atr-ftir结合rbf神经网络对市售西红花产地溯源的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110376153A CN110376153A (zh) | 2019-10-25 |
CN110376153B true CN110376153B (zh) | 2022-06-17 |
Family
ID=68249870
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910494461.1A Active CN110376153B (zh) | 2019-06-06 | 2019-06-06 | 一种atr-ftir结合rbf神经网络对市售西红花产地溯源的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110376153B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112014346B (zh) * | 2020-09-03 | 2021-09-07 | 中国地质大学(武汉) | 一种基于红外光谱的煤炭产地溯源方法 |
CN112816433B (zh) * | 2020-12-31 | 2023-09-22 | 中国医学科学院药用植物研究所 | 一种基于红外光谱的山银花鉴别方法、设备和介质 |
CN114112983B (zh) * | 2021-10-18 | 2023-06-23 | 中国科学院西北高原生物研究所 | 一种基于Python数据融合的藏药全缘叶绿绒蒿产地判别方法 |
CN117554353A (zh) * | 2023-11-13 | 2024-02-13 | 珠海康龙源生物科技有限公司 | 一种基于深度学习模型的掺假红花快速检测方法 |
CN118467657A (zh) * | 2024-05-06 | 2024-08-09 | 华中农业大学 | 一种高附加值植物原产地溯源的系统方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5218529A (en) * | 1990-07-30 | 1993-06-08 | University Of Georgia Research Foundation, Inc. | Neural network system and methods for analysis of organic materials and structures using spectral data |
CN101520412A (zh) * | 2009-03-23 | 2009-09-02 | 中国计量学院 | 基于独立分量分析和遗传神经网络的近红外光谱分析方法 |
CN105445217B (zh) * | 2015-07-27 | 2018-08-21 | 南京财经大学 | 基于衰减全反射傅里叶变换红外光谱技术的糙米中黄曲霉毒素含量的快速检测方法 |
CN106596454B (zh) * | 2016-12-19 | 2019-04-02 | 扬州大学 | 一种淀粉傅立叶变换衰减全反射红外光谱样品制备装置及使用方法 |
-
2019
- 2019-06-06 CN CN201910494461.1A patent/CN110376153B/zh active Active
Non-Patent Citations (5)
Title |
---|
基于FTIR的红花主成分聚类分析;唐军等;《中草药》;20110612(第06期);全文 * |
基于光谱技术的桔子汁品种鉴别方法的研究;邵咏妮等;《光谱学与光谱分析》;20070915(第09期);全文 * |
小波变换-可见-近红外光谱技术用于鉴别品牌料酒的研究;陈燕清等;《化学研究与应用》;20110915(第09期);全文 * |
薰衣草品种的FTIR快速分析鉴别研究;唐军等;《计算机与应用化学》;20130628(第06期);全文 * |
近红外光谱法测定西红花中西红花苷I含量的研究;张聪等;《中成药》;20100920(第09期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110376153A (zh) | 2019-10-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110376153B (zh) | 一种atr-ftir结合rbf神经网络对市售西红花产地溯源的方法 | |
Tian et al. | Detection of early decay on citrus using LW-NIR hyperspectral reflectance imaging coupled with two-band ratio and improved watershed segmentation algorithm | |
Zhao et al. | Near infrared reflectance spectroscopy for determination of the geographical origin of wheat | |
Ren et al. | Multi-variable selection strategy based on near-infrared spectra for the rapid description of dianhong black tea quality | |
Shafiee et al. | Combined data mining/NIR spectroscopy for purity assessment of lime juice | |
Laursen et al. | Advances in isotopic analysis for food authenticity testing | |
Tian et al. | An rapid nondestructive testing method for distinguishing rice producing areas based on Raman spectroscopy and support vector machine | |
CN102590129A (zh) | 近红外检测花生中氨基酸含量的方法 | |
Wu et al. | Comparison of NIR and Raman spectra combined with chemometrics for the classification and quantification of mung beans (Vigna radiata L.) of different origins | |
CN113657158A (zh) | 基于Google Earth Engine的大尺度大豆种植区域提取算法 | |
CN111523587A (zh) | 一种基于机器学习的木本植物物种光谱识别方法 | |
Soni et al. | A review of conventional and rapid analytical techniques coupled with multivariate analysis for origin traceability of soybean | |
Yang et al. | Classification of sugar beets based on hyperspectral and extreme learning machine methods | |
CN110220863A (zh) | 一种基于atr-ftir的金银花和山银花中药制剂的鉴别方法 | |
Li et al. | Data fusion of multiple‐information strategy based on Fourier transform near infrared spectroscopy and Fourier‐transform mid infrared for geographical traceability of Wolfiporia cocos combined with chemometrics | |
CN117874609A (zh) | 快速鉴别天然产物是否为特定产地的通用快速方法 | |
Jin et al. | Rapid discrimination of Anji Baicha origin using field-portable spectroradiometer | |
Li et al. | Geographical traceability of Marsdenia tenacissima by Fourier transform infrared spectroscopy and chemometrics | |
CN114112983A (zh) | 一种基于Python数据融合的藏药全缘叶绿绒蒿产地判别方法 | |
Wu et al. | Determining farming methods and geographical origin of Chinese rice using NIR combined with chemometrics methods | |
Liu et al. | ATR‐FTIR Spectroscopy Preprocessing Technique Selection for Identification of Geographical Origins of Gastrodia elata Blume | |
Hu et al. | Fourier transform infrared spectroscopy coupled with chemometrics for determining the geographical origin of kudzu root and the detection and quantification of adulterants in kudzu root | |
CN113191618A (zh) | 一种基于中红外光谱技术及特征提取的小米产地溯源方法 | |
Raypah et al. | Spectral response to early detection of stressed oil palm seedlings using near-infrared reflectance spectra at region 900-1000 nm | |
He et al. | A rapid method for identification of Lanxangia tsaoko origin and fruit shape: FT‐NIR combined with chemometrics and image recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |