CN106560841A - 基于深度学习的武夷岩茶产地鉴别方法 - Google Patents

基于深度学习的武夷岩茶产地鉴别方法 Download PDF

Info

Publication number
CN106560841A
CN106560841A CN201610915374.5A CN201610915374A CN106560841A CN 106560841 A CN106560841 A CN 106560841A CN 201610915374 A CN201610915374 A CN 201610915374A CN 106560841 A CN106560841 A CN 106560841A
Authority
CN
China
Prior art keywords
data
sample
model
tea
elm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610915374.5A
Other languages
English (en)
Inventor
付贤树
叶子弘
俞晓平
崔海峰
张雅芬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Jiliang University
Original Assignee
China Jiliang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Jiliang University filed Critical China Jiliang University
Priority to CN201610915374.5A priority Critical patent/CN106560841A/zh
Publication of CN106560841A publication Critical patent/CN106560841A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/17Systems in which incident light is modified in accordance with the properties of the material investigated
    • G01N21/25Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
    • G01N21/31Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry
    • G01N21/3103Atomic absorption analysis
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N27/00Investigating or analysing materials by the use of electric, electrochemical, or magnetic means
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N27/00Investigating or analysing materials by the use of electric, electrochemical, or magnetic means
    • G01N27/62Investigating or analysing materials by the use of electric, electrochemical, or magnetic means by investigating the ionisation of gases, e.g. aerosols; by investigating electric discharges, e.g. emission of cathode
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Pathology (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Immunology (AREA)
  • Artificial Intelligence (AREA)
  • Biochemistry (AREA)
  • Analytical Chemistry (AREA)
  • Evolutionary Biology (AREA)
  • Electrochemistry (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Investigating Or Analysing Materials By Optical Means (AREA)

Abstract

本发明涉及基于深度学习的武夷岩茶产地鉴别方法,属于地理标志产品真实性识别技术领域,其目的在于解决单种检测数据无法代表产地溯源全部关键信息和不同类型检测数据在计量学方法中联合使用的数据匹配等问题。本发明基于具有深度学习功能的神经网络ELM模型,将不同产地岩茶稳定同位素、微量元素、电子舌数据以及三者的融合数据,以相同方法建立ELM分析模型,提取试样后利用模型客观、准确的判定岩茶产地,采用三者融合数据所建的模型,其识别率最高,达100.0%,远高于单种数据建立的神经网络模型判别结果,且对盲样的识别率达100%,具有较好应用前景,可作为武夷岩茶产地溯源识别技术方法。

Description

基于深度学习的武夷岩茶产地鉴别方法
(一)技术领域
本发明涉及基于深度学习的武夷岩茶产地鉴别方法,所述方法中涉及稳定同位素、微量元素以及电子舌的产地特征数据,属于地理标志产品真实性识别技术领域。
(二)背景技术
地理标志产品,是指产自特定地域所具有的质量、声誉或其他特性本质上取决于该产地的自然因素和人文因素,经审核批准以地理名称进行命名的产品。茶叶是典型的地理标志保护产品,其品质、口感与产地的地理条件、气候因素、环境等因素密切相关,武夷岩茶是其中代表性茶叶产品。
现今,国内外成品茶产地识别鉴定方法,以单一仪器检测分析结合计量学分析方法为最主要识别方法,仪器检测分析方法主要有以下几种近红外光谱、同位素质谱、微量元素、液相色谱、传感器等;常用计量学方法有主成分分析、偏最小二乘、人工神经网络、支持向量机等。
Almeida等通过分析葡萄牙5个地区和法国1个地区的11个葡萄酒中87Sr/86Sr,证明87Sr/86Sr可以作为葡萄酒溯源的可靠指纹,并建议87Sr/86Sr值与其他指标结合。Weckerle等对非洲、印尼、美洲等不同产地的阿拉比卡咖啡生豆中咖啡因同位素组成进行分析,δ18O含量在2‰~12‰之间,各区域之间差异性最显著,典型判别分析显示δ2H和δ18O对产地判定交叉验证误差率仅为7.7%。Rodrigues等发现不同原产地咖啡生豆中δ18O、δ15N、δ13C和C、N元素组成存在差异,与不同地域纬度和沉淀值有关,可以用于原产地判定。
McKenzie等采用ICP-AES法测定白茶、绿茶、红茶、乌龙茶和普洱茶中的Al、Ba、Ca、Cu、Fe等14种元素含量,采用非参数分析,得出LDA和概率神经网络(probabilistic neuralnetwork,PNN)对茶叶的整体识别率分别为81%和97%;王爱平等用原子吸收火焰法(FAAS)测定了28个不同产地和采收时间的川党参中的7种微量元素,聚类分析显示,除重庆武隆县以外的川党参都非常接近,该法可简便地鉴别不同产地的川党参真伪;王慧琴等采用ICP-MS法测定了不同产地红花中Mg、Al、P、Ca、V等18中元素的含量,聚类分析,结果表明不同产地来源的红花中微量元素的含量有差别。
对稳定同位素和微量元素联合判别模式,亦有学者在研究。Kelly等借助典型判别分析分析了δ13C、δ18O、B、Mg、Gd等9个变量,实现美国、欧洲、印/巴地区大米样品的最大化识别,B、Mg等元素具有受季节扰动较小,重现性更好等优点,可作为判别大米产地的理想指标;Gremaud等将红酒中同位素比值(2H/1H乙醇,18O/16O葡萄酒水分)、元素含量(B、Sr等9种元素)和化学成分含量(甲醇、酸度、苹果酸、果糖等)3种变量结合,采用线性判别分析,实现了瑞士国内相距较近的产区间的判别,单因素分析发现18O/16O葡萄酒水分、Sr、Rb和甲醇含量对鉴别的贡献率较大,多因素分析将瑞士分为4个红酒产区;Dutra等对巴西南部产地的葡萄酒进行了分析,酒水中δ18O、Mg、Rb含量存在显著的区域差异,可以作为产地判定的主要参数。
Rudni tskaya等对2~70年不同品种的160个葡萄酒样品进行了电子舌检测和理化指标分析,结果表明电子舌检测结果和理化指标分析结果基本一致,并表明电子舌在预测酒龄具有可行性;王俊等利用电子舌系统对六种不同的葡萄酒进行检测,结果表明,电子舌能够区分开不同产地(山东烟台、河北昌藜、河北沙城)的葡萄酒、同时对不同品种(赤霞珠、品丽珠、蛇龙珠)的葡萄酒也做出了较好的分类判别;Dutta等对5种不同加工工艺(不同的干燥、发酵和加热处理)的茶叶进行了电子舌分析和评价,可以完全区分出5种不同制作工艺的茶叶。
从上述例子可以看出,对地理标志产品鉴别方法有很多,但是很多研究尚有不足之处,如采样不充分、样品数量少,样品不具备代表性;样品空间选择跨度大,往往选自不同国家、甚至不同洲,这类样品由于空间跨度大,本身就具有很大的区别,对小范围的地理标志产品产地判别借鉴意义不大;样品选取所带来的局限性,使得建模方法亦无法代表产地溯源的全部信息,导致产地识别率低,上述这些严重影响了地理标志产品保护技术的创新和突破。针对如上情况,有必要建立一种基于神经网络具有深度学习功能的武夷岩茶产地鉴别方法,该鉴别模型融合了稳定同位素、微量元素和电子舌数据,能代表产地溯源的全部信息。
(三)发明内容
本发明目的在于解决单种检测数据无法代表产地溯源全部关键信息的问题,也解决不同类型检测数据在计量学方法中的联合使用、分析所存在的数据匹配等问题,提供一种融合了稳定同位素、微量元素和电子舌的武夷岩茶产地识别模型技术方法,该方法基于深度学习的神经网络模型,将地理标志产地内和产地外岩茶稳定同位素、微量元素以及电子舌融合在一起,建立分析模型,提取试样后利用模型客观、准确的判定岩茶产地。
本发明采用的技术方案是:
基于深度学习的武夷岩茶产地鉴别方法,所述方法包括:
(A)采集不同产地岩茶样品:
武夷岩茶产区外样品数>100份,且产区周边50公里范围内样品占比>50%;武夷岩茶产区内样品数为产区外样品的2.5~3倍,采样范围覆盖主要产区各生产企业,且每家企业应不少于3个样品;
(B)测定不同产地岩茶样品的氢、氧、氮、碳四种稳定同位素质谱数据:
测定δ13C、δ15N、δ18O、δ2H、δ86Sr的含量,每个样品至少重复分析3次以上,取平均值作为最终结果。
通过SVM-RFE(支持向量机回归特征消去法)对武夷岩茶稳定同位素数据进行训练和预测,随机重复100次,并对各变量的模型特征进行排序,筛选出岩茶原产地的同位素特征变量,其排序顺序为氢、氧、氮、碳、锶。并利用预测集计算模型的灵敏度增维精度、分辨率增维精度、识别率增维精度,均按重复计算100次平均结果,氢、氧、氮、碳四种数据组成的模型,其识别率最高,因此建模只需要选择氢、氧、氮、碳四种数据即可,无需对锶等其它稳定同位素含量进行检测。
(C)测定不同产地岩茶样品的铯、铜、钙、铷微量元素数据:
岩茶样品微波消解后,观察消解液是否澄清,若浑浊,则重复压力消解步骤,若完全澄清,则进行检测,测定样液中Ca、Mg、Mn、Ti、Cr、Co、Ni、Cu、Zn、Rb、Cd、Cs、Ba、Sr等元素含量。
通过SVM-RFE法对微量元素数据进行训练和预测,随机重复100次,并对各变量的模型特征进行排序,筛选出岩茶原产地的微量元素特征变量,并通过预测集计算每一维变量累加之后的模型增维精度,得到铯、铜、钙、铷、锶、钡特征排序顺序。然后对特征变量按自然序逐级进行组合,并利用预测集计算模型的灵敏度增维精度、分辨率增维精度、识别率增维精度,由铯、铜、钙、铷四者微量元素组成的模型,其识别率增维精度最高,说明此四种微量元素间的信息具有互补性,只需要选择建模的铯、铜、钙、铷四种微量元素进行检测即可。
(D)测定不同产地岩茶样品的电子舌数据:
采用ASTREE Electronic电子舌系统,该套系统具有一个电极(Ag/AgCl)以及7个独立传感器(ZZ、BA、BB、CA、GA、HA、JB),电子舌系统使用前用NaCl和C5H8NO4Na标准溶液对传感器进行活化,并依次进行信号校准和仪器自诊断,自诊断通过后进行样品滋味的分析检测,将电子舌数据以文本形式导出,取各传感器最后十秒(第91-100秒)稳定数据的均值作为检测数据进行后续分析。
(E)基于深度学习的武夷岩茶产地鉴别方法,所述方法融合了稳定同位素、微量元素和电子舌数据,所述鉴别方法如下:
(1)将每个样品的稳定同位素数据按氢、氧、氮、碳顺序拼接在Excel数据表格中,每行4列数据组成每个样品的稳定同位素数据;
(2)将每个样品的微量元素数据按铯、铜、钙、铷顺序拼接在稳定同位素数据后;再将电子舌7个独立传感器(按ZZ、BA、BB、CA、GA、HA、JB顺序)最后十秒(第91-100秒)稳定数据的均值拼接在微量元素数据后,武夷岩茶产区内样品组成的Excel数据表,以data1命名;武夷岩茶产区外样品组成的Excel数据表,以data2命名;
(3)运行MATLAB软件中的edit功能,打开data1.xls、data2.xls,以Mat文件格式保存,文件名对应为data1.mat、data2.mat;
(4)参考R.D.Snee和Michal Daszykowski建立的Duplex分割程序,将数据划分为两个子集,使其覆盖近似相同区域和拥有类似的统计性质;将样本数据归一化和正交化,计算两两样本间的欧式距离;选择欧式距离最大的两个样本进入训练集,剩余样本中,欧式距离最大的两个样本进入验证集;第一轮选后的剩余样本中,与训练集欧式距离最大的样本进入训练集,与验证集欧式距离最大的样本进入验证集;重复步骤,直至所选的样品分成两个子集。指定预测集的样本数,指定武夷岩茶产区内总数的65-70%作为原产地内模型数A1,随机取武夷岩茶产区外65-70%作为原产地外模型数A2,建立Duplex分割程序;
(5)蒙特卡洛交叉验证(Monte Carlo cross vali-dation,MCCV)是筛选奇异样本的方法,用于解决复杂统计模型和矩阵高维问题,其核心是对样本的抽取,从给定的目标函数分布中进行高效抽样为其关键;随机选取一定的校正集建立模型,剩余的样本作预测集对模型进行验证,经过多次循环后能够得到一组预测残差,通过预测残差计算出预测残差的均值与方差,判断异常样本并验证剔除异常样本对模型精度提高作用,可有效检出光谱阵和性质阵方向的奇异点。
(6)神经网络ELM建模思路:若训练样本分布均匀,且数量足够,采用神经网络可得到较好的预测能力和泛化效果,ELM在网络参数的确定过程中,随机选取隐层节点参数,在训练过程中无需调节,便可获得唯一的最优解,网络参数的确定无需迭代步骤,可大幅度降低网络参数的调节时间。
(7)神经网络ELM鉴别模型的建立:对步骤(4)和(5)数据分割后的稳定同位素、微量元素和电子舌数据,采用神经网络ELM进行分析并建立ELM模型;
(F)待测样品测定:
取待测未知产地样品按照上述步骤(B)、(C)和(D)测定稳定同位素、微量元素和电子舌数据,将测得数据代入上述ELM模型,判断待测样品的原产地域属性。
具体的,所述步骤(E)中分割程序分别为:[model1,test1]=Duplex(data1,A1)和[model2,test2]=Duplex(data2,A2),得到model1、test1、model2、test2。
具体的,所述步骤(E)中ELM鉴别模型的建立过程如下:
(a)合并训练集:xxxc=[data1(model1,:);data2(model2,:)];
(b)合并预测集:xxxp=[data1(test1,:);data2(test2,:)];
(c)求训练集平均光谱:mx=mean(xxxc);
(d)训练集减去平均光谱:xxxc=xxxc-ones(A,1)*mx;
A为:A1+A2;
(e)预测集减去平均光谱:xxxp=xxxp-ones(B,1)*mx;
B为:原产地内测试集数B1与原产地外测试集数B2之和;
(f)响应变量:yyc=-ones(A,2);yyc(1:A1,1)=1;yyc(A1+1:A,2)=1;
A1与B1之和为原产地内样品总数C1;
A2与B2之和为原产地外样品总数C2;
(g)最大隐变量数:lvm=20;
(h)分二列学习,用蒙特卡罗交互验证确定隐变量lvp:
[epmccv1,lvp1]=mccvforpls(xxxc,yyc(:,1),lvm);
[epmccv2,lvp2]=mccvforpls(xxxc,yyc(:,2),lvm);
(i)建模过程:
训练ELM模型:
function[TrainingTime,TrainingAccuracy]=elm_train(TrainingData_File,
Elm_Type,NumberofHiddenNeurons,ActivationFunction);
用训练好的ELM模型进行预测:
function[TestingTime,LabelsPredicted]=elm_predict_TeaData(TestingData_File)
(j)保存预测结果:save LabelsPredicted;
其中Duplex程序如下所示:
其中mccvforpls程序如下所示:
其中ELM程序如下所示:
本发明的有益效果主要体现在:本发明基于神经网络ELM模型,将不同产地岩茶(包括地理标志产地内和产地外岩茶)稳定同位素数据、微量元素数据和电子舌数据融合在一起,建立分析模型,提取试样后利用模型客观、准确的判定岩茶产地,其识别率具有显著提高,可达到100.0%,高于单种数据神经网络分析结果。
(四)具体实施方式
下面结合具体实施例对本发明进行进一步描述,但本发明的保护范围并不仅限于此:
实施例1:
A、采集不同产地岩茶样品
国标(GB/T 18745-2006)中规定了武夷岩茶的地理保护范围,即福建省武夷山市行政区划内,本发明在武夷岩茶地理标志保护区武夷街道、崇安街道、上梅、星村、五夫、岚谷、新丰街道、洋庄、兴田、下梅、吴屯11个行政区域内进行样品采集,每个行政区域内随机选择3个取样点(以A、B、C进行标示),共33个取样点,取样范围基本涵盖主要产区,每个采样点取样15份(以A-1、A-2......A-15进行标示),获得495份地理标志保护区武夷岩茶样品,另在福建省除武夷山市外其他县市(建阳、建瓯、漳州、泉州、松溪、政和),以及广西、贵州、江西(婺源、赣州)等11个地点收集保护区外岩茶样品,每个地点取样15份(以1、2......15进行标示),获得165个非地理标志保护区岩茶样品。地理标志产地内样品数与地理标志产地外样品数之比为3∶1。
B、不同产地岩茶氢、氧、氮、碳四种稳定同位素数据
δ13C、δ15N、δ18O、δ2H、δ86Sr由Thermo Fisher MAT253稳定同位素质谱仪测定,重复3次取平均值作为最终结果。地理标志产区内、外岩茶样品同位素比率经上述方法检测,下表1节选部分岩茶样品同位素比率数据表。
表1:部分岩茶样品同位素比率统计表
通过SVM-RFE对武夷岩茶稳定同位素数据进行训练和预测,随机重复100次,并对各变量的模型特征进行排序,筛选出岩茶原产地的同位素特征变量,得到同位素特征变量排序顺序为氢、氧、氮、碳、锶,并通过预测集计算每一维变量累加之后的模型增维精度,包括分辨率、灵敏度和识别率指标,按重复计算100次的平均结果,其结果见表2。
表2:同位素特征变量组合结果情况
模型特征变量组合 灵敏度增维精度 分辨率增维精度 识别率增维精度
0.8964 0.8821 0.8925
氢+氧 0.9047 0.8141 0.88
氢+氧+氮 0.9429 0.8056 0.905
氢+氧+氮+碳 0.9592 0.8836 0.9393
氢+氧+氮+碳+锶 0.9132 0.8223 0.9066
表2可知,当氢和氧的同位素数据进行组合后,模型识别率下降,说明氧和氢对原产地特征的贡献具有较强的相关性;而加入碳和氮同位素数据后,模型识别率上升,达到最高93.93%,说明氮和碳具有较好的互补,即氢、氧、氮、碳四种数据组成的模型,其识别率最高,因此建模只需要选择氢、氧、氮、碳四种数据即可,无需对锶等其它稳定同位素含量进行检测。
C、测定不同产地岩茶样品的铯、铜、钙、铷微量元素数据
使用上述原子吸收光谱仪和电感耦合等离子体质谱测定样液中Ca、Mg、Mn、Ti、Cr、Co、Ni、Cu、Zn、Rb、Cd、Cs、Ba、Sr元素含量。表3为节选部分地理标志产区内、外岩茶样品铯、铜、钙、铷元素数据表。
表3:部分岩茶样品铯铜钙铷元素统计表
通过SVM-RFE对上述武夷岩茶Ca、Mg、Mn等元素数据进行训练和预测,通过预测集计算每一维变量累加之后的模型增维精度,得到铯、铜、钙、铷、锶、钡特征排序顺序,各微量元素对于原产地特征的贡献率从高到低分别为铯、铜、钙、铷。通过预测集计算每一维变量累加之后的模型增维精度,包括分辨率、灵敏度和识别率指标,按重复计算100次的平均结果,其结果见表4。
表4:同位素特征变量组合结果情况
模型特征变量组合 灵敏度增维精度 分辨率增维精度 识别率增维精度
0.9350 0.4155 0.8021
铯+铜 0.9358 0.6300 0.8023
铯+铜+钙 0.9187 0.4685 0.7993
铯+铜+钙+铷 0.9327 0.4510 0.8121
铯+铜+钙+铷+锶 0.9236 0.4682 0.7936
从表4可知,当铯和铜的同位素数据进行组合后,模型识别率上升,说明铯和铜对原产地特征的贡献具有较强的相关性和互补性;而加入钙和铷元素数据后,模型识别率下降,达到81.21%,说明钙和铷对原产地特征的贡献具有一定的相关性;加入锶以后,识别率下降至79.36%,说明锶对原产地特征的贡献不具备相关性,可以忽略锶的影响。
D、测定不同产地岩茶样品的电子舌
ASTREE Electronic电子舌系统,7个独立传感器名称分别为ZZ、BA、BB、CA、GA、HA、JB。各传感器最后十秒(第91-100秒)稳定数据的均值作为检测数据。其数据见表5。
表5 部分岩茶7个传感器最后10秒均值数据表
E、基于深度学习的武夷岩茶产地鉴别方法,融合稳定同位素、微量元素和电子舌建立岩茶鉴别数据库:
(1)将每个样品的稳定同位素数据按氢、氧、氮、碳顺序拼接在Excel数据表格中,组成每个样品的稳定同位素数据。
(2)将相同样品的微量元素数据按铯、铜、钙、铷顺序拼接在稳定同位素后,再将电子舌检测中最后十秒稳定数据的均值,按ZZ、BA、BB、CA、GA、HA、JB顺序拼接在微量元素数据后,武夷岩茶产区内样品组成的Excel数据表,以data1命名;武夷岩茶产区外样品组成的Excel数据表,以data2命名。
(3)运行MATLAB软件中的edit功能,打开data1.xls、data2.xls,以Mat文件格式保存,文件名对应为data1.mat、data2.mat;
(4)数据分割:采用Duplex分割程序,随机选取≥65%武夷岩茶产区内总数作为原产地内模型数A1,随机取≥65%武夷岩茶产区外作为原产地外模型数A2,建立Duplex分割程序,原产地内随机取330(A1)个样品作为模型,原产地外随机取110(A2)个样品作为模型,建立kenstone分割程序,[model1,test1]=Duplex(data1,330)和[model2,test2]=Duplex(data2,110),得到model1、test1、model2、test2。
(5)对稳定同位素、微量元素以及电子舌数据建模神经网络ELM模型:
①合并训练集:xxxc=[data1(model1,:);data2(model2,:)];
②合并预测集:xxxp=[data1(test1,:);data2(test2,:)];
③求训练集平均数据:mx=mean(xxxc);
④训练集减去平均数据:xxxc=xxxc-ones(440,1)*mx;
⑤预测集减去平均数据:xxxp=xxxp-ones(220,1)*mx;
⑥响应变量:yyc=-ones(440,2);yyc(1:330,1)=1;yyc(331:440,2)=1;
⑦最大隐变量数:lvm=20;
⑧分二列学习,用蒙特卡罗交互验证确定隐变量lvp:
[epmccv1,lvp1]=mccvforpls(xxxc,yyc(:,1),lvm);
[epmccv2,lvp2]=mccvforpls(xxxc,yyc(:,2),lvm);
⑨建模过程:
训练ELM模型:
function[TrainingTime,TrainingAccuracy]=elm_train(TrainingData_File,
Elm_Type,NumberofHiddenNeurons,ActivationFunction);
用训练好的ELM模型进行预测:
function[TestingTime,LabelsPredicted]=elm_predict_TeaData(TestingData_File)
⑩保存预测结果:save LabelsPredicted;
F、ELM模型识别率
按上述建模方法对稳定同位素、微量元素、电子舌以及三者融合数据进行建模分析,其结果见表6。
表6:ELM模型判别结果汇总
表6可看出,各特征指标之间具有互补性,采用本发明神经网络ELM建模方法分别对稳定同位素、微量元素、电子舌以及三者融合数据进行建模分析,模型识别率分别为91.11%、73.1%、81.4%和100.0%,稳定同位素、微量元素和电子舌的三者融合数据建立的ELM模型,其识别率最高,达100.0%,远高于单种数据神经网络ELM的结果。
G、盲样检测
盲样监督小组从武夷岩茶农户处购买岩茶样品,监控晒青、做青、杀青等步骤,确保岩茶样品的原产地域属性,上述样品作为盲样中的地理标志产区内样品;从建阳、建瓯、婺源等地购买岩茶,作为盲样中的地理标志产区外样品,上述盲样与建模岩茶样品出自不同的厂家。分析检测人员事先未能得知待测盲样的产地属性,随机选取若干份,检测,再按本发明方法对盲样产地属性进行判断,并与盲样监督小组进行核对,确定盲样识别率。
分别从上述盲样中选取20、60、100个盲样,按照步骤(B)、(C)和(D)方法获得的盲样数据代入,将三者盲样融合数据上述神经网络ELM模型,判断其地理标志属性,其判别识别率均达到100%。
实施例2:
采用与实施例1相同的建模方法,数据分割用Duplex分割程序,用蒙特卡洛交互验证,分别建立神经网络ELM、偏最小二乘(PLSDA)、最小二乘支持向量机(LS-SVM)模型,稳定同位素(氢、氧、氮、碳、锶)、微量元素(Cs、Cu、Ca、Rb、Sr、Ba、Mg、Mn、Ti、Cr、Co、Ni、Zn、Cd)、电子舌(ZZ、BA、BB、CA、GA、HA、JB)数据按照上述顺序拼接在一起,其模型识别率分别为89.5%、86.3%、78.6%。
实施例3:
采用与实施例1相同的建模方法,数据分割用Duplex分割程序,用蒙特卡洛交互验证,分别建立神经网络ELM、偏最小二乘(PLSDA)、最小二乘支持向量机(LS-SVM)模型,稳定同位素(氢、氧、氮、碳)、微量元素(Cs、Cu、Ca、Rb、Sr、Ba、Mg、Mn、Ti、Cr、Co、Ni、Zn、Cd)、电子舌(ZZ、BA、BB、CA、GA、HA、JB)按照上述顺序拼接在一起,其模型识别率分别为90.5%、86.7%、78.9%。
实施例4:
采用与实施例1相同的建模方法,数据分割用Duplex分割程序,用蒙特卡洛交互验证,ELM、PLSDA、LS-SVM判别模型,稳定同位素、微量元素、电子舌数据按照氢、氧、氮、碳、Cs、Cu、Ca、Rb、ZZ、BA、BB、CA、GA、HA、JB拼接在一起,其模型识别率为100.0%、87.9%和82.3%。
实施例5:
采用与实施例1相同的建模方法,数据分割用Kenstone分割程序,用蒙特卡洛交互验证,ELM、PLSDA、LS-SVM判别模型,稳定同位素、微量元素、电子舌数据按照氢、氧、氮、碳、Cs、Cu、Ca、Rb、ZZ、BA、BB、CA、GA、HA、JB拼接在一起,其模型识别率分别为85.6%、81.7%和78.9%。
实施例6~10:
实施例6-10中所述的岩茶样品、稳定同位素、微量元素以及电子舌数据与实施例1相同,但采用不同的分析方法;实施例6采用本发明权利保护范围外的情况;实施例7数据分割方式与实施例1相同,但采用了偏最小二乘的判别模型;实施例8-10分别采用现有发明专利CN103630528A、CN102455320A、CN103245713A所述方法进行鉴别,比较情况见表7。
表7:实施例1与实施例6-10比较情况表
从上述比较结果可以得出,采用本发明方法,其盲样检测识别率均达100.0%,本发明方法可作为武夷岩茶产地溯源识别技术方法。

Claims (4)

1.基于深度学习的武夷岩茶产地鉴别方法,所述方法包括:
(A)采集不同产地岩茶样品:
武夷岩茶产区外样品数>100份,且产区周边50公里范围内样品占比>50%;武夷岩茶产区内样品数为产区外样品的2~3倍,采样范围覆盖主要产区各生产企业,且每家企业应不少于3个样品;
(B)测定不同产地岩茶样品的氢、氧、氮、碳四种稳定同位素质谱数据:
δ13C、δ15N、δ18O、δ2H、δ86Sr的测定,每个样品至少重复分析3次以上,取平均值作为最终结果;
通过SVM-RFE(支持向量机回归特征消去法)对武夷岩茶稳定同位素数据进行训练和预测,随机重复100次,并对各变量的模型特征进行排序,筛选岩茶原产地的同位素特征变量,其排列顺序为氢、氧、氮、碳、锶;并利用预测集计算模型的灵敏度、分辨率、识别率,均按重复计算100次平均结果,氢、氧、氮、碳四种数据组成的模型,其识别率最高,因此建模只需要选择氢、氧、氮、碳四种数据即可,无需对锶等其它稳定同位素含量进行检测;
(C)测定不同产地岩茶样品的铯、铜、钙、铷四种微量元素数据:
岩茶样品微波消解,观察消解液是否澄清,若浑浊,则重复压力消解步骤,若完全澄清,则采用相关设备测定;使用原子吸收光谱仪测定样液中Ca、Mg、Mn元素含量,使用电感耦合等离子体质谱测定微波消解液中Ti、Cr、Co、Ni、Cu、Zn、Rb、Cd、Cs、Ba、Sr元素含量;
通过SVM-RFE法对微量元素数据进行训练和预测,随机重复100次,并对各变量的模型特征进行排序,筛选出岩茶原产地的微量元素特征变量,并通过预测集计算每一维变量累加之后的模型增维精度,得到铯、铜、钙、铷、锶、钡特征排序顺序;然后对特征变量按自然序逐级进行组合,并利用预测集计算模型的灵敏度、分辨率、识别率,由铯、铜、钙、铷四者微量元素组成的模型,其识别率增维精度最高,说明此四种微量元素间的信息具有互补性,只需要选择建模的铯、铜、钙、铷四种微量元素进行检测即可;
(D)测定不同产地岩茶样品的电子舌数据:
采用ASTREE Electronic电子舌系统,该套系统具有一个电极(Ag/AgCl)以及7个独立传感器(ZZ、BA、BB、CA、GA、HA、JB),电子舌系统使用前用NaCl和C5H8NO4Na标准溶液对传感器进行活化,并依次进行信号校准和仪器自诊断,自诊断通过后进行样品滋味的分析检测,将电子舌数据以文本形式导出,取各传感器最后十秒(第91-100秒)稳定数据的均值作为检测数据进行后续分析;
(E)融合稳定同位素、微量元素和电子舌建立不同产地岩茶鉴别数据库:
(1)将每个样品的稳定同位素数据按氢、氧、氮、碳顺序拼接在Excel数据表格中,每行4列数据组成每个样品的稳定同位素数据;
(2)将每个样品的微量元素数据按铯、铜、钙、铷顺序拼接在稳定同位素数据后,再将电子舌7个独立传感器(按ZZ、BA、BB、CA、GA、HA、JB顺序)最后十秒(第91-100秒)稳定数据的均值拼接在微量元素数据后,武夷岩茶产区内样品组成的Excel数据表,以data1命名;武夷岩茶产区外样品组成的Excel数据表,以data2命名;
(3)运行MATLAB软件中的edit功能,打开data1.xls、data2.xls,以Mat文件格式保存,文件名对应为data1.mat、data2.mat;
(4)数据分割:随机选取武夷岩茶产区内总数的65~70%作为原产地内模型数A1,随机取武夷岩茶产区外65~70%作为原产地外模型数A2,建立Duplex分割程序;
(5)神经网络鉴别模型的建立:对步骤(4)数据分割后的同位素、微量元素、电子舌三者融合数据,采用神经网络分析并建立ELM神经网络模型;
(F)取待测未知产地样品按照步骤(B)、(C)、(D)测定同位素、微量元素及电子舌数据,将测得数据代入上述步骤(E)组成的神经网络模型中,判断待测样品的原产地域属性。
2.如权利要求1所述的方法,其特征在于所述步骤(E)中分割程序分别为:[model1,test1]=Duplex(data1,A1)和[model2,test2]=Duplex(data2,A2),得到model1、test1、model2、test2。
3.如权利要求1所述的方法,其特征在于所述步骤(E)中神经网络鉴别模型的建立过程如下:
(a)合并训练集:xxxc=[data1(model1,:);data2(model2,:)];
(b)合并预测集:xxxp=[data1(test1,:);data2(test2,:)];
(c)求训练集平均光谱:mx=mean(xxxc);
(d)训练集减去平均光谱:xxxc=xxxc-ones(A,1)*mx;
A为:A1+A2;
(e)预测集减去平均光谱:xxxp=xxxp-ones(B,1)*mx;
B为:原产地内测试集数B1与原产地外测试集数B2之和;
(f)响应变量:yyc=-ones(A,2);yyc(1:A1,1)=1;yyc(A1+1:A,2)=1;
A1与B1之和为原产地内样品总数C1;
A2与B2之和为原产地外样品总数C2;
(g)最大隐变量数:lvm=20;
(h)分二列学习,用蒙特卡罗交互验证确定隐变量lvp:
[epmccv1,lvp1]=mccvforpls(xxxc,yyc(:,1),lvm);
[epmccv2,lvp2]=mccvforpls(xxxc,yyc(:,2),lvm);
(i)建模过程:
训练ELM模型:
function[TrainingTime,TrainingAccuracy]=elm_train(TrainingData_File,Elm_Type,NumberofHiddenNeurons,ActivationFunction);
用训练好的ELM模型进行预测:
function[TestingTime,LabelsPredicted]=elm_predict_TeaData(TestingData_File)
(j)保存预测结果:save LabelsPredicted。
4.如权利要求1所述的方法,其特征在于本发明所述神经网络ELM建模方法对稳定同位素、微量元素、电子舌的三者融合数据进行建模分析,模型识别率最高,达100.0%,远高于单种数据神经网络ELM的结果;针对20、60、100个盲样,检测识别率均达100.0%,本发明方法可作为武夷岩茶产地溯源识别技术方法。
CN201610915374.5A 2016-10-20 2016-10-20 基于深度学习的武夷岩茶产地鉴别方法 Pending CN106560841A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610915374.5A CN106560841A (zh) 2016-10-20 2016-10-20 基于深度学习的武夷岩茶产地鉴别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610915374.5A CN106560841A (zh) 2016-10-20 2016-10-20 基于深度学习的武夷岩茶产地鉴别方法

Publications (1)

Publication Number Publication Date
CN106560841A true CN106560841A (zh) 2017-04-12

Family

ID=58485777

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610915374.5A Pending CN106560841A (zh) 2016-10-20 2016-10-20 基于深度学习的武夷岩茶产地鉴别方法

Country Status (1)

Country Link
CN (1) CN106560841A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107942686A (zh) * 2017-12-28 2018-04-20 广西大学 基于深度极限学习机的澄清过程运行优化控制方法
CN108645809A (zh) * 2018-06-27 2018-10-12 广西民族大学 一种近红外光谱技术快速识别松脂来源树种的方法
CN109034230A (zh) * 2018-07-17 2018-12-18 厦门大学 一种基于深度学习的单幅图像相机溯源方法
CN110907369A (zh) * 2019-12-04 2020-03-24 中国计量大学 一种融合不同检测方法特征变量的武夷岩茶产地鉴别方法
CN111401444A (zh) * 2020-03-16 2020-07-10 深圳海关食品检验检疫技术中心 红酒原产地的预测方法、装置、计算机设备及存储介质
CN111505101A (zh) * 2020-04-29 2020-08-07 中国工程物理研究院核物理与化学研究所 一种基于主成分分析的铀矿石产地分类方法
CN113361610A (zh) * 2021-06-10 2021-09-07 北方民族大学 葡萄酒产地智能识别方法及系统
CN115980167A (zh) * 2023-01-09 2023-04-18 广东省农业科学院农业质量标准与监测技术研究所 一种稳定同位素分析技术判别鸭屎香单丛茶采收季节的方法和应用

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
GRARD GREMAUD 等: "《Characterization of Swiss vineyards using isotopic data in combination with trace elements and classical parameters》", 《EUROPEAN FOOD RESEARCH AND TECHNOLOGY》 *
言思敏: "《地理标志产品武夷岩茶的产地识别技术研究》", 《中国优秀硕士学位论文全文数据库农业科技辑》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107942686A (zh) * 2017-12-28 2018-04-20 广西大学 基于深度极限学习机的澄清过程运行优化控制方法
CN108645809A (zh) * 2018-06-27 2018-10-12 广西民族大学 一种近红外光谱技术快速识别松脂来源树种的方法
CN109034230A (zh) * 2018-07-17 2018-12-18 厦门大学 一种基于深度学习的单幅图像相机溯源方法
CN109034230B (zh) * 2018-07-17 2021-03-30 厦门大学 一种基于深度学习的单幅图像相机溯源方法
CN110907369A (zh) * 2019-12-04 2020-03-24 中国计量大学 一种融合不同检测方法特征变量的武夷岩茶产地鉴别方法
CN111401444A (zh) * 2020-03-16 2020-07-10 深圳海关食品检验检疫技术中心 红酒原产地的预测方法、装置、计算机设备及存储介质
CN111401444B (zh) * 2020-03-16 2023-11-03 深圳海关食品检验检疫技术中心 红酒原产地的预测方法、装置、计算机设备及存储介质
CN111505101A (zh) * 2020-04-29 2020-08-07 中国工程物理研究院核物理与化学研究所 一种基于主成分分析的铀矿石产地分类方法
CN111505101B (zh) * 2020-04-29 2023-04-18 中国工程物理研究院核物理与化学研究所 一种基于主成分分析的铀矿石产地分类方法
CN113361610A (zh) * 2021-06-10 2021-09-07 北方民族大学 葡萄酒产地智能识别方法及系统
CN115980167A (zh) * 2023-01-09 2023-04-18 广东省农业科学院农业质量标准与监测技术研究所 一种稳定同位素分析技术判别鸭屎香单丛茶采收季节的方法和应用
CN115980167B (zh) * 2023-01-09 2023-12-01 广东省农业科学院农业质量标准与监测技术研究所 一种稳定同位素分析技术判别鸭屎香单丛茶采收季节的方法和应用

Similar Documents

Publication Publication Date Title
CN106560841A (zh) 基于深度学习的武夷岩茶产地鉴别方法
CN106560700A (zh) 能自动鉴别武夷岩茶产地的机器学习方法
CN106560691A (zh) 具有深度学习功能的武夷岩茶产地鉴别方法
CN106560697A (zh) 联合近红外光谱和微量元素的武夷岩茶产地鉴别方法
CN106560692A (zh) 联合四种检验技术的武夷岩茶产地鉴别方法
Furia et al. Multielement fingerprinting as a tool in origin authentication of PGI food products: Tropea red onion
Cipollina et al. Reciprocal trade agreements in gravity models: A meta‐analysis
CN106560698A (zh) 基于多种检测技术的植物产地鉴别方法
CN106560699A (zh) 用于武夷岩茶产地鉴别的联合检测方法
Shuai et al. Recent techniques for the authentication of the geographical origin of tea leaves from camellia sinensis: A review
CN106560695A (zh) 联合三种检测方法的武夷岩茶产地鉴别方法
CN104316491B (zh) 基于同步‑异步二维近红外相关谱检测牛奶掺尿素的方法
Ren et al. Estimation of Congou black tea quality by an electronic tongue technology combined with multivariate analysis
CN106560704A (zh) 联合同位素和微量元素检验的武夷岩茶产地鉴别方法
CN103630528A (zh) 一种利用茶叶中元素含量鉴别茶叶产地的方法
CN106560693A (zh) 基于偏最小二乘判别的武夷岩茶产地鉴别方法
CN106560694A (zh) 基于多种检验技术的武夷岩茶产地智能鉴别方法
Rashmi et al. Stable isotope ratio analysis in determining the geographical traceability of Indian wheat
CN106560701A (zh) 基于五隐藏层的武夷岩茶产地深度学习系统
CN103558311B (zh) 一种基于茶叶生化成分的绿茶苦涩味判别方法
Lou et al. Stable Isotope Ratio and Elemental Profile Combined with Support Vector Machine for Provenance Discrimination of Oolong Tea (Wuyi‐Rock Tea)
CN102338780A (zh) 一种卷烟品牌判别方法
Hondrogiannis et al. Use of laser ablation–inductively coupled plasma–time of flight–mass spectrometry to identify the elemental composition of vanilla and determine the geographic origin by discriminant function analysis
CN103399050B (zh) 一种基于口感信息快速评定人参掺假西洋参的方法
Kanrar et al. Elemental Profiling for Discrimination of Geographical Origin of Tea (Camellia sinensis) in north-east region of India by ICP-MS coupled with Chemometric techniques

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170412