CN106560695A

CN106560695A - 联合三种检测方法的武夷岩茶产地鉴别方法

Info

Publication number: CN106560695A
Application number: CN201610915226.3A
Authority: CN
Inventors: 叶子弘; 楼云霄; 付贤树; 俞晓平; 崔海峰; 张雅芬
Original assignee: China Jiliang University
Current assignee: China Jiliang University
Priority date: 2016-10-20
Filing date: 2016-10-20
Publication date: 2017-04-12

Abstract

本发明涉及联合三种检测方法的武夷岩茶产地鉴别方法，即联合近红外光谱检测、稳定同位素质谱检测以及儿茶素检测方法，建立武夷岩茶产地鉴别方法，属于地理标志产品真实性识别技术领域，其目的在于解决单种检测数据无法代表产地溯源全部关键信息和不同类型检测数据在计量学方法中联合使用的数据匹配等问题。本发明基于最小二乘支持向量机模型，将不同产地岩茶近红外特征光谱、稳定同位素及儿茶素数据融合在一起，建立LS‑SVM分析模型，识别率最高，达100.0％，高于单种数据LS‑SVM结果，且对盲样的识别率达100％，本发明方法具有较好应用前景，可作为武夷岩茶产地溯源识别技术方法。

Description

联合三种检测方法的武夷岩茶产地鉴别方法

(一)技术领域

本发明涉及联合三种检测方法的武夷岩茶产地鉴别方法，所述三种检测方法为近红外光谱检测、稳定同位素质谱检测和儿茶素含量检测，属于地理标志产品真实性识别技术领域。

(二)背景技术

根据GB/T 17924-2008的定义，地理标志产品是指利用产自特定地域的原材料，按照传统工艺在特定地域内所生产的，质量、特色或者声誉在本质上取决于其原产地域地理特征，并按法定程序经审核批准以原产地域名称命名的产品。茶叶具有明显的地域特色和品质特征，品质、口感与其产地的地理条件、气候因素、环境等因素密切相关，市场认可度和消费者喜爱程度也各有不同，是典型的地理标志保护产品。国家质检总局对特定区域内的茶叶进行原产地域产品的地理标识，如武夷岩茶、安溪铁观音、大红袍、永春佛手、西湖龙井、安吉白茶、祁门红茶、普洱茶、碧螺春茶等近50种地理标志产品茶叶。

目前，国内外已开展成品茶产地识别鉴定研究，仪器检测结合化学计量学分析方法为最主要产地识别方法，仪器检测方法主要有近红外光谱、同位素质谱、液相色谱、传感器等；常用计量学方法包括偏最小二乘、主成分分析、人工神经网络、支持向量机等。

近红外光谱检测技术广泛应用农产品原产地检测中，Yong He等选取325～1075nm的光谱，以主成分分析得到的8个主成分作为输入层，对8个品牌(毛峰、雪水云绿、羊岩勾青等)的200份绿茶建立了BP判别模型，并对40份未知样品进行测定，判别准确率达100％。周健等对4个龙井茶品种(龙井43、群体种、迎霜和乌牛早)进行近红外检测，并采用PLS建立模型，其对定标集的559个样本的识别准确率分别为89.8％、90.9％、96.1％和99.5％，而对验证集的279个未知样本的识别准确率分别为87.1％、84.2％、96.1％和97.5％。苏学素等采用1140～1170nm波段的近红外光谱对江西、重庆和湖南3个产地脐橙建立了簇类独立软模式法脐橙产地鉴别模型，模型对3个产地训练集样品的识别率均为100％，拒绝率分别为85.7％、83.3％、100％；对验证集样品的识别率均为100％，拒绝率分别为100％、89.5％、100％。夏立娅等采用近红外光谱对119个地理标志产品响水大米和90个非响水大米进行检测，利用凝聚层次聚类和费世尔判别鉴别方法可以100％正确鉴别响水大米和非响水大米；对于非响水地区的大米的具体产地判别，聚类分析正确率为91.9％，费世尔判别分析方法的正确率为96.7％。

同位素是所有生物的一个自然标签，与生物的生长环境密切相关，因此同位素质谱(IRMS)为茶叶原产地识别提供科学的、可靠的鉴别方法。IRMS目前已经广泛应用在各种农产品的原产地检测中，Brescia等对意大利、加拿大、土耳其、澳大利亚产的硬质粗面粉进行同位素组成分析，发现δ¹³C、δ¹⁸O、δ¹⁵N与原产地有明显相关关系。Maggi等采集了希腊、伊朗、意大利、西班牙等地藏红花样品，对产品相关的理化性质进行了测定，多元统计分析结果表明利用紫外、高效液相色谱、气相色谱等所测定的藏红花酸、挥发性有机物等含量对产地正确分辨率仅为60％，而结合产品中δ²H、δ¹⁵N、δ¹³C值，则可以100％判定藏红花的原产地。Rodrigues等还发现不同原产地咖啡生豆中δ¹⁸O、δ¹⁵N、δ¹³C和C、N元素组成存在差异，与不同地域纬度和沉淀值有关，可以用于原产地判定。

采用色谱技术对样品的一些特征化合物进行定量分析，最常检测项目为儿茶素。宁井铭等利用液相色谱技术对来自云南普洱茶主要产区的20个晒青毛茶的儿茶素进行分析，结果表明，不同产地毛茶在主要化学成分组成上存在着差异性，同一地区毛茶基本一致；康海宁等用高效液相色谱对33个茶样中5种儿茶素和咖啡碱进行检测，通过聚类分析，可区分不同种类、不同产地及不同工艺的茶叶；王丽鸳等利用HPLC化学指纹图谱，针对儿茶素类和黄酮苷类物质进行武夷岩茶的分类识别试验，依据其判别函数得分值的差异，对不同原料品种、不同地区生产的武夷岩茶进行判别。

从上述例子可以看出，国内外对地理标志产品的鉴别方法已有很多，但是很多研究尚有不足之处，如采样不充分样品数量少，无法保证样品的准确性和代表性；样品空间选择跨度大，往往选自不同国家、不同地区，本身就具有很大的区别；再加之甚至选择了不同品种样品进行比较，不同品种间本身差异较大，因此这类鉴别方法对小范围的地理标志产品产地判别借鉴意义不大；建模方法采用单种检测数据结合计量学方法进行，单种检测数据无法代表产地溯源的全部信息，导致产地识别率较低，上述这些严重影响了地理标志产品保护技术的创新和突破。针对如上情况，有必要建立一种融合近红外、稳定同位素以及儿茶素数据的产地识别模型。

(三)发明内容

本发明目的在于解决单种检测数据无法代表产地溯源的全部关键信息以及不同类型检测数据在计量学方法中的联合使用所存在的数据匹配等问题，提供一种联合近红外光谱、稳定同位素以及儿茶素三种检测方法的武夷岩茶产地鉴别方法，该方法基于最小二乘支持向量机模型，将不同产地岩茶(包括地理标志产地内和产地外岩茶)近红外特征光谱数据、稳定同位素数据和儿茶素数据融合在一起，建立分析模型，提取试样后利用模型客观、准确的判定岩茶产地。

本发明采用的技术方案是：

联合近红外光谱和稳定同位素鉴别武夷岩茶产地的方法，所述方法包括：

(A)采集不同产地岩茶样品：

武夷岩茶产区外样品数＞100份，且产区周边50公里范围内样品占比＞50％；武夷岩茶产区内样品数为产区外样品的2～3倍，采样范围覆盖主要产区各生产企业，且每家企业应不少于3个样品；

(B)测定不同产地岩茶样品的近红外特征光谱数据：

近红外检测参数：64次扫描，特征光谱条带为64次扫描的平均值，扫描范围为12000-4000cm^-1，数据点的间隔为1.928cm^-1，采集时室温控制在25℃，湿度保持稳定，每个样本的光谱采集1次；所有样品采用无损检测，无需采用粉碎等前处理，采用相同加料方法、加料量(目测)，加料完毕即可进行检测。

(C)测定不同产地岩茶样品的稳定同位素质谱数据：

δ¹³C、δ¹⁵N、δ¹⁸O和δ²H由Thermo Fisher MAT253稳定同位素质谱仪测定，每个样品至少重复分析3次以上，取平均值作为最终结果；

通过SVM-RFE(支持向量机回归特征消去法)对武夷岩茶稳定同位素数据进行训练和预测，随机重复100次，并对各变量的模型特征进行排序，筛选出岩茶原产地的同位素特征变量，其排序顺序为氢、氧、氮、碳、锶。并利用预测集计算模型的灵敏度增维精度、分辨率增维精度、识别率增维精度，均按重复计算100次平均结果，氢、氧、氮、碳四种数据组成的模型，其识别率最高，达93.93％，因此建模只需要选择氢、氧、氮、碳四种数据即可，无需对锶等其他稳定同位素含量进行检测。

(D)测定不同产地岩茶样品的儿茶素数据：

利用HPLC法对不同产地岩茶样品中的6种儿茶素以及咖啡碱进行检测，平行测定3次，取平均值。

数据经SVM-RFE模型训练和预测后，各儿茶素和咖啡碱对于地理特征的贡献率从高到低依次为表没食子儿茶素(EGC)、儿茶素(C)、表没食子儿茶素没食子酸酯(EGCG)、没食子酸(GA)、表儿茶素(EC)、表儿茶素没食子酸酯(ECG)和咖啡碱。将儿茶素和咖啡碱共7个特征变量按上述顺序进行逐级组合后，基于儿茶素和咖啡碱数据建立的SVM产地溯源模型，其灵敏度增维精度均高于0.9000，说明对于保护区内的岩茶样品判别结果较为可靠。SVM模型的灵敏度增维精度、分辨率增维精度和识别率增维精度，经SVM回归特征消去法与全数据模型进行训练集的训练比较后，表没食子儿茶素的识别率增维精度最高，最高模型识别率为0.8596，模型中包含EGC、C、EGCG、GA和EC，该模型的灵敏度为0.9322，分辨率为0.6734。不断下降的识别率增维精度说明ECG和咖啡碱不能对产地判别提供增益效益，且可能与前面的五种儿茶素之间存在一定的负相关关系。

(E)联合三种检测方法建立不同产地岩茶鉴别数据库：

(1)将每条近红外数据(Y轴数据)拼接在Excel数据表格中，每行所有列数据组成每条近红外数据；

(2)将每个样品的稳定同位素数据按氢、氧、氮、碳顺序拼接在近红外数据中(按氢、氧、氮、碳拼接在近红外数据列之后)，再将儿茶素数据按EGC、C、EGCG、GA和EC顺序拼接在稳定同位素数据后，武夷岩茶产区内样品组成的Excel数据表，以data1命名；武夷岩茶产区外样品组成的Excel数据表，以data2命名；

(3)运行MATLAB软件中的edit功能，打开data1.xls、data2.xls，以Mat文件格式保存，文件名对应为data1.mat、data2.mat；

(4)数据分割：参考R.D.Snee和Michal Daszykowski建立的Duplex分割程序，将数据划分为两个子集，使其覆盖近似相同区域和拥有类似的统计性质；将样本数据归一化和正交化，计算两两样本间的欧式距离；选择欧式距离最大的两个样本进入训练集，剩余样本中，欧式距离最大的两个样本进入验证集；第一轮选后的剩余样本中，与训练集欧式距离最大的样本进入训练集，与验证集欧式距离最大的样本进入验证集；重复步骤，直至所选的样品分成两个子集。指定预测集的样本数，指定武夷岩茶产区内总数的65-70％作为原产地内模型数A1，随机取武夷岩茶产区外65-70％作为原产地外模型数A2，建立Duplex分割程序。

(5)蒙特卡洛交叉验证(Monte Carlo cross vali-dation，MCCV)是筛选奇异样本的方法，用于解决复杂统计模型和矩阵高维问题，其核心是对样本的抽取，从给定的目标函数分布中进行高效抽样为其关键；随机选取一定的校正集建立偏最小二乘模型，剩余的样本作预测集对模型进行验证，经过多次循环后能够得到一组预测残差，通过预测残差计算出预测残差的均值与方差，判断异常样本并验证剔除异常样本对模型精度提高作用，可有效检出光谱阵和性质阵方向的奇异点。

(6)最小二乘支持向量机(LS-SVM，Least Squares Support Vector Machines)，将非线性估计函数转化为高维特征空间中线性估计函数，使得LS-SVM的训练过程遵循结构风险最小化原则，将不等式约束改为等式约束，将经验风险由偏差的一次方改为二次方，将求解二次规划问题转化为求解线性方程组，避免不敏感损失函数，极大降低计算复杂度。其设计思路为从机器学习损失函数着手，在其优化问题的目标函数中使用二范数，并利用等式约束条件代替SVM标准算法中的不等式约束条件，使得LS-SVM方法的优化问题的求解变为通过Kuhn-Tucker条件得到的一组线性方程组的求解。对步骤(4)数据分割后的近红外、稳定同位素以及儿茶素融合数据，采用最小二乘支持向量机法分析并建立LS-SVM模型，正确判别率达100％；

(F)取待测未知产地样品按照步骤(B)、(C)和(D)测定近红外特征光谱、稳定同位素质谱和儿茶素数据，将测得数据代入上述LS-SVM模型，判断待测样品的产地属性。

具体的，所述步骤(E)中分割程序分别为：[model1，test1]＝Duplex(data1，A1)和[model2，test2]＝Duplex(data2，A2)，得到model1、test1、model2、test2。

具体的，所述步骤(E)中最小二乘支持向量机模型的建立过程如下：

(a)合并训练集：xxxc＝[data1(model1，：)；data2(model2，：)]；

(b)合并预测集：xxxp＝[data1(test1，：)；data；2(test2，：)]；

(c)求训练集平均光谱：mx＝mean(xxxc)；

(d)训练集减去平均光谱：xxxc＝xxxc-ones(A，1)*mx；

A为：A1+A2；

(e)预测集减去平均光谱：xxxp＝xxxp-ones(B，1)*mx；

B为：原产地内测试集数B1与原产地外测试集数B2之和；

(f)响应变量：yyc＝-ones(A，2)；yyc(1：A1，1)＝1；yyc(A1+1：A，2)＝1；

A1与B1之和为原产地内样品总数C1；

A2与B2之和为原产地外样品总数C2；

(g)最大隐变量数：lvm＝20；

(h)分二列学习，用蒙特卡罗交互验证确定隐变量lvp：

[epmccv1，lvp1]＝mccvforpls(xxxc，yyc(：，1)，lvm)；

[epmccv2，lvp2]＝mccvforpls(xxxc，yyc(：，2)，lvm)；

(i)建模过程：

预处理：model＝initlssvm(x，y，type，[]，[]，kernel)；

模型测定：model＝tunelssvm(model，′simplex′，optfun，optargs)；

训练集测定：model＝trainlssvm(model)；

(j)根据测定结果，采用plotlssvm预测结果，并分别输出yp、alpha、b、gam和sig2：

plotlssvm(model)；

end

yp＝simlssvm(model，x)；

alpha＝model.alpha；

b＝model.b；

gam＝model.gam；sig2＝model.kernel_pars；

本发明的有益效果主要体现在：本发明基于最小二乘支持向量机模型，将不同产地岩茶(包括地理标志产地内和产地外岩茶)近红外特征光谱数据、稳定同位素数据和儿茶素数据融合在一起，建立分析模型，提取试样后利用模型客观、准确的判定岩茶产地，其识别率高，达100.0％，高于单种数据LS-SVM结果。

其中Duplex程序如下所示：

其中mccvforpls程序如下所示：

其中LS-SVM程序如下所示：

LS-SVM程序中所包含的initlssvm程序如下：

LS-SVM程序中所包含的trainlssvm程序如下：

(四)具体实施方式

下面结合具体实施例对本发明进行进一步描述，但本发明的保护范围并不仅限于此：

实施例1：

A、采集不同产地岩茶样品

国标(GB/T 18745-2006)中规定了武夷岩茶的地理保护范围，即福建省武夷山市行政区划内，本发明在武夷岩茶地理标志保护区武夷街道、崇安街道、上梅、星村、五夫、岚谷、新丰街道、洋庄、兴田、下梅、吴屯11个行政区域内进行样品采集，每个行政区域内随机选择3个取样点(分别以A、B、C进行标示)，共33个取样点，取样范围基本涵盖主要产区，每个采样点取样15份(分别以A-1、A-2......A-15进行标示)，获得495份地理标志保护区武夷岩茶样品，另在福建省除武夷山市外其他县市(建阳、建瓯、漳州、泉州、松溪、政和)，以及广西、贵州、江西(婺源、赣州)等11个地点收集保护区外岩茶样品，每个地点取样15份(分别以1、2......15进行标示)，获得165个非地理标志保护区岩茶样品。地理标志产地内样品数与地理标志产地外样品数之比为3∶1。

B、不同产地岩茶近红外特征光谱数据

本发明近红外检测仪器采用的是德国布鲁克TENSOR37，所有样品采用无损检测，无需采用粉碎等前处理，采用相同加料方法、加料量(目测)，加料完毕即可进行检测，光谱为64次扫描的平均值，扫描范围为12000-4000cm^-1，数据点的间隔为1.928cm^-1，采集时室温控制在25℃，湿度保持稳定，每个样本的光谱采集1次。

表1为15个星村B样品部分近红外数据表，其中X轴为波长范围，Y轴为吸光度。

表1：15个星村B样品部分近红外数据表

C、不同产地岩茶稳定同位素质谱数据

δ¹³C、δ¹⁵N、δ¹⁸O和δ²H由Thermo Fisher MAT253稳定同位素质谱仪测定，每个样品至少重复分析3次以上，取平均值作为最终结果。地理标志产区内、外岩茶样品同位素比率经上述方法检测，下表2节选部分岩茶样品同位素比率数据表。

表2：部分岩茶样品同位素比率统计表

通过SVM对武夷岩茶稳定同位素数据进行训练和预测，随机重复100次，并对各变量的模型特征进行排序，各稳定同位素对于原产地特征的贡献率从高到低分别为氢、氧、氮、碳、锶；然后对特征变量按自然序逐级进行组合，并利用预测集计算模型的灵敏度增维精度、分辨率增维精度、识别率增维精度，得到表3同位素特征变量组合结果情况。

表3：同位素特征变量组合结果情况

模型特征变量组合	灵敏度增维精度	分辨率增维精度	识别率增维精度
				氢	0.8964	0.8821	0.8925
氢+氧	0.9047	0.8141	0.8800
				氢+氧+氮	0.9429	0.8056	0.905
氢+氧+氮+碳	0.9592	0.8836	0.9393
				氢+氧+氮+碳+锶	0.9132	0.8223	0.9066

从表3可看出，当氢和氧的同位素数据进行组合后，模型识别率下降，说明氧和氢对原产地特征的贡献具有较强的相关性；而加入碳和氮同位素数据后，模型识别率上升，达到93.93％，说明氮和碳具有较好的互补，因此建模只需要选择氢、氧、氮、碳四种数据即可，建模中无需增加锶的数据，在实际检测中，同位素锶的含量无需检测。

D、测定不同产地岩茶样品的儿茶素数据

利用HPLC法对不同产地岩茶样品中的6种儿茶素以及咖啡碱进行检测，平行测定3次，取平均值，部分岩茶样品儿茶素和咖啡碱含量数据如表4。

表4不同产地部分岩茶儿茶素和咖啡碱含量

待测样名称	GA	EGC	C	EC	EGCG	ECG	咖啡碱
								上梅A-1	0.19	2.19	0.67	0.63	4.22	1.15	3.03
星村A-1	0.26	1.37	0.73	0.39	3.72	0.96	3.05
								五夫A-1	0.27	3.82	1.18	1.06	7.34	1.98	2.83
岚谷A-1	0.16	1.65	0.53	0.57	3.16	0.93	2.84
								崇安街道A-1	0.10	3.06	0.75	0.77	4.25	0.97	2.80
新丰街道A-1	0.12	2.05	0.46	0.73	3.07	0.98	2.93
								洋庄A-1	0.15	1.69	0.05	0	4.22	0.11	2.36
兴田A-1	0.12	1.86	0.36	0.54	4.03	1.12	2.16
								下梅A-1	0.23	0.98	0.59	0.32	2.85	1.08	2.66
吴屯A-1	0.12	2.08	0.35	0.56	4.96	1.27	2.36
								武夷街道A-1	0.17	0.10	0.64	0.46	4.33	1.04	2.39
建阳-1	0.15	0.10	0.46	0.38	3.64	1.08	2.27
								建瓯-1	0.14	0.05	0.36	0.38	3.35	1.05	3.15
漳州-1	0.14	1.67	0.21	0.55	4.26	1.28	2.35
								泉州-1	0.13	1.40	0.20	0.36	3.84	1.15	1.82
浦城-1	0.16	1.42	0.24	0.38	4.67	1.14	2.24
								贵州-1	0.39	0.01	0.34	0.12	0.29	0.76	3.54
松溪-1	0.20	1.05	0.26	0.32	4.09	1.12	2.08
								政和-1	0.25	0.66	0.49	0.28	2.60	0.87	2.86
广西-2	0.24	1.15	0.33	0.65	4.09	1.68	3.49
								婺源-2	0.31	0.05	0.15	0.01	0.14	0.34	3.30
赣州-2	0.33	0.01	0.15	0.03	0.08	0.23	2.83

通过SVM对武夷岩茶儿茶素和咖啡碱组分数据进行训练和预测，各儿茶素和咖啡碱对于地理特征的贡献率从高到低依次为EGC、C、EGCG、GA、EC、ECG和咖啡碱。这说明各变量经SVM回归特征消去法与全数据模型进行训练集的训练比较后，表没食子儿茶素的识别率增维精度最高。最高模型识别率为0.8596，模型中包含EGC、C、EGCG、GA和EC，该模型的灵敏度为0.9322，分辨率为0.6734，因此建模采用EGC、C、EGCG、GA和EC五种儿茶素含量。

E、联合三种检测方法的武夷岩茶产地鉴别数据库：

(1)将每条近红外数据拼接在Excel数据表格中，每行所有列数据组成每条近红外数据。

(2)将每个样品的稳定同位素数据按氢、氧、氮、碳顺序拼接在近红外数据中，再将儿茶素数据按EGC、C、EGCG、GA和EC顺序拼接在稳定同位素数据后，地理标志产区内样品组成495行、4157列(近红外Y轴数据共4148列，增加4列依次为氢、氧、氮、碳稳定同位素数据)的Excel数据表，以data1命名；地理标志产区外样品组成165行、4157列的Excel数据表，以data2命名。

(4)数据分割：参考R.D.Snee和Michal Daszykowski建立的Duplex分割程序，其分割程序如下所示[model1，test1]＝Duplex(data1，A1)和[model2，test2]＝Duplex(data2，A2)，得到model1、test1、model2、test2。

(5)对步骤(4)数据分割后的近红外、稳定同位素以及儿茶素融合数据，采用最小二乘支持向量机法分析并建立LS-SVM模型；

(a)合并训练集：xxxc＝[data1(model1，：)；data2(model2，：)]；

(b)合并预测集：xxxp＝[data1(test1，：)；data2(test2，：)]；

(c)求训练集平均光谱：mx＝mean(xxxc)；

(d)训练集减去平均光谱：xxxc＝xxxc-ones(A，1)*mx；

A为：A1+A2；

(e)预测集减去平均光谱：xxxp＝xxxp-ones(B，1)*mx；

B为：原产地内测试集数B1与原产地外测试集数B2之和；

A1与B1之和为原产地内样品总数C1；

A2与B2之和为原产地外样品总数C2；

(g)最大隐变量数：lvm＝20；

(h)分二列学习，用蒙特卡罗交互验证确定隐变量lvp：

[epmccv1，lvp1]＝mccvforpls(xxxc，yyc(：，1)，lvm)；

[epmccv2，lvp2]＝mccvforpls(xxxc，yyc(：，2)，lvm)；

(i)建模过程：

预处理：model＝initlssvm(x，y，type，[]，[]，kernel)；

模型测定：model＝tunelssvm(model，′simplex′，optfun，optargs)；

训练集测定：model＝trainlssvm(model)；

plotlssvm(model)；

end

yp＝simlssvm(model，x)；

alpha＝model.alpha；

b＝model.b；

gam＝model.gam；sig2＝model.kernel_pars；

F、取待测未知产地样品按照步骤(B)、(C)和(D)测定近红外特征光谱、稳定同位素质谱和儿茶素数据，将测得数据代入上述LS-SVM模型，判断待测样品的产地属性。

G、LS-SVM模型识别率

按上述建模方法分别对近红外光谱、稳定同位素、儿茶素以及三者融合数据进行建模分析，其结果见表5。

表5：PLSDA分类模型判别结果汇总

各检测技术所代表的各个特征指标之间具有互补性，采用本发明LS-SVM建模方法对近红外光谱、稳定同位素以及儿茶素的融合数据进行分析，其识别率最高，为100.0％，高于单种数据LS-SVM的判别结果。

F、盲样检测

盲样监督小组从武夷岩茶农户处购买岩茶样品，监控晒青、做青、杀青等步骤，确保岩茶样品的原产地域属性，上述样品作为盲样中的地理标志产区内样品；从建阳、建瓯、婺源等地购买岩茶，作为盲样中的地理标志产区外样品，上述盲样与建模岩茶样品出自不同的厂家。分析检测人员事先未能得知待测盲样的产地属性，随机选取若干份，检测，再按本发明方法对盲样产地属性进行判断，并与盲样监督小组进行核对，确定盲样识别率。分别选取20、60、100个盲样，按照步骤B、C和D方法获得的盲样数据代入上述LS-SVM模型，判断其地理标志属性，其识别率均为100.0％。

实施例2：

采用与实施例1相同的建模方法，数据分割用Duplex分割程序，用蒙特卡洛交互验证，分别建立最小二乘支持向量机LS-SVM、偏最小二乘PLSDA、神经网络ELM模型，近红外数据不变，稳定同位素、儿茶素分别按照氢、氧、氮、碳、锶、EGC、C、EGCG、GA、EC、ECG、咖啡碱拼接在近红外数据后，其模型识别率分别为94.1％、90.5％、91.6％。

实施例3：

采用与实施例1相同的建模方法，数据分割用Duplex分割程序，用蒙特卡洛交互验证，分别建立最小二乘支持向量机LS-SVM、偏最小二乘PLSDA、神经网络ELM模型，近红外数据不变，稳定同位素、儿茶素分别按照氢、氧、氮、碳、锶、EGC、C、EGCG、GA、EC拼接在近红外数据后，其模型识别率分别为97.9％、92.3％、93.8％。

实施例4：

采用与实施例1相同的建模方法，数据分割用Duplex分割程序，用蒙特卡洛交互验证，分别建立最小二乘支持向量机LS-SVM、偏最小二乘PLSDA、神经网络ELM模型，近红外数据不变，稳定同位素、儿茶素分别按照氢、氧、氮、碳、EGC、C、EGCG、GA、EC拼接在近红外数据后，其模型识别率分别为100.0％、94.6％、96.1％。

实施例5～10：

岩茶样品、近红外数据、稳定同位素以及儿茶素数据等与实施例1相同，采用不同的分割程序和建模方法，考察采用不同方法对产地鉴别的影响。实施例8-10分别采用现有发明专利CN103630528A(申请号201210307144.2)、CN102455320A(申请号201010526790.9)、CN103245713A(申请号201310095950.2)所述方法进行鉴别。实施例5～10与实施例1指标区别见表6。

表6：实施例5～10与实施例1比较情况表

从上述比较结果可以得出，采用本发明方法，其盲样检测率达100.0％以上，可作为武夷岩茶产地溯源识别技术方法。

Claims

1.联合三种检测方法的武夷岩茶产地鉴别方法，所述方法包括：

(A)采集不同产地岩茶样品：

(B)测定不同产地岩茶样品的近红外特征光谱数据：

近红外检测参数：64次扫描，特征光谱条带为64次扫描的平均值，扫描范围为12000-4000cm^-1，数据点的间隔为1.928cm^-1，采集时室温控制在25℃，湿度保持稳定，每个样本的光谱采集1次；

(C)测定不同产地岩茶样品的稳定同位素质谱数据：

δ¹³C、δ¹⁵N、δ¹⁸O和δ²H的测定，每个样品至少重复分析3次以上，取平均值作为最终结果；通过SVM-RFE(支持向量机回归特征消去法)对武夷岩茶稳定同位素数据进行训练和预测，随机重复100次，并对各变量的模型特征进行排序，筛选出岩茶原产地的同位素特征变量，其排序顺序为氢、氧、氮、碳、锶；并利用预测集计算模型的灵敏度增维精度、分辨率增维精度、识别率增维精度，均按重复计算100次平均结果，氢、氧、氮、碳四种数据组成的模型，其识别率最高，达93.93％，因此建模只需选择氢、氧、氮、碳四种数据，无需对锶等其他稳定同位素含量进行检测；

(D)测定不同产地岩茶样品的儿茶素数据：

利用HPLC法对不同产地岩茶样品中的6种儿茶素以及咖啡碱进行检测，平行测定3次，取平均值；数据经SVM模型训练和预测后，各儿茶素和咖啡碱对于地理特征的贡献率从高到低依次为表没食子儿茶素(EGC)、儿茶素(C)、表没食子儿茶素没食子酸酯(EGCG)、没食子酸(GA)、表儿茶素(EC)、表儿茶素没食子酸酯(ECG)和咖啡碱；最高模型识别率为0.8596，模型中包含EGC、C、EGCG、GA和EC，该模型的灵敏度为0.9322，分辨率为0.6734；

(E)联合三种检测方法建立不同产地岩茶鉴别数据库：

(4)数据分割：参考R.D.Snee和Michal Daszykowski建立的Duplex分割程序；

(5)对步骤(4)数据分割后的近红外、稳定同位素以及儿茶素融合数据，采用最小二乘支持向量机法分析并建立LS-SVM模型，正确判别率达100％；

2.如权利要求1所述的方法，其特征在于所述步骤(E)中分割程序具体为：[model1，test1]＝Duplex(data1，A1)和[model2，test2]＝Duplex(data2，A2)，得到model1、test1、model2、test2。

3.如权利要求1所述的方法，其特征在于所述步骤(E)中最小二乘支持向量机鉴别模型的建立过程如下：

(a)合并训练集：xxxc＝[data1(model1，：)；data2(model2，：)]；

(b)合并预测集：xxxp＝[data1(test1，：)；data2(test2，：)]；

(c)求训练集平均光谱：mx＝mean(xxxc)；

(d)训练集减去平均光谱：xxxc＝xxxc-ones(A，1)*mx；

A为：A1+A2；

(e)预测集减去平均光谱：xxxp＝xxxp-ones(B，1)*mx；

B为：原产地内测试集数B1与原产地外测试集数B2之和；

A1与B1之和为原产地内样品总数C1；

A2与B2之和为原产地外样品总数C2；

(g)最大隐变量数：lvm＝20；

(h)分二列学习，用蒙特卡罗交互验证确定隐变量lvp：

[epmccv1，lvp1]＝mccvforpls(xxxc，yyc(：，1)，lvm)；

[epmccv2，lvp2]＝mccvforpls(xxxc，yyc(：，2)，lvm)；

(i)建模过程：

预处理：model＝initlssvm(x，y，type，[]，[]，kernel)；

模型测定：model＝tunelssvm(model，′simplex′，optfun，optargs)；

训练集测定：model＝trainlssvm(model)；

(j)根据测定结果，采用plotlssvm预测结果，并分别输出yp、alpha、

b、gam和sig2：

plotlssvm(model)；

end

yp＝simlssvm(model，x)；

alpha＝model.alpha；

b＝model.b；

gam＝model.gam；sig2＝model.kernel_pars。

4.如权利要求1所述的方法，其特征在于本发明所述最小二乘支持向量机(LS-SVM)建模方法对近红外、稳定同位素、儿茶素的融合数据进行建模分析，模型识别率最高，达100.0％，远高于单种数据LS-SVM判别结果；针对20、60、100个盲样，检测识别率均达100.0％，本发明方法可作为武夷岩茶产地溯源识别技术方法。