CN114994150B

CN114994150B - 一种红花椒麻度的电子舌快速分类方法

Info

Publication number: CN114994150B
Application number: CN202210627149.7A
Authority: CN
Inventors: 史波林; 钟葵; 赵镭; 田师一; 汪厚银; 王思思; 毛岳忠; 程时文; 肖香荣
Original assignee: Zhejiang Gongshang University; China National Institute of Standardization
Current assignee: Zhejiang Gongshang University; China National Institute of Standardization
Priority date: 2022-05-31
Filing date: 2022-05-31
Publication date: 2023-10-27
Anticipated expiration: 2042-05-31
Also published as: CN114994150A

Abstract

本发明公开了一种红花椒麻度的电子舌快速分类方法，首先对传统的电子舌进行了改进，采用铂盘电极作为电子舌传感器阵列的参比电极；采用非交叉进样来提高各样品电子舌信号的稳定性；采用改进后的电子舌对红花椒麻度的电化学信息进行采集，然后将红花椒麻度先分高、中、低麻三大类，再分小类。该方法能够对所要检测的红花椒进行快速的预分类，相对于传统的理化检测或者感官评价，麻度分类速度和准确性大大提高；对于检测结果争议的，可以再用更精密的仪器去检测；前期的电子舌快速分类，可以减少精密仪器耗时耗力以及样品使用量过多的问题；通过先分麻度大类，再在同一大类内部分麻度小类，这样的分类策略和技术大大提高了检测准确性。

Description

一种红花椒麻度的电子舌快速分类方法

技术领域

本发明属于花椒麻感检测分级技术领域，具体涉及一种红花椒麻度的电子舌快速分类方法。

背景技术

现有对花椒的品质分级手段主要采用理化检测方式(花椒酰胺含量测定)。其次是通过对花椒进行感官评价，包括外观品质的评价以及麻感强度的分级。理化检测虽然稳定但前处理复杂、耗时长，而感官评价虽然能直接反映消费者对麻感强度的感知，但需要大量的评价员，耗时耗力，均不能满足市场对红花椒麻味品质快速分析的要求。

电子舌是通过模仿生物舌头应运而生的快速检测仪器，主要通过非特异性、低选择、具有交互敏感性的传感器阵列收集并反馈样品的整体信息，通过多元统计手段来达到模式识别效果。由于电子舌采集样品信息反应时间快，前处理简单，能够对样品做到快速定性甚至半定量分析而广受欢迎，被迅速应用到环境检测、产品溯源、不同食品质量的快速分类等领域中，因此采用电子舌作为分析手段，对不同麻感强度红花椒进行快速分级具有一定的可行性。

针对现有的电子舌分类精度的问题，不同麻感强度花椒其对应的理化物质构成的侧重各不同，无法对4种及以上(如15种)红花椒直接高精度分成4类及更多类别的麻度等级，因此本发明整体分类步骤分为两步，先分麻度大类再在同一大类麻度下分小类。分析比较支持向量机、决策树、K-近邻、Bagging Tree等不同分类学习器在花椒麻度分类中的模式识别性能，建立4种及以上不同麻度品质红花椒快速大分类模型并对模型预测效果加以验证，通过对其预测准确率进行对比，然后选择分别针对高、中、低麻同一大类样品的最佳小分类学习器对其进行细分。

发明内容

本发明的目的在于提供一种红花椒麻度的电子舌快速分类方法，该方法能够对所要检测的红花椒进行快速的预分类，相对于传统的理化检测或者感官评价，速度和准确性大大提高；对于检测结果争议的，可以再用更精密的仪器去检测；前期的电子舌快速分类，可以减少精密仪器耗时耗力以及样品使用量过多的问题；通过先分麻感大类，再对同一大类麻感样品分麻度小类，这样的分类策略和技术大大提高了检测准确性。

为了实现上述目的，本发明的技术方案概述如下：

一种红花椒麻度的电子舌快速分类方法，所述方法为：

(1)对传统的电子舌进行了改进，采用铂盘电极作为电子舌传感器阵列的参比电极；采用非交叉进样来提高各样品电子舌信号的稳定性；

(2)先分大类：采用改进后的电子舌对红花椒麻度的电化学信息进行采集，采用支持向量机、决策树、K-近邻、Bagging Tree不同分类学习器，建立不同麻度品质红花椒快速分类模型并对模型预测效果加以验证，通过比较各模型的预测准确率，选择最佳的分类学习器将不同种类的红花椒样品按照麻度分高、中、低麻三大类；

(3)再分小类：分别对高、中、低麻三大类进行细分，即分别针对高、中、低麻的红花椒种类，分析比较支持向量机、决策树、K-近邻、Bagging Tree不同分类学习器在花椒麻度小类分类中的模式识别性能，建立同一大类内不同麻度品质红花椒快速分类模型并对模型预测效果加以验证，通过对其预测准确率进行对比，选择分别针对高、中、低麻三大类的最佳分类学习器对其进行小类细分。

优选地，步骤(2)通过比较所选择的最佳大类分类学习器为Bagging Tree。步骤(3)对于高麻、中麻红花椒均采用Bagging Tree将其分成小类，对于低麻红花椒采用支持向量机将其分成小类。

具体的，基于分类学习器的大类麻度分类判别方法为：电子舌每天采集需要麻度大类分类的红花椒信息，每天每个样品重复测试5次，共重复6天，电子舌每采集一次样品得到1x600的数据矩阵，构成红花椒电子舌信号数据集矩阵，将数据集矩阵按照3∶1的比例分成建模集与预测集，应用所获得的红花椒样本的麻度标签——高麻、中麻、低麻作为所有学习分类器的目标矩阵Y进行模式识别，得到各学习分类器的三分类模型。

基于分类学习器的小类麻度分类判别方法为：6天得到的红花椒电子舌信号数据集矩阵中，可分成高麻类样本数据集矩阵，中麻类样本数据集矩阵，低麻类样本数据集矩阵。同一大类下，各小类样本点在分建模集与预测集时，根据其小分类样本按照3∶1的比例随机生成小类判别的建模集与预测集；其中对高麻类红花椒进一步细分时，其麻度标签分为甘肃产区高麻红花椒与非甘肃产区高麻红花椒；对中麻类红花椒进一步细分时，其麻度标签分为中高麻红花椒与中低麻红花椒；对低麻类红花椒进一步细分时，其麻度标签分为非山东产区低麻红花椒与山东产区低麻红花椒。

采用支持向量机建模时，所述支持向量机分类学习器的参数如下：(1)将样本信息映射到高维空间的核函数，选择高斯核函数作为支持向量机学习器的核函数；(2)选择贝叶斯优化调参法对惩罚因子C进行自适应调参；(3)在模型训练的过程中，采用10-fold交叉验证。

采用决策树建模时，所述决策树分类学习器的参数如下：(1)选择CART算法向下生成决策树的决策策略；(2)选择比较修剪前后建模集训练出的树模型对预测集样本点的预测精度是否发生显著变化的后剪枝策略来防止模型过拟合；(3)在模型训练的过程中，采用10-fold交叉验证

采取10-fold交叉验证来训练K-近邻学习分类模型。

运用Bagging Tree分类学习器时，采用投票方式选择软投票的方法来决定最终的分类结果，对于森林中的单个树模型采用CART算法向下生成子树，子树的剪枝采取后剪枝法优化模型，在模型训练的过程中，采用10-fold交叉验证。

本发明的优点：

该方法能够对所要检测的红花椒进行快速的预分类，相对于传统的理化检测或者感官评价，速度和准确性大大提高；对于检测结果争议的，可以再用更精密的仪器去检测；前期的电子舌快速分类，可以减少精密仪器耗时耗力以及样品使用量过多的问题；通过先分大类，再在同一大类内部分麻度小类，这样的分类策略和技术大大提高了检测准确性。

附图说明

图1是本发明的技术路线图；

图2-7分别是第1-6天PCA结果图；

图8是15种红花椒样本PCA结果；

图9-11分别是高麻、中麻、低麻PCA结果；

图12-15分别是SVM、K-NN、决策树、Bagging Tree高麻二分类ROC图；

图16-19分别是SVM、K-NN、决策树、Bagging Tree中麻二分类ROC图；

图20-23分别是SVM、K-NN、决策树、Bagging Tree低麻二分类ROC图。

具体实施方式

下面结合具体实施例来进一步描述本发明，本发明的优点和特点将会随着描述而更为清楚。但下述实施例中所涉及的具体实验方法如无特殊说明，均为常规方法或按照制造厂商说明书建议的条件实施。

若未特别指明，实施例中所用技术手段为本领域技术人员所熟知的常规手段。下述实施例中的试验方法，如无特别说明，均为常规方法。如无特殊说明，所采用的试剂及材料，均可以从市场中购买获得。

除非另行定义，文中所使用的所有专业与科学用语与本领域熟练人员所熟悉的意义相同。此外，任何与所记载内容相似或均等的方法及材料皆可应用于本发明中。文中所述的较佳实施方法与材料仅作示范之用。

1材料与仪器

1.1实验材料

15种不同麻感强度的红花椒均于2019年购自于各地农户，并在4℃冰箱保存，红花椒样品信息见表1。

表1红花椒样品信息表

1.2实验仪器

应用改良的传感器阵列，工作电极包括铂电极(Pd)、金电极(Au)、钯电极(Pd)、钨电极(Wu)、钛电极(Ti)，均为商业化的圆盘电极。辅助电极为铂柱电极，参比电极改为铂盘电极。激励信号包括3种不同频率段的大幅脉冲激励信号，频率段分别为1、10、100Hz。每个频率段的电压采用步进式梯度下降，电压变化区间为[+1，-1]V，每次电压变化步进为0.2V。本发明相关实验仪器见表2。

表2实验器材信息表

2实验方法

2.1花椒浸提液制备方法

参照GB/T 38495-2020中花椒浸提液的制取方法，将干花椒样品除梗去杂后，超速离心机粉碎，过40目筛，称取花椒粉样品5g(精确到0.01g)置于250mL棕色具塞锥形瓶中，加入75mL无水乙醇振摇均匀，20℃恒温超声提取(频率40kHz)20min。混合溶液全部转移至离心管中，2000r/min转速下离心5min，收集至250mL棕色容量瓶。用少量无水乙醇洗涤沉淀，涡旋1min，2000r/min转速下离心5min，上清液转移至容量瓶中。重复洗涤沉淀2次，上清液转移至容量瓶中，无水乙醇定容至200mL，摇匀备用。

2.2样品检测方法

样品检测方法采用非交叉式进样方法，将15种花椒每天按照表3所示，固定顺序采样，重复测试6天。

(1)打开电子舌电源开关，进行预热，每根传感器预热5分钟，5根传感器共预热25分钟。

(2)取20mL待测样于样品杯中，置于自动进样采样盘，并在自动进样系统对应位置输入样品名称。

(3)每个样品在正式检测之前应先预检，设置各传感器灵敏度。

(4)样品检测完之后在测试界面中点击2个清洗盘，一次无水乙醇一次去离子水，进行原位电化学清洗，再进行下一个样品检测。

(5)非交叉式进样方式：电子舌系统在完成预热、预检以后，样本按照样品A1→清洗→A2→清洗→...→An→清洗→B1→清洗→B2→清洗→......Bn直至实验完成。

表3采样顺序表

3机器学习分类器方法

3.1支持向量机分类学习

根据支持向量机学习器的分类原理，本次实验选择的参数如下：(1)将样本信息映射到高维空间的核函数，可选择函数有线性核函数、多项式核函数、高斯核函数，为获得良好的分类精度的同时保证模型的泛化性能，最终选择高斯核函数作为支持向量机学习器的核函数；(2)为了统筹计算精度，进一步优化模型的泛化性能，防止模型过拟合，选择贝叶斯优化调参法对惩罚因子C进行自适应调参。(3)在模型训练的过程中，采用10-fold交叉验证。本发明实验中建立SVM模型，若无特别申明则采用的参数均为以上所述。

3.2K-近邻分类学习

K-近邻学习方法作为简单、效率高的非参数分类方法，在分类学习中有着广泛的应用，本次实验中采取10-fold交叉验证来训练K-近邻学习分类模型。本发明实验中建立K-NN模型，若无特别申明则采用的参数均为以上所述。

3.3决策树分类学习

根据决策树分类学习原理，本次实验选择的参数如下：(1)向下生成决策树的决策策略，可选择算法有ID3算法、C4.5算法、CART算法，为获得稳定、良好的分类模型，最终选择CART算法向下生成决策树；(2)为了统筹计算精度，进一步优化模型的泛化性能，选择比较修剪前后建模集训练出的树模型对预测集样本点的预测精度是否发生显著变化的后剪枝策略来防止模型过拟合。(3)在模型训练的过程中，采用10-fold交叉验证。本发明实验中建立决策树模型，若无特别申明则采用的参数均为以上所述。

3.4Bagging Tree分类学习

Bagging Tree是随机森林其中一种方法，通过多个树模型训练，最终取多个树模型的平均作为最终的分类学习器。本发明实验中采取Bagging Tree训练分类模型，投票方式选择软投票的方法来决定最终的分类结果，对于森林中的单个树模型采用CART算法向下生成子树，子树的剪枝采取后剪枝法优化模型，在模型训练的过程中，采用10-fold交叉验证。本发明实验中建立Bagging Tree模型，若无特别申明则采用的参数均为以上所述。

4结果与讨论

4.1红花椒麻度电子舌大类判别与小类判别标签确定

将电子舌每天测得15种红花椒信息分别进行PCA分析，第1天电子舌PCA结果如图2所示，图中沿着主成分1方向从左至右HC102、HC107、HC103、HC101、HC202、HC108、HC104、HC203、HC106、HC105、HC302、HC303、HC304、HC306、HC305依次分布，其中HC202与HC203有部分区域重叠。可以看到，沿着主成分1方向可分为3大类，第1类为HC101、HC102、HC103、HC107。第2类为：HC104、HC105、HC106、HC108、HC202、HC203。第3类为：HC301、HC303、HC304、HC305、HC306。

第2天PCA结果如图3所示，其分布规律与第1天类似，其中HC102与HC103，HC202与HC104，HC105与HC106，HC303与HC301，HC304与HC306有区域重叠，沿着主成分1方向可分为三大类：第1类为HC101、HC102、HC103、HC107。第2类为：HC104、HC105、HC106、HC108、HC202、HC203。第3类为：HC301、HC303、HC304、HC305、HC306。

第3天PCA结果如图4所示，HC103、HC101、HC102、HC107在其在主成分1上的投影位置相似，主成分2上由上至下依次排布。HC202、HC108、HC106在主成分1上分布位置类似，在主成分2上由上至下依次排布。主成分1上HC105、HC104、HC203依次分布，其中HC104与HC203在主成分1上投影位置相同，在主成分2上依次分布。HC303、HC301、HC304在主成分1上投影位置相同，在主成分2上依次分布。HC306与HC305在主成分1上依次分布。沿着主成分1方向可分为三大类：第1类为HC101、HC102、HC103、HC107。第2类为：HC104、HC105、HC106、HC108、HC202、HC203。第3类为：HC301、HC303、HC304、HC305、HC306。

第4天PCA结果如图5所示，沿着主成分1方向HC107、HC101、HC103、HC102样本依次分布，HC202、HC108、HC104、HC203、HC106、HC105在主成分1上投影位置相似，沿着主成分2方向由上到下依次分布，HC303与HC301在主成分1上位置相似，沿着主成分2方向由上到下依次分布，HC304、HC305、HC306沿着主成分1依次分布。可以看出沿着主成分1方向可以分为沿着主成分1方向可分为三大类：第1类为HC101、HC102、HC103、HC107。第2类为：HC104、HC105、HC106、HC108、HC202、HC203。第3类为：HC301、HC303、HC304、HC305、HC306。

第5天PCA结果如图6所示，沿着主成分1方向HC102、HC103、HC107、HC101依次分布，其中HC102与HC103、HC101与HC107有部分区域重叠。HC202、HC108、HC104、HC203、HC106、HC105沿着主成分1方向依次分布，其中HC203、HC106、HC105有部分区域重叠。HC303、HC301在主成分1上位置相同，在主成分2上由上至下依次分布，HC304、HC305、HC306在主成分1上依次分布。沿着主成分1方向可以分为三大类：第1类为HC101、HC102、HC103、HC107。第2类为：HC104、HC105、HC106、HC108、HC202、HC203。第3类为：HC301、HC303、HC304、HC305、HC306。

第6天PCA结果如图7所示，沿着主成分1方向HC102、HC103、HC101、HC107依次分布，其中HC102、HC103、HC101有部分区域重叠。HC104、HC108、HC106沿着主成分1方向依次分布，其中HC108与HC106在主成分1上投影位置有部分重叠，沿着主成分2上由上至下依次分布。HC202、HC105、HC203在主成分1上依次分布。HC303与HC301、HC306与HC304、HC305在主成分1上依次分布。沿着主成分1方向可以分为三大类：第1类为HC101、HC102、HC103、HC107。第2类为：HC104、HC105、HC106、HC108、HC202、HC203。第3类为：HC301、HC303、HC304、HC305、HC306。

综合以上对6天电子舌PCA结果分析，15种红花椒中有些样本出现区域重叠，直接将15个样本完全分开难度较大，但整体来看，电子舌可将15种不同麻感品质红花椒分为三大类。第1类为：HC101、HC102、HC103、HC107。第2类为：HC104、HC105、HC106、HC108、HC202、HC203。第3类为：HC301、HC303、HC304、HC305、HC306。分别为感官分类结果中的高麻、中高麻+中麻、中低麻+低麻。将中高麻与中麻合并称为中麻，将中低麻与低麻合称为低麻，因此电子舌在整体上能将15个红花椒样本分为高麻、中麻、低麻三大类。再在三大类的基础上可以进一步细分小类。其中第1类可分为HC101、HC102、HC103与HC107。第2类可分为HC104、HC108、HC202与HC105、HC203、HC106。第3类可分为：HC301、HC303、HC304与HC305、HC306。

电子舌每天采集15种红花椒信息，每天每个样品重复测试5次，共重复6天，电子舌每采集一次样品可得到1×600的数据矩阵，6天得到450×600的数据集矩阵。根据电子舌分类结果，将数据集矩阵进行PCA分析，结果如图8所示，可以看到，电子舌能够在空间内很好地区分高麻与低麻，而中麻与高麻，中麻与低麻样本集之间，在空间位置分布还存在一定的交错。整体而言可以分为高麻、中麻、低麻三大类。

根据电子舌PCA结果，三大类又可以进一步精细分类，其中高麻类可分为HC101、HC102、HC103(甘肃产区)与HC107(四川产区)，对高麻数据矩阵进行PCA分析，如图9所示，可以看到：甘肃产区高麻红花椒与四川产区(非甘肃)高麻红花椒，除了少数非甘肃样本跑到了甘肃样本区以外，在空间中能够较好区分开来。因此对第1类进一步细分时，可分为甘肃产区高麻红花椒与非甘肃产区高麻红花椒。

中麻可进一步细分为：HC104、HC108、HC202(中高麻)与HC105、HC203、HC106(中低麻)，对中麻类数据矩阵进行PCA分析，结果如图10所示，可以看到中麻样本在空间中大致可以分为中高麻与中低麻，但在细分时，中高麻类与中低麻类样本在空间中有穿插交错的现象，这可能是由于其本身理化物质均较为复杂，电子舌对其物质整体响应较为类似所引起。

低麻类样本可进一步细分为：HC301、HC303、HC304(非山东产区)与HC305、HC306(山东产区)，对低麻类数据矩阵进行PCA分析，结果如图11所示，可以看到在空间中大致可以分为两小类。

结合电子舌PCA结果、感官与理化物质的分类标签，最终确定电子舌的分类步骤与对应的学习标签，如表4所示，对电子舌采集15种红花椒进行建模学习，并比较不同分类学习器的分类精度。

表4红花椒麻度信息表

4.2大类麻度等级的电子舌分类建模

4.2.1基于SVM的大类麻度分类判别

电子舌每天采集15种红花椒信息，每天每个样品重复测试5次，共重复6天，电子舌每扫描一次样品可得到1×600的数值矩阵，6天得到450×600的数据集矩阵。将数据集矩阵按照3∶1的比例分成建模集与预测集。

根据前期分析结果，应用所获得的15种红花椒样本的麻度标签(高麻、中麻、低麻)作为支持向量学习分类器的目标矩阵Y进行模式识别，得到三分类SVM模型，交叉验证后的建模准确为87.8％，对得到的模型用预测集进行验证(其中预测集由30个高麻样本点、45个中麻样本点以及37个低麻样本点组成)得到最终的预测准确率为86.6％。从预测集验证得到的混淆矩阵结果如表5可以看到(类别1为高麻，类别2为中麻，类别3为低麻)，预测集中有5个高麻类样本被错分为中麻，5个中麻类样本被错分为低麻，5个低麻类样本被错分为中麻，SVM模型能够将高麻样本与低麻样本进行很好的区分，说明高麻样本与低麻样本本身差异较大，能够区分开来，这与电子舌PCA分大类结果一致。

表5 SVM多分类混淆矩阵表

4.2.2基于K-NN的大类麻度分类判别

将前期感官实验中所获得的15种红花椒样本的麻度标签(高麻、中麻、低麻)作为K-近邻学习分类的目标矩阵Y进行模式识别，得到三分类的K-近邻分类模型。交叉验证后的建模准确为81.3％，对得到的模型用预测集进行验证，得到最终的预测准确率为78.6％。从预测集验证得到的混淆矩阵表6可以看到(类别1为高麻，类别2为中麻，类别3为低麻)，预测集中有9个高麻样本被错分为中麻样本，3个中麻样本被错分为高麻样本，3个中麻样本被错分为低麻样本，9个低麻样本被错分为中麻样本。K-NN对大类麻度分类判别效果不理想，可能原因是K-NN在进行学习分类时通过空间内距离进行判断，而那些处于样本集空间决策边缘较近的样本点极容易被错判而导致判别分类效果不理想。

表6 K-NN多分类混淆矩阵表

4.2.3基于决策树的大类麻度分类判别

将前期感官实验中所获得的15种红花椒样本的麻度标签(高麻、中麻、低麻)作为决策树学习分类的目标矩阵Y进行模式识别。交叉验证后的建模准确为84.20％，对得到的模型用预测集进行验证，得到最终的预测准确率为81.25％。从预测集混淆矩阵表7可以看到(类别1为高麻，类别2为中麻，类别3为低麻)，预测集中有6个高麻样本被错分为中麻样本，1个高麻样本被错分为低麻样本，2个中麻样本被错分为高麻样本，5个中麻样本被错分为低麻样本，6个低麻样本被预测为中麻，1个低麻样本被预测为高麻样本。

表7决策树多分类混淆矩阵表

4.2.4基于Bagging Tree的大类麻度分类判别

将前期感官实验中所获得的15种红花椒样本的麻度标签(高麻、中麻、低麻)作为Bagging Tree学习分类的目标矩阵Y进行模式识别，得到交叉验证后的建模准确为90.80％，对得到的模型用预测集进行验证，得到最终的预测准确率为87.5％。从预测集验证得到的混淆矩阵表8可以看到(类别1为高麻，类别2为中麻，类别3为低麻)，预测集中有4个高麻样本被错分为中麻样本，8个中麻样本被错分为低麻样本，2个低麻样本被错分为中麻样本。Bagging Tree模型能够将高麻与低麻完全分开，且预测准确率>85％。这可能是因为Bagging Tree模型通过构造多个决策树模型，相较于单个子树模型其分类性能更好。

表8 Bagging Tree多分类混淆矩阵表

4.3特定大类下电子舌麻度精细分类建模

6天得到450×600的数据集矩阵中高麻样本集120个样本点，中麻样本集有180个样本点，低麻样本集有150个样本点。分别按照3∶1的比例随机生成建模集与预测集(其中各小类中样本点在分建模集与预测集时根据其小分类样本的比例进行分配)。

虽然电子舌对红花椒的大分类取得了一定的效果，但对于实际应用还是希望能将各麻度的样品都能进行快速分类。虽然电子舌不能直接像感官品评分类一样直接分开，在此可以通过前面在电子舌麻度大类分类的基础上，对同一大类麻度的红花椒，再进行电子舌的精细分类。不管是感官品评还是电子舌判别，都离不开红花椒中呈麻的酰胺类物质基础。通过研究，我们发现不同层次的分类，其物质基础有所不同，该思路同样适用于电子舌对红花椒麻度的分类与判别。由此可以建立采用电子舌判别红花椒麻度的分类策略：第一步，先分高、中、低麻三大类；第二步，就是在各大类内部再进一步进行小类分类判别建模。

根据感官实验所获得的麻感小分类强度标签，对电子舌采集15种红花椒进行小类建模学习，并比较不同分类学习器的分类精度。

4.3.1高麻中电子舌的麻度小类建模

(1)SVM高麻分甘肃产区高麻红花椒与非甘肃产区高麻红花椒建模预测结果

在高麻样本中，根据前期实验结果分析，可以分为产自甘肃的高麻红花椒(HC101、HC102、HC103)与产自四川的高麻红花椒(HC107)。因此高麻红花椒可以进一步分为，甘肃产区与四川产区。以此为学习目标，将高麻样本数据集按照3∶1的比例随机生成建模集与预测集。应用支持向量机进行模式识别，得到针对高麻样本进行二分类的SVM模型。交叉验证后的建模准确为86.7％，对得到的模型用预测集进行验证，得到最终的预测准确率为83.3％，二分类的曲线下面积为0.90(图12)。从预测集验证得到的混淆矩阵表9可以看到(类别1为甘肃产区，类别2为非甘肃产区)，预测集中有5个非甘肃产区样本被错分为甘肃产区。

表9 SVM高麻二分类混淆矩阵表

(2)K-NN高麻分甘肃产区高麻红花椒与非甘肃产区高麻红花椒建模预测结果

将高麻样本数据集按照3∶1的比例随机生成建模集与预测集。应用K-NN进行模式识别得到针对高麻样本进行二分类的K-NN模型。交叉验证后的建模准确为87.8％，对得到的模型用预测集进行验证，得到最终的预测准确率为76.7％。二分类的曲线下面积为0.86(图13)。从预测集验证得到的混淆矩阵表0可以看到(类别1为甘肃产区，类别2为非甘肃产区)，预测集中有1个甘肃产区样本被错分为非甘肃产区，6个非甘肃产区样本被错分为甘肃产区。

表10 K-NN高麻二分类混淆矩阵表

(3)决策树高麻分甘肃产区高麻红花椒与非甘肃产区高麻红花椒建模预测结果

根据前面实验结果分析，在高麻样本中，可以分为产自甘肃的高麻红花椒(HC101、HC102、HC103)与产自四川的高麻红花椒(HC107)。将高麻红花椒可以进一步分为，甘肃产区与四川产区，以此为学习目标，将高麻样本数据集按照3：1的比例随机生成建模集与预测集。应用决策树进行模式识别得到针对高麻样本进行二分类的决策树模型。交叉验证后的建模准确为92.2％，对得到的模型用预测集进行验证，得到最终的预测准确率为90.0％，二分类的曲线下面积为0.90(图14)。从预测集验证得到的混淆矩阵表11可以看到(类别1为甘肃产区，类别2为非甘肃产区)，预测集中有2个甘肃产区样本被错分为非甘肃产区，1个非甘肃产区样本被错分为甘肃产区。

表11决策树高麻二分类混淆矩阵表

(4)Bagging Tree高麻分甘肃产区高麻红花椒与非甘肃产区高麻红花椒建模预测结果

根据前面实验结果分析，在高麻样本中，可以分为产自甘肃的高麻红花椒(HC101、HC102、HC103)与产自四川的高麻红花椒(HC107)。将高麻红花椒可以进一步分为，甘肃产区与四川产区，以此为学习目标，将高麻样本数据集按照3∶1的比例随机生成建模集与预测集。应用Bagging Tree进行模式识别。得到针对高麻样本进行二分类的Bagging Tree模型。交叉验证后的建模准确为86.7％，对得到的模型用预测集进行验证，得到最终的预测准确率为93.3％，二分类的曲线下面积为0.94(图15)。从预测集验证得到的混淆矩阵表12可以看到(类别1为甘肃产区，类别2为非甘肃产区)，预测集中有2个非甘肃产区样本被错分为甘肃产区。

表12 Bagging Tree高麻二分类混淆矩阵表

4.3.2中麻中电子舌的麻度小类建模

(1)SVM中麻分中高麻与中低麻红花椒建模预测结果

根据前期实验结果分析，在中麻样本中，可以分为中高麻红花椒(HC104、HC108、HC202)与中低麻红花椒(HC203、HC105、HC106)。以此为学习目标，将中麻样本数据集按照3∶1的比例随机生成建模集与预测集。应用支持向量机进行模式识别得到针对中麻样本进行二分类的SVM模型。交叉验证后的建模准确为74.6％，对得到的模型用预测集进行验证，得到最终的预测准确率为80.0％，二分类的曲线下面积为0.90(图16)。从预测集验证得到的混淆矩阵表13可以看到(类别1为中高麻，类别2为中低麻)，预测集中有3个中高麻样本被错分为中低麻样本，6个中低麻样本被错分为中高麻样本。

表13 SVM中麻二分类混淆矩阵表

(2)K-NN中麻分中高麻与中低麻红花椒建模预测结果

根据前面实验结果分析，在中麻样本中，可以分为中高麻红花椒(HC104、HC108、HC202)与中低麻红花椒(HC203、HC105、HC106)。以此为学习目标，将中麻样本数据集按照3∶1的比例随机生成建模集与预测集。应用K-NN进行模式识别得到针对中麻样本进行二分类的K-NN模型。交叉验证后的建模准确为70.1％，对得到的模型用预测集进行验证，得到最终的预测准确率为75.6％，二分类的曲线下面积为0.70(图17)。从预测集验证得到的混淆矩阵表14可以看到(类别1为中高麻，类别2为中低麻)，预测集中有6个中高麻样本被错分为中低麻样本，5个中低麻样本被错分为中高麻样本。K-NN分类模型效果较差，可能是由于K-NN在进行学习分类时通过空间内距离进行判断，而那些处于样本集空间决策边缘较近的样本点极容易被错判而导致判别分类效果不理想，而从前面电子舌对中麻样本的PCA结果分析中，中高麻样本与中低麻样本本身在空间分布时存在交错现象，所以导致K-NN学习分类效果还有待提高。

表14 K-NN中麻二分类混淆矩阵表

(3)决策树中麻分中高麻与中低麻红花椒建模预测结果

根据前面实验分析结果，在中麻样本中，可以分为中高麻红花椒(HC104、HC108、HC202)与中低麻红花椒(HC203、HC105、HC106)。以此为学习目标，将中麻样本数据集按照3∶1的比例随机生成建模集与预测集。应用决策树进行模式识别得到针对高麻样本进行二分类的决策树模型。交叉验证后的建模准确为83.60％，对得到的模型用预测集进行验证，得到最终的预测准确率为77.8％，二分类的曲线下面积为0.82(图18)。从预测集验证得到的混淆矩阵表15可以看到(类别1为中高麻，类别2为中低麻)，预测集中有3个中高麻样本被错分为中低麻样本，7个中低麻样本被错分为中高麻样本。

表15决策树中麻二分类混淆矩阵表

(4)Bagging Tree中麻分中高麻与中低麻红花椒建模预测结果

根据前期实验结果分析，在中麻样本中，可以分为中高麻红花椒(HC104、HC108、HC202)与中低麻红花椒(HC203、HC105、HC106)。以此为学习目标，将中麻样本数据集按照3∶1的比例随机生成建模集与预测集。应用Bagging Tree进行模式识别得到针对中麻样本进行二分类的Bagging Tree模型。交叉验证后的建模准确为82.8％，对得到的模型用预测集进行验证，得到最终的预测准确率为80.0％，二分类的曲线下面积为0.91(图19)。从预测集验证得到的混淆矩阵表16可以看到(类别1为中高麻，类别2为中低麻)，预测集中有3个中高麻样本被错分为中低麻样本，6个中低麻样本被错分为中高麻样本。

表16 Bagging Tree中麻二分类混淆矩阵表

4.3.3低麻中电子舌的麻度小类建模

(1)SVM低麻分山东产区低麻红花椒与非山东产区低麻红花椒建模预测结果

根据前期实验结果分析，在低麻样本中，可以分为低麻山东红花椒(HC305、HC306)与低麻非山东红花椒(HC301、HC303、HC304)。以此为学习目标，将低麻样本数据集按照3∶1的比例随机生成建模集与预测集。应用支持向量机进行模式识别得到针对低麻样本进行二分类的SVM模型。交叉验证后的建模准确为85.7％，对得到的模型用预测集进行验证，得到最终的预测准确率为86.5％，二分类的曲线下面积为0.94(图20)。从预测集验证得到的混淆矩阵表17可以看到(类别1为山东产区，类别2为非山东产区)，预测集中有3个山东样本被错分为非山东样本，2个非山东低麻样本被错分为山东低麻样本。

表17 SVM低麻二分类混淆矩阵表

(2)K-NN低麻分山东产区低麻红花椒与非山东产区低麻红花椒建模预测结果

根据前面实验结果分析，在低麻样本中，可以分为低麻山东红花椒(HC305、HC306)与低麻非山东红花椒(HC301、HC303、HC304)。以此为学习目标，将低麻样本数据集按照3∶1的比例随机生成建模集与预测集。应用K-NN进行模式识别得到针对低麻样本进行二分类的K-NN模型。交叉验证后的建模准确为75.9％，对得到的模型用预测集进行验证，得到最终的预测准确率为73.0％，二分类的曲线下面积为0.74(图21)。从预测集验证得到的混淆矩阵表18可以看到(类别1为山东产区，类别2为非山东产区)，预测集中有6个低麻山东红花椒样本被错分为低麻非山东样本，4个低麻非山东样本被错分为低麻山东红花椒样本。

表18 K-NN低麻二分类混淆矩阵表

(3)决策树低麻分山东产区低麻红花椒与非山东产区低麻红花椒建模预测结果

根据前面实验结果分析，在低麻样本中，可以分为低麻山东红花椒(HC305、HC306)与低麻非山东红花椒(HC301、HC303、HC304)。以此为学习目标，将低麻样本数据集按照3∶1的比例随机生成建模集与预测集。应用决策树进行模式识别得到针对高麻样本进行二分类的决策树模型。交叉验证后的建模准确为86.60％，对得到的模型用预测集进行验证，得到最终的预测准确率为78.4％，二分类的曲线下面积为0.85(图22)。从预测集验证得到的混淆矩阵表19可以看到(类别1为山东产区，类别2为非山东产区)，预测集中有5个低麻山东红花椒样本被错分为低麻非山东样本，3个低麻非山东样本被错分为低麻山东红花椒样本。

表19决策树低麻二分类混淆矩阵表

(4)Bagging Tree低麻分山东产区低麻红花椒与非山东产区低麻红花椒建模预测结果

根据前面实验结果分析，在低麻样本中，可以分为低麻山东红花椒(HC305、HC306)与低麻非山东红花椒(HC301、HC303、HC304)。以此为学习目标，将低麻样本数据集按照3∶1的比例随机生成建模集与预测集。应用Bagging Tree进行模式识别得到针对低麻样本进行二分类的Bagging Tree模型。交叉验证后的建模准确为88.4％，对得到的模型用预测集进行验证，得到最终的预测准确率为78.4％，二分类的曲线下面积为0.93(图23)。从预测集验证得到的混淆矩阵表20可以看到(类别1为山东产区，类别2为非山东产区)，预测集中有5个低麻山东红花椒样本被错分为低麻非山东样本，3个低麻非山东样本被错分为低麻山东红花椒样本。

表20 Bagging Tree低麻二分类混淆矩阵表

综上，本发明采用新传感器阵列的电子舌采集15种不同麻感品质红花椒的电化学信号，以期建立基于电子舌的红花椒麻感品质的快速分类模型。综合电子舌PCA结果与感官麻度标签，整体分为两步进行建模，先分大类：高麻、中麻、低麻，再分小类：高麻可分为甘肃产区高麻红花椒与非甘肃产区的高麻红花椒，中麻可分为中高麻红花椒与中低麻红花椒，低麻可分为山东产区低麻红花椒与非山东产区低麻红花椒。

(1)针对多分类：高麻、中麻、低麻选用了K-近邻学习、支持向量机、决策树、以及Bagging Tree进行多分类建模。建模结果显示K-近邻学习的预测准确率为78.6％，支持向量机的预测准确率为86.6％、决策树的预测准确率为81.3％，Bagging Tree的预测准确率为87.5％。从多分类的预测准确率来看，Bagging Tree的分类性能最好。

(2)针对二分类：高麻可分为甘肃产区高麻红花椒与非甘肃产区的高麻红花椒，中麻可分为中高麻红花椒与中低麻红花椒，低麻可分为山东产区低麻红花椒与非山东产区低麻红花椒。针对不同麻度等级红花椒进一步分小类分别选用了K-近邻学习、支持向量机、决策树、以及Bagging Tree进行建模。

建模结果显示，针对高麻红花椒分甘肃产区与非甘肃产区，K-近邻学习的预测准确率为76.7％，二分类的曲线下面积为0.86，支持向量机的预测准确率为83％，曲线下面积为0.9、决策树的预测准确率为90.0％，曲线下面积为0.9，Bagging Tree的预测准确率为93.3％，曲线下面积为0.94。综合模型预测准确率与曲线下面积来看，针对高麻分小类Bagging Tree的分类性能最好。

针对中麻红花椒分中高麻红花椒与中低麻红花椒，K-近邻学习的预测准确率为75.6％，二分类的曲线下面积为0.7，支持向量机的预测准确率为80.0％，曲线下面积为0.9、决策树的预测准确率为77.8％，曲线下面积为0.82，Bagging Tree的预测准确率为80.0％，曲线下面积为0.91。综合模型预测准确率与曲线下面积来看，针对中麻分小类Bagging Tree的分类性能最好。

针对低麻红花椒分山东产区低红花椒与非山东产区低麻红花椒，K-近邻学习的预测准确率为73.0％，二分类的曲线下面积为0.74，支持向量机的预测准确率为86.5％，曲线下面积为0.94、决策树的预测准确率为78.4％，曲线下面积为0.85，Bagging Tree的预测准确率为78.4％，曲线下面积为0.93。综合模型预测准确率与曲线下面积来看，针对低麻分小类支持向量机的分类性能最好。

以上所述之实施例，只是本发明的较佳实施例而已，仅仅用以解释本发明，并非限制本发明实施范围，对于本技术领域的技术人员来说，当然可根据本说明书中所公开的技术内容，通过置换或改变的方式轻易做出其它的实施方式，故凡在本发明的原理上所作的变化和改进等，均应包括于本发明申请专利范围内。

Claims

1.一种红花椒麻度的电子舌快速分类方法，其特征在于，所述方法为：

（1）对传统的电子舌进行了改进，采用铂盘电极作为电子舌传感器阵列的参比电极；采用非交叉进样来提高各样品电子舌信号的稳定性；

（2）先分大类：采用改进后的电子舌对红花椒麻度的电化学信息进行采集，采用支持向量机、决策树、K-近邻、Bagging Tree不同分类学习器，建立不同麻度品质红花椒快速分类模型并对模型预测效果加以验证，通过比较各模型的预测准确率，选择最佳的分类学习器将不同种类的红花椒样品按照麻度分高、中、低麻三大类；

（3）再分小类：分别对高、中、低麻三大类进行细分，即分别针对高、中、低麻的红花椒种类，分析比较支持向量机、决策树、K-近邻、Bagging Tree不同分类学习器在花椒麻度小类分类中的模式识别性能，建立同一大类内不同麻度品质红花椒快速分类模型并对模型预测效果加以验证，通过对其预测准确率进行对比，选择分别针对高、中、低麻三大类的最佳分类学习器对其进行小类细分；

所述非交叉进样采用的方式为：电子舌系统在完成预热、预检以后，样本按照样品A1→清洗→A2→清洗→…→An→清洗→B1→清洗→B2→清洗→……Bn依次对样本进行信息采集，直至实验完成。

2.根据权利要求1所述的方法，其特征在于，基于分类学习器的大类麻度分类判别方法为：电子舌每天采集需要麻度大类分类的红花椒信息，每天每个样品重复测试5次，共重复6天，电子舌每采集一次样品得到1×600的数据矩阵，构成红花椒电子舌信号数据集矩阵，将数据集矩阵按照3:1的比例分成建模集与预测集，应用所获得的红花椒样本的麻度标签——高麻、中麻、低麻作为所有学习分类器的目标矩阵Y进行模式识别，得到各学习分类器的三分类模型。

3.根据权利要求1所述的方法，其特征在于，基于分类学习器的小类麻度分类判别方法为：6天得到的红花椒电子舌信号数据集矩阵中，分成高麻类样本数据集矩阵，中麻类样本数据集矩阵，低麻类样本数据集矩阵；同一大类下，各小类样本点在分建模集与预测集时，根据其小分类样本按照3:1的比例随机生成小类判别的建模集与预测集；其中对高麻类红花椒进一步细分时，其麻度标签分为甘肃产区高麻红花椒与非甘肃产区高麻红花椒；对中麻类红花椒进一步细分时，其麻度标签分为中高麻红花椒与中低麻红花椒；对低麻类红花椒进一步细分时，其麻度标签分为非山东产区低麻红花椒与山东产区低麻红花椒。

4. 根据权利要求1所述的方法，其特征在于，步骤（2）通过比较所选择的最佳大类分类学习器为Bagging Tree。

5. 根据权利要求1所述的方法，其特征在于，步骤（3）对于高麻、中麻红花椒均采用Bagging Tree将其分成小类，对于低麻红花椒采用支持向量机将其分成小类。

6.根据权利要求1所述的方法，其特征在于，采用支持向量机建模时，所述支持向量机分类学习器的参数如下：（1）将样本信息映射到高维空间的核函数，选择高斯核函数作为支持向量机学习器的核函数；（2）选择贝叶斯优化调参法对惩罚因子C进行自适应调参；（3）在模型训练的过程中，采用10-fold交叉验证。

7.根据权利要求1所述的方法，其特征在于，采用决策树建模时，所述决策树分类学习器的参数如下：（1）选择CART算法向下生成决策树的决策策略；（2）选择比较修剪前后建模集训练出的树模型对预测集样本点的预测精度是否发生显著变化的后剪枝策略来防止模型过拟合；（3）在模型训练的过程中，采用10-fold交叉验证。

8.根据权利要求1所述的方法，其特征在于，采取10-fold交叉验证来训练K-近邻学习分类模型。

9. 根据权利要求1所述的方法，其特征在于，运用Bagging Tree分类学习器时，采用投票方式选择软投票的方法来决定最终的分类结果，对于森林中的单个树模型采用CART算法向下生成子树，子树的剪枝采取后剪枝法优化模型，在模型训练的过程中，采用10-fold交叉验证。