CN107132267A

CN107132267A - 一种基于随机森林的茶叶分类方法及系统

Info

Publication number: CN107132267A
Application number: CN201710476400.3A
Authority: CN
Inventors: 欧阳永中
Original assignee: Foshan University
Current assignee: Foshan University
Priority date: 2017-06-21
Filing date: 2017-06-21
Publication date: 2017-09-05

Abstract

本发明公开了一种基于随机森林的茶叶分类方法及系统，该系统包括采样模块和分类模块。该方法包括：采用表面解吸常压化学电离质谱技术，获取得到待测茶叶所对应的茶叶质谱数据；通过基于随机森林算法而建立得到的茶叶分类模型，对获取得到的茶叶质谱数据进行分类处理，从而得到待测茶叶的分类结果。通过本发明方法及系统，能在无需样品预处理的条件下对茶叶种类的快速区分，具有操作简单、分析速度快、精确度高等优点，解决了传统茶叶分类系统操作复杂、分析速度慢等局限性问题。本发明作为一种基于随机森林的茶叶分类方法及系统可广泛应用于茶叶分析技术领域中。

Description

一种基于随机森林的茶叶分类方法及系统

技术领域

本发明涉及食品科学识别技术，尤其涉及一种基于随机森林的茶叶分类方法及系统。

背景技术

茶是当今消费最多的饮料之一。茶叶中存在多酚类化合物、氨基酸、维生素、糖类、咖啡因和嘌呤生物碱等多种成分，具有很大的潜在健康益处，随着生活水平的提高和人们对健康的重视，人们对茶叶质量的要求越来越高，对茶叶分类越来越重视。目前，对茶叶的分类鉴别主要采用感官评定法、化学方法和高效液相色谱法、气相色谱法、等离子光谱法和近红外光谱法等，然而，这些方法存有花费时间长、易受外界环境干扰、可操作性差、步骤繁琐且费用昂贵等缺点。

发明内容

为了解决上述技术问题，本发明的目的是提供一种基于随机森林的茶叶分类方法。

本发明的另一目的是提供一种基于随机森林的茶叶分类系统。

本发明所采用的技术方案是：一种基于随机森林的茶叶分类方法，该方法包括以下步骤：

采用表面解吸常压化学电离质谱技术，获取得到待测茶叶所对应的茶叶质谱数据；

通过基于随机森林算法而建立得到的茶叶分类模型，对获取得到的茶叶质谱数据进行分类处理，从而得到待测茶叶的分类结果。

进一步，还包括建立茶叶分类模型这一步骤，所述建立茶叶分类模型这一步骤，其包括以下步骤：

获取不同类别的样品茶叶所对应的样本茶叶质谱数据，将由获取得到的样本茶叶质谱数据所构成的数据集作为样本茶叶质谱数据集；

将获得的样本茶叶质谱数据随机划分成训练集和验证集，利用随机森林算法对训练集进行建模处理，从而建立得到随机森林模型；

利用验证集对随机森林模型进行验证。

进一步，所述将获得的样本茶叶质谱数据随机划分成训练集和验证集，利用随机森林算法对训练集进行建模处理，从而建立得到随机森林模型这一步骤，其包括有以下步骤：

通过建立多棵自助采样形成的决策树，从而建立得到随机森林模型。

进一步，所述建立自助采样形成的决策树这一步骤，其具体包括以下步骤：

通过自助采样法，从样本茶叶质谱数据集所包含的N个样本茶叶质谱数据中，以有放回随机选取方式选取k个样本茶叶质谱数据，利用选取出的k个样本茶叶质谱数据来训练生成一棵决策树；

当决策树的每个节点需要分裂时，随机从样本茶叶质谱数据集所包含的M个变量中选取m个变量，其中，m<<M；然后，将选取出的m个变量作为子集指定给每个节点，并且从m个变量中选取出分类效果最佳的一维特征作为节点的分类属性；

当每个节点的生长状态符合停止生长条件时，则停止决策树的生长。

进一步，所述停止生长条件包括分类纯度达到期望比例或者生长层数达到阈值。

进一步，所述通过基于随机森林算法而建立得到的茶叶分类模型，对获取得到的茶叶质谱数据进行分类处理，从而得到待测茶叶的分类结果这一步骤，其包括以下步骤；

将待测茶叶所对应的茶叶质谱数据输入至茶叶分类模型进行分类处理，从而导出茶叶样本相似度矩阵；

采用多维标度分析法对所述茶叶样本相似度矩阵进行降维，降维后得到的矩阵为待测茶叶的分类结果。

本发明所采用的另一技术方案是：一种基于随机森林的茶叶分类系统，该系统包括：

采样模块，用于采用表面解吸常压化学电离质谱技术，获取得到待测茶叶所对应的茶叶质谱数据；

分类模块，用于通过基于随机森林算法而建立得到的茶叶分类模型，对获取得到的茶叶质谱数据进行分类处理，从而得到待测茶叶的分类结果。

进一步，还包括用于建立茶叶分类模型的模型建立模块，所述模型建立模块具体包括：

建模数据获取子模块，用于获取不同类别的样品茶叶所对应的样本茶叶质谱数据，将由获取得到的样本茶叶质谱数据所构成的数据集作为样本茶叶质谱数据集；

建模处理子模块，用于将获得的样本茶叶质谱数据随机划分成训练集和验证集，利用随机森林算法对训练集进行建模处理，从而建立得到随机森林模型；

验证子模块，用于利用验证集对随机森林模型进行验证。

进一步，所述建模处理子模块包括用于通过建立多棵自助采样形成的决策树，从而建立得到随机森林模型的建模单元。

进一步，所述自助采样形成的决策树，其建立步骤包括有：

进一步，所述分类模块具体包括：

分类处理子模块，用于将待测茶叶所对应的茶叶质谱数据输入至茶叶分类模型进行分类处理，从而导出茶叶样本相似度矩阵；

降维处理子模块，用于采用多维标度分析法对所述茶叶样本相似度矩阵进行降维，降维后得到的矩阵为待测茶叶的分类结果。

本发明的有益效果是：本发明方法能在无需样品预处理的条件下对茶叶种类的快速区分，具有操作简单、分析速度快、精确度高等优点，解决了传统茶叶分类系统操作复杂、分析速度慢等局限性问题。

本发明的另一有益效果是：通过本系统能在无需样品预处理的条件下对茶叶种类的快速区分，具有操作简单、分析速度快、精确度高等优点，解决了传统茶叶分类系统操作复杂、分析速度慢等局限性问题。

附图说明

图1是本发明一种基于随机森林的茶叶分类方法的步骤流程图；

图2是本发明一种基于随机森林的茶叶分类方法的一具体实施例步骤流程示意图；

图3是本发明一种基于随机森林的茶叶分类系统的结构框图；

图4是本发明的随机森林模型的参数优化示意图；

图5是红茶与绿茶的分类结果示意图。

具体实施方式

如图1所示，一种基于随机森林的茶叶分类方法，该方法包括以下步骤：

进一步作为本发明方法的优选实施方式，还包括建立茶叶分类模型这一步骤，所述建立茶叶分类模型这一步骤，其包括以下步骤：

利用验证集对随机森林模型进行验证。

进一步作为本发明方法的优选实施方式，所述将获得的样本茶叶质谱数据随机划分成训练集和验证集，利用随机森林算法对训练集进行建模处理，从而建立得到随机森林模型这一步骤，其包括有以下步骤：

进一步作为本发明方法的优选实施方式，所述建立自助采样形成的决策树这一步骤，其具体包括以下步骤：

进一步作为本发明方法的优选实施方式，所述停止生长条件包括分类纯度达到期望比例或者生长层数达到阈值。

进一步作为本发明方法的优选实施方式，所述通过基于随机森林算法而建立得到的茶叶分类模型，对获取得到的茶叶质谱数据进行分类处理，从而得到待测茶叶的分类结果这一步骤，其包括以下步骤：

本发明方法一具体实施例

如图2所示，一种基于随机森林的茶叶分类方法，其具体包括以下步骤：

第一步骤：建立茶叶分类模型

所述第一步骤具体包括以下步骤：

S101、采用表面解吸常压化学电离质谱技术(DAPCI-MS)，对不同类别的样品茶叶(如绿茶和红茶)进行质谱分析，从而获取得到相对应的样本茶叶质谱数据，这些数据为用于建立茶叶分类模型的数据；

其中，将由步骤S101获取得到的样本茶叶质谱数据所构成的数据集作为样本茶叶质谱数据集；

S102、将获得的样本茶叶质谱数据随机划分成训练集和验证集，利用随机森林算法对训练集进行建模处理，从而建立得到随机森林模型；

其中，对于所述随机森林模型，其是由多棵自助采样形成的决策树组合而成，而所述自助采样形成的决策树，其建立生成步骤包括：

S1021(Bagging过程)、通过自助采样法，从样本茶叶质谱数据集所包含的N个样本茶叶质谱数据中，以有放回随机选取方式选取k个样本茶叶质谱数据，利用选取出的k个样本茶叶质谱数据来训练生成一棵决策树；

S1022(分裂属性选择过程)、当决策树的每个节点需要分裂时，随机从样本茶叶质谱数据集所包含的M个变量中选取m个变量，其中，m<<M；然后，将选取出的m个变量作为子集指定给每个节点，并且从m个变量中选取出分类效果最佳的一维特征作为节点的分类属性，且保证在随机森林的生长过程中m保持不变；

S1023(决策树的生长过程)、当每个节点的分类纯度达到期望比例或者生长层数达到给定值(即阈值)时，则停止决策树的生长，保证每个决策树都保证最大限度的生长，且没有剪枝情况；

可见，通过重复执行上述步骤S1021～S1023，便可建立n棵决策树，构成随机森林模型；具体地，在样本茶叶质谱数据集中用于训练建立随机森林模型的数据构成训练集，而其它剩余的数据则构成验证集；

在本实施例随机森林自助采样过程中，每棵树建立时仅使用了样本茶叶质谱初始训练集63.2％的样本，而剩余的36.8％的样本则作为验证集来对泛化性能进行“包外估计”，这36.8％的数据称为袋外数据，可以用于取代测试集进行误差估计和作为评价指标来优化参数，本实施例中得到的随机森林算法模型的参数优化如图4所示；其中，在随机森林算法的建模过程当中主要需要优化两个参数：决策树的数量及每棵树生长时的变量数；其中，决策树个数的多少直接影响随机森林分类算法的运算速度和分类效果，因此决策树的个数对建模至关重要，例如，若决策树的棵数太多，则会导致随机森林算法的速度下降，反之，若决策树的棵数太少，则会导致模型的分类准确率下降；

S103、通过多维标度分析法(MDS)对随机森林模型所得到的茶叶样本相似度矩阵进行降维；

S104、利用验证集对随机森林模型进行验证；

通过上述步骤建立得到的随机森林模型则为所需的茶叶分类模型。

第二步骤：利用上述建立好的茶叶分类模型来实现茶叶(红茶与绿茶)分类

S201、利用表面解吸常压化学电离质谱技术，获取得到待测茶叶所对应的茶叶质谱数据；

S202、将待测茶叶所对应的茶叶质谱数据输入至茶叶分类模型进行分类处理，从而导出茶叶样本相似度矩阵；

S203、采用多维标度分析法对所述茶叶样本相似度矩阵进行降维，降维后得到的矩阵为待测茶叶的分类结果，其为一可视化图。每棵树建成后，所有的茶叶质谱数据都达到该树的某个叶节点上，若两个茶叶落在每棵树的同一个叶子节点的频率越大，表明相似度越高，所以，从决策树导出的茶叶样本相似度矩阵能收集待测茶叶之间的相似性，从而将原始空间样本映射到相似性空间；而为了能直观方便地观测随机森林模型所导出的分类结果，本实施例还通过多维标度分析法(MDS)对随机森林模型所得到的茶叶样本相似度矩阵进行降维；由于采用MDS来实现茶叶样本相似度矩阵的降维，能尽可能地保留原始对象之间的相似性，也就是说，通过设有降维步骤，在达到直观方便观测分类结果这一效果的同时，还能保证这降维结果的精确性。本实施例中最终得到的不同类别茶叶的分类图如图5所示，本实施例得到的随机森林算法模型对未知样本验证得到的混淆矩阵则如表1所示。所述表1如下所示：

表1

对于上述第二步骤，其实现茶叶类别识别的过程约为1分钟，达到快速鉴别、处理效率高等效果。

上述方法实施例中的内容均适用于以下的系统实施例中。

如图3所示，一种基于随机森林的茶叶分类系统，该系统包括：

分类模块，用于通过基于随机森林算法而建立得到的茶叶分类模型，对获取得到的茶叶质谱数据进行分类处理，从而得到待测茶叶的分类结果。所述采样模块和分类模块，其可为程序模块，也可为硬件模块，通过采用处理器等硬件载体来实现。

进一步作为本发明系统的优选实施方式，还包括用于建立茶叶分类模型的模型建立模块，所述模型建立模块具体包括：

验证子模块，用于利用验证集对随机森林模型进行验证。

进一步作为本发明系统的优选实施方式，所述建模处理子模块包括用于通过建立多棵自助采样形成的决策树，从而建立得到随机森林模型的建模单元。

进一步作为本发明系统的优选实施方式，所述自助采样形成的决策树，其建立步骤包括有：

进一步作为本发明系统的优选实施方式，所述停止生长条件包括分类纯度达到期望比例或者生长层数达到阈值。

进一步作为本发明系统的优选实施方式，所述分类模块具体包括：

由上述可得，本发明为一种基于随机森林算法的茶叶分类技术，它能在无需样品预处理的条件下快速实现不同类别茶叶样本的快速区分，具有操作简单、分析速度快、精确度高等优点，解决了传统茶叶鉴别方法操作复杂、分析速度慢等局限性，将在食品科学等相关技术领域具有巨大的潜在应用前景。而且利用随机森林算法来实现茶叶分类模型的建立，针对茶叶鉴别这一领域中，能达到步骤更简化、更易实现等有益效果。

以上是对本发明的较佳实施进行了具体说明，但本发明创造并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种基于随机森林的茶叶分类方法，其特征在于：该方法包括以下步骤：

2.根据权利要求1所述一种基于随机森林的茶叶分类方法，其特征在于：还包括建立茶叶分类模型这一步骤，所述建立茶叶分类模型这一步骤，其包括以下步骤：

利用验证集对随机森林模型进行验证。

3.根据权利要求2所述一种基于随机森林的茶叶分类方法，其特征在于：所述将获得的样本茶叶质谱数据随机划分成训练集和验证集，利用随机森林算法对训练集进行建模处理，从而建立得到随机森林模型这一步骤，其包括有以下步骤：

4.根据权利要求3所述一种基于随机森林的茶叶分类方法，其特征在于：所述建立自助采样形成的决策树这一步骤，其具体包括以下步骤：

5.根据权利要求4所述一种基于随机森林的茶叶分类方法，其特征在于：所述停止生长条件包括分类纯度达到期望比例或者生长层数达到阈值。

6.根据权利要求1-5任一项所述一种基于随机森林的茶叶分类方法，其特征在于：所述通过基于随机森林算法而建立得到的茶叶分类模型，对获取得到的茶叶质谱数据进行分类处理，从而得到待测茶叶的分类结果这一步骤，其包括以下步骤：

7.一种基于随机森林的茶叶分类系统，其特征在于：该系统包括：

8.根据权利要求7所述一种基于随机森林的茶叶分类系统，其特征在于：还包括用于建立茶叶分类模型的模型建立模块，所述模型建立模块具体包括：

验证子模块，用于利用验证集对随机森林模型进行验证。

9.根据权利要求8所述一种基于随机森林的茶叶分类系统，其特征在于：所述建模处理子模块包括用于通过建立多棵自助采样形成的决策树，从而建立得到随机森林模型的建模单元。

10.根据权利要求9所述一种基于随机森林的茶叶分类系统，其特征在于：所述自助采样形成的决策树，其建立步骤包括有：