CN107132267A - 一种基于随机森林的茶叶分类方法及系统 - Google Patents

一种基于随机森林的茶叶分类方法及系统 Download PDF

Info

Publication number
CN107132267A
CN107132267A CN201710476400.3A CN201710476400A CN107132267A CN 107132267 A CN107132267 A CN 107132267A CN 201710476400 A CN201710476400 A CN 201710476400A CN 107132267 A CN107132267 A CN 107132267A
Authority
CN
China
Prior art keywords
tealeaves
classification
tea
mass spectrometric
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710476400.3A
Other languages
English (en)
Inventor
欧阳永中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Foshan University
Original Assignee
Foshan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Foshan University filed Critical Foshan University
Priority to CN201710476400.3A priority Critical patent/CN107132267A/zh
Publication of CN107132267A publication Critical patent/CN107132267A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N27/00Investigating or analysing materials by the use of electric, electrochemical, or magnetic means
    • G01N27/62Investigating or analysing materials by the use of electric, electrochemical, or magnetic means by investigating the ionisation of gases, e.g. aerosols; by investigating electric discharges, e.g. emission of cathode
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers

Landscapes

  • Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biochemistry (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Electrochemistry (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于随机森林的茶叶分类方法及系统,该系统包括采样模块和分类模块。该方法包括:采用表面解吸常压化学电离质谱技术,获取得到待测茶叶所对应的茶叶质谱数据;通过基于随机森林算法而建立得到的茶叶分类模型,对获取得到的茶叶质谱数据进行分类处理,从而得到待测茶叶的分类结果。通过本发明方法及系统,能在无需样品预处理的条件下对茶叶种类的快速区分,具有操作简单、分析速度快、精确度高等优点,解决了传统茶叶分类系统操作复杂、分析速度慢等局限性问题。本发明作为一种基于随机森林的茶叶分类方法及系统可广泛应用于茶叶分析技术领域中。

Description

一种基于随机森林的茶叶分类方法及系统
技术领域
本发明涉及食品科学识别技术,尤其涉及一种基于随机森林的茶叶分类方法及系统。
背景技术
茶是当今消费最多的饮料之一。茶叶中存在多酚类化合物、氨基酸、维生素、糖类、咖啡因和嘌呤生物碱等多种成分,具有很大的潜在健康益处,随着生活水平的提高和人们对健康的重视,人们对茶叶质量的要求越来越高,对茶叶分类越来越重视。目前,对茶叶的分类鉴别主要采用感官评定法、化学方法和高效液相色谱法、气相色谱法、等离子光谱法和近红外光谱法等,然而,这些方法存有花费时间长、易受外界环境干扰、可操作性差、步骤繁琐且费用昂贵等缺点。
发明内容
为了解决上述技术问题,本发明的目的是提供一种基于随机森林的茶叶分类方法。
本发明的另一目的是提供一种基于随机森林的茶叶分类系统。
本发明所采用的技术方案是:一种基于随机森林的茶叶分类方法,该方法包括以下步骤:
采用表面解吸常压化学电离质谱技术,获取得到待测茶叶所对应的茶叶质谱数据;
通过基于随机森林算法而建立得到的茶叶分类模型,对获取得到的茶叶质谱数据进行分类处理,从而得到待测茶叶的分类结果。
进一步,还包括建立茶叶分类模型这一步骤,所述建立茶叶分类模型这一步骤,其包括以下步骤:
获取不同类别的样品茶叶所对应的样本茶叶质谱数据,将由获取得到的样本茶叶质谱数据所构成的数据集作为样本茶叶质谱数据集;
将获得的样本茶叶质谱数据随机划分成训练集和验证集,利用随机森林算法对训练集进行建模处理,从而建立得到随机森林模型;
利用验证集对随机森林模型进行验证。
进一步,所述将获得的样本茶叶质谱数据随机划分成训练集和验证集,利用随机森林算法对训练集进行建模处理,从而建立得到随机森林模型这一步骤,其包括有以下步骤:
通过建立多棵自助采样形成的决策树,从而建立得到随机森林模型。
进一步,所述建立自助采样形成的决策树这一步骤,其具体包括以下步骤:
通过自助采样法,从样本茶叶质谱数据集所包含的N个样本茶叶质谱数据中,以有放回随机选取方式选取k个样本茶叶质谱数据,利用选取出的k个样本茶叶质谱数据来训练生成一棵决策树;
当决策树的每个节点需要分裂时,随机从样本茶叶质谱数据集所包含的M个变量中选取m个变量,其中,m<<M;然后,将选取出的m个变量作为子集指定给每个节点,并且从m个变量中选取出分类效果最佳的一维特征作为节点的分类属性;
当每个节点的生长状态符合停止生长条件时,则停止决策树的生长。
进一步,所述停止生长条件包括分类纯度达到期望比例或者生长层数达到阈值。
进一步,所述通过基于随机森林算法而建立得到的茶叶分类模型,对获取得到的茶叶质谱数据进行分类处理,从而得到待测茶叶的分类结果这一步骤,其包括以下步骤;
将待测茶叶所对应的茶叶质谱数据输入至茶叶分类模型进行分类处理,从而导出茶叶样本相似度矩阵;
采用多维标度分析法对所述茶叶样本相似度矩阵进行降维,降维后得到的矩阵为待测茶叶的分类结果。
本发明所采用的另一技术方案是:一种基于随机森林的茶叶分类系统,该系统包括:
采样模块,用于采用表面解吸常压化学电离质谱技术,获取得到待测茶叶所对应的茶叶质谱数据;
分类模块,用于通过基于随机森林算法而建立得到的茶叶分类模型,对获取得到的茶叶质谱数据进行分类处理,从而得到待测茶叶的分类结果。
进一步,还包括用于建立茶叶分类模型的模型建立模块,所述模型建立模块具体包括:
建模数据获取子模块,用于获取不同类别的样品茶叶所对应的样本茶叶质谱数据,将由获取得到的样本茶叶质谱数据所构成的数据集作为样本茶叶质谱数据集;
建模处理子模块,用于将获得的样本茶叶质谱数据随机划分成训练集和验证集,利用随机森林算法对训练集进行建模处理,从而建立得到随机森林模型;
验证子模块,用于利用验证集对随机森林模型进行验证。
进一步,所述建模处理子模块包括用于通过建立多棵自助采样形成的决策树,从而建立得到随机森林模型的建模单元。
进一步,所述自助采样形成的决策树,其建立步骤包括有:
通过自助采样法,从样本茶叶质谱数据集所包含的N个样本茶叶质谱数据中,以有放回随机选取方式选取k个样本茶叶质谱数据,利用选取出的k个样本茶叶质谱数据来训练生成一棵决策树;
当决策树的每个节点需要分裂时,随机从样本茶叶质谱数据集所包含的M个变量中选取m个变量,其中,m<<M;然后,将选取出的m个变量作为子集指定给每个节点,并且从m个变量中选取出分类效果最佳的一维特征作为节点的分类属性;
当每个节点的生长状态符合停止生长条件时,则停止决策树的生长。
进一步,所述停止生长条件包括分类纯度达到期望比例或者生长层数达到阈值。
进一步,所述分类模块具体包括:
分类处理子模块,用于将待测茶叶所对应的茶叶质谱数据输入至茶叶分类模型进行分类处理,从而导出茶叶样本相似度矩阵;
降维处理子模块,用于采用多维标度分析法对所述茶叶样本相似度矩阵进行降维,降维后得到的矩阵为待测茶叶的分类结果。
本发明的有益效果是:本发明方法能在无需样品预处理的条件下对茶叶种类的快速区分,具有操作简单、分析速度快、精确度高等优点,解决了传统茶叶分类系统操作复杂、分析速度慢等局限性问题。
本发明的另一有益效果是:通过本系统能在无需样品预处理的条件下对茶叶种类的快速区分,具有操作简单、分析速度快、精确度高等优点,解决了传统茶叶分类系统操作复杂、分析速度慢等局限性问题。
附图说明
图1是本发明一种基于随机森林的茶叶分类方法的步骤流程图;
图2是本发明一种基于随机森林的茶叶分类方法的一具体实施例步骤流程示意图;
图3是本发明一种基于随机森林的茶叶分类系统的结构框图;
图4是本发明的随机森林模型的参数优化示意图;
图5是红茶与绿茶的分类结果示意图。
具体实施方式
如图1所示,一种基于随机森林的茶叶分类方法,该方法包括以下步骤:
采用表面解吸常压化学电离质谱技术,获取得到待测茶叶所对应的茶叶质谱数据;
通过基于随机森林算法而建立得到的茶叶分类模型,对获取得到的茶叶质谱数据进行分类处理,从而得到待测茶叶的分类结果。
进一步作为本发明方法的优选实施方式,还包括建立茶叶分类模型这一步骤,所述建立茶叶分类模型这一步骤,其包括以下步骤:
获取不同类别的样品茶叶所对应的样本茶叶质谱数据,将由获取得到的样本茶叶质谱数据所构成的数据集作为样本茶叶质谱数据集;
将获得的样本茶叶质谱数据随机划分成训练集和验证集,利用随机森林算法对训练集进行建模处理,从而建立得到随机森林模型;
利用验证集对随机森林模型进行验证。
进一步作为本发明方法的优选实施方式,所述将获得的样本茶叶质谱数据随机划分成训练集和验证集,利用随机森林算法对训练集进行建模处理,从而建立得到随机森林模型这一步骤,其包括有以下步骤:
通过建立多棵自助采样形成的决策树,从而建立得到随机森林模型。
进一步作为本发明方法的优选实施方式,所述建立自助采样形成的决策树这一步骤,其具体包括以下步骤:
通过自助采样法,从样本茶叶质谱数据集所包含的N个样本茶叶质谱数据中,以有放回随机选取方式选取k个样本茶叶质谱数据,利用选取出的k个样本茶叶质谱数据来训练生成一棵决策树;
当决策树的每个节点需要分裂时,随机从样本茶叶质谱数据集所包含的M个变量中选取m个变量,其中,m<<M;然后,将选取出的m个变量作为子集指定给每个节点,并且从m个变量中选取出分类效果最佳的一维特征作为节点的分类属性;
当每个节点的生长状态符合停止生长条件时,则停止决策树的生长。
进一步作为本发明方法的优选实施方式,所述停止生长条件包括分类纯度达到期望比例或者生长层数达到阈值。
进一步作为本发明方法的优选实施方式,所述通过基于随机森林算法而建立得到的茶叶分类模型,对获取得到的茶叶质谱数据进行分类处理,从而得到待测茶叶的分类结果这一步骤,其包括以下步骤:
将待测茶叶所对应的茶叶质谱数据输入至茶叶分类模型进行分类处理,从而导出茶叶样本相似度矩阵;
采用多维标度分析法对所述茶叶样本相似度矩阵进行降维,降维后得到的矩阵为待测茶叶的分类结果。
本发明方法一具体实施例
如图2所示,一种基于随机森林的茶叶分类方法,其具体包括以下步骤:
第一步骤:建立茶叶分类模型
所述第一步骤具体包括以下步骤:
S101、采用表面解吸常压化学电离质谱技术(DAPCI-MS),对不同类别的样品茶叶(如绿茶和红茶)进行质谱分析,从而获取得到相对应的样本茶叶质谱数据,这些数据为用于建立茶叶分类模型的数据;
其中,将由步骤S101获取得到的样本茶叶质谱数据所构成的数据集作为样本茶叶质谱数据集;
S102、将获得的样本茶叶质谱数据随机划分成训练集和验证集,利用随机森林算法对训练集进行建模处理,从而建立得到随机森林模型;
其中,对于所述随机森林模型,其是由多棵自助采样形成的决策树组合而成,而所述自助采样形成的决策树,其建立生成步骤包括:
S1021(Bagging过程)、通过自助采样法,从样本茶叶质谱数据集所包含的N个样本茶叶质谱数据中,以有放回随机选取方式选取k个样本茶叶质谱数据,利用选取出的k个样本茶叶质谱数据来训练生成一棵决策树;
S1022(分裂属性选择过程)、当决策树的每个节点需要分裂时,随机从样本茶叶质谱数据集所包含的M个变量中选取m个变量,其中,m<<M;然后,将选取出的m个变量作为子集指定给每个节点,并且从m个变量中选取出分类效果最佳的一维特征作为节点的分类属性,且保证在随机森林的生长过程中m保持不变;
S1023(决策树的生长过程)、当每个节点的分类纯度达到期望比例或者生长层数达到给定值(即阈值)时,则停止决策树的生长,保证每个决策树都保证最大限度的生长,且没有剪枝情况;
可见,通过重复执行上述步骤S1021~S1023,便可建立n棵决策树,构成随机森林模型;具体地,在样本茶叶质谱数据集中用于训练建立随机森林模型的数据构成训练集,而其它剩余的数据则构成验证集;
在本实施例随机森林自助采样过程中,每棵树建立时仅使用了样本茶叶质谱初始训练集63.2%的样本,而剩余的36.8%的样本则作为验证集来对泛化性能进行“包外估计”,这36.8%的数据称为袋外数据,可以用于取代测试集进行误差估计和作为评价指标来优化参数,本实施例中得到的随机森林算法模型的参数优化如图4所示;其中,在随机森林算法的建模过程当中主要需要优化两个参数:决策树的数量及每棵树生长时的变量数;其中,决策树个数的多少直接影响随机森林分类算法的运算速度和分类效果,因此决策树的个数对建模至关重要,例如,若决策树的棵数太多,则会导致随机森林算法的速度下降,反之,若决策树的棵数太少,则会导致模型的分类准确率下降;
S103、通过多维标度分析法(MDS)对随机森林模型所得到的茶叶样本相似度矩阵进行降维;
S104、利用验证集对随机森林模型进行验证;
通过上述步骤建立得到的随机森林模型则为所需的茶叶分类模型。
第二步骤:利用上述建立好的茶叶分类模型来实现茶叶(红茶与绿茶)分类
S201、利用表面解吸常压化学电离质谱技术,获取得到待测茶叶所对应的茶叶质谱数据;
S202、将待测茶叶所对应的茶叶质谱数据输入至茶叶分类模型进行分类处理,从而导出茶叶样本相似度矩阵;
S203、采用多维标度分析法对所述茶叶样本相似度矩阵进行降维,降维后得到的矩阵为待测茶叶的分类结果,其为一可视化图。每棵树建成后,所有的茶叶质谱数据都达到该树的某个叶节点上,若两个茶叶落在每棵树的同一个叶子节点的频率越大,表明相似度越高,所以,从决策树导出的茶叶样本相似度矩阵能收集待测茶叶之间的相似性,从而将原始空间样本映射到相似性空间;而为了能直观方便地观测随机森林模型所导出的分类结果,本实施例还通过多维标度分析法(MDS)对随机森林模型所得到的茶叶样本相似度矩阵进行降维;由于采用MDS来实现茶叶样本相似度矩阵的降维,能尽可能地保留原始对象之间的相似性,也就是说,通过设有降维步骤,在达到直观方便观测分类结果这一效果的同时,还能保证这降维结果的精确性。本实施例中最终得到的不同类别茶叶的分类图如图5所示,本实施例得到的随机森林算法模型对未知样本验证得到的混淆矩阵则如表1所示。所述表1如下所示:
表1
对于上述第二步骤,其实现茶叶类别识别的过程约为1分钟,达到快速鉴别、处理效率高等效果。
上述方法实施例中的内容均适用于以下的系统实施例中。
如图3所示,一种基于随机森林的茶叶分类系统,该系统包括:
采样模块,用于采用表面解吸常压化学电离质谱技术,获取得到待测茶叶所对应的茶叶质谱数据;
分类模块,用于通过基于随机森林算法而建立得到的茶叶分类模型,对获取得到的茶叶质谱数据进行分类处理,从而得到待测茶叶的分类结果。所述采样模块和分类模块,其可为程序模块,也可为硬件模块,通过采用处理器等硬件载体来实现。
进一步作为本发明系统的优选实施方式,还包括用于建立茶叶分类模型的模型建立模块,所述模型建立模块具体包括:
建模数据获取子模块,用于获取不同类别的样品茶叶所对应的样本茶叶质谱数据,将由获取得到的样本茶叶质谱数据所构成的数据集作为样本茶叶质谱数据集;
建模处理子模块,用于将获得的样本茶叶质谱数据随机划分成训练集和验证集,利用随机森林算法对训练集进行建模处理,从而建立得到随机森林模型;
验证子模块,用于利用验证集对随机森林模型进行验证。
进一步作为本发明系统的优选实施方式,所述建模处理子模块包括用于通过建立多棵自助采样形成的决策树,从而建立得到随机森林模型的建模单元。
进一步作为本发明系统的优选实施方式,所述自助采样形成的决策树,其建立步骤包括有:
通过自助采样法,从样本茶叶质谱数据集所包含的N个样本茶叶质谱数据中,以有放回随机选取方式选取k个样本茶叶质谱数据,利用选取出的k个样本茶叶质谱数据来训练生成一棵决策树;
当决策树的每个节点需要分裂时,随机从样本茶叶质谱数据集所包含的M个变量中选取m个变量,其中,m<<M;然后,将选取出的m个变量作为子集指定给每个节点,并且从m个变量中选取出分类效果最佳的一维特征作为节点的分类属性;
当每个节点的生长状态符合停止生长条件时,则停止决策树的生长。
进一步作为本发明系统的优选实施方式,所述停止生长条件包括分类纯度达到期望比例或者生长层数达到阈值。
进一步作为本发明系统的优选实施方式,所述分类模块具体包括:
分类处理子模块,用于将待测茶叶所对应的茶叶质谱数据输入至茶叶分类模型进行分类处理,从而导出茶叶样本相似度矩阵;
降维处理子模块,用于采用多维标度分析法对所述茶叶样本相似度矩阵进行降维,降维后得到的矩阵为待测茶叶的分类结果。
由上述可得,本发明为一种基于随机森林算法的茶叶分类技术,它能在无需样品预处理的条件下快速实现不同类别茶叶样本的快速区分,具有操作简单、分析速度快、精确度高等优点,解决了传统茶叶鉴别方法操作复杂、分析速度慢等局限性,将在食品科学等相关技术领域具有巨大的潜在应用前景。而且利用随机森林算法来实现茶叶分类模型的建立,针对茶叶鉴别这一领域中,能达到步骤更简化、更易实现等有益效果。
以上是对本发明的较佳实施进行了具体说明,但本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (10)

1.一种基于随机森林的茶叶分类方法,其特征在于:该方法包括以下步骤:
采用表面解吸常压化学电离质谱技术,获取得到待测茶叶所对应的茶叶质谱数据;
通过基于随机森林算法而建立得到的茶叶分类模型,对获取得到的茶叶质谱数据进行分类处理,从而得到待测茶叶的分类结果。
2.根据权利要求1所述一种基于随机森林的茶叶分类方法,其特征在于:还包括建立茶叶分类模型这一步骤,所述建立茶叶分类模型这一步骤,其包括以下步骤:
获取不同类别的样品茶叶所对应的样本茶叶质谱数据,将由获取得到的样本茶叶质谱数据所构成的数据集作为样本茶叶质谱数据集;
将获得的样本茶叶质谱数据随机划分成训练集和验证集,利用随机森林算法对训练集进行建模处理,从而建立得到随机森林模型;
利用验证集对随机森林模型进行验证。
3.根据权利要求2所述一种基于随机森林的茶叶分类方法,其特征在于:所述将获得的样本茶叶质谱数据随机划分成训练集和验证集,利用随机森林算法对训练集进行建模处理,从而建立得到随机森林模型这一步骤,其包括有以下步骤:
通过建立多棵自助采样形成的决策树,从而建立得到随机森林模型。
4.根据权利要求3所述一种基于随机森林的茶叶分类方法,其特征在于:所述建立自助采样形成的决策树这一步骤,其具体包括以下步骤:
通过自助采样法,从样本茶叶质谱数据集所包含的N个样本茶叶质谱数据中,以有放回随机选取方式选取k个样本茶叶质谱数据,利用选取出的k个样本茶叶质谱数据来训练生成一棵决策树;
当决策树的每个节点需要分裂时,随机从样本茶叶质谱数据集所包含的M个变量中选取m个变量,其中,m<<M;然后,将选取出的m个变量作为子集指定给每个节点,并且从m个变量中选取出分类效果最佳的一维特征作为节点的分类属性;
当每个节点的生长状态符合停止生长条件时,则停止决策树的生长。
5.根据权利要求4所述一种基于随机森林的茶叶分类方法,其特征在于:所述停止生长条件包括分类纯度达到期望比例或者生长层数达到阈值。
6.根据权利要求1-5任一项所述一种基于随机森林的茶叶分类方法,其特征在于:所述通过基于随机森林算法而建立得到的茶叶分类模型,对获取得到的茶叶质谱数据进行分类处理,从而得到待测茶叶的分类结果这一步骤,其包括以下步骤:
将待测茶叶所对应的茶叶质谱数据输入至茶叶分类模型进行分类处理,从而导出茶叶样本相似度矩阵;
采用多维标度分析法对所述茶叶样本相似度矩阵进行降维,降维后得到的矩阵为待测茶叶的分类结果。
7.一种基于随机森林的茶叶分类系统,其特征在于:该系统包括:
采样模块,用于采用表面解吸常压化学电离质谱技术,获取得到待测茶叶所对应的茶叶质谱数据;
分类模块,用于通过基于随机森林算法而建立得到的茶叶分类模型,对获取得到的茶叶质谱数据进行分类处理,从而得到待测茶叶的分类结果。
8.根据权利要求7所述一种基于随机森林的茶叶分类系统,其特征在于:还包括用于建立茶叶分类模型的模型建立模块,所述模型建立模块具体包括:
建模数据获取子模块,用于获取不同类别的样品茶叶所对应的样本茶叶质谱数据,将由获取得到的样本茶叶质谱数据所构成的数据集作为样本茶叶质谱数据集;
建模处理子模块,用于将获得的样本茶叶质谱数据随机划分成训练集和验证集,利用随机森林算法对训练集进行建模处理,从而建立得到随机森林模型;
验证子模块,用于利用验证集对随机森林模型进行验证。
9.根据权利要求8所述一种基于随机森林的茶叶分类系统,其特征在于:所述建模处理子模块包括用于通过建立多棵自助采样形成的决策树,从而建立得到随机森林模型的建模单元。
10.根据权利要求9所述一种基于随机森林的茶叶分类系统,其特征在于:所述自助采样形成的决策树,其建立步骤包括有:
通过自助采样法,从样本茶叶质谱数据集所包含的N个样本茶叶质谱数据中,以有放回随机选取方式选取k个样本茶叶质谱数据,利用选取出的k个样本茶叶质谱数据来训练生成一棵决策树;
当决策树的每个节点需要分裂时,随机从样本茶叶质谱数据集所包含的M个变量中选取m个变量,其中,m<<M;然后,将选取出的m个变量作为子集指定给每个节点,并且从m个变量中选取出分类效果最佳的一维特征作为节点的分类属性;
当每个节点的生长状态符合停止生长条件时,则停止决策树的生长。
CN201710476400.3A 2017-06-21 2017-06-21 一种基于随机森林的茶叶分类方法及系统 Pending CN107132267A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710476400.3A CN107132267A (zh) 2017-06-21 2017-06-21 一种基于随机森林的茶叶分类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710476400.3A CN107132267A (zh) 2017-06-21 2017-06-21 一种基于随机森林的茶叶分类方法及系统

Publications (1)

Publication Number Publication Date
CN107132267A true CN107132267A (zh) 2017-09-05

Family

ID=59735997

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710476400.3A Pending CN107132267A (zh) 2017-06-21 2017-06-21 一种基于随机森林的茶叶分类方法及系统

Country Status (1)

Country Link
CN (1) CN107132267A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108491882A (zh) * 2018-03-26 2018-09-04 吉林农业大学 产地确证模型建立方法、装置及产地确证方法
CN108717078A (zh) * 2018-05-28 2018-10-30 安徽农业大学 一种基于化学成分的茶类判别方法
CN110412115A (zh) * 2019-07-30 2019-11-05 浙江省农业科学院 基于稳定同位素和多元素的未知年份绿茶原产地预测方法
CN111624265A (zh) * 2020-04-22 2020-09-04 南京农业大学 一种鸡蛋种类的鉴别方法
CN112014516A (zh) * 2020-08-24 2020-12-01 安徽农业大学 一种茶类判别方法及系统
CN113921092A (zh) * 2021-10-08 2022-01-11 上海应用技术大学 一种快速筛查生鲜乳中中和酸类物质的方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120202240A1 (en) * 2009-07-31 2012-08-09 Biocrates Life Sciences Ag Method for Predicting the likelihood of an Onset of an Inflammation Associated Organ Failure
CN104090044A (zh) * 2014-07-16 2014-10-08 中国农业科学院油料作物研究所 一种用于分析食用植物油中脂肪酸组成的方法及基于脂肪酸组成的食用植物油真伪鉴别方法
CN104155359A (zh) * 2014-08-22 2014-11-19 中国农业科学院油料作物研究所 一种基于离子迁移谱的食用植物油真伪快速筛查方法
CN105335752A (zh) * 2015-09-18 2016-02-17 国网山东省电力公司菏泽供电公司 一种基于主成分分析多变量决策树的接线方式识别方法
CN105844300A (zh) * 2016-03-24 2016-08-10 河南师范大学 一种基于随机森林算法的优化分类方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120202240A1 (en) * 2009-07-31 2012-08-09 Biocrates Life Sciences Ag Method for Predicting the likelihood of an Onset of an Inflammation Associated Organ Failure
CN104090044A (zh) * 2014-07-16 2014-10-08 中国农业科学院油料作物研究所 一种用于分析食用植物油中脂肪酸组成的方法及基于脂肪酸组成的食用植物油真伪鉴别方法
CN104155359A (zh) * 2014-08-22 2014-11-19 中国农业科学院油料作物研究所 一种基于离子迁移谱的食用植物油真伪快速筛查方法
CN105335752A (zh) * 2015-09-18 2016-02-17 国网山东省电力公司菏泽供电公司 一种基于主成分分析多变量决策树的接线方式识别方法
CN105844300A (zh) * 2016-03-24 2016-08-10 河南师范大学 一种基于随机森林算法的优化分类方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
梁华正 等: "表面解吸常压化学电离质谱法快速测定茶叶化学指纹图谱", 《应用化学》 *
白秀芝 等: "高效液相色谱指纹图谱及随机森林应用于湖南安化黑茶水溶性成分的研究", 《分析测试学报》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108491882A (zh) * 2018-03-26 2018-09-04 吉林农业大学 产地确证模型建立方法、装置及产地确证方法
CN108717078A (zh) * 2018-05-28 2018-10-30 安徽农业大学 一种基于化学成分的茶类判别方法
CN110412115A (zh) * 2019-07-30 2019-11-05 浙江省农业科学院 基于稳定同位素和多元素的未知年份绿茶原产地预测方法
CN111624265A (zh) * 2020-04-22 2020-09-04 南京农业大学 一种鸡蛋种类的鉴别方法
CN112014516A (zh) * 2020-08-24 2020-12-01 安徽农业大学 一种茶类判别方法及系统
WO2022041718A1 (zh) * 2020-08-24 2022-03-03 安徽农业大学 一种茶类判别方法及系统
CN113921092A (zh) * 2021-10-08 2022-01-11 上海应用技术大学 一种快速筛查生鲜乳中中和酸类物质的方法
CN113921092B (zh) * 2021-10-08 2023-09-15 上海应用技术大学 一种快速筛查生鲜乳中中和酸类物质的方法

Similar Documents

Publication Publication Date Title
CN107132267A (zh) 一种基于随机森林的茶叶分类方法及系统
CN109597968B (zh) 基于smt大数据的锡膏印刷性能影响因素分析方法
WO2018014610A1 (zh) 基于c4.5决策树算法的特定用户挖掘系统及其方法
CN104990894B (zh) 一种基于加权吸光度及相似样本的汽油性质检测方法
CN103620401B (zh) 分析数据处理方法以及装置
CN103902591B (zh) 构建决策树分类器的方法及装置
CN102564993B (zh) 一种利用傅里叶变换红外光谱识别大米品种方法及其应用
CN105760889A (zh) 一种高效的不均衡数据集分类方法
Shi et al. Optimization of electronic nose sensor array by genetic algorithms in Xihu-Longjing Tea quality analysis
CN112613536B (zh) 一种基于smote和深度学习的近红外光谱柴油牌号识别方法
CN107132266A (zh) 一种基于随机森林的水质分类方法及系统
CN109299501A (zh) 一种基于工作流的振动光谱分析模型优化方法
CN108875118B (zh) 一种高炉铁水硅含量预测模型准确度评价方法和设备
CN108846338A (zh) 基于面向对象随机森林的极化特征选择及分类方法
CN109580656A (zh) 基于动态权重组合分类器的手机导光板缺陷检测方法及系统
CN105074435B (zh) 微粒分析装置、微粒分析方法和微粒分析系统
CN109086964A (zh) 基于随机森林的mr覆盖率影响因素判定方法
CN108872032A (zh) 沉积物粒度数据处理方法及装置
CN103559303A (zh) 一种对数据挖掘算法的评估与选择方法
CN109376944A (zh) 智能电表预测模型的构建方法及装置
CN105938093A (zh) 一种基于遗传算法结合支持向量机的乌龙茶产地判别方法
CN104484412A (zh) 基于多形式处理的大数据分析系统
CN104820724A (zh) 文本类教育资源知识点预测模型获得方法及模型应用方法
CN111896495A (zh) 基于深度学习与近红外光谱太平猴魁产地甄别方法及系统
CN107578105B (zh) 系统参数设计空间优化方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170905