CN107132267A - 一种基于随机森林的茶叶分类方法及系统 - Google Patents
一种基于随机森林的茶叶分类方法及系统 Download PDFInfo
- Publication number
- CN107132267A CN107132267A CN201710476400.3A CN201710476400A CN107132267A CN 107132267 A CN107132267 A CN 107132267A CN 201710476400 A CN201710476400 A CN 201710476400A CN 107132267 A CN107132267 A CN 107132267A
- Authority
- CN
- China
- Prior art keywords
- tea
- classification
- random forest
- mass spectrum
- spectrum data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000007637 random forest analysis Methods 0.000 title claims abstract description 83
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000005070 sampling Methods 0.000 claims abstract description 27
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 26
- 238000012545 processing Methods 0.000 claims abstract description 21
- 238000004458 analytical method Methods 0.000 claims abstract description 15
- 241001122767 Theaceae Species 0.000 claims abstract 55
- 238000001819 mass spectrum Methods 0.000 claims description 82
- 238000003066 decision tree Methods 0.000 claims description 44
- 238000013145 classification model Methods 0.000 claims description 29
- 239000011159 matrix material Substances 0.000 claims description 23
- 238000012549 training Methods 0.000 claims description 23
- 238000012795 verification Methods 0.000 claims description 19
- 238000004949 mass spectrometry Methods 0.000 claims description 18
- 230000009467 reduction Effects 0.000 claims description 12
- 230000000694 effects Effects 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 9
- 238000001396 desorption atmospheric pressure chemical ionisation Methods 0.000 claims description 8
- 238000010187 selection method Methods 0.000 claims description 7
- 238000010200 validation analysis Methods 0.000 claims description 4
- 230000008901 benefit Effects 0.000 abstract description 5
- 238000000451 chemical ionisation Methods 0.000 abstract 1
- 238000003795 desorption Methods 0.000 abstract 1
- 230000004069 differentiation Effects 0.000 abstract 1
- 244000269722 Thea sinensis Species 0.000 description 160
- 235000013616 tea Nutrition 0.000 description 157
- 238000010586 diagram Methods 0.000 description 4
- 235000006468 Thea sinensis Nutrition 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 235000020279 black tea Nutrition 0.000 description 3
- 235000009569 green tea Nutrition 0.000 description 3
- RYYVLZVUVIJVGH-UHFFFAOYSA-N caffeine Chemical compound CN1C(=O)N(C)C(=O)C2=C1N=CN2C RYYVLZVUVIJVGH-UHFFFAOYSA-N 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 235000013305 food Nutrition 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- LPHGQDQBBGAPDZ-UHFFFAOYSA-N Isocaffeine Natural products CN1C(=O)N(C)C(=O)C2=C1N(C)C=N2 LPHGQDQBBGAPDZ-UHFFFAOYSA-N 0.000 description 1
- 238000004497 NIR spectroscopy Methods 0.000 description 1
- 235000001014 amino acid Nutrition 0.000 description 1
- 150000001413 amino acids Chemical class 0.000 description 1
- 235000013361 beverage Nutrition 0.000 description 1
- 229960001948 caffeine Drugs 0.000 description 1
- VJEONQKOZGKCAK-UHFFFAOYSA-N caffeine Natural products CN1C(=O)N(C)C(=O)C2=C1C=CN2C VJEONQKOZGKCAK-UHFFFAOYSA-N 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 238000004817 gas chromatography Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000007407 health benefit Effects 0.000 description 1
- 238000004128 high performance liquid chromatography Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 150000008442 polyphenolic compounds Chemical class 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 229930002161 purine alkaloid Natural products 0.000 description 1
- 150000003212 purines Chemical class 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000004611 spectroscopical analysis Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 235000000346 sugar Nutrition 0.000 description 1
- 150000008163 sugars Chemical class 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 229940088594 vitamin Drugs 0.000 description 1
- 229930003231 vitamin Natural products 0.000 description 1
- 235000013343 vitamin Nutrition 0.000 description 1
- 239000011782 vitamin Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N27/00—Investigating or analysing materials by the use of electric, electrochemical, or magnetic means
- G01N27/62—Investigating or analysing materials by the use of electric, electrochemical, or magnetic means by investigating the ionisation of gases, e.g. aerosols; by investigating electric discharges, e.g. emission of cathode
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
Landscapes
- Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biochemistry (AREA)
- Immunology (AREA)
- Pathology (AREA)
- Health & Medical Sciences (AREA)
- Electrochemistry (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Chemical Kinetics & Catalysis (AREA)
- Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于随机森林的茶叶分类方法及系统,该系统包括采样模块和分类模块。该方法包括:采用表面解吸常压化学电离质谱技术,获取得到待测茶叶所对应的茶叶质谱数据;通过基于随机森林算法而建立得到的茶叶分类模型,对获取得到的茶叶质谱数据进行分类处理,从而得到待测茶叶的分类结果。通过本发明方法及系统,能在无需样品预处理的条件下对茶叶种类的快速区分,具有操作简单、分析速度快、精确度高等优点,解决了传统茶叶分类系统操作复杂、分析速度慢等局限性问题。本发明作为一种基于随机森林的茶叶分类方法及系统可广泛应用于茶叶分析技术领域中。
Description
技术领域
本发明涉及食品科学识别技术,尤其涉及一种基于随机森林的茶叶分类方法及系统。
背景技术
茶是当今消费最多的饮料之一。茶叶中存在多酚类化合物、氨基酸、维生素、糖类、咖啡因和嘌呤生物碱等多种成分,具有很大的潜在健康益处,随着生活水平的提高和人们对健康的重视,人们对茶叶质量的要求越来越高,对茶叶分类越来越重视。目前,对茶叶的分类鉴别主要采用感官评定法、化学方法和高效液相色谱法、气相色谱法、等离子光谱法和近红外光谱法等,然而,这些方法存有花费时间长、易受外界环境干扰、可操作性差、步骤繁琐且费用昂贵等缺点。
发明内容
为了解决上述技术问题,本发明的目的是提供一种基于随机森林的茶叶分类方法。
本发明的另一目的是提供一种基于随机森林的茶叶分类系统。
本发明所采用的技术方案是:一种基于随机森林的茶叶分类方法,该方法包括以下步骤:
采用表面解吸常压化学电离质谱技术,获取得到待测茶叶所对应的茶叶质谱数据;
通过基于随机森林算法而建立得到的茶叶分类模型,对获取得到的茶叶质谱数据进行分类处理,从而得到待测茶叶的分类结果。
进一步,还包括建立茶叶分类模型这一步骤,所述建立茶叶分类模型这一步骤,其包括以下步骤:
获取不同类别的样品茶叶所对应的样本茶叶质谱数据,将由获取得到的样本茶叶质谱数据所构成的数据集作为样本茶叶质谱数据集;
将获得的样本茶叶质谱数据随机划分成训练集和验证集,利用随机森林算法对训练集进行建模处理,从而建立得到随机森林模型;
利用验证集对随机森林模型进行验证。
进一步,所述将获得的样本茶叶质谱数据随机划分成训练集和验证集,利用随机森林算法对训练集进行建模处理,从而建立得到随机森林模型这一步骤,其包括有以下步骤:
通过建立多棵自助采样形成的决策树,从而建立得到随机森林模型。
进一步,所述建立自助采样形成的决策树这一步骤,其具体包括以下步骤:
通过自助采样法,从样本茶叶质谱数据集所包含的N个样本茶叶质谱数据中,以有放回随机选取方式选取k个样本茶叶质谱数据,利用选取出的k个样本茶叶质谱数据来训练生成一棵决策树;
当决策树的每个节点需要分裂时,随机从样本茶叶质谱数据集所包含的M个变量中选取m个变量,其中,m<<M;然后,将选取出的m个变量作为子集指定给每个节点,并且从m个变量中选取出分类效果最佳的一维特征作为节点的分类属性;
当每个节点的生长状态符合停止生长条件时,则停止决策树的生长。
进一步,所述停止生长条件包括分类纯度达到期望比例或者生长层数达到阈值。
进一步,所述通过基于随机森林算法而建立得到的茶叶分类模型,对获取得到的茶叶质谱数据进行分类处理,从而得到待测茶叶的分类结果这一步骤,其包括以下步骤;
将待测茶叶所对应的茶叶质谱数据输入至茶叶分类模型进行分类处理,从而导出茶叶样本相似度矩阵;
采用多维标度分析法对所述茶叶样本相似度矩阵进行降维,降维后得到的矩阵为待测茶叶的分类结果。
本发明所采用的另一技术方案是:一种基于随机森林的茶叶分类系统,该系统包括:
采样模块,用于采用表面解吸常压化学电离质谱技术,获取得到待测茶叶所对应的茶叶质谱数据;
分类模块,用于通过基于随机森林算法而建立得到的茶叶分类模型,对获取得到的茶叶质谱数据进行分类处理,从而得到待测茶叶的分类结果。
进一步,还包括用于建立茶叶分类模型的模型建立模块,所述模型建立模块具体包括:
建模数据获取子模块,用于获取不同类别的样品茶叶所对应的样本茶叶质谱数据,将由获取得到的样本茶叶质谱数据所构成的数据集作为样本茶叶质谱数据集;
建模处理子模块,用于将获得的样本茶叶质谱数据随机划分成训练集和验证集,利用随机森林算法对训练集进行建模处理,从而建立得到随机森林模型;
验证子模块,用于利用验证集对随机森林模型进行验证。
进一步,所述建模处理子模块包括用于通过建立多棵自助采样形成的决策树,从而建立得到随机森林模型的建模单元。
进一步,所述自助采样形成的决策树,其建立步骤包括有:
通过自助采样法,从样本茶叶质谱数据集所包含的N个样本茶叶质谱数据中,以有放回随机选取方式选取k个样本茶叶质谱数据,利用选取出的k个样本茶叶质谱数据来训练生成一棵决策树;
当决策树的每个节点需要分裂时,随机从样本茶叶质谱数据集所包含的M个变量中选取m个变量,其中,m<<M;然后,将选取出的m个变量作为子集指定给每个节点,并且从m个变量中选取出分类效果最佳的一维特征作为节点的分类属性;
当每个节点的生长状态符合停止生长条件时,则停止决策树的生长。
进一步,所述停止生长条件包括分类纯度达到期望比例或者生长层数达到阈值。
进一步,所述分类模块具体包括:
分类处理子模块,用于将待测茶叶所对应的茶叶质谱数据输入至茶叶分类模型进行分类处理,从而导出茶叶样本相似度矩阵;
降维处理子模块,用于采用多维标度分析法对所述茶叶样本相似度矩阵进行降维,降维后得到的矩阵为待测茶叶的分类结果。
本发明的有益效果是:本发明方法能在无需样品预处理的条件下对茶叶种类的快速区分,具有操作简单、分析速度快、精确度高等优点,解决了传统茶叶分类系统操作复杂、分析速度慢等局限性问题。
本发明的另一有益效果是:通过本系统能在无需样品预处理的条件下对茶叶种类的快速区分,具有操作简单、分析速度快、精确度高等优点,解决了传统茶叶分类系统操作复杂、分析速度慢等局限性问题。
附图说明
图1是本发明一种基于随机森林的茶叶分类方法的步骤流程图;
图2是本发明一种基于随机森林的茶叶分类方法的一具体实施例步骤流程示意图;
图3是本发明一种基于随机森林的茶叶分类系统的结构框图;
图4是本发明的随机森林模型的参数优化示意图;
图5是红茶与绿茶的分类结果示意图。
具体实施方式
如图1所示,一种基于随机森林的茶叶分类方法,该方法包括以下步骤:
采用表面解吸常压化学电离质谱技术,获取得到待测茶叶所对应的茶叶质谱数据;
通过基于随机森林算法而建立得到的茶叶分类模型,对获取得到的茶叶质谱数据进行分类处理,从而得到待测茶叶的分类结果。
进一步作为本发明方法的优选实施方式,还包括建立茶叶分类模型这一步骤,所述建立茶叶分类模型这一步骤,其包括以下步骤:
获取不同类别的样品茶叶所对应的样本茶叶质谱数据,将由获取得到的样本茶叶质谱数据所构成的数据集作为样本茶叶质谱数据集;
将获得的样本茶叶质谱数据随机划分成训练集和验证集,利用随机森林算法对训练集进行建模处理,从而建立得到随机森林模型;
利用验证集对随机森林模型进行验证。
进一步作为本发明方法的优选实施方式,所述将获得的样本茶叶质谱数据随机划分成训练集和验证集,利用随机森林算法对训练集进行建模处理,从而建立得到随机森林模型这一步骤,其包括有以下步骤:
通过建立多棵自助采样形成的决策树,从而建立得到随机森林模型。
进一步作为本发明方法的优选实施方式,所述建立自助采样形成的决策树这一步骤,其具体包括以下步骤:
通过自助采样法,从样本茶叶质谱数据集所包含的N个样本茶叶质谱数据中,以有放回随机选取方式选取k个样本茶叶质谱数据,利用选取出的k个样本茶叶质谱数据来训练生成一棵决策树;
当决策树的每个节点需要分裂时,随机从样本茶叶质谱数据集所包含的M个变量中选取m个变量,其中,m<<M;然后,将选取出的m个变量作为子集指定给每个节点,并且从m个变量中选取出分类效果最佳的一维特征作为节点的分类属性;
当每个节点的生长状态符合停止生长条件时,则停止决策树的生长。
进一步作为本发明方法的优选实施方式,所述停止生长条件包括分类纯度达到期望比例或者生长层数达到阈值。
进一步作为本发明方法的优选实施方式,所述通过基于随机森林算法而建立得到的茶叶分类模型,对获取得到的茶叶质谱数据进行分类处理,从而得到待测茶叶的分类结果这一步骤,其包括以下步骤:
将待测茶叶所对应的茶叶质谱数据输入至茶叶分类模型进行分类处理,从而导出茶叶样本相似度矩阵;
采用多维标度分析法对所述茶叶样本相似度矩阵进行降维,降维后得到的矩阵为待测茶叶的分类结果。
本发明方法一具体实施例
如图2所示,一种基于随机森林的茶叶分类方法,其具体包括以下步骤:
第一步骤:建立茶叶分类模型
所述第一步骤具体包括以下步骤:
S101、采用表面解吸常压化学电离质谱技术(DAPCI-MS),对不同类别的样品茶叶(如绿茶和红茶)进行质谱分析,从而获取得到相对应的样本茶叶质谱数据,这些数据为用于建立茶叶分类模型的数据;
其中,将由步骤S101获取得到的样本茶叶质谱数据所构成的数据集作为样本茶叶质谱数据集;
S102、将获得的样本茶叶质谱数据随机划分成训练集和验证集,利用随机森林算法对训练集进行建模处理,从而建立得到随机森林模型;
其中,对于所述随机森林模型,其是由多棵自助采样形成的决策树组合而成,而所述自助采样形成的决策树,其建立生成步骤包括:
S1021(Bagging过程)、通过自助采样法,从样本茶叶质谱数据集所包含的N个样本茶叶质谱数据中,以有放回随机选取方式选取k个样本茶叶质谱数据,利用选取出的k个样本茶叶质谱数据来训练生成一棵决策树;
S1022(分裂属性选择过程)、当决策树的每个节点需要分裂时,随机从样本茶叶质谱数据集所包含的M个变量中选取m个变量,其中,m<<M;然后,将选取出的m个变量作为子集指定给每个节点,并且从m个变量中选取出分类效果最佳的一维特征作为节点的分类属性,且保证在随机森林的生长过程中m保持不变;
S1023(决策树的生长过程)、当每个节点的分类纯度达到期望比例或者生长层数达到给定值(即阈值)时,则停止决策树的生长,保证每个决策树都保证最大限度的生长,且没有剪枝情况;
可见,通过重复执行上述步骤S1021~S1023,便可建立n棵决策树,构成随机森林模型;具体地,在样本茶叶质谱数据集中用于训练建立随机森林模型的数据构成训练集,而其它剩余的数据则构成验证集;
在本实施例随机森林自助采样过程中,每棵树建立时仅使用了样本茶叶质谱初始训练集63.2%的样本,而剩余的36.8%的样本则作为验证集来对泛化性能进行“包外估计”,这36.8%的数据称为袋外数据,可以用于取代测试集进行误差估计和作为评价指标来优化参数,本实施例中得到的随机森林算法模型的参数优化如图4所示;其中,在随机森林算法的建模过程当中主要需要优化两个参数:决策树的数量及每棵树生长时的变量数;其中,决策树个数的多少直接影响随机森林分类算法的运算速度和分类效果,因此决策树的个数对建模至关重要,例如,若决策树的棵数太多,则会导致随机森林算法的速度下降,反之,若决策树的棵数太少,则会导致模型的分类准确率下降;
S103、通过多维标度分析法(MDS)对随机森林模型所得到的茶叶样本相似度矩阵进行降维;
S104、利用验证集对随机森林模型进行验证;
通过上述步骤建立得到的随机森林模型则为所需的茶叶分类模型。
第二步骤:利用上述建立好的茶叶分类模型来实现茶叶(红茶与绿茶)分类
S201、利用表面解吸常压化学电离质谱技术,获取得到待测茶叶所对应的茶叶质谱数据;
S202、将待测茶叶所对应的茶叶质谱数据输入至茶叶分类模型进行分类处理,从而导出茶叶样本相似度矩阵;
S203、采用多维标度分析法对所述茶叶样本相似度矩阵进行降维,降维后得到的矩阵为待测茶叶的分类结果,其为一可视化图。每棵树建成后,所有的茶叶质谱数据都达到该树的某个叶节点上,若两个茶叶落在每棵树的同一个叶子节点的频率越大,表明相似度越高,所以,从决策树导出的茶叶样本相似度矩阵能收集待测茶叶之间的相似性,从而将原始空间样本映射到相似性空间;而为了能直观方便地观测随机森林模型所导出的分类结果,本实施例还通过多维标度分析法(MDS)对随机森林模型所得到的茶叶样本相似度矩阵进行降维;由于采用MDS来实现茶叶样本相似度矩阵的降维,能尽可能地保留原始对象之间的相似性,也就是说,通过设有降维步骤,在达到直观方便观测分类结果这一效果的同时,还能保证这降维结果的精确性。本实施例中最终得到的不同类别茶叶的分类图如图5所示,本实施例得到的随机森林算法模型对未知样本验证得到的混淆矩阵则如表1所示。所述表1如下所示:
表1
对于上述第二步骤,其实现茶叶类别识别的过程约为1分钟,达到快速鉴别、处理效率高等效果。
上述方法实施例中的内容均适用于以下的系统实施例中。
如图3所示,一种基于随机森林的茶叶分类系统,该系统包括:
采样模块,用于采用表面解吸常压化学电离质谱技术,获取得到待测茶叶所对应的茶叶质谱数据;
分类模块,用于通过基于随机森林算法而建立得到的茶叶分类模型,对获取得到的茶叶质谱数据进行分类处理,从而得到待测茶叶的分类结果。所述采样模块和分类模块,其可为程序模块,也可为硬件模块,通过采用处理器等硬件载体来实现。
进一步作为本发明系统的优选实施方式,还包括用于建立茶叶分类模型的模型建立模块,所述模型建立模块具体包括:
建模数据获取子模块,用于获取不同类别的样品茶叶所对应的样本茶叶质谱数据,将由获取得到的样本茶叶质谱数据所构成的数据集作为样本茶叶质谱数据集;
建模处理子模块,用于将获得的样本茶叶质谱数据随机划分成训练集和验证集,利用随机森林算法对训练集进行建模处理,从而建立得到随机森林模型;
验证子模块,用于利用验证集对随机森林模型进行验证。
进一步作为本发明系统的优选实施方式,所述建模处理子模块包括用于通过建立多棵自助采样形成的决策树,从而建立得到随机森林模型的建模单元。
进一步作为本发明系统的优选实施方式,所述自助采样形成的决策树,其建立步骤包括有:
通过自助采样法,从样本茶叶质谱数据集所包含的N个样本茶叶质谱数据中,以有放回随机选取方式选取k个样本茶叶质谱数据,利用选取出的k个样本茶叶质谱数据来训练生成一棵决策树;
当决策树的每个节点需要分裂时,随机从样本茶叶质谱数据集所包含的M个变量中选取m个变量,其中,m<<M;然后,将选取出的m个变量作为子集指定给每个节点,并且从m个变量中选取出分类效果最佳的一维特征作为节点的分类属性;
当每个节点的生长状态符合停止生长条件时,则停止决策树的生长。
进一步作为本发明系统的优选实施方式,所述停止生长条件包括分类纯度达到期望比例或者生长层数达到阈值。
进一步作为本发明系统的优选实施方式,所述分类模块具体包括:
分类处理子模块,用于将待测茶叶所对应的茶叶质谱数据输入至茶叶分类模型进行分类处理,从而导出茶叶样本相似度矩阵;
降维处理子模块,用于采用多维标度分析法对所述茶叶样本相似度矩阵进行降维,降维后得到的矩阵为待测茶叶的分类结果。
由上述可得,本发明为一种基于随机森林算法的茶叶分类技术,它能在无需样品预处理的条件下快速实现不同类别茶叶样本的快速区分,具有操作简单、分析速度快、精确度高等优点,解决了传统茶叶鉴别方法操作复杂、分析速度慢等局限性,将在食品科学等相关技术领域具有巨大的潜在应用前景。而且利用随机森林算法来实现茶叶分类模型的建立,针对茶叶鉴别这一领域中,能达到步骤更简化、更易实现等有益效果。
以上是对本发明的较佳实施进行了具体说明,但本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。
Claims (10)
1.一种基于随机森林的茶叶分类方法,其特征在于:该方法包括以下步骤:
采用表面解吸常压化学电离质谱技术,获取得到待测茶叶所对应的茶叶质谱数据;
通过基于随机森林算法而建立得到的茶叶分类模型,对获取得到的茶叶质谱数据进行分类处理,从而得到待测茶叶的分类结果。
2.根据权利要求1所述一种基于随机森林的茶叶分类方法,其特征在于:还包括建立茶叶分类模型这一步骤,所述建立茶叶分类模型这一步骤,其包括以下步骤:
获取不同类别的样品茶叶所对应的样本茶叶质谱数据,将由获取得到的样本茶叶质谱数据所构成的数据集作为样本茶叶质谱数据集;
将获得的样本茶叶质谱数据随机划分成训练集和验证集,利用随机森林算法对训练集进行建模处理,从而建立得到随机森林模型;
利用验证集对随机森林模型进行验证。
3.根据权利要求2所述一种基于随机森林的茶叶分类方法,其特征在于:所述将获得的样本茶叶质谱数据随机划分成训练集和验证集,利用随机森林算法对训练集进行建模处理,从而建立得到随机森林模型这一步骤,其包括有以下步骤:
通过建立多棵自助采样形成的决策树,从而建立得到随机森林模型。
4.根据权利要求3所述一种基于随机森林的茶叶分类方法,其特征在于:所述建立自助采样形成的决策树这一步骤,其具体包括以下步骤:
通过自助采样法,从样本茶叶质谱数据集所包含的N个样本茶叶质谱数据中,以有放回随机选取方式选取k个样本茶叶质谱数据,利用选取出的k个样本茶叶质谱数据来训练生成一棵决策树;
当决策树的每个节点需要分裂时,随机从样本茶叶质谱数据集所包含的M个变量中选取m个变量,其中,m<<M;然后,将选取出的m个变量作为子集指定给每个节点,并且从m个变量中选取出分类效果最佳的一维特征作为节点的分类属性;
当每个节点的生长状态符合停止生长条件时,则停止决策树的生长。
5.根据权利要求4所述一种基于随机森林的茶叶分类方法,其特征在于:所述停止生长条件包括分类纯度达到期望比例或者生长层数达到阈值。
6.根据权利要求1-5任一项所述一种基于随机森林的茶叶分类方法,其特征在于:所述通过基于随机森林算法而建立得到的茶叶分类模型,对获取得到的茶叶质谱数据进行分类处理,从而得到待测茶叶的分类结果这一步骤,其包括以下步骤:
将待测茶叶所对应的茶叶质谱数据输入至茶叶分类模型进行分类处理,从而导出茶叶样本相似度矩阵;
采用多维标度分析法对所述茶叶样本相似度矩阵进行降维,降维后得到的矩阵为待测茶叶的分类结果。
7.一种基于随机森林的茶叶分类系统,其特征在于:该系统包括:
采样模块,用于采用表面解吸常压化学电离质谱技术,获取得到待测茶叶所对应的茶叶质谱数据;
分类模块,用于通过基于随机森林算法而建立得到的茶叶分类模型,对获取得到的茶叶质谱数据进行分类处理,从而得到待测茶叶的分类结果。
8.根据权利要求7所述一种基于随机森林的茶叶分类系统,其特征在于:还包括用于建立茶叶分类模型的模型建立模块,所述模型建立模块具体包括:
建模数据获取子模块,用于获取不同类别的样品茶叶所对应的样本茶叶质谱数据,将由获取得到的样本茶叶质谱数据所构成的数据集作为样本茶叶质谱数据集;
建模处理子模块,用于将获得的样本茶叶质谱数据随机划分成训练集和验证集,利用随机森林算法对训练集进行建模处理,从而建立得到随机森林模型;
验证子模块,用于利用验证集对随机森林模型进行验证。
9.根据权利要求8所述一种基于随机森林的茶叶分类系统,其特征在于:所述建模处理子模块包括用于通过建立多棵自助采样形成的决策树,从而建立得到随机森林模型的建模单元。
10.根据权利要求9所述一种基于随机森林的茶叶分类系统,其特征在于:所述自助采样形成的决策树,其建立步骤包括有:
通过自助采样法,从样本茶叶质谱数据集所包含的N个样本茶叶质谱数据中,以有放回随机选取方式选取k个样本茶叶质谱数据,利用选取出的k个样本茶叶质谱数据来训练生成一棵决策树;
当决策树的每个节点需要分裂时,随机从样本茶叶质谱数据集所包含的M个变量中选取m个变量,其中,m<<M;然后,将选取出的m个变量作为子集指定给每个节点,并且从m个变量中选取出分类效果最佳的一维特征作为节点的分类属性;
当每个节点的生长状态符合停止生长条件时,则停止决策树的生长。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710476400.3A CN107132267A (zh) | 2017-06-21 | 2017-06-21 | 一种基于随机森林的茶叶分类方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710476400.3A CN107132267A (zh) | 2017-06-21 | 2017-06-21 | 一种基于随机森林的茶叶分类方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107132267A true CN107132267A (zh) | 2017-09-05 |
Family
ID=59735997
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710476400.3A Pending CN107132267A (zh) | 2017-06-21 | 2017-06-21 | 一种基于随机森林的茶叶分类方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107132267A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108491882A (zh) * | 2018-03-26 | 2018-09-04 | 吉林农业大学 | 产地确证模型建立方法、装置及产地确证方法 |
CN108717078A (zh) * | 2018-05-28 | 2018-10-30 | 安徽农业大学 | 一种基于化学成分的茶类判别方法 |
CN110412115A (zh) * | 2019-07-30 | 2019-11-05 | 浙江省农业科学院 | 基于稳定同位素和多元素的未知年份绿茶原产地预测方法 |
CN111624265A (zh) * | 2020-04-22 | 2020-09-04 | 南京农业大学 | 一种鸡蛋种类的鉴别方法 |
CN112014516A (zh) * | 2020-08-24 | 2020-12-01 | 安徽农业大学 | 一种茶类判别方法及系统 |
CN113921092A (zh) * | 2021-10-08 | 2022-01-11 | 上海应用技术大学 | 一种快速筛查生鲜乳中中和酸类物质的方法 |
CN118629545A (zh) * | 2024-08-12 | 2024-09-10 | 陕西岚风科技股份有限公司 | 一种茶叶检测分类识别方法及识别装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120202240A1 (en) * | 2009-07-31 | 2012-08-09 | Biocrates Life Sciences Ag | Method for Predicting the likelihood of an Onset of an Inflammation Associated Organ Failure |
CN104090044A (zh) * | 2014-07-16 | 2014-10-08 | 中国农业科学院油料作物研究所 | 一种用于分析食用植物油中脂肪酸组成的方法及基于脂肪酸组成的食用植物油真伪鉴别方法 |
CN104155359A (zh) * | 2014-08-22 | 2014-11-19 | 中国农业科学院油料作物研究所 | 一种基于离子迁移谱的食用植物油真伪快速筛查方法 |
CN105335752A (zh) * | 2015-09-18 | 2016-02-17 | 国网山东省电力公司菏泽供电公司 | 一种基于主成分分析多变量决策树的接线方式识别方法 |
CN105844300A (zh) * | 2016-03-24 | 2016-08-10 | 河南师范大学 | 一种基于随机森林算法的优化分类方法及装置 |
-
2017
- 2017-06-21 CN CN201710476400.3A patent/CN107132267A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120202240A1 (en) * | 2009-07-31 | 2012-08-09 | Biocrates Life Sciences Ag | Method for Predicting the likelihood of an Onset of an Inflammation Associated Organ Failure |
CN104090044A (zh) * | 2014-07-16 | 2014-10-08 | 中国农业科学院油料作物研究所 | 一种用于分析食用植物油中脂肪酸组成的方法及基于脂肪酸组成的食用植物油真伪鉴别方法 |
CN104155359A (zh) * | 2014-08-22 | 2014-11-19 | 中国农业科学院油料作物研究所 | 一种基于离子迁移谱的食用植物油真伪快速筛查方法 |
CN105335752A (zh) * | 2015-09-18 | 2016-02-17 | 国网山东省电力公司菏泽供电公司 | 一种基于主成分分析多变量决策树的接线方式识别方法 |
CN105844300A (zh) * | 2016-03-24 | 2016-08-10 | 河南师范大学 | 一种基于随机森林算法的优化分类方法及装置 |
Non-Patent Citations (2)
Title |
---|
梁华正 等: "表面解吸常压化学电离质谱法快速测定茶叶化学指纹图谱", 《应用化学》 * |
白秀芝 等: "高效液相色谱指纹图谱及随机森林应用于湖南安化黑茶水溶性成分的研究", 《分析测试学报》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108491882A (zh) * | 2018-03-26 | 2018-09-04 | 吉林农业大学 | 产地确证模型建立方法、装置及产地确证方法 |
CN108717078A (zh) * | 2018-05-28 | 2018-10-30 | 安徽农业大学 | 一种基于化学成分的茶类判别方法 |
CN110412115A (zh) * | 2019-07-30 | 2019-11-05 | 浙江省农业科学院 | 基于稳定同位素和多元素的未知年份绿茶原产地预测方法 |
CN111624265A (zh) * | 2020-04-22 | 2020-09-04 | 南京农业大学 | 一种鸡蛋种类的鉴别方法 |
CN112014516A (zh) * | 2020-08-24 | 2020-12-01 | 安徽农业大学 | 一种茶类判别方法及系统 |
WO2022041718A1 (zh) * | 2020-08-24 | 2022-03-03 | 安徽农业大学 | 一种茶类判别方法及系统 |
CN113921092A (zh) * | 2021-10-08 | 2022-01-11 | 上海应用技术大学 | 一种快速筛查生鲜乳中中和酸类物质的方法 |
CN113921092B (zh) * | 2021-10-08 | 2023-09-15 | 上海应用技术大学 | 一种快速筛查生鲜乳中中和酸类物质的方法 |
CN118629545A (zh) * | 2024-08-12 | 2024-09-10 | 陕西岚风科技股份有限公司 | 一种茶叶检测分类识别方法及识别装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107132267A (zh) | 一种基于随机森林的茶叶分类方法及系统 | |
CN103117903B (zh) | 上网流量异常检测方法及装置 | |
US9275427B1 (en) | Multi-channel audio video fingerprinting | |
CN108362662A (zh) | 近红外光谱相似度计算方法、装置和物质定性分析系统 | |
CN110243806B (zh) | 拉曼光谱下基于相似度的混合物组分识别方法 | |
CN107818298B (zh) | 用于机器学习物质识别算法的通用拉曼光谱特征提取方法 | |
CN107132266A (zh) | 一种基于随机森林的水质分类方法及系统 | |
CN105224961B (zh) | 一种高识别度的红外光谱特征提取与匹配方法 | |
JP5964983B2 (ja) | 質量分析法により微生物を特定するための方法 | |
CN101539545B (zh) | 一种基于化学指纹图谱的珍贵红木真伪鉴别方法 | |
CN106932510A (zh) | 一种植物油的分类方法 | |
CN111060642A (zh) | 一种对同品种不同产地烟叶分类鉴别的方法 | |
CN106546846A (zh) | 基于压缩感知盲源信号分离技术的电能质量信号检测装置 | |
CN109668992A (zh) | 一种霉变烟叶识别方法 | |
CN112116964A (zh) | 一种快速判断水果产地的检测方法 | |
CN110110789A (zh) | 一种基于多谱图信息融合技术的中草药品质鉴别方法 | |
CN107121407A (zh) | 基于pso‑ricaelm的近红外光谱分析鉴别翠冠梨成熟度的方法 | |
CN106610977B (zh) | 一种数据聚类方法和装置 | |
CN109598245B (zh) | 基于1d-cnn的食用油横向弛豫衰减曲线信号特征提取方法 | |
CN102982345B (zh) | 基于连续小波变换的时序遥感影像半自动分类方法 | |
CN113075316B (zh) | 一种靖西大果山楂酒窖藏时间的鉴定方法 | |
CN104792898A (zh) | 一种烟用香精香料质量分析方法 | |
CN104331664B (zh) | 一种在取证场景下自动分析未知恶意程序特征的方法 | |
CN107132268A (zh) | 一种用于识别肺癌组织的数据处理装置及系统 | |
CN118427541A (zh) | 酒类催熟工艺参数的控制方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170905 |
|
RJ01 | Rejection of invention patent application after publication |