CN113902951B - 基于主成分分析和梯度提升决策树的油菜蜜真伪鉴别方法 - Google Patents
基于主成分分析和梯度提升决策树的油菜蜜真伪鉴别方法 Download PDFInfo
- Publication number
- CN113902951B CN113902951B CN202111191163.9A CN202111191163A CN113902951B CN 113902951 B CN113902951 B CN 113902951B CN 202111191163 A CN202111191163 A CN 202111191163A CN 113902951 B CN113902951 B CN 113902951B
- Authority
- CN
- China
- Prior art keywords
- honey
- rape
- sample
- data
- true
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 235000012907 honey Nutrition 0.000 title claims abstract description 235
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000003066 decision tree Methods 0.000 title claims abstract description 43
- 238000000513 principal component analysis Methods 0.000 title claims abstract description 41
- 238000012549 training Methods 0.000 claims abstract description 32
- 238000005481 NMR spectroscopy Methods 0.000 claims description 32
- 239000011159 matrix material Substances 0.000 claims description 28
- 229910052739 hydrogen Inorganic materials 0.000 claims description 24
- 239000001257 hydrogen Substances 0.000 claims description 24
- 125000004435 hydrogen atom Chemical group [H]* 0.000 claims description 21
- 230000008569 process Effects 0.000 claims description 18
- 230000010354 integration Effects 0.000 claims description 16
- 238000001514 detection method Methods 0.000 claims description 14
- 230000009467 reduction Effects 0.000 claims description 13
- 238000005516 engineering process Methods 0.000 claims description 12
- 239000000126 substance Substances 0.000 claims description 12
- 238000005457 optimization Methods 0.000 claims description 11
- 238000012360 testing method Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 10
- 239000006188 syrup Substances 0.000 claims description 8
- 235000020357 syrup Nutrition 0.000 claims description 8
- 238000009826 distribution Methods 0.000 claims description 7
- 239000013598 vector Substances 0.000 claims description 7
- 235000014698 Brassica juncea var multisecta Nutrition 0.000 claims description 6
- 235000006008 Brassica napus var napus Nutrition 0.000 claims description 6
- 240000000385 Brassica napus var. napus Species 0.000 claims description 6
- 235000006618 Brassica rapa subsp oleifera Nutrition 0.000 claims description 6
- 235000004977 Brassica sinapistrum Nutrition 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 4
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims description 4
- 238000007405 data analysis Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000012847 principal component analysis method Methods 0.000 claims description 2
- 230000009466 transformation Effects 0.000 claims description 2
- 238000002372 labelling Methods 0.000 claims 1
- 239000000523 sample Substances 0.000 description 60
- 230000006870 function Effects 0.000 description 9
- 230000001186 cumulative effect Effects 0.000 description 6
- 238000012706 support-vector machine Methods 0.000 description 5
- UFHFLCQGNIYNRP-UHFFFAOYSA-N Hydrogen Chemical compound [H][H] UFHFLCQGNIYNRP-UHFFFAOYSA-N 0.000 description 3
- KWYUFKZDYYNOTN-UHFFFAOYSA-M Potassium hydroxide Chemical compound [OH-].[K+] KWYUFKZDYYNOTN-UHFFFAOYSA-M 0.000 description 3
- 235000012054 meals Nutrition 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- NBIIXXVUZAFLBC-UHFFFAOYSA-N Phosphoric acid Chemical compound OP(O)(O)=O NBIIXXVUZAFLBC-UHFFFAOYSA-N 0.000 description 2
- PXIPVTKHYLBLMZ-UHFFFAOYSA-N Sodium azide Chemical compound [Na+].[N-]=[N+]=[N-] PXIPVTKHYLBLMZ-UHFFFAOYSA-N 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 239000003153 chemical reaction reagent Substances 0.000 description 2
- 235000013305 food Nutrition 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 241000196324 Embryophyta Species 0.000 description 1
- 102000004190 Enzymes Human genes 0.000 description 1
- 108090000790 Enzymes Proteins 0.000 description 1
- 229930091371 Fructose Natural products 0.000 description 1
- RFSUNEUAIZKAJO-ARQDHWQXSA-N Fructose Chemical compound OC[C@H]1O[C@](O)(CO)[C@@H](O)[C@@H]1O RFSUNEUAIZKAJO-ARQDHWQXSA-N 0.000 description 1
- 239000005715 Fructose Substances 0.000 description 1
- WQZGKKKJIJFFOK-GASJEMHNSA-N Glucose Natural products OC[C@H]1OC(O)[C@H](O)[C@@H](O)[C@@H]1O WQZGKKKJIJFFOK-GASJEMHNSA-N 0.000 description 1
- XLYOFNOQVPJJNP-ZSJDYOACSA-N Heavy water Chemical class [2H]O[2H] XLYOFNOQVPJJNP-ZSJDYOACSA-N 0.000 description 1
- 241000264877 Hippospongia communis Species 0.000 description 1
- 241000257303 Hymenoptera Species 0.000 description 1
- 241000218922 Magnoliophyta Species 0.000 description 1
- 229910000147 aluminium phosphate Inorganic materials 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- WQZGKKKJIJFFOK-VFUOTHLCSA-N beta-D-glucose Chemical compound OC[C@H]1O[C@@H](O)[C@H](O)[C@@H](O)[C@@H]1O WQZGKKKJIJFFOK-VFUOTHLCSA-N 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000000306 component Substances 0.000 description 1
- 235000009508 confectionery Nutrition 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000008103 glucose Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000001819 mass spectrum Methods 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 229910000402 monopotassium phosphate Inorganic materials 0.000 description 1
- 235000019796 monopotassium phosphate Nutrition 0.000 description 1
- PJNZPQUBCPKICU-UHFFFAOYSA-N phosphoric acid;potassium Chemical compound [K].OP(O)(O)=O PJNZPQUBCPKICU-UHFFFAOYSA-N 0.000 description 1
- QSMNWDCHUCQBGP-UHFFFAOYSA-N propanoic acid trimethylsilane Chemical class C(CC)(=O)O.C[SiH](C)C QSMNWDCHUCQBGP-UHFFFAOYSA-N 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 150000003385 sodium Chemical class 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 235000019605 sweet taste sensations Nutrition 0.000 description 1
- 230000001256 tonic effect Effects 0.000 description 1
- 229910021642 ultra pure water Inorganic materials 0.000 description 1
- 239000012498 ultrapure water Substances 0.000 description 1
- 230000017260 vegetative to reproductive phase transition of meristem Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computing Systems (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Pure & Applied Mathematics (AREA)
- Computational Mathematics (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Complex Calculations (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公布了一种基于主成分分析和梯度提升决策树的油菜蜜真伪鉴别方法,包括:采集和制备真假蜂蜜样品并生成蜂蜜数据、对蜂蜜数据记录进行真假标注得到油菜蜜数据集、使用主成分分析法PCA对油菜蜜数据集降维、使用梯度提升决策树算法GBDT构建油菜蜜真伪鉴别模型并评估模型的有效性、利用油菜蜜真伪鉴别模型对待测蜂蜜进行真伪鉴别。本发明方法有效提高均方根误差和AUC值,降低了数据特征维数、模型训练时间和模型复杂度,可有效精准地鉴别油菜蜜的真伪,避免了人工查看谱图进行真伪鉴别的误差,提升油菜蜜真伪鉴别的准确率。
Description
技术领域
本发明涉及蜂蜜真伪鉴别技术,尤其涉及一种基于主成分分析和梯度提升决策树的油菜蜜真伪鉴别方法
背景技术
蜂蜜是蜜蜂从开花植物的花中采得花蜜在蜂巢中经过充分酿造而成的天然甜物质,其气味清香浓郁,味道纯真甜美。蜂蜜是一种糖类为主的天然食品,葡萄糖和果糖为其主要成分,可以被人体直接吸收,而不需要酶的分解,也是最常用的滋补品之一,深受消费者喜爱。
但是,蜂蜜的成分复杂,且组分含量与蜜源植物种类,花期,气候以及存贮加工工艺等相关,目前国内对蜂蜜的真伪判别,主要采用食品安全国家标准GB/T18932.1-2002和GB/T 18932.2-2002,使用靶向检测技术,如质谱或色谱技术,对蜂蜜的掺入物的特征组分进行判定。然而,造假者可以对标准中的检测项目,有组织地进行规避,故目前的国家标准已不能满足现阶段蜂蜜掺假或混配的检测,急需开发和建立基于机器学习的蜂蜜真伪鉴别的有效方法。
核磁共振氢谱检测技术作为非靶向检测技术,对蜂蜜样品有机组分中的氢元素进行检测,采集蜂蜜样品有机组分中氢元素的整体信号,可以反映出各有机组分的含量。外源物质掺入的蜂蜜样品,其核磁共振氢信号谱图的整体形貌会发生变化,比如糖浆的掺入会引起糖区信号的相对增加,与真实蜂蜜的谱图产生差异,借助人工智能机器学习方法去学习真蜂蜜和掺假蜂蜜的谱图特征,进而实现真假蜂蜜的判别,可以有效地检测蜂蜜中是否掺入糖浆。
发明内容
本发明提供一种基于主成分分析和梯度提升决策树的油菜蜜真伪鉴别方法(下文中提到的蜂蜜和样品均为油菜蜜)。该方法主要包括:采集和制备真假蜂蜜样品并生成蜂蜜数据、对蜂蜜数据记录进行真假标注得到油菜蜜数据集、使用主成分分析法(PCA)对油菜蜜数据集降维、使用梯度提升决策树算法(GBDT)构建油菜蜜真伪鉴别模型并评估模型的有效性;之后就可以利用该模型对待测蜂蜜进行真伪鉴别。
针对上述目的,本发明技术方案是:
一种基于主成分分析和梯度提升决策树的油菜蜜真伪鉴别方法,该方法包含下列步骤:
A:采集和制备真假蜂蜜样品并生成油菜蜜数据。
本方法中蜂蜜数据获取主要通过核磁共振技术,对蜂蜜样品进行NOESY 1D检测,得到检测样品的核磁共振氢信号谱图,进而对谱图进行数字化转换,得到反映样品谱图特征的油菜蜜数据。具体方法如下:
A1:采集和制备真假蜂蜜样品。直接从蜂场,按照事先制定的程序,采集真实蜂蜜样品若干;制备掺假蜂蜜样品若干,掺假蜂蜜样品主要是通过在真实蜂蜜样品中添加一定比例的不同来源的糖浆而获得,比例一般在10%~90%之间。
A2:采用核磁共振波谱仪对真假蜂蜜样品进行检测,得到蜂蜜样品的核磁共振氢信号谱图。谱图使用核磁波谱仪的采集和处理软件VnmrJ 4.2进行相位调整、设定内标物的化学位移原点(内标物TSP)得到。谱图的形状反映了被测样品所含组分及其含量,是鉴别蜂蜜真伪的重要依据。
A3:对蜂蜜样品的核磁共振氢信号谱图进行数字化和归一化。使用核磁数据分析处理辅助软件MestroNova 11.0对谱图进行等间隔积分并提取核磁数据,选取化学位移在0.53~9.53ppm(不包含4.78~4.98ppm的水峰信号)区间的信号,并对谱图以0.05ppm为间隔进行等间隔分段积分,采用峰面积归一化得到样品的分段积分。分段积分的方法如公式(1)-(3):
P={P0,P1,P2,···Pi,···PN-2,PN-1} (2)
其中,A为化学位移在0.53~9.53ppm区域内总积分面积;Ai为该积分区域内第i个分段积分面积;N为分段的个数,本发明具体实施时取值为176;Pi为归一化后第i个分段积分值。
由此得到代表该样品的一条数据记录,该记录具有176个属性值或特征值,这些特征值的分布反映了该样品核磁共振氢信号谱图的轮廓,即蜂蜜各组分含量分布。对每一个油菜蜜样品进行上述步骤,得到一系列具有176个特征的真假油菜蜜数据记录,即油菜蜜数据。
B:对油菜蜜数据记录进行真假标注得到油菜蜜数据集。
对步骤A中得到的油菜蜜数据中的每一条记录添加真假标签,真实蜂蜜标注“0”,掺假蜂蜜标注“1”。最后为了在实际测试中更加方便地使用数据,给每一条记录按照一定规则再添加一个样本名称,故此时得到具有176+2=178维的油菜蜜数据集,记为D。
C:使用主成分分析法(PCA)对油菜蜜数据集D降维。
使用PCA对油菜蜜数据集D进行降维(不包括真假标注维和样本名称维),降维维度按照一定的方差比例确定。首先对油菜蜜数据集D进行规范化,使得该数据中每一特征的取值平均值为0,方差为1;其次将规范化后的数据通过正交变换,得到由多个线性无关的新特征表示的数据;再将新特征按照方差大小进行排序,并将排序后的特征依次称为第一主成分、第二主成分等;计算每个特征的贡献率,当前k个特征的贡献率之和大于等于给定阈值时,前k个特征即为最终的特征集合,得到k维的油菜蜜数据集D′。
采用主成分分析方法对油菜蜜数据集D进行计算的过程:假设油菜蜜蜜数据集D中有m条数据,n个特征,组成n×m蜂蜜数据矩阵X*,如式(4)所示:
其中xj(j=1,2,…,m)为第j条蜂蜜数据。
(1)对X*的每一行进行零均值化(每一行即各蜂蜜样本在该特征下的取值),即减去该行(该特征)的均值,得到蜂蜜零均值化矩阵X,如式(5)所示。
其中μi为第i个特征对应的平均值,计算过程如式(6):
(2)计算蜂蜜零均值化矩阵X的协方差矩阵,得到n×n的协方差矩阵C,计算过程如式(7)所示:
(3)根据式(8)得到协方差矩阵C的特征值和特征向量:
Cβi=λiβi,i=1,2,...,n (8)
其中,βi为第i个特征向量,λi为第i个特征值且满足:λ1≥λ2≥...≥λn。
(4)特征向量单位化,计算过程如式(9):
其中pi为第i个特征向量的单位向量,此时,满足:
(5)计算特征值λi的贡献率γi,计算方式如式(10)所示。假定阈值为γ(为了保证保留足够的方差信息,一般γ≧90%),当前k个特征值的贡献率之和大于等于给定阈值γ时,取前k个特征值对应的单位特征向量得到k×n的单位特征向量矩阵Q,如式(11),其中前面所述的k个主成分即为取到的k个特征值。
(6)将单位特征向量矩阵Q与蜂蜜零均值化矩阵X相乘得到降维后k×m的矩阵Y,即k维的油菜蜜数据集D′,如式(12)。
D:使用梯度提升决策树算法(GBDT)构建油菜蜜真伪鉴别模型。
对经PCA降维后得到的油菜蜜数据集D′按一定比例划分为训练集和测试集,进行GBDT模型的训练和参数优化,获得训练好的最优的蜂蜜真伪鉴别模型(记为PCA-GBDT)。
GBDT模型具体通过基学习器的线性组合,不断减小训练过程产生的残差来达到将数据分类的目的。首先初始化一个弱学习器,计算此时训练集中每个样本损失函数的负梯度值;其次利用负梯度值拟合一棵决策树,并求出最佳的负梯度拟合值;然后使用最佳的负梯度拟合值来更新弱学习器,得到第一个强学习器。将前一轮得到的强学习器作为本轮初始弱学习器,按上述步骤不断迭代更新,当迭代次数达到给定的值时,输出的强学习器为最终的分类器。
GBDT模型训练的具体计算过程如下:
假设油菜蜜训练集样本S=(x1,y1),(x2,y2),…,(xk,yk),…,(xm,ym),其中xk是第k个样本,yk为第k个样本的真伪值(即0或者1),最大迭代次数为T,损失函数L,输出是强学习器f(x)。同时,设置训练时的学习率(learning_rate)、训练样本的子采样比例(subsample)、决策树的最大叶子节点数(num_leaves)等参数,上述参数及最大迭代次数T均由参数优化最终确定。
(1)初始化弱学习器f0(x),表示为式(13)。其中,由于本鉴别方法为二元分类,故损失函数使用对数似然损失函数L(y,f(x))=log(1+e-yf(x)),其中y∈{-1,1},y为真实值,f(x)为预测值,初始时f(x)的值c设置为y(所有油菜蜜训练样本的标签值)的均值。
(2)对迭代次数t(t=1,2,3,…,T)有:
(2a):对油菜蜜样本xi(i=1,2,3,…,m),根据式(14)计算负梯度误差rti:
(2b):将(2a)中得到的rti作为样本当前的真实值,拟合得到第t棵决策树ft(x),其对应的叶子节点区域为Rtj,j=1,2,3,…,J,每个叶子节点区域对应的是一个或多个油菜蜜样本。其中J为决策树t的叶子节点数量。
(2c):对每个叶子节点j,计算最佳拟合值的近似值Ctj,如式(15):
(2d):更新强学习器,如式(16):
(3)得到最终的强学习器f(x),如式(17)。对于新的油菜蜜样本,将其数据代入式(17),即可得到分类结果:
参数优化使用scikit-learn的GridSearchCV方法实现,以对数损失函数(LogLoss)为模型评判标准获得最优参数。本方法中主要优化的参数包括:
(1)决策树的个数或最大的迭代次数(n_estimators),即式(17)中的T;
(2)训练每棵树时数据的采样率,即子采样率(subsample),以有效减小油菜蜜样本在拟合决策树时的方差和防止过拟合;
(3)决策树的最大叶子数(num_leaves),即步骤(2b)中所述J;
(4)学习率(learning_rate),控制每棵决策树(弱分类器)对整体的影响。
E:对待鉴别的油菜蜜样品进行NOESY 1D检测,得到待测样品的核磁共振氢信号谱图,并对谱图进行数字化转换,得到反映样品谱图特征的油菜蜜数据,再利用训练好的油菜蜜蜜真伪鉴别模型进行真伪鉴别。
与现有技术相比,本发明的有益效果是:
本发明提出了一种基于主成分分析和梯度提升决策树(GBDT)的油菜蜜真伪鉴别方法。首先采集蜂蜜并制作真实蜂蜜和掺糖浆的假蜂蜜样品;然后使用核磁共振技术获取蜂蜜样品的核磁共振氢信号谱图,并将谱图数字化为176维的特征向量;进而使用PCA方法保留一定的方差比例进行降维,以降低GBDT模型训练的复杂度;最后用已标注真假的蜂蜜数据对GBDT模型进行训练,得到结果GBDT模型,用于对新检测的油菜蜜进行真伪判别。与现有方法相比,本发明方法可以有效精准的鉴别油菜蜜的真伪,避免了人工查看谱图进行真伪鉴别的误差。综合使用核磁共振技术、主成分分析和梯度提升决策树GBDT模型,有效提高了油菜蜜真伪鉴别的准确率、均方根误差和AUC值,降低了数据特征维数、模型训练时间和模型复杂度,是一种鉴别油菜蜜真伪的有效方法。
附图说明
图1是本发明方法的整体流程框图
图2(a)为本发明实施例中NOESY 1D(0.5-9.5ppm)检测结果谱图。图2(b)为区间在0.5-3ppm,纵坐标放大500倍的放大图;图2(c)为区间在6-9.5ppm,纵坐标放大1000倍的放大图。
图3是本发明实施例中对油菜蜜数据集D进行主成分分析之后特征的累计贡献率变化趋势图
具体实施方式
下面结合附图,通过实施例进一步描述本发明。但不以任何方式限制本发明的范围。
本发明提出了一种基于主成分分析和梯度提升决策树的油菜蜜真伪鉴别方法。首先采集和制备真假蜂蜜样品并生成蜂蜜数据集,其次对蜂蜜数据记录进行真假标注得到油菜蜜数据集,然后使用主成分分析法(PCA)对油菜蜜数据集降维,最后使用梯度提升决策树(GBDT)构建PCA-GBDT蜂蜜真伪鉴别模型,基于模型对待测蜂蜜样本进行鉴别。本方法主要针对采集的油菜蜜样品进行测试,此方法综合了核磁共振技术、主成分分析和梯度提升决策树,能够快速高效方便的鉴别油菜蜜样品的真伪性。方法流程如图1所示。
本发明中涉及到的仪器设备及试剂如下:
(1)仪器设备:安捷伦公司Agilent DD2 600MHz核磁共振波谱仪配有5mm二合一宽带OneNMR探头,7510自动进样器;默克化工技术有限公司Merck产Milli-Q Integral超纯水系统;梅特勒-托利多Mettler Toledo的XS104天平和FiveEasy Plus pH计;北京博宇宝卫实验设备公司THZ-82A型恒温水浴振荡器;日本AS ONE TRIO TM-1N涡旋振荡器;德国艾本德Eppendorf公司200μL和1000μL可调节移液器;美国诺雷尔Norell公司5mm核磁管。
(2)试剂:分析纯磷酸二氢钾和氢氧化钾,购自西陇化工股份有限公司;99.9%氘代的重水和98%氘代的2,2,3,3-氘代三甲基硅烷丙酸钠(TSP)购自美国CambridgeIsotope Laboratories;叠氮钠购自MPM biological technology Co.Ltd.;分析纯磷酸购自美国西格玛阿德里齐(Sigma-Aldrich)公司。
本发明具体实施例的操作步骤为:
A:采集和制备真假蜂蜜样品并生成油菜蜜数据
A1:采集和制备真假蜂蜜样品。按照制定的程序从蜂场采集200个真实蜂蜜样品,对其中100个蜂蜜样品添加一定比例的不同来源的糖浆制成糖浆掺假蜂蜜样品,糖浆掺假比例在10%~90%不等。剩余100个蜂蜜样品作为真实蜂蜜样品;
A2:对真假蜂蜜样品采用核磁共振波谱仪进行检测,得到蜂蜜样品的核磁共振氢信号谱图。谱图使用核磁波谱仪的采集和处理软件VnmrJ 4.2进行相位调整和设定内标物TSP得到,其中变化点数设置为64K,线宽因子设置为0.3Hz,设定内标物TSP的峰为0.00ppm进行化学位移定标;
A3:对油菜蜜样品的核磁共振氢信号谱图进行数字化和归一化处理。使用核磁数据分析处理辅助软件MestroNova 11.0对谱图进行等间隔积分并提取核磁数据,选取化学位移在0.53~9.53ppm(不包含4.78~4.98ppm的水峰信号)区间的信号,以0.05ppm为间隔进行等间隔分段积分,采用峰面积归一化得到样品的分段积分。提取的每个样品数据包含176维属性值或特征值,由此得到代表该油菜蜜样品的数据记录,该记录具有176个特征值,这些特征值的分布反映了该样品核磁共振氢信号谱图的轮廓,即蜂蜜各组分含量分布。
对每一个真假油菜蜜样品进行A2,A3步骤,得到一系列具有176个特征的真假油菜蜜数据记录,即油菜蜜数据,从而实现样品检测数据的数字化。在本实施例中共获得100条真实油菜蜜数据记录和100条掺假油菜蜜数据记录组成200条油菜蜜数据。
B:对油菜蜜数据记录进行真假标注得到油菜蜜数据集
分别对真实蜂蜜和掺假蜂蜜数据记录添加真假标签,对每一条真实蜂蜜数据添加标签,标记为数值“0”,对每一条糖浆掺假蜂蜜数据添加标签,标记为数值“1”,标签特征名记为“result”,即对于真实蜂蜜设定其result=0,掺假蜂蜜设定其result=1。其次为了在实际测试中更加方便地使用数据,对每一条数据按照一定规则添加了样本名称(sampleName)。此时得到200×178的油菜蜜数据集D,如表1所示,该数据是经过核磁共振和分段积分,并已标注真假标签和添加了样本名称的部分数据。其每一行为特定样品的特征(积分段)描述,每一列(除sampleName和result)是不同的样品中特定化学位移区间的归一化后的积分面积。
表1油菜蜜数据集D(部分)
1 | 2 | 3 | 4 | … | 173 | 174 | 175 | 176 | ||
sampleName | result | 0.53-0.58 | 0.58-0.63 | 0.63-0.68 | 0.68-0.73 | … | 9.33-9.38 | 9.38-9.43 | 9.43-9.48 | 9.48-9.53 |
001R | 0 | 0.003313869 | 0.006494182 | 0.006787419 | 0.005728609 | … | -0.00079329 | 0.001866126 | -0.00123919 | 0.000608956 |
051R | 0 | 0.002013378 | -0.00198896 | 0.0015636 | 0.003106756 | … | -0.00011516 | 0.004121909 | -0.00112646 | 0.001833055 |
052R | 0 | -0.00581904 | -0.00317804 | -0.00872074 | -0.00195171 | … | -0.00284376 | -0.00071118 | -0.00334178 | -0.00309494 |
053R | 0 | -0.00387749 | -0.00630714 | -0.00363571 | -0.00155817 | … | -0.004329 | -0.00569407 | -0.00418908 | -0.00458526 |
054R | 0 | 0.000895155 | 0.000645008 | 0.000596389 | 0.002487297 | … | -0.0022927 | -0.00469504 | -0.00328826 | -0.0012771 |
001R_H04_10 | 1 | 0.001661179 | -0.00032964 | 0.003065126 | 0.004724401 | … | -0.00139588 | -0.00280657 | -0.00491048 | -0.00412981 |
051R_H04_10 | 1 | -0.00937495 | -0.00694828 | -0.0082971 | -0.00897548 | … | -0.00245339 | -0.00383869 | -0.0033809 | -0.0031896 |
052R_H04_10 | 1 | -0.0029709 | -0.00413827 | -0.00354084 | -0.00155589 | … | -0.0009939 | -0.00489534 | -0.00554901 | -0.00158525 |
053R_H04_10 | 1 | -0.00057202 | 0.001629597 | 0.001492077 | 0.002708676 | … | -0.00468328 | -0.0024162 | -0.00509602 | -0.00472317 |
054R_H04_10 | 1 | 0.001940059 | 0.001873965 | 0.003028317 | 0.002668439 | … | -0.00425949 | -0.00289033 | -0.00544729 | -0.00558976 |
… | … | … | … | … | … | … | … | … | … | … |
C:使用主成分分析法PCA对油菜蜜数据集D降维。
使用PCA对具有176维(不包括真假标注维和样本名称维)的油菜蜜数据集进行降维,降维维度按照一定的方差比例确定。
表2前9个主成分累计贡献率
根据PCA计算过程,首先对该矩阵的每一行进行零均值化得到新的矩阵X,然后对新矩阵求协方差矩阵C,求出协方差矩阵C的特征值和特征向量,并对特征向量进行单位化,对特征值进行降序排序,取前k个特征值对应的特征向量,得到降维后的油菜蜜数据。实际计算过程中得到k个主成分,且排序之后前面的主成分所包含的数据信息大于后面主成分所包含的信息。选取k值时根据各个主成分累计贡献的大小选取,也即保留的方差信息比例。在本实施例中保留了99%的方差信息,也即k个主成分的累计贡献率大于等于99%时的k值。对油菜蜜数据集D进行主成分分析之后,当k=9时,累计贡献率达到99.236%(保留三位有效数字),得到9维的油菜蜜数据集D′,前9个主成分的累计贡献率如表2,累计贡献率变化趋势如图3所示。
D:构建油菜蜜真伪鉴别模型。
使用梯度提升决策树算法(GBDT)构建油菜蜜真伪鉴别模型。
对经PCA降维后得到的油菜蜜数据集D′按一定比例划分为训练集和测试集,进行GBDT模型的训练,然后对GBDT进行参数调整和优化,获得训练好的最优的蜂蜜真伪鉴别模型(记为PCA-GBDT),其中参数调整和优化使用网格搜索法。
GBDT模型具体通过基学习器的线性组合,不断减小训练过程产生的残差来达到将数据分类的目的。首先初始化一个弱学习器,计算此时训练集中每个样本损失函数的负梯度值;其次利用负梯度值拟合一棵决策树,并求出最佳的负梯度拟合值;然后使用最佳的负梯度拟合值来更新弱学习器,得到第一个强学习器。将前一轮得到的强学习器作为本轮初始弱学习器,按上述步骤不断迭代更新,当迭代次数达到给定的值时,输出的强学习器为最终的分类器。
GBDT模型训练的具体计算过程如下:
对于油菜蜜训练集样本S=(x1,y1),(x2,y2),…,(xk,yk),…,(xm,ym),其中xk是第k个样本,yk为第k个样本的真伪值(即0或者1),最大迭代次数为T,损失函数L,输出是强学习器f(x)。
(1)初始化弱学习器f0(x),表示为式(13)。其中,由于本鉴别方法为二元分类,故损失函数使用对数似然损失函数L(y,f(x))=log(1+e-yf(x)),其中y∈{-1,1},y为真实值,f(x)为预测值,初始时f(x)的值c设置为y(所有油菜蜜训练样本的标签值)的均值。
(2)对迭代次数t=1,2,3,…,T,有:
(2a):对油菜蜜样本xi(i=1,2,3,…,m),根据式(14)计算负梯度误差rti:
(2b):将(2a)中得到的rti作为样本当前的真实值,拟合得到第t棵决策树ft(x),其对应的叶子节点区域为Rtj,j=1,2,3,…,J,每个叶子节点区域对应的是一个或多个油菜蜜样本。其中J为分类树t的叶子节点数量。
(2c):对每个叶子节点j,计算最佳拟合值的近似值Ctj,如式(15):
(2d):更新强学习器,如式(16):
(3)得到最终的强学习器f(x),如式(17)。对于新的油菜蜜样本,将其数据代入式(17),即可得到分类结果:
将数据集D′按9:1的比例划分为训练集和测试集,进行模型的训练和参数优化,使用GridSearchCV进行参数优化。确定分类树的个数(estimators)、样本采样比例(subsample)、分类树的最大叶子树(num_leaves)和学习率(learning_rate)。对上述参数的取值范围设置如表3所示,经过GridSearchCV优化后最佳参数取值如表4所示:
表3 GBDT算法参数取值范围
表4网格优化最佳参数取值
在优化后的模型中使用本实施例中的油菜蜜数据集D′准确率达到95%。为了体现PCA-GBDT方法的优势,使用支持向量机(SVM)和决策树(DT)算法对同样的油菜蜜数据进行预测,其测试准确率(Accuracy)、均方根误差(RMSE)和AUC值对比如表5所示。从表中可以看到,在油菜蜜测试数据集D上本发明方法PCA-GBDT的准确率和AUC值均高于SVM和DT算法,RMSE均低于SVM和DT,可以看到PCA-GBDT方法优于SVM和DT方法。
表5测试集实验结果对比
对待鉴别的油菜蜜样品进行NOESY 1D检测,得到待测样品的核磁共振氢信号谱图,并对谱图进行数字化转换,得到反映样品谱图特征的油菜蜜数据,并使用PCA进行降维,再利用训练好的油菜蜜真伪鉴别模型可以进行有效的真伪鉴别。
需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附权利要求的范围内,各种替换和修改都是可能的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。
Claims (7)
1.一种基于主成分分析和梯度提升决策树的油菜蜜真伪鉴别方法,包括:采集和制备真假蜂蜜样品并生成蜂蜜数据、对蜂蜜数据记录进行真假标注得到油菜蜜数据集、使用主成分分析法PCA对油菜蜜数据集降维、使用梯度提升决策树算法GBDT构建油菜蜜真伪鉴别模型并评估模型的有效性、利用油菜蜜真伪鉴别模型对待测蜂蜜进行真伪鉴别;包括下列具体步骤:
A:采集和制备真假蜂蜜样品,并生成油菜蜜数据;
通过核磁共振技术获取蜂蜜数据:对蜂蜜样品进行NOESY 1D检测,得到检测样品的核磁共振氢信号谱图;再对核磁共振氢信号谱图进行数字化转换,得到反映样品谱图特征的油菜蜜数据;
油菜蜜数据的一条记录包括反映油菜蜜样品核磁共振氢信号谱图的轮廓即蜂蜜各组分含量分布的176个属性值或特征值;
B:对油菜蜜数据记录进行真假蜂蜜标注,得到油菜蜜数据集;
对步骤A中得到的油菜蜜数据中的每一条记录添加真假标签,即真假标注维;再给每一条记录按照添加样本名称,即样本名称维;得到具有178维的油菜蜜数据集,记为D;
C:使用主成分分析法PCA对油菜蜜数据集D降维;
使用PCA对油菜蜜数据集D进行降维;降维不包括真假标注维和样本名称维;降维维度按照方差比例确定;首先对油菜蜜数据集D进行规范化,使得数据中每一特征的取值平均值为0,方差为1;其次将规范化后的数据通过正交变换,得到由多个线性无关的新特征表示的数据;再将新特征按照方差大小进行排序,并将排序后的特征依次称为第一主成分、第二主成分等;计算每个特征的贡献率,当前k个特征的贡献率之和大于等于设定阈值时,前k个特征即为最终的特征集合,得到k维的油菜蜜数据集D′;
具体地,采用主成分分析方法对油菜蜜数据集D进行计算的过程包括如下步骤:
假设油菜蜜蜜数据集D中有m条数据,n个特征,组成n×m蜂蜜数据矩阵X*,如式(4)所示:
其中,xj为第j条蜂蜜数据;j=1,2,…,m;
C1)对X*的每一行进行零均值化,其中每一行即各蜂蜜样本在特征下的取值;减去该行即该特征的均值,得到蜂蜜零均值化矩阵X,如式(5)所示:
其中μi为第i个特征对应的平均值;
C2)通过式(7)计算蜂蜜零均值化矩阵X的协方差矩阵,得到n×n的协方差矩阵C:
C3)根据式(8)得到协方差矩阵C的特征值和特征向量:
Cβi=λiβi,i=1,2,...,n (8)
其中,βi为第i个特征向量,λi为第i个特征值且满足:λ1≥λ2≥...≥λn;
C4)特征向量单位化,计算过程如式(9):
其中pi为第i个特征向量的单位向量,此时,满足:
C5)计算特征值λi的贡献率γi,计算方式如式(10):
设定阈值为γ,当前k个特征值的贡献率之和大于等于阈值γ时,取前k个特征值对应的单位特征向量,得到k×n的单位特征向量矩阵Q,表示为式(11):
其中k个主成分即为前k个特征值;
C6)将单位特征向量矩阵Q与蜂蜜零均值化矩阵X相乘,得到降维后k×m的矩阵Y,即k维的油菜蜜数据集D′,表示为式(12):
D:使用梯度提升决策树算法GBDT构建油菜蜜真伪鉴别模型;
对经PCA降维后得到的油菜蜜数据集D′按比例划分为训练集和测试集,进行GBDT模型的训练,然后对GBDT进行参数调整和优化,获得训练好的最优的蜂蜜真伪鉴别模型,记为PCA-GBDT;其中使用网格搜索法进行参数调整和优化;
训练PCA-GBDT模型具体是通过GBDT模型的基学习器的线性组合不断减小训练过程产生的残差,以达到将数据分类的目的;训练过程包括:
首先初始化一个弱学习器,计算此时训练集中每个样本损失函数的负梯度值;
其次利用负梯度值拟合决策树,并求出最佳的负梯度拟合值;
然后使用最佳的负梯度拟合值更新弱学习器,得到第一个强学习器;
再将前一轮得到的强学习器作为本轮初始弱学习器,不断迭代更新,当迭代次数达到设定值时,输出的强学习器为最终的分类器;
GBDT模型训练的计算过程包括:
设油菜蜜训练集样本S=(x1,y1),(x2,y2),…,(xk,yk),…,(xm,ym),其中xk是第k个样本,yk为第k个样本的真伪值;输出为强学习器f(x);
D1)初始化弱学习器f0(x),表示为式(13):
其中,损失函数使用对数似然损失函数L(y,f(x))=log(1+e-yf(x)),y∈{-1,1},y为真实值,即所有油菜蜜训练样本的标签值;f(x)为预测值,初始时f(x)的值c设置为y的均值;
D2)设定迭代次数t=1,2,3,…,T,对油菜蜜样本xi,i=1,2,3,…,m;最大迭代次数为T
D2a)计算得到负梯度误差rti:
D2b)将rti作为样本当前的真实值,拟合得到第t棵决策树ft(x),对应的叶子节点区域为Rtj,j=1,2,3,…,J;每个叶子节点区域对应一个或多个油菜蜜样本;其中J为决策树t的叶子节点数量;
D2c)对每个叶子节点j,计算最佳拟合值的近似值Ctj;
D2d)更新强学习器,表示为式(16):
D3)得到最终的强学习器f(x),表示为式(17):
将新的油菜蜜样本数据代入式(17),可得到分类结果;
即训练得到训练好的油菜蜜蜜真伪鉴别模型;
E:对待鉴别的油菜蜜样品进行NOESY 1D检测,得到待测样品的核磁共振氢信号谱图,并对谱图进行数字化转换,得到反映样品谱图特征的油菜蜜数据,再利用训练好的油菜蜜蜜真伪鉴别模型进行真伪鉴别,实现基于主成分分析和梯度提升决策树的油菜蜜真伪鉴别。
2.如权利要求1所述基于主成分分析和梯度提升决策树的油菜蜜真伪鉴别的方法,其特征是,步骤A生成油菜蜜数据的过程包括:
A1:获取油菜蜜蜂蜜样品,包括采集和制备真蜂蜜和假蜂蜜样品;
采集真实蜂蜜样品;制备掺假蜂蜜样品;所述掺假蜂蜜样品是通过在真实蜂蜜样品中按比例不同来源的糖浆而获得;
A2:采用核磁共振波谱仪对油菜蜜蜂蜜样品进行检测,得到油菜蜜蜂蜜样品的核磁共振氢信号谱图;
A3:对蜂蜜样品的核磁共振氢信号谱图进行数字化和归一化;
对核磁共振氢信号谱图进行等间隔积分并提取核磁数据,选取化学位移在0.53~9.53ppm区间的信号,其中不包含4.78~4.98ppm的水峰信号;并对谱图以设定间隔进行等间隔分段积分,采用峰面积归一化得到样品的分段积分;
由此得到样品的一条数据记录;记录具有的属性值或特征值的分布反映样品核磁共振氢信号谱图的轮廓,即蜂蜜各组分含量分布;得到的一系列具有多个特征的真油菜蜜和假油菜蜜数据记录即构成油菜蜜数据。
3.如权利要求2所述基于主成分分析和梯度提升决策树的油菜蜜真伪鉴别的方法,其特征是,步骤A2具体是使用核磁波谱仪的采集和处理软件VnmrJ 4.2进行相位调整、设定内标物的化学位移原点即内标物TSP,从而得到核磁共振氢信号谱图。
4.如权利要求2所述基于主成分分析和梯度提升决策树的油菜蜜真伪鉴别的方法,其特征是,步骤A3具体是使用核磁数据分析处理辅助软件MestroNova对谱图进行等间隔积分并提取核磁数据;分段积分方法表示为式(1)-(3):
P={P0,P1,P2,…Pi,…PN-2,PN-1} (2)
其中,A为化学位移在0.53~9.53ppm区域内总积分面积;Ai为该积分区域内第i个分段积分面积;N为分段的个数,N取值为176;Pi为归一化后第i个分段积分值。
5.如权利要求1所述基于主成分分析和梯度提升决策树的油菜蜜真伪鉴别的方法,其特征是,步骤B中对油菜蜜数据记录进行真蜂蜜和假蜂蜜标注,具体是真实蜂蜜标注为“0”,掺假蜂蜜标注为“1”。
6.如权利要求1所述基于主成分分析和梯度提升决策树的油菜蜜真伪鉴别的方法,其特征是,步骤C1)中,第i个特征对应的平均值μi的计算过程表示为式(6):
其中,m为油菜蜜蜜数据集D中的数据记录数目。
7.如权利要求1所述基于主成分分析和梯度提升决策树的油菜蜜真伪鉴别的方法,其特征是,步骤D2a)具体是根据式(14)计算得到负梯度误差rti:
步骤D2c)具体是根据式(15)计算得到最佳拟合值的近似值Ctj:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111191163.9A CN113902951B (zh) | 2021-10-13 | 2021-10-13 | 基于主成分分析和梯度提升决策树的油菜蜜真伪鉴别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111191163.9A CN113902951B (zh) | 2021-10-13 | 2021-10-13 | 基于主成分分析和梯度提升决策树的油菜蜜真伪鉴别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113902951A CN113902951A (zh) | 2022-01-07 |
CN113902951B true CN113902951B (zh) | 2024-05-24 |
Family
ID=79191696
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111191163.9A Active CN113902951B (zh) | 2021-10-13 | 2021-10-13 | 基于主成分分析和梯度提升决策树的油菜蜜真伪鉴别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113902951B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023173240A1 (en) * | 2022-03-14 | 2023-09-21 | The Hong Kong Polytechnic University | Method, device and computer readable medium for anomaly detection of a substance |
US11868432B1 (en) | 2022-06-16 | 2024-01-09 | Sichuan University | Method for extracting kansei adjective of product based on principal component analysis and explanation (PCA-E) |
CN115062702B (zh) * | 2022-06-16 | 2023-09-08 | 四川大学 | 基于pca-e的产品感性语义词汇提取方法 |
CN116609672B (zh) * | 2023-05-16 | 2024-05-07 | 国网江苏省电力有限公司淮安供电分公司 | 一种基于改进的bwoa-fnn算法的储能电池soc估计方法 |
CN117853453A (zh) * | 2024-01-10 | 2024-04-09 | 苏州矽行半导体技术有限公司 | 一种基于梯度提升树的缺陷过滤方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105510372A (zh) * | 2016-01-27 | 2016-04-20 | 江苏出入境检验检疫局动植物与食品检测中心 | 建立dpls-bs-uve快速鉴别蜂蜜真假的模型方法 |
CN111122690A (zh) * | 2020-01-06 | 2020-05-08 | 中国检验检疫科学研究院 | 一种皮革真实属性的鉴别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103876734B (zh) * | 2014-03-24 | 2015-09-02 | 北京工业大学 | 一种基于决策树的脑电信号特征选择方法 |
-
2021
- 2021-10-13 CN CN202111191163.9A patent/CN113902951B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105510372A (zh) * | 2016-01-27 | 2016-04-20 | 江苏出入境检验检疫局动植物与食品检测中心 | 建立dpls-bs-uve快速鉴别蜂蜜真假的模型方法 |
CN111122690A (zh) * | 2020-01-06 | 2020-05-08 | 中国检验检疫科学研究院 | 一种皮革真实属性的鉴别方法 |
Non-Patent Citations (1)
Title |
---|
基于近红外光谱和梯度提升决策树建立当归药材及伪品的定性判别模型;拱健婷;李莉;邹慧琴;徐东;王大仟;丛悦;刘长利;;世界科学技术-中医药现代化;20191020(第10期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113902951A (zh) | 2022-01-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113902951B (zh) | 基于主成分分析和梯度提升决策树的油菜蜜真伪鉴别方法 | |
Chen et al. | Assessing the potential for the stomatal characters of extant and fossil Ginkgo leaves to signal atmospheric CO2 change | |
CN105044298B (zh) | 一种基于机器嗅觉的蟹类新鲜度等级检测方法 | |
CN109934269B (zh) | 一种电磁信号的开集识别方法和装置 | |
Peeters et al. | A size analysis of planktic foraminifera from the Arabian Sea | |
CN106568907A (zh) | 一种基于半监督鉴别投影的大闸蟹新鲜度无损检测方法 | |
CN114782838B (zh) | 水稻识别方法、装置、电子设备和存储介质 | |
Herrero-Langreo et al. | Mapping grapevine (Vitis vinifera L.) water status during the season using carbon isotope ratio (δ13C) as ancillary data | |
CN111860576A (zh) | 一种基于随机森林的子宫内膜肿瘤分类标记方法 | |
CN106843941A (zh) | 信息处理方法、装置和计算机设备 | |
Ye et al. | A computerized plant species recognition system | |
CN113887493B (zh) | 一种基于id3算法的黑臭水体遥感影像识别方法 | |
CN113933334B (zh) | 一种基于特征选择和机器学习算法的洋槐蜜真伪鉴别方法 | |
CN110533102A (zh) | 基于模糊推理的单类分类方法以及分类器 | |
CN112235816B (zh) | 一种基于随机森林的wifi信号csi特征提取方法 | |
CN109858521A (zh) | 一种基于人工智能深度学习的竹子种类识别方法 | |
CN113139717A (zh) | 作物苗情分级遥感监测方法及装置 | |
CN110442746B (zh) | 一种基于随机森林算法的智能音乐推送方法及存储介质 | |
CN113657726B (zh) | 基于随机森林的人员的危险性分析方法 | |
Webster et al. | Bayesian spatial modeling of data from avian point count surveys | |
CN114782837A (zh) | 种植物估产方法、装置、电子设备和存储介质 | |
CN115115943A (zh) | 一种基于单期遥感影像的地物信息提取方法 | |
CN110349673B (zh) | 一种基于高斯混合分布的群体体质评估方法 | |
CN114186625A (zh) | 一种基于图像特征融合的木材鉴定方法及系统 | |
Nakajima et al. | Anatomical traits of Cryptomeria japonica tree rings studied by wavelet convolutional neural network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |