CN113902951B - 基于主成分分析和梯度提升决策树的油菜蜜真伪鉴别方法 - Google Patents

基于主成分分析和梯度提升决策树的油菜蜜真伪鉴别方法 Download PDF

Info

Publication number
CN113902951B
CN113902951B CN202111191163.9A CN202111191163A CN113902951B CN 113902951 B CN113902951 B CN 113902951B CN 202111191163 A CN202111191163 A CN 202111191163A CN 113902951 B CN113902951 B CN 113902951B
Authority
CN
China
Prior art keywords
honey
rape
sample
data
true
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111191163.9A
Other languages
English (en)
Other versions
CN113902951A (zh
Inventor
张紫娟
范春林
斗海峰
陈谊
张佳琳
武彩霞
陈辉
郭延迪
孙小然
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chinese Academy of Inspection and Quarantine CAIQ
Beijing Technology and Business University
Original Assignee
Chinese Academy of Inspection and Quarantine CAIQ
Beijing Technology and Business University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chinese Academy of Inspection and Quarantine CAIQ, Beijing Technology and Business University filed Critical Chinese Academy of Inspection and Quarantine CAIQ
Priority to CN202111191163.9A priority Critical patent/CN113902951B/zh
Publication of CN113902951A publication Critical patent/CN113902951A/zh
Application granted granted Critical
Publication of CN113902951B publication Critical patent/CN113902951B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Complex Calculations (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公布了一种基于主成分分析和梯度提升决策树的油菜蜜真伪鉴别方法,包括:采集和制备真假蜂蜜样品并生成蜂蜜数据、对蜂蜜数据记录进行真假标注得到油菜蜜数据集、使用主成分分析法PCA对油菜蜜数据集降维、使用梯度提升决策树算法GBDT构建油菜蜜真伪鉴别模型并评估模型的有效性、利用油菜蜜真伪鉴别模型对待测蜂蜜进行真伪鉴别。本发明方法有效提高均方根误差和AUC值,降低了数据特征维数、模型训练时间和模型复杂度,可有效精准地鉴别油菜蜜的真伪,避免了人工查看谱图进行真伪鉴别的误差,提升油菜蜜真伪鉴别的准确率。

Description

基于主成分分析和梯度提升决策树的油菜蜜真伪鉴别方法
技术领域
本发明涉及蜂蜜真伪鉴别技术,尤其涉及一种基于主成分分析和梯度提升决策树的油菜蜜真伪鉴别方法
背景技术
蜂蜜是蜜蜂从开花植物的花中采得花蜜在蜂巢中经过充分酿造而成的天然甜物质,其气味清香浓郁,味道纯真甜美。蜂蜜是一种糖类为主的天然食品,葡萄糖和果糖为其主要成分,可以被人体直接吸收,而不需要酶的分解,也是最常用的滋补品之一,深受消费者喜爱。
但是,蜂蜜的成分复杂,且组分含量与蜜源植物种类,花期,气候以及存贮加工工艺等相关,目前国内对蜂蜜的真伪判别,主要采用食品安全国家标准GB/T18932.1-2002和GB/T 18932.2-2002,使用靶向检测技术,如质谱或色谱技术,对蜂蜜的掺入物的特征组分进行判定。然而,造假者可以对标准中的检测项目,有组织地进行规避,故目前的国家标准已不能满足现阶段蜂蜜掺假或混配的检测,急需开发和建立基于机器学习的蜂蜜真伪鉴别的有效方法。
核磁共振氢谱检测技术作为非靶向检测技术,对蜂蜜样品有机组分中的氢元素进行检测,采集蜂蜜样品有机组分中氢元素的整体信号,可以反映出各有机组分的含量。外源物质掺入的蜂蜜样品,其核磁共振氢信号谱图的整体形貌会发生变化,比如糖浆的掺入会引起糖区信号的相对增加,与真实蜂蜜的谱图产生差异,借助人工智能机器学习方法去学习真蜂蜜和掺假蜂蜜的谱图特征,进而实现真假蜂蜜的判别,可以有效地检测蜂蜜中是否掺入糖浆。
发明内容
本发明提供一种基于主成分分析和梯度提升决策树的油菜蜜真伪鉴别方法(下文中提到的蜂蜜和样品均为油菜蜜)。该方法主要包括:采集和制备真假蜂蜜样品并生成蜂蜜数据、对蜂蜜数据记录进行真假标注得到油菜蜜数据集、使用主成分分析法(PCA)对油菜蜜数据集降维、使用梯度提升决策树算法(GBDT)构建油菜蜜真伪鉴别模型并评估模型的有效性;之后就可以利用该模型对待测蜂蜜进行真伪鉴别。
针对上述目的,本发明技术方案是:
一种基于主成分分析和梯度提升决策树的油菜蜜真伪鉴别方法,该方法包含下列步骤:
A:采集和制备真假蜂蜜样品并生成油菜蜜数据。
本方法中蜂蜜数据获取主要通过核磁共振技术,对蜂蜜样品进行NOESY 1D检测,得到检测样品的核磁共振氢信号谱图,进而对谱图进行数字化转换,得到反映样品谱图特征的油菜蜜数据。具体方法如下:
A1:采集和制备真假蜂蜜样品。直接从蜂场,按照事先制定的程序,采集真实蜂蜜样品若干;制备掺假蜂蜜样品若干,掺假蜂蜜样品主要是通过在真实蜂蜜样品中添加一定比例的不同来源的糖浆而获得,比例一般在10%~90%之间。
A2:采用核磁共振波谱仪对真假蜂蜜样品进行检测,得到蜂蜜样品的核磁共振氢信号谱图。谱图使用核磁波谱仪的采集和处理软件VnmrJ 4.2进行相位调整、设定内标物的化学位移原点(内标物TSP)得到。谱图的形状反映了被测样品所含组分及其含量,是鉴别蜂蜜真伪的重要依据。
A3:对蜂蜜样品的核磁共振氢信号谱图进行数字化和归一化。使用核磁数据分析处理辅助软件MestroNova 11.0对谱图进行等间隔积分并提取核磁数据,选取化学位移在0.53~9.53ppm(不包含4.78~4.98ppm的水峰信号)区间的信号,并对谱图以0.05ppm为间隔进行等间隔分段积分,采用峰面积归一化得到样品的分段积分。分段积分的方法如公式(1)-(3):
P={P0,P1,P2,···Pi,···PN-2,PN-1} (2)
其中,A为化学位移在0.53~9.53ppm区域内总积分面积;Ai为该积分区域内第i个分段积分面积;N为分段的个数,本发明具体实施时取值为176;Pi为归一化后第i个分段积分值。
由此得到代表该样品的一条数据记录,该记录具有176个属性值或特征值,这些特征值的分布反映了该样品核磁共振氢信号谱图的轮廓,即蜂蜜各组分含量分布。对每一个油菜蜜样品进行上述步骤,得到一系列具有176个特征的真假油菜蜜数据记录,即油菜蜜数据。
B:对油菜蜜数据记录进行真假标注得到油菜蜜数据集。
对步骤A中得到的油菜蜜数据中的每一条记录添加真假标签,真实蜂蜜标注“0”,掺假蜂蜜标注“1”。最后为了在实际测试中更加方便地使用数据,给每一条记录按照一定规则再添加一个样本名称,故此时得到具有176+2=178维的油菜蜜数据集,记为D。
C:使用主成分分析法(PCA)对油菜蜜数据集D降维。
使用PCA对油菜蜜数据集D进行降维(不包括真假标注维和样本名称维),降维维度按照一定的方差比例确定。首先对油菜蜜数据集D进行规范化,使得该数据中每一特征的取值平均值为0,方差为1;其次将规范化后的数据通过正交变换,得到由多个线性无关的新特征表示的数据;再将新特征按照方差大小进行排序,并将排序后的特征依次称为第一主成分、第二主成分等;计算每个特征的贡献率,当前k个特征的贡献率之和大于等于给定阈值时,前k个特征即为最终的特征集合,得到k维的油菜蜜数据集D′。
采用主成分分析方法对油菜蜜数据集D进行计算的过程:假设油菜蜜蜜数据集D中有m条数据,n个特征,组成n×m蜂蜜数据矩阵X*,如式(4)所示:
其中xj(j=1,2,…,m)为第j条蜂蜜数据。
(1)对X*的每一行进行零均值化(每一行即各蜂蜜样本在该特征下的取值),即减去该行(该特征)的均值,得到蜂蜜零均值化矩阵X,如式(5)所示。
其中μi为第i个特征对应的平均值,计算过程如式(6):
(2)计算蜂蜜零均值化矩阵X的协方差矩阵,得到n×n的协方差矩阵C,计算过程如式(7)所示:
(3)根据式(8)得到协方差矩阵C的特征值和特征向量:
i=λiβi,i=1,2,...,n (8)
其中,βi为第i个特征向量,λi为第i个特征值且满足:λ1≥λ2≥...≥λn
(4)特征向量单位化,计算过程如式(9):
其中pi为第i个特征向量的单位向量,此时,满足:
(5)计算特征值λi的贡献率γi,计算方式如式(10)所示。假定阈值为γ(为了保证保留足够的方差信息,一般γ≧90%),当前k个特征值的贡献率之和大于等于给定阈值γ时,取前k个特征值对应的单位特征向量得到k×n的单位特征向量矩阵Q,如式(11),其中前面所述的k个主成分即为取到的k个特征值。
(6)将单位特征向量矩阵Q与蜂蜜零均值化矩阵X相乘得到降维后k×m的矩阵Y,即k维的油菜蜜数据集D′,如式(12)。
D:使用梯度提升决策树算法(GBDT)构建油菜蜜真伪鉴别模型。
对经PCA降维后得到的油菜蜜数据集D′按一定比例划分为训练集和测试集,进行GBDT模型的训练和参数优化,获得训练好的最优的蜂蜜真伪鉴别模型(记为PCA-GBDT)。
GBDT模型具体通过基学习器的线性组合,不断减小训练过程产生的残差来达到将数据分类的目的。首先初始化一个弱学习器,计算此时训练集中每个样本损失函数的负梯度值;其次利用负梯度值拟合一棵决策树,并求出最佳的负梯度拟合值;然后使用最佳的负梯度拟合值来更新弱学习器,得到第一个强学习器。将前一轮得到的强学习器作为本轮初始弱学习器,按上述步骤不断迭代更新,当迭代次数达到给定的值时,输出的强学习器为最终的分类器。
GBDT模型训练的具体计算过程如下:
假设油菜蜜训练集样本S=(x1,y1),(x2,y2),…,(xk,yk),…,(xm,ym),其中xk是第k个样本,yk为第k个样本的真伪值(即0或者1),最大迭代次数为T,损失函数L,输出是强学习器f(x)。同时,设置训练时的学习率(learning_rate)、训练样本的子采样比例(subsample)、决策树的最大叶子节点数(num_leaves)等参数,上述参数及最大迭代次数T均由参数优化最终确定。
(1)初始化弱学习器f0(x),表示为式(13)。其中,由于本鉴别方法为二元分类,故损失函数使用对数似然损失函数L(y,f(x))=log(1+e-yf(x)),其中y∈{-1,1},y为真实值,f(x)为预测值,初始时f(x)的值c设置为y(所有油菜蜜训练样本的标签值)的均值。
(2)对迭代次数t(t=1,2,3,…,T)有:
(2a):对油菜蜜样本xi(i=1,2,3,…,m),根据式(14)计算负梯度误差rti
(2b):将(2a)中得到的rti作为样本当前的真实值,拟合得到第t棵决策树ft(x),其对应的叶子节点区域为Rtj,j=1,2,3,…,J,每个叶子节点区域对应的是一个或多个油菜蜜样本。其中J为决策树t的叶子节点数量。
(2c):对每个叶子节点j,计算最佳拟合值的近似值Ctj,如式(15):
(2d):更新强学习器,如式(16):
(3)得到最终的强学习器f(x),如式(17)。对于新的油菜蜜样本,将其数据代入式(17),即可得到分类结果:
参数优化使用scikit-learn的GridSearchCV方法实现,以对数损失函数(LogLoss)为模型评判标准获得最优参数。本方法中主要优化的参数包括:
(1)决策树的个数或最大的迭代次数(n_estimators),即式(17)中的T;
(2)训练每棵树时数据的采样率,即子采样率(subsample),以有效减小油菜蜜样本在拟合决策树时的方差和防止过拟合;
(3)决策树的最大叶子数(num_leaves),即步骤(2b)中所述J;
(4)学习率(learning_rate),控制每棵决策树(弱分类器)对整体的影响。
E:对待鉴别的油菜蜜样品进行NOESY 1D检测,得到待测样品的核磁共振氢信号谱图,并对谱图进行数字化转换,得到反映样品谱图特征的油菜蜜数据,再利用训练好的油菜蜜蜜真伪鉴别模型进行真伪鉴别。
与现有技术相比,本发明的有益效果是:
本发明提出了一种基于主成分分析和梯度提升决策树(GBDT)的油菜蜜真伪鉴别方法。首先采集蜂蜜并制作真实蜂蜜和掺糖浆的假蜂蜜样品;然后使用核磁共振技术获取蜂蜜样品的核磁共振氢信号谱图,并将谱图数字化为176维的特征向量;进而使用PCA方法保留一定的方差比例进行降维,以降低GBDT模型训练的复杂度;最后用已标注真假的蜂蜜数据对GBDT模型进行训练,得到结果GBDT模型,用于对新检测的油菜蜜进行真伪判别。与现有方法相比,本发明方法可以有效精准的鉴别油菜蜜的真伪,避免了人工查看谱图进行真伪鉴别的误差。综合使用核磁共振技术、主成分分析和梯度提升决策树GBDT模型,有效提高了油菜蜜真伪鉴别的准确率、均方根误差和AUC值,降低了数据特征维数、模型训练时间和模型复杂度,是一种鉴别油菜蜜真伪的有效方法。
附图说明
图1是本发明方法的整体流程框图
图2(a)为本发明实施例中NOESY 1D(0.5-9.5ppm)检测结果谱图。图2(b)为区间在0.5-3ppm,纵坐标放大500倍的放大图;图2(c)为区间在6-9.5ppm,纵坐标放大1000倍的放大图。
图3是本发明实施例中对油菜蜜数据集D进行主成分分析之后特征的累计贡献率变化趋势图
具体实施方式
下面结合附图,通过实施例进一步描述本发明。但不以任何方式限制本发明的范围。
本发明提出了一种基于主成分分析和梯度提升决策树的油菜蜜真伪鉴别方法。首先采集和制备真假蜂蜜样品并生成蜂蜜数据集,其次对蜂蜜数据记录进行真假标注得到油菜蜜数据集,然后使用主成分分析法(PCA)对油菜蜜数据集降维,最后使用梯度提升决策树(GBDT)构建PCA-GBDT蜂蜜真伪鉴别模型,基于模型对待测蜂蜜样本进行鉴别。本方法主要针对采集的油菜蜜样品进行测试,此方法综合了核磁共振技术、主成分分析和梯度提升决策树,能够快速高效方便的鉴别油菜蜜样品的真伪性。方法流程如图1所示。
本发明中涉及到的仪器设备及试剂如下:
(1)仪器设备:安捷伦公司Agilent DD2 600MHz核磁共振波谱仪配有5mm二合一宽带OneNMR探头,7510自动进样器;默克化工技术有限公司Merck产Milli-Q Integral超纯水系统;梅特勒-托利多Mettler Toledo的XS104天平和FiveEasy Plus pH计;北京博宇宝卫实验设备公司THZ-82A型恒温水浴振荡器;日本AS ONE TRIO TM-1N涡旋振荡器;德国艾本德Eppendorf公司200μL和1000μL可调节移液器;美国诺雷尔Norell公司5mm核磁管。
(2)试剂:分析纯磷酸二氢钾和氢氧化钾,购自西陇化工股份有限公司;99.9%氘代的重水和98%氘代的2,2,3,3-氘代三甲基硅烷丙酸钠(TSP)购自美国CambridgeIsotope Laboratories;叠氮钠购自MPM biological technology Co.Ltd.;分析纯磷酸购自美国西格玛阿德里齐(Sigma-Aldrich)公司。
本发明具体实施例的操作步骤为:
A:采集和制备真假蜂蜜样品并生成油菜蜜数据
A1:采集和制备真假蜂蜜样品。按照制定的程序从蜂场采集200个真实蜂蜜样品,对其中100个蜂蜜样品添加一定比例的不同来源的糖浆制成糖浆掺假蜂蜜样品,糖浆掺假比例在10%~90%不等。剩余100个蜂蜜样品作为真实蜂蜜样品;
A2:对真假蜂蜜样品采用核磁共振波谱仪进行检测,得到蜂蜜样品的核磁共振氢信号谱图。谱图使用核磁波谱仪的采集和处理软件VnmrJ 4.2进行相位调整和设定内标物TSP得到,其中变化点数设置为64K,线宽因子设置为0.3Hz,设定内标物TSP的峰为0.00ppm进行化学位移定标;
A3:对油菜蜜样品的核磁共振氢信号谱图进行数字化和归一化处理。使用核磁数据分析处理辅助软件MestroNova 11.0对谱图进行等间隔积分并提取核磁数据,选取化学位移在0.53~9.53ppm(不包含4.78~4.98ppm的水峰信号)区间的信号,以0.05ppm为间隔进行等间隔分段积分,采用峰面积归一化得到样品的分段积分。提取的每个样品数据包含176维属性值或特征值,由此得到代表该油菜蜜样品的数据记录,该记录具有176个特征值,这些特征值的分布反映了该样品核磁共振氢信号谱图的轮廓,即蜂蜜各组分含量分布。
对每一个真假油菜蜜样品进行A2,A3步骤,得到一系列具有176个特征的真假油菜蜜数据记录,即油菜蜜数据,从而实现样品检测数据的数字化。在本实施例中共获得100条真实油菜蜜数据记录和100条掺假油菜蜜数据记录组成200条油菜蜜数据。
B:对油菜蜜数据记录进行真假标注得到油菜蜜数据集
分别对真实蜂蜜和掺假蜂蜜数据记录添加真假标签,对每一条真实蜂蜜数据添加标签,标记为数值“0”,对每一条糖浆掺假蜂蜜数据添加标签,标记为数值“1”,标签特征名记为“result”,即对于真实蜂蜜设定其result=0,掺假蜂蜜设定其result=1。其次为了在实际测试中更加方便地使用数据,对每一条数据按照一定规则添加了样本名称(sampleName)。此时得到200×178的油菜蜜数据集D,如表1所示,该数据是经过核磁共振和分段积分,并已标注真假标签和添加了样本名称的部分数据。其每一行为特定样品的特征(积分段)描述,每一列(除sampleName和result)是不同的样品中特定化学位移区间的归一化后的积分面积。
表1油菜蜜数据集D(部分)
1 2 3 4 173 174 175 176
sampleName result 0.53-0.58 0.58-0.63 0.63-0.68 0.68-0.73 9.33-9.38 9.38-9.43 9.43-9.48 9.48-9.53
001R 0 0.003313869 0.006494182 0.006787419 0.005728609 -0.00079329 0.001866126 -0.00123919 0.000608956
051R 0 0.002013378 -0.00198896 0.0015636 0.003106756 -0.00011516 0.004121909 -0.00112646 0.001833055
052R 0 -0.00581904 -0.00317804 -0.00872074 -0.00195171 -0.00284376 -0.00071118 -0.00334178 -0.00309494
053R 0 -0.00387749 -0.00630714 -0.00363571 -0.00155817 -0.004329 -0.00569407 -0.00418908 -0.00458526
054R 0 0.000895155 0.000645008 0.000596389 0.002487297 -0.0022927 -0.00469504 -0.00328826 -0.0012771
001R_H04_10 1 0.001661179 -0.00032964 0.003065126 0.004724401 -0.00139588 -0.00280657 -0.00491048 -0.00412981
051R_H04_10 1 -0.00937495 -0.00694828 -0.0082971 -0.00897548 -0.00245339 -0.00383869 -0.0033809 -0.0031896
052R_H04_10 1 -0.0029709 -0.00413827 -0.00354084 -0.00155589 -0.0009939 -0.00489534 -0.00554901 -0.00158525
053R_H04_10 1 -0.00057202 0.001629597 0.001492077 0.002708676 -0.00468328 -0.0024162 -0.00509602 -0.00472317
054R_H04_10 1 0.001940059 0.001873965 0.003028317 0.002668439 -0.00425949 -0.00289033 -0.00544729 -0.00558976
C:使用主成分分析法PCA对油菜蜜数据集D降维。
使用PCA对具有176维(不包括真假标注维和样本名称维)的油菜蜜数据集进行降维,降维维度按照一定的方差比例确定。
表2前9个主成分累计贡献率
根据PCA计算过程,首先对该矩阵的每一行进行零均值化得到新的矩阵X,然后对新矩阵求协方差矩阵C,求出协方差矩阵C的特征值和特征向量,并对特征向量进行单位化,对特征值进行降序排序,取前k个特征值对应的特征向量,得到降维后的油菜蜜数据。实际计算过程中得到k个主成分,且排序之后前面的主成分所包含的数据信息大于后面主成分所包含的信息。选取k值时根据各个主成分累计贡献的大小选取,也即保留的方差信息比例。在本实施例中保留了99%的方差信息,也即k个主成分的累计贡献率大于等于99%时的k值。对油菜蜜数据集D进行主成分分析之后,当k=9时,累计贡献率达到99.236%(保留三位有效数字),得到9维的油菜蜜数据集D′,前9个主成分的累计贡献率如表2,累计贡献率变化趋势如图3所示。
D:构建油菜蜜真伪鉴别模型。
使用梯度提升决策树算法(GBDT)构建油菜蜜真伪鉴别模型。
对经PCA降维后得到的油菜蜜数据集D′按一定比例划分为训练集和测试集,进行GBDT模型的训练,然后对GBDT进行参数调整和优化,获得训练好的最优的蜂蜜真伪鉴别模型(记为PCA-GBDT),其中参数调整和优化使用网格搜索法。
GBDT模型具体通过基学习器的线性组合,不断减小训练过程产生的残差来达到将数据分类的目的。首先初始化一个弱学习器,计算此时训练集中每个样本损失函数的负梯度值;其次利用负梯度值拟合一棵决策树,并求出最佳的负梯度拟合值;然后使用最佳的负梯度拟合值来更新弱学习器,得到第一个强学习器。将前一轮得到的强学习器作为本轮初始弱学习器,按上述步骤不断迭代更新,当迭代次数达到给定的值时,输出的强学习器为最终的分类器。
GBDT模型训练的具体计算过程如下:
对于油菜蜜训练集样本S=(x1,y1),(x2,y2),…,(xk,yk),…,(xm,ym),其中xk是第k个样本,yk为第k个样本的真伪值(即0或者1),最大迭代次数为T,损失函数L,输出是强学习器f(x)。
(1)初始化弱学习器f0(x),表示为式(13)。其中,由于本鉴别方法为二元分类,故损失函数使用对数似然损失函数L(y,f(x))=log(1+e-yf(x)),其中y∈{-1,1},y为真实值,f(x)为预测值,初始时f(x)的值c设置为y(所有油菜蜜训练样本的标签值)的均值。
(2)对迭代次数t=1,2,3,…,T,有:
(2a):对油菜蜜样本xi(i=1,2,3,…,m),根据式(14)计算负梯度误差rti:
(2b):将(2a)中得到的rti作为样本当前的真实值,拟合得到第t棵决策树ft(x),其对应的叶子节点区域为Rtj,j=1,2,3,…,J,每个叶子节点区域对应的是一个或多个油菜蜜样本。其中J为分类树t的叶子节点数量。
(2c):对每个叶子节点j,计算最佳拟合值的近似值Ctj,如式(15):
(2d):更新强学习器,如式(16):
(3)得到最终的强学习器f(x),如式(17)。对于新的油菜蜜样本,将其数据代入式(17),即可得到分类结果:
将数据集D′按9:1的比例划分为训练集和测试集,进行模型的训练和参数优化,使用GridSearchCV进行参数优化。确定分类树的个数(estimators)、样本采样比例(subsample)、分类树的最大叶子树(num_leaves)和学习率(learning_rate)。对上述参数的取值范围设置如表3所示,经过GridSearchCV优化后最佳参数取值如表4所示:
表3 GBDT算法参数取值范围
表4网格优化最佳参数取值
在优化后的模型中使用本实施例中的油菜蜜数据集D′准确率达到95%。为了体现PCA-GBDT方法的优势,使用支持向量机(SVM)和决策树(DT)算法对同样的油菜蜜数据进行预测,其测试准确率(Accuracy)、均方根误差(RMSE)和AUC值对比如表5所示。从表中可以看到,在油菜蜜测试数据集D上本发明方法PCA-GBDT的准确率和AUC值均高于SVM和DT算法,RMSE均低于SVM和DT,可以看到PCA-GBDT方法优于SVM和DT方法。
表5测试集实验结果对比
对待鉴别的油菜蜜样品进行NOESY 1D检测,得到待测样品的核磁共振氢信号谱图,并对谱图进行数字化转换,得到反映样品谱图特征的油菜蜜数据,并使用PCA进行降维,再利用训练好的油菜蜜真伪鉴别模型可以进行有效的真伪鉴别。
需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附权利要求的范围内,各种替换和修改都是可能的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。

Claims (7)

1.一种基于主成分分析和梯度提升决策树的油菜蜜真伪鉴别方法,包括:采集和制备真假蜂蜜样品并生成蜂蜜数据、对蜂蜜数据记录进行真假标注得到油菜蜜数据集、使用主成分分析法PCA对油菜蜜数据集降维、使用梯度提升决策树算法GBDT构建油菜蜜真伪鉴别模型并评估模型的有效性、利用油菜蜜真伪鉴别模型对待测蜂蜜进行真伪鉴别;包括下列具体步骤:
A:采集和制备真假蜂蜜样品,并生成油菜蜜数据;
通过核磁共振技术获取蜂蜜数据:对蜂蜜样品进行NOESY 1D检测,得到检测样品的核磁共振氢信号谱图;再对核磁共振氢信号谱图进行数字化转换,得到反映样品谱图特征的油菜蜜数据;
油菜蜜数据的一条记录包括反映油菜蜜样品核磁共振氢信号谱图的轮廓即蜂蜜各组分含量分布的176个属性值或特征值;
B:对油菜蜜数据记录进行真假蜂蜜标注,得到油菜蜜数据集;
对步骤A中得到的油菜蜜数据中的每一条记录添加真假标签,即真假标注维;再给每一条记录按照添加样本名称,即样本名称维;得到具有178维的油菜蜜数据集,记为D;
C:使用主成分分析法PCA对油菜蜜数据集D降维;
使用PCA对油菜蜜数据集D进行降维;降维不包括真假标注维和样本名称维;降维维度按照方差比例确定;首先对油菜蜜数据集D进行规范化,使得数据中每一特征的取值平均值为0,方差为1;其次将规范化后的数据通过正交变换,得到由多个线性无关的新特征表示的数据;再将新特征按照方差大小进行排序,并将排序后的特征依次称为第一主成分、第二主成分等;计算每个特征的贡献率,当前k个特征的贡献率之和大于等于设定阈值时,前k个特征即为最终的特征集合,得到k维的油菜蜜数据集D′;
具体地,采用主成分分析方法对油菜蜜数据集D进行计算的过程包括如下步骤:
假设油菜蜜蜜数据集D中有m条数据,n个特征,组成n×m蜂蜜数据矩阵X*,如式(4)所示:
其中,xj为第j条蜂蜜数据;j=1,2,…,m;
C1)对X*的每一行进行零均值化,其中每一行即各蜂蜜样本在特征下的取值;减去该行即该特征的均值,得到蜂蜜零均值化矩阵X,如式(5)所示:
其中μi为第i个特征对应的平均值;
C2)通过式(7)计算蜂蜜零均值化矩阵X的协方差矩阵,得到n×n的协方差矩阵C:
C3)根据式(8)得到协方差矩阵C的特征值和特征向量:
i=λiβi,i=1,2,...,n (8)
其中,βi为第i个特征向量,λi为第i个特征值且满足:λ1≥λ2≥...≥λn
C4)特征向量单位化,计算过程如式(9):
其中pi为第i个特征向量的单位向量,此时,满足:
C5)计算特征值λi的贡献率γi,计算方式如式(10):
设定阈值为γ,当前k个特征值的贡献率之和大于等于阈值γ时,取前k个特征值对应的单位特征向量,得到k×n的单位特征向量矩阵Q,表示为式(11):
其中k个主成分即为前k个特征值;
C6)将单位特征向量矩阵Q与蜂蜜零均值化矩阵X相乘,得到降维后k×m的矩阵Y,即k维的油菜蜜数据集D′,表示为式(12):
D:使用梯度提升决策树算法GBDT构建油菜蜜真伪鉴别模型;
对经PCA降维后得到的油菜蜜数据集D′按比例划分为训练集和测试集,进行GBDT模型的训练,然后对GBDT进行参数调整和优化,获得训练好的最优的蜂蜜真伪鉴别模型,记为PCA-GBDT;其中使用网格搜索法进行参数调整和优化;
训练PCA-GBDT模型具体是通过GBDT模型的基学习器的线性组合不断减小训练过程产生的残差,以达到将数据分类的目的;训练过程包括:
首先初始化一个弱学习器,计算此时训练集中每个样本损失函数的负梯度值;
其次利用负梯度值拟合决策树,并求出最佳的负梯度拟合值;
然后使用最佳的负梯度拟合值更新弱学习器,得到第一个强学习器;
再将前一轮得到的强学习器作为本轮初始弱学习器,不断迭代更新,当迭代次数达到设定值时,输出的强学习器为最终的分类器;
GBDT模型训练的计算过程包括:
设油菜蜜训练集样本S=(x1,y1),(x2,y2),…,(xk,yk),…,(xm,ym),其中xk是第k个样本,yk为第k个样本的真伪值;输出为强学习器f(x);
D1)初始化弱学习器f0(x),表示为式(13):
其中,损失函数使用对数似然损失函数L(y,f(x))=log(1+e-yf(x)),y∈{-1,1},y为真实值,即所有油菜蜜训练样本的标签值;f(x)为预测值,初始时f(x)的值c设置为y的均值;
D2)设定迭代次数t=1,2,3,…,T,对油菜蜜样本xi,i=1,2,3,…,m;最大迭代次数为T
D2a)计算得到负梯度误差rti
D2b)将rti作为样本当前的真实值,拟合得到第t棵决策树ft(x),对应的叶子节点区域为Rtj,j=1,2,3,…,J;每个叶子节点区域对应一个或多个油菜蜜样本;其中J为决策树t的叶子节点数量;
D2c)对每个叶子节点j,计算最佳拟合值的近似值Ctj
D2d)更新强学习器,表示为式(16):
D3)得到最终的强学习器f(x),表示为式(17):
将新的油菜蜜样本数据代入式(17),可得到分类结果;
即训练得到训练好的油菜蜜蜜真伪鉴别模型;
E:对待鉴别的油菜蜜样品进行NOESY 1D检测,得到待测样品的核磁共振氢信号谱图,并对谱图进行数字化转换,得到反映样品谱图特征的油菜蜜数据,再利用训练好的油菜蜜蜜真伪鉴别模型进行真伪鉴别,实现基于主成分分析和梯度提升决策树的油菜蜜真伪鉴别。
2.如权利要求1所述基于主成分分析和梯度提升决策树的油菜蜜真伪鉴别的方法,其特征是,步骤A生成油菜蜜数据的过程包括:
A1:获取油菜蜜蜂蜜样品,包括采集和制备真蜂蜜和假蜂蜜样品;
采集真实蜂蜜样品;制备掺假蜂蜜样品;所述掺假蜂蜜样品是通过在真实蜂蜜样品中按比例不同来源的糖浆而获得;
A2:采用核磁共振波谱仪对油菜蜜蜂蜜样品进行检测,得到油菜蜜蜂蜜样品的核磁共振氢信号谱图;
A3:对蜂蜜样品的核磁共振氢信号谱图进行数字化和归一化;
对核磁共振氢信号谱图进行等间隔积分并提取核磁数据,选取化学位移在0.53~9.53ppm区间的信号,其中不包含4.78~4.98ppm的水峰信号;并对谱图以设定间隔进行等间隔分段积分,采用峰面积归一化得到样品的分段积分;
由此得到样品的一条数据记录;记录具有的属性值或特征值的分布反映样品核磁共振氢信号谱图的轮廓,即蜂蜜各组分含量分布;得到的一系列具有多个特征的真油菜蜜和假油菜蜜数据记录即构成油菜蜜数据。
3.如权利要求2所述基于主成分分析和梯度提升决策树的油菜蜜真伪鉴别的方法,其特征是,步骤A2具体是使用核磁波谱仪的采集和处理软件VnmrJ 4.2进行相位调整、设定内标物的化学位移原点即内标物TSP,从而得到核磁共振氢信号谱图。
4.如权利要求2所述基于主成分分析和梯度提升决策树的油菜蜜真伪鉴别的方法,其特征是,步骤A3具体是使用核磁数据分析处理辅助软件MestroNova对谱图进行等间隔积分并提取核磁数据;分段积分方法表示为式(1)-(3):
P={P0,P1,P2,…Pi,…PN-2,PN-1} (2)
其中,A为化学位移在0.53~9.53ppm区域内总积分面积;Ai为该积分区域内第i个分段积分面积;N为分段的个数,N取值为176;Pi为归一化后第i个分段积分值。
5.如权利要求1所述基于主成分分析和梯度提升决策树的油菜蜜真伪鉴别的方法,其特征是,步骤B中对油菜蜜数据记录进行真蜂蜜和假蜂蜜标注,具体是真实蜂蜜标注为“0”,掺假蜂蜜标注为“1”。
6.如权利要求1所述基于主成分分析和梯度提升决策树的油菜蜜真伪鉴别的方法,其特征是,步骤C1)中,第i个特征对应的平均值μi的计算过程表示为式(6):
其中,m为油菜蜜蜜数据集D中的数据记录数目。
7.如权利要求1所述基于主成分分析和梯度提升决策树的油菜蜜真伪鉴别的方法,其特征是,步骤D2a)具体是根据式(14)计算得到负梯度误差rti
步骤D2c)具体是根据式(15)计算得到最佳拟合值的近似值Ctj
CN202111191163.9A 2021-10-13 2021-10-13 基于主成分分析和梯度提升决策树的油菜蜜真伪鉴别方法 Active CN113902951B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111191163.9A CN113902951B (zh) 2021-10-13 2021-10-13 基于主成分分析和梯度提升决策树的油菜蜜真伪鉴别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111191163.9A CN113902951B (zh) 2021-10-13 2021-10-13 基于主成分分析和梯度提升决策树的油菜蜜真伪鉴别方法

Publications (2)

Publication Number Publication Date
CN113902951A CN113902951A (zh) 2022-01-07
CN113902951B true CN113902951B (zh) 2024-05-24

Family

ID=79191696

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111191163.9A Active CN113902951B (zh) 2021-10-13 2021-10-13 基于主成分分析和梯度提升决策树的油菜蜜真伪鉴别方法

Country Status (1)

Country Link
CN (1) CN113902951B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023173240A1 (en) * 2022-03-14 2023-09-21 The Hong Kong Polytechnic University Method, device and computer readable medium for anomaly detection of a substance
US11868432B1 (en) 2022-06-16 2024-01-09 Sichuan University Method for extracting kansei adjective of product based on principal component analysis and explanation (PCA-E)
CN115062702B (zh) * 2022-06-16 2023-09-08 四川大学 基于pca-e的产品感性语义词汇提取方法
CN116609672B (zh) * 2023-05-16 2024-05-07 国网江苏省电力有限公司淮安供电分公司 一种基于改进的bwoa-fnn算法的储能电池soc估计方法
CN117853453A (zh) * 2024-01-10 2024-04-09 苏州矽行半导体技术有限公司 一种基于梯度提升树的缺陷过滤方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105510372A (zh) * 2016-01-27 2016-04-20 江苏出入境检验检疫局动植物与食品检测中心 建立dpls-bs-uve快速鉴别蜂蜜真假的模型方法
CN111122690A (zh) * 2020-01-06 2020-05-08 中国检验检疫科学研究院 一种皮革真实属性的鉴别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103876734B (zh) * 2014-03-24 2015-09-02 北京工业大学 一种基于决策树的脑电信号特征选择方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105510372A (zh) * 2016-01-27 2016-04-20 江苏出入境检验检疫局动植物与食品检测中心 建立dpls-bs-uve快速鉴别蜂蜜真假的模型方法
CN111122690A (zh) * 2020-01-06 2020-05-08 中国检验检疫科学研究院 一种皮革真实属性的鉴别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于近红外光谱和梯度提升决策树建立当归药材及伪品的定性判别模型;拱健婷;李莉;邹慧琴;徐东;王大仟;丛悦;刘长利;;世界科学技术-中医药现代化;20191020(第10期);全文 *

Also Published As

Publication number Publication date
CN113902951A (zh) 2022-01-07

Similar Documents

Publication Publication Date Title
CN113902951B (zh) 基于主成分分析和梯度提升决策树的油菜蜜真伪鉴别方法
Chen et al. Assessing the potential for the stomatal characters of extant and fossil Ginkgo leaves to signal atmospheric CO2 change
CN105044298B (zh) 一种基于机器嗅觉的蟹类新鲜度等级检测方法
CN109934269B (zh) 一种电磁信号的开集识别方法和装置
Peeters et al. A size analysis of planktic foraminifera from the Arabian Sea
CN106568907A (zh) 一种基于半监督鉴别投影的大闸蟹新鲜度无损检测方法
CN114782838B (zh) 水稻识别方法、装置、电子设备和存储介质
Herrero-Langreo et al. Mapping grapevine (Vitis vinifera L.) water status during the season using carbon isotope ratio (δ13C) as ancillary data
CN111860576A (zh) 一种基于随机森林的子宫内膜肿瘤分类标记方法
CN106843941A (zh) 信息处理方法、装置和计算机设备
Ye et al. A computerized plant species recognition system
CN113887493B (zh) 一种基于id3算法的黑臭水体遥感影像识别方法
CN113933334B (zh) 一种基于特征选择和机器学习算法的洋槐蜜真伪鉴别方法
CN110533102A (zh) 基于模糊推理的单类分类方法以及分类器
CN112235816B (zh) 一种基于随机森林的wifi信号csi特征提取方法
CN109858521A (zh) 一种基于人工智能深度学习的竹子种类识别方法
CN113139717A (zh) 作物苗情分级遥感监测方法及装置
CN110442746B (zh) 一种基于随机森林算法的智能音乐推送方法及存储介质
CN113657726B (zh) 基于随机森林的人员的危险性分析方法
Webster et al. Bayesian spatial modeling of data from avian point count surveys
CN114782837A (zh) 种植物估产方法、装置、电子设备和存储介质
CN115115943A (zh) 一种基于单期遥感影像的地物信息提取方法
CN110349673B (zh) 一种基于高斯混合分布的群体体质评估方法
CN114186625A (zh) 一种基于图像特征融合的木材鉴定方法及系统
Nakajima et al. Anatomical traits of Cryptomeria japonica tree rings studied by wavelet convolutional neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant