CN113933334B - 一种基于特征选择和机器学习算法的洋槐蜜真伪鉴别方法 - Google Patents

一种基于特征选择和机器学习算法的洋槐蜜真伪鉴别方法 Download PDF

Info

Publication number
CN113933334B
CN113933334B CN202111195188.6A CN202111195188A CN113933334B CN 113933334 B CN113933334 B CN 113933334B CN 202111195188 A CN202111195188 A CN 202111195188A CN 113933334 B CN113933334 B CN 113933334B
Authority
CN
China
Prior art keywords
honey
locust
sample
feature
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111195188.6A
Other languages
English (en)
Other versions
CN113933334A (zh
Inventor
陈谊
斗海峰
张紫娟
范春林
李海生
张佳琳
刘鸣畅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chinese Academy of Inspection and Quarantine CAIQ
Beijing Technology and Business University
Original Assignee
Chinese Academy of Inspection and Quarantine CAIQ
Beijing Technology and Business University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chinese Academy of Inspection and Quarantine CAIQ, Beijing Technology and Business University filed Critical Chinese Academy of Inspection and Quarantine CAIQ
Priority to CN202111195188.6A priority Critical patent/CN113933334B/zh
Publication of CN113933334A publication Critical patent/CN113933334A/zh
Application granted granted Critical
Publication of CN113933334B publication Critical patent/CN113933334B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N24/00Investigating or analyzing materials by the use of nuclear magnetic resonance, electron paramagnetic resonance or other spin effects
    • G01N24/08Investigating or analyzing materials by the use of nuclear magnetic resonance, electron paramagnetic resonance or other spin effects by using nuclear magnetic resonance
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N24/00Investigating or analyzing materials by the use of nuclear magnetic resonance, electron paramagnetic resonance or other spin effects
    • G01N24/08Investigating or analyzing materials by the use of nuclear magnetic resonance, electron paramagnetic resonance or other spin effects by using nuclear magnetic resonance
    • G01N24/085Analysis of materials for the purpose of controlling industrial production systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Physics & Mathematics (AREA)
  • High Energy & Nuclear Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Biochemistry (AREA)
  • Analytical Chemistry (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Investigating Or Analysing Materials By Optical Means (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公布了一种基于特征选择和机器学习算法的洋槐蜜真伪鉴别方法,包括:采集真假蜂蜜样品并生成洋槐蜜数据;对洋槐蜜数据进行真假标注得到洋槐蜜数据集;通过特征选择得到低维洋槐蜜数据集;构建蜂蜜真假鉴别模型RF‑XGBoost;对模型进行参数优化和模型验证;利用训练好的模型对待测蜂蜜进行真伪鉴别。本发明方法可有效精准地鉴别洋槐蜜的真伪,避免人工查看谱图进行真伪鉴别的误差,有效提高了洋槐蜜真伪鉴别的准确率、均方根误差和AUC值,降低了数据特征维数、模型训练时间、模型复杂度和过拟合的风险,是一种鉴别洋槐蜜真伪的有效方法。

Description

一种基于特征选择和机器学习算法的洋槐蜜真伪鉴别方法
技术领域
本发明涉及蜂蜜真伪鉴别技术,尤其涉及一种基于特征选择和机器学习算法的洋槐蜜真伪鉴别方法RF-XGBoost。
背景技术
蜂蜜是蜜蜂从开花植物的花中采得花蜜在蜂巢中经过充分酿造而成的天然甜物质,其气味清香浓郁,味道纯真甜美。蜂蜜是一种糖类为主的天然食品,葡萄糖和果糖为其主要成分,可以被人体直接吸收,而不需要酶的分解,也是最常用的滋补品之一,深受消费者喜爱。
但是,蜂蜜的成分复杂,且组分含量与蜜源植物种类,花期,气候以及存贮加工工艺等相关,目前国内对蜂蜜的真伪判别,主要采用食品安全国家标准GB/T 18932.1-2002和GB/T 18932.2-2002,使用靶向检测技术,如质谱或色谱技术,对蜂蜜的掺入物的特征组分进行判定,然而,造假者针对标准中检测项目,有组织地进行规避,上述两种国家标准已不能满足现阶段蜂蜜掺假或混配的检测,急需开发和建立基于机器学习地蜂蜜真伪鉴别的有效方法。
核磁共振氢谱检测技术作为非靶向检测技术,对蜂蜜样品有机组分中地氢元素进行检测,采集蜂蜜样品有机组分中氢元素地整体信号,可以反映出各有机组分地含量。外源物质掺入的蜂蜜样品,其核磁共振氢信号谱图的整体形貌会发生变化,比如糖浆的掺入会引起糖区信号的相对增加,与真实蜂蜜的谱图产生差异,借助人工智能机器学习方法去学习真蜂蜜和掺假蜂蜜的谱图特征,进而实现真假蜂蜜的判别,可以有效地检测蜂蜜中是否掺入糖浆。
发明内容
本发明的目的是提供一种基于特征选择和机器学习算法的洋槐蜜真伪鉴别方法(下文中提到的蜂蜜或样品均指洋槐蜜)RF-XGBoost,其中特征选择主要基于随机森林算法(Random Forest,RF),机器学习算法使用XGBoost。该方法主要包括:采集真假蜂蜜样品并生成蜂蜜数据、对蜂蜜数据记录进行真假标注得到洋槐蜜数据集、通过特征选择得到低维洋槐蜜数据集、构建蜂蜜真假鉴别模型(RF-XGBoost)、模型参数优化和模型验证。之后就可以利用该模型RF-XGBoost对待测蜂蜜进行真伪鉴别。
针对上述目的,本发明技术方案是:
一种基于特征选择和机器学习算法的洋槐蜜真伪鉴别方法RF-XGBoost,该方法包含下列步骤:
A:采集和制备真假蜂蜜样品并生成洋槐蜜数据。
本方法中蜂蜜数据获取主要通过核磁共振技术,对蜂蜜样品进行NOESY 1D检测,得到检测样品的核磁共振氢信号谱图,进而对谱图进行数字化转换,得到反映样品谱图特征的洋槐蜜数据。具体方法如下:
A1:采集和制备真假蜂蜜样品。直接从蜂场,按照事先制定的程序,采集真实蜂蜜样品若干;制备掺假蜂蜜样品若干,掺假蜂蜜样品主要是通过在真实蜂蜜样品中添加一定比例的不同来源的糖浆而获得,比例一般在10%~90%之间。
A2:采用核磁共振波谱仪对真假蜂蜜样品进行检测,得到蜂蜜样品的核磁共振氢信号谱图。谱图使用核磁波谱仪的采集和处理软件VnmrJ 4.2进行相位调整、设定内标物的化学位移原点(内标物TSP)得到。谱图的形状反映了被测样品所含组分及其含量,是鉴别蜂蜜真伪的重要依据。
A3:对蜂蜜样品的核磁共振氢信号谱图进行数字化和归一化。使用核磁数据分析处理辅助软件MestroNova 11.0对谱图进行等间隔积分并提取核磁数据,选取化学位移在0.53~9.53ppm(不包含4.78~4.98ppm的水峰信号)区间的信号,并对谱图以0.05ppm为间隔进行等间隔分段积分,采用峰面积归一化得到样品的分段积分。分段积分的方法如公式(1)-(3):
P={P0,P1,P2,···Pi,···PN-2,PN-1} (2)
其中,A为化学位移在0.53~9.53ppm区域内总积分面积;Ai为该积分区域内第i个分段积分面积;N为分段的个数,本专利里等于176;Pi为归一化后第i个分段积分值。
由此得到代表该样品的一条数据记录,该记录具有176个属性值或特征值,这些特征值的分布反映了该样品核磁共振氢信号谱图的轮廓,即蜂蜜各组分含量分布。对每一个洋槐蜜样品进行上述步骤,得到一系列具有176个特征的真假洋槐蜜数据记录,即洋槐蜜数据。
B:对洋槐蜜数据记录进行真假标注得到洋槐蜜数据集。
对步骤A中得到的洋槐蜜数据中的每一条记录添加真假标签,真实蜂蜜标注“0”,掺假蜂蜜标注“1”。最后为了在实际测试中更加方便地使用数据,给每一条记录按照一定规则再添加一个样本名称,故此时得到具有176+2=178维的洋槐蜜数据集,记为D。
C:通过特征选择得到低维的洋槐蜜数据集D′。
洋槐蜜数据集D中有反映核磁共振氢信号谱图形状的176个特征,记为C(C1,C2,…,Cj,…,C176),使用随机森林算法得到洋槐蜜数据集D中每个特征Cj的重要性大小,并对特征按重要性大小进行排序;然后选取前p个特征为最终特征集合,这可以缓解因维数较大而导致的训练时间过长的问题,同时降低学习任务的难度。根据选取的前p个特征集合得到低维的洋槐蜜数据集,记为D′,用于XGBoost模型的构建和训练。随机森林由多棵二叉决策树组成,决策树(分类树)使用基尼指数(Gini)选择最优特征,同时决定该特征的最优二值切分点;Gini值表示洋槐蜜样本集合的不确定性,Gini值越大,集合的不确定性就越大。Gini指数的计算方式如式(4):
式中,GIm为决策树中节点m的Gini值;pmk代表节点m中样本属于第k类的概率估计值,K代表样本集的类别个数。因本鉴别方法种类别为真蜂蜜和假蜂蜜两类,即K=2,此时,设pm1=pm,则pm2=(1-pm),带入式(4)得到节点m的Gini计算方式为式(5):
GIm=2pm(1-pm) (5)
式中,pm为洋槐蜜样本在节点m属于任意一类的概率估计值。其中每个节点m中对应的是洋槐蜜样本集合。
假设决策树分枝时,洋槐蜜数据集合D根据特征F是否取某一可能的值f被分割成D1和D2两部分,即:D1={(x,y)∈D|F(x)=f},D2=D-D1,其中x为洋槐蜜样本,y为样本x对应的标签值。则在特征F在取值f的条件下,集合D的基尼指数定义为式(6):
其中,和/>由式(5)计算,|D|表示集合D中样本的个数。
C1:构建随机森林。
(1)从洋槐蜜数据集D中随机有放回的选择S个洋槐蜜样本,共进行n次采样,生成n个洋槐蜜样本集合,记为D1,D2,…,Dn
(2)对迭代次数i=1,2,3,…,n,有:
(2a)计算176个特征对Di的基尼指数。此时,对每一个特征Cj,对其可能取的每个值Cjs(1<=|s|<=|S|),按照Di中的样本是否满足条件Cj=Cjs,将Di划分为Di1和Di2两部分,使用式(6)计算Cj=Cjs时集合Di的基尼指数(2b)根据(2a)计算出每一个特征C及其所有可能值(切分点)对Di的基尼指数,选择使洋槐蜜样本集合Di的基尼指数最小的特征及其对应的值作为最优特征和最优切分点,依据选择的最优特征和最优切分点,进行现节点的分枝而生成两个子节点,两个子节点分别对应集合Di1和Di2;此时,Di中的样本依据最优特征和最优切分点分配到两个子节点中。
(2c)对生成的子节点Di1和Di2,分别执行步骤(2a)和(2b)得到新的两个子节点。对之后生成的所有子节点均执行步骤(2a)和(2b),直到满足停止条件(节点中的样本个数小于预定的值),生成一棵二叉决策树Tri
(3)得到n棵二叉决策树(Tr1,Tr2,…,Trn),生成的n棵二叉决策树组成随机随林。
C2:特征重要性评估。计算洋槐蜜数据集D中每个特征在随机森林中的每棵决策树上做了多大的贡献,然后取平均值,得到每个特征的贡献程度即重要程度,它通常使用基尼(Gini)指数来计算,用VIM表示特征的重要性评分。
计算特征Cj在节点m中的重要性,即决策树中的节点m分枝前后的Gini指数变化量,由式(7)所得:
其中GIL和GIR分别表示分枝之后两个新节点的Gini指数。
如果特征Cj在第l棵决策树中出现M次,则Cj在第l棵树的重要性为:
随机森林共有n棵决策树时,特征Cj在随机森林的重要性通过式(9)求得:
最后把所有求得的重要性进行归一化处理,得到重要性特征Cj的评分VIMj
C3:特征选取。使用步骤C2得到洋槐蜜数据集D中176个特征的重要性评分,根据重要性进行降序排序之后得到特征序列λ(λ12,…,λp,…,λ176),假定阈值为γ(为了保证保留足够的信息,一般γ≧90%),当前p个特征的重要性之和大于等于γ,即时,选择λ12,…,λp为最终的特征集合,得到p+2维(随机森林选取的p维数据集+真伪标注维和样本名称维)的洋槐蜜数据集D′。
D:构建并训练基于XGBoost的洋槐蜜真伪鉴别模型,得到训练好的洋槐蜜真伪鉴别模型。
D1:基于步骤C中得到的具有p+2维的洋槐蜜数据集D′,构建洋槐蜜真伪鉴别模型(记为RF-XGBoost)。
XGBoost是一个树集成模型,不断地进行特征分裂来生长一棵树,其中用损失函数的增益作为特征的分裂准则。在训练生成决策树时,针对洋槐蜜数据集D′的训练样本,设置其总共要生成决策树的个数(n_estimators)、样本子采样比例(subsample)、特征采样比例(colsample_bytree)、树的最大深度(max_depth)和学习率(learning_rate)等参数进行训练。
当训练完成得到K棵树,预测一个洋槐蜜样本xi时,根据样本xi的特征,将该样本映射到每棵树中对应的一个叶子节点,每个叶子节点对应一个值,最后其预测值由每棵树对xi的预测值累加而成。
式中,K是决策树的总数量,fk(xi)为第k个决策树对洋槐蜜样本xi的预测值,F是假设空间,对应了所有K棵决策树的集合,如式(12)所示:
F={f(x)=ωq(x)}(q:R→T,ω∈RT) (12)
式中,q(x)表示将洋槐蜜样本x映射到决策树对应的叶子节点中,T是决策树中叶子节点的个数,ωq(x)是叶子节点对洋槐蜜样本x的预测值。
XGBoost的目标是为了预测值尽量接近真实值yi,因此其目标函数(Obj)可定义为式(13)所示,由损失函数和正则化项两部分组成:
其中,n为训练样本个数,为损失函数,即训练误差,/>为正则化项,表示树的复杂度,值越小复杂度越低,泛化能力越强,其中正则化项表示为如式(14)所示:
式中,T为叶子节点个数,γ用于控制叶子节点个数,λ通过控制叶子节点的分数来防止过拟合,ωj叶子节点j的值。
XGBooost最终训练得到K个最优的决策树,从而通过累加每棵树对洋槐蜜样本的预测值得到洋槐蜜样本的最终预测值,所以需要通过训练找到最优的目标函数Obj使得最终预测结果为最优。
D2:训练基于XGBoost的洋槐蜜真伪鉴别模型RF-XGBoost;
XGBoost模型的构建和训练采用scikit-learn机器学习库实现,其中将洋槐蜜数据集D′中70%的样本数据作为训练集,30%的样本数据划分为测试集,进行模型训练。其中参数优化使用scikit-learn的GridSearchCV方法实现,以对数损失函数(LogLoss)为模型评判标准获得最优参数。在本方法中主要对以下参数进行网格搜索以获得最优参数:
(1)决策树的个数(n_estimators),即公式(11)中的K。
(2)决策树的最大深度(max_depth),在训练时当树深度达到此值时停止分裂。
(3)训练每棵树时,使用的样本占全部训练样本的比例(subsample)和使用的特征占全部特征的比例(colsample_bytree),用来防止过拟合。
(4)惩罚项系数(gamma),即公式(14)中的γ,当节点在分裂时,只有大于此值才选择分裂。
(5)学习率(learning_rate),当训练得到一棵决策树后,对决策树的每个叶子节点的分数乘以该值,削弱每棵树的影响,使得之后的建树过程更稳定。
E、对待鉴别的洋槐蜜样品进行NOESY 1D检测,得到待测样品的核磁共振氢信号谱图,并对谱图进行数字化转换,得到反映样品谱图特征的洋槐蜜数据,再利用步骤D中训练好的洋槐蜜真伪鉴别模型进行真伪鉴别。
与现有技术相比,本发明的有益效果是:
本发明提出一种基于特征选择和机器学习算法XGBoost的洋槐蜜真伪鉴别方法。该方法首先使用核磁共振仪器,获取洋槐蜜样品的核磁共振氢信号谱图;然后将谱图数字化为176维的特征向量,并对每一条记录添加真伪标签,形成多个样品的洋槐蜜数据集D;进而使用随机森林算法从176维特征中选取重要特征,得到低维特征的洋槐蜜数据集D′;最后用已标注真伪的洋槐蜜数据集D′对XGBoost模型进行训练,得到基于XGBoost洋槐蜜真伪鉴别模型,并评估模型的准确率。后面将新的数字化后的洋槐蜜数据输入该模型,即可得到输入洋槐蜜的真伪。
与现有方法相比,本发明方法可以有效精准的鉴别洋槐蜜真伪,避免了人工查看谱图进行真伪鉴别的误差。本发明方法中较好结合了核磁共振技术、随机森林算法和XGBoost算法,有效提高了洋槐蜜真伪鉴别的准确率、均方根误差和AUC值,降低了数据特征维数、模型训练时间、模型复杂度和过拟合的风险,是一种鉴别洋槐蜜真伪的有效方法。
附图说明
图1是本发明方法整体流程框图。
图2的(a)为本发明实施例中NOESY 1D(0.5-9.5ppm)检测结果谱图;(b)为区间在0.5-3ppm,纵坐标放大300倍的放大图;(c)为区间在6-9.5ppm,纵坐标放大600倍的放大图。
图3是本发明实施例中对洋槐蜜数据集D进行特征重要性排序图,图中展示重要性程度排前10的特征。
图4是本发明实施例中洋槐蜜数据集D′的特征累计贡献率趋势图。
具体实施方式
下面结合附图,通过实施例进一步描述本发明。
本发明提供一种基于特征选择和机器学习算法XGBoost的洋槐蜜真伪鉴别方法,其中特征选择主要基于随机森林算法。该方法主要包括:采集真假蜂蜜样品并生成蜂蜜数据集、对蜂蜜数据记录进行真假标注、通过特征选择得到低维洋槐蜜数据集、蜂蜜真假鉴别模型(RF-XGBoost)构建、模型参数优化和模型验证。本方法主要针对采集的洋槐蜜样品进行测试,此方法综合了核磁共振技术、随机森林算法和XGBoost算法,能够快速高效方便的鉴别洋槐蜜样品的真伪性。方法流程如图1所示。
在本发明中,制作样品及获取数据主要涉及到的仪器设备及试剂如下:
(1)仪器设备:安捷伦公司Agilent DD2 600MHz核磁共振波谱仪配有5mm二合一宽带OneNMR探头,7510自动进样器;默克化工技术有限公司Merck产Milli-Q Integral超纯水系统;梅特勒-托利多Mettler Toledo的XS104天平和FiveEasy Plus pH计;北京博宇宝卫实验设备公司THZ-82A型恒温水浴振荡器;日本AS ONE TRIO TM-1N涡旋振荡器;德国艾本德Eppendorf公司200μL和1000μL可调节移液器;美国诺雷尔Norell公司5mm核磁管。
(2)试剂:分析纯磷酸二氢钾和氢氧化钾,购自西陇化工股份有限公司;99.9%氘代的重水和98%氘代的2,2,3,3-氘代三甲基硅烷丙酸钠(TSP)购自美国CambridgeIsotope Laboratories;叠氮钠购自MPM biological technology Co.Ltd.;分析纯磷酸购自美国西格玛阿德里齐(Sigma-Aldrich)公司。
本发明具体实施操作步骤为:
A:采集和制备真假蜂蜜样品并生成洋槐蜜数据。
A1:采集和制备真假蜂蜜样品。按照制定的程序从蜂场采集180个真实蜂蜜样品,对其中120个蜂蜜样品添加一定比例的不同来源的糖浆制成糖浆掺假蜂蜜样品,糖浆掺假比例在10%~90%不等。剩余60个蜂蜜样品作为真实蜂蜜样品;
A2:对真假蜂蜜样品采用核磁共振波谱仪进行检测,得到蜂蜜样品的核磁共振氢信号谱图。谱图使用核磁波谱仪的采集和处理软件VnmrJ 4.2进行相位调整和设定内标物TSP得到,其中变化点数设置为64K,线宽因子设置为0.3Hz,设定内标物TSP的峰为0.00ppm进行化学位移定标;
A3:对核磁共振氢信号谱图进行数字化和归一化处理。使用核磁数据分析处理辅助软件MestroNova 11.0对谱图进行等间隔积分并提取核磁数据,选取化学位移在0.53~9.53ppm(不包含4.78~4.98ppm的水峰信号)区间的信号,以0.05ppm为间隔进行等间隔分段积分,采用峰面积归一化得到样品的分段积分。提取的每个样品数据包含176维属性值或特征值,由此得到代表该洋槐蜜样品的数据记录,该记录具有176个特征值,这些特征值的分布反映了该样品核磁共振氢信号谱图的轮廓,即蜂蜜各组分含量分布。
对每一个真假洋槐蜜样品进行A2,A3步骤,得到一系列具有176个特征的真假洋槐蜜数据记录,即洋槐蜜数据,从而实现样品检测数据的数字化。在本实施例中共获得60条真实洋槐蜜数据记录和120条掺假洋槐蜜数据记录组成180条洋槐蜜数据。
B:对洋槐蜜数据记录进行真假标注得到洋槐蜜数据集。
分别对真实蜂蜜和掺假蜂蜜数据记录添加真假标签,对每一条真实蜂蜜数据添加标签,标记为数值“0”,对每一条糖浆掺假蜂蜜数据添加标签,标记为数值“1”,标签特征名记为“result”,即对于真实蜂蜜设定其result=0,掺假蜂蜜设定其result=1。其次为了在实际测试中更加方便地使用数据,对每一条数按照一定规则添加了样本名称(sampleName)。此时得到180×178的洋槐蜜数据集D,如表1所示,该数据是经过核磁共振和分段积分,并已标注真假标签和添加了样本名称的部分数据。其每一行为特定样品的特征(积分段)描述,每一列(除sampleName和result)是不同的样品中特定化学位移区间的归一化后的积分面积。
表1洋槐蜜数据集D(部分)
C:通过特征特征选择得到低维的洋槐蜜数据集D′。
使用随机森林算法可以得到洋槐蜜数据集D的每个特征的重要性大小,对特征重要性程度大小进行排序,排前10的特征及其重要性如图3所示;然后选取前p个特征构成最终的特征集合,根据前p个特征集合得到低维的洋槐蜜数据集D′用于XGBoost模型的构建和训练。
C1:构造随机森林。随机森林的建立使用scikit-learn机器学习库实现,其中设置分类器的个数(决策树的总数)为1000;决策树的深度为默认值“None”,即不限制树的深度,最终树的每个叶子节点只有一个类别;划分时的最大特征数设置为“None”,即划分时考虑所有的特征;树中内部节点再划分所需的最小样本数设置为2;决策树做划分时对特征的评价标准(criterion)为“gini”。规定上述参数,满足条件时得到由多颗决策树组成的随机森林。
C2:特征重要性评估。计算洋槐蜜数据集D中每个特征Cj在随机森林中的每棵树上做了多大的贡献,然后取平均值,得到特征Cj的贡献程度即重要性,使用基尼(Gini)指数来计算。
C3:特征选取。对洋槐蜜数据集D的176个特征进行重要性评分,然后根根评分降序排序得到特征序列λ(λ12,…,λp,…,λ176),在本实施例中阈值γ设置为90,当前p个特征(本例中为p=82)的重要性评分之和大于等于γ时,选择λ12,…,λp为最终的特征集合,得到82+2=84维的洋槐蜜数据集D′。其中特征的累计贡献率变化趋势如图4所示,即特征维数由176降为82维。
D:构建并训练基于XGBoost的洋槐蜜真伪鉴别模型。
基于步骤C中得到的洋槐蜜数据集D′以及XGBoost算法原理,利用scikit-learn机器学习库的XGBClassifier方法构建洋槐蜜真伪鉴别模型。将洋槐蜜数据集D′中70%的样本数据作为训练集,30%的样本数据作为测试集,进行模型训练,使用GridSearchCV模型调参方法对XGBClassifier方法中的决策树个数(n_estimators)、决策树的深度(max_depth)、训练样本子采样比例(subsample)、训练样本的特征采样比例(colsample_bytree)、惩罚项系数(gamma)、学习率(learning_rate)进行优化,其中对上述参数的取值范围设置如表2所示,经过GridSearchCV优化之后最佳参数取值如表3所示。
表2 XGBoost算法部分参数取值范围
表3 XGBoost算法部分参数网格优化最佳参数取值
在优化后的模型中使用本实施例中的洋槐蜜数据集D′,准确率达到92.59%,将本发明方法与GBDT(梯度提升决策树)算法,SVM(支持向量机)算法和DT(决策树)算法进行对比,以测试准确率(Accuracy)、均方根误差(RMSE)和AUC值作为评价指标,如表4所示。结果表明,本方法(Random Forest XGBoost,RF-XGBoost)可行,且RF-XGBoost相较于其他算法在三个指标上都有优势。
表4测试集实验结果对比
对待鉴别的洋槐蜜样品进行NOESY 1D检测,得到待测样品的核磁共振氢信号谱图,并对谱图进行数字化转换,得到反映样品谱图特征的洋槐蜜数据,并使用随机森林算法进行特征选择,再利用训练好的洋槐蜜真伪鉴别模型可以进行有效的真伪鉴别。
需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附权利要求的范围内,各种替换和修改都是可能的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。

Claims (6)

1.一种基于特征选择和机器学习算法的洋槐蜜真伪鉴别方法,其特征是,包括:采集真假蜂蜜样品并生成洋槐蜜数据;对洋槐蜜数据进行真假标注得到洋槐蜜数据集;通过谱图特征选择得到低维洋槐蜜数据集;构建蜂蜜真假鉴别模型RF-XGBoost;对模型进行参数优化和模型验证;利用模型对待测蜂蜜进行真伪鉴别;具体包括以下步骤:
A:采集和制备蜂蜜样品,包括真蜂蜜样品和假蜂蜜样品,并生成洋槐蜜数据;
通过核磁共振技术,对蜂蜜样品进行NOESY 1D检测,得到检测蜂蜜样品的一维氢信号谱图,进而对谱图进行数字化转换,得到多个反映洋槐蜜样品谱图特征的真假洋槐蜜数据记录;
B:对洋槐蜜数据记录进行真假标注,得到洋槐蜜数据集;
对步骤A中得到的洋槐蜜数据中的每一条记录添加真假标签属性,用于表示洋槐蜜为真蜂蜜或掺假蜂蜜;每一条记录按照一定规则再添加一个样本名称属性;将得到的洋槐蜜数据集记为D;洋槐蜜数据集D包括反映洋槐蜜样品谱图的多个特征;
C:选择谱图特征;
从洋槐蜜数据集D反映谱图特征的多个特征中选择重要性程度大的前p个特征为最终特征集合,根据最终特征集合得到低维的洋槐蜜数据集,记为D′,用于模型的构建和训练;
具体是采用随机森林算法得到洋槐蜜数据集D中每个特征的重要性大小,并对特征重要性程度大小进行排序;然后选取前p个特征为最终特征集合;包括如下步骤:
C1:构建包含多棵决策树的随机森林;
随机森林中的每一棵决策树均为二叉树,即为一个分类器;决策树中的每个节点表示洋槐蜜数据集的一个子集;节点纯度最高的特征作为最优特征;
C2:特征重要性评估:计算每个特征Cj的重要性评分VIMj,即计算第j个特征Cj在随机森林所有决策树中节点分裂纯度的平均改变量;
计算洋槐蜜数据集D中每个特征在随机森林中的每棵决策树上的贡献;取平均值,得到每个特征的贡献程度即重要性程度,采用基尼Gini指数表示;Gini指数值越小表示集合中被选中的元素被分错的概率越小,也就是集合的纯度越高;
通过式(4)计算得到Gini指数的值:
式中,GIm为决策树中节点m的Gini值;pmk代表节点m中样本属于第k类的概率估计值,K代表样本集的类别个数;
类别分为真蜂蜜和假蜂蜜两个类别,即K=2,此时节点m的Gini指数为式(5):
GIm=2pm(1-pm) (5)
其中,pm为洋槐蜜样本在节点m属于任意一类的概率估计值;
设决策树分枝时,根据特征F是否取某一可能的值f,将洋槐蜜数据集合D分割成D1和D2两部分,即:D1={(x,y)∈D|F(x)=f},D2=D-D1;其中x为洋槐蜜样本,y为样本x对应的标签值;则在特征F在取值f的条件下,集合D的基尼指数定义为式(6):
其中,和/>由式(5)计算,|D|表示集合D中样本的个数;
特征Cj在节点m中的重要性即决策树中的节点m分枝前后的Gini指数变化量,由式(7)计算得到:
其中,GIL和GIR分别表示分枝之后两个新节点的Gini指数;
如果特征Cj在第l棵决策树中出现M次,则Cj在第l棵树的重要性表示为:
若随机森林共有n棵决策树,特征Cj在随机森林中的重要性表示为:
将所有求得的重要性评分进行归一化处理,得到重要性评分VIMj
C3:特征选取;包括:
使用洋槐蜜数据集D中176个特征的重要性评分,根据重要性进行降序排序之后得到特征序列λ(λ12,…,λp,…,λ176),假定阈值为γ,当前p个特征的重要性之和大于等于γ,即时,选择λ12,…,λp为最终的特征集合,得到p+2维的洋槐蜜数据集D′;
D:构建并训练洋槐蜜真伪鉴别模型,得到训练好的洋槐蜜真伪鉴别模型;
D1:基于洋槐蜜数据集D′,利用scikit-learn机器学习库的XGBClassifier方法构建洋槐蜜真伪鉴别模型,记为RF-XGBoost;
基于树集成模型XGBoost,对于每一个洋槐蜜样本xi,根据式(11)累加多棵树的预测值来计算该样本最终的预测值表示为:
式中,K是决策树的总数量;为样本xi的预测值;fk(xi)为决策树k对洋槐蜜样本xi的预测值;F是假设空间,表示为式(12):
F={f(x)=ωq(x)}(q:R→T,ω∈RT) (12)
式中,q(x)表示将洋槐蜜样本x映射到决策树对应的叶子节点中,T是决策树中叶子节点的个数,ωq(x)是叶子节点对洋槐蜜样本x的预测值;
使用目标函数求解每个叶子节点的最优预测值,使得目标函数最小的ω值即为每个叶子节点对洋槐蜜样本的最优预测值;目标函数Obj由损失函数和正则化项两部分组成,表示为式(13):
其中,为损失函数,即训练误差,Ω(fk)为正则化项,用于控制模型的复杂度;其中的正则化项表示为式(14):
式中,T为叶子节点个数;γ用于控制叶子节点个数;λ为通过控制叶子节点的分数,用于防止过拟合;
D2:训练洋槐蜜真伪鉴别模型RF-XGBoost;
将洋槐蜜数据集D′划分为训练数据集和测试数据集;使用训练数据集对RF-XGBoost进行模型训练,采用GridSearchCV模型调参方法对XGBClassifier方法中的参数进行优化,参数包括:决策树个数、决策树的深度、训练样本子采样比例、训练样本的特征采样比例、惩罚项系数、学习率,得到训练好的洋槐蜜真伪鉴别模型;
E、对待鉴别的洋槐蜜样品进行NOESY 1D检测,得到待测样品的一维氢信号谱图;并对谱图进行数字化转换,得到反映样品谱图特征的洋槐蜜数据;利用训练好的洋槐蜜真伪鉴别模型进行洋槐蜜真伪鉴别。
2.如权利要求1所述基于特征选择和机器学习算法的洋槐蜜真伪鉴别方法,其特征是,步骤A生成洋槐蜜数据包括如下具体步骤:
A1:采集真蜂蜜样品和制备掺假蜂蜜样品;
制备掺假蜂蜜样品,掺假蜂蜜样品是通过在真实蜂蜜样品中添加一定比例的不同来源的糖浆而获得,比例为10%~90%;
A2:采用核磁共振波谱仪对真蜂蜜样品和掺假蜂蜜样品进行检测,得到蜂蜜样品的NOESY1D氢信号谱图;
A3:对蜂蜜样品的谱图进行数字化和归一化;
使用核磁数据分析处理辅助软件MestroNova 11.0对谱图进行等间隔积分并提取核磁数据,选取化学位移在0.53~9.53ppm区间的信号,不包含4.78~4.98ppm的水峰信号,并对谱图以0.05ppm为间隔进行等间隔分段积分,采用峰面积归一化得到样品的分段积分;
分段积分方法如式(1)-(3):
P={P0,P1,P2,···Pi,···PN-2,PN-1} (2)
其中,A为化学位移在0.53~9.53ppm区域内总积分面积;Ai为该积分区域内第i个分段积分面积;N为分段的个数;Pi为归一化后第i个分段积分值;
由此得到代表该样品的一条数据记录,该记录具有N个属性值或特征值;特征值的分布反映样品核磁谱图的轮廓,即蜂蜜各组分含量分布;
对每一个洋槐蜜样品进行上述步骤,即得到具有N个特征的真假洋槐蜜数据记录,即洋槐蜜数据。
3.如权利要求2所述基于特征选择和机器学习算法的洋槐蜜真伪鉴别方法,其特征是,N取值为176。
4.如权利要求1所述基于特征选择和机器学习算法的洋槐蜜真伪鉴别方法,其特征是,步骤B对洋槐蜜数据记录进行真假标注,具体是:真实蜂蜜标注“0”,掺假蜂蜜标注“1”。
5.如权利要求1所述基于特征选择和机器学习算法的洋槐蜜真伪鉴别方法,其特征是,步骤D2中,将洋槐蜜数据集D′的70%的样本数据作为训练数据集,30%的样本数据划分为测试数据集,用于洋槐蜜真伪鉴别模型RF-XGBoost的模型训练和参数优化。
6.如权利要求1所述基于特征选择和机器学习算法的洋槐蜜真伪鉴别方法,其特征是,步骤D2中,参数优化具体是使用网格搜索优化法。
CN202111195188.6A 2021-10-13 2021-10-13 一种基于特征选择和机器学习算法的洋槐蜜真伪鉴别方法 Active CN113933334B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111195188.6A CN113933334B (zh) 2021-10-13 2021-10-13 一种基于特征选择和机器学习算法的洋槐蜜真伪鉴别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111195188.6A CN113933334B (zh) 2021-10-13 2021-10-13 一种基于特征选择和机器学习算法的洋槐蜜真伪鉴别方法

Publications (2)

Publication Number Publication Date
CN113933334A CN113933334A (zh) 2022-01-14
CN113933334B true CN113933334B (zh) 2024-03-26

Family

ID=79279214

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111195188.6A Active CN113933334B (zh) 2021-10-13 2021-10-13 一种基于特征选择和机器学习算法的洋槐蜜真伪鉴别方法

Country Status (1)

Country Link
CN (1) CN113933334B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117952675A (zh) * 2024-03-27 2024-04-30 山东鼎信数字科技有限公司 一种权益产品动态发放方法、系统、装置及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104713895A (zh) * 2015-03-13 2015-06-17 中国科学院武汉物理与数学研究所 基于氢核磁共振结合偏最小二乘法鉴别蜂蜜真假的方法
CN105510372A (zh) * 2016-01-27 2016-04-20 江苏出入境检验检疫局动植物与食品检测中心 建立dpls-bs-uve快速鉴别蜂蜜真假的模型方法
CN105548233A (zh) * 2015-10-30 2016-05-04 中国科学院武汉物理与数学研究所 一种基于氢核磁共振鉴别洋槐蜜和油菜蜜的方法
CN107561110A (zh) * 2017-08-25 2018-01-09 江苏出入境检验检疫局动植物与食品检测中心 一种基于核磁共振技术用于荆条蜜、油菜蜜和洋槐蜜的鉴别方法
CN109991303A (zh) * 2019-02-27 2019-07-09 北京工商大学 利用毛细管电泳技术快速鉴别单花蜂蜜的方法
CN110836885A (zh) * 2019-12-19 2020-02-25 西安石油大学 一种基于拉曼光谱结合随机森林算法的汽油掺假鉴别分析方法
CN113011796A (zh) * 2021-05-06 2021-06-22 北京工商大学 一种基于“层次分析-神经网络”的食用油安全预警方法
WO2021139115A1 (zh) * 2020-05-26 2021-07-15 平安科技(深圳)有限公司 特征选择方法、装置、设备及存储介质
CN113310929A (zh) * 2021-05-10 2021-08-27 华中农业大学 高温灭菌奶中掺加豆粉及其掺加比例的光谱鉴定方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104713895A (zh) * 2015-03-13 2015-06-17 中国科学院武汉物理与数学研究所 基于氢核磁共振结合偏最小二乘法鉴别蜂蜜真假的方法
CN105548233A (zh) * 2015-10-30 2016-05-04 中国科学院武汉物理与数学研究所 一种基于氢核磁共振鉴别洋槐蜜和油菜蜜的方法
CN105510372A (zh) * 2016-01-27 2016-04-20 江苏出入境检验检疫局动植物与食品检测中心 建立dpls-bs-uve快速鉴别蜂蜜真假的模型方法
CN107561110A (zh) * 2017-08-25 2018-01-09 江苏出入境检验检疫局动植物与食品检测中心 一种基于核磁共振技术用于荆条蜜、油菜蜜和洋槐蜜的鉴别方法
CN109991303A (zh) * 2019-02-27 2019-07-09 北京工商大学 利用毛细管电泳技术快速鉴别单花蜂蜜的方法
CN110836885A (zh) * 2019-12-19 2020-02-25 西安石油大学 一种基于拉曼光谱结合随机森林算法的汽油掺假鉴别分析方法
WO2021139115A1 (zh) * 2020-05-26 2021-07-15 平安科技(深圳)有限公司 特征选择方法、装置、设备及存储介质
CN113011796A (zh) * 2021-05-06 2021-06-22 北京工商大学 一种基于“层次分析-神经网络”的食用油安全预警方法
CN113310929A (zh) * 2021-05-10 2021-08-27 华中农业大学 高温灭菌奶中掺加豆粉及其掺加比例的光谱鉴定方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
中红外光谱法结合支持向量机快速鉴别蜂蜜品种;徐天扬;杨娟;孙晓荣;刘翠玲;李熠;周金慧;陈兰珍;;激光与光电子学进展;20180116(第06期);全文 *
食品安全大数据可视化关联分析;陈谊,孙梦,武彩霞,孙小然;大数据;20210225;第7卷(第02期);全文 *

Also Published As

Publication number Publication date
CN113933334A (zh) 2022-01-14

Similar Documents

Publication Publication Date Title
Luo et al. Greater than the sum of the parts: how the species composition in different forest strata influence ecosystem function
De Cáceres et al. Assessing species diagnostic value in large data sets: A comparison between phi‐coefficient and Ochiai index
CN116205310B (zh) 一种基于可解释集成学习模型的土壤含水量影响因素敏感区间判定方法
Herrero-Langreo et al. Mapping grapevine (Vitis vinifera L.) water status during the season using carbon isotope ratio (δ13C) as ancillary data
CN106778893A (zh) 一种基于降维与聚类的高光谱样本选择方法
CN113933334B (zh) 一种基于特征选择和机器学习算法的洋槐蜜真伪鉴别方法
CN106383088A (zh) 一种基于多光谱成像技术的种子纯度快速无损检测方法
CN110363119A (zh) 基于小波变换-随机森林算法的烟叶霉变快速识别方法
CN107132311A (zh) 一种基于频域特征提取的快速气体识别算法
CN110533102A (zh) 基于模糊推理的单类分类方法以及分类器
CN113139717B (zh) 作物苗情分级遥感监测方法及装置
CN112651173B (zh) 一种基于跨域光谱信息的农产品品质无损检测方法及可泛化系统
Räty et al. Fusing diameter distributions predicted by an area-based approach and individual-tree detection in coniferous-dominated forests
CN117131345A (zh) 一种基于数据深度学习计算的多源数据参数评估方法
CN114944198A (zh) 一种计算机处理采集设备数据的融合方法
CN116010884A (zh) 基于主成分分析的SSA-LightGBM油浸式变压器的故障诊断方法
CN116072302A (zh) 基于有偏随机森林模型的医疗不平衡数据分类方法
CN112326574B (zh) 一种基于贝叶斯分类的光谱波长选择方法
CN113902951B (zh) 基于主成分分析和梯度提升决策树的油菜蜜真伪鉴别方法
KR101629178B1 (ko) 다중 특허지표를 이용한 기술 수명 주기 분석 장치
CN109211814A (zh) 一种基于三维光谱曲面分区特征的土壤剖面类型识别方法
CN105954206B (zh) 紫玉米叶片花色苷含量的测量方法及系统
CN113657726A (zh) 基于随机森林的人员的危险性分析方法
CN114783539A (zh) 一种基于光谱聚类的中药成分分析方法及系统
Li et al. Genetic algorithms (GAs) and evolutionary strategy to optimize electronic nose sensor selection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant