CN113933334B

CN113933334B - 一种基于特征选择和机器学习算法的洋槐蜜真伪鉴别方法

Info

Publication number: CN113933334B
Application number: CN202111195188.6A
Authority: CN
Inventors: 陈谊; 斗海峰; 张紫娟; 范春林; 李海生; 张佳琳; 刘鸣畅
Original assignee: Chinese Academy of Inspection and Quarantine CAIQ; Beijing Technology and Business University
Current assignee: Chinese Academy of Inspection and Quarantine CAIQ; Beijing Technology and Business University
Priority date: 2021-10-13
Filing date: 2021-10-13
Publication date: 2024-03-26
Anticipated expiration: 2041-10-13
Also published as: CN113933334A

Abstract

本发明公布了一种基于特征选择和机器学习算法的洋槐蜜真伪鉴别方法，包括：采集真假蜂蜜样品并生成洋槐蜜数据；对洋槐蜜数据进行真假标注得到洋槐蜜数据集；通过特征选择得到低维洋槐蜜数据集；构建蜂蜜真假鉴别模型RF‑XGBoost；对模型进行参数优化和模型验证；利用训练好的模型对待测蜂蜜进行真伪鉴别。本发明方法可有效精准地鉴别洋槐蜜的真伪，避免人工查看谱图进行真伪鉴别的误差，有效提高了洋槐蜜真伪鉴别的准确率、均方根误差和AUC值，降低了数据特征维数、模型训练时间、模型复杂度和过拟合的风险，是一种鉴别洋槐蜜真伪的有效方法。

Description

一种基于特征选择和机器学习算法的洋槐蜜真伪鉴别方法

技术领域

本发明涉及蜂蜜真伪鉴别技术，尤其涉及一种基于特征选择和机器学习算法的洋槐蜜真伪鉴别方法RF-XGBoost。

背景技术

蜂蜜是蜜蜂从开花植物的花中采得花蜜在蜂巢中经过充分酿造而成的天然甜物质，其气味清香浓郁，味道纯真甜美。蜂蜜是一种糖类为主的天然食品，葡萄糖和果糖为其主要成分，可以被人体直接吸收，而不需要酶的分解，也是最常用的滋补品之一，深受消费者喜爱。

但是，蜂蜜的成分复杂，且组分含量与蜜源植物种类，花期，气候以及存贮加工工艺等相关，目前国内对蜂蜜的真伪判别，主要采用食品安全国家标准GB/T 18932.1-2002和GB/T 18932.2-2002，使用靶向检测技术，如质谱或色谱技术，对蜂蜜的掺入物的特征组分进行判定，然而，造假者针对标准中检测项目，有组织地进行规避，上述两种国家标准已不能满足现阶段蜂蜜掺假或混配的检测，急需开发和建立基于机器学习地蜂蜜真伪鉴别的有效方法。

核磁共振氢谱检测技术作为非靶向检测技术，对蜂蜜样品有机组分中地氢元素进行检测，采集蜂蜜样品有机组分中氢元素地整体信号，可以反映出各有机组分地含量。外源物质掺入的蜂蜜样品，其核磁共振氢信号谱图的整体形貌会发生变化，比如糖浆的掺入会引起糖区信号的相对增加，与真实蜂蜜的谱图产生差异，借助人工智能机器学习方法去学习真蜂蜜和掺假蜂蜜的谱图特征，进而实现真假蜂蜜的判别，可以有效地检测蜂蜜中是否掺入糖浆。

发明内容

本发明的目的是提供一种基于特征选择和机器学习算法的洋槐蜜真伪鉴别方法(下文中提到的蜂蜜或样品均指洋槐蜜)RF-XGBoost，其中特征选择主要基于随机森林算法(Random Forest，RF)，机器学习算法使用XGBoost。该方法主要包括：采集真假蜂蜜样品并生成蜂蜜数据、对蜂蜜数据记录进行真假标注得到洋槐蜜数据集、通过特征选择得到低维洋槐蜜数据集、构建蜂蜜真假鉴别模型(RF-XGBoost)、模型参数优化和模型验证。之后就可以利用该模型RF-XGBoost对待测蜂蜜进行真伪鉴别。

针对上述目的，本发明技术方案是：

一种基于特征选择和机器学习算法的洋槐蜜真伪鉴别方法RF-XGBoost，该方法包含下列步骤：

A：采集和制备真假蜂蜜样品并生成洋槐蜜数据。

本方法中蜂蜜数据获取主要通过核磁共振技术，对蜂蜜样品进行NOESY 1D检测，得到检测样品的核磁共振氢信号谱图，进而对谱图进行数字化转换，得到反映样品谱图特征的洋槐蜜数据。具体方法如下：

A1:采集和制备真假蜂蜜样品。直接从蜂场，按照事先制定的程序，采集真实蜂蜜样品若干；制备掺假蜂蜜样品若干，掺假蜂蜜样品主要是通过在真实蜂蜜样品中添加一定比例的不同来源的糖浆而获得，比例一般在10％～90％之间。

A2:采用核磁共振波谱仪对真假蜂蜜样品进行检测，得到蜂蜜样品的核磁共振氢信号谱图。谱图使用核磁波谱仪的采集和处理软件VnmrJ 4.2进行相位调整、设定内标物的化学位移原点(内标物TSP)得到。谱图的形状反映了被测样品所含组分及其含量，是鉴别蜂蜜真伪的重要依据。

A3：对蜂蜜样品的核磁共振氢信号谱图进行数字化和归一化。使用核磁数据分析处理辅助软件MestroNova 11.0对谱图进行等间隔积分并提取核磁数据，选取化学位移在0.53～9.53ppm(不包含4.78～4.98ppm的水峰信号)区间的信号，并对谱图以0.05ppm为间隔进行等间隔分段积分，采用峰面积归一化得到样品的分段积分。分段积分的方法如公式(1)-(3)：

P＝{P₀,P₁,P₂,···P_i,···P_N-2,P_N-1} (2)

其中，A为化学位移在0.53～9.53ppm区域内总积分面积；A_i为该积分区域内第i个分段积分面积；N为分段的个数，本专利里等于176；P_i为归一化后第i个分段积分值。

由此得到代表该样品的一条数据记录，该记录具有176个属性值或特征值，这些特征值的分布反映了该样品核磁共振氢信号谱图的轮廓，即蜂蜜各组分含量分布。对每一个洋槐蜜样品进行上述步骤，得到一系列具有176个特征的真假洋槐蜜数据记录，即洋槐蜜数据。

B：对洋槐蜜数据记录进行真假标注得到洋槐蜜数据集。

对步骤A中得到的洋槐蜜数据中的每一条记录添加真假标签，真实蜂蜜标注“0”，掺假蜂蜜标注“1”。最后为了在实际测试中更加方便地使用数据，给每一条记录按照一定规则再添加一个样本名称，故此时得到具有176+2＝178维的洋槐蜜数据集，记为D。

C：通过特征选择得到低维的洋槐蜜数据集D′。

洋槐蜜数据集D中有反映核磁共振氢信号谱图形状的176个特征，记为C(C₁,C₂,…,C_j,…,C₁₇₆)，使用随机森林算法得到洋槐蜜数据集D中每个特征C_j的重要性大小，并对特征按重要性大小进行排序；然后选取前p个特征为最终特征集合，这可以缓解因维数较大而导致的训练时间过长的问题，同时降低学习任务的难度。根据选取的前p个特征集合得到低维的洋槐蜜数据集，记为D′，用于XGBoost模型的构建和训练。随机森林由多棵二叉决策树组成，决策树(分类树)使用基尼指数(Gini)选择最优特征，同时决定该特征的最优二值切分点；Gini值表示洋槐蜜样本集合的不确定性，Gini值越大，集合的不确定性就越大。Gini指数的计算方式如式(4)：

式中，GI_m为决策树中节点m的Gini值；p_mk代表节点m中样本属于第k类的概率估计值，K代表样本集的类别个数。因本鉴别方法种类别为真蜂蜜和假蜂蜜两类，即K＝2，此时，设p_m1＝p_m，则p_m2＝(1-p_m),带入式(4)得到节点m的Gini计算方式为式(5)：

GI_m＝2p_m(1-p_m) (5)

式中，p_m为洋槐蜜样本在节点m属于任意一类的概率估计值。其中每个节点m中对应的是洋槐蜜样本集合。

假设决策树分枝时，洋槐蜜数据集合D根据特征F是否取某一可能的值f被分割成D₁和D₂两部分，即：D₁＝{(x,y)∈D|F(x)＝f},D₂＝D-D₁,其中x为洋槐蜜样本，y为样本x对应的标签值。则在特征F在取值f的条件下，集合D的基尼指数定义为式(6)：

其中，和/>由式(5)计算，|D|表示集合D中样本的个数。

C1：构建随机森林。

(1)从洋槐蜜数据集D中随机有放回的选择S个洋槐蜜样本，共进行n次采样，生成n个洋槐蜜样本集合，记为D₁,D₂,…,D_n。

(2)对迭代次数i＝1,2,3,…,n，有：

(2a)计算176个特征对D_i的基尼指数。此时，对每一个特征C_j，对其可能取的每个值C_js(1<＝|s|<＝|S|),按照D_i中的样本是否满足条件C_j＝C_js，将D_i划分为D_i1和D_i2两部分，使用式(6)计算C_j＝C_js时集合D_i的基尼指数(2b)根据(2a)计算出每一个特征C及其所有可能值(切分点)对D_i的基尼指数，选择使洋槐蜜样本集合D_i的基尼指数最小的特征及其对应的值作为最优特征和最优切分点，依据选择的最优特征和最优切分点，进行现节点的分枝而生成两个子节点，两个子节点分别对应集合D_i1和D_i2；此时，D_i中的样本依据最优特征和最优切分点分配到两个子节点中。

(2c)对生成的子节点D_i1和D_i2，分别执行步骤(2a)和(2b)得到新的两个子节点。对之后生成的所有子节点均执行步骤(2a)和(2b)，直到满足停止条件(节点中的样本个数小于预定的值)，生成一棵二叉决策树Tr_i。

(3)得到n棵二叉决策树(Tr₁,Tr₂,…,Tr_n)，生成的n棵二叉决策树组成随机随林。

C2：特征重要性评估。计算洋槐蜜数据集D中每个特征在随机森林中的每棵决策树上做了多大的贡献，然后取平均值，得到每个特征的贡献程度即重要程度，它通常使用基尼(Gini)指数来计算，用VIM表示特征的重要性评分。

计算特征C_j在节点m中的重要性，即决策树中的节点m分枝前后的Gini指数变化量，由式(7)所得：

其中GI_L和GI_R分别表示分枝之后两个新节点的Gini指数。

如果特征C_j在第l棵决策树中出现M次，则C_j在第l棵树的重要性为：

随机森林共有n棵决策树时，特征C_j在随机森林的重要性通过式(9)求得：

最后把所有求得的重要性进行归一化处理，得到重要性特征C_j的评分VIM_j：

C3：特征选取。使用步骤C2得到洋槐蜜数据集D中176个特征的重要性评分，根据重要性进行降序排序之后得到特征序列λ(λ₁,λ₂,…,λ_p,…,λ₁₇₆)，假定阈值为γ(为了保证保留足够的信息，一般γ≧90％)，当前p个特征的重要性之和大于等于γ，即时，选择λ₁,λ₂,…,λ_p为最终的特征集合，得到p+2维(随机森林选取的p维数据集+真伪标注维和样本名称维)的洋槐蜜数据集D′。

D：构建并训练基于XGBoost的洋槐蜜真伪鉴别模型，得到训练好的洋槐蜜真伪鉴别模型。

D1：基于步骤C中得到的具有p+2维的洋槐蜜数据集D′，构建洋槐蜜真伪鉴别模型(记为RF-XGBoost)。

XGBoost是一个树集成模型，不断地进行特征分裂来生长一棵树，其中用损失函数的增益作为特征的分裂准则。在训练生成决策树时，针对洋槐蜜数据集D′的训练样本，设置其总共要生成决策树的个数(n_estimators)、样本子采样比例(subsample)、特征采样比例(colsample_bytree)、树的最大深度(max_depth)和学习率(learning_rate)等参数进行训练。

当训练完成得到K棵树，预测一个洋槐蜜样本x_i时，根据样本x_i的特征，将该样本映射到每棵树中对应的一个叶子节点，每个叶子节点对应一个值，最后其预测值由每棵树对x_i的预测值累加而成。

式中，K是决策树的总数量，f_k(x_i)为第k个决策树对洋槐蜜样本x_i的预测值，F是假设空间，对应了所有K棵决策树的集合，如式(12)所示：

F＝{f(x)＝ω_q(x)}(q:R→T,ω∈R^T) (12)

式中，q(x)表示将洋槐蜜样本x映射到决策树对应的叶子节点中，T是决策树中叶子节点的个数，ω_q(x)是叶子节点对洋槐蜜样本x的预测值。

XGBoost的目标是为了预测值尽量接近真实值y_i，因此其目标函数(Obj)可定义为式(13)所示，由损失函数和正则化项两部分组成：

其中,n为训练样本个数，为损失函数，即训练误差，/>为正则化项，表示树的复杂度，值越小复杂度越低，泛化能力越强，其中正则化项表示为如式(14)所示：

式中，T为叶子节点个数，γ用于控制叶子节点个数，λ通过控制叶子节点的分数来防止过拟合，ω_j叶子节点j的值。

XGBooost最终训练得到K个最优的决策树，从而通过累加每棵树对洋槐蜜样本的预测值得到洋槐蜜样本的最终预测值，所以需要通过训练找到最优的目标函数Obj使得最终预测结果为最优。

D2：训练基于XGBoost的洋槐蜜真伪鉴别模型RF-XGBoost；

XGBoost模型的构建和训练采用scikit-learn机器学习库实现，其中将洋槐蜜数据集D′中70％的样本数据作为训练集，30％的样本数据划分为测试集，进行模型训练。其中参数优化使用scikit-learn的GridSearchCV方法实现，以对数损失函数(LogLoss)为模型评判标准获得最优参数。在本方法中主要对以下参数进行网格搜索以获得最优参数：

(1)决策树的个数(n_estimators),即公式(11)中的K。

(2)决策树的最大深度(max_depth)，在训练时当树深度达到此值时停止分裂。

(3)训练每棵树时，使用的样本占全部训练样本的比例(subsample)和使用的特征占全部特征的比例(colsample_bytree)，用来防止过拟合。

(4)惩罚项系数(gamma)，即公式(14)中的γ，当节点在分裂时，只有大于此值才选择分裂。

(5)学习率(learning_rate),当训练得到一棵决策树后，对决策树的每个叶子节点的分数乘以该值，削弱每棵树的影响，使得之后的建树过程更稳定。

E、对待鉴别的洋槐蜜样品进行NOESY 1D检测，得到待测样品的核磁共振氢信号谱图，并对谱图进行数字化转换，得到反映样品谱图特征的洋槐蜜数据，再利用步骤D中训练好的洋槐蜜真伪鉴别模型进行真伪鉴别。

与现有技术相比，本发明的有益效果是：

本发明提出一种基于特征选择和机器学习算法XGBoost的洋槐蜜真伪鉴别方法。该方法首先使用核磁共振仪器，获取洋槐蜜样品的核磁共振氢信号谱图；然后将谱图数字化为176维的特征向量，并对每一条记录添加真伪标签，形成多个样品的洋槐蜜数据集D；进而使用随机森林算法从176维特征中选取重要特征，得到低维特征的洋槐蜜数据集D′；最后用已标注真伪的洋槐蜜数据集D′对XGBoost模型进行训练，得到基于XGBoost洋槐蜜真伪鉴别模型，并评估模型的准确率。后面将新的数字化后的洋槐蜜数据输入该模型，即可得到输入洋槐蜜的真伪。

与现有方法相比，本发明方法可以有效精准的鉴别洋槐蜜真伪，避免了人工查看谱图进行真伪鉴别的误差。本发明方法中较好结合了核磁共振技术、随机森林算法和XGBoost算法，有效提高了洋槐蜜真伪鉴别的准确率、均方根误差和AUC值，降低了数据特征维数、模型训练时间、模型复杂度和过拟合的风险，是一种鉴别洋槐蜜真伪的有效方法。

附图说明

图1是本发明方法整体流程框图。

图2的(a)为本发明实施例中NOESY 1D(0.5-9.5ppm)检测结果谱图；(b)为区间在0.5-3ppm，纵坐标放大300倍的放大图；(c)为区间在6-9.5ppm，纵坐标放大600倍的放大图。

图3是本发明实施例中对洋槐蜜数据集D进行特征重要性排序图，图中展示重要性程度排前10的特征。

图4是本发明实施例中洋槐蜜数据集D′的特征累计贡献率趋势图。

具体实施方式

下面结合附图，通过实施例进一步描述本发明。

本发明提供一种基于特征选择和机器学习算法XGBoost的洋槐蜜真伪鉴别方法，其中特征选择主要基于随机森林算法。该方法主要包括：采集真假蜂蜜样品并生成蜂蜜数据集、对蜂蜜数据记录进行真假标注、通过特征选择得到低维洋槐蜜数据集、蜂蜜真假鉴别模型(RF-XGBoost)构建、模型参数优化和模型验证。本方法主要针对采集的洋槐蜜样品进行测试，此方法综合了核磁共振技术、随机森林算法和XGBoost算法，能够快速高效方便的鉴别洋槐蜜样品的真伪性。方法流程如图1所示。

在本发明中，制作样品及获取数据主要涉及到的仪器设备及试剂如下：

(1)仪器设备：安捷伦公司Agilent DD2 600MHz核磁共振波谱仪配有5mm二合一宽带OneNMR探头，7510自动进样器；默克化工技术有限公司Merck产Milli-Q Integral超纯水系统；梅特勒-托利多Mettler Toledo的XS104天平和FiveEasy Plus pH计；北京博宇宝卫实验设备公司THZ-82A型恒温水浴振荡器；日本AS ONE TRIO TM-1N涡旋振荡器；德国艾本德Eppendorf公司200μL和1000μL可调节移液器；美国诺雷尔Norell公司5mm核磁管。

(2)试剂：分析纯磷酸二氢钾和氢氧化钾，购自西陇化工股份有限公司；99.9％氘代的重水和98％氘代的2,2,3,3-氘代三甲基硅烷丙酸钠(TSP)购自美国CambridgeIsotope Laboratories；叠氮钠购自MPM biological technology Co.Ltd.；分析纯磷酸购自美国西格玛阿德里齐(Sigma-Aldrich)公司。

本发明具体实施操作步骤为：

A：采集和制备真假蜂蜜样品并生成洋槐蜜数据。

A1:采集和制备真假蜂蜜样品。按照制定的程序从蜂场采集180个真实蜂蜜样品，对其中120个蜂蜜样品添加一定比例的不同来源的糖浆制成糖浆掺假蜂蜜样品，糖浆掺假比例在10％～90％不等。剩余60个蜂蜜样品作为真实蜂蜜样品；

A2:对真假蜂蜜样品采用核磁共振波谱仪进行检测，得到蜂蜜样品的核磁共振氢信号谱图。谱图使用核磁波谱仪的采集和处理软件VnmrJ 4.2进行相位调整和设定内标物TSP得到，其中变化点数设置为64K，线宽因子设置为0.3Hz，设定内标物TSP的峰为0.00ppm进行化学位移定标；

A3：对核磁共振氢信号谱图进行数字化和归一化处理。使用核磁数据分析处理辅助软件MestroNova 11.0对谱图进行等间隔积分并提取核磁数据，选取化学位移在0.53～9.53ppm(不包含4.78～4.98ppm的水峰信号)区间的信号，以0.05ppm为间隔进行等间隔分段积分，采用峰面积归一化得到样品的分段积分。提取的每个样品数据包含176维属性值或特征值，由此得到代表该洋槐蜜样品的数据记录，该记录具有176个特征值，这些特征值的分布反映了该样品核磁共振氢信号谱图的轮廓，即蜂蜜各组分含量分布。

对每一个真假洋槐蜜样品进行A2，A3步骤，得到一系列具有176个特征的真假洋槐蜜数据记录，即洋槐蜜数据，从而实现样品检测数据的数字化。在本实施例中共获得60条真实洋槐蜜数据记录和120条掺假洋槐蜜数据记录组成180条洋槐蜜数据。

B：对洋槐蜜数据记录进行真假标注得到洋槐蜜数据集。

分别对真实蜂蜜和掺假蜂蜜数据记录添加真假标签，对每一条真实蜂蜜数据添加标签，标记为数值“0”，对每一条糖浆掺假蜂蜜数据添加标签，标记为数值“1”，标签特征名记为“result”，即对于真实蜂蜜设定其result＝0，掺假蜂蜜设定其result＝1。其次为了在实际测试中更加方便地使用数据，对每一条数按照一定规则添加了样本名称(sampleName)。此时得到180×178的洋槐蜜数据集D，如表1所示，该数据是经过核磁共振和分段积分，并已标注真假标签和添加了样本名称的部分数据。其每一行为特定样品的特征(积分段)描述，每一列(除sampleName和result)是不同的样品中特定化学位移区间的归一化后的积分面积。

表1洋槐蜜数据集D(部分)

C：通过特征特征选择得到低维的洋槐蜜数据集D′。

使用随机森林算法可以得到洋槐蜜数据集D的每个特征的重要性大小，对特征重要性程度大小进行排序，排前10的特征及其重要性如图3所示；然后选取前p个特征构成最终的特征集合，根据前p个特征集合得到低维的洋槐蜜数据集D′用于XGBoost模型的构建和训练。

C1：构造随机森林。随机森林的建立使用scikit-learn机器学习库实现，其中设置分类器的个数(决策树的总数)为1000；决策树的深度为默认值“None”，即不限制树的深度，最终树的每个叶子节点只有一个类别；划分时的最大特征数设置为“None”，即划分时考虑所有的特征；树中内部节点再划分所需的最小样本数设置为2；决策树做划分时对特征的评价标准(criterion)为“gini”。规定上述参数，满足条件时得到由多颗决策树组成的随机森林。

C2：特征重要性评估。计算洋槐蜜数据集D中每个特征C_j在随机森林中的每棵树上做了多大的贡献，然后取平均值，得到特征C_j的贡献程度即重要性，使用基尼(Gini)指数来计算。

C3：特征选取。对洋槐蜜数据集D的176个特征进行重要性评分，然后根根评分降序排序得到特征序列λ(λ₁,λ₂,…,λ_p,…,λ₁₇₆)，在本实施例中阈值γ设置为90，当前p个特征(本例中为p＝82)的重要性评分之和大于等于γ时，选择λ₁,λ₂,…,λ_p为最终的特征集合，得到82+2＝84维的洋槐蜜数据集D′。其中特征的累计贡献率变化趋势如图4所示，即特征维数由176降为82维。

D：构建并训练基于XGBoost的洋槐蜜真伪鉴别模型。

基于步骤C中得到的洋槐蜜数据集D′以及XGBoost算法原理，利用scikit-learn机器学习库的XGBClassifier方法构建洋槐蜜真伪鉴别模型。将洋槐蜜数据集D′中70％的样本数据作为训练集，30％的样本数据作为测试集，进行模型训练，使用GridSearchCV模型调参方法对XGBClassifier方法中的决策树个数(n_estimators)、决策树的深度(max_depth)、训练样本子采样比例(subsample)、训练样本的特征采样比例(colsample_bytree)、惩罚项系数(gamma)、学习率(learning_rate)进行优化,其中对上述参数的取值范围设置如表2所示，经过GridSearchCV优化之后最佳参数取值如表3所示。

表2 XGBoost算法部分参数取值范围

表3 XGBoost算法部分参数网格优化最佳参数取值

在优化后的模型中使用本实施例中的洋槐蜜数据集D′，准确率达到92.59％，将本发明方法与GBDT(梯度提升决策树)算法，SVM(支持向量机)算法和DT(决策树)算法进行对比，以测试准确率(Accuracy)、均方根误差(RMSE)和AUC值作为评价指标，如表4所示。结果表明，本方法(Random Forest XGBoost,RF-XGBoost)可行，且RF-XGBoost相较于其他算法在三个指标上都有优势。

表4测试集实验结果对比

对待鉴别的洋槐蜜样品进行NOESY 1D检测，得到待测样品的核磁共振氢信号谱图，并对谱图进行数字化转换，得到反映样品谱图特征的洋槐蜜数据，并使用随机森林算法进行特征选择，再利用训练好的洋槐蜜真伪鉴别模型可以进行有效的真伪鉴别。

需要注意的是，公布实施例的目的在于帮助进一步理解本发明，但是本领域的技术人员可以理解：在不脱离本发明及所附权利要求的范围内，各种替换和修改都是可能的。因此，本发明不应局限于实施例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

Claims

1.一种基于特征选择和机器学习算法的洋槐蜜真伪鉴别方法，其特征是，包括：采集真假蜂蜜样品并生成洋槐蜜数据；对洋槐蜜数据进行真假标注得到洋槐蜜数据集；通过谱图特征选择得到低维洋槐蜜数据集；构建蜂蜜真假鉴别模型RF-XGBoost；对模型进行参数优化和模型验证；利用模型对待测蜂蜜进行真伪鉴别；具体包括以下步骤：

A：采集和制备蜂蜜样品，包括真蜂蜜样品和假蜂蜜样品，并生成洋槐蜜数据；

通过核磁共振技术，对蜂蜜样品进行NOESY 1D检测，得到检测蜂蜜样品的一维氢信号谱图，进而对谱图进行数字化转换，得到多个反映洋槐蜜样品谱图特征的真假洋槐蜜数据记录；

B：对洋槐蜜数据记录进行真假标注，得到洋槐蜜数据集；

对步骤A中得到的洋槐蜜数据中的每一条记录添加真假标签属性，用于表示洋槐蜜为真蜂蜜或掺假蜂蜜；每一条记录按照一定规则再添加一个样本名称属性；将得到的洋槐蜜数据集记为D；洋槐蜜数据集D包括反映洋槐蜜样品谱图的多个特征；

C：选择谱图特征；

从洋槐蜜数据集D反映谱图特征的多个特征中选择重要性程度大的前p个特征为最终特征集合，根据最终特征集合得到低维的洋槐蜜数据集，记为D′，用于模型的构建和训练；

具体是采用随机森林算法得到洋槐蜜数据集D中每个特征的重要性大小，并对特征重要性程度大小进行排序；然后选取前p个特征为最终特征集合；包括如下步骤：

C1：构建包含多棵决策树的随机森林；

随机森林中的每一棵决策树均为二叉树，即为一个分类器；决策树中的每个节点表示洋槐蜜数据集的一个子集；节点纯度最高的特征作为最优特征；

C2：特征重要性评估：计算每个特征C_j的重要性评分VIM_j，即计算第j个特征C_j在随机森林所有决策树中节点分裂纯度的平均改变量；

计算洋槐蜜数据集D中每个特征在随机森林中的每棵决策树上的贡献；取平均值，得到每个特征的贡献程度即重要性程度，采用基尼Gini指数表示；Gini指数值越小表示集合中被选中的元素被分错的概率越小，也就是集合的纯度越高；

通过式(4)计算得到Gini指数的值：

式中，GI_m为决策树中节点m的Gini值；p_mk代表节点m中样本属于第k类的概率估计值，K代表样本集的类别个数；

类别分为真蜂蜜和假蜂蜜两个类别，即K＝2，此时节点m的Gini指数为式(5):

GI_m＝2p_m(1-p_m) (5)

其中，p_m为洋槐蜜样本在节点m属于任意一类的概率估计值；

设决策树分枝时，根据特征F是否取某一可能的值f，将洋槐蜜数据集合D分割成D₁和D₂两部分，即：D₁＝{(x,y)∈D|F(x)＝f},D₂＝D-D₁；其中x为洋槐蜜样本，y为样本x对应的标签值；则在特征F在取值f的条件下，集合D的基尼指数定义为式(6)：

其中，和/>由式(5)计算，|D|表示集合D中样本的个数；

特征C_j在节点m中的重要性即决策树中的节点m分枝前后的Gini指数变化量，由式(7)计算得到：

其中，GI_L和GI_R分别表示分枝之后两个新节点的Gini指数；

如果特征C_j在第l棵决策树中出现M次，则C_j在第l棵树的重要性表示为：

若随机森林共有n棵决策树，特征C_j在随机森林中的重要性表示为：

将所有求得的重要性评分进行归一化处理，得到重要性评分VIM_j：

C3：特征选取；包括：

使用洋槐蜜数据集D中176个特征的重要性评分，根据重要性进行降序排序之后得到特征序列λ(λ₁,λ₂,…,λ_p,…,λ₁₇₆)，假定阈值为γ，当前p个特征的重要性之和大于等于γ，即时，选择λ₁,λ₂,…,λ_p为最终的特征集合，得到p+2维的洋槐蜜数据集D′；

D：构建并训练洋槐蜜真伪鉴别模型，得到训练好的洋槐蜜真伪鉴别模型；

D1：基于洋槐蜜数据集D′，利用scikit-learn机器学习库的XGBClassifier方法构建洋槐蜜真伪鉴别模型，记为RF-XGBoost；

基于树集成模型XGBoost，对于每一个洋槐蜜样本x_i，根据式(11)累加多棵树的预测值来计算该样本最终的预测值表示为：

式中，K是决策树的总数量；为样本x_i的预测值；f_k(x_i)为决策树k对洋槐蜜样本x_i的预测值；F是假设空间，表示为式(12)：

F＝{f(x)＝ω_q(x)}(q:R→T,ω∈R^T) (12)

式中，q(x)表示将洋槐蜜样本x映射到决策树对应的叶子节点中，T是决策树中叶子节点的个数，ω_q(x)是叶子节点对洋槐蜜样本x的预测值；

使用目标函数求解每个叶子节点的最优预测值，使得目标函数最小的ω值即为每个叶子节点对洋槐蜜样本的最优预测值；目标函数Obj由损失函数和正则化项两部分组成，表示为式(13)：

其中,为损失函数，即训练误差，Ω(f_k)为正则化项，用于控制模型的复杂度；其中的正则化项表示为式(14)：

式中，T为叶子节点个数；γ用于控制叶子节点个数；λ为通过控制叶子节点的分数，用于防止过拟合；

D2：训练洋槐蜜真伪鉴别模型RF-XGBoost；

将洋槐蜜数据集D′划分为训练数据集和测试数据集；使用训练数据集对RF-XGBoost进行模型训练，采用GridSearchCV模型调参方法对XGBClassifier方法中的参数进行优化，参数包括：决策树个数、决策树的深度、训练样本子采样比例、训练样本的特征采样比例、惩罚项系数、学习率，得到训练好的洋槐蜜真伪鉴别模型；

E、对待鉴别的洋槐蜜样品进行NOESY 1D检测，得到待测样品的一维氢信号谱图；并对谱图进行数字化转换，得到反映样品谱图特征的洋槐蜜数据；利用训练好的洋槐蜜真伪鉴别模型进行洋槐蜜真伪鉴别。

2.如权利要求1所述基于特征选择和机器学习算法的洋槐蜜真伪鉴别方法，其特征是，步骤A生成洋槐蜜数据包括如下具体步骤：

A1:采集真蜂蜜样品和制备掺假蜂蜜样品；

制备掺假蜂蜜样品，掺假蜂蜜样品是通过在真实蜂蜜样品中添加一定比例的不同来源的糖浆而获得，比例为10％～90％；

A2:采用核磁共振波谱仪对真蜂蜜样品和掺假蜂蜜样品进行检测，得到蜂蜜样品的NOESY1D氢信号谱图；

A3：对蜂蜜样品的谱图进行数字化和归一化；

使用核磁数据分析处理辅助软件MestroNova 11.0对谱图进行等间隔积分并提取核磁数据，选取化学位移在0.53～9.53ppm区间的信号，不包含4.78～4.98ppm的水峰信号，并对谱图以0.05ppm为间隔进行等间隔分段积分，采用峰面积归一化得到样品的分段积分；

分段积分方法如式(1)-(3)：

P＝{P₀,P₁,P₂,···P_i,···P_N-2,P_N-1} (2)

其中，A为化学位移在0.53～9.53ppm区域内总积分面积；A_i为该积分区域内第i个分段积分面积；N为分段的个数；P_i为归一化后第i个分段积分值；

由此得到代表该样品的一条数据记录，该记录具有N个属性值或特征值；特征值的分布反映样品核磁谱图的轮廓，即蜂蜜各组分含量分布；

对每一个洋槐蜜样品进行上述步骤，即得到具有N个特征的真假洋槐蜜数据记录，即洋槐蜜数据。

3.如权利要求2所述基于特征选择和机器学习算法的洋槐蜜真伪鉴别方法，其特征是，N取值为176。

4.如权利要求1所述基于特征选择和机器学习算法的洋槐蜜真伪鉴别方法，其特征是，步骤B对洋槐蜜数据记录进行真假标注，具体是：真实蜂蜜标注“0”，掺假蜂蜜标注“1”。

5.如权利要求1所述基于特征选择和机器学习算法的洋槐蜜真伪鉴别方法，其特征是，步骤D2中，将洋槐蜜数据集D′的70％的样本数据作为训练数据集，30％的样本数据划分为测试数据集，用于洋槐蜜真伪鉴别模型RF-XGBoost的模型训练和参数优化。

6.如权利要求1所述基于特征选择和机器学习算法的洋槐蜜真伪鉴别方法，其特征是，步骤D2中，参数优化具体是使用网格搜索优化法。