CN111426778B - 高分辨质谱技术结合模式识别的橄榄油等级快速鉴定方法 - Google Patents

高分辨质谱技术结合模式识别的橄榄油等级快速鉴定方法 Download PDF

Info

Publication number
CN111426778B
CN111426778B CN202010363278.0A CN202010363278A CN111426778B CN 111426778 B CN111426778 B CN 111426778B CN 202010363278 A CN202010363278 A CN 202010363278A CN 111426778 B CN111426778 B CN 111426778B
Authority
CN
China
Prior art keywords
olive oil
sample
random forest
mass spectrum
samples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010363278.0A
Other languages
English (en)
Other versions
CN111426778A (zh
Inventor
林泓
邓晓军
伊雄海
曾静
时逸吟
赵善贞
宋越
韩丽
郭德华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Agilent Technologies China Co Ltd
Technical Center For Animal Plant and Food Inspection and Quarantine of Shanghai Customs
Original Assignee
Agilent Technologies China Co Ltd
Technical Center For Animal Plant and Food Inspection and Quarantine of Shanghai Customs
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Agilent Technologies China Co Ltd, Technical Center For Animal Plant and Food Inspection and Quarantine of Shanghai Customs filed Critical Agilent Technologies China Co Ltd
Priority to CN202010363278.0A priority Critical patent/CN111426778B/zh
Publication of CN111426778A publication Critical patent/CN111426778A/zh
Application granted granted Critical
Publication of CN111426778B publication Critical patent/CN111426778B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/04Preparation or injection of sample to be analysed
    • G01N30/06Preparation
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/62Detectors specially adapted therefor
    • G01N30/72Mass spectrometers
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/86Signal analysis
    • G01N30/8624Detection of slopes or peaks; baseline correction
    • G01N30/8631Peaks
    • G01N30/8634Peak quality criteria
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/88Integrated analysis systems specially adapted therefor, not covered by a single one of the groups G01N30/04 - G01N30/86

Abstract

本发明公开了一种橄榄油等级鉴定随机森林模型的建立方法,包括如下步骤:步骤一、设置训练集橄榄油样品和QC样品;步骤二、采集橄榄油样品和QC样品的一级质谱信息,经化合物提取获得化合物信息表,基于QC样品对数据进行标准化处理,获得橄榄油样品的质谱数据矩阵;步骤三、采用Welch T检验和差异倍数筛选显著差异化合物作为特征变量,并利用R语言random Forest包建立基于特征变量的橄榄油等级鉴定随机森林模型。本发明还公开了一种基于高分辨质谱技术结合模式识别分析的橄榄油等级快速鉴定方法,能够基于橄榄油等级鉴定随机森林模型进行橄榄油等级鉴定,具有准确性高、操作简便、快速区分不同工艺等级的橄榄油的特点。

Description

高分辨质谱技术结合模式识别的橄榄油等级快速鉴定方法
技术领域
本发明属于橄榄油等级鉴定技术领域,涉及一种高分辨质谱技术结合模式识别分析鉴定橄榄油等级的方法。更具体的说,是关于一种基于LC-ESI-Q-TOF技术结合随机森林模型的橄榄油等级快速鉴定方法。
背景技术
橄榄油是以油橄榄树(Olea europeaea L)的果实为原料制取的油脂,主要产自地中海,在中国的消费历史非常短,国内的橄榄油市场并不规范,橄榄油质量参差不齐。根据加工工艺不同,进口橄榄油的等级可划分为初榨橄榄油、精炼橄榄油和精炼油橄榄果渣油三大类。其中初榨橄榄油,特别是特级初榨橄榄油是橄榄油的顶级产品,往往是掺假行为重灾区。目前橄榄油的掺伪模式主要分为两种:一种是在高价橄榄油中掺入其他低价植物油(如,榛子油、葵花籽油、花生油、菜籽油、大豆油等),可通过测定橄榄油特有的且其他种类的植物油没有的某些指标,或是测定一些橄榄油与其他植物油含量差距较大的指标进行掺伪判定,例如角鲨烯、甾醇烯、生育酚、脂肪酸组成等;而另一种则是将低级别的橄榄油,如精炼橄榄油和精炼油橄榄果渣油添加到特级初榨橄榄油中,由于各等级橄榄油的主要成分类似,这种掺假行为往往难以通过单一的指标测定被发现。当前对橄榄油等级真实性鉴定的检测方法主要包括滴定法、气相色谱法、液相色谱法。这些方法相对比较成熟,稳定性好,灵敏度高,但检测的指标单一,往往需要多个特征指标综合判断,且不同橄榄油各组分的组成和含量受橄榄树品种、地理环境、储存条件、加工方式等多种因素的影响很大,已有特征指标也很难对橄榄油进行准确的质量分级。
安捷伦MassHunter Profinder软件是一款质谱和色谱特征提取软件,采用MFE特征提取算法,也支持用户使用手动积分工具进行提取结果验证,能够从大量复杂的数据集中提取满足一定条件的化合物,生成包括分子量、保留时间、m/z和丰度的化合物完整列表,获得可靠的化合物信息。
随机森林是利用大量决策树对样本进行训练并预测的一种分类器,构建N棵具有分类功能的决策树(构造森林),以分类投票次数结果作为判别结果输出,算法随机选择特征子集,不仅能够处理高纬度数据,还能够在噪音较大或训练集有限的情况下避免过拟合。
发明内容
本发明的第一个目的在于提供一种橄榄油等级鉴定随机森林模型的建立方法。本发明的第二个目的在于提供一种橄榄油等级鉴定随机森林模型,该模型基于品种丰富、来源可靠、确定等级属性的训练集样品建立,能够广泛适用于各产地、各品牌、各工艺的橄榄油等级鉴定。本发明的第三个目的在于提供一种基于高分辨质谱技术结合模式识别分析的橄榄油等级快速鉴定方法,可用于未知橄榄油样品的等级鉴定,具有鉴别正确率高、操作简单、鉴别快速等特点,以解决橄榄油因产地、批次等非工艺因素造成的个体差异较大而难以分级的问题。
为实现上述目的,本发明采用以下技术方案:
作为本发明的第一个方面,一种橄榄油等级鉴定随机森林模型的建立方法,包括如下步骤:
步骤一、设置训练集样本和质量控制(QC)样品
以若干已知等级属性的橄榄油样品作为训练集样本,以训练集样本等比例混合配制成QC样品;QC样品的设置,可以保证后续每批待测样品都有相同的QC样品用于数据校正,从而消除实际应用中不同批次间样品的误差;
步骤二、橄榄油样品的成分检测:同时采集橄榄油样品和QC样品的一级质谱信息并进行化合物提取,接着,基于QC样品进行数据标准化处理,计算橄榄油样品中各化合物含量基于QC样品的化合物含量的相对值,获得橄榄油样品的质谱数据矩阵;
步骤二、橄榄油等级鉴定随机森林模型的建立
采用Welch T检验和差异倍数筛选初榨工艺橄榄油样品和精炼工艺橄榄油样品中的差异化合物作为建模的特征变量,并利用R语言random Forest包建立基于差异化合物的橄榄油等级鉴定随机森林模型。
根据本发明,橄榄油样品的成分检测,包括如下步骤:
A、橄榄油样品的前处理:橄榄油样品和QC样品分别经有机溶剂萃取后获得上机前的待测训练集样品和待测QC样品;
B、质谱数据的采集:采用电喷雾液质联用四级杆飞行时间质谱(LC-ESI-Q-TOF)同时采集步骤A获得的待测训练集样品和待测QC样品的一级质谱信息(橄榄油非靶标质谱数据);
C、质谱数据的预处理:分别对步骤B获得的一级质谱信息进行化合物提取,获得化合物信息表,接着,基于QC样品进行数据标准化处理,计算橄榄油样品中各化合物含量基于QC样品的化合物含量的相对值,获得橄榄油样品的质谱数据矩阵。
根据本发明,筛选特征变量的方法为:只保留在QC样品中全部检出的化合物,以满足对后续各批次样品进行数据标准化的要求,采用Welch T检验筛选在初榨工艺橄榄油样品和精炼工艺橄榄油样品中含量差异显著的化合物(p值经Bonferroni校正后显著水平小于0.05),以差异倍数大于1.5倍的显著差异化合物作为建模所需特征变量,使特征变量数目既能够尽量全面地保留样品信息,又能够有效避免模型的过拟合。
根据本发明,橄榄油等级鉴定随机森林模型是采用R语言randomForest包中的randomForest函数建立,采用有放回采样,设置合理的ntree(决策树数目)和mtry(单个决策树使用特征的最大数量)的值使OOB(袋外错误率)达到最小。
进一步的,所述决策树数目=500,单个决策树使用特征的最大数量=21。
根据本发明,所述质谱数据的预处理,是对提取的化合物进行总丰度归一化、缺失值填充后,基于QC样品对数据进行标准化处理,计算橄榄油样品中各化合物含量基于QC样品的相对值。
根据本发明,质谱数据的预处理方法,包括:(a)剔除在QC样品中无法稳定检出的化合物;(b)以0值填充数据中的缺失值,对数据矩阵进行以2为底的log函数转化;(c)计算化合物在各个橄榄油样品中峰面积与在QC样品中峰面积的比值。
根据本发明,所述的橄榄油样品为来源可靠、工艺属性已知的初榨工艺橄榄油样品、精炼工艺橄榄油样品,其中,初榨工艺橄榄油样品包括特级初榨橄榄油和中级初榨橄榄油,精炼工艺橄榄油样品包括精炼橄榄油和精炼油橄榄果渣油。考虑到橄榄油因产地、批次等非工艺因素造成的个体差异较大,每种等级所需橄榄油样品具有数目不小于10个且需覆盖多个产地、品牌,以满足统计差异性分析和方法适用性的需求。
根据本发明,所述橄榄油样品的前处理,包括:(a)以有机溶剂/水作为萃取液,同时提取脂溶性物质和水溶性物质;(b)萃取后,振荡、离心,取上清液,过滤膜进行过滤得到处理后的待测样品。
进一步的,所述有机溶剂为乙腈,乙腈与水的体积比为7:3。
根据本发明,质谱数据采集时,液相色谱条件为:Poroshell 120EC-C18色谱柱(柱长150mm、内径3.0mm、粒径2.7μm),柱温35℃,进样量2.0μl,流动相中A相为含0.1%甲酸的水相、B相为乙腈,流速0.4ml/min;
质谱条件为:负离子全扫描模式,毛细管电压3500V,干燥气温度325℃,干燥气流速8L/min,雾化气压力45psig,鞘气温度325℃,鞘气流速10L/min,去簇电压130V,锥孔电压65V,质量扫描范围m/z 50-1100,采集速率2.5spectra/s。
根据本发明,所述化合物信息表是采用Mass Profiler Professional的化合物提取功能提取获得。
作为本发明的第二个方面,一种橄榄油等级鉴定随机森林模型,其是通过上述所述的建立方法建立而成。
作为本发明的第三个方面,所述基于高分辨质谱技术结合模式识别分析的橄榄油等级快速鉴定方法,包括如下步骤:
步骤一、待鉴定橄榄油样品的成分检测
A、待鉴定橄榄油样品的前处理:将待鉴定橄榄油样品和上述所述的QC样品分别经有机溶剂萃取后分别获得上机前的待测样品和待测QC样品;
B、质谱数据的采集:采用LC-ESI-Q-TOF同时采集步骤A获得的待测样品和待测QC样品的一级质谱信息(橄榄油非靶标质谱数据);
C、质谱数据的预处理:分别对步骤B获得的一级质谱信息进行化合物提取,获得化合物信息表,接着,基于QC样品进行数据标准化处理,计算橄榄油样品中各化合物含量基于QC样品的化合物含量相对值,获得待测橄榄油样品的质谱数据矩阵;
步骤二、橄榄油等级鉴定随机森林模型的建立
将待测橄榄油样品的特征变量数据代入上述所述的橄榄油等级鉴定随机森林模型进行运算,获得等级鉴定结果。
本发明的第四个方面,一种基于高分辨质谱技术结合模式识别分析的橄榄油等级快速鉴定方法在橄榄油等级鉴定中的应用。
本发明的有益效果是:利用LC-ESI-Q-TOF结合统计建模提供一种橄榄油等级快速鉴定方法。该方法采用了橄榄油等级鉴定随机森林模型,具有鉴定正确率高、操作简单、鉴定快速等特点,为橄榄油等级鉴定提供新的思路。具体体现在:
1、与当前结合单一特征指标的掺假鉴定方法相比,LC-ESI-Q-TOF的非靶标质谱测定结合多变量的模式判别模型用于橄榄油的等级鉴定,获得各级橄榄油可靠的化合物信息,具有优秀的指纹能力,不仅能够提高鉴定的准确性,还能够防止欺诈者针对单一检测指标进行掺假。
2、本发明提供了一种多批次间数据校正的方法,通过设置QC样品,采用同时采集待鉴定橄榄油样品和QC样品的质谱数据,并基于QC样品进行数据标准化的方式,能够在不同批次、不同操作人员、不同仪器响应状态等情况下实现多批次间数据的校正,从而消除实际应用中不同批次间样品的误差,使该橄榄油等级快速鉴定方法广泛适用于大量、多批次橄榄油的等级鉴定。
3、在本发明中,经过与偏最小二乘判别分析(PLS-DA)模型、多变量线性(GLM)模型、支持向量机(SVM)模型等多种模型的综合比对发现,随机森林模型用于橄榄油这种同等级差异范围较大的样品,能够有效避免模型的过拟合,提高模型在实际应用中的准确性。
附图说明
图1为本发明的技术路线图。
图2为初榨和精炼两组橄榄油中的差异化合物。
图3为差异化合物的变化倍数图。
图4为橄榄油等级鉴定随机森林模型。
图5为选用不同特征变量和不同模型的AUC对比。其中,变量筛选方式中,横坐标1为1153个QC中稳定检出化合物,横坐标2为655个经Welch T检验和Bonferroni校正后p值<0.05的显著差异化合物655个,横坐标3为200个差异倍数大于1.5倍的显著差异化合物,横坐标4为65个差异倍数大于2倍的显著差异化合物,横坐标5为22个差异倍数大于4倍的显著差异化合物。圆圈处为最优模型:以200个差异倍数大于1.5倍的显著差异化合物为特征变量,以随机森林模型为建模方法。
图6为橄榄油等级鉴定随机森林模型的ROC分析。
具体实施方式
以下结合具体实施例,对本发明作进一步说明。应理解,以下实施例仅用于说明本发明而非用于限定本发明的范围。下列实施例中未注明具体条件的实验方法,通常按照常规条件进行。
实施例1鉴定橄榄油等级的方法的建立
鉴定橄榄油等级的方法的技术路线如图1所示。具体技术方案如下:
(1)设置训练集样品和QC样品:集不同产地、品牌、批次的确定工艺等级橄榄油样品作为训练集样本,包括12个特级初榨橄榄油和19个精炼橄榄油(见表1);等比例混合所有训练集样本制备QC样品,分装保存于-80℃冰箱中,以保证后续每批待测样品都有相同的QC样品用于数据校正。
(2)样品前处理方案:称取1.0g油样(精确至0.1g),加入1.0mL乙腈:水(7:3,V/V)萃取溶液,振荡提取3min,15000r/min离心5min,取上清液,过0.22μm滤膜,获得待测样品。其中,该油样为不同产地、品牌、批次的确定工艺等级橄榄油样品,包括12个特级初榨橄榄油和19个精炼橄榄油(见表1)。
同样的,称取1.0g QC样品(精确至0.1g),加入1.0mL乙腈:水(7:3,V/V)萃取溶液,振荡提取3min,15000r/min离心5min,取上清液,过0.22μm滤膜,获得待测QC样品。
(3)质谱数据检测方案(质谱数据的采集):用LC-ESI-Q-TOF采集待测训练集样品和QC样品的一级质谱信息。
其中:液相色谱条件为:Poroshell 120EC-C18色谱柱(柱长150mm、内径3.0mm、粒径2.7μm),35℃柱温,1.5μl进样量,流动相中A相为含0.1%甲酸的水相、B相为乙腈,0.4ml/min流速。
质谱条件为:负离子全扫描模式,毛细管电压3500V,干燥气温度325℃,干燥气流速8L/min,雾化气压力45psig,鞘气温度325℃,鞘气流速10L/min,去簇电压130V,锥孔电压65V,质量扫描范围m/z 50-1100,采集速率2.5spectra/s。
(4)质谱数据标准化方案:使用安捷伦MassHunter Profinder软件对采集的一级质谱信息进行化合物提取,获得样品的质谱数据矩阵,用0替换缺失值后,对数据矩阵进行以2为底的log转化,保留在QC样品中稳定检出的化合物,计算各化合物含量基于QC样品的化合物含量的相对值,获得的标准化数据。
(5)建模方案:
根据技术方案(2)、(3)和(4)所述的方案在负模式下共获得训练集橄榄油中化合物1153个;采用Welch T检验获得Bonferroni校正后显著差异化合物655个(如图2所示),其中200个化合物差异倍数大于1.5倍(如图3所示);以上述200个差异化合物作为特征变量,建立随机森林模型(如图4所示),模型生成参数为:允许单个决策树使用特征的最大数量=21,决策树数目=500。
表1训练集橄榄油样品信息
Figure GDA0003637071130000061
Figure GDA0003637071130000071
(5)模型应用方案:用建立的橄榄油等级鉴定随机森林模型,对实际样品进行等级的鉴定。
具体过程为:对待测实际样品进行处理、上样后获得一级质谱信息,对一级质谱信息进行化合物提取,调取其中的特征化合物数据,导入由训练集建立的随机森林模型计算后,获得等级鉴定结果。
应当说明:
由于橄榄油因产地、批次等非工艺因素造成的个体差异较大,每种等级所需橄榄油样品具有数目不小于10个且需覆盖多个产地、品牌,以满足统计差异性分析和方法适用性的需求。
由于后续是橄榄油等级鉴定随机森林模型的建立和预测均建立在由LC-ESI-Q-TOF获得的已知属性橄榄油和待测橄榄油的质谱数据上,为保证模型的适用性,已知属性橄榄油和待鉴定橄榄油样品采用相同的数据采集和预处理方法。
质谱数据采集中应同时检测待测样品和QC样品,质谱数据预处理中基于QC样品对数据进行标准化处理,获得样品的质谱数据矩阵。
橄榄油等级鉴定随机森林模型采用R语言randomForest包中的randomForest函数建立,采用有放回采样,设置合理的ntree(决策树数目)和mtry(单个决策树使用特征的最大数量)的值使OOB(袋外错误率)达到最小。
实施例2橄榄油等级鉴定随机森林模型的实际验证
待测橄榄油样品包括104个初榨橄榄油和8个精炼橄榄油(见表2),均采购自可靠来源,依据实施例1的技术方案(1)、(2)、(3)所述的方法获得测试集样品质谱数据后,提取200个相应特征变量,代入已建立的橄榄油等级鉴定随机森林模型。
判定结果显示,全部8个精炼橄榄油均被正确鉴定为精炼橄榄油,模型特异性为1,104个初榨橄榄油中有101个被正确鉴定为初榨橄榄油,模型灵敏度为0.971。该模型特异性为1,代表其将精炼橄榄油误判为初榨橄榄油的假阳性率为0,非常适用于发现以精炼橄榄油冒充初榨橄榄油的掺假行为。
结论:实施例1的鉴定橄榄油等级的方法的检测结果与实际产品等级相符合,可以快速准确的鉴定橄榄油的等级。
表2 112个测试集橄榄油样品信息
Figure GDA0003637071130000081
Figure GDA0003637071130000091
Figure GDA0003637071130000101
Figure GDA0003637071130000111
Figure GDA0003637071130000121
实施例3基于测试集的多种橄榄油等级鉴定模型的适用性验证
1、本实施例以变化倍数大于1.5倍的显著差异化合物为特征变量建立随机森林模型,并与不同化合物筛选标准和不同建模方法下的模型表现进行比较。
从实施例1的技术方案(4)可以看出,31个确定等级属性的训练集橄榄油样品中共获得检出化合物1153个,经Welch T检验和Bonferroni校正后获得显著差异化合物655个(如图2所示),其中差异倍数大于1.5倍的化合物为200个,差异倍数大于2倍的化合物为65个,差异倍数大于4倍的化合物为22个(如图3所示)。
本实施例分别以各种筛选标准下的化合物作为特征变量,依次基于31个确定等级属性的训练集样本建立PLS-DA、SVM、GLM和随机森林模型。
实验结果显示,无论以上述何种方式筛选特征变量,所建立的各类模型在训练集中的交叉验证结果均显示模型的分类错误率均为0,对训练集中所有样品都具有很好的拟合性。其中以差异倍数大于1.5倍的化合物为特征变量建立的随机森林模型是本发明所确立的用于橄榄油等级鉴定的模型。
2、为了证明本发明所建立模型的适用性,我们将上述所有模型在测试集中进行验证评价。测试集样品均采购自可靠来源,包括104个初榨橄榄油和8个精炼橄榄油,按照方案中所述方法,在获得测试集样品质谱数据后一一代入上述各种模型,进行ROC(receiveroperating characteristic curve)分析,以ROC曲线下面积(AUC)作为模型的的评估指标。不同变量筛选方法和不同模型的AUC值见表3和图5。
表3不同特征变量和不同模型的AUC对比
变量筛选方式 变量数目 PLS-DA SVM GLM 随机森林
QC中稳定测得 1153 0.447 0.762 0.858 0.976
Bonferroni校正<0.05 655 0.668 0.733 0.837 0.986
变化倍数>1.5 200 0.986 0.98 0.837 0.986
变化倍数>2 65 0.986 0.977 0.581 0.986
变化倍数>4 22 0.986 0.981 0.986 0.986
结果显示,(1)当特征变量未经严格筛选时,PLS-DA、SVM和GLM模型在训练集中表现不佳,说明这些模型在训练集中具有显著的过拟合表现,无法推广应用与训练集样本,不具有广泛的适用性。(2)当特征变量为200个差异倍数大于1.5倍的显著差异化合物时,4种模型均能达到最优效果。(3)随着特征变量筛选标准改变,随机森林模型表现最为稳健,而其他模型则在变量筛选程度较低时表现出不同程度过拟合现象,导致模型在测试集中预测效率低。
因此本发明所建立以差异倍数大于1.5倍的显著差异化合物为特征变量建立的随机森林模型为最优的橄榄油等级鉴定模型,参数设置以袋外错误率最小为评价标准,具体为决策树数目=500,单个决策树使用特征的最大数量=21(如图4所示)。ROC分析显示,该模型在测试集中的灵敏度为1,特异性为0.971(如图6所示)。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等同物界定。

Claims (9)

1.一种橄榄油等级鉴定随机森林模型的建立方法,其特征在于,包括如下步骤:
步骤一、设置训练集样本和QC样品
以若干已知等级属性的橄榄油样品作为训练集样本,以训练集样本等比例混合配制成QC样品;
步骤二、橄榄油样品的成分检测
采集橄榄油样品和QC样品的一级质谱信息,经化合物提取获得化合物信息表,基于QC样品对其进行标准化处理,获得橄榄油样品的质谱数据矩阵;
步骤三、橄榄油等级鉴定随机森林模型的建立
采用Welch T检验和差异倍数筛选初榨工艺橄榄油样品和精炼工艺橄榄油样品中的差异化合物作为建模的特征变量,并利用R语言random Forest包建立基于特征变量的橄榄油等级鉴定随机森林模型。
2.如权利要求1所述的橄榄油等级鉴定随机森林模型的建立方法,其特征在于,所述橄榄油样品的成分检测包括如下步骤:
A、橄榄油样品的前处理:橄榄油样品和QC样品分别经有机溶剂萃取后获得上机前的待测训练集样品和待测QC样品;
B、质谱数据的采集:采用LC-ESI-Q-TOF同时采集步骤A获得的待测训练集样品和待测QC样品的一级质谱信息;
C、质谱数据的预处理:分别对步骤B获得的一级质谱信息进行化合物提取,获得化合物信息表,接着,基于QC样品进行数据的标准化处理,计算橄榄油样品中各化合物含量基于QC样品的化合物含量的相对值,获得橄榄油样品的质谱数据矩阵。
3.如权利要求1所述的橄榄油等级鉴定随机森林模型的建立方法,其特征在于,筛选特征变量的方法为:采用Welch T检验筛选在初榨橄榄油样品和精炼橄榄油样品中含量差异显著的化合物,并以差异倍数大于1.5倍的显著差异化合物作为建模所需特征变量。
4.如权利要求1所述的橄榄油等级鉴定随机森林模型的建立方法,其特征在于,其是对提取的化合物进行总丰度归一化、缺失值填充后,基于QC样品对数据进行标准化处理,计算橄榄油样品中各化合物含量基于QC样品的相对值。
5.如权利要求1所述的橄榄油等级鉴定随机森林模型的建立方法,其特征在于,所述的橄榄油样品为来源可靠、工艺属性已知的初榨工艺橄榄油、精炼工艺橄榄油样品,其中初榨工艺橄榄油样品包括特级初榨橄榄油和中级初榨橄榄油,精炼工艺橄榄油样品包括精炼橄榄油和精炼油橄榄果渣油。
6.如权利要求2所述的橄榄油等级鉴定随机森林模型的建立方法,其特征在于,质谱数据采集时,液相色谱条件为:Poroshell 120EC-C18色谱柱,柱温35℃,进样量2.0μL,流动相中A相为含0.1%甲酸的水相、B相为乙腈,流速0.4ml/min;
质谱条件为:负离子全扫描模式,毛细管电压3500V,干燥气温度325℃,干燥气流速8L/min,雾化气压力45psig,鞘气温度325℃,鞘气流速10L/min,去簇电压130V,锥孔电压65V,质量扫描范围m/z 50-1100,采集速率2.5spectra/s。
7.如权利要求1所述的橄榄油等级鉴定随机森林模型的建立方法,其特征在于,橄榄油等级鉴定随机森林模型是采用R语言randomForest包中的randomForest函数建立,采用有放回采样,决策树数目=500,单个决策树使用特征的最大数量=21。
8.如权利要求1所述的橄榄油等级鉴定随机森林模型的建立方法,其特征在于,所述化合物信息表是采用Mass Profiler Professional软件的化合物提取功能提取获得。
9.一种基于高分辨质谱技术结合模式识别分析的橄榄油等级快速鉴定方法,其特征在于,包括如下步骤:
步骤一、待鉴定橄榄油样品的成分检测
A、待鉴定橄榄油样品的前处理:将待鉴定橄榄油样品和权利要求1所述的QC样品分别经有机溶剂萃取后分别获得上机前的待测样品和待测QC样品;
B、质谱数据的采集:采用LC-ESI-Q-TOF同时采集步骤A获得的待测样品和待测QC样品的一级质谱信息;
C、质谱数据的预处理:分别对步骤B获得的一级质谱信息进行化合物提取,获得化合物信息表,接着,基于QC样品的化合物对待测橄榄油样品的化合物进行标准化处理,计算橄榄油样品中各化合物含量基于QC样品的化合物含量的相对值,获得待测橄榄油样品的质谱数据矩阵;
步骤二、待鉴定橄榄油样品的等级鉴定
将待鉴定橄榄油样品的特征变量数据代入权利要求1-8任一项所述的橄榄油等级鉴定随机森林模型进行运算,获得等级鉴定结果。
CN202010363278.0A 2020-04-30 2020-04-30 高分辨质谱技术结合模式识别的橄榄油等级快速鉴定方法 Active CN111426778B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010363278.0A CN111426778B (zh) 2020-04-30 2020-04-30 高分辨质谱技术结合模式识别的橄榄油等级快速鉴定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010363278.0A CN111426778B (zh) 2020-04-30 2020-04-30 高分辨质谱技术结合模式识别的橄榄油等级快速鉴定方法

Publications (2)

Publication Number Publication Date
CN111426778A CN111426778A (zh) 2020-07-17
CN111426778B true CN111426778B (zh) 2022-07-15

Family

ID=71552087

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010363278.0A Active CN111426778B (zh) 2020-04-30 2020-04-30 高分辨质谱技术结合模式识别的橄榄油等级快速鉴定方法

Country Status (1)

Country Link
CN (1) CN111426778B (zh)

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104483414A (zh) * 2014-12-30 2015-04-01 江南大学 一种快速鉴定无锡毫茶等级的检测方法
CN104597193A (zh) * 2014-12-31 2015-05-06 中国农业科学院油料作物研究所 一种花生油掺伪定性鉴别方法
EP3443497A1 (en) * 2016-04-11 2019-02-20 DiscernDx, Inc. Mass spectrometric data analysis workflow
CN106018600B (zh) * 2016-05-23 2018-06-01 中国科学院植物研究所 一种区分假阳性质谱峰信号且定量校正质谱峰面积的代谢组学方法
CN106501470B (zh) * 2016-11-23 2018-10-30 广东嘉豪食品有限公司 利用味觉系统与电子鼻联合评价芥辣酱风味等级的方法
US20200188907A1 (en) * 2017-09-05 2020-06-18 Discerndx, Inc. Marker analysis for quality control and disease detection
CN108918726B (zh) * 2018-08-31 2021-04-06 河南师范大学 地黄根发育过程中大量差异代谢产物的鉴定方法
CN109270182A (zh) * 2018-11-28 2019-01-25 海峡两岸农产品检验检疫技术厦门中心 一种麦卢卡蜂蜜的鉴别方法
CN110163101B (zh) * 2019-04-17 2022-09-23 湖南省中医药研究院 中药材种子区别及等级快速判别方法
CN110836885A (zh) * 2019-12-19 2020-02-25 西安石油大学 一种基于拉曼光谱结合随机森林算法的汽油掺假鉴别分析方法

Also Published As

Publication number Publication date
CN111426778A (zh) 2020-07-17

Similar Documents

Publication Publication Date Title
WO2022041718A1 (zh) 一种茶类判别方法及系统
CN113362899B (zh) 一种基于深度学习的蛋白质质谱数据的分析方法及系统
CN108535375B (zh) 一种基于液质联用代谢组学分析玛咖标志性代谢产物的方法
CN111272931A (zh) 一种茶叶的原产地溯源方法
CN112986431B (zh) 一种基于代谢组学鉴别有机牛奶和常规牛奶的方法
CN111044638A (zh) 一种对不同品种烤烟烟叶分类鉴别的方法
WO2022262132A1 (zh) 一种样品未知成分的液质联用非靶向分析方法
CN101976331A (zh) 一种多组分重叠三维荧光光谱的成分识别方法
CN104182658A (zh) 一种串联质谱谱图鉴定方法
Gröger et al. Application of comprehensive two‐dimensional gas chromatography mass spectrometry and different types of data analysis for the investigation of cigarette particulate matter
CN102128875B (zh) 地沟油的直接化学电离质谱检测方法
CN111426778B (zh) 高分辨质谱技术结合模式识别的橄榄油等级快速鉴定方法
CN108205042B (zh) 一种安化黑茶识别方法
US9989505B2 (en) Mass spectrometry (MS) identification algorithm
CN115792022B (zh) 一种基于感官效应的烟草中滋味物质模型及其构建方法和应用
CN108445134B (zh) 酒类产品鉴别的方法
CN115950979A (zh) 一种用于复杂基质烟草提取物产地溯源的方法
CN113759032B (zh) 油脂掺混鉴别方法
Xiong et al. Characterization of the thermal degradation of vinegar and the construction of an identification model for Chinese geographical indication vinegars by the Py-GC-MS technique
CN112684029A (zh) 一种基于烟叶差异代谢物含量快速检测烟叶成熟度的方法及装置
CN104360004A (zh) 一种利用lc-q-tof结合统计分析鉴别燕窝真伪的方法
CN114814011B (zh) 一种鉴别大曲贮存时间的方法
Sajdak et al. Selection of mineralised methods to analyse different types of matrices. Applying the Box-Cox transformation to chemometrics study the coexistence of heavy metals in natural samples
CN115015437B (zh) 一种基于衍生化的白酒中羧基化合物的高覆盖分析方法
CN114609076B (zh) 一种基于红外光谱的不同品种中宁枸杞鉴别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant