CN113884594B - 一种基于机器学习算法的掺伪茶油鉴别方法 - Google Patents

一种基于机器学习算法的掺伪茶油鉴别方法 Download PDF

Info

Publication number
CN113884594B
CN113884594B CN202111145754.2A CN202111145754A CN113884594B CN 113884594 B CN113884594 B CN 113884594B CN 202111145754 A CN202111145754 A CN 202111145754A CN 113884594 B CN113884594 B CN 113884594B
Authority
CN
China
Prior art keywords
oil
seed oil
adulterated
data
doped
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111145754.2A
Other languages
English (en)
Other versions
CN113884594A (zh
Inventor
徐友志
付宇新
钟海雁
雷小林
喻望
贺义昌
王召滢
曹冰
符树根
龙晓茵
罗贤飞
孙婷婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University of Forestry and Technology
Jiangxi Academy of Forestry
Original Assignee
Central South University of Forestry and Technology
Jiangxi Academy of Forestry
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University of Forestry and Technology, Jiangxi Academy of Forestry filed Critical Central South University of Forestry and Technology
Priority to CN202111145754.2A priority Critical patent/CN113884594B/zh
Publication of CN113884594A publication Critical patent/CN113884594A/zh
Application granted granted Critical
Publication of CN113884594B publication Critical patent/CN113884594B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/86Signal analysis
    • G01N30/8675Evaluation, i.e. decoding of the signal into analytical information
    • G01N30/8679Target compound analysis, i.e. whereby a limited number of peaks is analysed
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/86Signal analysis
    • G01N30/8696Details of Software
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Pathology (AREA)
  • Immunology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biochemistry (AREA)
  • Analytical Chemistry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Library & Information Science (AREA)
  • Edible Oils And Fats (AREA)

Abstract

本发明公开了一种基于机器学习算法的掺伪茶油鉴别方法,建立了可直接给出油茶籽油样本掺伪种类分类结论的多分类决策树模型。基于掺伪油茶籽油的脂肪酸和甘油三酯实验数据,将二分类决策树和多分类决策树模型应用于高掺伪梯度下和低掺伪梯度下油茶籽油掺伪油种类的鉴别。实验结果显示,二分类决策树在高掺伪梯度下和低掺伪梯度下对油茶籽油样本是否掺伪某种特定的植物油的鉴别准确率均较高,相对于目前油茶籽油掺伪检测采用的统计学数据分析方法具有较为明显的优势,将机器学习方法应用于掺伪鉴别研究中,能有效提取实验数据中隐藏的有价值的信息;利用训练好的模型自动对样本进行掺伪鉴别,可提高结果的准确性、客观性、可靠性。

Description

一种基于机器学习算法的掺伪茶油鉴别方法
技术领域
本发明涉及掺伪油茶籽油鉴别方法技术领域,特别是涉及一种基于机器学习算法的掺伪茶油鉴别方法。
背景技术
油茶是指山茶科山茶属植物中种子油脂含量高,且具有一定经济栽培价值的植物总称。油茶籽油对人体有非常好的保健作用,富含很多营养成分,如油酸、亚油酸、亚麻酸、植物甾醇、茶多酚、山茶甙、角鲨烯等。油茶籽油不仅可预防心脑血管疾病,有降低血糖、血脂等作用,还可以抗氧化、调节人体免疫功能、美容养颜等,如此丰富的医疗保健作用使之甚至可以与橄榄油相媲美。
我国常见的食用植物油包括花生油、大豆油、芝麻油、菜籽油、油茶籽油等。由于各类食用植物油营养价值和功能价值的不同,价格差距较大,导致用低质低价食用油掺伪高质高价食用油的现象屡见不鲜。目前市面上常见的食用植物油的掺伪方式主要有两种:一种是在高质高价食用植物油掺入低质低价的其他食用植物油;另一种是将加工工艺较差的浸出油掺到压榨油中,以次充好。由于掺伪油脂的种类多、掺伪手段复杂,所以准确快速地对掺伪食用植物油进行鉴别具有一定的难度。因此,需要提出有效的方案来解决以上问题。
发明内容
为了解决现有技术存在的问题,本发明的目的是提供一种基于机器学习算法的掺伪茶油鉴别方法,将机器学习方法应用于掺伪鉴别研究中,能有效提取实验数据中隐藏的有价值的信息;利用训练好的模型自动对样本进行掺伪鉴别,可提高结果的准确性、客观性、可靠性。
为达此目的,本发明采用以下技术方案:
一种基于机器学习算法的掺伪茶油鉴别方法,包括如下步骤:
S1、选取若干个不同栽培种以及产地的油茶,通过冷榨方式获得油茶籽油;
S2、利用气相色谱技术及高效液相色谱技术,对所述S1中获得的所述油茶籽油中所含脂肪酸及甘油三酯含量进行测量;
S3、利用气相色谱技术及高效液相色谱技术,对其他种类掺伪油所含脂肪酸及甘油三酯含量进行测量;
S4、设计掺伪油茶籽油油脂模型,分别设计对所述S1中获得的所述油茶籽油中分别掺入不同浓度梯度的植物油的高掺伪梯度模型和低掺伪梯度模型,所述掺伪油茶籽油油脂模型的特征性物质指标值以油茶籽油和掺入植物油的脂肪酸和甘油三酯数据为基础,根据掺伪比例计算得出;
S5、数据预处理及编程平台,根据单一油脂的脂肪酸和甘油三酯的含量,计算出不同浓度掺伪油茶籽油样品中的脂肪酸、甘油三酯、棕榈酸/硬脂酸、油酸/硬脂酸和亚油酸/油酸的比例;
S6、读入掺入各类植物油的掺伪油茶籽油数据,并按照其掺伪种类为其设置分类标签;
S7、进行数据标准化,采取“最大-最小值”标准化方法,利用各属性取值的最大值、最小值和平均值对数据进行标准化,公式如下:
Figure BDA0003285496420000021
其中,x0为未经标准化的原始数据值,xavg为x0对应属性的所有数据的平均值,xmax为x0对应属性的所有数据的最大值,xmin为x0对应属性的所有数据的最小值,x为x0的标准化值;
S8、对整个数据集进行划分,从数据集中随机取出20%的数据作为测试集,剩余80%数据作为训练集。训练集用于训练决策树模型,测试集用于对最终得到的决策树模型的性能进行测试;
S9、按照5折交叉验证方法对模型开展训练和验证,将训练集数据随机分为数量均等的5份,依次取其中1份作为验证集以验证模型的准确性,其余4份数据用于训练模型;
S10、利用全部训练集来训练得到用于可视化展示的决策树分类模型,并利用Python语言下scikit-learn库的tree.export_graphviz函数对决策树模型进行可视化展示。
进一步地,所述S3中所述的其他种类掺伪油为大豆油、棕榈油、棉籽油、米糠油、花生油、葵花籽油、葡萄籽油、菜籽油。
进一步地,所述高掺伪梯度模型为所述油茶籽油中分别掺入浓度梯度为0%、10%、15%、20%、40%、60%、80%的大豆油、棕榈油、棉籽油、米糠油、花生油、葵花籽油、葡萄籽油、菜籽油的掺伪模型;
进一步地,所述低掺伪梯度模型为所述油茶籽油中分别掺入浓度梯度为0%、2%、4%、6%、8%、10%的大豆油、棕榈油、棉籽油、米糠油、花生油、葵花籽油、葡萄籽油、菜籽油的掺伪模型;
进一步地,所述S5中的不同浓度掺伪油茶籽油样品中的脂肪酸、甘油三酯、棕榈酸/硬脂酸、油酸/硬脂酸和亚油酸/油酸的比例共有14个指标分别为:棕榈酸、硬脂酸、油酸、亚油酸、亚麻酸、ECN40、ECN42、ECN44、ECN46、ECN48、ECN50及棕榈酸/硬脂酸(A)、油酸/硬脂酸(B)和亚油酸/油酸(C)。
进一步地,所述S6中分类标签为多分类决策树模型中样本的标签共分为9类,分别是“纯油茶籽油”、“掺伪米糠油的油茶籽油”、“掺伪玉米油的油茶籽油”、“掺伪棕榈油的油茶籽油”、“掺伪葵花籽油的油茶籽油”、“掺伪大豆油的油茶籽油”、“掺伪花生油的油茶籽油”、“掺伪棉籽油的油茶籽油”、“掺伪葡萄籽油的油茶籽油”。
进一步地,所述S9步骤至少重复进行5次。
本发明的有益效果为:
本发明提出的一种基于机器学习算法的掺伪茶油鉴别方法,建立了可直接给出油茶籽油样本掺伪种类分类结论的多分类决策树模型,基于掺伪油茶籽油的脂肪酸和甘油三酯实验数据,将二分类决策树和多分类决策树模型应用于高掺伪梯度下和低掺伪梯度下油茶籽油掺伪油种类的鉴别,实验结果显示,二分类决策树在高掺伪梯度下和低掺伪梯度下对油茶籽油样本是否掺伪某种特定的植物油的鉴别准确率均较高。
附图说明
图1为本发明实施例的53种油茶籽油样品脂肪酸和甘油三酯组成及含量分布图;
图2为本发明实施例的作为掺伪油脂的不同种类植物油的脂肪酸和甘油三酯组成及含量分布图;
图3为本发明实施例高掺伪梯度下二分类决策树模型的可视化混淆矩阵;
图4为本发明实施例低掺伪梯度下二分类决策树模型的可视化混淆矩阵。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
(1)油茶品种的选择
选取了53个不同栽培种以及产地的油茶,编号1~53;其中编号为1~30,共30种为来自同一地方同一系列的油茶,通过冷榨方式获得油茶籽油;编号为31~45,共15种为来自同一地方不同系列的油茶,通过冷榨方式获得油茶籽油;其余为分别来自不同地方的普通油茶,编号46~53,均通过冷榨方式获得油茶籽油。
(2)利用气相色谱技术及高效液相色谱技术,对53种不同产地及栽培种的油茶籽油所含脂肪酸及甘油三酯含量进行测量。
53种不同产地及栽培种的油茶籽油的脂肪酸组成主要为以下5种:棕榈酸、硬脂酸、油酸、亚油酸和亚麻酸。其中,每种样本的油酸相对含量最高,亚麻酸相对含量最少。平均含量由低到高排序为亚麻酸(0.50g/100g)、硬脂酸(1.79g/100g)、亚油酸(6.97g/100g)、棕榈酸(8.04g/100g)、油酸(82.71g/100g)。不同产地间的油茶籽油样本脂肪酸组成含量差异不明显。该53种油茶籽油含有ECN40、ECN42、ECN44、ECN46、ECN48、ECN50等6种等价碳数的甘油三酯,平均含量由低到高排序为ECN40(0.02g/100g)、ECN42(0.07g/100g)、ECN44(0.51g/100g)、ECN50(2.19g/100g)、ECN46(5.59g/100g)、ECN48(91.61g/100g)。
53种油茶籽油样品脂肪酸和甘油三酯组成及含量分布图如图1所示,图中横坐标为样品编号,纵坐标为脂肪酸和甘油三酯含量的取值,不同形状的点分别代表不同的脂肪酸和甘油三酯指标。
(3)利用气相色谱技术及高效液相色谱技术,对其他种类掺伪油所含脂肪酸及甘油三酯含量进行测量。
选取了大豆油、棕榈油、棉籽油、米糠油、花生油、葵花籽油、葡萄籽油、菜籽油作为其他种类掺伪油。
葵花籽油、葡萄籽油及菜籽油棕榈酸含量相对米糠油、棉籽油和棕榈油等较低;各种类植物油硬脂酸差异不显著;菜籽油油酸含量最高(62.221g/100g),棉籽油最低(19.48g/100g);亚油酸含量差异也较为明显,葡萄籽油含量最高(70.07g/100g),棕榈油含量最低(12.09g/100g);亚麻酸除大豆油及菜籽油外,其余含量相差不大;大豆油ECN40含量较高(6.7g/100g);葡萄籽油ECN42的含量最高(42.005g/100g),而棕榈油ECN42含量为(0g/100g);棉籽油ECN44(49.42g/100g)含量近米糠油(25.91g/100g)的2倍;米糠油、大豆油、棉籽油的ECN46含量较为接近;棕榈油ECN48含量高达80.14g/100g;各油种ECN50的值也有一定差异。
图2是作为掺伪油脂的不同种类植物油的脂肪酸和甘油三酯组成及含量分布图,横坐标为脂肪酸和甘油三酯等特征性物质指标,纵坐标为特征性物质指标含量值,不同形状的点代表不同种类的食用植物油。
(4)掺伪油茶籽油油脂模型的设计
设计油茶籽油(n=53)中分别掺入浓度梯度为0%、10%、15%、20%、40%、60%、80%的大豆油、棕榈油、棉籽油、米糠油、花生油、葵花籽油、葡萄籽油、菜籽油的掺伪模型作为高掺伪梯度模型。
设计油茶籽油(n=53)中分别掺入浓度梯度为0%、2%、4%、6%、8%、10%的大豆油、棕榈油、棉籽油、米糠油、花生油、葵花籽油、葡萄籽油、菜籽油的掺伪模型作为低掺伪梯度模型。
掺伪模型的特征性物质指标值以油茶籽油和掺入植物油的脂肪酸和甘油三酯数据为基础,根据掺伪比例计算得出。
(5)数据预处理及编程平台
根据单一油脂的脂肪酸和甘油三酯的含量,计算出不同浓度掺伪油茶籽油样品中的脂肪酸、甘油三酯、棕榈酸/硬脂酸、油酸/硬脂酸和亚油酸/油酸的比例共14个指标,分别为:棕榈酸、硬脂酸、油酸、亚油酸、亚麻酸、ECN40、ECN42、ECN44、ECN46、ECN48、ECN50及棕榈酸/硬脂酸(A)、油酸/硬脂酸(B)和亚油酸/油酸(C)。
(6)读入掺入各类植物油的掺伪油茶籽油数据,并按照其掺伪种类为其设置分类标签。
多分类决策树模型中样本的标签共分为9类,分别是“纯油茶籽油”、“掺伪米糠油的油茶籽油”、“掺伪玉米油的油茶籽油”、“掺伪棕榈油的油茶籽油”、“掺伪葵花籽油的油茶籽油”、“掺伪大豆油的油茶籽油”、“掺伪花生油的油茶籽油”、“掺伪棉籽油的油茶籽油”、“掺伪葡萄籽油的油茶籽油”。
(7)进行数据标准化
采取“最大-最小值”标准化方法,利用各属性取值的最大值、最小值和平均值对数据进行标准化,公式如下所示。
Figure BDA0003285496420000071
其中,x0为未经标准化的原始数据值,xavg为x0对应属性的所有数据的平均值,xmax为x0对应属性的所有数据的最大值,xmin为x0对应属性的所有数据的最小值,x为x0的标准化值。
(8)对整个数据集进行划分,从数据集中随机取出20%的数据作为测试集,剩余80%数据作为训练集。训练集用于训练决策树模型,测试集用于对最终得到的决策树模型的性能进行测试。
(9)按照5-折交叉验证方法对模型开展训练和验证
将训练集数据随机分为数量均等的5份,依次取其中1份作为验证集以验证模型的准确性,其余4份数据用于训练模型。以上过程共进行5次,使得训练集中每条数据都能用于训练模型和验证模型准确性。
(10)利用全部训练集来训练得到用于可视化展示的决策树分类模型,并利用Python语言下scikit-learn库的tree.export_graphviz函数对决策树模型进行可视化展示。
实施例一:
(1)读入掺入各类植物油的掺伪油茶籽油数据,并按照其掺伪种类为其设置分类标签。
多分类决策树模型中样本的标签共分为9类,分别是“纯油茶籽油”、“掺伪米糠油的油茶籽油”、“掺伪玉米油的油茶籽油”、“掺伪棕榈油的油茶籽油”、“掺伪葵花籽油的油茶籽油”、“掺伪大豆油的油茶籽油”、“掺伪花生油的油茶籽油”、“掺伪棉籽油的油茶籽油”、“掺伪葡萄籽油的油茶籽油”。
针对高掺伪梯度(浓度梯度0%、10%、15%、20%、40%、60%、80%)下掺入大豆油、花生油、米糠油、棉籽油、葡萄籽油、棕榈油、葵花籽油、菜籽油的油茶籽油,共建立8个二分类决策树模型,用于鉴定样本是否掺伪了上述某种特定的植物油。各二分类模型中,掺入特定植物油的掺伪样本数为318条,标签设置为“1”;掺入其他植物油的掺伪样本数为2226条,标签设置为“0”。
(2)进行数据标准化:采取“最大-最小值”标准化方法,利用各属性取值的最大值、最小值和平均值对数据进行标准化,公式如下所示。
Figure BDA0003285496420000081
其中,x0为未经标准化的原始数据值,xavg为x0对应属性的所有数据的平均值,xmax为x0对应属性的所有数据的最大值,xmin为x0对应属性的所有数据的最小值,x为x0的标准化值。
(3)对整个数据集进行划分,从数据集中随机取出20%的数据作为测试集,剩余80%数据作为训练集。训练集用于训练决策树模型,测试集用于对最终得到的决策树模型的性能进行测试。
(4)按照5-折交叉验证方法对模型开展训练和验证:将训练集数据随机分为数量均等的5份,依次取其中1份作为验证集以验证模型的准确性,其余4份数据用于训练模型。以上过程共进行5次,使得训练集中每条数据都能用于训练模型和验证模型准确性。
(5)此模型的鉴别精度指标如表1所示,二分类决策树模型对高掺伪梯度下是否掺伪某种特定植物油的掺伪茶油的鉴别能力较强,准确率均达到了0.95以上,特别是鉴别是否掺入棕榈油的准确率达到了100%;精确率均达到了0.96以上,鉴别是否掺入米糠油和棕榈油的精确率达到了100%。
表1高掺伪梯度下各二分类决策树模型的掺伪鉴别精度指标值
Figure BDA0003285496420000091
Figure BDA0003285496420000101
(6)此模型的混淆矩阵图3中,纵轴代表真实标签值,横轴代表预测标签值,单元格的颜色代表了在5-折交叉验证下对应分类结果概率值的高低,概率越高颜色越深。
如图3所示,高掺伪梯度下各二分类决策树模型对未知样本是否掺伪某种特定的植物油具有较好的鉴别能力。混淆矩阵中绝大部分元素集中在主对角线上,属于分类预测正确的样本。
以下展示各二分类模型的混淆矩阵的具体取值,如表2所示。
表2高掺伪梯度下各二分类决策树模型的混淆矩阵
Figure BDA0003285496420000102
实施例二:
(1)读入掺入各类植物油的掺伪油茶籽油数据,并按照其掺伪种类为其设置分类标签。
多分类决策树模型中样本的标签共分为9类,分别是“纯油茶籽油”、“掺伪米糠油的油茶籽油”、“掺伪玉米油的油茶籽油”、“掺伪棕榈油的油茶籽油”、“掺伪葵花籽油的油茶籽油”、“掺伪大豆油的油茶籽油”、“掺伪花生油的油茶籽油”、“掺伪棉籽油的油茶籽油”、“掺伪葡萄籽油的油茶籽油”。
针对低掺伪梯度(浓度梯度0%、2%、4%、6%、8%、10%)下掺入大豆油、花生油、米糠油、棉籽油、葡萄籽油、棕榈油、葵花籽油、菜籽油的油茶籽油,共建立8个二分类决策树模型,用于鉴定样本是否掺伪了上述某种特定的植物油。各二分类模型中,掺入特定植物油的掺伪样本数为265条,标签设置为“1”;掺入其他植物油的掺伪样本数为1855条,标签设置为“0”。利用sklearn.tree库中的DecisionTreeClassifier函数构建决策树模型。
(2)进行数据标准化:采取“最大-最小值”标准化方法,利用各属性取值的最大值、最小值和平均值对数据进行标准化,公式如下:
Figure BDA0003285496420000111
其中,x0为未经标准化的原始数据值,xavg为x0对应属性的所有数据的平均值,xmax为x0对应属性的所有数据的最大值,xmin为x0对应属性的所有数据的最小值,x为x0的标准化值。
(3)对整个数据集进行划分,从数据集中随机取出20%的数据作为测试集,剩余80%数据作为训练集。训练集用于训练决策树模型,测试集用于对最终得到的决策树模型的性能进行测试。
(4)按照5-折交叉验证方法对模型开展训练和验证:将训练集数据随机分为数量均等的5份,依次取其中1份作为验证集以验证模型的准确性,其余4份数据用于训练模型。以上过程共进行5次,使得训练集中每条数据都能用于训练模型和验证模型准确性。
(5)此模型的鉴别精度指标如表3所示,二分类决策树模型对低掺伪梯度下是否掺伪某种特定植物油的掺伪油茶籽油的鉴别能力较强,准确率均达到0.96以上。
表3低掺伪梯度下各二分类决策树模型的掺伪鉴别精度指标值
Figure BDA0003285496420000121
Figure BDA0003285496420000131
(6)此模型的混淆矩阵图4中,纵轴代表真实标签值,横轴代表预测标签值,单元格的颜色代表了在5-折交叉验证下对应分类结果概率值的高低,概率越高颜色越深。
如图4所示,低掺伪梯度下各二分类决策树模型对未知样本是否掺伪某种特定的植物油具有较好的鉴别能力。混淆矩阵中绝大部分元素集中在主对角线上,属于分类预测正确的样本。
以下展示各二分类模型的混淆矩阵的具体取值,如表4所示。
表4低掺伪梯度下各二分类决策树模型的混淆矩阵
Figure BDA0003285496420000132
Figure BDA0003285496420000141
如上即为本发明的实施例。上述实施例以及实施例中的具体参数仅是为了清楚表述发明验证过程,并非用以限制本发明的专利保护范围,本发明的专利保护范围仍然以其权利要求书为准,凡是运用本发明的说明书及附图内容所作的等同结构变化,同理均应包含在本发明的保护范围内。

Claims (2)

1.一种基于机器学习算法的掺伪茶油鉴别方法,包括如下步骤:
S1、选取若干个不同栽培种以及产地的油茶,通过冷榨方式获得油茶籽油;
S2、利用气相色谱技术及高效液相色谱技术,对所述S1中获得的所述油茶籽油中所含脂肪酸及甘油三酯含量进行测量;
S3、利用气相色谱技术及高效液相色谱技术,对其他种类掺伪油所含脂肪酸及甘油三酯含量进行测量;
S4、设计掺伪油茶籽油油脂模型,分别设计对所述S1中获得的所述油茶籽油中分别掺入不同浓度梯度的植物油的高掺伪梯度模型和低掺伪梯度模型,所述掺伪油茶籽油油脂模型的特征性物质指标值以油茶籽油和掺入植物油的脂肪酸和甘油三酯数据为基础,根据掺伪比例计算得出,所述高掺伪梯度模型为针对所述油茶籽油中分别掺入浓度梯度为0%、10%、15%、20%、40%、60%、80%的大豆油、棕榈油、棉籽油、米糠油、花生油、葵花籽油、葡萄籽油、菜籽油的高掺伪梯度建立8个二分类决策树模型,所述低掺伪梯度模型为针对所述油茶籽油中分别掺入浓度梯度为0%、2%、4%、6%、8%、10%的大豆油、棕榈油、棉籽油、米糠油、花生油、葵花籽油、葡萄籽油、菜籽油的低掺伪梯度建立8个二分类决策树模型;
S5、数据预处理及编程平台,根据单一油脂的脂肪酸和甘油三酯的含量,计算出不同浓度掺伪油茶籽油样品中的脂肪酸、甘油三酯、棕榈酸/硬脂酸、油酸/硬脂酸和亚油酸/油酸的比例,所述S5中的不同浓度掺伪油茶籽油样品中的脂肪酸、甘油三酯、棕榈酸/硬脂酸、油酸/硬脂酸和亚油酸/油酸的比例共有14个指标分别为:棕榈酸、硬脂酸、油酸、亚油酸、亚麻酸、ECN40、ECN42、ECN44、ECN46、ECN48、ECN50及棕榈酸/硬脂酸、油酸/硬脂酸和亚油酸/油酸;
S6、读入掺入各类植物油的掺伪油茶籽油数据,并按照其掺伪种类为其设置分类标签;
S7、进行数据标准化,采取“最大-最小值”标准化方法,利用各属性取值的最大值、最小值和平均值对数据进行标准化,公式如下:
Figure FDA0004235545300000021
其中,x0为未经标准化的原始数据值,xavg为x0对应属性的所有数据的平均值,xmax为x0对应属性的所有数据的最大值,xmin为x0对应属性的所有数据的最小值,x为x0的标准化值;
S8、对整个数据集进行划分,从数据集中随机取出20%的数据作为测试集,剩余80%数据作为训练集,训练集用于训练决策树模型,测试集用于对最终得到的决策树模型的性能进行测试;
S9、按照5折交叉验证方法对模型开展训练和验证,将训练集数据随机分为数量均等的5份,依次取其中1份作为验证集以验证模型的准确性,其余4份数据用于训练模型,所述S9步骤至少重复进行5次,高掺伪梯度下各二分类决策树模型对未知样本是否掺伪某种特定的植物油具有较好的鉴别能力,混淆矩阵中绝大部分元素集中在主对角线上,属于分类预测正确的样本;低掺伪梯度下各二分类决策树模型对未知样本是否掺伪某种特定的植物油具有较好的鉴别能力,混淆矩阵中绝大部分元素集中在主对角线上,属于分类预测正确的样本;
S10、利用全部训练集来训练得到用于可视化展示的决策树分类模型,并利用Python语言下scikit-learn库的tree.export_graphviz函数对决策树模型进行可视化展示。
2.如权利要求1所述的一种基于机器学习算法的掺伪茶油鉴别方法,其特征在于:
所述S6中分类标签为多分类决策树模型中样本的标签共分为9类,分别是“纯油茶籽油”、“掺伪米糠油的油茶籽油”、“掺伪玉米油的油茶籽油”、“掺伪棕榈油的油茶籽油”、“掺伪葵花籽油的油茶籽油”、“掺伪大豆油的油茶籽油”、“掺伪花生油的油茶籽油”、“掺伪棉籽油的油茶籽油”、“掺伪葡萄籽油的油茶籽油”。
CN202111145754.2A 2021-09-28 2021-09-28 一种基于机器学习算法的掺伪茶油鉴别方法 Active CN113884594B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111145754.2A CN113884594B (zh) 2021-09-28 2021-09-28 一种基于机器学习算法的掺伪茶油鉴别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111145754.2A CN113884594B (zh) 2021-09-28 2021-09-28 一种基于机器学习算法的掺伪茶油鉴别方法

Publications (2)

Publication Number Publication Date
CN113884594A CN113884594A (zh) 2022-01-04
CN113884594B true CN113884594B (zh) 2023-06-23

Family

ID=79007579

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111145754.2A Active CN113884594B (zh) 2021-09-28 2021-09-28 一种基于机器学习算法的掺伪茶油鉴别方法

Country Status (1)

Country Link
CN (1) CN113884594B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116990409A (zh) * 2023-07-17 2023-11-03 中国科学院兰州化学物理研究所 一种基于角鲨烯和甾醇组成的特级初榨橄榄油鉴别方法
CN117740755A (zh) * 2023-12-21 2024-03-22 国家粮食和物资储备局科学研究院 一种食用植物油真实性判定方法、系统、设备及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113324943A (zh) * 2021-05-10 2021-08-31 华中农业大学 牦牛奶及其掺加奶牛奶的快速鉴别模型
CN113406249A (zh) * 2021-06-16 2021-09-17 江南大学 一种预测茶油中掺假油种类的方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10859552B2 (en) * 2017-06-20 2020-12-08 The Hong Kong Polytechnic University Edible oil analysis system and method

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113324943A (zh) * 2021-05-10 2021-08-31 华中农业大学 牦牛奶及其掺加奶牛奶的快速鉴别模型
CN113406249A (zh) * 2021-06-16 2021-09-17 江南大学 一种预测茶油中掺假油种类的方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
基于特征脂肪酸和不同等价碳数甘油三酯的油茶籽油掺伪鉴别模型的建立;周波 等;中国油脂;第43卷(第11期);第73-79+88页 *
基于近红外光谱的掺伪油茶籽油检测;郭文川 等;农业机械学报;第51卷(第09期);第350-357页 *
机器学习在近红外光谱法判别鲍鱼品种研究中的应用;高婧娴 等;中国农业大学学报;第23卷(第09期);第166-170页 *

Also Published As

Publication number Publication date
CN113884594A (zh) 2022-01-04

Similar Documents

Publication Publication Date Title
CN113884594B (zh) 一种基于机器学习算法的掺伪茶油鉴别方法
Shaw et al. Discrimination of the variety and region of origin of extra virgin olive oils using 13C NMR and multivariate calibration with variable reduction
CN102854291B (zh) 一种适宜花生油加工的花生品质测定方法
CN106501470A (zh) 利用味觉系统与电子鼻联合评价芥辣酱风味等级的方法
CN106896177A (zh) 一种芝麻油中掺伪植物油种类及掺伪量鉴别方法
CN111837824A (zh) 一种基于大数据智慧农业的食用菌种植环境调控管理系统
CN106950241A (zh) 一种预测茶油中其他掺杂油种类及含量的方法
Wang et al. A facile and feasible method to evaluate and control the quality of Jatropha curcus L. seed oil for biodiesel feedstock: Gas chromatographic fingerprint
CN109063783A (zh) 一种盐水鹅品质综合评价方法以及利用该方法构建的品质评价模型
CN102816681A (zh) 一种食醋固态发酵过程中的数字化监测和智能翻醅方法
Arslan et al. Characterization of Turkish olive oils in details
Huang et al. Chromatographic analysis of fatty acid composition in differently sized seeds of castor accessions
CN110089419A (zh) 一种高油酸高产花生的育种方法
Mailer et al. Testing olive oil quality: chemical and sensory methods
CN108196016A (zh) 一种葡萄酒口感量化方法
Parashar Lipid content and fatty acid composition of seed oils from six pomegranate cultivars
CN104770127B (zh) 一种改善富士苹果果实营养品质和香气的施肥方法
McDade et al. A new tabular and diagrammatic method for displaying artificial hybridization data, with an example from Aphelandra (Acanthaceae)
Yang et al. Evolution of phenotypic traits and main functional components in the fruit of ‘Chenggu-32’olives (Olea europaea L.) cultivated in longnan (China)
CN110240980A (zh) 一种红树莓葡萄酒饮品及其制备方法
CN111316909B (zh) 一种高油酸耐旱花生的育种方法
CN110720521A (zh) 一种多营养调和油
CN109329455A (zh) 一种具有调节血脂保护肝脏功能的凉拌营养调和油的制备方法
Dove The relative nature of human preference: with an example in the palatability of different varieties of sweet corn.
Akishin et al. Development of a new method for determining the degree of ripeness of tomato fruits with different colors of ripe fruits

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant