CN113884594B

CN113884594B - 一种基于机器学习算法的掺伪茶油鉴别方法

Info

Publication number: CN113884594B
Application number: CN202111145754.2A
Authority: CN
Inventors: 徐友志; 付宇新; 钟海雁; 雷小林; 喻望; 贺义昌; 王召滢; 曹冰; 符树根; 龙晓茵; 罗贤飞; 孙婷婷
Original assignee: Central South University of Forestry and Technology; Jiangxi Academy of Forestry
Current assignee: Central South University of Forestry and Technology; Jiangxi Academy of Forestry
Priority date: 2021-09-28
Filing date: 2021-09-28
Publication date: 2023-06-23
Anticipated expiration: 2041-09-28
Also published as: CN113884594A

Abstract

本发明公开了一种基于机器学习算法的掺伪茶油鉴别方法，建立了可直接给出油茶籽油样本掺伪种类分类结论的多分类决策树模型。基于掺伪油茶籽油的脂肪酸和甘油三酯实验数据，将二分类决策树和多分类决策树模型应用于高掺伪梯度下和低掺伪梯度下油茶籽油掺伪油种类的鉴别。实验结果显示，二分类决策树在高掺伪梯度下和低掺伪梯度下对油茶籽油样本是否掺伪某种特定的植物油的鉴别准确率均较高，相对于目前油茶籽油掺伪检测采用的统计学数据分析方法具有较为明显的优势，将机器学习方法应用于掺伪鉴别研究中，能有效提取实验数据中隐藏的有价值的信息；利用训练好的模型自动对样本进行掺伪鉴别，可提高结果的准确性、客观性、可靠性。

Description

一种基于机器学习算法的掺伪茶油鉴别方法

技术领域

本发明涉及掺伪油茶籽油鉴别方法技术领域，特别是涉及一种基于机器学习算法的掺伪茶油鉴别方法。

背景技术

油茶是指山茶科山茶属植物中种子油脂含量高，且具有一定经济栽培价值的植物总称。油茶籽油对人体有非常好的保健作用，富含很多营养成分，如油酸、亚油酸、亚麻酸、植物甾醇、茶多酚、山茶甙、角鲨烯等。油茶籽油不仅可预防心脑血管疾病，有降低血糖、血脂等作用，还可以抗氧化、调节人体免疫功能、美容养颜等，如此丰富的医疗保健作用使之甚至可以与橄榄油相媲美。

我国常见的食用植物油包括花生油、大豆油、芝麻油、菜籽油、油茶籽油等。由于各类食用植物油营养价值和功能价值的不同，价格差距较大，导致用低质低价食用油掺伪高质高价食用油的现象屡见不鲜。目前市面上常见的食用植物油的掺伪方式主要有两种：一种是在高质高价食用植物油掺入低质低价的其他食用植物油；另一种是将加工工艺较差的浸出油掺到压榨油中，以次充好。由于掺伪油脂的种类多、掺伪手段复杂，所以准确快速地对掺伪食用植物油进行鉴别具有一定的难度。因此，需要提出有效的方案来解决以上问题。

发明内容

为了解决现有技术存在的问题，本发明的目的是提供一种基于机器学习算法的掺伪茶油鉴别方法，将机器学习方法应用于掺伪鉴别研究中，能有效提取实验数据中隐藏的有价值的信息；利用训练好的模型自动对样本进行掺伪鉴别，可提高结果的准确性、客观性、可靠性。

为达此目的，本发明采用以下技术方案：

一种基于机器学习算法的掺伪茶油鉴别方法，包括如下步骤：

S1、选取若干个不同栽培种以及产地的油茶，通过冷榨方式获得油茶籽油；

S2、利用气相色谱技术及高效液相色谱技术，对所述S1中获得的所述油茶籽油中所含脂肪酸及甘油三酯含量进行测量；

S3、利用气相色谱技术及高效液相色谱技术，对其他种类掺伪油所含脂肪酸及甘油三酯含量进行测量；

S4、设计掺伪油茶籽油油脂模型，分别设计对所述S1中获得的所述油茶籽油中分别掺入不同浓度梯度的植物油的高掺伪梯度模型和低掺伪梯度模型，所述掺伪油茶籽油油脂模型的特征性物质指标值以油茶籽油和掺入植物油的脂肪酸和甘油三酯数据为基础，根据掺伪比例计算得出；

S5、数据预处理及编程平台，根据单一油脂的脂肪酸和甘油三酯的含量，计算出不同浓度掺伪油茶籽油样品中的脂肪酸、甘油三酯、棕榈酸/硬脂酸、油酸/硬脂酸和亚油酸/油酸的比例；

S6、读入掺入各类植物油的掺伪油茶籽油数据，并按照其掺伪种类为其设置分类标签；

S7、进行数据标准化，采取“最大-最小值”标准化方法，利用各属性取值的最大值、最小值和平均值对数据进行标准化，公式如下：

其中，x₀为未经标准化的原始数据值，x_avg为x₀对应属性的所有数据的平均值，x_max为x₀对应属性的所有数据的最大值，x_min为x₀对应属性的所有数据的最小值，x为x₀的标准化值；

S8、对整个数据集进行划分，从数据集中随机取出20％的数据作为测试集，剩余80％数据作为训练集。训练集用于训练决策树模型，测试集用于对最终得到的决策树模型的性能进行测试；

S9、按照5折交叉验证方法对模型开展训练和验证，将训练集数据随机分为数量均等的5份，依次取其中1份作为验证集以验证模型的准确性，其余4份数据用于训练模型；

S10、利用全部训练集来训练得到用于可视化展示的决策树分类模型，并利用Python语言下scikit-learn库的tree.export_graphviz函数对决策树模型进行可视化展示。

进一步地，所述S3中所述的其他种类掺伪油为大豆油、棕榈油、棉籽油、米糠油、花生油、葵花籽油、葡萄籽油、菜籽油。

进一步地，所述高掺伪梯度模型为所述油茶籽油中分别掺入浓度梯度为0％、10％、15％、20％、40％、60％、80％的大豆油、棕榈油、棉籽油、米糠油、花生油、葵花籽油、葡萄籽油、菜籽油的掺伪模型；

进一步地，所述低掺伪梯度模型为所述油茶籽油中分别掺入浓度梯度为0％、2％、4％、6％、8％、10％的大豆油、棕榈油、棉籽油、米糠油、花生油、葵花籽油、葡萄籽油、菜籽油的掺伪模型；

进一步地，所述S5中的不同浓度掺伪油茶籽油样品中的脂肪酸、甘油三酯、棕榈酸/硬脂酸、油酸/硬脂酸和亚油酸/油酸的比例共有14个指标分别为：棕榈酸、硬脂酸、油酸、亚油酸、亚麻酸、ECN40、ECN42、ECN44、ECN46、ECN48、ECN50及棕榈酸/硬脂酸(A)、油酸/硬脂酸(B)和亚油酸/油酸(C)。

进一步地，所述S6中分类标签为多分类决策树模型中样本的标签共分为9类，分别是“纯油茶籽油”、“掺伪米糠油的油茶籽油”、“掺伪玉米油的油茶籽油”、“掺伪棕榈油的油茶籽油”、“掺伪葵花籽油的油茶籽油”、“掺伪大豆油的油茶籽油”、“掺伪花生油的油茶籽油”、“掺伪棉籽油的油茶籽油”、“掺伪葡萄籽油的油茶籽油”。

进一步地，所述S9步骤至少重复进行5次。

本发明的有益效果为：

本发明提出的一种基于机器学习算法的掺伪茶油鉴别方法，建立了可直接给出油茶籽油样本掺伪种类分类结论的多分类决策树模型，基于掺伪油茶籽油的脂肪酸和甘油三酯实验数据，将二分类决策树和多分类决策树模型应用于高掺伪梯度下和低掺伪梯度下油茶籽油掺伪油种类的鉴别，实验结果显示，二分类决策树在高掺伪梯度下和低掺伪梯度下对油茶籽油样本是否掺伪某种特定的植物油的鉴别准确率均较高。

附图说明

图1为本发明实施例的53种油茶籽油样品脂肪酸和甘油三酯组成及含量分布图；

图2为本发明实施例的作为掺伪油脂的不同种类植物油的脂肪酸和甘油三酯组成及含量分布图；

图3为本发明实施例高掺伪梯度下二分类决策树模型的可视化混淆矩阵；

图4为本发明实施例低掺伪梯度下二分类决策树模型的可视化混淆矩阵。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本发明作进一步的详细说明，本发明的示意性实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。

(1)油茶品种的选择

选取了53个不同栽培种以及产地的油茶，编号1～53；其中编号为1～30，共30种为来自同一地方同一系列的油茶，通过冷榨方式获得油茶籽油；编号为31～45，共15种为来自同一地方不同系列的油茶，通过冷榨方式获得油茶籽油；其余为分别来自不同地方的普通油茶，编号46～53，均通过冷榨方式获得油茶籽油。

(2)利用气相色谱技术及高效液相色谱技术，对53种不同产地及栽培种的油茶籽油所含脂肪酸及甘油三酯含量进行测量。

53种不同产地及栽培种的油茶籽油的脂肪酸组成主要为以下5种：棕榈酸、硬脂酸、油酸、亚油酸和亚麻酸。其中，每种样本的油酸相对含量最高，亚麻酸相对含量最少。平均含量由低到高排序为亚麻酸(0.50g/100g)、硬脂酸(1.79g/100g)、亚油酸(6.97g/100g)、棕榈酸(8.04g/100g)、油酸(82.71g/100g)。不同产地间的油茶籽油样本脂肪酸组成含量差异不明显。该53种油茶籽油含有ECN40、ECN42、ECN44、ECN46、ECN48、ECN50等6种等价碳数的甘油三酯，平均含量由低到高排序为ECN40(0.02g/100g)、ECN42(0.07g/100g)、ECN44(0.51g/100g)、ECN50(2.19g/100g)、ECN46(5.59g/100g)、ECN48(91.61g/100g)。

53种油茶籽油样品脂肪酸和甘油三酯组成及含量分布图如图1所示，图中横坐标为样品编号，纵坐标为脂肪酸和甘油三酯含量的取值，不同形状的点分别代表不同的脂肪酸和甘油三酯指标。

(3)利用气相色谱技术及高效液相色谱技术，对其他种类掺伪油所含脂肪酸及甘油三酯含量进行测量。

选取了大豆油、棕榈油、棉籽油、米糠油、花生油、葵花籽油、葡萄籽油、菜籽油作为其他种类掺伪油。

葵花籽油、葡萄籽油及菜籽油棕榈酸含量相对米糠油、棉籽油和棕榈油等较低；各种类植物油硬脂酸差异不显著；菜籽油油酸含量最高(62.221g/100g)，棉籽油最低(19.48g/100g)；亚油酸含量差异也较为明显，葡萄籽油含量最高(70.07g/100g)，棕榈油含量最低(12.09g/100g)；亚麻酸除大豆油及菜籽油外，其余含量相差不大；大豆油ECN40含量较高(6.7g/100g)；葡萄籽油ECN42的含量最高(42.005g/100g)，而棕榈油ECN42含量为(0g/100g)；棉籽油ECN44(49.42g/100g)含量近米糠油(25.91g/100g)的2倍；米糠油、大豆油、棉籽油的ECN46含量较为接近；棕榈油ECN48含量高达80.14g/100g；各油种ECN50的值也有一定差异。

图2是作为掺伪油脂的不同种类植物油的脂肪酸和甘油三酯组成及含量分布图，横坐标为脂肪酸和甘油三酯等特征性物质指标，纵坐标为特征性物质指标含量值，不同形状的点代表不同种类的食用植物油。

(4)掺伪油茶籽油油脂模型的设计

设计油茶籽油(n＝53)中分别掺入浓度梯度为0％、10％、15％、20％、40％、60％、80％的大豆油、棕榈油、棉籽油、米糠油、花生油、葵花籽油、葡萄籽油、菜籽油的掺伪模型作为高掺伪梯度模型。

设计油茶籽油(n＝53)中分别掺入浓度梯度为0％、2％、4％、6％、8％、10％的大豆油、棕榈油、棉籽油、米糠油、花生油、葵花籽油、葡萄籽油、菜籽油的掺伪模型作为低掺伪梯度模型。

掺伪模型的特征性物质指标值以油茶籽油和掺入植物油的脂肪酸和甘油三酯数据为基础，根据掺伪比例计算得出。

(5)数据预处理及编程平台

根据单一油脂的脂肪酸和甘油三酯的含量，计算出不同浓度掺伪油茶籽油样品中的脂肪酸、甘油三酯、棕榈酸/硬脂酸、油酸/硬脂酸和亚油酸/油酸的比例共14个指标，分别为：棕榈酸、硬脂酸、油酸、亚油酸、亚麻酸、ECN40、ECN42、ECN44、ECN46、ECN48、ECN50及棕榈酸/硬脂酸(A)、油酸/硬脂酸(B)和亚油酸/油酸(C)。

(6)读入掺入各类植物油的掺伪油茶籽油数据，并按照其掺伪种类为其设置分类标签。

多分类决策树模型中样本的标签共分为9类，分别是“纯油茶籽油”、“掺伪米糠油的油茶籽油”、“掺伪玉米油的油茶籽油”、“掺伪棕榈油的油茶籽油”、“掺伪葵花籽油的油茶籽油”、“掺伪大豆油的油茶籽油”、“掺伪花生油的油茶籽油”、“掺伪棉籽油的油茶籽油”、“掺伪葡萄籽油的油茶籽油”。

(7)进行数据标准化

采取“最大-最小值”标准化方法，利用各属性取值的最大值、最小值和平均值对数据进行标准化，公式如下所示。

其中，x₀为未经标准化的原始数据值，x_avg为x₀对应属性的所有数据的平均值，x_max为x₀对应属性的所有数据的最大值，x_min为x₀对应属性的所有数据的最小值，x为x₀的标准化值。

(8)对整个数据集进行划分，从数据集中随机取出20％的数据作为测试集，剩余80％数据作为训练集。训练集用于训练决策树模型，测试集用于对最终得到的决策树模型的性能进行测试。

(9)按照5-折交叉验证方法对模型开展训练和验证

将训练集数据随机分为数量均等的5份，依次取其中1份作为验证集以验证模型的准确性，其余4份数据用于训练模型。以上过程共进行5次，使得训练集中每条数据都能用于训练模型和验证模型准确性。

(10)利用全部训练集来训练得到用于可视化展示的决策树分类模型，并利用Python语言下scikit-learn库的tree.export_graphviz函数对决策树模型进行可视化展示。

实施例一：

(1)读入掺入各类植物油的掺伪油茶籽油数据，并按照其掺伪种类为其设置分类标签。

针对高掺伪梯度(浓度梯度0％、10％、15％、20％、40％、60％、80％)下掺入大豆油、花生油、米糠油、棉籽油、葡萄籽油、棕榈油、葵花籽油、菜籽油的油茶籽油，共建立8个二分类决策树模型，用于鉴定样本是否掺伪了上述某种特定的植物油。各二分类模型中，掺入特定植物油的掺伪样本数为318条，标签设置为“1”；掺入其他植物油的掺伪样本数为2226条，标签设置为“0”。

(2)进行数据标准化：采取“最大-最小值”标准化方法，利用各属性取值的最大值、最小值和平均值对数据进行标准化，公式如下所示。

(3)对整个数据集进行划分，从数据集中随机取出20％的数据作为测试集，剩余80％数据作为训练集。训练集用于训练决策树模型，测试集用于对最终得到的决策树模型的性能进行测试。

(4)按照5-折交叉验证方法对模型开展训练和验证：将训练集数据随机分为数量均等的5份，依次取其中1份作为验证集以验证模型的准确性，其余4份数据用于训练模型。以上过程共进行5次，使得训练集中每条数据都能用于训练模型和验证模型准确性。

(5)此模型的鉴别精度指标如表1所示，二分类决策树模型对高掺伪梯度下是否掺伪某种特定植物油的掺伪茶油的鉴别能力较强，准确率均达到了0.95以上，特别是鉴别是否掺入棕榈油的准确率达到了100％；精确率均达到了0.96以上，鉴别是否掺入米糠油和棕榈油的精确率达到了100％。

表1高掺伪梯度下各二分类决策树模型的掺伪鉴别精度指标值

(6)此模型的混淆矩阵图3中，纵轴代表真实标签值，横轴代表预测标签值，单元格的颜色代表了在5-折交叉验证下对应分类结果概率值的高低，概率越高颜色越深。

如图3所示，高掺伪梯度下各二分类决策树模型对未知样本是否掺伪某种特定的植物油具有较好的鉴别能力。混淆矩阵中绝大部分元素集中在主对角线上，属于分类预测正确的样本。

以下展示各二分类模型的混淆矩阵的具体取值，如表2所示。

表2高掺伪梯度下各二分类决策树模型的混淆矩阵

实施例二：

针对低掺伪梯度(浓度梯度0％、2％、4％、6％、8％、10％)下掺入大豆油、花生油、米糠油、棉籽油、葡萄籽油、棕榈油、葵花籽油、菜籽油的油茶籽油，共建立8个二分类决策树模型，用于鉴定样本是否掺伪了上述某种特定的植物油。各二分类模型中，掺入特定植物油的掺伪样本数为265条，标签设置为“1”；掺入其他植物油的掺伪样本数为1855条，标签设置为“0”。利用sklearn.tree库中的DecisionTreeClassifier函数构建决策树模型。

(2)进行数据标准化：采取“最大-最小值”标准化方法，利用各属性取值的最大值、最小值和平均值对数据进行标准化，公式如下：

(5)此模型的鉴别精度指标如表3所示，二分类决策树模型对低掺伪梯度下是否掺伪某种特定植物油的掺伪油茶籽油的鉴别能力较强，准确率均达到0.96以上。

表3低掺伪梯度下各二分类决策树模型的掺伪鉴别精度指标值

(6)此模型的混淆矩阵图4中，纵轴代表真实标签值，横轴代表预测标签值，单元格的颜色代表了在5-折交叉验证下对应分类结果概率值的高低，概率越高颜色越深。

如图4所示，低掺伪梯度下各二分类决策树模型对未知样本是否掺伪某种特定的植物油具有较好的鉴别能力。混淆矩阵中绝大部分元素集中在主对角线上，属于分类预测正确的样本。

以下展示各二分类模型的混淆矩阵的具体取值，如表4所示。

表4低掺伪梯度下各二分类决策树模型的混淆矩阵

如上即为本发明的实施例。上述实施例以及实施例中的具体参数仅是为了清楚表述发明验证过程，并非用以限制本发明的专利保护范围，本发明的专利保护范围仍然以其权利要求书为准，凡是运用本发明的说明书及附图内容所作的等同结构变化，同理均应包含在本发明的保护范围内。

Claims

1.一种基于机器学习算法的掺伪茶油鉴别方法，包括如下步骤：

S4、设计掺伪油茶籽油油脂模型，分别设计对所述S1中获得的所述油茶籽油中分别掺入不同浓度梯度的植物油的高掺伪梯度模型和低掺伪梯度模型，所述掺伪油茶籽油油脂模型的特征性物质指标值以油茶籽油和掺入植物油的脂肪酸和甘油三酯数据为基础，根据掺伪比例计算得出，所述高掺伪梯度模型为针对所述油茶籽油中分别掺入浓度梯度为0％、10％、15％、20％、40％、60％、80％的大豆油、棕榈油、棉籽油、米糠油、花生油、葵花籽油、葡萄籽油、菜籽油的高掺伪梯度建立8个二分类决策树模型，所述低掺伪梯度模型为针对所述油茶籽油中分别掺入浓度梯度为0％、2％、4％、6％、8％、10％的大豆油、棕榈油、棉籽油、米糠油、花生油、葵花籽油、葡萄籽油、菜籽油的低掺伪梯度建立8个二分类决策树模型；

S5、数据预处理及编程平台，根据单一油脂的脂肪酸和甘油三酯的含量，计算出不同浓度掺伪油茶籽油样品中的脂肪酸、甘油三酯、棕榈酸/硬脂酸、油酸/硬脂酸和亚油酸/油酸的比例，所述S5中的不同浓度掺伪油茶籽油样品中的脂肪酸、甘油三酯、棕榈酸/硬脂酸、油酸/硬脂酸和亚油酸/油酸的比例共有14个指标分别为：棕榈酸、硬脂酸、油酸、亚油酸、亚麻酸、ECN40、ECN42、ECN44、ECN46、ECN48、ECN50及棕榈酸/硬脂酸、油酸/硬脂酸和亚油酸/油酸；

S8、对整个数据集进行划分，从数据集中随机取出20％的数据作为测试集，剩余80％数据作为训练集，训练集用于训练决策树模型，测试集用于对最终得到的决策树模型的性能进行测试；

S9、按照5折交叉验证方法对模型开展训练和验证，将训练集数据随机分为数量均等的5份，依次取其中1份作为验证集以验证模型的准确性，其余4份数据用于训练模型，所述S9步骤至少重复进行5次，高掺伪梯度下各二分类决策树模型对未知样本是否掺伪某种特定的植物油具有较好的鉴别能力，混淆矩阵中绝大部分元素集中在主对角线上，属于分类预测正确的样本；低掺伪梯度下各二分类决策树模型对未知样本是否掺伪某种特定的植物油具有较好的鉴别能力，混淆矩阵中绝大部分元素集中在主对角线上，属于分类预测正确的样本；

2.如权利要求1所述的一种基于机器学习算法的掺伪茶油鉴别方法，其特征在于：

所述S6中分类标签为多分类决策树模型中样本的标签共分为9类，分别是“纯油茶籽油”、“掺伪米糠油的油茶籽油”、“掺伪玉米油的油茶籽油”、“掺伪棕榈油的油茶籽油”、“掺伪葵花籽油的油茶籽油”、“掺伪大豆油的油茶籽油”、“掺伪花生油的油茶籽油”、“掺伪棉籽油的油茶籽油”、“掺伪葡萄籽油的油茶籽油”。