CN116933160A

CN116933160A - 基于脂质特征-机器学习的肉品种和部位鉴别方法

Info

Publication number: CN116933160A
Application number: CN202311204023.XA
Authority: CN
Inventors: 陈丽; 张德权; 刘崇歆; 李少博; 杨琦; 王振宇; 郑晓春; 李程
Original assignee: Institute of Food Science and Technology of CAAS
Current assignee: Institute of Food Science and Technology of CAAS
Priority date: 2023-09-19
Filing date: 2023-09-19
Publication date: 2023-10-24
Anticipated expiration: 2043-09-19
Also published as: CN116933160B

Abstract

本发明公开了一种基于脂质特征‑机器学习的肉品种和部位鉴别方法，包括：步骤一，将畜禽肉样品进行脂质提取，并采用超高效液相色谱串联质谱法进行非靶向脂质组学分析，使用统计学分析方法筛选肉品种和部位的潜在脂质标志物；步骤二，对筛选出的潜在脂质标志物利用机器学习模型进行分析，采用全连接前馈神经网络或反向传播神经网络构建肉的品种判别模型，采用反向传播神经网络构建肉的部位判别模型，并分别进行肉的品种和部位鉴别。本发明能够基于小规模样本精确地识别肉的品种和部位，为肉的脂质分析、品种和部位的安全追溯提供技术支持，具有很强的实用性和推广价值。

Description

基于脂质特征-机器学习的肉品种和部位鉴别方法

技术领域

本发明涉及脂质检测分析的技术领域。更具体地说，本发明涉及一种基于脂质特征-机器学习的肉品种和部位鉴别方法。

背景技术

随着人民群众生活水平的日益提高，人们对于食品安全溯源保持着高度的关注。肉的质量会受到多种因素的影响，如地区、品种、年龄、饲料成分、生长环境和屠宰季节等，通过肉品鉴定和识别进行主动的有效的安全追溯提供新的思路。

目前，多元素法和稳定同位素比值法与化学计量分析相结合，是确定肉类或肉制品来源的常用技术。虽然这些方法可以有效追踪不同的大环境来源的肉，但由于差异不够明显，对于准确区分同一品种畜禽的不同部位或同一环境中不同品种的畜禽可能比较困难。传统的机器学习方法已被广泛用于识别一些具有地理标识的食品中的掺假行为，如葡萄酒、橄榄油、谷物、蜂蜜、鱼和鸡蛋，但是应用于畜禽时，尤其是的区别较小的部位和品种判别，随机森林和支持向量机均显示出较差的分类结果。现在较为流行的人工神经网络方法在食品组学数据处理中的应用很少，主要原因是创建传统训练集的成本较高，通常需要收集大量样本数据。对于小规模样本而言，如何进行定量脂质组学与机器学习结合，进行肉的精确判别，是本申请亟在解决的技术难题。

发明内容

本发明提供一种基于脂质特征-机器学习的肉品种和部位鉴别方法，其能够基于小规模样本精确地识别肉的品种和部位，为肉的脂质分析、品种和部位的安全追溯提供技术支持，具有很强的实用性和推广价值。

为了实现根据本发明的这些目的和其它优点，提供了一种基于脂质特征-机器学习的肉品种和部位鉴别方法，包括：

步骤一，将畜禽肉样品进行脂质提取，并采用超高效液相色谱串联质谱法进行非靶向脂质组学分析，使用多元统计学分析方法筛选肉的品种的潜在脂质标志物和部位的潜在脂质标志物；

步骤二，对筛选出的潜在脂质标志物利用机器学习模型进行分析，采用全连接前馈神经网络或反向传播神经网络构建肉的品种判别模型，采用反向传播神经网络构建肉的部位判别模型，检测肉的品种的潜在脂质标志物和部位的潜在脂质标志物，并分别进行肉的品种和部位判别。

优选的是，畜禽为反刍动物。

优选的是，反刍动物为羊。

优选的是，以甲基叔丁基醚为溶剂进行脂质提取。

优选的是，使用多元统计学方法筛选潜在脂质标志物，参数指标为T检验p值，倍数差异变化FC阈值和OPLS-DA模型VIP值。

优选的是，显著不同脂质的定义标准为p<0.05，FC临界值=2或4，VIP>1。

优选的是，全连接前馈神经网络的隐层节点数为肉的品种的潜在脂质标志物的数量+1，权重衰减系数为0.2，反向传播神经网络的第一隐层有5个节点，第二隐层有6个节点，分别选择logistic函数和交叉熵损失函数作为激活函数和高斯误差函数，最小误差阈值设为0.01。

优选的是，步骤二替换为：

判别肉的品种时，选择部分或全部的潜在脂质标志物组合，先选择预测准确率和交叉验证准确率最高的潜在脂质标志物组合，再逐步去除方差检验F值最低的潜在脂质标志物组合，保留最优的一个组合作为品种的最优潜在脂质标志物，以其为模型参数变量构建多个肉的品种的线性判别模型，构建标准化的正则判别函数；

检测肉的品种的最优潜在脂质标志物的含量，并通过正则判别函数计算不同品种的线性判别值，取高值为确定的品种；以及

判别肉的部位时，选择部分或全部的潜在脂质标志物组合，先选择预测准确率和交叉验证准确率最高的潜在脂质标志物组合，再逐步去除方差检验F值最低的潜在脂质标志物组合，保留最优的一个组合作为部位的最优潜在脂质标志物，以其为模型参数变量构建多个肉的部位的线性判别模型，构建标准化的正则判别函数；

检测肉的部位的最优潜在脂质标志物的含量，并通过正则判别函数计算不同部位的线性判别值，取高值为确定的部位。

优选的是，

步骤一中的畜禽肉样品进行脂质提取具体为：

向畜禽肉样品加入超纯水和脂质内标混合物，匀浆，加入甲基叔丁基醚和预冷的甲醇，涡旋，低温水浴中超声，在温下保存，离心，上层有机馏分被转移，并在氮气氛围中干燥，得到总脂质颗粒；

步骤一中的超高效液相色谱串联质谱法具体为：

将干燥的总脂质颗粒重新溶解在异丙醇/乙腈溶液中，涡旋，离心，注入5μL上清液，用于非靶向脂质组学分析；

采用超高效液相色谱Nexera LC-30A和ACQUITY UPLC CSH C18色谱柱分离，色谱柱温度为45°C，脂质样品采用二元溶剂系统进行洗脱：流动相A包括乙腈：水的体积比为60:40，含0.1%甲酸和0.1mM甲酸铵；流动相B包括乙腈：异丙醇的体积比为10:90，含0.1%甲酸和0.1mM甲酸铵，梯度洗脱流速为300μL/min，梯度洗脱的参数如下：0-2min，30%的流动相B；2-25min，流动相B从30%线性梯度增加至100%；25-35min，30%的流动相B；

采用Q-Exactive Plus以正离子和负离子模式分别对脂质提取物进行质谱分析，正、负离子模式的具体参数如下：加热器温度，300℃；喷雾电压，3000V；鞘气流速，45Arb；毛细管温度，350℃；扫描气流速，1Arb；辅助气流速，15Arb；MS1扫描范围，200-1800Da；S-Lens射频水平，50%。

优选的是，使用统计学分析方法筛选得到的羊的品种的潜在脂质标志物包括：CL(70:6)+H，分子式为C₇₉H₁₄₃O₁₇P₂，矫正质荷比为1425.9795，质谱保留时间为16.078min，CL(71:6)+H，分子式为C₈₀H₁₄₅O₁₇P₂，矫正质荷比为1439.9952，质谱保留时间为16.277min，LPC(16:1e)+H，分子式为C₂₄H₅₁O₆N₁P₁，矫正质荷比为480.3449，质谱保留时间为1.467min，PC(8:1e_10:1)+H，分子式为C₂₆H₅₁O₇N₁P₁，矫正质荷比为520.3398，质谱保留时间为1.434min，PC(16:1e_18:1)+H，分子式为C₄₂H₈₃O₇N₁P₁，矫正质荷比为744.5902，质谱保留时间为10.476min，PC(35:6)+H，分子式为C₄₃H₇₅O₈N₁P₁，矫正质荷比为764.5225，质谱保留时间为8.856min，PC(36:1e)+H，分子式为C₄₄H₈₉O₇N₁P₁，矫正质荷比为774.6371，质谱保留时间为12.919min，PC(37:2e)+Na，分子式为C₄₅H₈₈O₇N₁P₁Na₁，矫正质荷比为808.6191，质谱保留时间为11.035min，PC(39:5e)+H，分子式为C₄₇H₈₇O₇N₁P₁，矫正质荷比为808.6215，质谱保留时间为11.031min，PE(16:0p_17:1)+H，分子式为C₃₈H₇₅O₇N₁P₁，矫正质荷比为688.5276，质谱保留时间为10.759min，PI(36:4e)+NH4，分子式为C₄₅H₈₅O₁2N₁P₁，矫正质荷比为862.5804，质谱保留时间为9.982min，TG(20:5_10:3_22:5)+H，分子式为C₅₅H₈₁O₆，矫正质荷比为837.6028，质谱保留时间为9.476min；

使用统计学分析方法筛选得到的羊的部位的潜在脂质标志物包括：SM(d34:1)+H，分子式为C₃₉H₈₀O₆N₂P₁，矫正质荷比为703.5749，质谱保留时间为9.526min；TG(16:0_10:0_14:0)+NH4，分子式为C₄₃H₈₆O₆N₁，矫正质荷比为712.6450，质谱保留时间为15.716min；TG(16:0_10:0_16:0)+NH4，分子式为C₄₅H₉₀O₆N₁，矫正质荷比为740.6763，质谱保留时间为16.309min；TG(43:6e)+Na，分子式为C₄₆H₇₈O₅Na₁，矫正质荷比为733.5741，质谱保留时间为15.711min；TG(17:0_18:3_18:3)+Na，分子式为C₅₆H₉₆O₆Na₁，矫正质荷比为887.7099，质谱保留时间为16.177min；TG(20:1_11:3_22:5)+H，分子式为C₅₆H₉₁O₆，矫正质荷比为859.6810，质谱保留时间为15.234min；TG(18:0_20:5_20:5)+H，分子式为C₆₁H₉₉O₆，矫正质荷比为927.7436，质谱保留时间为16.381min。

本发明至少包括以下有益效果：

本发明使用小规模样本，通过脂质组学和机器学习算法构建区分肉的品种和部位的可行可靠方法，对不同品种和部位来源的肉的脂质提取和鉴定，进行非靶向脂质组学分析，使用多元统计学方法筛选特出脂质生物标志物，选择机器学习算法构建肉的品种和部位判别模型，建立线性判别模型，进一步提高判别的准确性，为肉的脂质分析、品种和部位的安全追溯提供技术支持，具有很强的实用性和推广价值。

本发明的其它优点、目标和特征将部分通过下面的说明体现，部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。

附图说明

图1为本发明的实施例中的肉的脂质组成质谱结果图；

图2为本发明的实施例中的不同品种和部位的羊体内的(A)总脂质和(B)各类脂质的浓度结果图；

图3为本发明的实施例中的RF方法用于羊品种判别的受试者特性曲线；

图4为本发明的实施例中的SVM方法用于羊品种判别的受试者特性曲线；

图5为本发明的实施例中的FFNN方法用于羊品种判别的受试者特性曲线；

图6为本发明的实施例中的BPNN方法用于羊品种判别的受试者特性曲线；

图7为本发明的实施例中的RF方法用于羊部位判别的受试者特性曲线；

图8为本发明的实施例中的SVM方法用于羊部位判别的受试者特性曲线；

图9为本发明的实施例中的FFNN方法用于羊部位判别的受试者特性曲线；

图10为本发明的实施例中的BPNN方法用于羊部位判别的受试者特性曲线；

图11为本发明的实施例中的FFNN方法用于羊品种判别的视觉结构；

图12为本发明的实施例中的BPNN方法用于羊品种判别的视觉结构；

图13为本发明的实施例中的FFNN方法用于羊部位判别的视觉结构；

图14为本发明的实施例中的BPNN方法用于羊部位判别的视觉结构。

具体实施方式

下面结合附图对本发明做进一步的详细说明，以令本领域技术人员参照说明书文字能够据以实施。

应当理解，本文所使用的诸如“具有”、“包含”以及“包括”术语并不排除一个或多个其它元件或其组合的存在或添加。

需要说明的是，下述实施方案中所述实验方法，如无特殊说明，均为常规方法，所述试剂和材料，如无特殊说明，均可从商业途径获得。

1 实验的准备

实验材料：14种同位素脂质内标(330707-1EA Splash® Lipidomix Mass SpecStandard)，乙腈、异丙醇、甲基叔丁基醚和甲醇均为高效液相色谱级。实验测试中使用的超纯水（>18.2MΩ）由Aquapro 3水纯化系统制备。

2 实验流程

2.1 脂质提取：

在装有50mg肉样的1.5mL离心管中加入200μL超纯水和20μL脂质内标混合物。使用超细匀浆器将混合物匀浆30s（15000r/min，10°C）。然后加入800μL甲基叔丁基醚和240μL预冷的甲醇。将混合物涡旋2min，然后在低温水浴中超声20min。然后将肉样在室温下保存30min，并离心15min（14000g，10°C）。上层有机馏分被转移到一个新的离心管中，并在氮气氛围中干燥。干燥的颗粒（即总脂质）储存在-80°C下，以备进一步的质谱分析。

脂类的提取主要是用的是由Folch和Bligh-Dyer提出的通用的方法，通常会在溶剂使用量和分析基质上做一些改变。Folch的方法使用氯仿/甲醇（2:1,v/v）作为提取溶剂，而Bligh-Dyer的方法使用氯仿/甲醇（1:2,v/v）作为提取溶剂，接着加入1体积的氯仿和1体积的水。氯仿的毒性较大，所以也可以使用毒性较小的二氯甲烷来代替。在使用这些传统的方法时，目标组分收集过程可能会有一些问题产生，因为目标组分在两相溶剂的下层，收集提取液时需要将枪头穿过上层溶剂进入下层溶剂进行吸取，可能会使提取物受到污染。这个问题可以使用MTBE（甲基叔丁基醚）作为提取溶剂进行解决，将MeOH和MTBE（1:5.5,v/v）加入血浆中，接着加入1.25倍量的水使其分层。分层之后，脂类化合物存在于密度较小的有机溶剂中，处于上层，因此使得收集提取溶液变得很容易。另外，相比与氯仿，MTBE毒性很小。这种方法被证明可以提取大多数的脂类化合物（PC、SM、PE、LPC、Cer、ChoIE、TG），且有较高的回收率。

2.2 质谱数据采集：

将干燥的颗粒（即总脂质）重新溶解在200μL异丙醇/乙腈溶液（v:v=9:1）中，然后涡旋。将等分的重新溶解溶液（90μL）离心15 min（14000g，10°C），然后注入5μL上清液，用于基于超高效液相色谱（UHPLC）Q-Exactive Orbitrap质谱的非靶向脂质组学分析。

脂质提取物采用超高效液相色谱Nexera LC-30A和ACQUITY UPLC CSH C18色谱柱（130A, 1.7μm, 2.1mm×100 mm, Waters, Milford, MA, USA）分离。色谱柱温度为45°C。脂质样品采用二元溶剂系统进行洗脱：(1)流动相A:乙腈:水（60:40,v:v），含0.1%甲酸和0.1 mM甲酸铵；(2)流动相B:乙腈:异丙醇（10:90,v:v），含0.1%甲酸和0.1 mM甲酸铵。梯度洗脱流速为300μL/min，参数如下：0-2min，30%的流动相B；2-25min，流动相B从30%线性梯度增加至100%；25-35min，30%的流动相B。

分离后，使用Q-Exactive Plus以正离子和负离子模式分别对脂质提取物进行质谱分析。正、负离子模式的具体参数如下：加热器温度，300℃；喷雾电压，3000V；鞘气流速，45Arb；毛细管温度，350℃；扫描气流速，1Arb；辅助气流速，15Arb；MS1 扫描范围，200-1800Da；S-Lens射频水平，50%。每次全面扫描后收集 10个片段图（MS2扫描，HCD），从而确定脂质片段和分子的质量电荷比。MS1的200Da分辨率为70000，MS2的200Da分辨率为17500。同时，混合等体积的所有样品作为质量控制样品。通过对多个质控（QC）样品进行监测，以确定保留时间偏差、峰面积测量的相对标准偏差（RSD）和质量准确性。

2.3 数据处理：

使用LipidSearch软件（4.2.2.7版；Thermo Fisher Scientific, Waltham, MA,USA）处理获取的质谱数据，包括峰值识别、峰值提取、MS/MS脂质鉴定以及内部脂质标准和脂质分子的定量分析。脂肪酸在类别面板上打勾。在加合物面板中，正极性选择+NH₄，负极性选择-H和-CH₃COO。在脂肪酸优先的条件下，游离脂肪酸和最小异构体峰分别通过顶级过滤器和主节点过滤器进行过滤。分析中使用的参数包括前体容限为5ppm，产物容限为5ppm，产物离子阈值为5%。通过比较提取物的峰面积并使用内部脂质标准的校准曲线，计算出每种脂质的浓度。然后根据每种脂质的浓度总和得出同一脂质亚类的浓度。

2.4 数据分析：

①统计分析

首先使用主成分分析法（PCA）对从LipidSearch提取的数据进行质量评估，使用SPSS 26.0软件包（SPSS Inc、美国伊利诺伊州芝加哥市）。当p<0.05时，不同来源的样品被认为达到了统计学意义水平。

②生物标志物筛选和线性判别模型的建立

采用独立样本T检验、倍数差异变化（FC）分析和正交偏最小二乘法判别分析（OPLS-DA）筛选出潜在的脂质生物标志物，以判别肉的品种或部分来源。对脂质数据进行预处理（样本归一化，方法为总和归一化，数据缩放，方法为自动缩放，数据转换无需进行其他形式转换）后进行统计分析和数据可视化。投影中变量重要性的分数（VIP）来自OPLS-DA。显著不同脂质的定义标准为p<0.05、FC临界值=2（FC>2或<0.5）或4（FC>4或<0.25）、VIP>1。然后将所选生物标志物的定量数据导入SPSS 26.0软件包。通过逐步回归线性判别分析，依次剔除p值最大的标志物，进行进一步筛选。最后选出的脂质生物标志物将用于建立肉来源的线性判别模型。

③利用机器学习方法判别羊肉来源

采用前馈神经网络（FFNN）和反向传播神经网络（BPNN）这两种人工神经网络方法作为分类方法，根据潜在的脂质生物标志物数据预测肉样本的品种和部位来源。同时，选择了两种传统的机器学习方法（随机森林（RF）和支持向量机（SVM））作为对比。所有方法的分析过程均通过基于R语言进行，并同时生成了各机器学习分类模型的接收操作特征曲线（ROC）。每种方法的具体参数设置如下：

- RF选择树的数量为500。

- SVM选择sigmoid函数作为核函数。

- FFNN隐层节点数为k+1，其中k为待筛选生物标记物的数量。权重衰减系数为0.2。

- BPNN第一隐层有5个节点，第二隐层有6个节点。分别选择logistic函数和交叉熵损失函数作为激活函数和高斯误差函数。最小误差阈值设为0.01。

四种方法的分类模型都采用留一交叉验证（LOOCV）方法对样本进行了交叉验证。使用AUC（曲线下面积）评估ROC分析的灵敏度和特异性。AUC结果按以下标准解释：0.6以下=不合格；0.6至0.7=差；0.7至0.8=尚可；0.8至0.9=良好；0.9至1.0=优秀。四种方法的分类性能和准确度通过AUC和总体准确度(OA)进行评估。当然，为了比较分类方法的性能差异，还列出了模型的流行率、检出流行率、检出率、阳性预测值和阴性预测值等结果。

3 实施例：

以滩羊和巴寒杂交羊的背最长肌和霖肉为例，羊的品种为滩羊和巴寒杂交羊，羊的部位为背最长肌和霖肉。

3.1 提取肉样品脂质后分析脂质组成：

阳离子和阴离子模式下的质谱结果，如图1所示，用于鉴定脂质组成和定量。

3.2 脂质鉴定、定量和统计分析：

不同品种和部位的羊体内的(A)总脂质和(B)各类脂质的浓度，如图2所示，TSLD为滩羊的背最长肌，TSKM为滩羊的霖肉，BHLD为巴寒杂交羊的背最长肌，BHKM为巴寒杂交羊霖肉。可以看出不同品种、部位来源的羊肉之间的脂质组成存在差异。UHPLC-Q-ExactiveOrbitrap-MS/MS共鉴定出29类1230个脂质分子，其中含量最高的6类脂质分别为PE（磷脂酰乙醇胺）、TG（甘油三酯）、SPH（鞘磷脂）、WE（蜡酯）、PC（磷脂酰胆碱）和DG（二甘油酯）。不同品种、部位来源的羊肉中有15类脂质存在显著差异（p<0.05）。滩羊的不同部位中的Co（辅酶）、DG和TG有显著差异（p<0.05），而巴寒杂交羊的不同部位中的AcCa（酰基肉碱）、Cer（神经酰胺）、CerP（神经酰胺-1-磷酸）和MG（单酰甘油）有显著差异（p<0.05）。不同品种的羊的背最长肌中的AcCa、Cer、LPE（溶血磷脂酰乙醇胺）和ST（固醇）也存在显著差异，不同品种的羊的霖肉中的Co、DG、LPC（溶血磷脂酰胆碱）、LPE、MG、PC、PE、PIP（磷脂酰肌醇磷酸酯）和TG也存在显著差异。通过脂质组成分析发现的羊体内脂质类别与之前研究发现的大致相同。然而，本申请发现了更多的脂质类别，如CerG2GNAc1（神经酰胺-糖基-（β-1-2）-GlcNAc）、CerP、Hex3Cer（三己基甘油酰胺）、LPG（溶血磷脂酰甘油）、PA（磷脂酸）、phSM（磷酸化鞘磷脂）、PIP、SPHP（1-磷酸鞘磷脂）、ST、StE（甾醇酯）和WE。其他研究所使用的异丙醇提取滩羊肉脂质的方法不同，本申请中使用的MTBE（甲基叔丁基醚）方法可能是造成脂质类别与他们的结果不同的原因，此外还有羊来源、日粮组成、环境和饲养管理等因素。

3.4 标志物筛选：

识别羊品种的潜在脂质标志物如表1所示，识别羊部位的潜在脂质标志物如表2所示，每个值表示为平均值±标准误差（S.E.），表1-2中列出了按统计分析方法部分表述的筛选手段得到的脂质标志物，第一列是代号，第二列是结构式，第三列是分子式，第四列是矫正质荷比（分子质量和电荷量比值），第五列是（在质谱中的）保留时间，最后一列是脂质类别。

表1

表2

为了确定潜在的脂质生物标志物，以区分羊肉的品种来源，首先分别对两个品种的羊（滩羊和巴寒杂交羊）的背最长肌和霖肉的脂质组数据进行了差异脂质分子筛选。将独立样本t检验结果与调整后的p值和FC值相结合，绘制火山图以显示不同品种羊的差异表达脂质。OPLS-DA评分图显示了两个羊品种之间脂质模式的明显区别。利用OPLS-DA模型选择了VIP分数大于1的差异脂质，并将结果显示在Venn图中。

众所周知，羊品种之间的脂质组成差异远大于同一品种不同部位之间的差异。然后分别对滩羊和巴寒杂交羊的两个肉部位（背最长肌和霖肉）的脂质组数据进行了差异脂质分子筛选。OPLS-DA评分图显示了两部位的肉的脂质模式有明显区别。VIP>1也被用来确定分离部位的代表性脂质，其结果显示在Venn图中。

开始对于品种和部位的判别所选取的标准均为p<0.05，FC临界值=2（FC>2或<0.5）和VIP>1。后提高标准，降低筛选出的生物标志物数量，最终标准如下：

品种判别标志物筛选标准为p<0.05，FC临界值=4（FC>4或<0.25）和VIP>1。

部位判别标志物筛选标准为p<0.05，FC临界值=2（FC>2或<0.5）和VIP>1。

这些范围均可根据所需要筛选出的脂质数量进行调整。

通过进一步的Venn分析，选出了用于判别羊品种和羊肉部位的潜在标记物。背最长肌和霖肉中满足差异的脂质被认为对两个部位的肉的判别具有潜在意义。同样，满足滩羊和巴寒杂交羊差异的脂质也被认为对两个品种的肉的判别具有潜在意义。最后，分别确定了12个和7个潜在的脂质生物标志物，以建立羊肉品种（表1）和部位（表2）来源的判别模型。表中还列出了用于鉴定脂质分子的化学式、保留时间和校准质荷比等信息。

3.5 对筛选出的生物标志物机器含量使用机器学习模型进行分析：

本申请使用四种机器学习分类方法，包括两种传统机器学习分类方法RF（随机森林）和SVM（支持向量机）和两种人工神经网络分类方法FFNN（全连接前馈神经网络）和BPNN（反向传播神经网络），试图根据脂质成分预测羊肉的品种或部位来源。四种机器学习分类方法的判别模型在测试集上的详细分类结果和ROC曲线如图3-10所示，图3为RF用于羊品种判别，图4为SVM用于羊品种判别，图5为FFNN用于羊品种判别，图6为BPNN用于羊品种判别，图7为RF用于羊部位判别，图8为SVM用于羊部位判别，图9为FFNN用于羊部位判别，图10为BPNN用于羊部位判别。将脂质标志物及含量使用四种机器学习方法进行分析，AUC越接近1.00则证明模型效果越好，从图中可以看出，RF和SVM效果较差，FFNN在品种（breeds）判别方面效果好，但部位（parts）判别方面也存在无法完全准确判别的情况，BPNN用于羊肉品种和部位判别时效果均最高，对所有样品均能正确有效判别。因此，本方法可以有效判别肉的品种和部位来源。两种神经网络模型的可视化结构如图11-14所示，图11为FFNN用于羊品种判别，图12为BPNN用于羊品种判别，图13为FFNN用于羊部位判别，图14为BPNN用于羊部位判别，线的粗细代表生物标志物在判别羊来源时的权重大小。四种方法的品种分类结果均显示出较高的总体准确性，但部位分类结果显示出较大的差异。在部位分类方面，按结果总体准确性从高到低排列的方法依次为BPNN、SVM、FFNN和RF，测试预测准确率分别为100%、91.5%、90%和85.5%。品种和部位判别模型的ROC曲线显示了相似的结果，FFNN和BPNN的AUC均远高于RF和SVM。RF的品种判别模型、RF的部位判别模型和SVM的AUC分别为0.49、0.53和0.58，均小于0.6，因此被认为是无效模型。

虽然本申请中选取用于分类模型训练的潜在脂质标记物数据不存在缺失值和异常值，但由于变量和样本规模有限，RF模型用于部位判别的袋外误差较高（0.15），因此显示出较差的分类结果。根据之前的研究，发现RF具有对缺失值和异常值不敏感、不受变量间高度相关性导致的多重共线性影响、不会随着树的数量的增加而过拟合等优点，可用于非靶向脂质组学分析的预测模型。特别是，当脂质化合物（变量）多于样本时，将RF应用于脂质组学往往能观察到对非线性数据的稳健性。作为一种对非线性映射的特征空间进行最优超平面分割的二元分类算法，SVM与其他传统机器方法相比，其优势在于可以处理非线性特征交互，适用于训练样本较少的问题。在本申请中，SVM的结果显示出较高的OA和较低的AUC，这一般与正确分类样本分布不均衡的问题有关。这意味着错误分类的样本集中在同一类别中。由于样本规模较小，OA仍然会很高。但是，衡量分类能力的AUC却会很低。这也是FFNN模型的AUC远高于SVM的原因，尽管它的总体准确性比SVM低。

与其他传统方法（K-fold法和Holdout法）相比，本研究中使用的LOOCV方法更适用于小数据集，因为它不存在验证或训练误差以及数据集分割导致的模型欠拟合或过拟合等精度问题。因此，FFNN和BPNN模型在肉的部位判别中都表现出较高的准确性。虽然FFNN对羊肉部件来源的辨别很有效，但所使用的BPNN模型由于比FFNN模型有更多的隐藏层，显然具有更强的学习和信息处理能力（图11-14）。它展示了开发来源分类方法和使用脂质作为标记对羊肉进行分类或认证的前景。同时，小样本量定量脂质组学与机器学习方法的结合也证明了羊肉产品分类的实用性。这种方法可用于对标记为两个品种或两个部分的羊肉进行分类。为了提高该模型的适用性，需要从不同来源收集更多品种和部位的羊肉，以进一步验证其准确性并完善该分类方法。

3.6 构建羊肉品种和部位判别模型

为了根据品种和部位脂质标志物建立羊肉判别模型，我们利用选定的脂质生物标记物进行了逐步判别分析。模型参数的逐步判别筛选过程见表3。为了获得最高的预测准确率和交叉验证准确率，最终保留的模型参数主要包括CL5、LPC4和PE27，这些参数是通过逐步去除F值最低的参数确定的。只有一个标准化的正则判别函数可以解释100%的方差，即第3组。预测准确率和交叉验证准确率均为100%。

Y_滩羊=0.898CL5+4.128LPC4+3.492PE27-16.412(1)

Y_{巴寒杂交羊}=0.091CL5+15.855LPC4+1.394PE27-6.326(2)

表3

同理，为了区分不同部位的羊肉，也只选择了一个可以解释100%方差的函数。模型参数的逐步筛选过程如表4所示，最终保留的模型参数主要包括TG38、TG48、TG56和TG349。预测准确率为95%，交叉验证准确率为85%，即第4组。不能完全准确的判别羊肉部位来源，还需进行进一步的分析。

Y_背最长肌=-5.055TG38+5.489TG48-1.411TG56+1.788TG349-7.247(3)

Y_霖肉=-2.120TG38+3.713TG48-2.061TG56+0.220TG349-1.706(4)

表4

根据筛选出的脂质分子及含量构建线性判别模型的过程时，重点参考最后两列指标，以表3的第一行数据为例，代表使用CL5在内的12种脂质建预测模型时，模型的预测准确率为100%，交叉验证准确率为95%。这个模型需要的变量太多，较为复杂，当只使用CL5+LPC4+PE27时，模型效果均为100%，更少的参变量可以获得相同或更好的效果。从结果可以看出，线性判别模型的品种预测效果很好，部位预测效果较好。

线性判别模型进一步验证了神经网络的准确性。

（1）参数选择：线性判别模型可以作为神经网络的一种基准模型，通过对比神经网络与线性判别模型在相同数据集上的性能表现来验证神经网络的准确性。如果神经网络在训练集和测试集上的表现优于线性判别模型，可以认为神经网络具有更高的准确性。

（2）特征重要性分析：线性判别模型可以通过特征权重分析来验证神经网络的准确性。通过观察线性判别模型的特征权重，可以了解到哪些特征对于分类结果的贡献更大。将这些特征与神经网络的激活模式进行比较，如果神经网络能够学习到与线性判别模型相似的重要特征，可以说明神经网络在捕捉数据中的关键特征方面具有准确性。

线性判别模型自身的准确性是很高的。

（1）简单而高效：线性判别模型是一种简单而高效的模型，它的计算成本相对较低，训练速度较快。这使得线性判别模型在处理大规模数据集时具有优势，并且适用于实时应用和资源受限的环境。

（2）解释性强：线性判别模型的决策过程相对直观，可以通过观察特征权重来解释模型的预测结果。这使得线性判别模型在需要解释性和可解释性的任务中具有优势，例如在医疗诊断和金融风险评估中。

（3）鲁棒性好：线性判别模型对于噪声和异常值的鲁棒性较高。由于它在决策边界上只依赖于少数几个关键样本点，对于数据中的小幅度扰动相对不敏感，这使得线性判别模型在处理噪声数据时表现良好。

（4）低维数据处理：当数据维度相对较低时，线性判别模型通常表现出较好的准确性。在低维空间中，线性判别模型可以有效地划分不同类别，并且可以在可视化和特征选择方面提供有用的信息。

总之，线性判别模型虽然简单，但在某些情况下仍然具有较高的准确性。它可以作为一种基准模型来验证其他更复杂的模型的准确性，并且在一些特定的应用领域中仍然具有实用价值。

4 总结

羊肉中的脂质含量高、成分丰富，因此对区分羊肉的特性尤为重要。在本发明中，我们测定并比较了两个品种两部位的羊肉中的脂类和分子。滩羊的总脂质含量低于巴寒杂交羊。品种、部位、年龄和饲养条件等因素都会影响羊肉的整体质量。任何这些因素的变化都会反映在最终产品中初级和次级脂类化合物的变化上。根据多元统计分析，分别筛选出12种和7种脂质分子作为识别不同品种和部位羊肉的潜在标记。此外，还通过逐步线性判别分析分别获得了3个和4个脂质分子，从而建立了羊肉品种和部位判别模型。所建立的品种来源判别模型的结果令人满意，而部位来源判别模型的结果较好。因此，使用四种机器学习方法进行进一步分析后发现，BPNN方法在小规模样本数据集分析中表现完美。该结果证明了脂质组学分析在中国羊肉品种和部位来源判别中的可行性和有效性。这项工作的成果可进一步为羊肉认证这一重要问题提供新的技术依据。此外，通过聚焦对羊肉分类至关重要的关键脂质化合物，我们有可能缩短未来脂质化学分析所需的时间。

本申请的“基于脂质特征-机器学习的肉品种和部位鉴别方法”可以推广应用到其他畜禽动物的肉的来源鉴别是可行的。尽管该方法是针对特定肉的品种和部位鉴别，但其基本原理和技术框架可以适用于其他动物种类的肉源鉴别。以下是支持这一观点的理由：

脂质特征的普遍性：脂质是肉类中的重要组分，其组成和含量在不同动物种类之间存在差异。因此，通过分析和比较不同动物种类肉样品中的脂质特征，可以实现来源鉴别。尽管具体的脂质成分和比例可能因动物种类而异，但基于脂质特征的分析方法可以适应不同动物种类的肉源鉴别需求。

机器学习的泛化能力：该方法利用机器学习算法构建分类模型，以识别不同肉的品种和部位。机器学习算法具有泛化能力，可以从已有的训练样本中学习到一般性的规律，并应用于新的样本中。因此，只需针对其他畜禽动物的肉进行适当的数据收集和模型训练，就可以推广应用该方法到其他动物种类的来源鉴别。

数据可拓展性：随着样本数据的积累和技术的进步，可以进一步拓展已有的分类模型，以适应更多动物种类的来源鉴别。通过收集更多不同动物种类的肉样品脂质数据，可以增加分类模型的多样性和准确性，进一步提高该方法在其他畜禽动物来源鉴别中的可行性。

综上所述，基于脂质特征和机器学习的肉的品种和部位鉴别方法可以推广应用到其他畜禽动物的肉的来源鉴别是可行的。

这里说明的设备数量和处理规模是用来简化本发明的说明的。对本发明的应用、修改和变化对本领域的技术人员来说是显而易见的。

尽管本发明的实施方案已公开如上，但其并不仅仅限于说明书和实施方式中所列运用，它完全可以被适用于各种适合本发明的领域，对于熟悉本领域的人员而言，可容易地实现另外的修改，因此在不背离权利要求及等同范围所限定的一般概念下，本发明并不限于特定的细节和这里示出与描述的图例。

Claims

1.基于脂质特征-机器学习的肉品种和部位鉴别方法，其特征在于，包括：

步骤一，将畜禽肉样品进行脂质提取，并采用超高效液相色谱串联质谱法进行非靶向脂质组学分析，使用多元统计学分析方法筛选肉品种的潜在脂质标志物和部位的潜在脂质标志物；

2.如权利要求1所述的基于脂质特征-机器学习的肉品种和部位鉴别方法，其特征在于，畜禽为反刍动物。

3.如权利要求2所述的基于脂质特征-机器学习的肉品种和部位鉴别方法，其特征在于，反刍动物为羊。

4.如权利要求1所述的基于脂质特征-机器学习的肉品种和部位鉴别方法，其特征在于，以甲基叔丁基醚为溶剂进行脂质提取。

5.如权利要求1所述的基于脂质特征-机器学习的肉品种和部位鉴别方法，其特征在于，使用多元统计学方法筛选潜在脂质标志物，参数指标为T检验p值，倍数差异变化FC阈值和OPLS-DA模型VIP值。

6.如权利要求5所述的基于脂质特征-机器学习的肉品种和部位鉴别方法，其特征在于，显著不同脂质的定义标准为p<0.05，FC临界值=2或4，VIP>1。

7.如权利要求1所述的基于脂质特征-机器学习的肉品种和部位鉴别方法，其特征在于，全连接前馈神经网络的隐层节点数为肉的品种的潜在脂质标志物的数量+1，权重衰减系数为0.2，反向传播神经网络的第一隐层有5个节点，第二隐层有6个节点，分别选择logistic函数和交叉熵损失函数作为激活函数和高斯误差函数，最小误差阈值设为0.01。

8.如权利要求1所述的基于脂质特征-机器学习的肉品种和部位鉴别方法，其特征在于，步骤二替换为：

9.如权利要求4所述的基于脂质特征-机器学习的肉品种和部位鉴别方法，其特征在于，

步骤一中的畜禽肉样品进行脂质提取具体为：

步骤一中的超高效液相色谱串联质谱法具体为：

10.如权利要求9所述的基于脂质特征-机器学习的肉品种和部位鉴别方法，其特征在于，使用统计学分析方法筛选得到的羊的品种的潜在脂质标志物包括：CL(70:6)+H，分子式为C₇₉H₁₄₃O₁₇P₂，矫正质荷比为1425.9795，质谱保留时间为16.078min，CL(71:6)+H，分子式为C₈₀H₁₄₅O₁₇P₂，矫正质荷比为1439.9952，质谱保留时间为16.277min，LPC(16:1e)+H，分子式为C₂₄H₅₁O₆N₁P₁，矫正质荷比为480.3449，质谱保留时间为1.467min，PC(8:1e_10:1)+H，分子式为C₂₆H₅₁O₇N₁P₁，矫正质荷比为520.3398，质谱保留时间为1.434min，PC(16:1e_18:1)+H，分子式为C₄₂H₈₃O₇N₁P₁，矫正质荷比为744.5902，质谱保留时间为10.476min，PC(35:6)+H，分子式为C₄₃H₇₅O₈N₁P₁，矫正质荷比为764.5225，质谱保留时间为8.856min，PC(36:1e)+H，分子式为C₄₄H₈₉O₇N₁P₁，矫正质荷比为774.6371，质谱保留时间为12.919min，PC(37:2e)+Na，分子式为C₄₅H₈₈O₇N₁P₁Na₁，矫正质荷比为808.6191，质谱保留时间为11.035min，PC(39:5e)+H，分子式为C₄₇H₈₇O₇N₁P₁，矫正质荷比为808.6215，质谱保留时间为11.031min，PE(16:0p_17:1)+H，分子式为C₃₈H₇₅O₇N₁P₁，矫正质荷比为688.5276，质谱保留时间为10.759min，PI(36:4e)+NH4，分子式为C₄₅H₈₅O₁2N₁P₁，矫正质荷比为862.5804，质谱保留时间为9.982min，TG(20:5_10:3_22:5)+H，分子式为C₅₅H₈₁O₆，矫正质荷比为837.6028，质谱保留时间为9.476min；