CN113310934A - 骆驼奶中掺加奶牛奶及其掺加比例的快速鉴定方法 - Google Patents
骆驼奶中掺加奶牛奶及其掺加比例的快速鉴定方法 Download PDFInfo
- Publication number
- CN113310934A CN113310934A CN202110503824.0A CN202110503824A CN113310934A CN 113310934 A CN113310934 A CN 113310934A CN 202110503824 A CN202110503824 A CN 202110503824A CN 113310934 A CN113310934 A CN 113310934A
- Authority
- CN
- China
- Prior art keywords
- milk
- camel
- samples
- model
- mixed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 235000020248 camel milk Nutrition 0.000 title claims abstract description 69
- 235000013336 milk Nutrition 0.000 title claims abstract description 56
- 239000008267 milk Substances 0.000 title claims abstract description 56
- 210000004080 milk Anatomy 0.000 title claims abstract description 56
- 238000000034 method Methods 0.000 title claims abstract description 30
- 235000020247 cow milk Nutrition 0.000 title claims abstract description 11
- 238000012360 testing method Methods 0.000 claims abstract description 26
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 18
- 238000007781 pre-processing Methods 0.000 claims abstract description 18
- 238000001228 spectrum Methods 0.000 claims abstract description 16
- 230000003595 spectral effect Effects 0.000 claims abstract description 13
- 238000012216 screening Methods 0.000 claims abstract description 12
- 238000012549 training Methods 0.000 claims abstract description 12
- 238000002329 infrared spectrum Methods 0.000 claims abstract description 9
- 230000002159 abnormal effect Effects 0.000 claims abstract description 7
- 238000005070 sampling Methods 0.000 claims abstract description 6
- 239000000523 sample Substances 0.000 claims description 26
- 238000012706 support-vector machine Methods 0.000 claims description 16
- 235000021243 milk fat Nutrition 0.000 claims description 10
- 238000007637 random forest analysis Methods 0.000 claims description 10
- 102000014171 Milk Proteins Human genes 0.000 claims description 9
- 108010011756 Milk Proteins Proteins 0.000 claims description 9
- 235000021239 milk protein Nutrition 0.000 claims description 9
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims description 9
- 238000002834 transmittance Methods 0.000 claims description 8
- 238000001514 detection method Methods 0.000 claims description 7
- 238000009499 grossing Methods 0.000 claims description 7
- 238000002835 absorbance Methods 0.000 claims description 6
- 239000007788 liquid Substances 0.000 claims description 6
- 239000007787 solid Substances 0.000 claims description 6
- 238000012795 verification Methods 0.000 claims description 6
- 238000010521 absorption reaction Methods 0.000 claims description 5
- 238000012937 correction Methods 0.000 claims description 5
- 239000011159 matrix material Substances 0.000 claims description 4
- 239000013307 optical fiber Substances 0.000 claims description 4
- 230000004069 differentiation Effects 0.000 claims description 3
- 238000004476 mid-IR spectroscopy Methods 0.000 claims description 3
- 238000000638 solvent extraction Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 230000017105 transposition Effects 0.000 claims description 2
- 238000004458 analytical method Methods 0.000 abstract description 5
- 230000000694 effects Effects 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 108090000623 proteins and genes Proteins 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 235000001014 amino acid Nutrition 0.000 description 4
- 150000001413 amino acids Chemical class 0.000 description 4
- 241000283690 Bos taurus Species 0.000 description 3
- 241000282836 Camelus dromedarius Species 0.000 description 3
- 238000013145 classification model Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- DHMQDGOQFOQNFH-UHFFFAOYSA-N Glycine Chemical compound NCC(O)=O DHMQDGOQFOQNFH-UHFFFAOYSA-N 0.000 description 2
- NNJVILVZKWQKPM-UHFFFAOYSA-N Lidocaine Chemical compound CCN(CC)CC(=O)NC1=C(C)C=CC=C1C NNJVILVZKWQKPM-UHFFFAOYSA-N 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 235000013365 dairy product Nutrition 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 239000004615 ingredient Substances 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 108020004707 nucleic acids Proteins 0.000 description 2
- 150000007523 nucleic acids Chemical class 0.000 description 2
- 102000039446 nucleic acids Human genes 0.000 description 2
- 241000894007 species Species 0.000 description 2
- 108020004465 16S ribosomal RNA Proteins 0.000 description 1
- 239000004475 Arginine Substances 0.000 description 1
- LEVWYRKDKASIDU-QWWZWVQMSA-N D-cystine Chemical compound OC(=O)[C@H](N)CSSC[C@@H](N)C(O)=O LEVWYRKDKASIDU-QWWZWVQMSA-N 0.000 description 1
- 239000004471 Glycine Substances 0.000 description 1
- 235000010469 Glycine max Nutrition 0.000 description 1
- 244000068988 Glycine max Species 0.000 description 1
- QNAYBMKLOCPYGJ-REOHCLBHSA-N L-alanine Chemical compound C[C@H](N)C(O)=O QNAYBMKLOCPYGJ-REOHCLBHSA-N 0.000 description 1
- ODKSFYDXXFIFQN-BYPYZUCNSA-P L-argininium(2+) Chemical compound NC(=[NH2+])NCCC[C@H]([NH3+])C(O)=O ODKSFYDXXFIFQN-BYPYZUCNSA-P 0.000 description 1
- CKLJMWTZIZZHCS-REOHCLBHSA-N L-aspartic acid Chemical compound OC(=O)[C@@H](N)CC(O)=O CKLJMWTZIZZHCS-REOHCLBHSA-N 0.000 description 1
- KDXKERNSBIXSRK-YFKPBYRVSA-N L-lysine Chemical compound NCCCC[C@H](N)C(O)=O KDXKERNSBIXSRK-YFKPBYRVSA-N 0.000 description 1
- OUYCCCASQSFEME-QMMMGPOBSA-N L-tyrosine Chemical compound OC(=O)[C@@H](N)CC1=CC=C(O)C=C1 OUYCCCASQSFEME-QMMMGPOBSA-N 0.000 description 1
- KDXKERNSBIXSRK-UHFFFAOYSA-N Lysine Natural products NCCCCC(N)C(O)=O KDXKERNSBIXSRK-UHFFFAOYSA-N 0.000 description 1
- 239000004472 Lysine Substances 0.000 description 1
- 238000004497 NIR spectroscopy Methods 0.000 description 1
- 108091028043 Nucleic acid sequence Proteins 0.000 description 1
- 235000004279 alanine Nutrition 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- ODKSFYDXXFIFQN-UHFFFAOYSA-N arginine Natural products OC(=O)C(N)CCCNC(N)=N ODKSFYDXXFIFQN-UHFFFAOYSA-N 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 235000003704 aspartic acid Nutrition 0.000 description 1
- 238000003556 assay Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- OQFSQFPPLPISGP-UHFFFAOYSA-N beta-carboxyaspartic acid Natural products OC(=O)C(N)C(C(O)=O)C(O)=O OQFSQFPPLPISGP-UHFFFAOYSA-N 0.000 description 1
- 235000020246 buffalo milk Nutrition 0.000 description 1
- 239000003153 chemical reaction reagent Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 229960003067 cystine Drugs 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 235000020250 donkey milk Nutrition 0.000 description 1
- 238000000105 evaporative light scattering detection Methods 0.000 description 1
- 238000004128 high performance liquid chromatography Methods 0.000 description 1
- 210000003470 mitochondria Anatomy 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 235000018102 proteins Nutrition 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 238000003753 real-time PCR Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000011895 specific detection Methods 0.000 description 1
- 235000002374 tyrosine Nutrition 0.000 description 1
- OUYCCCASQSFEME-UHFFFAOYSA-N tyrosine Natural products OC(=O)C(N)CC1=CC=C(O)C=C1 OUYCCCASQSFEME-UHFFFAOYSA-N 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N21/00—Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
- G01N21/17—Systems in which incident light is modified in accordance with the properties of the material investigated
- G01N21/25—Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
- G01N21/31—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry
- G01N21/35—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light
- G01N21/3577—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light for analysing liquids, e.g. polluted water
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Biochemistry (AREA)
- General Health & Medical Sciences (AREA)
- Immunology (AREA)
- Pathology (AREA)
- Investigating Or Analysing Materials By Optical Means (AREA)
Abstract
本发明属于奶品分析技术领域,具体涉及骆驼奶中掺加奶牛奶及其掺加比例的快速鉴别方法。发明步骤为:1)采集骆驼奶、掺有25%奶牛奶的骆驼奶和掺有50%奶牛奶的骆驼奶样本;2)在中红光谱范围内,对样品进行扫描,获得中红外光谱数据;3)对原始中红外光谱进行预处理,去除异常值;4)将预处理后的数据集按照分层抽样的原则划分为训练集和测试集;5)筛选建模的光谱波段;6)将不同光谱预处理方法和建模算法进行组合,建立鉴别模型,使用准确率和Kappa系数对模型进行评估,筛选出效果最优的预处理方法和建模算法组合,得到最优模型;7)对模型进行验证,评估模型的泛化能力。本发明提高了对骆驼奶中掺加奶牛奶及其掺加比例鉴别的速率和准确性。
Description
技术领域
本发明属于奶品分析技术领域,具体涉及骆驼奶中掺加奶牛奶及其掺加比例的快速鉴定方法。
背景技术
Lu Deng等基于骆驼和牛线粒体的16S-RNA基因,设计了双链PCR的特异性引物,利用双重PCR可以检出骆驼奶里掺加的0.1%奶牛奶[5]。王之莹(2020)根据不同物种DNA序列的差异,以单拷贝核基因为靶基因设计骆驼的特异性引物,并以内参基因为对照,应用荧光定量PCR技术建立了骆驼奶的掺假定量标准曲线,相关系数>0.96,结果回收率为90%~120%,变异系数<10%[2]。谢立娜等(2021)使用高效液相色谱法测得的氨基酸含量数据对骆驼奶、马奶、驴奶和牛奶获得了较好的分类效果,确定了起关键作用的氨基酸依次为精氨酸、甘氨酸、赖氨酸、胱氨酸、丙氨酸、酪氨酸和天冬氨酸[3]。以上研究基于核酸或氨基酸水平对物种进行特异性检测,取得了较为精确的效果,但上述方法对技术、时间、样本量、仪器和操作人员均有较高的要求,暂不能满足本领域快速、大批量的检测。
中红外光谱分析是近年来快速发展起来的一种快速、无损、无公害、可多组分同时分析的现代技术。已有研究表明,中红外光谱可较好地预测水牛奶的酸度特征:例如在校准集和验证集中分别正确分类为未凝结91.57%和67.86%的牛奶样本[6]。用于建立分类模型的机器学习算法有决策树、朴素贝叶斯、人工神经网络、自举汇聚、K最近邻、随机森林和支持向量机等,在实践中,随机森林和支持向量机具有更好的表现,错判率低,准确率、灵敏度和特异性高[8]。由中红外光谱仪输出的数据为n×1060的矩阵(n为样本量),数据庞大,且难以避免数据不完整、不一致、极易受到噪声(错误或异常值)侵扰,低质量的数据将导致效果较差的数据挖掘结果,因此需要一些方法对输出的数据进行预处理。这些方法通常包括数据标准化[7]、处理缺失值、去除噪声及异常值[4]以及特征选择等,如使用一阶微分[7]、标准正态变量变换(SNV)、多元散射校正(MSC)和SG卷积平滑[1]等挖掘分类对象差异,使用马氏距离去除异常值[7]等
发明内容
本发明的目的在于克服现有技术存在的缺陷,提供一种骆驼奶中掺加奶牛奶及其掺加比例的快速鉴定方法,本发明确定了骆驼奶中掺加奶牛奶及其掺加比例快速鉴定的最佳光谱预处理方法和建模算法组合,得到一种最优模型,提高了对骆驼奶中掺加奶牛奶的鉴别速度及其准确度。
本发明的技术方案如下所述:
一种骆驼奶中掺加奶牛奶及其掺加比例的快速鉴定方法,所述方法包括以下步骤:
1)选取奶样
分别采集骆驼奶和掺有奶牛奶的骆驼奶作为检测样本;
2)采集中红外光谱(简称MIR)
采用乳成分检测仪对骆驼奶样本进行扫描,通过相连的计算机输出每个样本对应的透光率;
3)数据预处理
将原始光谱数据由透光率(T)转化为吸光度(A),去除异常值;
4)划分数据集
数据集按照分层抽样的原则划分为训练集和测试集,两者分别占数据集的80%和20%;
5)确定建模光谱波段
筛选骆驼奶和掺有奶牛奶的骆驼奶样本的差异波段,并去除水的吸收区域;
6)建立模型与筛选最优模型
以训练集样本的中红外光谱为输入值,以骆驼奶和掺有奶牛奶的骆驼奶的类别为输出值,使用不同光谱预处理方法和不同建模算法组合建立模型,使用准确率和Kappa系数指标对模型进行评估和筛选,筛选得到最优模型;
7)最优模型的验证与应用
另取骆驼奶和掺有奶牛奶的骆驼奶样本,使用筛选出的最优模型对样本进行鉴别,评估其应用性能;
其中:
步骤2)中采集中红外光谱时,将骆驼奶样本分别倒入直径3.5cm,高9cm的圆柱形采样管中,保证液面高度大于6cm,然后将其在42℃水浴锅中水浴15-20min,再将固体光纤探头伸到液体中吸样检测;
步骤3)中根据A=log10(1/T)将透射率(T)转换为吸光度(A),使用马氏距离和乳脂乳蛋白的百分含量去除异常值,保留光谱马氏距离≤3、乳脂和乳蛋白百分含量在平均值±3.5个标准差范围内的数据,其中,马氏距离的计算方法为MD=sqrt[(x-μ)TΣ-1(x-μ)],x为光谱值,μ为样本均值,Σ为协方差矩阵,T表示转置,乳脂乳蛋白百分含量的平均值计算方法为M=(x1+x2+...+xn)/n,即n个样本的平均乳脂、乳蛋白含量,标准差计算方法为SD=sqrt{[(x1-M)2+(x2-M)2+......(xn-M)2]/(n-1)};
步骤5)中使用的筛选差异波段的方法为Pearson相关性检验和相关性的显著性检验,最终使用波数范围为925.52-1091.814cm-1,1130.349-1246.134cm-1,1269.282-1427.46cm-1,1439.034-1531.626cm-1,1724.526-2326.374cm-1和2434.398-2966.802cm-1的光谱波段进行建模;
步骤6)中使用的光谱预处理方法为用一阶微分(Diff)、标准正态变量变换(SNV)、多元散射校正(MSC)和SG卷积平滑,使用的建模算法为随机森林(RF)和支持向量机(SVM);
步骤7)中选择的最优模型为无预处理和支持向量机算法组合,最优模型在训练集、测试集和验证集中的准确率均为1,且验证过程不超过5分钟,即本发明选择的最优模型可以对骆驼奶和掺有不同体积比奶牛奶的骆驼奶实现快速、精准鉴别。
本发明与现有技术相比的有益效果:
(1)本发明得到关键技术在于使用Pearson相关性检验和相关性的显著性检验筛选出差异波段,筛选出最终用于建模的光谱波段为925.52-1091.814cm-1,1130.349-1246.134cm-1,1269.282-1427.46cm-1,1439.034-1531.626cm-1,1724.526-2326.374cm-1和2434.398-2966.802cm-1,使用了更少的波点,减少了运算成本;(2)本发明最优模型的预处理和建模算法组合为不处理和支持向量机算法,准确率可达到1;(3)本发明可在5分钟内实现对样本的精准、快速鉴定,实现了对骆驼奶和掺有不同体积比奶牛奶的骆驼奶及其掺加比例的快速检测,克服了常规方法耗时、耗材等缺点。
附图说明
图1:本发明建模波段的光谱图。即三类骆驼奶在建模波段的吸光值图。附图标记说明:图1中横坐标为光谱波数,纵坐标为吸光度,建模波段为925.52-1091.814cm-1,1130.349-1246.134cm-1,1269.282-1427.46cm-1,1439.034-1531.626cm-1,1724.526-2326.374cm-1和2434.398-2966.802cm-1。图1中的A图是925.52-1091.814cm-1和1130.349-1246.134cm-1波数范围的光谱图,图1中的B图是1269.282-1427.46cm-1,1439.034-1531.626cm-1和1724.526-2326.374cm-1波数范围的光谱图,图1中的C图是2434.398-2966.802cm-1波数范围的光谱图。
图2:本发明测试集的ROC曲线。ROC曲线可以衡量模型在测试集的性能。附图标记说明:图2中横坐标为假阳性率,纵坐标为真阳性率,AUC为ROC曲线下与坐标轴围成的面积,其取值范围在0.5和1之间,AUC越接近1.0,表明方法的真实性越高,图2中AUC为1,表明本发明的模型真实性高。
图3:本发明测试集的分类概率图。附图标记说明:图3中横坐标为预测概率,纵坐标为预测的类别,例如图3中左下方的圆点表示该样本被分为0类的概率为0.676,且为正确分类;图3中表明测试集中的样本均被正确分类,且0类即未掺加奶牛奶的骆驼奶被正确分类的概率为0.676-0.997,1类即掺有20%(体积比)奶牛奶的骆驼奶被正确分类的概率为0.854-0.985,2类即掺有50%(体积比)奶牛奶的骆驼奶被正确分类的概率为0.736-0.986。表明本发明的模型能够对样本实现高概率的正确分类。
具体实施方式
本发明的技术方案,如未特别说明,均为本领域的常规方案。本发明应用的试剂或材料,如未特别说明,均来源于商业渠道。
在本发明的技术方案中,一阶微分(Diff)、标准正态变量变换(SNV)、多元散射校正(MSC)和SG卷积平滑等参数调整,本领域技术人员可根据研究对象进行常规调整。
在本发明实施例中,中红外光谱数据预处理、模型构建及验证等均通过Python3.8.3实现。
实施例1:模型的建立与筛选
仪器与设备:选用FOSS公司生产的MilkoScanTM7RM乳成分检测仪(按产品使用说明书操作)。
具体步骤如下:
(1)奶样的采集
从骆驼场采集骆驼奶样本100个,掺有25%(体积比)奶牛奶的骆驼奶样本89个,掺有50%(体积比)奶牛奶的骆驼奶样本98个;
(2)测定中红外光谱
将奶样分别倒入直径3.5cm,高9cm的圆柱形样品管中,保证液面高度大于6cm,然后将其在42℃水浴锅中水浴15-20min,再将固体光纤探头伸到液体中吸样检测,通过其软件得到样本的透光率;
(3)数据预处理
依据A=log10(1/T)将原始光谱数据由透光率(T)转化为吸光度(A),计算出所有奶样MIR的马氏距离,保留光谱马氏距离≤3,乳脂和乳蛋白百分含量在平均值±3.5个标准差范围内的数据,表1为该过程的样本量变化统计,除去3个纯骆驼奶、1个掺有25%奶牛奶的骆驼奶和3个掺有50%奶牛奶的骆驼奶异常样本,得到有纯骆驼奶样本97个,掺有25%奶牛奶的骆驼奶样本88个和掺有50%奶牛奶的骆驼奶样本95个;
(4)划分数据集
将数据集按分层抽样法分为训练集(n=224:纯骆驼奶78个、掺有25%奶牛奶的骆驼奶70个、掺有50%奶牛奶的骆驼奶76个)和测试集(n=56:纯骆驼奶19个、掺有25%奶牛奶的骆驼奶18个、掺有50%奶牛奶的骆驼奶19个);
在建模过程中,0代表纯骆驼奶类,1代表掺有25%奶牛奶的骆驼奶类,2代表掺有50%奶牛奶的骆驼奶类。表2为三类骆驼奶常规乳成分的描述性统计,由表1中可得知,掺加奶牛奶后,骆驼奶的脂肪、蛋白、非乳脂固形物(SNF)和总固形物(TS)含量极显著降低(P<0.01)。
表1剔除异常值时的样本量变化
表2常规乳成分的描述性统计
注:同行数据肩标不同字母表示差异显著(P<0.05),有相同字母表示差异不显著(P>0.05)。
(5)确定建模光谱波段
对光谱数据进行Pearson相关性检验,并对相关性进行显著性分析,且去除水的吸收区域,最终选择925.52-1091.814cm-1,1130.349-1246.134cm-1,1269.282-1427.46cm-1,1439.034-1531.626cm-1,1724.526-2326.374cm-1和2434.398-2966.802cm-1进行建模。图1为本发明优选的建模波段光谱。
(6)建立模型与筛选最优模型
分别采用一阶微分(Diff)、标准正态变量变换(SNV)、多元散射校正(MSC)和SG卷积平滑对光谱数据进行预处理,同时也与不使用预处理的数据进行比较。
使用随机森林(RF)和支持向量机(SVM)算法利用训练集数据建立分类模型,并对测试集中的样本进行预测。在不同预处理下,RF和SVM算法的建模结果如表3所示。
表3不同预处理下RF和SVM的建模结果
在上述多分类判别模型中,以准确率和Kappa系数来评价模型的性能。其中,准确率为正确判断占所有判断的概率,其值越接近1越好;Kappa系数常用于一致性检验,也用于衡量分类的精度,其值越接近1越好。由表3中结果可知,SVM算法在此分类任务中比RF算法表现出强的学习能力,且无处理、一阶微分处理和SG卷积平滑处理的SVM模型在骆驼奶掺假的分类训练中均取得优秀的结果,说明模型均能准确鉴别训练集和测试集的三类目标。预处理时对光谱数据使用一阶微分或SG卷积平滑,不仅会增加运算难度,也会增加运行时长;此外,由表2可知三类数据在常规乳成分上具有极显著的差异,说明此两类数据本身具有较大差异不使用额外的数据预处理方法也可以使模型得到很好地效果。因此,在众多模型中选择不处理与支持向量机的组合建立的模型为最优模型。
利用选择的最优分类模型,预测测试集的56个样本。以混淆矩阵衡量模型在测试集的性能,如图2所示。由图2可知,本实施例中测试集没有出现错分类情况,说明模型在测试集上具有良好的分类效果。
图3为测试集中类别分类的概率,例如图中左下方的圆点表示此样本被分为0类的概率为0.676,且为正确分类。由图可知,测试集中的所有样本均被正确分类,且大部分样本被正确分类的概率>0.95。
实施例2:本发明模型的应用
取22个骆驼奶掺有奶牛奶样本对模型进行验证,将预测结果与真实结果对比。其中22个样本的类型已提前记录。
采用实施例1的测定光谱、数据预处理等技术,对22个样本进行测定和处理,使用筛选出的最优模型进行预测。
结果如表4所示。
表4模型验证结果
本发明的鉴定的结果与真实情况完全相同,5个纯骆驼奶,6个掺有25%奶牛奶的骆驼奶和11个掺有50%奶牛奶的骆驼奶。
本发明的最优模型使用的光谱波段为925.52-1091.814cm-1,1130.349-1246.134cm-1,1269.282-1427.46cm-1,1439.034-1531.626cm-1,1724.526-2326.374cm-1和2434.398-2966.802cm-1,使用了更少的波点,减少了运算成本;最优模型的预处理和建模算法组合为不处理和支持向量机算法,准确率可达到1;可在5分钟内实现对样本的精准、快速鉴别实现了对骆驼奶和掺有不同体积比奶牛奶的骆驼奶及其掺加比例的快速检测,克服了常规方法耗时、耗材等缺点。
参考文献
[1]王之莹.基于核酸扩增技术的高值乳品快速鉴别方法研究[D].中国农业科学院,2020;
[2]汪六三等.基于近红外光谱和机器学习的大豆种皮裂纹识别研究[J/OL].农业机械学报:1-15[2021-04-27].http://kns.cnki.net/kcms/detail/11.1964.s.20210329.1535.006.html;
[3]谢立娜等,基于氨基酸分析的乳品掺假鉴别研究[J].农产品质量与安全,2021(01):67-72;
[4]C.C.Fagan,C.Everard,C.P.O’Donnell,G.Downey,E.M.Sheehan,C.M.Delahunty,D.J.O’Callaghan.Evaluating Mid-infrared Spectroscopy as a NewTechnique for Predicting Sensory Texture Attributes of Processed Cheese[J].Journal of Dairy Science,2007,90(3);
[5]Lu Deng,Aili Li,Yang Gao,et,al.Detection of the Bovine MilkAdulterated in Camel,Horse,and Goat Milk Using Duplex PCR[J].Springer US,2020,13(2);
[6]Manuelian C L,Visentin G,Boselli C,et al.Short communication:Prediction of milk coagulation and acidity traits in Mediterranean buffalomilk using Fourier-transform mid-infrared spectroscopy[J].Journal of DairyScience,2017:S0022030217306276;
[7]Soyeurt H.,Grelet C.,McParland S.,Calmels M.,Coffey M.,Tedde A.,Delhez P.,Dehareng F.,Gengler N..A comparison of 4 different machine learningalgorithms to predict lactoferrin content in bovine milk from mid-infraredspectra[J].Journal of Dairy Science,2020,103(12);
[8]Xu W,Knegsel A,Vervoort J,et al.Prediction of metabolic status ofdairy cows in early lactation with on-farm cow data and machine learningalgorithms[J].Journal of Dairy Science,2019,102(11)。
Claims (1)
1.一种骆驼奶中掺加奶牛奶及其掺加比例的快速鉴定方法,其特征包括以下步骤:
1)奶样的选取
分别采集骆驼奶和掺有奶牛奶的骆驼奶作为检测样本;
2)采集中红外光谱
采用乳成分检测仪对骆驼奶样本进行扫描,通过相连的计算机输出每个样本对应的透光率;
3)数据预处理
将原始光谱数据由透光率转化为吸光度,去除异常值;
4)划分数据集
将数据集按照分层抽样的原则划分为训练集和测试集,两者分别占数据集的80%和20%;
5)确定建模光谱波段
筛选骆驼奶和掺有奶牛奶的骆驼奶样本的差异波段,并去除水的吸收区域;
6)建立模型与筛选最优模型
以训练集样本的中红外光谱为输入值,以骆驼奶和掺有奶牛奶的骆驼奶的类别为输出值,使用不同光谱预处理方法和不同建模算法组合建立模型,使用准确率和Kappa系数指标对模型进行评估和筛选,筛选得到最优模型;
7)最优模型的验证与应用
另取骆驼奶和掺有奶牛奶的骆驼奶样本,使用筛选出的最优模型对样本进行鉴别,评估其应用性能;其中:
步骤2)中采集中红外光谱时,将骆驼奶样本分别倒入直径3.5cm,高9cm的圆柱形采样管中,保证液面高度大于6cm,然后将其在42℃水浴锅中水浴15-20min,再将固体光纤探头伸到液体中吸样检测;
步骤3)中根据A=log10(1/T)将透射率(T)转换为吸光度(A),使用马氏距离和乳脂乳蛋白的百分含量去除异常值,保留光谱马氏距离≤3、乳脂和乳蛋白百分含量在平均值±3.5个标准差范围内的数据,其中,马氏距离的计算方法为MD=sqrt[(x-μ)TΣ-1(x-μ)],x为光谱值,μ为样本均值,Σ为协方差矩阵,T表示转置,乳脂乳蛋白百分含量的平均值计算方法为M=(x1+x2+...+xn)/n,即n个样本的平均乳脂、乳蛋白含量,标准差计算方法为SD=sqrt{[(x1-M)2+(x2-M)2+......(xn-M)2]/(n-1)};
步骤5)中使用的筛选差异波段的方法为Pearson相关性检验和相关性的显著性检验,最终使用波数范围为925.52-1091.814cm-1,1130.349-1246.134cm-1,1269.282-1427.46cm-1,1439.034-1531.626cm-1,1724.526-2326.374cm-1和2434.398-2966.802cm-1的光谱波段进行建模;
步骤6)中使用的光谱预处理方法为用一阶微分、标准正态变量变换、多元散射校正和SG卷积平滑,使用的建模算法为随机森林和支持向量机;
步骤7)中最优模型的验证与应用的最优模型为无预处理和支持向量机算法组合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110503824.0A CN113310934A (zh) | 2021-05-10 | 2021-05-10 | 骆驼奶中掺加奶牛奶及其掺加比例的快速鉴定方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110503824.0A CN113310934A (zh) | 2021-05-10 | 2021-05-10 | 骆驼奶中掺加奶牛奶及其掺加比例的快速鉴定方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113310934A true CN113310934A (zh) | 2021-08-27 |
Family
ID=77371774
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110503824.0A Pending CN113310934A (zh) | 2021-05-10 | 2021-05-10 | 骆驼奶中掺加奶牛奶及其掺加比例的快速鉴定方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113310934A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114184573A (zh) * | 2021-11-01 | 2022-03-15 | 华中农业大学 | 牛奶中κ-酪蛋白的中红外快速批量检测方法 |
CN114184572A (zh) * | 2021-11-01 | 2022-03-15 | 华中农业大学 | 牛奶中α-乳白蛋白的中红外快速批量检测方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108446599A (zh) * | 2018-02-27 | 2018-08-24 | 首都师范大学 | 一种p值统计量建模独立性的高光谱图像波段快速选择方法 |
CN108844917A (zh) * | 2018-09-29 | 2018-11-20 | 山东大学 | 一种基于显著性假设检验和偏最小二乘法的近红外光谱数据分析方法 |
CN111579500A (zh) * | 2020-05-20 | 2020-08-25 | 湖南城市学院 | 联合室内外光谱的波段及比值组合的重金属含量支持向量机回归方法 |
CN112525850A (zh) * | 2020-10-01 | 2021-03-19 | 华中农业大学 | 奶牛奶、马奶、骆驼奶、山羊奶和水牛奶的光谱指纹识别方法 |
CN112666112A (zh) * | 2020-10-01 | 2021-04-16 | 华中农业大学 | 骆驼奶与马奶的批量鉴别模型和方法 |
CN112666111A (zh) * | 2020-10-01 | 2021-04-16 | 华中农业大学 | 奶牛奶与马奶的快速鉴别方法 |
-
2021
- 2021-05-10 CN CN202110503824.0A patent/CN113310934A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108446599A (zh) * | 2018-02-27 | 2018-08-24 | 首都师范大学 | 一种p值统计量建模独立性的高光谱图像波段快速选择方法 |
CN108844917A (zh) * | 2018-09-29 | 2018-11-20 | 山东大学 | 一种基于显著性假设检验和偏最小二乘法的近红外光谱数据分析方法 |
CN111579500A (zh) * | 2020-05-20 | 2020-08-25 | 湖南城市学院 | 联合室内外光谱的波段及比值组合的重金属含量支持向量机回归方法 |
CN112525850A (zh) * | 2020-10-01 | 2021-03-19 | 华中农业大学 | 奶牛奶、马奶、骆驼奶、山羊奶和水牛奶的光谱指纹识别方法 |
CN112666112A (zh) * | 2020-10-01 | 2021-04-16 | 华中农业大学 | 骆驼奶与马奶的批量鉴别模型和方法 |
CN112666111A (zh) * | 2020-10-01 | 2021-04-16 | 华中农业大学 | 奶牛奶与马奶的快速鉴别方法 |
Non-Patent Citations (2)
Title |
---|
CHAO DU 等: ""Genetic Analysis of Milk Production Traits and Mid-Infrared Spectra in Chinese Holstein Population"", 《ANIMALS》 * |
张爱武 等: ""p值统计量建模独立性的高光谱波段选择方法"", 《红外与激光工程》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114184573A (zh) * | 2021-11-01 | 2022-03-15 | 华中农业大学 | 牛奶中κ-酪蛋白的中红外快速批量检测方法 |
CN114184572A (zh) * | 2021-11-01 | 2022-03-15 | 华中农业大学 | 牛奶中α-乳白蛋白的中红外快速批量检测方法 |
CN114184572B (zh) * | 2021-11-01 | 2024-02-20 | 华中农业大学 | 牛奶中α-乳白蛋白的中红外快速批量检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Xing et al. | Combination of chemometric tools and image processing for bruise detection on apples | |
Zhang et al. | Identification of corn seeds with different freezing damage degree based on hyperspectral reflectance imaging and deep learning method | |
Xie et al. | Classification of tomatoes with different genotypes by visible and short-wave near-infrared spectroscopy with least-squares support vector machines and other chemometrics | |
CN113310936A (zh) | 四种高温灭菌商品牛奶的快速鉴定方法 | |
Wu et al. | Classification of apple varieties using near infrared reflectance spectroscopy and fuzzy discriminant c‐means clustering model | |
CN113310934A (zh) | 骆驼奶中掺加奶牛奶及其掺加比例的快速鉴定方法 | |
WO2021068545A1 (zh) | 一种基于改进主成分分析的拉曼特征谱峰提取方法 | |
CN113310930A (zh) | 高温灭菌奶、巴氏杀菌奶和掺加高温灭菌奶的巴氏杀菌奶的光谱鉴定方法 | |
CN112730312A (zh) | 一种基于近红外光谱技术的掺杂牛初乳定性识别方法 | |
CN113324943A (zh) | 牦牛奶及其掺加奶牛奶的快速鉴别模型 | |
CN113310937A (zh) | 高温灭菌牛奶、巴氏杀菌奶牛鲜奶及奶粉复原牛奶的快速鉴定方法 | |
Jiang et al. | Rapid nondestructive detecting of wheat varieties and mixing ratio by combining hyperspectral imaging and ensemble learning | |
CN114611582A (zh) | 一种基于近红外光谱技术分析物质浓度的方法及系统 | |
CN113310929A (zh) | 高温灭菌奶中掺加豆粉及其掺加比例的光谱鉴定方法 | |
CN113310938A (zh) | 一种巴氏杀菌的水牛鲜奶和奶牛鲜奶的快速鉴定方法 | |
US20230089466A1 (en) | Establishment of Identification and Screening Method of Cows with A2 Beta-Casein Genotype of Producing A2 Milk and Applications Thereof | |
WO2023207453A1 (zh) | 一种基于光谱聚类的中药成分分析方法及系统 | |
Wang et al. | SVM classification method of waxy corn seeds with different vitality levels based on hyperspectral imaging | |
CN115630332A (zh) | 一种小麦粉粉质特性预测方法 | |
CN113310933A (zh) | 原料水牛奶保存天数的光谱鉴定方法 | |
Yang | Development of an integrated variety and appearance quality measurement system for milled rice | |
CN112801172A (zh) | 一种模糊模式识别的白菜农药残留定性分析方法 | |
CN113324942A (zh) | 原料牛奶、高温灭菌奶和掺加高温灭菌奶的原料牛奶的快速鉴定模型 | |
CN113324941A (zh) | 原料牛奶保存时间的快速鉴定方法 | |
JP2004505233A (ja) | マルチニューラルネット画像装置及びその方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210827 |