CN108613965A - 一种基于数据驱动拉曼光谱的乳品中乳清蛋白测量方法 - Google Patents
一种基于数据驱动拉曼光谱的乳品中乳清蛋白测量方法 Download PDFInfo
- Publication number
- CN108613965A CN108613965A CN201810682373.XA CN201810682373A CN108613965A CN 108613965 A CN108613965 A CN 108613965A CN 201810682373 A CN201810682373 A CN 201810682373A CN 108613965 A CN108613965 A CN 108613965A
- Authority
- CN
- China
- Prior art keywords
- dairy products
- lactalbumin
- sample
- raman spectrum
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N21/00—Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
- G01N21/62—Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light
- G01N21/63—Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light optically excited
- G01N21/65—Raman scattering
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N30/00—Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
- G01N30/02—Column chromatography
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N2201/00—Features of devices classified in G01N21/00
- G01N2201/12—Circuits of general importance; Signal processing
Landscapes
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Biochemistry (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Immunology (AREA)
- Pathology (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Investigating, Analyzing Materials By Fluorescence Or Luminescence (AREA)
Abstract
本发明涉及一种基于数据驱动拉曼光谱的乳品中乳清蛋白测量方法,该方法借助变量筛选方法,从复杂、变动的平移不变小波系数中准确提取待测物质的最佳变量组合,采用平移不变小波变换对变量组合进行光谱重构,在有效剥离基质等光谱干扰的同时,获得了最佳的时域/频域分辨率,有利于后续的建模分析。同时,该方法通过分析未知乳品样本的重构光谱数据特征及内在规律,只针对单个未知乳品样本单独建模,以动态地逼近目标理想模型,有效克服实际乳品样本配方的不确定性。最终构建乳品样本中α‑乳白蛋白和β‑乳球蛋白的数据驱动模型,并折算成相应的乳清蛋白含量,进而实现了乳品中乳清蛋白的无损检测,可方便进行相关乳品的现场检测。
Description
技术领域
本发明涉及乳品成分检测领域,具体涉及一种基于数据驱动拉曼光谱的乳品中乳清蛋白测量方法。
背景技术
随着对乳清蛋白研究的不断深入,其应用越来越广泛,现已成为婴幼儿奶粉和婴幼儿配方液态奶的主要原料,我国国家标准GB10765-2010《婴儿配方食品》中,要求“乳基婴儿配方食品中乳清蛋白含量应≥60%”,即以乳或乳蛋白制品为主要原料的婴儿配方食品中,乳清蛋白所占总蛋白质的比例应大于等于60%。但目前国内外尚未有乳清蛋白的准确定量方法。鉴于检测方法的重要性,我国国家卫生部于2010年10月委托国家乳制品质量监督检验中心制定相关的国家标准“婴幼儿食品和乳品中的乳清蛋白的测定”,推荐采用高效液相色谱-质谱联用法,对乳清蛋白中α-乳白蛋白和β-乳球蛋白的进行定量,定量过程采用特异肽段和摩尔量计算法,并最终通过换算系数计算乳清蛋白的含量。
但是,高效液相色谱-质谱联用法的操作过程较为繁琐,需要对其进行酶切、高倍数稀释、肽段的同位素标记和液相分离等复杂操作,导致该方法的稳定性和通用性存在一定的问题,同时液相色谱-质谱联用技术测定乳清蛋白也存在着现实困难,如因操作过程复杂导致的耗时较长,因仪器昂贵、试剂耗材消耗而导致的检测成本高,因同位素肽段供应紧缺而导致的监管风险,无法满足大范围高效监管的要求。
因此,如何提供一种简单快速、检测成本低、检测结果可靠性高的乳品中乳清蛋白测量方法成为本领域技术人员亟待解决的技术问题。
发明内容
本发明所要解决的技术问题是提供一种简单快速、检测成本低、检测结果可靠性高的乳品中乳清蛋白测量方法。
本发明解决上述技术问题的技术方案如下:一种基于数据驱动拉曼光谱的乳品中乳清蛋白测量方法,包括如下步骤:
(1)以面扫描或旋转样品杯的方式重复采集10-100次乳品样本的拉曼光谱,取其平均值作为乳品样本的拉曼光谱;
(2)利用高效液相色谱-质谱联用仪分别对乳品样本中α-乳白蛋白和β-乳球蛋白的含量信息进行定量分析;
(3)采用近似平移不变小波变换的方法对乳品样品的拉曼光谱进行小波多尺度分解,获取乳品样本拉曼光谱的近似平移不变小波变换系数;
(4)基于乳品样本拉曼光谱的近似平移不变小波变换系数,采用无监督分类方法将乳品样本拉曼光谱的近似平移不变小波变换系数分成多个类簇;
(5)根据每个类簇的乳品样本拉曼光谱的近似平移不变小波变换系数以及乳品样本中α-乳白蛋白、β-乳球蛋白的含量信息,采用变量筛选方法对每个类簇的小波系数进行变量筛选,构建每个类簇的数据驱动模型;
(6)对乳品样本拉曼光谱的近似平移不变小波变换系数进行光谱重构,获取每个类簇的重构光谱信息,构建已知乳品光谱数据库;
(7)针对未知乳品样本,先根据步骤(1)至(3)获取未知乳品样本拉曼光谱的近似平移不变小波系数,然后根据步骤(4)的无监督分类方法将其归类到所属类簇,并根据步骤(6)获取未知乳品样本的重构光谱信息;
(8)从同一个类簇的已知乳品光谱数据库中选择与未知乳品样本欧式距离或马氏距离最接近的15-30个已知乳品样本为校正集,根据已知乳品样本中α-乳白蛋白和β-乳球蛋白的含量信息采用多元校正方法针对单个未知乳品样本分别建立α-乳白蛋白和β-乳球蛋白的数据驱动模型;
(9)单独划出一个独立的验证集样本以有效评估数据驱动模型的性能,该验证集中包含n个已知样本,将步骤(8)重复n次以获得n个数据驱动模型和相应的预测结果,由此实现对验证集乳品样本中α-乳白蛋白、β-乳球蛋白的数据驱动模型性能进行量化评价;
(10)对单个未知乳品样本构建α-乳白蛋白、β-乳球蛋白的数据驱动模型,并获得相应的模型预测值,并将α-乳白蛋白、β-乳球蛋白的含量信息根据公式折算成未知乳品样本中乳清蛋白含量信息。
本发明的有益效果是:本发明采用拉曼光谱技术定量分析乳品中α-乳白蛋白和β-乳球蛋白的含量,从实验设计入手,构建具备良好数据结构特征的已知乳品样品光谱数据库,引导后续的光谱解析方法准确提取验证集乳品样本的数据特征。在此基础上,将平移不变小波变换引入光谱数据的处理过程中,有效提升了光谱解析分辨率,进而有效降低了重叠光谱之间的相互干扰。借助变量筛选方法,从复杂、变动的平移不变小波系数中准确提取待测物质的最佳变量组合,并根据平移不变小波变换算法重构相应的光谱数据,在有效剥离光谱干扰的同时,也获得了最佳的时域/频域分辨率。本发明在难以建立精确模型的情况下,通过分析未知乳品样本的重构光谱数据特征及内在规律,只针对单个未知乳品样本单独建模,以动态地逼近目标理想模型,有效克服实际乳品样本配方的不确定性。最终构建α-乳白蛋白和β-乳球蛋白的数据驱动模型,并折算成相应的乳清蛋白含量,进而实现了乳品中乳清蛋白的无损检测,可方便进行相关乳品的现场检测。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,步骤(1)中对乳品样本的拉曼光谱进行采集时,采集条件为激发光源波长为785nm至1064nm,激光输出功率为10mW至400mW,拉曼光谱波数范围从200cm-1~2000cm-1,光谱分辨率大于20cm-1。
进一步,步骤(3)中所述近似平移不变小波变换的方法包括高密度小波变换、双树小波变换、双树双密度小波变换、双树多进制小波变换。该方法是基于一个子空间中选定的解析度等级中的平移不变小波变换(TIWT)域上的分析,该方法的引用有效降低了重叠光谱之间的相互干扰。
进一步,步骤(4)中所述无监督分类方法为K平均法、主成分分析法、聚类分析法中的任一种。k平均法是把n的对象根据他们的属性分为k个分割,k<n。它与处理混合正态分布的最大期望算法很相似,因为他们都试图找到数据中自然聚类的中心。它假设对象属性来自于空间向量,并且目标是使各个群组内部的均方误差总和最小。假设有k个群组Si,i=1,2,...,k。μi是群组Si内所有元素的重心,或叫中心点。
主成分分析法也称主分量分析法,旨在利用降维的思想,把多指标转化为少数几个综合指标。在数学变换中保持变量的总方差不变,使第一变量具有最大的方差,称为第一主成分,第二变量的方差次大,并且和第一变量不相关,称为第二主成分。依次类推,I个变量就有I个主成分。在用主成分分析法进行因子求解时,最多可以得到与测度项个数一样多的因子,如果保留所有的因子,就起不到降维的目的了,但是知道因子的大小排列,可以对它们进行舍取。在一般的行为研究中,常常用到的判断方法有两个:特征根大于1法与碎石坡法。
聚类分析法是理想的多变量统计技术,主要有分层聚类法和迭代聚类法。聚类分析也称群分析、点群分析,是研究分类的一种多元统计方法。
进一步,步骤(5)中对每个类簇的小波系数进行变量筛选所采用的方法为聚焦遗传算法、无信息变量消除算法、竞争自适应重加权算法及随机蛙跳算法中的任一种。在研究空间对象时,在同一个取样点上可能收集到几十种原始变量,这些复杂的变量之间有许多是相互关联的,可以通过寻找一组相对独立的变量,使变量数据得到简化,此过程称为变量筛选。在进行变量筛选时所采用的具体方法可以根据实际筛选过程的需要进行选择。
进一步,步骤(8)中所述多元校正方法为偏最小二乘法、主成分回归法、支持向量回归法、正交偏最小二乘法、人工神经网络、岭回归法中的任一种。多元校正方法是直接利用测量信号通过降维、特征提取、数学变换以及多元回归技术建立分析信号与待测样品之间的定量模型,以实现定性定量分析的方法。该建模方法以局部隐性的方式逼近目标模型,有效克服验证集样本的不确定性,由此显著提升α-乳白蛋白和β-乳球蛋白的定量分析精度和可靠性。
进一步,步骤(9)中分别对验证集乳品样本中α-乳白蛋白、β-乳球蛋白的数据驱动模型性能进行量化评价,所采用的公式为:
E=100×(Rtr 2+Rvld 2)/(RMSEC+RMSEP)
其中,E为模型性能量化值,Rtr 2为校正集乳品样本的预测结果与α-乳白蛋白或β-乳球蛋白测量值之间的相关系数,Rvld 2为验证集乳品样本的预测结果与α-乳白蛋白或β-乳球蛋白测量值之间的相关系数,RMSEC为校正集乳品样本中α-乳白蛋白或β-乳球蛋白的均方根误差,RMSEP为验证集乳品样本中α-乳白蛋白或β-乳球蛋白的均方根误差。
进一步,计算乳品样本的预测结果与α-乳白蛋白或β-乳球蛋白测量值之间的相关系数R2的公式为:
其中,R2为相关系数,n是样品数,Ci为样品的α-乳白蛋白或β-乳球蛋白测量值,为样品的预测结果;当此公式应用于校正集时,计算结果表示为Rtr 2;应用于验证集时,计算结果表示为Rvld 2;
进一步,校正集乳品样本中α-乳白蛋白或β-乳球蛋白的均方根误差RMSEC的计算公式为:
其中,n是样品数,Ci为样品的α-乳白蛋白或β-乳球蛋白测量值,为样品的预测结果。验证集乳品样本中α-乳白蛋白或β-乳球蛋白的均方根误差RMSEP的计算公式与RMSEC的计算公式相同。
进一步,步骤(10)中将α-乳白蛋白、β-乳球蛋白的含量信息折算成未知乳品样本中乳清蛋白含量信息,其转算公式为:
CW=(Cα+Cβ)*W
其中,CW为未知乳品样本中乳清蛋白的含量,单位为g/100g;Cα为未知乳品样本中α-乳白蛋白的含量,单位为g/100g;Cβ为未知乳品样本中β-乳白蛋白的含量,单位为g/100g;W为折算系数,取值5/3。
附图说明
图1为本发明一种基于数据驱动拉曼光谱的乳品中乳清蛋白测量方法的流程图;
图2为本发明实施例中婴幼儿奶粉的拉曼光谱图;
图3为本发明实施例中反映婴幼儿奶粉中α-乳白蛋白的重构拉曼光谱信息的波形图;
图4为本发明实施例中α-乳白蛋白的数据驱动模型预测值与实际测量值之间的关系曲线图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
如图1所示,本实施例公开了一种基于数据驱动拉曼光谱的乳品中乳清蛋白测量方法,包括如下步骤:
S1:以面扫描或旋转样品杯的方式重复采集10-100次乳品样本的拉曼光谱,取其平均值作为乳品样本的拉曼光谱;
S2:利用高效液相色谱-质谱联用仪分别对乳品样本中α-乳白蛋白和β-乳球蛋白的含量信息进行定量分析;
S3:采用近似平移不变小波变换的方法对乳品样品的拉曼光谱进行小波多尺度分解,获取乳品样本拉曼光谱的近似平移不变小波变换系数;
S4:基于乳品样本拉曼光谱的近似平移不变小波变换系数,采用主成分无监督分类方法将乳品样本拉曼光谱的近似平移不变小波变换系数分成多个类簇;
S5:根据每个类簇的乳品样本拉曼光谱的近似平移不变小波变换系数以及乳品样本中α-乳白蛋白、β-乳球蛋白的含量信息,采用变量筛选方法对每个类簇的小波系数进行变量筛选,构建每个类簇的数据驱动模型;
S6:对乳品样本拉曼光谱的近似平移不变小波变换系数进行光谱重构,获取每个类簇的重构光谱信息,构建已知乳品光谱数据库;
S7:针对未知乳品样本,先根据步骤S1至S3获取未知乳品样本拉曼光谱的近似平移不变小波系数,然后根据步骤S4中无监督分类方法将其归类到所属类簇,并根据步骤S6获取未知乳品样本的重构光谱信息;
S8:从同一个类簇的已知乳品光谱数据库中选择与未知乳品样本欧式距离或马氏距离最接近的15-30个已知乳品样本为校正集,根据已知乳品样本中α-乳白蛋白和β-乳球蛋白的含量信息采用多元校正方法针对单个未知乳品样本分别建立α-乳白蛋白和β-乳球蛋白的数据驱动模型;
S9:单独划出一个独立的验证集样本以有效评估数据驱动模型的性能,该验证集中包含n个已知样本,将步骤S8重复n次以获得n个数据驱动模型和相应的预测结果,由此实现对验证集乳品样本中α-乳白蛋白、β-乳球蛋白的数据驱动模型性能进行量化评价;
S10:根据步骤S8所获得的数据驱动模型,获得单个未知乳品样本中α-乳白蛋白、β-乳球蛋白的浓度预测值,将它们的含量信息根据公式折算成未知乳品样本中乳清蛋白含量信息。
在一个具体的实施例中,步骤S1中对乳品样本的拉曼光谱进行采集时,采集条件为激发光源波长为785nm至1064nm,激光输出功率为10mW至400mW,拉曼光谱波数范围从200cm-1~2000cm-1,光谱分辨率大于20cm-1。
具体地,步骤S3中近似平移不变小波变换的方法包括但不限于高密度小波变换、双树小波变换、双树双密度小波变换、双树多进制小波变换。该方法是基于一个子空间中选定的解析度等级中的平移不变小波变换(TIWT)域上的分析,该方法的引用有效降低了重叠光谱之间的相互干扰。
具体地,步骤S4中无监督分类方法为K平均法、主成分分析法、聚类分析法中的任一种。其中,k平均法是把n的对象根据他们的属性分为k个分割,k<n。它与处理混合正态分布的最大期望算法很相似,因为他们都试图找到数据中自然聚类的中心。它假设对象属性来自于空间向量,并且目标是使各个群组内部的均方误差总和最小。假设有k个群组Si,i=1,2,...,k。μi是群组Si内所有元素的重心,或叫中心点。
主成分分析法也称主分量分析法,旨在利用降维的思想,把多指标转化为少数几个综合指标。在数学变换中保持变量的总方差不变,使第一变量具有最大的方差,称为第一主成分,第二变量的方差次大,并且和第一变量不相关,称为第二主成分。依次类推,I个变量就有I个主成分。在用主成分分析法进行因子求解时,最多可以得到与测度项个数一样多的因子,如果保留所有的因子,就起不到降维的目的了,但是知道因子的大小排列,可以对它们进行舍取。在一般的行为研究中,常常用到的判断方法有两个:特征根大于1法与碎石坡法。
聚类分析法是理想的多变量统计技术,主要有分层聚类法和迭代聚类法。聚类分析也称群分析、点群分析,是研究分类的一种多元统计方法。
具体地,步骤S5中对每个类簇的小波系数进行变量筛选所采用的方法为聚焦遗传算法、无信息变量消除算法、竞争自适应重加权算法及随机蛙跳算法中的任一种。
具体地,步骤S8中多元校正方法为偏最小二乘法、主成分回归法、支持向量回归法、正交偏最小二乘法、人工神经网络、岭回归法中的任一种。该建模方法以局部隐性的方式逼近目标模型,有效克服验证集样本的不确定性,由此显著提升α-乳白蛋白和β-乳球蛋白的定量分析精度和可靠性。
具体地,步骤S9中分别对验证集乳品样本中α-乳白蛋白、β-乳球蛋白的数据驱动模型性能进行量化评价,所采用的公式为:
E=100×(Rtr 2+Rvld 2)/(RMSEC+RMSEP)
其中,E为模型性能量化值,Rtr 2为校正集乳品样本的预测结果与α-乳白蛋白或β-乳球蛋白测量值之间的相关系数,Rvld 2为验证集乳品样本的预测结果与α-乳白蛋白或β-乳球蛋白测量值之间的相关系数,RMSEC为校正集乳品样本中α-乳白蛋白或β-乳球蛋白的均方根误差,RMSEP为验证集乳品样本中α-乳白蛋白或β-乳球蛋白的均方根误差。
具体地,计算乳品样本的预测结果与α-乳白蛋白或β-乳球蛋白测量值之间的相关系数R2的公式为:
其中,R2为相关系数,n是样品数,Ci为样品的α-乳白蛋白或β-乳球蛋白测量值,为样品的预测结果;当此公式应用于校正集时,计算结果表示为Rtr 2;应用于验证集时,计算结果表示为Rvld 2;
进一步,校正集乳品样本中α-乳白蛋白或β-乳球蛋白的均方根误差RMSEC的计算公式为:
其中,n是样品数,Ci为样品的α-乳白蛋白或β-乳球蛋白测量值,为样品的预测结果。
具体地,步骤S10中将未知乳品样本中α-乳白蛋白、β-乳球蛋白的含量信息折算成乳清蛋白含量信息,其转算公式为:
CW=(Cα+Cβ)*W
其中,CW为未知乳品样本中乳清蛋白的含量,单位为g/100g;Cα为未知乳品样本中α-乳白蛋白的含量,单位为g/100g;Cβ为未知乳品样本中β-乳白蛋白的含量,单位为g/100g;W为折算系数,取值5/3。
下面通过一个具体的实施例阐述基于数据驱动拉曼光谱的乳品中乳清蛋白测量方法的实现过程。
根据食药总局婴幼儿配方乳粉产品配方注册目录信息,收集市面上75个工厂所生产的628种配方奶粉样本,涵盖市面上婴幼儿配方奶粉的主流品牌,其中婴幼儿配方奶粉307种,较大婴幼儿配方奶粉321种,以下统称为“婴幼儿奶粉”。
S1:采集628种婴幼儿奶粉的拉曼光谱,光谱采集范围为200cm-1~2000cm-1,单次采样的积分时间为1s,激光输出功率为100mW,结果如图2所示,将2g固体奶粉直接装入石英样品池后,放入拉曼光谱仪的样品槽,测定点在样品池底部,以螺旋步进的方式旋转石英样品池,尽可能扫描样品池底部的奶粉样品信息,采集时间为60s,取其平均值作为该奶粉样品的拉曼光谱;
S2:利用高效液相色谱-质谱联用仪器定量分析628种婴幼儿奶粉样品中α-乳白蛋白的含量信息,确保其数据的可靠性和准确性,并将其划分为校正集和验证集样本,其中,校正集包含541个婴幼儿奶粉样本,验证集包含87个婴幼儿奶粉样本;
S3:对校正集中样品的拉曼光谱进行高密度小波变换,乳品拉曼光谱的近似平移不变小波系数,采用“3vm”小波滤波器,分解层数为6层,以时/频双域过采样的方式有效提升了光谱解析分辨率,进而有效降低了重叠光谱之间的相互干扰;
S4:基于乳品拉曼光谱的近似平移不变小波系数,采用主成分分析方法将小波系数投影到主成分空间,进而将每个样品的小波系数转化成主成分得分矩阵,随后根据不同样品主成分得分向量之间的欧式距离,决定样本的类簇。欧式距离越小,说明样品之间的相似度越好,最终将541个婴幼儿奶粉样本划分成10个类簇,每个类簇的样本数量在40-63之间;
S5:针对这10个类簇,采用聚焦遗传算法(FGA)分别选择α-乳白蛋白和β-乳球蛋白响应的特征小波系数,以有效避免乳品样本的基质干扰。在FGA算法中,先采用蒙特卡洛法对每个类簇进行m次随机取样,由此获得随机性的校正集和验证集,在此基础上,执行遗传算法以选择最佳变量;将m个遗传算法的变量筛选结果组成矩阵,并统计每一个变量出现的次数,当变量出现的频率越高,说明变量越重要,即该变量被有效聚焦;最终根据留一法交叉验证,选择n个出现频次最高的变量作为最终变量组合。
S6:对所选择的小波系数进行光谱重构,以获取完整的光谱时域信息;此处以第一类簇(一共10个类簇)的小波系数筛选结果为例,其重构结果如图3所示,结果表明:所选婴幼儿奶粉样品的重构拉曼光谱在520cm-1(S-S伸缩)、832cm-1(氨基酸残基)、873cm-1(氨基酸残基)、1590cm-1(N-H键)处具有特征峰,并与蛋白质特征直接相关。FGA还选择了一系列其它的光谱,如1281cm-1(N-H键)、1338cm-1(C-O键)和1432cm-1(C-H键),均对α-乳白蛋白的定量分析起一定作用;
S7:针对未知乳品样本,先根据步骤S3获取该未知乳品样本的近似平移不变小波系数,然后根据步骤S4将其归类到特定的类簇,并根据步骤S6重构该未知乳品样本的光谱信息;
S8:按照K近邻数据驱动的原则,只选择与未知乳品样本的马氏距离最接近的25个已知样本为校正集,根据已知乳品样本中α-乳白蛋白和β-乳球蛋白的含量信息采用多元校正方法针对单个未知乳品样本分别建立α-乳白蛋白和β-乳球蛋白的数据驱动模型;
S9:单独划出一个独立的用于评估数据驱动模型性能的验证集,采用偏最小二乘支持向量回归技术构建α-乳白蛋白的数据驱动模型,并根据留一法交叉验证,获得偏最小二乘法的最佳因子数,由此计算验证集样本中α-乳白蛋白的数据驱动模型的预测均方根误差和相关系数,对验证集乳品样本中α-乳白蛋白的模型性能进行量化评价;
图4显示了检验集样本的α-乳白蛋白定量模型预测结果与HPLC-MS实际测量数据之间的拟合曲线,其线性相关系数为0.96,E值得分为1410。根据IUPAC定义检出限等于预测值的三倍标准偏差除以拟合曲线的斜率,计算得到婴幼儿奶粉中α-乳白蛋白的检出限为0.12g/100g。计算结果表明,87种婴幼儿奶粉中α-乳白蛋白的含量范围为0.42g-2.01g/100g,与HPLC-MS的实际测量数据吻合。该结果表明,本发明对婴幼儿奶粉中α-乳白蛋白的测试结果真实可靠,具备良好的重现性和分析精度,且误差范围满足实际应用需求。
然后对验证集乳样本重复进行步骤S2至步骤S8操作,以此类推获得β-乳球蛋白的数据驱动模型。计算结果表明,婴幼儿奶粉中β-乳球蛋白的检出限为0.13g/100g。290种婴幼儿奶粉中β-乳球蛋白的含量范围为0.86g-4.51g/100g,与HPLC-MS的实际测量数据吻合。
S10:对单个未知乳品样本构建α-乳白蛋白、β-乳球蛋白的数据驱动模型,并获得相应的模型预测结果,将两者的预测结果信息折算成未知乳品样本中乳清蛋白含量信息。
本实施例提供的基于数据驱动拉曼光谱的乳品中乳清蛋白测量方法,采用拉曼光谱技术定量分析乳品中α-乳白蛋白和β-乳球蛋白的含量,从实验设计入手,构建具备良好数据结构特征的混合样品数据集,引导后续的光谱解析方法准确提取待测物质的数据特征。在此基础上,将平移不变小波变换引入光谱数据的处理过程中,以时/频双域过采样或双树分解的方式有效提升了光谱解析分辨率,进而有效降低了重叠光谱之间的相互干扰。借助变量筛选方法,从复杂、变动的平移不变小波系数中准确提取待测物质的最佳变量组合,并采用平移不变小波变换对变量组合进行光谱重构,在有效剥离基质等光谱干扰的同时,获得了最佳的时域/频域分辨率,有利于后续的建模分析。本发明在难以建立精确模型的情况下,通过分析未知乳品样本的重构光谱数据特征及内在规律,只针对单个未知乳品样本单独建模,以动态地逼近目标理想模型,有效克服实际乳品样本配方的不确定性。最终构建α-乳白蛋白和β-乳球蛋白的数据驱动模型,并折算成相应的乳清蛋白含量,进而实现了乳品中乳清蛋白的无损检测,可方便进行相关乳品的现场检测。
以上仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种基于数据驱动拉曼光谱的乳品中乳清蛋白测量方法,其特征在于,包括如下步骤:
(1)以面扫描或旋转样品杯的方式重复采集10-100次乳品样本的拉曼光谱,取其平均值作为乳品样本的拉曼光谱;
(2)利用高效液相色谱-质谱联用仪分别对乳品样本中α-乳白蛋白和β-乳球蛋白的含量信息进行定量分析;
(3)采用近似平移不变小波变换的方法对乳品样品的拉曼光谱进行小波多尺度分解,获取乳品样本拉曼光谱的近似平移不变小波变换系数;
(4)基于乳品样本拉曼光谱的近似平移不变小波变换系数,采用无监督分类算法将乳品样本拉曼光谱的近似平移不变小波变换系数分成多个类簇;
(5)根据每个类簇的乳品样本拉曼光谱的近似平移不变小波变换系数以及乳品样本中α-乳白蛋白和β-乳球蛋白的含量信息,采用变量筛选方法对每个类簇的近似平移不变小波变换系数进行变量筛选,构建每个类簇的数据驱动模型;
(6)对乳品样本拉曼光谱的近似平移不变小波变换系数进行光谱重构,获取每个类簇的重构光谱信息,构建已知乳品光谱数据库;
(7)针对未知乳品样本,先根据步骤(1)至(3)获取未知乳品样本拉曼光谱的近似平移不变小波系数,然后根据步骤(4)的无监督分类方法将其归类到所属类簇,并根据步骤(6)获取未知乳品样本的重构光谱信息;
(8)从同一个类簇的已知乳品光谱数据库中选择与未知乳品样本欧式距离或马氏距离最接近的15-30个已知乳品样本为校正集,根据已知乳品样本中α-乳白蛋白和β-乳球蛋白的含量信息采用多元校正方法分别建立单个未知乳品样本的α-乳白蛋白和β-乳球蛋白的数据驱动模型;
(9)单独划出一个独立的用于评估数据驱动模型性能的验证集,所述验证集中包含n个已知乳品样本,将步骤(8)重复n次以获得n个数据驱动模型和相应的预测值,并分别对验证集乳品样本中α-乳白蛋白、β-乳球蛋白的数据驱动模型性能进行量化评价;
(10)根据步骤(8)所构建的α-乳白蛋白、β-乳球蛋白数据驱动模型预测未知乳品样本的α-乳白蛋白、β-乳球蛋白浓度,并将它们的含量信息折算成未知乳品样本中乳清蛋白含量信息。
2.根据权利要求1所述一种基于数据驱动拉曼光谱的乳品中乳清蛋白测量方法,其特征在于,步骤(1)中对乳品样本的拉曼光谱进行采集时,采集条件为激发光源波长为785nm至1064nm,激光输出功率为10mW至400mW,拉曼光谱波数范围从200cm-1~2000cm-1,光谱分辨率大于20cm-1。
3.根据权利要求1所述一种基于数据驱动拉曼光谱的乳品中乳清蛋白测量方法,其特征在于,步骤(3)中所述近似平移不变小波变换的方法为高密度小波变换、双树小波变换、双树双密度小波变换、双树多进制小波变换中的任一种。
4.根据权利要求1所述一种基于数据驱动拉曼光谱的乳品中乳清蛋白测量方法,其特征在于,步骤(4)中所述无监督分类方法为K平均法、主成分分析法、聚类分析法中的任一种。
5.根据权利要求1所述一种基于数据驱动拉曼光谱的乳品中乳清蛋白测量方法,其特征在于,步骤(5)中对每个类簇的小波系数进行变量筛选所采用的方法为聚焦遗传算法、无信息变量消除算法、竞争自适应重加权算法及随机蛙跳算法中的任一种。
6.根据权利要求1所述一种基于数据驱动拉曼光谱的乳品中乳清蛋白测量方法,其特征在于,步骤(8)中所述多元校正方法为偏最小二乘法、主成分回归法、支持向量回归法、正交偏最小二乘法、人工神经网络、岭回归法中的任一种。
7.根据权利要求1所述一种基于数据驱动拉曼光谱的乳品中乳清蛋白测量方法,其特征在于,步骤(9)中分别对验证集乳品样本中α-乳白蛋白、β-乳球蛋白的数据驱动模型性能进行量化评价,所采用的公式为:
E=100×(Rtr 2+Rvld 2)/(RMSEC+RMSEP)
其中,E为模型性能量化值,Rtr 2为校正集乳品样本的预测结果与α-乳白蛋白或β-乳球蛋白测量值之间的相关系数,为验证集乳品样本的预测结果与α-乳白蛋白或β-乳球蛋白测量值之间的相关系数,RMSEC为校正集乳品样本中α-乳白蛋白或β-乳球蛋白的均方根误差,RMSEP为验证集乳品样本中α-乳白蛋白或β-乳球蛋白的均方根误差。
8.根据权利要求7所述一种基于数据驱动拉曼光谱的乳品中乳清蛋白测量方法,其特征在于,计算乳品样本的预测结果与α-乳白蛋白或β-乳球蛋白测量值之间的相关系数R2的公式为:
其中,R2为相关系数,n是样品数,Ci为样品的α-乳白蛋白或β-乳球蛋白测量值,为样品的预测值;当此公式应用于校正集时,计算结果表示为Rtr 2;应用于验证集时,计算结果表示为Rvld 2;
校正集乳品样本中α-乳白蛋白或β-乳球蛋白的均方根误差RMSEC的计算公式为:
其中,n是样品数,Ci为样品的α-乳白蛋白或β-乳球蛋白测量值,为样品的预测结果。
9.根据权利要求1-7任一项所述一种基于数据驱动拉曼光谱的乳品中乳清蛋白测量方法,其特征在于,步骤(10)中将α-乳白蛋白、β-乳球蛋白的含量信息折算成未知乳品样本中乳清蛋白含量信息,其折算公式为:
CW=(Cα+Cβ)*W
其中,CW为未知乳品样本中乳清蛋白的含量,单位为g/100g;Cα为未知乳品样本中α-乳白蛋白的含量,单位为g/100g;Cβ为未知乳品样本中β-乳白蛋白的含量,单位为g/100g;W为折算系数,取值5/3。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810682373.XA CN108613965B (zh) | 2018-06-27 | 2018-06-27 | 一种基于数据驱动拉曼光谱的乳品中乳清蛋白测量方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810682373.XA CN108613965B (zh) | 2018-06-27 | 2018-06-27 | 一种基于数据驱动拉曼光谱的乳品中乳清蛋白测量方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108613965A true CN108613965A (zh) | 2018-10-02 |
CN108613965B CN108613965B (zh) | 2021-05-18 |
Family
ID=63665733
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810682373.XA Active CN108613965B (zh) | 2018-06-27 | 2018-06-27 | 一种基于数据驱动拉曼光谱的乳品中乳清蛋白测量方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108613965B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109283153A (zh) * | 2018-11-26 | 2019-01-29 | 佛山市海天(高明)调味食品有限公司 | 一种酱油定量分析模型的建立方法 |
CN109765214A (zh) * | 2019-03-29 | 2019-05-17 | 北京中科遗传与生殖医学研究院有限责任公司 | 基于表面增强拉曼光谱的不孕不育患者血清的检测方法 |
CN109799224A (zh) * | 2019-03-25 | 2019-05-24 | 贵州拜特制药有限公司 | 快速检测中药提取液中蛋白质浓度的方法及应用 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1902495A (zh) * | 2003-12-30 | 2007-01-24 | 英特尔公司 | 使用拉曼光谱法获取生物样品的蛋白质图谱的方法 |
CN106770152A (zh) * | 2016-11-18 | 2017-05-31 | 江苏省质量安全工程研究院 | 一种基于特征峰及算法参数选取的奶粉品牌快速鉴别方法 |
-
2018
- 2018-06-27 CN CN201810682373.XA patent/CN108613965B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1902495A (zh) * | 2003-12-30 | 2007-01-24 | 英特尔公司 | 使用拉曼光谱法获取生物样品的蛋白质图谱的方法 |
CN106770152A (zh) * | 2016-11-18 | 2017-05-31 | 江苏省质量安全工程研究院 | 一种基于特征峰及算法参数选取的奶粉品牌快速鉴别方法 |
Non-Patent Citations (5)
Title |
---|
NAZLIN HOWELL等: "Elucidation of interactions of lysozyme with whey proteins by Raman spectroscopy", 《INTERNATIONAL JOURNAL OF FOOD SCIENCE AND TECHNOLOGY》 * |
P. BLANPAIN-AVET等: "Analysis by Raman spectroscopy of the conformational structure of whey proteins constituting fouling deposits during the processing in a heat exchanger", 《JOURNAL OF FOOD ENGINEERING》 * |
RODRIGO STEPHANI等: "Raman spectroscopy as a tool to identify modification of whey protein concentrate (WPC) during shelf life", 《FOOD PACKAGING AND SHELF LIFE》 * |
XIHAN等: "On-line multi-component analysis of gases for mud logging industry using data driven Raman spectroscopy", 《FUEL》 * |
黄志轩: "乳制品安全拉曼光谱成像分析新方法研究", 《中国优秀硕士学位论文全文数据库》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109283153A (zh) * | 2018-11-26 | 2019-01-29 | 佛山市海天(高明)调味食品有限公司 | 一种酱油定量分析模型的建立方法 |
CN109283153B (zh) * | 2018-11-26 | 2021-02-26 | 佛山市海天(高明)调味食品有限公司 | 一种酱油定量分析模型的建立方法 |
CN109799224A (zh) * | 2019-03-25 | 2019-05-24 | 贵州拜特制药有限公司 | 快速检测中药提取液中蛋白质浓度的方法及应用 |
CN109765214A (zh) * | 2019-03-29 | 2019-05-17 | 北京中科遗传与生殖医学研究院有限责任公司 | 基于表面增强拉曼光谱的不孕不育患者血清的检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108613965B (zh) | 2021-05-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Xu et al. | Raman spectroscopy coupled with chemometrics for food authentication: A review | |
Burger et al. | Hyperspectral NIR imaging for calibration and prediction: a comparison between image and spectrometer data for studying organic and biological samples | |
Grelet et al. | Large-scale phenotyping in dairy sector using milk MIR spectra: Key factors affecting the quality of predictions | |
Wang et al. | Model fusion for prediction of apple firmness using hyperspectral scattering image | |
Li et al. | Pears characteristics (soluble solids content and firmness prediction, varieties) testing methods based on visible-near infrared hyperspectral imaging | |
Lee et al. | Discrimination and prediction of the origin of Chinese and Korean soybeans using Fourier transform infrared spectrometry (FT-IR) with multivariate statistical analysis | |
CN108613965A (zh) | 一种基于数据驱动拉曼光谱的乳品中乳清蛋白测量方法 | |
US20070211247A1 (en) | Visible/Near-Infrared Spectrometry And Its Device | |
CN109540836A (zh) | 基于bp人工神经网络的近红外光谱糖度检测方法及系统 | |
CN106841083A (zh) | 基于近红外光谱技术的芝麻油品质检测方法 | |
Yuan et al. | Models fused with successive CARS-PLS for measurement of the soluble solids content of Chinese bayberry by vis-NIRS technology | |
WO2020105566A1 (ja) | 情報処理装置、情報処理装置の制御方法、プログラム、算出装置、及び算出方法 | |
Akbarzadeh et al. | Microwave spectroscopy based on the waveguide technique for the nondestructive freshness evaluation of egg | |
Zhu et al. | Determination of protein content of raw fresh cow’s milk using dielectric spectroscopy combined with chemometric methods | |
Huang et al. | Assessment of tomato maturity in different layers by spatially resolved spectroscopy | |
Guo et al. | A novel technique on determining water content in milk using radio-frequency/microwave dielectric spectroscopy and chemometrics | |
Hosseini et al. | Application of genetic algorithm and multivariate methods for the detection and measurement of milk‐surfactant adulteration by attenuated total reflection and near‐infrared spectroscopy | |
Zhou et al. | Machine learning modeling and prediction of peanut protein content based on spectral images and stoichiometry | |
Guo et al. | A Novel NIR-based strategy for rapid freshness assessment of preserved eggs | |
Sheng et al. | Analysis of protein and fat in milk using multiwavelength gradient-boosted regression tree | |
CN104502307A (zh) | 一种快速检测长牡蛎糖原和蛋白质含量的方法 | |
Song et al. | Detection of aflatoxin B1 in peanut oil using attenuated total reflection fourier transform infrared spectroscopy combined with partial least squares discriminant analysis and support vector machine models | |
CN110231302A (zh) | 一种快速测定奇亚籽粗脂肪含量的方法 | |
Janni et al. | Novel near-infrared sampling apparatus for single kernel analysis of oil content in maize | |
Davies et al. | Quantitative analysis via near infrared databases: comparison analysis using restructured near infrared and constituent data-deux (CARNAC-D) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |