CN112002377B - 基于集成学习校准模型的松子蛋白质含量预测方法 - Google Patents

基于集成学习校准模型的松子蛋白质含量预测方法 Download PDF

Info

Publication number
CN112002377B
CN112002377B CN202010854838.2A CN202010854838A CN112002377B CN 112002377 B CN112002377 B CN 112002377B CN 202010854838 A CN202010854838 A CN 202010854838A CN 112002377 B CN112002377 B CN 112002377B
Authority
CN
China
Prior art keywords
snv
near infrared
calibration model
protein content
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010854838.2A
Other languages
English (en)
Other versions
CN112002377A (zh
Inventor
张冬妍
蒋大鹏
李鸿博
李丹丹
曹军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeast Forestry University
Original Assignee
Northeast Forestry University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeast Forestry University filed Critical Northeast Forestry University
Priority to CN202010854838.2A priority Critical patent/CN112002377B/zh
Publication of CN112002377A publication Critical patent/CN112002377A/zh
Application granted granted Critical
Publication of CN112002377B publication Critical patent/CN112002377B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/10Signal processing, e.g. from mass spectrometry [MS] or from PCR
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Bioethics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Molecular Biology (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Investigating Or Analysing Materials By Optical Means (AREA)

Abstract

基于集成学习校准模型的松子蛋白质含量预测方法,它属于食品成分检测技术领域。本发明解决了利用现有近红外校准模型对松子中蛋白质含量预测的准确率低的问题。本发明对松子的近红外光谱数据进行预处理,并在预处理结束后选用局部切线空间对齐、等距特征映射、局部线性嵌入与主成分分析对预处理后光谱数据进行特征提取;然后使用提取的特征数据集建立松子蛋白质含量与光谱数据的偏最小二乘模型;最后依据stacking法作为集成策略,以BP神经网络为次级学习器,输出最终松子蛋白质含量结果。本发明方法对光谱数据利用程度更高,充分利用了近红外光谱中复杂的空间特征,提高了校准模型预测的准确率。本发明可以应用于松子中蛋白质含量预测。

Description

基于集成学习校准模型的松子蛋白质含量预测方法
技术领域
本发明涉及食品成分检测技术领域,具体涉及一种基于集成学习校准模型的松子蛋白质含量预测方法。
背景技术
近红外光谱建模技术是测定实验样品的近红外光谱波段内的一系列反射率、透射率以及实验样品的理化特性后,使用统计学方法,优选光谱波段并建立实验样品理化特性与近红外光谱的校准模型,使用所建立的校准模型预测其他样品理化特性的一种技术。校准模型大多选用PLS、PCR、MCR等传统统计模型,近年来随着机器学习与数据挖掘领域的发展,越来越多的机器学习方法也被用于近红外光谱建模中。
流形学习是机器学习的一个分支,流形学习能够捕捉高维空间中复杂的拓扑结构以及低维流形,图1为瑞士卷数据集,数据符合低维流形结构。面对近红外光谱这种高维空间复杂数据,较之PCA方法,流形学习方法对光谱数据中的低维流形与非线性结构更加敏感。流形学习主要方法包括等距离映射(isomap)、局部线性嵌入(Locally LinearEmbedding,LLE)、海森特征映射(Hessian Eigenmapping)、谱嵌入(Spectral Embedding)、多维缩放(Multidimensional scaling,MDS)、t-SNE以及局部切空间排列(LTSA)等方法。
集成学习,也称强化学习,是机器学习的另一个分支。集成学习通过构建并结合多个弱学习器来完成建模任务,大多数情况下,集成学习模型比单一机器学习模型与统计模型拥有更高的泛化性能与准确率。集成学习分为构建弱学习器策略与结合策略,其中构建弱学习器策略主要有:adaboost方法、bagging与随机森林方法;结合策略主要有:平均法、投票法与学习法。
目前,主流近红外光谱建模方法大多使用PCA、SPA等特征提取与光谱优选方法提取光谱数据后,使用PLS、BiPLS等模型建立近红外光谱校准模型,由于使用所建立的校准模型可以预测其他样品的理化特性,因此,可以将建立的近红外光谱校准模型应用于食品中成分含量的预测。
由于松子中蛋白质含量很高,且蛋白质含量是衡量不同松子质量的一个重要标准,因此对松子中的蛋白质含量进行预测十分必要。
虽然利用现有方法建立的近红外光谱校准模型可以对松子中的蛋白质含量进行预测,但是现有方法存在的问题是没有充分利用近红外所包含的大量信息,尤其是近红外光谱中复杂的空间特征,PCA与SPA特征提取与光谱优选方法造成的数据损失较大,最终校准模型对松子中蛋白质含量预测的准确率较低。
发明内容
本发明的目的是为解决现有方法在建立近红外校准模型时没有充分利用近红外光谱中复杂的空间特征,导致利用现有近红外校准模型对松子中蛋白质含量预测的准确率低的问题,而提出了一种基于集成学习校准模型的松子蛋白质含量预测方法。
本发明为解决上述技术问题采取的技术方案是:基于集成学习校准模型的松子蛋白质含量预测方法,所述方法具体包括以下步骤:
步骤一、采集松子样品的原始光谱数据样本,样本数量为m,再分别对各个原始光谱数据样本进行预处理,获得预处理后的近红外光谱数据;
步骤二、分别采用LTSA、isomap、LLE与PCA方法提取预处理后的近红外光谱数据特征,获得采用四种方法提取出的四组特征向量;
步骤三、选用boosting集成学习算法建立用于松子蛋白质含量预测的校准模型,并对校准模型进行训练,获得训练好的校准模型;
所述校准模型由四个弱学习器和BP神经网络组成;且所述的四个弱学习器是分别基于步骤二提取出的四组特征向量建立的;
步骤四、对于蛋白质含量待测的松子原始光谱数据,对待测数据进行步骤一和步骤二的处理后,获得待测数据的四组特征向量,将获得的四组特征向量输入校准模型,将校准模型的输出作为蛋白质含量的预测结果。
本发明的有益效果是:本发明提出了一种基于集成学习校准模型的松子蛋白质含量预测方法,本发明使用标准正态变换与Savitzky-Golay平滑滤波对松子的近红外光谱数据进行预处理,并在预处理结束后,选用局部切线空间对齐(LTSA)、等距特征映射(isomap)、局部线性嵌入(LLE)与主成分分析(PCA)对预处理后光谱数据进行特征提取;然后使用提取得到的特征数据集建立松子蛋白质含量与光谱数据的偏最小二乘模型;最后依据stacking法作为集成策略,以BP神经网络为次级学习器,输出最终松子蛋白质含量结果。相比较于现有方法,本发明方法对光谱数据利用程度更高,充分利用了近红外光谱中复杂的空间特征,提高了校准模型预测的准确率。
附图说明
图1为瑞士卷数据集的示意图;
图2为光谱仪采集到的松子样品原始光谱图;
图3为SG平滑滤波后的光谱数据曲线图;
图4为经预处理后的松子近红外光谱数据曲线图;
图5是本发明方法的流程图;
图6是采用PCA-PLS校准模型的回归结果图;
图7是采用SPA-PLS校准模型的回归结果图;
图8是采用本发明校准模型的回归结果图。
具体实施方式
具体实施方式一:结合图5说明本实施方式。本实施方式所述的一种基于集成学习校准模型的松子蛋白质含量预测方法,所述方法具体通过以下步骤实现:
步骤一、采集松子样品的原始光谱数据样本,样本数量为m,再分别对各个原始光谱数据样本进行预处理,获得预处理后的近红外光谱数据;
步骤二、分别采用LTSA(局部切线空间对齐)、isomap(等距特征映射)、LLE(局部线性嵌入)与PCA(主成分分析)方法提取预处理后的近红外光谱数据特征,获得采用四种方法提取出的四组特征向量;
步骤三、选用boosting集成学习算法建立用于松子蛋白质含量预测的校准模型,并对校准模型进行训练,获得训练好的校准模型;
所述校准模型由四个弱学习器和BP神经网络组成;且所述的四个弱学习器是分别基于步骤二提取出的四组特征向量建立的;
步骤四、对于蛋白质含量待测的松子原始光谱数据,对待测数据进行步骤一和步骤二的处理后,获得待测数据的四组特征向量,将获得的四组特征向量输入校准模型,将校准模型的输出作为蛋白质含量的预测结果。
本发明通过不同流形学习与降维方法,将近红外高维原始数据映射在不同的流形子空间中,分析高维光谱数据在低维流形空间中的性质并建立相应的弱学习器模型。本发明做法的理论依据是,近红外光谱数据通常具有某些特殊的低维流形结构,集成学习校准模型能够组合多个弱学习模型建立一个鲁棒性更强、泛化性能更加优秀的校准模型,相较于传统PLS、iPLS与BiPLS方法,本实验能够将光谱数据中存在的低维流形结构融入所建立的校正模型中,从而提高预测精度。
具体实施方式二:本实施方式是对具体实施方式一的进一步具体说明,所述步骤一中,分别对各个原始光谱数据样本进行预处理,预处理采用的方法是标准正态变换(standard normal variate,SNV)和SG(Savitzky-Golay)平滑滤波。
本实施方式对松子样品的近红外光谱数据进行预处理,其目的是消除样品表面散射干扰、基线漂移与噪声对光谱数据的干扰,增强数据差异。获得消除干扰后的近红外光谱数据。
具体实施方式三:本实施方式是对具体实施方式一的进一步具体说明,所述步骤一的具体过程为:
步骤一一、图2为光谱仪采集到的松子样品原始光谱,对于第i个原始光谱数据样本,设光程位置序号为j,j=1,2,…,l,l代表光程的总个数,
Figure BDA0002646067370000041
为利用p阶多项式对第j个光程位置的原始光谱数据进行拟合而得到的近红外光谱数据;
Figure BDA0002646067370000042
其中,aj′为权值系数,j′=0,1,…,p,p阶多项式拟合的窗口宽度为2q+1,λ为窗口宽度波长范围内的吸光度;
当q的取值为4时,窗口宽度为9,当对第5个光程位置的原始光谱数据进行拟合时,则λ为第1个至第9个光程位置波长范围内的吸光度;
采用最小二乘法,计算通过多项式拟合得到的近红外光谱数据与原始光谱数据间的最小误差ε:
Figure BDA0002646067370000043
其中,xj,λ为第j个光程位置的原始光谱数据,当
Figure BDA0002646067370000044
时,求得最小误差ε对应的权值系数aj′,j′=0,1,…,p;
步骤一一的过程即为SG平滑滤波过程,得到权值系数aj′后,获得如图3所示的SG平滑滤波后的光谱数据图;
步骤一二、采用标准正态变换方法对拟合得到的近红外光谱数据进行标准正态变换,则第i个原始光谱数据样本中第j个光程位置对应的预处理后近红外光谱数据xi,j,SNV为:
Figure BDA0002646067370000045
其中:
Figure BDA0002646067370000046
为对第i个原始光谱数据样本进行拟合得到的近红外光谱数据中各光程位置数据的平均值,则第i个原始光谱数据样本对应的预处理后近红外光谱数据xi,SNV为:xi,SNV=(xi,1,SNV,xi,2,SNV,…,xi,l,SNV);
步骤一三、重复步骤一一和步骤一二的过程,分别对各原始光谱数据样本进行预处理,分别获得各原始光谱数据样本对应的预处理后近红外光谱数据。
如图4为经预处理后的松子近红外光谱数据曲线图。
本实施方式对原始光谱数据进行预处理,其目的在于降低松子样品固体颗粒大小、光程变换和表面散射对松子近红外光谱的干扰。
具体实施方式四:本实施方式是对具体实施方式三的进一步具体说明,所述步骤三的具体过程为:
步骤三一、基于步骤二获得的四组特征向量,分别采用PLS(偏最小二乘)方法建立四个弱学习器,建立好弱学习器后,将获得的四组特征向量分别输入对应的弱学习器;
利用输入的特征向量对弱学习器进行训练,直至达到设置的最大训练次数时停止训练,获得训练好的弱学习器;
步骤三二、将四个训练好的弱学习器的输出结果作为BP神经网络的输入,利用输入对BP神经网络进行训练,直至达到设置的最大训练次数时停止训练,获得训练好的BP神经网络。
具体实施方式五:本实施方式是对具体实施方式一的进一步具体说明,所述boosting集成学习算法的集成策略为stacking方法。
具体实施方式六:本实施方式是对具体实施方式一的进一步具体说明,所述步骤二中,采用LTSA方法提取预处理后的近红外光谱数据特征,其具体过程为:
使用LTSA方法对预处理后的近红外光谱数据进行降维;
设预处理后的近红外光谱数据为Xpre={x1,SNV,x2,SNV,…,xm,SNV},对于光谱点xi,SNV,在Xpre中寻找xi,SNV的邻域内的k-1个光谱点,将包含xi,SNV在内的k个光谱点记为xi1,xi2,...,xik,将由xi1,xi2,...,xik构成的矩阵记为Xi=[xi1,...,xik];
然后,LSTA通过式计算一个d维仿射子空间逼近Xi
Figure BDA0002646067370000051
其中:xi为对第i个样本进行预处理获得的近红外光谱数据降维后的d维局部坐标,Qi为降维后的d维子空间的切空间,Θi为d维仿射子空间的局部坐标系,Θi=[θi1,...,θik],θi1为xi1的降维后的局部坐标,||·||为F范数,
Figure BDA0002646067370000061
为xi与全1矩阵的乘积;
公式(4)的解析解为:
Figure BDA0002646067370000062
其中:
Figure BDA0002646067370000063
为Xi中全部光谱点数据的平均值,
Figure BDA0002646067370000064
Figure BDA0002646067370000065
与全1矩阵的乘积,
Figure BDA0002646067370000066
矩阵奇异值分解中最大的d个奇异值对应的左奇异向量,Qi ′T为Qi′的转置;
则Xi的d维仿射子空间的局部坐标系为
Figure BDA0002646067370000067
同理,获得每个原始光谱数据样本的预处理后结果的局部坐标系;
记Ti=[ti1,...,tik]为Θi对应的全局坐标,全局坐标Ti与局部坐标Θi存在仿射变换关系:
Figure BDA0002646067370000068
其中:I为单位矩阵,Li为局部仿射变换矩阵,中间变量Ei=[εi1,...,εik],εik为xik的重建局部变换误差;
通过最小化重建误差
Figure BDA0002646067370000069
得到d维仿射子空间的全局坐标T={t1,…,ti,…,tm},ti为第i个原始光谱数据样本的全局坐标,将全局坐标T作为采用LTSA方法提取出的特征向量。
具体实施方式七:本实施方式是对具体实施方式六的进一步具体说明,所述在Xpre中寻找xi,SNV的邻域内的k-1个光谱点,其具体过程为:
计算xi,SNV与Xpre中其它任意一个光谱点xi′,SNV的JS散度,i′=1,2,…,m,i≠i′;
Figure BDA00026460673700000610
Figure BDA00026460673700000611
其中:DKL(xi,SNV||xi′,SNV)为xi,SNV与xi′,SNV的KL散度,⊙代表xi,SNV与xi′,SNV中对应位置的数据相除;DJS(xi,SNV||xi′,SNV)为xi,SNV与xi′,SNV的JS散度;
计算xi,SNV与Xpre中其它任意一个光谱点xi′,SNV的欧氏距离;
Figure BDA00026460673700000612
其中:DEU(xi,SNV||xi′,SNV)为xi,SNV与xi′,SNV的欧氏距离;
设xi,SNV对应的蛋白质含量为y,利用DJS(xi,SNV||xi′,SNV)、DEU(xi,SNV||xi′,SNV)和y寻找出xi,SNV的邻域内的k-1个光谱点;
DKNN(xi,SNV||xi′,SNV)=μDJS(xi,SNV||xi′,SNV)+σDEU(xi,SNV||xi′,SNV)+εy (9)
其中,μ、σ和ε为常数,DKNN(xi,SNV||xi′,SNV)为xi,SNV与xi′,SNV的最终距离;
将计算出的DKNN(xi,SNV||xi′,SNV)按照从小到大的顺序进行排序,将排在前面的k-1个DKNN(xi,SNV||xi′,SNV)所对应的光谱点作为xi,SNV邻域内的k-1个光谱点。
流形学习属于无监督方法,对训练集的利用率不高,改进监督流形学习方法在进行特征提取的过程中使用数据集标注(蛋白质含量y)辅助降维,对训练集数据利用更充分,输出特征向量更准确。
使用isomap方法对预处理后的光谱矩阵Xpre进行降维。首先,在使用本实施方式的方法找到光谱点xi的邻域后,isomap方法将选定光谱点xi的邻域视作一个低维流形M,根据预处理后的近红外光谱构建的输入空间Xpre中点对之间的距离,并确定哪些光谱点是流形M的近邻。设这k+1个光谱点构建的邻域表示为数据点上的加权图G,其中相邻点之间的权重为d(i,j),等度量映射通过计算图G中的最短路径距离dG(i,j)来估计流形M上所有点对之间的测地距离d(i,j)。dG(i,j)的计算方法如下:
首先,确定xi的k近邻,xi与xi的k近邻个光谱点共同确定一个图G,将xi与k近邻点之间的距离设置为欧式距离,其他点的距离设置为无穷大。
然后,调用最短路径算法计算任意两个样本点之间的距离dist(xi,xj),并根据下面三个公式计算
Figure BDA0002646067370000071
Figure BDA0002646067370000072
Figure BDA0002646067370000073
Figure BDA0002646067370000081
根据式得到矩阵B
Figure BDA0002646067370000082
对矩阵B做特征值分解,取Λ为d`个最大特征值所构成的对角矩阵,V为相应的特征向量矩阵,最终VΛ1/2为降维后的近红外光谱。
使用LLE方法对预处理后的光谱矩阵Xpre进行降维,先使用本实施方式的方法为近红外光谱点xi找到其近邻下标集合Qi,然后基于Qi对xi进行重构,设重构系数为wi
Figure BDA0002646067370000083
Figure BDA0002646067370000084
其中xi和xj均为已知,令Cjk=(xi-xj)T(xi-xk),wij有闭式解
Figure BDA0002646067370000085
局部线性嵌入在低维空间中保持wi不变,于是xi对应的zi可通过下式求解:
Figure BDA0002646067370000086
Figure BDA0002646067370000087
Wij=wij
M=(I-W)T(I-W)
则式(2-11)重写为
min tr(ZMZ)T
s.t.ZZT=I
式可通过特征值分解:M最小的d`个特征值对应的特征向量组成的矩阵即为LLE降维后的近红外光谱ZT
使用PCA方法对预处理后的光谱矩阵Xpre进行降维,PCA方法属于传统降维方法,在诸多领域得到广泛的应用,因此这里不做过多介绍。
图8为本发明提出的近红外校准模型回归效果图,从图6和图7可以看出,采用本发明提出的近红外校准模型回归结果与PCA-PLS、SPA-PLS校准模型的处理结果相比较,本发明方法的效果有所改善。
本发明的上述算例仅为详细地说明本发明的计算模型和计算流程,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动,这里无法对所有的实施方式予以穷举,凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。

Claims (7)

1.基于集成学习校准模型的松子蛋白质含量预测方法,其特征在于,所述方法具体通过以下步骤实现:
步骤一、采集松子样品的原始光谱数据样本,样本数量为m,再分别对各个原始光谱数据样本进行预处理,获得预处理后的近红外光谱数据;
步骤二、分别采用LTSA、isomap、LLE与PCA方法提取预处理后的近红外光谱数据特征,获得采用四种方法提取出的四组特征向量;
步骤三、选用boosting集成学习算法建立用于松子蛋白质含量预测的校准模型,并对校准模型进行训练,获得训练好的校准模型;
所述校准模型由四个弱学习器和BP神经网络组成;且所述的四个弱学习器是分别基于步骤二提取出的四组特征向量建立的;
步骤四、对于蛋白质含量待测的松子原始光谱数据,对待测数据进行步骤一和步骤二的处理后,获得待测数据的四组特征向量,将获得的四组特征向量输入校准模型,将校准模型的输出作为蛋白质含量的预测结果。
2.根据权利要求1所述的基于集成学习校准模型的松子蛋白质含量预测方法,其特征在于,所述步骤一中,分别对各个原始光谱数据样本进行预处理,预处理采用的方法是标准正态变换和SG平滑滤波。
3.根据权利要求1所述的基于集成学习校准模型的松子蛋白质含量预测方法,其特征在于,所述步骤一的具体过程为:
步骤一一、对于第i个原始光谱数据样本,设光程位置序号为j,j=1,2,…,l,l代表光程的总个数,
Figure FDA0002646067360000011
为利用p阶多项式对第j个光程位置的原始光谱数据进行拟合而得到的近红外光谱数据;
Figure FDA0002646067360000012
其中,aj′为权值系数,j′=0,1,…,p,p阶多项式拟合的窗口宽度为2q+1,λ为窗口宽度波长范围内的吸光度;
采用最小二乘法,计算通过多项式拟合得到的近红外光谱数据与原始光谱数据间的最小误差ε:
Figure FDA0002646067360000013
其中,xj,λ为第j个光程位置的原始光谱数据,当
Figure FDA0002646067360000021
时,求得最小误差ε对应的权值系数aj′,j′=0,1,…,p;
步骤一二、采用标准正态变换方法对拟合得到的近红外光谱数据进行标准正态变换,则第i个原始光谱数据样本中第j个光程位置对应的预处理后近红外光谱数据xi,j,SNV为:
Figure FDA0002646067360000022
其中:
Figure FDA0002646067360000023
为对第i个原始光谱数据样本进行拟合得到的近红外光谱数据中各光程位置数据的平均值,则第i个原始光谱数据样本对应的预处理后近红外光谱数据xi,SNV为:xi,SNV=(xi,1,SNV,xi,2,SNV,…,xi,l,SNV);
步骤一三、重复步骤一一和步骤一二的过程,分别对各原始光谱数据样本进行预处理,分别获得各原始光谱数据样本对应的预处理后近红外光谱数据。
4.根据权利要求3所述的基于集成学习校准模型的松子蛋白质含量预测方法,其特征在于,所述步骤三的具体过程为:
步骤三一、基于步骤二获得的四组特征向量,分别采用PLS方法建立四个弱学习器,建立好弱学习器后,将获得的四组特征向量分别输入对应的弱学习器;
利用输入的特征向量对弱学习器进行训练,直至达到设置的最大训练次数时停止训练,获得训练好的弱学习器;
步骤三二、将四个训练好的弱学习器的输出结果作为BP神经网络的输入,利用输入对BP神经网络进行训练,直至达到设置的最大训练次数时停止训练,获得训练好的BP神经网络。
5.根据权利要求1所述的基于集成学习校准模型的松子蛋白质含量预测方法,其特征在于,所述boosting集成学习算法的集成策略为stacking方法。
6.根据权利要求1所述的基于集成学习校准模型的松子蛋白质含量预测方法,其特征在于,所述步骤二中,采用LTSA方法提取预处理后的近红外光谱数据特征,其具体过程为:
设预处理后的近红外光谱数据为Xpre={x1,SNV,x2,SNV,…,xm,SNV},对于光谱点xi,SNV,在Xpre中寻找xi,SNV的邻域内的k-1个光谱点,将包含xi,SNV在内的k个光谱点记为xi1,xi2,...,xik,将由xi1,xi2,...,xik构成的矩阵记为Xi=[xi1,...,xik];
Figure FDA0002646067360000031
其中:xi为对第i个样本进行预处理获得的近红外光谱数据降维后的d维局部坐标,Qi为降维后的d维子空间的切空间,Θi为d维仿射子空间的局部坐标系,Θi=[θi1,...,θik],θi1为xi1的降维后的局部坐标,||·||为F范数,
Figure FDA0002646067360000032
为xi与全1矩阵的乘积;
公式(4)的解析解为:
Figure FDA0002646067360000033
其中:
Figure FDA0002646067360000034
为Xi中全部光谱点数据的平均值,
Figure FDA0002646067360000035
Figure FDA0002646067360000036
与全1矩阵的乘积,Qi′为
Figure FDA0002646067360000037
矩阵奇异值分解中最大的d个奇异值对应的左奇异向量,QiT为Qi′的转置;
同理,获得每个原始光谱数据样本的预处理后结果的局部坐标系;
记Ti=[ti1,...,tik]为Θi对应的全局坐标,全局坐标Ti与局部坐标Θi存在仿射变换关系:
Figure FDA0002646067360000038
其中:I为单位矩阵,Li为局部仿射变换矩阵,Ei=[εi1,...,εik],εik为xik的重建局部变换误差;
通过最小化重建误差
Figure FDA0002646067360000039
得到d维仿射子空间的全局坐标T={t1,…,ti,…,tm},ti为第i个原始光谱数据样本的全局坐标,将全局坐标T作为采用LTSA方法提取出的特征向量。
7.根据权利要求6所述的基于集成学习校准模型的松子蛋白质含量预测方法,其特征在于,所述在Xpre中寻找xi,SNV的邻域内的k-1个光谱点,其具体过程为:
计算xi,SNV与Xpre中其它任意一个光谱点xi′,SNV的JS散度,i′=1,2,…,m,i≠i′;
Figure FDA00026460673600000310
Figure FDA00026460673600000311
其中:DKL(xi,SNV||xi′,SNV)为xi,SNV与xi′,SNV的KL散度,⊙代表xi,SNV与xi′,SNV中对应位置的数据相除;DJS(xi,SNV||xi′,SNV)为xi,SNV与xi′,SNV的JS散度;
计算xi,SNV与Xpre中其它任意一个光谱点xi′,SNV的欧氏距离;
Figure FDA0002646067360000041
其中:DEU(xi,SNV||xi′,SNV)为xi,SNV与xi′,SNV的欧氏距离;
设xi,SNV对应的蛋白质含量为y,利用DJS(xi,SNV||xi′,SNV)、DEU(xi,SNV||xi′,SNV)和y寻找出xi,SNV的邻域内的k-1个光谱点;
DKNN(xi,SNV||xi′,SNV)=μDJS(xi,SNV||xi′,SNV)+σDEU(xi,SNV||xi′,SNV)+εy (9)
其中,μ、σ和ε为常数,DKNN(xi,SNV||xi′,SNV)为xi,SNV与xi′,SNV的最终距离;
将计算出的DKNN(xi,SNV||xi′,SNV)按照从小到大的顺序进行排序,将排在前面的k-1个DKNN(xi,SNV||xi′,SNV)所对应的光谱点作为xi,SNV邻域内的k-1个光谱点。
CN202010854838.2A 2020-08-24 2020-08-24 基于集成学习校准模型的松子蛋白质含量预测方法 Active CN112002377B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010854838.2A CN112002377B (zh) 2020-08-24 2020-08-24 基于集成学习校准模型的松子蛋白质含量预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010854838.2A CN112002377B (zh) 2020-08-24 2020-08-24 基于集成学习校准模型的松子蛋白质含量预测方法

Publications (2)

Publication Number Publication Date
CN112002377A CN112002377A (zh) 2020-11-27
CN112002377B true CN112002377B (zh) 2021-04-27

Family

ID=73473144

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010854838.2A Active CN112002377B (zh) 2020-08-24 2020-08-24 基于集成学习校准模型的松子蛋白质含量预测方法

Country Status (1)

Country Link
CN (1) CN112002377B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115280422A (zh) * 2020-12-25 2022-11-01 京东方科技集团股份有限公司 食物推荐方法、装置、存储介质及电子设备
CN112842342B (zh) * 2021-01-25 2022-03-29 北京航空航天大学 一种结合希尔伯特曲线和集成学习的心电磁信号分类方法
CN116429721A (zh) * 2023-03-15 2023-07-14 东北农业大学 一种基于mpa框架的松子近红外光谱波段选择方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110276409A (zh) * 2019-06-27 2019-09-24 腾讯科技(深圳)有限公司 一种时间序列异常检测方法、装置、服务器和存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110276409A (zh) * 2019-06-27 2019-09-24 腾讯科技(深圳)有限公司 一种时间序列异常检测方法、装置、服务器和存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Ensemble preprocessing of near-infrared spectra for multivariate calibration;Lu Xu 等;《Analytica chimica acta》;20081231;第138-143页 *
PLS BP法近红外光谱同时检测饲料组分的研究;刘波平 等;《光谱学与光谱分析》;20071031;第27卷(第10期);第2005-2009页 *
基于近红外的松子蛋白质品质分类处理;蒋大鹏 等;《计算机技术与自动化》;20180930;第37卷(第03期);第180-184页 *
小麦蛋白质含量近红外无损检测方法研究;赵环 等;《中文优秀硕士学位论文全文数据库 工程科技I辑》;20180215(第02期);全文 *

Also Published As

Publication number Publication date
CN112002377A (zh) 2020-11-27

Similar Documents

Publication Publication Date Title
CN112002377B (zh) 基于集成学习校准模型的松子蛋白质含量预测方法
Zhang et al. Classification modeling method for near‐infrared spectroscopy of tobacco based on multimodal convolution neural networks
CN104331880B (zh) 基于几何空谱结构信息的高光谱混合像元分解方法
CN104374738B (zh) 一种基于近红外提高鉴别结果的定性分析方法
CN107219188B (zh) 一种基于改进dbn的近红外光谱分析纺织品棉含量的方法
de Boves Harrington Support vector machine classification trees based on fuzzy entropy of classification
CN110503156B (zh) 一种基于最小相关系数的多变量校正特征波长选择方法
CN112766227A (zh) 一种高光谱遥感影像分类方法、装置、设备及存储介质
US20230243744A1 (en) Method and system for automatically detecting and reconstructing spectrum peaks in near infrared spectrum analysis of tea
Owomugisha et al. Matrix relevance learning from spectral data for diagnosing cassava diseases
CN107423503A (zh) 基于核慢特征分析和时滞估计的gpr建模
Zhao et al. Deep learning assisted continuous wavelet transform-based spectrogram for the detection of chlorophyll content in potato leaves
CN114937173A (zh) 一种基于动态图卷积网络的高光谱图像快速分类方法
CN103336915A (zh) 基于质谱数据获取生物标志物的方法及装置
Tavakoli et al. Predicting key soil properties from Vis-NIR spectra by applying dual-wavelength indices transformations and stacking machine learning approaches
CN114254703A (zh) 一种鲁棒的局部与全局正则化的非负矩阵分解聚类方法
US20230029474A1 (en) Machine vision for characterization based on analytical data
Jin et al. An innovative approach for integrating two-dimensional conversion of Vis-NIR spectra with the Swin Transformer model to leverage deep learning for predicting soil properties
CN112465062A (zh) 一种基于流形学习和秩约束的聚类方法
Qin et al. Similarity measure method based on spectra subspace and locally linear embedding algorithm
CN115630332A (zh) 一种小麦粉粉质特性预测方法
CN101667253A (zh) 一种高光谱遥感数据多类别监督分类方法
Zihao et al. Near-infrared fault detection based on stacked regularized auto-encoder network
CN114331474A (zh) 一种模糊线性判别分析的牛奶产地溯源方法
Luo et al. Hyperspectral image classification based on pre-post combination process

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant