CN115406853A - 一种淀粉成分预测方法 - Google Patents

一种淀粉成分预测方法 Download PDF

Info

Publication number
CN115406853A
CN115406853A CN202210761680.3A CN202210761680A CN115406853A CN 115406853 A CN115406853 A CN 115406853A CN 202210761680 A CN202210761680 A CN 202210761680A CN 115406853 A CN115406853 A CN 115406853A
Authority
CN
China
Prior art keywords
data
starch
sample
near infrared
spectrum data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210761680.3A
Other languages
English (en)
Inventor
李华
荣婕妤
高世权
贾雪
何洪流
黄家福
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changchun University
Original Assignee
Changchun University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changchun University filed Critical Changchun University
Priority to CN202210761680.3A priority Critical patent/CN115406853A/zh
Publication of CN115406853A publication Critical patent/CN115406853A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/17Systems in which incident light is modified in accordance with the properties of the material investigated
    • G01N21/25Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
    • G01N21/31Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry
    • G01N21/35Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light
    • G01N21/3563Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light for analysing solids; Preparation of samples therefor
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/17Systems in which incident light is modified in accordance with the properties of the material investigated
    • G01N21/25Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
    • G01N21/31Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry
    • G01N21/35Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light
    • G01N21/359Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light using near infrared light
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/20Identification of molecular entities, parts thereof or of chemical compositions
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N2201/00Features of devices classified in G01N21/00
    • G01N2201/12Circuits of general importance; Signal processing
    • G01N2201/129Using chemometrical methods
    • G01N2201/1293Using chemometrical methods resolving multicomponent spectra

Landscapes

  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Biochemistry (AREA)
  • General Physics & Mathematics (AREA)
  • Pathology (AREA)
  • Immunology (AREA)
  • General Health & Medical Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Computing Systems (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Investigating Or Analysing Materials By Optical Means (AREA)

Abstract

本发明公开了一种淀粉成分预测方法,包括:获取淀粉的维度数高于样本数的小样本近红外光谱数据表,采用孤立森林算法对小样本近红外光谱数据进行异常光谱筛选,将光谱数据中密度低、分布松散且远离大多集群点的点记为异常点而筛选剔除,通过通过因子分析法,找出筛选剔除后的不同近红外光谱数据中代表所有特性的公共因子,获得降维后的近红外光谱数据,采用AdaBoost算法对降维后近红外光谱数据进行建模,获得淀粉成分预测模型,在淀粉成分预测模型中输入待预测淀粉光谱数据,得到淀粉成分指标预测结果。该方法适合维度数高于样本数的小样本数据的测定,可以较好应对含噪声及杂散光数据样本建模,提高预测模型准确率。

Description

一种淀粉成分预测方法
技术领域
本发明涉及淀粉检测技术领域,更具体的涉及一种淀粉成分预测方法。
背景技术
在淀粉的生产过程中,为了能够更好的运输与贮藏,国家规定淀粉的含水量不应该超过14%。但是在实际的淀粉生产中,测量的方法通常使用的是离线测量方法,即在特定的时间内,对出料淀粉进行采集,然后将采集到的样本送回实验室中进行测量。这种测量方法的周期长、精度低。于是在生产过程中,往往是采用人工判断的方法,凭借工人的经验,判断出淀粉是否超过了国家标准。这种方法虽然能够为生产商减少了因淀粉不合格而带来的损失,但是其可信度并不高。国外进口仪器能够实现在线实时测量,具有高精度、周期可调等特点,但是价格却很高。
20世纪80年代以来随着近红外光谱技术快速发展,有关近红外光谱分析技术应用于工业研究,多在理论与方法讨论。近红外是指波长在780-2500nm范围内的光线,当近红外照射在要分析的物体上时,由于组成物体的化学键的不同,会产生某些特征波长的吸收,吸收度的多少与成分含量的大小有密切关系,由于固体对近红外波长的吸收较弱,因此适用于漫反射技术,根据其漫反射光谱可以分析物体成分。
因此,为了解决离线测量周期长、人工测量不可靠以及在线测量仪器价格昂贵等问题,在实际中实现淀粉成分的快速在线监测及预测是非常必要的。
发明内容
本发明实施例提供一种淀粉成分预测方法,包括:
获取淀粉的维度数高于样本数的小样本近红外光谱数据表;
采用孤立森林算法对小样本近红外光谱数据进行异常光谱筛选,将光谱数据中密度低、分布松散且远离大多集群点的点记为异常点而筛选剔除;
通过通过因子分析法,找出筛选剔除后的不同近红外光谱数据中代表所有特性的公共因子,获得降维后的近红外光谱数据;
采用AdaBoost算法对降维后近红外光谱数据进行建模,获得淀粉成分预测模型;
在淀粉成分预测模型中输入待预测淀粉光谱数据,得到淀粉成分指标预测结果。
优选地,获取淀粉的维度数高于样本数的小样本近红外光谱数据表,包括:
采集每个淀粉样本的不同波长值的淀粉近红外光谱数据,作为自变量,以淀粉成分作为因变量,构建成分预测数据表;
将成分预测数据表拆分成包括多个自变量和一个因变量,构建淀粉的维度数高于样本数的小样本数据表。
优选地,淀粉的成分指标,包括:
灰分、水分、油脂、蛋白质。
优选地,还包括对淀粉成分预测模型进行训练,其具体包括:
通过交叉验证方法划分样本数据为测试集和验证集;
训练数据建模并存储到指定的“model”文件,输出建模用时;
加载模型文件“model”带入验证数据进行预测;
输出预测用时及该模型下的预测值与真值间的R2和MSE2,判断模型预测效果的目;
对建模结果进行可视化展示。
优选地,还包括:基于AdaBoost进行回归,其具体包括:
初始化训练数据,使其具有相同的权值;
根据相对误差或平方误差公式,评价样本点是否被准确预测;
如果是,在构造下一个训练集中,降低该样本点的权值,否则升高该样本点的权值;
根据权重更新过的样本集训练下一个分类器,获得弱回归模型;
加大预测误差率小的弱回归模型的权重,降低预测误差率大的弱回归模型的权重,将弱回归模型组合成强回归模型。
优选地,还包括对样本数据进行预处理,其包括;
选取部分样本光谱数据作为测试集;
采用不同的预处理方式处理样本光谱数据,得到的均方误差和R2,分别评价数据的变化程度和预测值对于真值的拟合程度。
优选地,预处理方式,包括:
利用中心化、标准化、多元散射矫正、标准正态变换和一阶差分、二阶差分预处理法对待处理光谱数据预处理。
本发明实施例提供一种淀粉成分预测方法,与现有技术相比,其有益效果如下:
本发明对淀粉常规指标(灰分、水分、油脂、蛋白质)进行快速检测时,对于维度数高于样本数的小样本数据先通过孤立森林算法进行异常筛选,将光谱数据中密度低、分布松散且远离大多集群点剔除,再通过因子分析降维处理,再采用AdaBoost算法对淀粉近红外光谱数据进行建模和预测,建模前对工厂传回数据进行清洗,剔除不好的数据从而使预测结果达到最佳,可以在保证效率和应对小样本数据情况下对淀粉成分数据有很好的预测效果。
附图说明
图1为本发明实施例提供的一种淀粉成分预测方法。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,本发明实施例提供一种淀粉成分预测方法,该方法包括:
S1、采集淀粉近红外光谱数据,得到原始样本数据;本实施例中不同样本在特征数远超过样本量,在不同波长下分别采样一次得到工厂传回的angbu,因为不同成分在近红外光谱反射区上吸光程度聚集区间不相同。
其中,原始样本数据由890个波长值(范围为[3992.00,11104.00],单位:cm-1,间隔8.00cm-1)构成自变量,4种成分(灰分、水分、油脂、蛋白质)构成因变量。
S2、对原始样本数据进行拆分,得到待处理数据。
具体为将原始样本数据中的灰分、水分、油脂、蛋白质四种成分含量对应的样本数据进行拆分,得到方便建模的数据格式。这四种成分为淀粉质量的重要成分指标,对淀粉的生产、加工利用均有重要意义,大部分淀粉快速检测均以这四种指标为主,若增加评价指标则可不限制于四种成分。本实施例将数据表拆分成含有890个自变量和一个成分数据的便于建模形式,最终得到四个数据表用于之后对四种不同成分分别建模及预测。例:对于水分值(M),用于训练和预测的数据表构成一共892列,分别是第一列样本序号,第2列为每个样本对应的水分含量值,第3至892列为890个不同波长下的光谱吸收度;具体拆分过程是直接从水分表里面去除其余三列成分值即可。
S3、对待处理数据进行预处理,对比不同预处理方法的均方误差和R2等值,根据比较结果择优选择适合此类样本数据的预处理方法。
本实施例中预处理方法选用中心化、标准化、多元散射矫正、标准正态变换和一阶、二阶差分进行对比,建模过程择优选择,保证数据最大程度的有效性。例:在实验中每次选取部分样本光谱作为测试集,其余样本作为训练集,对于不同的预处理方法后的数据建立模型带入验证集之后,得到的均方误差(MSE)是估计值与真值之差平方的期望值,据此可以评价数据的变化程度,MSE的值越小,说明预测模型描述实验数据具有更好的精确度;同样地,R2的含义是预测值解释了真值方差的多大比例,即衡量了预测值对于真值的拟合好坏程度,R2越接近于1模型拟合效果越好,所以根据不同于处理结果下的数据生成模型的MSE和R2,按照MSE越小和R2接近于1的要求选择更好的方法作为之后建模前的预处理方法。
S4、对上述预处理后数据通过孤立森林算法进行光谱筛选,再通过因子分析进行降维处理。
首先将光谱数据中密度低、分布松散且远离大多集群点的点记为异常点而筛选剔除。再将光谱数据的890维特征重新整合,找出代表所有特性的少数公共因子,用少数因子来进行建模。
S5、采用AdaBoost算法对淀粉近红外光谱数据进行建模,获得预测模型。
S6、利用预测模型对预处理后的样本数据的淀粉成分进行预测。
在基于AdaBoost进行回归时,主要有三个步骤:
一、初始化训练数据的权值分布。如果有N个样本,则每一个训练样本最开始时都被赋予相同的权重1/N;
二、训练弱回归模型,在具体训练过程中,如果某个样本点已经被准确地预测,那么在构造下一个训练集中,它的权重就被降低,反之亦然。其中对于“是否准确预测”的判断是根据相对误差或平方误差公式。然后权重更新过的样本集被用于训练下一个分类器,整个训练过程如此迭代地进行下去。
三、将各个训练得到的弱回归模型组合成强回归模型。各个弱回归模型的训练过程结束后,加大预测误差率小的弱回归模型的权重,使其在最终的预测函数中起着较大的决定作用,而降低预测误差率大的弱回归模型的权重,使其在最终的预测函数中起着较小的决定作用。换言之,误差率低的弱回归模型在最终预测模型中占的权重较大,否则较小。
在模型训练时,以1:9的比例划分测试集和训练集,训练数据建模并存储到指定的“model”文件,同时输出建模用时;之后加载模型文件“model”带入验证数据进行预测,同时输出预测用时及该模型下的预测值与真值间的R2和MSE2来达到判断模型预测效果的目的,最终对建模结果进行可视化展示,画出光谱图(按照时间序列进行作折线图、直方图、拟合密度曲线),可视化展示更直观。
本发明为对淀粉常规指标(灰分、水分、油脂、蛋白质)进行高效预测产生一种新思路,即采用AdaBoost算法建模前对光谱数据通过孤立森林方法进行筛选,剔除不好的数据从而使预测结果达到最佳,且继续对筛选后的数据进行降维处理,可以在保证效率和应对小样本数据情况下对淀粉成分数据有很好的预测效果,采用此方法灵活应对小样本高维度数据问题,对于异常光谱筛选采取一种较新的方法孤立森林,将光谱数据中密度低、分布松散且远离大多集群点的点记为异常点而筛选剔除,减少小样本建模准确性中异常值引起的严重影响。同时进行了光谱的可视化使结果便于下一步分析和非专业人士阅读。
本发明提供的淀粉成分预测方法具有以下优势:
(1)从工厂直接传回淀粉样本数据可能具有多重共线性、光谱带较宽、可解释性较差等缺点,并且在近红外光谱采集过程中由于内外因素作用(如淀粉形态、近红外探头的设备误差等)不可避免地携带一些与测试样本化学性质不相关的成分,导致采集的光谱中存在光谱平移、重叠等噪声数据,使得待测样本的近红外光谱数据信噪比较低,因此在建模之前需要先对数据进行预处理,尽可能多地去除掉对预测结果有干扰作用的无关噪声数据。所以在通过对比分析中心化、标准化、多元散射矫正、标准正态变换和一阶二阶差分这些预处理方法,找到适合淀粉数据的预处理方法;
(2)现存方法多在理论上进行探讨,并未应用在工厂生产之中,所以本发明将之应用于真实的样本数据上,在建立模型前,根据工厂真实数据中维度远远高于样本数的情况,采取因子分析提取有代表性因子进行降维处理,保证降维特征对于原始特征数据的代表性的同时,大大减少后期建模中的计算量;
(3)在进行模型选择时,通过交叉验证方法划分测试集和验证集,并通过不同日期下采集数据进行互验,保证最终本发明选用的AdaBoost算法的生成模型预测的准确性,同时得到预测的光谱图;
(4)对于小样本高维度数据,采用孤立森林算法进行异常光谱筛选,将光谱数据中密度低、分布松散且远离大多集群点的点记为异常点而筛选剔除,减少小样本建模准确性中异常值引起的严重影响。
以上公开的仅为本发明的几个具体实施例,本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明的精神和范围,但是,本发明实施例并非局限于此,任何本领域的技术人员能思之的变化都应落入本发明的保护范围内。

Claims (7)

1.一种淀粉成分预测方法,其特征在于,包括:
获取淀粉的维度数高于样本数的小样本近红外光谱数据表;
采用孤立森林算法对小样本近红外光谱数据进行异常光谱筛选,将光谱数据中密度低、分布松散且远离大多集群点的点记为异常点而筛选剔除;
通过通过因子分析法,找出筛选剔除后的不同近红外光谱数据中代表所有特性的公共因子,获得降维后的近红外光谱数据;
采用AdaBoost算法对降维后近红外光谱数据进行建模,获得淀粉成分预测模型;
在淀粉成分预测模型中输入待预测淀粉光谱数据,得到淀粉成分指标预测结果。
2.如权利要求1所述的一种淀粉成分预测方法,其特征在于,所述获取淀粉的维度数高于样本数的小样本近红外光谱数据表,包括:
采集每个淀粉样本的不同波长值的淀粉近红外光谱数据,作为自变量,以淀粉成分作为因变量,构建成分预测数据表;
将成分预测数据表拆分成包括多个自变量和一个因变量,构建淀粉的维度数高于样本数的小样本数据表。
3.如权利要求1所述的一种淀粉成分预测方法,其特征在于,所述淀粉的成分指标,包括:
灰分、水分、油脂、蛋白质。
4.如权利要求1所述的一种淀粉成分预测方法,其特征在于,还包括对淀粉成分预测模型进行训练,其具体包括:
通过交叉验证方法划分样本数据为测试集和验证集;
训练数据建模并存储到指定的“model”文件,输出建模用时;
加载模型文件“model”带入验证数据进行预测;
输出预测用时及该模型下的预测值与真值间的R2和MSE2,判断模型预测效果的目;
对建模结果进行可视化展示。
5.如权利要求3所述的一种淀粉成分预测方法,其特征在于,还包括:基于AdaBoost进行回归,其具体包括:
初始化训练数据,使其具有相同的权值;
根据相对误差或平方误差公式,评价样本点是否被准确预测;
如果是,在构造下一个训练集中,降低该样本点的权值,否则升高该样本点的权值;
根据权重更新过的样本集训练下一个分类器,获得弱回归模型;
加大预测误差率小的弱回归模型的权重,降低预测误差率大的弱回归模型的权重,将弱回归模型组合成强回归模型。
6.如权利要求3所述的一种淀粉成分预测方法,其特征在于,还包括对样本数据进行预处理,其包括;
选取部分样本光谱数据作为测试集;
采用不同的预处理方式处理样本光谱数据,得到的均方误差和R2,分别评价数据的变化程度和预测值对于真值的拟合程度。
7.如权利要求5所述的一种淀粉成分预测方法,其特征在于,所述预处理方式,包括:
利用中心化、标准化、多元散射矫正、标准正态变换和一阶差分、二阶差分预处理法对待处理光谱数据预处理。
CN202210761680.3A 2022-06-30 2022-06-30 一种淀粉成分预测方法 Pending CN115406853A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210761680.3A CN115406853A (zh) 2022-06-30 2022-06-30 一种淀粉成分预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210761680.3A CN115406853A (zh) 2022-06-30 2022-06-30 一种淀粉成分预测方法

Publications (1)

Publication Number Publication Date
CN115406853A true CN115406853A (zh) 2022-11-29

Family

ID=84157972

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210761680.3A Pending CN115406853A (zh) 2022-06-30 2022-06-30 一种淀粉成分预测方法

Country Status (1)

Country Link
CN (1) CN115406853A (zh)

Similar Documents

Publication Publication Date Title
CN110411957B (zh) 水果货架期及新鲜程度的无损快速预测方法及装置
US10317280B2 (en) Method for correcting measuring-point-free temperature compensation model during online application of near infrared spectrum analyzer
CN107703097B (zh) 利用近红外光谱仪构建快速预测原油性质的模型的方法
CN109324013A (zh) 一种利用高斯过程回归模型构建原油性质近红外快速分析的方法
CN107817223A (zh) 快速无损实时预测原油性质模型的构建方法及其应用
CN111855608B (zh) 基于融合特征波长选择算法的苹果酸度近红外无损检测方法
CN101825567A (zh) 一种近红外光谱和拉曼光谱波长的筛选方法
CN109324014B (zh) 一种自适应的原油性质近红外快速预测方法
CN104965973B (zh) 一种苹果霉心病多因子无损检测判别模型及其建立方法
CN113340874B (zh) 一种基于结合岭回归和递归特征消除的定量分析方法
CN111257277B (zh) 一种基于近红外光谱技术的烟叶相似度判定方法
WO2020248961A1 (zh) 一种无参考值的光谱波数选择方法
CN111693487A (zh) 基于遗传算法和极限学习机的水果糖度检测方法及系统
CN107247033A (zh) 基于快速衰减式淘汰算法和plsda鉴别黄花梨成熟度的方法
CN104596979A (zh) 近红外漫反射光谱技术测定造纸法再造烟叶纤维素的方法
CN109283153B (zh) 一种酱油定量分析模型的建立方法
CN116858822A (zh) 一种基于机器学习和拉曼光谱的水体中磺胺嘧啶定量分析方法
CN117312968A (zh) 一种盐碱农田土壤有机质含量的预测方法
CN115406853A (zh) 一种淀粉成分预测方法
CN108267422B (zh) 基于近红外光谱分析的异常样本剔除法
CN116662751A (zh) 一种基于主成分分析与杠杆值法剔除异常样本的烟叶含水率检测方法
CN115015161A (zh) 一种煤质成分预测方法
CN113295673B (zh) 一种激光诱导击穿光谱弱监督特征提取方法
CN111693488B (zh) 基于ds证据理论融合的水果等级分类方法及系统
CN112861411A (zh) 基于近红外光谱主成分和神经网络的生物质钠含量测量与建模方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Li Hua

Inventor after: Rong Jieyu

Inventor after: Gao Shiquan

Inventor after: Jia Xue

Inventor after: He Hongliu

Inventor after: Huang Jiafu

Inventor before: Li Hua

Inventor before: Rong Jieyu

Inventor before: Gao Shiquan

Inventor before: Jia Xue

Inventor before: He Hongliu

Inventor before: Huang Jiafu

CB03 Change of inventor or designer information