CN110514619B - 基于有偏估计的近红外定量分析模型构建方法 - Google Patents

基于有偏估计的近红外定量分析模型构建方法 Download PDF

Info

Publication number
CN110514619B
CN110514619B CN201910806825.5A CN201910806825A CN110514619B CN 110514619 B CN110514619 B CN 110514619B CN 201910806825 A CN201910806825 A CN 201910806825A CN 110514619 B CN110514619 B CN 110514619B
Authority
CN
China
Prior art keywords
model
sample
samples
selecting
init
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910806825.5A
Other languages
English (en)
Other versions
CN110514619A (zh
Inventor
贺凯迅
苏照阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University of Science and Technology
Original Assignee
Shandong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University of Science and Technology filed Critical Shandong University of Science and Technology
Priority to CN201910806825.5A priority Critical patent/CN110514619B/zh
Publication of CN110514619A publication Critical patent/CN110514619A/zh
Priority to PCT/CN2020/101622 priority patent/WO2021036546A1/zh
Application granted granted Critical
Publication of CN110514619B publication Critical patent/CN110514619B/zh
Priority to ZA2021/08529A priority patent/ZA202108529B/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/17Systems in which incident light is modified in accordance with the properties of the material investigated
    • G01N21/25Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
    • G01N21/31Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry
    • G01N21/35Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light
    • G01N21/359Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light using near infrared light
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Pathology (AREA)
  • Immunology (AREA)
  • Physiology (AREA)
  • Genetics & Genomics (AREA)
  • Biochemistry (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Chemical & Material Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Analytical Chemistry (AREA)
  • Investigating Or Analysing Materials By Optical Means (AREA)

Abstract

本发明公开了基于有偏估计的近红外定量分析模型构建方法,首先从历史数据集中初选训练样本;根据目标工况,从样本集中选择合适的建模样本组成子集,优选后的样本作为近红外定量分析模型的建模样本;利用所述建模样本建立属性与近红外光谱之间的有偏最小最大概率回归模型:通过误差下确界的选取使模型的预测偏差以最大概率在期望的方向上;将测试集近红外光谱带入模型进行预测,根据输出的预测值与参考值计算出模型对应的均方根误差对比,选择最佳模型参数。本发明的有益效果是能从够建模本质考虑预测偏差对生产的影响,从而获取适合用于质量反馈控制的预测结果。

Description

基于有偏估计的近红外定量分析模型构建方法
技术领域
本发明属于油品检测技术领域,涉及油品调合质量反馈控制过程中油品属性的在线检测方法。
背景技术
汽油调合是成品汽油出厂前的最后一道工序,是实现经济效益的重要环节。在油品质量反馈控制系统中,需要对油品属性进行及时、准确的在线检测;这是保证产品合格、减少质量过剩的重要手段。目前,汽油的关键属性,如研究法辛烷值、马达法辛烷值等主要通过人工采样并利用ASTM标准的马达机才可获取;此类方法成本过高、检测周期长不宜用于在线质量反馈控制中。在线近红外技术可根据油品的近红外光谱实现对关键属性的实时检测,因此基于该技术的油品质量反馈控制是当前研究的热点问题之一。当前,在油品调合领域,近红外定量分析模型训练样本的选择往往先根据生产调度信息获知产品标号,初选出与目标工况密切相关的建模样本,然后反复试差,最终确定建模样本。当分析模型用于质量反馈控制系统中时,为了避免因模型预测值偏高而引发的产品质量不合格,需要模型专家实时校正预测模型。由于现有方法没有从数据内在角度分析建模样本的选择,且未能从建模本质考虑预测偏差对生产的影响,较难获取适合用于质量反馈控制的预测结果。
发明内容
本发明的目的在于提供基于有偏估计的近红外定量分析模型构建方法,本发明的有益效果是能从够建模本质考虑预测偏差对生产的影响,从而获取适合用于质量反馈控制的预测结果。
本发明所采用的技术方案是按照以下步骤进行:
S1:数据预处理:首先从历史数据集O中初选训练样本
Oinit={X∈RN×m,Y∈RN×l}∈O
(N代表样本数,m代表样本维度);
训练样本进行初选的方法:从数据集Oinit中选取ylow≤y≤yup组成测试集小样,式中,
Figure BDA0002183902880000021
其中,stdY为Oinit中属性值的标准差,k为灵敏度参数,yobj为目标定单的油品属性出厂指标。遍历O数据集,选择出满足ylow≤y≤yup的所有样本组成Oinit
S2:训练样本优化选择:根据目标工况,从Oinit样本集中选择合适的建模样本组成子集Oopt∈Oinit,优选后的样本作为近红外定量分析模型的建模样本;S21:构造适应度函数
Figure BDA0002183902880000022
其中,n为Oinit数据集中的总样本数,nl为从Oinit中选择的建模样本数,w为权重因子,
Figure BDA0002183902880000024
为交叉验证的预测值,
Figure BDA0002183902880000025
为采用κ=1,2,...,nl个样本构建模型给出的预测值。
S22:采用二进制编码方法,对Oinit数据集中的样本进行编码,若所述数据集中某个样本被选为建模样本,则其编码值为1,否则为0。
S23:利用遗传算法迭代选择部分样本构成训练集,并计算所述训练集对应的适应度函数值。S24:选择最小适应度函数值对应的解组成最优训练集Oopt
步骤S21中的权重因子w为:
Figure BDA0002183902880000023
其中,γ为位置参数。
步骤S22中采用二进制对样本编码。
步骤S23中采用遗传算法进行优化求解。
S3:利用所述建模样本建立属性Y与近红外光谱X之间的有偏最小最大概率回归模型:通过误差下确界的选取使模型的预测偏差以最大概率在期望的方向上;
采用有偏最小最大概率机建立回归模型,对近红外光谱数据X和属性数据Y做如下处理:
ui=(Yi+ε,Xi,1,Xi,2,....,Xi,j,...,Xi,m),U=(u1,u2,...un)T
vi=(Yi-ε,Xi,1,Xi,2,...,Xi,j,...,Xi,m),V=(v1,v2,....,vn)T
其中,ε为给定的绝对误差上确界。
步骤S3中需要指定绝对误
差上确界。步骤S3有偏最
小最大概率机模型为:
max α
α,a≠0,b
Figure BDA0002183902880000031
Figure BDA0002183902880000032
其中,α为u类的正确分类概率下确界,η0为给定的v类正确分类概率下确界。
S4:完成对所述模型的参数调优:将测试集近红外光谱带入模型进行预测,根据输出的预测值与参考值计算出模型对应的均方根误差对比,选择最佳模型参数。
包括:
S41:从工业现场采集样本构建测试集;
S42:给定v类正确分类概率下确界η0的搜索范围以及步长;
S43:遍历η0,并根据所述有偏最小最大概率回归模型在测试集上输出的预测值和参考属性计算均方根误差RMSE:
Figure BDA0002183902880000041
其中,
Figure BDA0002183902880000042
为预测值,yi为参考属性,n为样本数。
S44:选定使RMSE最低的η0为模型参数。
本发明方法首先采用有偏最小最大概率回归算法构建适应度函数,完成对训练样本的选取,在降低建模样本数量的同时能够最大程度的提高所选样本对目标工况的代表性;再利用有偏最小最大概率回归构建近红外定量分析模型,以此提供概率有偏预测输出。
该方法的优势在于可利用遗传算法对训练样本进行选择,极大地提高了建立近红外定量分析模型的质量和效率;通过有偏最小最大概率回归建立预测模型,可以较好的处理非高斯数据,给出的概率有偏预测值可极大提高油品调合质量反馈控制的控制效果。
附图说明
图1是优选的训练样本。
具体实施方式
下面结合具体实施方式对本发明进行详细说明。
以实际汽油汽油调合过程为例,该过程主要包含组分油及调合成品油属性检测、调合配方实时优化、管道阀门比例控制3大部分,如图1所示,组分油管道阀门的开度由调合配方决定,优化服务器依据调合成品油以及组分油的实时属性进行在线优化。
调合成品汽油数据采自国内某炼油厂汽油管道调合过程过程中的监测数据,汽油近红外光谱的波长范围为1100nm-1300nm,波长精度为1nm;样本研究法辛烷值的参考值采用ASTM标准的马达机测定。历史数据集中共包含350组样本,测试集中包含250组样本。
通过MATLAB对上述算法进行仿真,对本发明做进一步详述:
第一步:根据生产工况要求及从历史数据求出历史数据的stdY=0.49,工况要求调合成品汽油RON≥93.8,依据经验最终取k=1;那么,从历史数据集中选取93.31≤y≤94.29的样本组成初始训练集Oinit
第二步:利用S21中的方法构造适应度函数,并利用S22-S24中所述方法采用GA算法进行训练样本优选。最终选择出120个训练样本。
第三步:利用所选出的训练样本构建有偏最小最大概率回归模型,并确定
最优η0=0.29;
第四步:利用上述训练样本以及模型参数,建立有偏最小最大概率回归模型,用于在线过程。
选用梯度下降法求解所述最小最大概率模型,求解后获得回归方程为:
Figure BDA0002183902880000051
其中,
Figure BDA0002183902880000052
以上所述仅是对本发明的较佳实施方式而已,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施方式所做的任何简单修改,等同变化与修饰,均属于本发明技术方案的范围内。

Claims (1)

1.基于有偏估计的近红外定量分析模型构建方法,其特征在于按照以下步骤进行:
S1:数据预处理:首先从历史数据集O中初选训练样本Oinit={X∈RN×m,Y∈RN×l}∈O,N代表样本数,m代表样本维度;
S2:训练样本优化选择:根据目标工况,从Oinit样本集中选择合适的建模样本组成子集Oopt∈Oinit,优选后的样本作为近红外定量分析模型的建模样本;
S3:利用所述建模样本建立属性Y与近红外光谱X之间的有偏最小最大概率回归模型:通过误差下确界的选取使模型的预测偏差以最大概率在期望的方向上;
S4:完成对所述模型的参数调优:将测试集近红外光谱带入模型进行预测,根据输出的预测值与参考值计算出模型对应的均方根误差对比,选择最佳模型参数;
所述步骤S1中训练样本进行初选的方法:从数据集Oinit中选取ylow≤y≤yup组成测试集小样,式中,
Figure FDA0002796971500000011
其中,stdY为Oinit中属性值的标准差,k为灵敏度参数,yobj为目标定单的油品属性出厂指标,遍历O数据集,选择出满足ylow≤y≤yup的所有样本组成Oinit
所述步骤S2包括
S21:构造适应度函数
Figure FDA0002796971500000012
其中,n为Oinit数据集中的总样本数,nl为从Oinit中选择的建模样本数,w为权重因子,
Figure FDA0002796971500000021
为交叉验证的预测值,
Figure FDA0002796971500000022
为采用κ=1,2,...,nl个样本构建模型给出的预测值;
S22:采用二进制编码方法,对Oinit数据集中的样本进行编码,若所述数据集中某个样本被选为建模样本,则其编码值为1,否则为0;
S23:利用遗传算法迭代选择部分样本构成训练集,并计算所述训练集对应的适应度函数值;
S24:选择最小适应度函数值对应的解组成最优训练集Oopt
步骤S21中的权重因子w为:
Figure FDA0002796971500000023
其中,γ为位置参数;
步骤S22中采用二进制对样本编码;
步骤S23中采用遗传算法进行优化求解;
所述步骤S3采用有偏最小最大概率机建立回归模型,对近红外光谱数据X和属性数据Y做如下处理:
ui=(Yi+ε,Xi,1,Xi,2,...,Xi,j,...,Xi,n),U=(u1,u2,...,un)T
vi=(Yi-ε,Xi,1,Xi,2,...,Xi,j,...,Xi,n),V=(v1,v2,...,vn)T
其中,ε为给定的绝对误差上确界;步骤S3中需要指定绝对误差上确界,有偏最小最大概率机模型为:
Figure FDA0002796971500000024
Figure FDA0002796971500000025
Figure FDA0002796971500000026
其中,α为u类的正确分类概率下确界,η0为给定的v类正确分类概率下确界;
所述步骤S4包括:
S41:从工业现场采集样本构建测试集;
S42:给定v类正确分类概率下确界η0的搜索范围以及步长;
S43:遍历η0,并根据所述有偏最小最大概率回归模型在测试集上输出的预测值和参考属性计算均方根误差RMSE:
Figure FDA0002796971500000031
其中,
Figure FDA0002796971500000032
为预测值,yi为参考属性,n为样本数;
S44:选定使RMSE最低的η0为模型参数。
CN201910806825.5A 2019-08-29 2019-08-29 基于有偏估计的近红外定量分析模型构建方法 Active CN110514619B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201910806825.5A CN110514619B (zh) 2019-08-29 2019-08-29 基于有偏估计的近红外定量分析模型构建方法
PCT/CN2020/101622 WO2021036546A1 (zh) 2019-08-29 2020-07-13 基于有偏估计的近红外定量分析模型构建方法
ZA2021/08529A ZA202108529B (en) 2019-08-29 2021-11-02 Near-infrared quantitative analysis model construction method based on biased estimation

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910806825.5A CN110514619B (zh) 2019-08-29 2019-08-29 基于有偏估计的近红外定量分析模型构建方法

Publications (2)

Publication Number Publication Date
CN110514619A CN110514619A (zh) 2019-11-29
CN110514619B true CN110514619B (zh) 2021-01-29

Family

ID=68627794

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910806825.5A Active CN110514619B (zh) 2019-08-29 2019-08-29 基于有偏估计的近红外定量分析模型构建方法

Country Status (3)

Country Link
CN (1) CN110514619B (zh)
WO (1) WO2021036546A1 (zh)
ZA (1) ZA202108529B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110514619B (zh) * 2019-08-29 2021-01-29 山东科技大学 基于有偏估计的近红外定量分析模型构建方法
CN112509643B (zh) * 2021-02-03 2021-07-09 蓝星安迪苏南京有限公司 一种定量分析模型构建方法、定量分析方法、装置及系统
CN113125377B (zh) * 2021-03-30 2024-02-23 武汉理工大学 一种基于近红外光谱检测柴油性质的方法及装置
CN113569951B (zh) * 2021-07-29 2023-11-07 山东科技大学 一种基于生成对抗网络的近红外定量分析模型构建方法
CN113868597B (zh) * 2021-09-27 2023-03-10 电子科技大学 一种用于年龄估计的回归公平性度量方法
CN113821934B (zh) * 2021-09-30 2024-01-19 国网青海省电力公司电力科学研究院 一种工况参数的预测方法、装置、设备及存储介质
CN114062306B (zh) * 2021-10-25 2024-04-05 华东理工大学 一种近红外光谱数据分段预处理方法
CN114219157B (zh) * 2021-12-17 2023-10-17 西南石油大学 一种基于最优决策和动态分析的烷烃气体红外光谱测量方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1703272A1 (en) * 2005-03-16 2006-09-20 BP Chemicals Limited Measuring near infra-red spectra using a demountable NIR transmission cell
US20140012504A1 (en) * 2012-06-14 2014-01-09 Ramot At Tel-Aviv University Ltd. Quantitative assessment of soil contaminants, particularly hydrocarbons, using reflectance spectroscopy
CN103440425B (zh) * 2013-09-05 2016-07-06 中国石油化工股份有限公司 一种辛烷值回归模型的建立方法
CN103528990B (zh) * 2013-10-31 2017-07-28 天津工业大学 一种近红外光谱的多模型建模方法
CN104462751B (zh) * 2014-10-29 2017-05-03 温州大学 一种基于多元高斯拟合的近红外光谱建模方法
CN104376325A (zh) * 2014-10-30 2015-02-25 中国科学院半导体研究所 一种近红外定性分析模型的建立方法
US9907834B2 (en) * 2015-07-30 2018-03-06 Biomarin Pharmaceutical Inc. Use of C-type natriuretic peptide variants to treat skeletal dysplasia
CN105548027A (zh) * 2015-12-09 2016-05-04 湖南省农产品加工研究所 基于近红外光谱测定调和油中茶油含量的分析模型及方法
CN107357269A (zh) * 2017-06-17 2017-11-17 湖州师范学院 基于混合mpls的多阶段过程质量预报方法
CN107356556A (zh) * 2017-07-10 2017-11-17 天津工业大学 一种近红外光谱定量分析的双集成建模方法
CN107748146A (zh) * 2017-10-20 2018-03-02 华东理工大学 一种基于近红外光谱检测的原油属性快速预测方法
CN110514619B (zh) * 2019-08-29 2021-01-29 山东科技大学 基于有偏估计的近红外定量分析模型构建方法

Also Published As

Publication number Publication date
ZA202108529B (en) 2022-04-28
WO2021036546A1 (zh) 2021-03-04
CN110514619A (zh) 2019-11-29

Similar Documents

Publication Publication Date Title
CN110514619B (zh) 基于有偏估计的近红外定量分析模型构建方法
CN109783906B (zh) 一种管道内检测漏磁数据智能分析系统及方法
CN107451101B (zh) 一种分层集成的高斯过程回归软测量建模对脱丁烷塔底丁烷浓度进行预测的方法
Pani et al. A survey of data treatment techniques for soft sensor design
CN105740984A (zh) 一种基于性能预测的产品概念性能评价方法
CN110222387B (zh) 基于混合漏积分crj网络的多元钻井时间序列预测方法
CN108334943A (zh) 基于主动学习神经网络模型的工业过程半监督软测量建模方法
CN110046377B (zh) 一种基于异构相似度的选择性集成即时学习软测量建模方法
CN115860211A (zh) 一种基于局部在线建模的铸坯质量预测方法
CN116468160A (zh) 基于生产大数据的铝合金压铸件质量预测方法
CN114239400A (zh) 基于局部双加权概率隐变量回归模型的多工况过程自适应软测量建模方法
CN109086887A (zh) 深度rbf神经网络与基于熵权的ahp结合的预警方法
CN110648023A (zh) 基于二次指数平滑改进gm(1,1)的数据预测模型的建立方法
CN110619176A (zh) 一种基于dbn-rlssvm的航煤闪点预测方法
CN108827905A (zh) 一种基于局部加权Lasso的近红外模型在线更新方法
CN110673470B (zh) 基于局部加权因子模型的工业非平稳过程软测量建模方法
CN115482877A (zh) 一种基于时序图网络的发酵过程软测量建模方法
CN114239397A (zh) 基于动态特征提取与局部加权深度学习的软测量建模方法
Shukla et al. Variable selection and modeling from NIR spectra data: A case study of diesel quality prediction using LASSO and Regression Tree
CN111650894A (zh) 一种基于隐变量的贝叶斯网络复杂工业过程软测量方法
Chen et al. The Application of Adaptive Generalized NGBM (1, 1) To Sales Forecasting: A Case Study of an Underwear Shop.
Bashiri et al. A comparison of regression and neural network based for multiple response optimization in a real case study of gasoline production process
CN114386196B (zh) 一种板带力学性能预测准确性评估方法
Yu et al. A Novel Interpretable Ensemble Learning Method for NIR-based Rapid Characterization of Petroleum Products
Urtubia et al. Predictive power of LDA to discriminate abnormal wine fermentations

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant