CN107271400A - 一种自动添加校正集样本的方法 - Google Patents
一种自动添加校正集样本的方法 Download PDFInfo
- Publication number
- CN107271400A CN107271400A CN201710486743.8A CN201710486743A CN107271400A CN 107271400 A CN107271400 A CN 107271400A CN 201710486743 A CN201710486743 A CN 201710486743A CN 107271400 A CN107271400 A CN 107271400A
- Authority
- CN
- China
- Prior art keywords
- sample
- calibration set
- new samples
- added
- principal component
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000009826 distribution Methods 0.000 claims abstract description 14
- 238000002329 infrared spectrum Methods 0.000 claims abstract description 9
- 238000000513 principal component analysis Methods 0.000 claims abstract description 7
- 238000004519 manufacturing process Methods 0.000 claims abstract description 4
- 239000011159 matrix material Substances 0.000 claims abstract description 4
- 238000010586 diagram Methods 0.000 claims description 5
- 238000004611 spectroscopical analysis Methods 0.000 claims description 4
- 239000003921 oil Substances 0.000 description 27
- 238000004458 analytical method Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 238000012937 correction Methods 0.000 description 3
- 238000004821 distillation Methods 0.000 description 3
- 238000002360 preparation method Methods 0.000 description 3
- 238000009776 industrial production Methods 0.000 description 2
- 230000000750 progressive effect Effects 0.000 description 2
- 238000010561 standard procedure Methods 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 238000002835 absorbance Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000010779 crude oil Substances 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000008929 regeneration Effects 0.000 description 1
- 238000011069 regeneration method Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N21/00—Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
- G01N21/17—Systems in which incident light is modified in accordance with the properties of the material investigated
- G01N21/25—Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
- G01N21/31—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry
- G01N21/35—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light
- G01N21/359—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light using near infrared light
Landscapes
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Biochemistry (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Immunology (AREA)
- Pathology (AREA)
- Investigating Or Analysing Materials By Optical Means (AREA)
Abstract
本发明公开了一种自动添加校正集样本的方法,该方法首先采集样本的近红外光谱数据并进行预处理,随后进行主成分分析,选取得分矩阵中前n个向量,绘制主成分分布图。再以新样本为中心,建立一个n维空间上的固定框。统计框内相似样本的数量,与阈值比较:若相似样本数量大于阈值,则新样本处于密集区;若相似样本数量小于阈值,则新样本处于稀疏区,自动将新样本添加到校正集。该方法在炼化企业生产中油样发生变化时,能自动将处于稀疏区的新样本添加到校正集中,保证模型预测精度,以便控制生产,确保油品质量。
Description
技术领域
本发明涉及石油化工领域的油品性质检测分析方面,基于近红外光谱快速分析技术,建立一种自动添加校正集样本的方法。
背景技术
在油品分析领域,近红外光谱分析技术相比较传统的分析方法具有成熟、快速、无损等优点,因而该技术越来越多应用在油品性质的分析中。利用该技术预测油品的性质,首先要建立与待测样本接近的校正集。
在工业生产中,油样往往会随时间变化。例如炼化企业生产的馏分油,在更换原油或改变加工工艺后,油品性质会有不同程度的改变。因此在一段时间后,新样本的分布会偏离原模型校正集样本的分布区域。当待测样本周围分布的校正集样本较少,处于稀疏区时,模型预测效果(特别是采用相似样本建模方法)将变差,预测误差增大,影响生产控制和产品质量。
因此需要不断对模型的校正集进行更新,将处于稀疏区中的新油样添加进去,以保证模型的预测精度。目前有企业采用定期人工更新校正集的方法,但这种方法在一次更新较久后的一段时间里,预测精度往往无法保障。自动将稀疏区样本添加进入校正集可有效避免上述问题。
发明内容
针对上述问题,本发明公开一种自动添加校正集样本的方法,可自动将新样本添加到校正集,以保证模型预测精度,便于生产控制。
本发明采用以下技术方案:
一种自动添加校正集样本的方法,其特征在于该方法针对炼化企业生产中油样变化的情况,自动将处于校正集稀疏区中的新油样添加进校正集,以保证模型预测精度,本方法具有以下步骤:
(1)测定样本的近红外光谱,对新样本和校正集中样本的光谱数据进行常规预处理;
(2)对预处理后的光谱数据进行主成分分析,选取主成分分析结果中得分矩阵的前n个列向量,绘制n维主成分分布图;
(3)在主成分分布图中以新样本为中心,建立n维的固定框;
(4)统计n维框内相似样本数量,与阈值比较,判断样本是否处于密集区,若相似样本数量大于阈值则新样本处于密集区,不添加到校正集,返回步骤(1);否则转步骤(5),考虑加入校正集;
(5)判断新样本是否为异常样本,如是异常样本,则不添加到校正集,返回步骤(1),否则转步骤(6);
(6)自动将处于稀疏区的样本添加进模型校正集。
本方法中,常规预处理包括基线校正和矢量归一化。
本方法中n取2或3,在n=2时,选取前两个得分向量绘制二维主成分分布图;当n=3时,选取前三个得分向量绘制三维主成分分布图。
当n=3时,三维立体框图的长宽高比为3:2:1。
本方法中以新样本在校正集中相似样本数量来判断新样本是否处于稀疏区。在主成分分布图中以新样本为中心,根据贡献率由高到低选择前n个得分向量,建立n维空间上的固定框。统计框内相似样本数量,若大于阈值,则新油样处于密集区,不必添加到校正集;若小于阈值,则新油样处于稀疏区,则自动将处于稀疏区的样本添加进模型校正集。
本方法中以杠杆值或马氏距离等标准方法来判断新样本是否属于异常样本。考虑到工业生产中油品性质的变化是渐变的,当某一油品与最近一段时间生产的油品有较大差异,则初步判定该油品为异常样本,先将其放入预备库,继续观察后续邻近时间的油样。若后续连续7天时间内其它油样均与最近一段时间生产的油品都要较大差异,则说明近期油样产生较大变化,将新油样从预备库添加到校正集;否则予以剔除。
有益效果:
本发明所提供的方法针对油品性质近红外光谱建模中生产变化的情况,自动将处于稀疏区的新样本添加到校正集中,可有效避免建模一段时间后,新样本偏离原校正集样本分布区域的情况。该方法能够随时更新校正集,保证模型预测精度,对于控制生产,确保油品质量具有重要应用价值。
附图说明
图1是自动添加校正集样本方法的实施流程图
图2是实施例中某期间内95#汽油样本数据的主成分分布图
图3(a)是实施例中稀疏区样本分布的示例图
图3(b)是实施例中密集区样本分布的示例图
具体实施过程
下面结合附图以及具体的算例,给出详细的计算过程和具体操作流程,以对本发明作进一步说明。本实施案例在以本发明技术方案为前提下进行实施,但本发明的保护范围不限于下述的实施案例。
本案例以95#汽油的终馏点为例,依据汽油的近红外光谱建立预测模型。原模型校正集A由某炼化企业在2014年1月至2016年11月期间生产的296个95#汽油样本组成。向校正集A中添加2016年12月至2017年5月的汽油采样中处于稀疏区的样本,建立新的校正集。选取2016年7月至2017年5月的112个样本进行终馏点预测,说明自动添加校正集样本对预测精度的影响。
本案例实施流程如图1所示,具体的实施步骤如下:
(1)建立95#汽油校正集
扫描95#汽油样本获得近红外光谱数据,截取近红外光谱信息量较大的4000~4800cm-1波数段的吸光度数据,对截取的数据做基线校正和矢量归一化。
(2)主成分分析
对预处理后的样本光谱数据进行主成分分析,选取分析结果中得分矩阵的前n个列向量,绘制n维主成分分布图。
2015至2016年间油样的二维主成分分布如图2所示,2015年全年采样的79个95#油样以“*”表示,2016年全年采样的158个95#油样以“·”表示。图中明显区分出2015年和2016年的油样分布区域,证明工业生产的油样随时间发生较大变化。
(3)建立固定框
本案例中取n=3。
(4)判断新样本是否处于稀疏区
建立三维空间上的立体框判断新样本是否处于稀疏区。立体框的长为0.3,宽为0.2,高为0.1,相似样本阈值取为50。对2016年12月至2017年5月采样的61个95#汽油样本进行判断。
如果以新样本建立的立体框中相似样本数量少于50,则判定样本处于稀疏区,将该样本放入预备库,继续判断是否为异常样本。为便于观察,以二维分布图示意,如图3(a)所示。
如果以新样本建立的立体框中相似样本数量大于50,则判定样本处于密集区,返回步骤(1),继续测量其他样本。如图3(b)所示。
对2016年12月至2017年5月采样的61个汽油样本判断结果为,其中有46个样本处于稀疏区,进入预备库。
判断是否为异常样本的方法较多,如马氏距离或杠杆值等标准方法。对进入预备库的46个样本判断结果为,其中有2个样本为异常样本,将其余44个样本添加到校正集。
(5)比较添加校正集样本前后预测精度的变化
校正集A由某炼化企业在2014年1月至2016年11月期间生产的296个95#汽油样本组成。逐步更新校正集A,将2016年12月至2017年5月的汽油采样中处于稀疏区的44个非异常样本自动添加进校正集A,最终形成校正集B。
基于校正集A和逐步更新得到的校正集B分别建立模型,对2016年7月至2017年5月的112个样本进行终馏点预测,说明添加校正集样本对样本预测精度的影响。
首先获取待测样本和校正集汽油样本的近红外光谱,经过常规预处理后进行主成分分析,寻找相似样本,然后根据相似样本采用偏最小二乘法建立模型,对112个待测样本的性质进行预测,预测结果分别如表1和表2所示。
表1原模型预测结果
表2新模型预测结果
针对汽油终馏点,国家标准规定测量的重复性误差为3℃,再现性误差为5℃。因此将预测结果和化验值的偏差与重复性误差和再现性误差进行比较,以体现模型预测精度。对表1和表2中的数据进行统计,结果如表3所示。
表3原模型和新模型比较
预测偏差范围 | 原模型数量(占比) | 新模型数量(占比) |
[0,3] | 104(93%) | 111(99%) |
(3,5] | 5(4%) | 0(0%) |
[5,+∞] | 3(3%) | 1(1%) |
由表3中数据可知,在添加校正集样本,建立新模型后,112个预测样本中预测偏差低于重复性误差,处于[0,3]范围内的样本数量增加7个,占比提高至99%。同时预测偏差高于再现性误差,处于[5,+∞]范围内的样本数量减少2个,占比降低至1%。样本总体预测偏差降低,预测精度显著提高。
Claims (4)
1.一种自动添加校正集样本的方法,其特征在于该方法针对炼化企业生产中油样变化的情况,自动将处于校正集稀疏区中的新油样添加进校正集,以保证模型预测精度,本方法具有以下步骤:
(1)测定样本的近红外光谱,对新样本和校正集中样本的光谱数据进行常规预处理;
(2)对预处理后的光谱数据进行主成分分析,选取主成分分析结果中得分矩阵的前n个列向量,绘制n维主成分分布图;
(3)在主成分分布图中以新样本为中心,建立n维的固定框;
(4)统计n维框内相似样本数量,与阈值比较,判断样本是否处于密集区,若相似样本数量大于阈值则新样本处于密集区,不添加到校正集,返回步骤(1);否则转步骤(5),考虑加入校正集;
(5)判断新样本是否为异常样本,如是异常样本,则不添加到校正集,返回步骤(1),否则转步骤(6);
(6)自动将处于稀疏区的样本添加进模型校正集。
2.根据权利要求1所述的一种自动添加校正集样本的方法,其特征在于n取2或3:当n=2时,建立二维平面框图;当n=3时,建立三维立体框图。
3.根据权利要求1所述的一种自动添加校正集样本的方法,其特征在于当n=2时,二维平面框图的长宽比为2:1;当n=3时,三维立体框图的长宽高比为3:2:1。
4.根据权利要求1所述的一种自动添加校正集样本的方法,其特征在于判断新样本是否为异常样本时,考虑邻近7天的所有油样。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710486743.8A CN107271400A (zh) | 2017-06-23 | 2017-06-23 | 一种自动添加校正集样本的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710486743.8A CN107271400A (zh) | 2017-06-23 | 2017-06-23 | 一种自动添加校正集样本的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107271400A true CN107271400A (zh) | 2017-10-20 |
Family
ID=60068406
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710486743.8A Pending CN107271400A (zh) | 2017-06-23 | 2017-06-23 | 一种自动添加校正集样本的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107271400A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104990893A (zh) * | 2015-06-24 | 2015-10-21 | 南京富岛信息工程有限公司 | 一种基于相似判别的汽油辛烷值检测方法 |
CN105717272A (zh) * | 2016-04-06 | 2016-06-29 | 成都天丰清洁能源发展有限公司 | 一种汽油辛烷值的测试方法 |
CN106706558A (zh) * | 2017-01-10 | 2017-05-24 | 南京富岛信息工程有限公司 | 一种剔除校正集异常样本的方法 |
CN106770015A (zh) * | 2017-01-10 | 2017-05-31 | 南京富岛信息工程有限公司 | 一种基于主成分分析相似判别的油品性质检测方法 |
-
2017
- 2017-06-23 CN CN201710486743.8A patent/CN107271400A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104990893A (zh) * | 2015-06-24 | 2015-10-21 | 南京富岛信息工程有限公司 | 一种基于相似判别的汽油辛烷值检测方法 |
CN105717272A (zh) * | 2016-04-06 | 2016-06-29 | 成都天丰清洁能源发展有限公司 | 一种汽油辛烷值的测试方法 |
CN105717272B (zh) * | 2016-04-06 | 2018-08-10 | 成都天丰清洁能源发展有限公司 | 一种汽油辛烷值的测试方法 |
CN106706558A (zh) * | 2017-01-10 | 2017-05-24 | 南京富岛信息工程有限公司 | 一种剔除校正集异常样本的方法 |
CN106770015A (zh) * | 2017-01-10 | 2017-05-31 | 南京富岛信息工程有限公司 | 一种基于主成分分析相似判别的油品性质检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107748146A (zh) | 一种基于近红外光谱检测的原油属性快速预测方法 | |
CN106770015B (zh) | 一种基于主成分分析相似判别的油品性质检测方法 | |
CN109324014B (zh) | 一种自适应的原油性质近红外快速预测方法 | |
CN104990894B (zh) | 一种基于加权吸光度及相似样本的汽油性质检测方法 | |
CN105180850B (zh) | 计算玉米叶部大斑病病斑面积比例的方法及装置 | |
CN104990893B (zh) | 一种基于相似判别的汽油辛烷值检测方法 | |
CN107958267B (zh) | 一种基于光谱线性表示的油品性质预测方法 | |
CN111126865B (zh) | 一种基于科技大数据的技术成熟度判断方法和系统 | |
WO2020029851A1 (zh) | 一种基于工作流的振动光谱分析模型优化方法 | |
CN109324013A (zh) | 一种利用高斯过程回归模型构建原油性质近红外快速分析的方法 | |
CN108875118B (zh) | 一种高炉铁水硅含量预测模型准确度评价方法和设备 | |
CN102072767A (zh) | 基于波长相似性共识回归红外光谱定量分析方法和装置 | |
CN115689051A (zh) | 一种基于GA算法耦合Morris和GLUE的SWMM模型参数自动率定方法 | |
CN105138824B (zh) | 一种面向常减压装置优化的原油数据校正方法 | |
CN109978059B (zh) | 一种原油蒸馏过程初馏塔冲塔故障预警方法 | |
CN108663334B (zh) | 基于多分类器融合寻找土壤养分光谱特征波长的方法 | |
CN112630180B (zh) | 水体中有机磷农药浓度检测的紫外/可见光吸收光谱模型 | |
CN107505282A (zh) | 一种提高油品近红外建模稳健性的方法 | |
CN117273786A (zh) | 民用客机市场直接运营成本的估计方法 | |
CN107271400A (zh) | 一种自动添加校正集样本的方法 | |
CN110196797A (zh) | 适于信用评分卡系统的自动优化方法和系统 | |
CN110619176A (zh) | 一种基于dbn-rlssvm的航煤闪点预测方法 | |
CN115345846A (zh) | 一种中低碳钢晶粒度智能评级方法及系统 | |
CN103853817A (zh) | 基于gis的海量统计数据的空间奇异点发掘方法 | |
CN113793652A (zh) | 一种基于分段智能优选的谱图化学计量学解析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20171020 |
|
RJ01 | Rejection of invention patent application after publication |