CN104142313B - 一种对油品样本做致密化的处理方法 - Google Patents

一种对油品样本做致密化的处理方法 Download PDF

Info

Publication number
CN104142313B
CN104142313B CN201410373213.9A CN201410373213A CN104142313B CN 104142313 B CN104142313 B CN 104142313B CN 201410373213 A CN201410373213 A CN 201410373213A CN 104142313 B CN104142313 B CN 104142313B
Authority
CN
China
Prior art keywords
point
sample
sample set
oil product
class sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410373213.9A
Other languages
English (en)
Other versions
CN104142313A (zh
Inventor
李泽飞
宁书贵
韩凤义
张洪强
尚大军
王震
张春刚
王莹
杜中元
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN201410373213.9A priority Critical patent/CN104142313B/zh
Publication of CN104142313A publication Critical patent/CN104142313A/zh
Application granted granted Critical
Publication of CN104142313B publication Critical patent/CN104142313B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明是一种对油品样本做致密化的处理方法包括:步骤S1:采集包含各类油品的代表性样本及其近红外谱图,按照主成份分析法将谱图投影到特征平面;步骤S2:在特征平面对样本集聚类,找出样本点的某个稀疏类样本集A;步骤S3:参照稀疏类样本点的分布情况和覆盖范围确定一个半径r0;步骤S4:计算稀疏类样本集中所有点的两两点之间的距离;步骤S5:计算距离大于半径r0的两点ai与aj之间的中间点步骤S6:疏类样本集A减去点ai、aj之后的集合是A‑{ai,aj},判断点以r0为半径的邻域内是否与集合A‑{ai,aj}有交集,如果没有交集,进入步骤S7,如果有交集,返回步骤S5;步骤S7:在稀疏类样本集中寻找点的邻近点;步骤S8:计算点的性质,增添点点到稀疏类样本集A中。

Description

一种对油品样本做致密化的处理方法
技术领域
本发明属于石油石化测量技术领域,涉及一种对油品样本做致密化的处理方法。
背景技术
油品性质预测模型建立的关键是代表性样本和对应的常规化验分析性质的获取。然而,油品的性质可多达十余项,有些性质如柴油的十六烷值、汽油的辛烷值等获得的经济成本非常高,所以获得一个油品对应的所有性质耗费的经济、人力、时间成本是很高的,这就导致了样本的获取往往是有限的。不管是基于模式识别的油品性质检测模型还是传统的偏最小二乘模型都是基于同类相似样本进行性质预测,如果某类油品获得的样本量很少,势必影响预测精度。
传统的油品性质预测模型都没有考虑某类样本量较少时的处理情况,导致预测精度较低。
发明内容
(一)要解决的技术问题
为了解决获取的油品代表性样本很少影响到油品性质的检测精度,或者为了获取油品足够多的代表性样本成本昂贵的问题,本发明提一种对油品样本做致密化的处理方法。
(二)技术方案
本发明是一种对油品样本做致密化的处理方法,该方法的步骤包括:
步骤S1:采集包含各类油品的代表性样本和油品样本的近红外谱图,并用主成份分析法提取出谱图特征,将油品样本的谱图投影到特征平面上;
步骤S2:在特征平面上对样本集聚类,找出样本点的某个稀疏类样本集A;
步骤S3:参照稀疏类样本集A中样本点的分布情况和覆盖范围确定一个半径r0
步骤S4:计算稀疏类样本集A中所有样本点的两两点之间的距离;
步骤S5:如果某两点ai与aj之间的距离满足d(ai,aj)>r0,则找到这两点之间的中点
步骤S6:以点为中心,以r0为半径确定点的一个邻域稀疏类样本集A减去点ai、aj之后的集合是A-{ai,aj},判断与A-{ai,aj}是否有交集,如果有交集,则不添加点到稀疏类样本集A中,返回步骤S5;如果没有交集,则进入步骤S7寻找点的邻近点;
步骤S7:以点为中心,Δr为步长,r0+Δr为半径确定一个圆,如果圆中有稀疏类样本集A中的点,则将圆中的点确定为点的邻近点;如果圆中没有稀疏类样本集A中的点,则放大步长Δr在更大的圆中继续寻找点的邻近点;
步骤S8:根据基于模式识别与谱图映射对油品多类性质的检测方法用点的邻近点的性质计算出点的性质,然后将点添加到该稀疏类样本集A中。
(三)有益效果
本发明一种对油品样本做致密化的处理方法,属于石油石化测量技术领域。建立油品性质的预测模型时,需要采集代表性油品样本和其对应的常规化验分析性质,然而性质的获取一般成本较高,同时油品性质的预测又要满足一定的技术考核指标。针对训练集样本数量较少,引起模型预测精度下降的问题,本发明的致密化方法以样本空间模式聚类为基础,基于谱图映射的方法与邻近点模型预测方法,可对任意的样本空间进行致密化处理,有效地解决了上述问题,为降低企业的建模费用,保证模型的适应性,提供了可靠的保障。
附图说明
图1示出本发明的使用实施例谱图采集系统的硬件框图。
图2示出本发明的谱图致密化方法流程图。
图3示出在未致密化的样本集中选择未知样本的相邻点。
图4示出在致密化的样本集中选择未知样本的相邻点。
图5示出进行谱图致密化与未进行谱图致密化对凝点性质预测效果的比较。
具体实施方式
当结合附图考虑时,通过参照下面的详细描述,能够更完整更好地理解本发明以及容易得知其中许多伴随的优点,但此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定,显然,本领域技术人员基于本发明的宗旨所做的许多修改和变化属于本发明的保护范围。
本发明中的油品是以柴油为实施例,本发明中的油品还适用汽油及其他油品,则不再赘述汽油实施例,柴油样本采集包括了冬季方案和夏季方案,采样时间长达半年。然而柴油的组分油如一套常一、一套常二、二重轻柴、加氢裂化柴油、加氢精制柴油、加氢裂化煤油、加氢精制煤油、0#柴油、-35#柴油等每类只有30多个样本,而有些性质如十六烷值由于化验成本太高,获得的数据就更少。本发明的目的是,对任意的样本空间可进行致密化处理,降低企业的建模费用,保证模型的适应性。
下面是以包含各类柴油的油品为例介绍如图2示出的本发明对油品样本做致密化的处理方法的步骤如下:
步骤S1:采集包含各类油品的代表性样本和油品样本的近红外谱图,并用主成份分析法提取出谱图特征,将油品样本的谱图投影到特征平面上;采集代表性样本,以成品柴油与柴油组份油为例,采集一套常一、一套常二、二重轻柴、加氢裂化柴油、加氢精制柴油、加氢裂化煤油、加氢精制煤油、0#柴油、-35#柴油的代表性的样本;如图1示出采集包含各类油品的代表性样本的近红外谱图的系统的框图,本发明的谱图采集系统包括近红外设备、TCP/IP接口、驱动模块、近红外谱图采集模块;近红外谱图采集模块与近红外设备的交互是通过服务器驱动模块完成,服务器驱动模块中提供了实现与近红外设备通讯所需的驱动信息,对外部客户端提供TCP/IP接口,客户端通过TCP/IP接口间接与近红外设备取得通讯。本发明采用MB3600傅立叶近红外分析仪采集油品的近红外谱图。近红外设备是MB3600傅立叶近红外分析仪或MB3600傅立叶近红外分析仪模拟器。
步骤S2:在特征平面上对样本集聚类,找出样本点的某个稀疏类样本集A;在训练集样本空间模式聚类的基础上,针对样本点较少的-35#柴油,按照下边步骤中的规则在-35#柴油样本集中添加样本点;
步骤S3:参照稀疏类样本集A中样本点的分布情况和覆盖范围确定一个半径r0;参照-35#柴油样本点的分布情况和覆盖范围,确定一个半径r0,当按照下边步骤对-35#柴油样本致密化处理之后,新-35#柴油样本集中所有的点的距离均小于r0
步骤S4:计算稀疏类样本集A中所有样本点的两两点之间的距离;
步骤S5:如果某两点ai与aj之间的距离满足d(ai,aj)>r0,则找到这两点之间的中点
步骤S6:以点为中心,以r0为半径确定点的一个邻域稀疏类样本集A减去点ai、aj之后的集合是A-{ai,aj},判断与A-{ai,aj}是否有交集,如果有交集,则不添加点到稀疏类样本集A中,返回步骤S5;如果没有交集,则进入步骤S7寻找点的邻近点;
步骤S7:以点为中心,Δr为步长,r0+Δr为半径确定一个圆,如果圆中有稀疏类样本集A中的点,则将圆中的点确定为点的邻近点;如果圆中没有稀疏类样本集A中的点,则放大步长Δr在更大的圆中继续寻找点的邻近点;
步骤S8:根据基于模式识别与谱图映射对油品多类性质的检测方法用点的邻近点的性质计算出点的性质,然后将中点添加到该稀疏类样本集中即-35#柴油样本集中。
如图2示出实现在稀疏类样本集中添加样本点的迭代步骤如下:
步骤S21:对稀疏类样本集A中的样本点确定一个序A={a1,a2,...,an},即对-35#柴油样本集A中的样本点确定一个次序A={a1,a2,...,an},n是稀疏类样本集的样本初始数量,设定两个用于在迭代步骤中计数的计数器i和j,i和j的初始值为i=1,j=2;
步骤S22:计算样本点ai与样本点aj的距离d(ai,aj),如果d(ai,aj)≥r0,则计算出ai与aj的中点进入步骤S23;如果d(ai,aj)<r0,则进入步骤S26;
步骤S23:稀疏类样本集A减去点ai、aj之后的集合是A-{ai,aj},计算点与集合A-{ai,aj}中所有点的距离,如果点与集合A-{ai,aj}中所有点的距离都大于等于r0,则进入步骤S24,如果点与集合A-{ai,aj}中至少一个点的距离小于r0,则进入步骤S26;
步骤S24:以点为中心,Δr为步长,r0+Δr为半径确定一个圆,如果圆中有稀疏类样本集A中的点,则将圆中的点确定为点的邻近点;如果圆中没有稀疏类样本集A中的点,则放大步长Δr在更大的圆中继续寻找点的邻近点;
步骤S25:根据基于模式识别与谱图映射对油品多类性质的检测方法用的邻近点的性质计算出点的性质,将点添加到稀疏类样本集A中,排在稀疏类样本集A的末尾,稀疏类样本集A的样本数量更新为n=n+1,进入步骤S26;
步骤S26:j=j+1,如果j≤n,则进入步骤S22,如果j>n,则进入步骤S27;
步骤S27:i=i+1,如果i<n,则进入步骤S22,如果i=n,则迭代停止。
图3示出-35#柴油样本点在特征平面的分布情况,从图3中可以看出,-35#柴油的样本量比较少,分布很稀疏,这就导致未知样本周围没有邻近点或邻近点很少。
图4为致密化处理后,-35#样本点的分布情况。可以看出,通过谱图致密化算法增加样本后,样本分布就变得很均匀,不会再出现找不到邻近点的情况,保证了模型的适应应和预测精度。
图5给出了进行谱图致密化与未进行谱图致密化对凝点性质预测效果的比较。图5中,点的分布越接近45℃线表示预测值与化验值越接近,预测精度越高;可以看出进行谱图致密化比未进行谱图致密化对凝点性质预测准确度高。
如上所述,对本发明的实施例进行了详细地说明,但是只要实质上没有脱离发明点及效果可以有很多的变形,这对本领域的技术人员来说是显而易见的。因此,这样的变形例也全部包含在本发明的保护范围之内。

Claims (3)

1.一种对油品样本做致密化的处理方法,其特征在于:该方法的步骤包括:
步骤S1:采集包含各类油品的代表性样本和油品样本的近红外谱图,并用主成份分析法提取出谱图特征,将油品样本的谱图投影到特征平面上;
步骤S2:在特征平面上对样本集聚类,找出样本点的某个稀疏类样本集A;
步骤S3:参照稀疏类样本集A中样本点的分布情况和覆盖范围确定一个半径r0
步骤S4:计算稀疏类样本集A中所有样本点的两两点之间的距离;
步骤S5:如果某两点ai与aj之间的距离满足d(ai,aj)>r0,则找到这两点之间的中点
步骤S6:以点为中心,以r0为半径确定点的一个邻域稀疏类样本集A减去点ai、aj之后的集合是A-{ai,aj},判断与A-{ai,aj}是否有交集,如果有交集,则不添加点到稀疏类样本集A中,返回步骤S5;如果没有交集,则进入步骤S7寻找点的邻近点;
步骤S7:以点为中心,Δr为步长,r0+Δr为半径确定一个圆,如果圆中有稀疏类样本集A中的点,则将圆中的点确定为点的邻近点;如果圆中没有稀疏类样本集A中的点,则放大步长Δr在更大的圆中继续寻找点的邻近点;
步骤S8:根据基于模式识别与谱图映射对油品多类性质的检测方法用点的邻近点的性质计算出点的性质,然后将点添加到该稀疏类样本集A中。
2.如权利要求1所述的对油品样本做致密化的处理方法,其特征在于,所述步骤S8包括:
步骤S21:对稀疏类样本集A中的样本点确定一个次序A={a1,a2,...,an},n是稀疏类样本集A的初始样本数量,设定两个用于在迭代步骤中计数的计数器i和j,i和j的初始值为i=1,j=2;
步骤S22:计算样本点ai与样本点aj的距离d(ai,aj),如果d(ai,aj)≥r0,则计算出ai与aj的中点进入步骤S23;如果d(ai,aj)<r0,则进入步骤S26;
步骤S23:稀疏类样本集A减去点ai、aj之后的集合是A-{ai,aj},计算点与集合A-{ai,aj}中所有点的距离,如果点与集合A-{ai,aj}中所有点的距离都大于等于r0,则进入步骤S24,如果点与集合A-{ai,aj}中至少一个点的距离小于r0,则进入步骤S26;
步骤S24:以点为中心,Δr为步长,r0+Δr为半径确定一个圆,如果圆中有稀疏类样本集A中的点,则将圆中的点确定为点的邻近点;如果圆中没有稀疏类样本集A中的点,则放大步长Δr在更大的圆中继续寻找点的邻近点;
步骤S25:根据基于模式识别与谱图映射对油品多类性质的检测方法用的邻近点的性质计算出点的性质,将点添加到稀疏类样本集A中,排在稀疏类样本集A的末尾,稀疏类样本集A的样本数量更新为n=n+1,进入步骤S26;
步骤S26:j=j+1,如果j≤n,则进入步骤S22,如果j>n,则进入步骤S27;
步骤S27:i=i+1,如果i<n,则进入步骤S22,如果i=n,则迭代停止。
3.如权利要求1所述的对油品样本做致密化的处理方法,其特征在于:所述谱图是采用MB3600傅立叶近红外分析仪采集油品的近红外谱图。
CN201410373213.9A 2014-07-31 2014-07-31 一种对油品样本做致密化的处理方法 Active CN104142313B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410373213.9A CN104142313B (zh) 2014-07-31 2014-07-31 一种对油品样本做致密化的处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410373213.9A CN104142313B (zh) 2014-07-31 2014-07-31 一种对油品样本做致密化的处理方法

Publications (2)

Publication Number Publication Date
CN104142313A CN104142313A (zh) 2014-11-12
CN104142313B true CN104142313B (zh) 2016-08-17

Family

ID=51851549

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410373213.9A Active CN104142313B (zh) 2014-07-31 2014-07-31 一种对油品样本做致密化的处理方法

Country Status (1)

Country Link
CN (1) CN104142313B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1125331C (zh) * 1999-07-06 2003-10-22 中国石油化工集团公司 一种测定渣油组分含量的方法
CN102252972A (zh) * 2011-04-20 2011-11-23 湖南省农产品加工研究所 基于近红外光谱快速鉴别油茶籽油真实属性的检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7307257B2 (en) * 2002-01-01 2007-12-11 Exxonmobil Chemical Patents Inc. Method and apparatus for on-line measurement of polymer properties

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1125331C (zh) * 1999-07-06 2003-10-22 中国石油化工集团公司 一种测定渣油组分含量的方法
CN102252972A (zh) * 2011-04-20 2011-11-23 湖南省农产品加工研究所 基于近红外光谱快速鉴别油茶籽油真实属性的检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
The influence of data pre-processing in the pattern recognition of excipients near-infrared spectra;A Candolfi;《Journal of Pharmaceutical and Biomedical Analysis》;19991231;第21卷(第1期);115-132 *
用于近红外光谱分析的化学计量学方法研究与应用进展;褚小立;《分析化学评述与进展》;20080531;第36卷(第5期);702-709 *
近红外光谱分析技术在油品分析中的应用研究;高俊;《中国优秀硕士学位论文全文数据库(硕士)工程科技I辑》;中国学术期刊(光盘版)电子杂志社;20051215(第8期);B019-14 *

Also Published As

Publication number Publication date
CN104142313A (zh) 2014-11-12

Similar Documents

Publication Publication Date Title
CN110929607B (zh) 一种城市建筑物施工进度的遥感识别方法和系统
CN111028016A (zh) 销量数据预测方法、装置以及相关设备
CN104122540A (zh) 基于匹配字典和压缩感知的雷达一维距离像目标识别方法
CN104166731A (zh) 一种社交网络重叠社区发现系统及其方法
Biviano et al. Spitzer observations of Abell 1763-III. The infrared luminosity function in different supercluster environments
CN104807589B (zh) 一种集输-立管系统内气液两相流流型的在线识别方法
Al-Ameri et al. Interpretation of frequency response analysis for fault detection in power transformers
Shao et al. Time-series-based leakage detection using multiple pressure sensors in water distribution systems
Liang et al. Asynchronous fault location in transmission lines considering accurate variation of the ground-mode traveling wave velocity
CN104866871A (zh) 基于投影结构稀疏编码的高光谱图像分类方法
CN107589391A (zh) 一种检测电能计量装置整体误差的方法、装置和系统
CN104809471A (zh) 一种基于空间光谱信息的高光谱图像残差融合分类方法
CN105574265B (zh) 面向模型检索的装配体模型定量描述方法
Zhou et al. An RSS transform—Based WKNN for indoor positioning
Gord et al. Real fault section estimation in electrical distribution networks based on the fault frequency component analysis
Pranger et al. Abell 2384: the galaxy population of a cluster post-merger
CN103868858B (zh) 一种确定盐渍土主导盐分光谱响应最佳波段的方法
Ji et al. A divisive hierarchical clustering approach to hyperspectral band selection
CN103823809A (zh) 一种对查询短语分类的方法、分类优化的方法及其装置
Han et al. Hyperspectral sea ice image classification based on the spectral-spatial-joint feature with the pca network
Lu et al. Retrieval of chlorophyll-a concentrations of class ii water bodies of inland lakes and reservoirs based on ZY1-02D satellite hyperspectral data
CN104504391A (zh) 一种基于稀疏特征和马尔科夫随机场的高光谱图像分类方法
CN110764152A (zh) 一种无人机快速检测与识别的装置及方法
Yuan et al. Sequential pattern mining algorithm based on text data: taking the fault text records as an example
Su A novel region-merging approach guided by priority for high resolution image segmentation

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant