CN110334721B

CN110334721B - 一种基于大数据的油品质量分析系统

Info

Publication number: CN110334721B
Application number: CN201810291998.3A
Authority: CN
Inventors: 王维民; 卢衍波; 郑斌; 周金广; 王守城; 王乐; 徐敏; 倪庆旭
Original assignee: China Petroleum and Chemical Corp
Current assignee: China Petroleum and Chemical Corp
Priority date: 2018-03-30
Filing date: 2018-03-30
Publication date: 2021-08-24
Anticipated expiration: 2038-03-30
Also published as: CN110334721A

Abstract

本发明公开了一种基于大数据的油品质量分析系统，其包括群落分析子系统、溯源分析子系统和相关性分析子系统。其中，群落分析子系统包括特征筛选模块、分类划分模块、无监督聚类模块和群落分析模块；溯源分析子系统包括特征筛选模块、样本平衡模块、模型建立模块和溯源分析模块；相关性分析子系统包括指标相关性分析模块和群落相关性分析模块。采用本发明可以通过探索隐藏于质检数据之后的潜在规律，寻找油品检测指标之间的相关性，并通过油品群落分析与油品溯源分析，提前发现问题油品，并建立油品与生产型供应商的相互关系，进一步提高中国石化油品质量的风险管控能力。

Description

一种基于大数据的油品质量分析系统

技术领域

本发明涉及油品质量数据检验分析技术，尤其涉及一种基于大数据的油品质量分析系统。

背景技术

当前，油品质量主要是通过实验室信息管理系统(Laboratory InformationManagement System，以下简称LIMS)来进行管理，世界上最早的LIMS(1982年术语提出)应用起源于20世纪60年代末美国的一些高等学校、研究所和化学公司。历经了研究、发展、商品化三个阶段。之后随着计算机技术、网络通讯技术、数据库和仪器仪表的飞速发展，LIMS技术的应用进入了一个崭新的时代，世界上著名的艾克森美孚(Exxon-Mobil)石油公司，壳牌(Shell)石油公司等早已推广应用了LIMS技术。

LIMS主要面向实验室工作人员和质量管理技术人员。LIMS的广泛应用，无疑为实验室管理人员带来了很大的方便。近年，在油品质量处理方面出现了以谱库为基础的专业方法，以及图象分析系统、专家系统等，但是对质量结果的深层次挖掘应用却比较薄弱。尤其随着大数据技术的发展，越发显得LIMS数据的分析应用需要加强。

如何依托于现有的LIMS系统，以炼厂成品油、外采供应商成品油以及区域性市场成品油质量数据库中的历史沉淀数据以及当前质量数据为基础，使用数据驱动的方式对现有产品质检数据进行深入的分析与挖掘，结合业内先进的大数据处理、整合、分析与展现技术，为中国石化进一步提高中国石化油品质量的风险管控能力，提升中国石化的整体品牌形象显得尤为迫切。

发明内容

针对上述问题，本发明提出了一种基于大数据的油品质量分析系统。该系统主要包括：

群落分析子系统，其包括：

特征筛选模块，其用于根据油品样本数据确定用来建立油品分类模型的油品属性特征；

分类划分模块，其用于根据油品分类模型将油品样本数据划分成若干类别；

无监督聚类模块，其用于根据油品间的相似性，利用无监督聚类模型将经过分类划分的油品样本数据的每一类进一步细分成若干群落；

群落分析模块，其用于对划分后的各个群落进行特征归纳和油品画像，并对各个群落间的油品差异进行分析；

溯源分析子系统，其包括：

特征筛选模块，其用于根据油品样本数据筛选用来建立油品生产厂匹配模型的油品特征指标，并建立油品特征指标体系；

样本平衡模块，其用于针对每一个要建立油品生产厂匹配模型的油品供应商，将该供应商的油品样本数据与其他供应商的油品样本数据分别作为正样本与负样本，进行样本平衡处理；

模型建立模块，其用于针对每一个要建立油品生产厂匹配模型的油品供应商，基于建立的油品特征指标体系和平衡后的油品样本数据，利用二分类算法建立油品生产厂匹配模型；

溯源分析模块，其基于各个油品供应商的油品生产厂匹配模型，分析新进油品与各个油品供应商的油品的相似度，据此推测所述新进油品的来源；

相关性分析子系统，其包括：

指标相关性分析模块，其用于根据油品样本数据分析油品检测指标之间的相关性；

群落相关性分析模块，其用于分析不同群落的油品在油品检测指标上的相关性及差异。

根据本发明的实施例，上述基于大数据的油品质量分析系统中，根据油品样本数据的缺失情况、业务重要性及模型特点，所述群落分析子系统的特征筛选模块选出用来建立油品分类模型的油品属性特征，所述溯源分析子系统的特征筛选模块选出用来建立油品生产厂匹配模型的油品特征指标。

根据本发明的实施例，上述基于大数据的油品质量分析系统中，所述群落分析子系统的分类划分模块主要包括：

业务划分单元，其用于根据油品来源对油品样本数据进行初步划分；

分类监督划分单元，其用于基于筛选出的油品属性特征建立油品分类模型，利用所述油品分类模型对经过业务划分的油品样本数据进行进一步划分。

根据本发明的实施例，上述所述业务划分单元优选地根据油品来源将油品样本数据初步划分为配置油和外采油；

所述分类监督划分单元优选地利用决策树分类算法建立油品分类模型，利用所述油品分类模型将划分为配置油和外采油的油品样本数据进一步划分为典型外采油、典型配置油、类配置外采油和类外采配置油。

根据本发明的实施例，上述基于大数据的油品质量分析系统中，所述群落分析子系统的无监督聚类模块主要包括：

指标选择单元，其用于根据待聚类的油品样本数据的缺失情况、业务重要性及模型特点确定进行聚类分析的油品检测指标；

数据填补单元，其用于基于中位数填补法对所述油品检测指标的油品样本数据中的缺失值进行插补填充；

聚类处理单元，其用于利用K-means聚类模型将经过填补的油品样本数据进一步细分成若干群落。

根据本发明的实施例，上述所述群落分析子系统还可以包括：

业务分析模块，其用于根据各个群落的油品特点和/或各个群落的油品差异分析各个群落中油品供应商分布情况和各个油品供应商的群落分布情况，从而获得各个油品供应商的油品特点和不同油品供应商之间的油品差异。

群落分级模块，其用于根据群落的油品特点确定各项检测指标的分值和权重，计算群落得分，然后根据群落得分情况对群落进行评级；

新油品检测模块，其用于通过判断新进油品样本数据所落入的群落来判断所述新进油品的特点；

质量预警模块，其用于对落入不合格级别的群落的新进油品给予警示。

根据本发明的实施例，上述基于大数据的油品质量分析系统中，所述溯源分析子系统的溯源分析模块主要包括：

匹配概率分析单元，其用于根据新进油品的各项特征指标的检测数据，通过油品供应商的油品匹配分析模型，确定所述新进油品为相应油品供应商的油品的概率，用以表征所述新进油品与相应油品供应商的油品的相似度；

模糊匹配筛选单元，其用于根据所述新进油品与各个油品供应商的油品的相似度，给出相似度最高的若干油品供应商的排名，从而实现所述新进油品的追踪溯源。

根据本发明的实施例，上述油品溯源分析子系统的模型建立模块优选利用决策树二分类算法建立油品生产厂匹配模型。

根据本发明的实施例，上述基于大数据的油品质量分析系统中，所述相关性分析子系统的指标相关性分析模块和群落相关性分析模块优选地采用Pearson相关系法分析相关性。

根据本发明的实施例，上述基于大数据的油品质量分析系统中，还可以包括数据清洗模块，其用于对来自不同油品供应商的油品样本数据进行数据检查和数据清洗，然后将清洗后的油品样本数据提供给所述群落分析子系统、溯源分析子系统和相关性分析子系统。

与现有技术相比，本发明的一个或多个实施例可以具有如下优点：

1、本发明提供的基于大数据的油品质量分析系统，能够通过探索隐藏于质检数据之后的潜在规律，寻找油品检测指标之间的相关性，并通过油品群落分析与模糊匹配，提前发现问题油品，优化卡边油品，避免问题油品的回炉再造，并建立油品与生产型供应商的相互关系，进一步提高中国石化油品质量的风险管控能力，杜绝社会性群体质量事件的发生，提升中国石化的整体品牌形象。

2、本发明提供的群落分析子系统能够对油品特征进行识别与分析，通过油品检测数据建立油品特征模型，寻找油品检测指标之间的相关性，并优选地通过业务划分、分类监督划分和无监督聚类的划分方法，将所有入检的油品划分成各个群落，详细刻画出各群落油品特点，从而能够发现典型的油品类型差异，例如不同批次的油品差异、不同厂家的油品差异等。

3、本发明提供的群落分析子系统能够从群落的供应商分布和供应商的群落分布两个角度进一步刻画出供应商的油品特点和不同供应商之间的油品差异，将不同油品群落的关键指标和对应的业务含义标签化。

4、本发明提供的群落分析子系统能够对于新检测的油品，根据其落入的群落，辅助性地判断其油品特征，对落入得分低群落的油品进行预警，提前发现问题油品，优化卡边油品，大幅度地提高了中国石化油品质量的风险管控能力。

5、本发明提供的溯源分析子系统能够根据油品样本数据筛选出油品特征指标，并建立油品特征指标体系，针对每一个要建立油品生产厂匹配模型的油品供应商，进行样本平衡处理，然后基于建立的油品特征指标体系和平衡后的油品样本数据，利用二分类算法建立油品生产厂匹配模型，分析新进油品与各个油品供应商的油品的相似度，据此推测新进油品的来源，从而能够基于与各个油品供应商的油品的相似度来进行模糊匹配，准确匹配出各个油品供应商中与新进油品相似度最高的油品供应商为新进油品的油品供应商。

6、本发明提供的相关性分析子系统可以分析检测指标之间的正负相关关系和不同群落的油品在检测指标上的关联性，并根据相关性自动判断检测指标是否合理；发现两两之间线性相关性较强的指标，对不同群落油品之间两两指标相关性进行对比，有利于进一步刻画各群落的特征以及各群落之间的差异。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例共同用于解释本发明，并不构成对本发明的限制。在附图中：

图1是本发明提供的基于大数据的油品质量分析系统组成结构示意图；

图2是本发明提供的油品质量群落分析子系统的工作原理图；

图3是图1所示的群落分析子系统对于92号汽油指标通过决策树分类分析获得的重要性的排布图；

图4是图1所示的群落分析子系统对于92号汽油指标获得的决策树分类结果的统计表；

图5示出的是本发明实施例一所获得的四类油品的各个指标的中位数；

图6示出的是本发明实施例一所获得的四类油品的特点；

图7示出的是本发明实施例一所获得的典型配置油群落细分结果；

图8示出的是本发明实施例一所获得的典型外采油群落细分结果；

图9示出的是本发明实施例一所获得的外采油生产型供应商油品群落细分结果；

图10示出的是某一油品供应商的决策树分类模型；

图11示出的是某一油品供应商的决策树分类模型中各油品特征指标的重要性；

图12示出的是另一油品供应商的决策树分类模型；

图13示出的是另一油品供应商的决策树分类模型中各油品特征指标的重要性；

图14是Pearson相关系数解释示意图；

图15a是92号汽油典型外采油指标相关系数表的第一部分；

图15b是92号汽油典型外采油指标相关系数表的第二部分；

图15c是92号汽油典型外采油指标相关系数表的第三部分；

图16a是95号汽油典型外采油指标相关系数表的第一部分；

图16b是95号汽油典型外采油指标相关系数表的第二部分；

图16c是95号汽油典型外采油指标相关系数表的第三部分；

图17a是92号汽油生产型供应商外采油与典型配置油指标相关系数对比表的第一部分；

图17b是92号汽油生产型供应商外采油与典型配置油指标相关系数对比表的第二部分；

图17c是92号汽油生产型供应商外采油与典型配置油指标相关系数对比表的第三部分；

图18a是95号汽油生产型供应商外采油与典型配置油指标相关系数对比表的第一部分；

图18b是95号汽油生产型供应商外采油与典型配置油指标相关系数对比表的第二部分；

图18c是95号汽油生产型供应商外采油与典型配置油指标相关系数对比表的第三部分；

图19是本发明实施例三提供的油品质量群落分析系统的质量预警模块的工作原理图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，以下结合附图对本发明作进一步地详细说明。

实施例一

图1是本发明提供的基于大数据的油品质量分析系统组成结构示意图。如图1所示，该系统主要包括：群落分析子系统1、溯源分析子系统2和相关性分析子系统3。下面分别对群落分析子系统1、溯源分析子系统2和相关性分析子系统3进行详细说明。

图2是本发明提供的群落分析子系统的工作原理图。由图2可知，该群落分析子系统对油品特征的识别和分析主要是基于对油品质量的群落划分，其中优选地综合业务划分、分类监督划分和无监督聚类的划分方法，从总体上将所有入检的油品划分成各个群落，然后基于群落划分结果展开群落特征刻画、群落分级、异常群落发现等一系列应用。

基于上述原理，本实施例提供了一种群落分析子系统1，该群落分析子系统1主要包括：

特征筛选模块11，其主要用于根据油品样本数据确定用来建立油品分类模型的油品属性特征；

分类划分模块12，其主要用于根据油品分类模型将油品样本数据划分成若干类别；

无监督聚类模块13，其主要用于根据油品间的相似性，利用无监督聚类模型将经过分类划分的油品样本数据的每一类进一步细分成若干群落；

群落分析模块14，其主要用于对划分后的各个油品群落进行特征归纳和油品画像，并对各个群落间的油品差异进行分析。

下面以92号汽油为例，描述上述群落分析子系统1对油品特征进行识别和分析的详细过程，并对系统各个功能模块的组成进行进一步的说明。

(一)关于数据采集

在本实施例中，群落分析子系统1还包括数据获取模块(图1中未示出)，其主要用于获取用来建立油品分类模型的油品样本数据。在本实施例中，该数据获取模块主要包括以下单元：

数据获取单元，其主要用于获取由LIMS系统提供的油品检测数据；

数据清洗单元，其主要用于对接收的油品检测数据进行清洗，所述清洗包括删除异常值；

数据变换单元，其主要用于对经过清洗的数据进行变换，使之成为能够用于建立油品分类模型的油品样本数据，所述变换包括统一量纲和/或数据结构变换。

在本实施例中，大数据探索使用的数据为LIMS系统中采集的历史油品检测数据。随着LIMS系统的建立和使用，已经整合了油品检验的整个流程的各个环节，积累了大量的油品检验数据。为了实现油品特征识别与分析所需要的油品样本数据、检验标准和方法信息以及供应商历史信息等基本都可以在LIMS系统中取得。因此在本实施例中，大数据探索的数据理解与采集主要基于LIMS系统数据，识别样本信息记录的完整性和一致性，发现油品指标间的关联，探索油品数据上的类别，以形成初步的油品特征和供应商质量分析。以92号汽油为例，入库的92号油样本，样本量为56992，占入库样本比为35.92％；入库的95号油样本，样本量为30782，占入库样本比为19.46％。

此外，数据获取单元优选地以导出文本文件的方式从源系统采集历史数据，并将数据导入数据分析与理解工具，为后续的数据理解工作做准备。

由于高质量数据是数据分析的前提和分析结论可靠性的保障，在进行数据分析前，因此在本实施例中，数据清洗单元还需要对上述入库原始数据进行数据质量检查和数据清洗，以保证模型结果的可靠性。

数据质量检查是针对如数据是否完整、数据是否存在错误、数据中是否有缺失值等问题的检查。其中对92号/95号汽油的主要检测指标的字段进行检查，包括最小值、最大值、均值、标准差及有效数据量等，为了尽可能地保留原始数据信息，在后续建模过程中应当尽量选择数据缺失比例较小的指标。

数据清洗主要包括以下几个方面：

①选择分析样本

在分析汽油时，需要抽取汽油的检测数据作为研究对象。例如，有些样品名称虽然含有“汽油”字样，但是并不属于研究对象，如“车用汽油清洁剂”，有少部分产品名称虽含“汽油”字样，但却为非汽油产品。

②异常值处理

在统一量纲之后仍然有个别值偏离正常水平，称之为异常值，这些异常值不利于分析，应当删除这部分数据。例如：铁含量、锰含量、20℃密度等指标出现了负值，不符合实际，需要对这部分数据做异常值处理。

数据变换单元主要用于将经过清洗的数据变换成能够用于系统建立油品分类模型的油品样本数据。数据变换主要包括以下几个方面：

①统一量纲

部分检测指标值存在量纲不一致的情况，对指标的量纲进行统一。例如：指标20℃密度的量纲情况如下：对于20℃密度量纲不统一的情况，需要将量纲为g/cm³的样本统一转化为以kg/m³为量纲的数值，类似的处理还有硫含量、氯含量、锰含量等指标。

②指标名称与单位匹配

在原始样本数据中，检测指标名称与单位存在不一致的情况，例如“乙醇含量V”的单位为“％(质量分数)”，“乙醇含量”的单位为“％(体积分数)”，需要将指标名称与单位相匹配。

③数据结构变换

从LIMS系统抽取的原始数据表的数据结构为每个样本的每个检测指标为一条记录，因此需要对数据结构进行变换，关联样本与各检测指标，以及供应商等其他属性，作为一条记录，转换成所需的数据结构形式。

(二)关于特征筛选

在决策树建模前，需要对建模特征进行筛选，特征筛选需要综合考虑检测指标数量与指标相关性情况。在本实施例中，经过对配置油和外采油的数据进行质量检查和分析，特征筛选模块11优选数据缺失比例较小并且对业务有重要意义的油品属性特征作为用于建立分类模型的特征指标。其中，除了原始指标，还选择了T90-T10、T90-T50两个衡量油品质量的两个重要衍生指标，即馏差。具体地，在本实施例中确定用于决策树建模的指标有：10％蒸发温度、50％蒸发温度、90％蒸发温度、终馏点、T9010馏差、T9050馏差、20℃密度、研究法辛烷值、氧含量、烯烃含量、硫含量、未洗胶质、残留量、溶剂洗胶质。其中：“T9010馏差”的计算方法为：90％蒸发温度-10％蒸发温度；“T9050馏差”的计算方法为：90％蒸发温度-50％蒸发温度。

(三)关于分类划分

在本实施例中，分类划分模块12主要包括以下单元：

业务划分单元121，其主要用于根据油品来源对油品样本数据进行初步划分；

分类监督划分单元122，其主要用于基于筛选出的油品属性特征建立油品分类模型，利用所述油品分类模型对经过业务划分的油品样本数据进行进一步划分。

由于目前配置油和外采油是数据中两类业务含义明确的油品，并且在数据中有明确的标签，因此在本实施例中，业务划分单元121优选地根据油品来源从业务上将油品初步划分为配置油和外采油两种类型。

进一步地，分类监督划分单元122根据配置油和外采油的特征，采用分类监督划分，基于前述筛选出的油品属性特征建立决策树分类模型，对配置油和外采油进行进一步的分类。

决策树模型会根据配置油和外采油的特征，拟合样本数据，形成区分配置油和外采油的分类规则，根据分类规则可以得知预测变量在分类中的重要性。在区分配置油和外采油上，92号汽油指标的重要性如图3所示，从上至下重要性依次降低，其中在区分配置油、外采油上，指标的重要性为馏程类指标、20℃密度，其次为元素含量和杂质。

图4示出的是本实施例的决策树分类结果。由图4可知：在实际为外采油的油品中，有74.79％的样本被判别为外采油，有近四分之一的外采油被判别为配置油，对于被判别为配置油的外采油，说明该部分油品虽然是外采油，但是特征上与配置油相似；在实际为配置油的油品中93.05％的样本被判别为配置油，6.95％的样本被判别为外采油，对被判定为外采油的配置油，说明该部分油品虽然是配置油，但是特征上与外采油相似。从两类油品的模型分类的比例来看，配置油品质稳定，但还是存在模糊群落，而外采油品质分散。

因此根据模型分类结果对油品进行划分，分类监督划分单元32把油品进一步地分为以下四类：

①典型外采油：实际为外采油，并且模型判别为外采油

②典型配置油：实际为配置油，并且模型判别为配置油

③类配置外采油；实际为外采油，而模型判别为配置油

④类外采配置油：实际为配置油，而模型判别为外采油

然后，对得到的四类油品样本进行特征分析。对此，可以取各类样品中各指标中位数，作为该类油品该指标的代表值(如图5所示)。

图6是本实施例中上述四类油品的指标特点。

在此，应当指出的是，上述方案仅仅是本发明在具体实施时的一个特例。实际上，根据业务需求，油品分类划分的方式以及相应模块单元的组成也可以不限于此。例如，在本发明的另一个实施例中，分类划分模块12仅仅包括业务划分单元121，其根据油品来源将油品样本数据仅仅划分为配置油和外采油两种类型。在此情况下，可以将油品分类模型理解成一种简单的二分类模型。

(五)关于无监督聚类

在本实施例中，无监督聚类模块13主要包括以下单元：

指标选择单元131，其主要用于根据待聚类的油品样本数据的缺失情况、业务重要性及模型特点确定进行聚类分析的油品检测指标(简称聚类指标)；

数据填补单元132，其主要用于基于中位数填补法对所述油品检测指标的油品样本数据中的缺失值进行插补填充；

聚类处理单元133，其主要用于利用K-means聚类模型将经过填补的油品样本数据进一步细分成若干群落。

无监督聚类模块13在没有任何先验知识的情况下，探索各油品样本之间的联系，根据油品特征对分类划分得到的油品(典型配置油、类外采配置油、典型外采油和类配置外采油；又或者配置油和外采油)作进一步群落细分，使用无监督聚类模型，根据油品间的相似性，将相似程度高的油品聚为一类。

应用K-means聚类算法对油品群落划分时存在的主要问题是数据缺失问题，由于每个批次的油品检测的指标项不尽相同，因此为了尽可能的保留原始数据信息，指标选择单元131在选择聚类指标时尽量选择数据缺失比例较小的指标，而对于有重要业务意义但缺失情况又较严重的指标，则由数据填补单元42对其缺失值进行插补填充。在本实施例中，优选中位数填补法，即分别计算出各供应商各指标的中位数，插补到各个样本中原缺失数据的相应位置上，然后由聚类处理单元133对填充后的数据应用聚类分析方法。

此外，由于K-means聚类算法使用空间距离作为相似性度量，各个特征量纲不同，数据数量级存在较大差异，因此在聚类之前还需要对数据集进行标准化处理，处理为期望为0，标准差为1的特征数据，减小量纲差异对聚类效果的影响。

结合前述油品的分类划分情况，对于前述分类划分模块12包括业务划分单元121和分类监督划分单元122的情况，聚类处理单元133对分成典型外采油、典型配置油、类配置外采油和类外采配置油四种类型的经过填补的油品样本数据的每一类进行聚类处理；对于前述分类划分模块12仅仅包括业务划分单元121的情况，聚类处理单元133对分成配置油和外采油两种类型的经过填补的油品样本数据的每一类进行聚类处理。只是后者的聚类效果不如前者的聚类效果好。

(六)关于群落分析

群落分析模块14通过对上述划分后的各个油品群落进行特征归纳和油品画像，并对各个群落间的油品差异进行分析，从而确定特征差异明显、业务含义明确的群体。例如，发现不同批次的油品差异、不同厂家的油品差异等。

以下是本实施例获得的不同类别的油品的群落细分结果。

Ⅰ典型配置油群落细分

1.聚类指标

根据检测指标缺失情况，用于92号汽油典型配置油的聚类指标为：“10％蒸发温度”、“50％蒸发温度”、“90％蒸发温度”、“终馏点”、“20℃密度”、“硫含量”、“未洗胶质”、“溶剂洗胶质”、“残留量”。

2.聚类结果

对标准化之后的数据，建立K-means聚类模型，将典型配置油聚为10类，聚类后的组间距离平方和与总距离平和之比为47.0％，聚类效果良好，说明典型配置易于分类，可以划分为界限相对清晰的10个群落。

从聚类结果来看，造成典型配置油群落差异的主要指标有馏程类指标、20℃密度、硫含量等。

3.群落特征

如图7所示，类别4、类别7的样本量都在5000以上，为典型配置油的主体群落，其中类别4的各项指标适中，类别7的90％蒸发温度、终馏点高，其余指标适中；

类别9的馏程较短，20℃密度大；

类别1的硫含量高；

类别3的馏程长，10％蒸发温度低；

类别5的10％蒸发温度低，20℃密度小；

类别6的馏程类指标低，馏程短，20℃密度小，硫含量低。

类外采配置油的聚类特征与聚类过程与典型配置油相同

Ⅱ典型外采油群落细分

1.聚类指标

根据检测指标缺失情况，用于92号典型外采油的聚类指标如下："10％蒸发温度"；"50％蒸发温度"；"90％蒸发温度"；"终馏点、20℃密度"；"研究法辛烷值、硫含量、烯烃含量"；"芳烃含量、苯含量、蒸发指数DI值、蒸气压、诱导期"。

2.聚类结果

使用无监督聚类模型，对典型外采油应用K-means聚类模型，发现典型外采油间的内在相似性关系。将典型外采油聚为10类，组间距离平方和与总距离平方和的比为41.1％，聚类效果与配置油相比稍弱。造成典型外采油群落差异的指标主要有馏程、20℃密度、研究法辛烷值、蒸发指数DI值等。

3.群落特征

如图8所示，主体群落为类别5，其各项指标适中；

类别1的10％蒸发温度高，蒸发指数DI值高，研究法辛烷值低；

类别2的馏程短，苯含量低；

类别7的终馏点低，诱导期短，研究法辛烷值高；

类别3的馏程长；

类别8的20℃密度高，芳烃含量高。

类配置外采油选择的聚类特征与聚类过程与典型外采油相同。

Ⅲ外采油生产型供应商油品群落细分

1.聚类指标

对外采油生产型供应商的样本单独聚类，聚类指标与典型外采油相同：“10％蒸发温度”、“50％蒸发温度”、“90％蒸发温度”、“终馏点”、“20℃密度”、“研究法辛烷值”、“硫含量”、“烯烃含量”、“芳烃含量”、“苯含量”、“蒸发指数DI值”、“蒸气压”、“诱导期”、“未洗胶质”、“溶剂洗胶质”、“残留量”。

2.聚类结果

外采油生产型供应商的油品聚为5类，进行无监督聚类细分结果如下，组间距离平方和与总距离平方和的比为24.4％。

3.群落特征

如图9所示，主体群落为类别2，馏程短，20℃密度小，芳烃、烯烃含量低。

类别4的10％、90％蒸发温度、终馏点低，硫含量低，蒸发指数DI值低。

类别3的馏程长，烯烃含量高，蒸气压高，诱导期长；硫含量低。

类别1的馏程类指标高，20℃密度、芳烃含量、蒸发指数DI值高；研究法辛烷值、蒸气压低。

类别5的硫、苯含量、研究法辛烷值、杂质含量高，诱导期短。

上述5类分别有对应的占比最大的供应商，体现出各个油品供应商的油品特点。

本实施例提供的群落分析子系统能够对油品特征进行识别与分析，通过油品检测数据建立能够根据数据积累动态更新的油品特征模型，寻找油品检测指标之间的相关性，并优选地通过业务划分、分类监督划分和无监督聚类的划分方法，将所有入检的油品划分成各个群落，详细刻画出各群落油品特点，从而能够发现典型的油品类型差异，例如不同批次的油品差异、不同厂家的油品差异等。

下面介绍本实施例提出的溯源分析子系统2，该溯源分析子系统2主要包括：

特征筛选模块21，其主要用于根据油品样本数据筛选用来建立油品生产厂匹配模型的油品特征指标，并建立油品特征指标体系；

样本平衡模块22，其主要用于针对每一个要建立油品生产厂匹配模型的油品供应商，将该供应商的油品样本数据与其他供应商的油品样本数据分别作为正样本与负样本，进行样本平衡处理；

模型建立模块23，其主要用于针对每一个要建立油品生产厂匹配模型的油品供应商，基于建立的油品特征指标体系和平衡后的油品样本数据，利用二分类算法建立油品生产厂匹配模型；

溯源分析模块24，其主要基于各个油品供应商的油品生产厂匹配模型，分析新进油品与各个油品供应商的油品的相似度，据此推测所述新进油品的来源。

下面以92号汽油为例，描述上述系统对新进油品溯源进行分析的详细过程，并对系统各个功能模块的组成进行进一步的说明。

(一)关于数据采集

在本实施例中，溯源分析子系统2还包括数据获取模块(图1中未示出)，其主要用于获取来自不同的油品供应商的油品样本数据。该数据获取模块主要包括以下单元：

数据获取单元，其主要用于获取由LIMS系统提供的来自不同的油品供应商的油品样本数据；

数据质量检查单元，其主要用于对所述油品样本数据的缺失情况和错误情况进行检查；

数据清洗单元，其主要用于通过过滤关键字、统一量纲、匹配项目的名称与单位以及删除异常值对所述油品样本数据进行清洗。

在本实施例中，上述数据获取单元优选地获取外采油生产型供应商的历史油品样本数据。由于小的生产型供应商，其油品样本数据较少，不足以刻画该供应商的油品特征，以建立精确度较高的油品生产厂匹配模型，所以本实施例只对油品样本数据量排名靠前的生产型供应商建立油品生产厂匹配模型。当供应商的油品样本数据积累到一定数量时，采用类似的建模方法，同样可以建立准确程度较高的供应商油品生产厂匹配模型。

经统计，目前92号汽油的前18家生产型供应商的油品批次数量占到总体样本量的90.35％，本实施例中仅采集排名靠前的这18家生产型供应商的历史油品样本数据。

需要说明的是，对于95号汽油，前10家生产型供应商的油品批次占到所有生产型供应商油品批次的92.78％，因此本实施例中仅采集排名靠前的这10家生产型供应商的历史油品样本数据。

此外，数据获取单元优选地以导出文本文件的方式从源系统采集历史油品样本数据，并将油品样本数据导入数据分析与理解工具，为后续的数据理解工作做准备。

由于高质量数据是数据分析的前提和分析结论可靠性的保障，在进行油品样本数据分析前，因此在本实施例中，数据质量检查单元和数据清洗单元还需要对上述入库原始油品样本数据进行数据质量检查和数据清洗，以保证模型结果的可靠性。

数据质量检查单元主要针对如数据是否完整、数据是否存在错误、数据中是否有缺失值等问题的检查。其中对92号/95号汽油的主要油品特征指标的字段进行检查，包括最小值、最大值、均值、标准差及有效数据量等，为了尽可能地保留原始数据信息，在后续建模过程中应当尽量选择数据缺失比例较小的油品特征指标。

数据清洗单元主要对油品样本数据进行清洗，数据清洗主要包括以下几个方面：

①过滤关键字

在分析汽油时，需要抽取汽油的检测数据作为研究对象。例如，有些样品名称虽然含有“汽油”字样，但是并不属于研究对象，如“车用汽油清洁剂”，有少部分产品名称虽含“汽油”字样，但却为非汽油产品。所以，需要过滤样品的关键字，以避免待分析油品样本数据中掺入非汽油产品的样本数据。

②统一量纲

部分油品特征指标值存在量纲不一致的情况，对油品特征指标的量纲进行统一。例如：油品特征指标20℃密度的量纲情况如下：对于20℃密度量纲不统一的情况，需要将量纲为g/cm³的样本统一转化为以kg/m³为量纲的数值，类似的处理还有硫含量、氯含量、锰含量等油品特征指标。

③匹配项目的名称与单位

在原始油品样本数据中，油品特征指标名称与单位存在不一致的情况，例如“乙醇含量V”的单位为“％(质量分数)”，“乙醇含量”的单位为“％(体积分数)”，需要将油品特征指标名称与单位相匹配。

④删除异常值

在统一量纲之后仍然有个别值偏离正常水平，称之为异常值，这些异常值不利于分析，应当删除这部分数据。例如：铁含量、锰含量、20℃密度等油品特征指标出现了负值，不符合实际，需要对这部分数据做异常值处理。

(二)关于特征筛选

在本实施例中，对经过清洗的油品样本数据进行分析，特征筛选模块21优选根据油品样本数据的缺失情况、业务重要性及模型特点筛选用于建立油品生产厂匹配模型的油品特征指标，并建立油品特征指标体系。具体地，选择数据缺失比例较小并且对业务有重要意义的油品特征指标作为用于建立油品生产厂匹配模型的特征指标。其中，除了原始指标，还选择了T90-T10、T90-T50两个衡量油品质量的两个重要衍生指标，即馏差。具体地，在本实施例中确定用于建立油品生产厂匹配模型的指标有：10％蒸发温度、50％蒸发温度、90％蒸发温度、终馏点、20℃密度、研究法辛烷值、氧含量、硫含量、氯含量、溶剂洗胶质、烯烃含量、芳烃含量、苯含量、蒸发指数DI值、蒸气压、诱导期、铁含量、锰含量、未洗胶质、残留量、T9010馏差、T9050馏差。其中：“T9010馏差”的计算方法为：90％蒸发温度-10％蒸发温度；“T9050馏差”的计算方法为：90％蒸发温度-50％蒸发温度。

(三)关于样本平衡

在本实施例中，对于建模过程中的样本比例不平衡问题，样本平衡模块22优选采用随机过采样的方法对正负样本进行样本平衡处理，以提高模型精度。

(四)关于油品生产厂匹配模型建立

对于每一个要建立油品生产厂匹配模型的油品供应商，考虑到本实施例中样本数据空值较多，数据集稀疏的情况，模型建立模块23优选采用对数据缺失不敏感的决策树分类模型作为油品生产厂匹配模型。决策树算法适用于大数据集，面对数据缺失和输入字段很多的问题时仍非常稳健。当然，在具体实施时，还可以采用其他二分类算法，不限于此。

在本实施例中，以两个油品供应商为例，采用过采样的方法平衡样本后，取70％为训练集，在训练集上建立决策树分类模型，30％为测试集，在测试集上做预测，评估建立的决策树分类模型的效果。

首先，以某一油品供应商为例，对其建立决策树分类模型。由于决策树的深度太深，仅以如图10所示的部分决策树分类模型来进行展示。如图10所示，某一油品供应商与其他生产型供应商的主要差别表现在氧含量、T9010馏差、终馏点、20℃密度、烯烃含量、50％蒸发温度、硫含量、苯含量、未洗胶质、T9050馏差等油品特征指标。这些油品特征指标的重要性如图11所示。通过计算模型在测试集上的精确率和召回率评估模型效果。

其次，以另一油品供应商为例，对其建立决策树分类模型。由于决策树的深度太深，仅以如图12所示的部分决策树分类模型来进行展示。如图12所示，另一油品供应商与其他生产型供应商的油品主要差别表现在诱导期、终馏点、未洗胶质、20℃密度、t9010馏差、50％蒸发温度、烯烃含量、芳烃含量、90％蒸发温度、蒸发指数DI值、10％蒸发温度等油品特征指标。这些油品特征指标的重要性如图13所示。通过计算模型在测试集上的精确率和召回率评估模型效果。

特别地，其他供应商与95号汽油的主要生产型供应商的建模方法类似上述建模方法。

(五)关于溯源分析

在本实施例中，溯源分析模块24基于模型建立模块23建立的决策树分类模型实现油品溯源的业务价值，溯源分析模块24主要包括以下单元：

匹配概率分析单元241，其主要用于根据新进油品的各项特征指标的检测数据，通过油品供应商的油品生产厂匹配模型，确定所述新进油品为相应油品供应商的油品的概率，用以表征所述新进油品与相应油品供应商的油品的相似度。也即，通过匹配概率辅助判断新进油品的来源，给出与供应商提供的油品来源企业历史油品的模糊匹配相似度。

模糊匹配筛选单元242，其用于根据所述新进油品与各个油品供应商的油品的相似度，给出相似度最高的若干油品供应商的排名，从而实现所述新进油品的追踪溯源。也即，给出匹配概率排名前几的来源企业，判断该油品与哪几家外采油生产型供应商油品特征比较相似，给出在历史油品中与目标油品近似度最高的生产供应商的检测结果，从而推测出新进油品的来源。

本实施例提供的溯源分析子系统能够根据油品样本数据筛选出油品特征指标，并建立油品特征指标体系，针对每一个要建立油品生产厂匹配模型的油品供应商，进行样本平衡处理，然后基于建立的油品特征指标体系和平衡后的油品样本数据，利用二分类算法建立油品生产厂匹配模型，分析新进油品与各个油品供应商的油品的相似度，据此推测新进油品的来源，从而能够基于与各个油品供应商的油品的相似度来进行模糊匹配，准确匹配出各个油品供应商中与新进油品相似度最高的油品供应商为新进油品的油品供应商。

下面介绍本实施例提出的群落相关性分析模块3，该群落相关性分析模块3主要包括：

指标相关性分析模块31，其用于根据油品样本数据分析油品检测指标之间的相关性；

群落相关性分析模块32，其用于分析不同群落的油品在油品检测指标上的相关性及差异。

下面分别以92号汽油和95号汽油为例，描述上述群落相关性分析模块3对油品检测指标的相关性和不同群落的油品在油品检测指标上的相关性及差异进行分析的详细过程。

(一)关于指标相关性分析

指标相关性分析，主要是探索检测指标间的相关性关系，发现较强相关性的指标。在统计学中，Pearson相关系数(Pearson correlation coefficient，PCC)是用来衡量两个定量变量之间的线性相关程度的方法。相关系数(如图14所示)可以用来描述定量变量之间的关系，相关系数的符号(±)表明关系的方向(正相关或负相关)，其值的大小表示关系的强弱程度(完全不相关时为0，完全相关时为1)。

本实施例采用Pearson相关系数的方法，把油品检测指标之间的依赖关系，通过Pearson相关系数进行量化，发现两两之间线性相关性较强的指标。鉴于配置油的检测指标较少，外采油的检测指标相对丰富，结合各个检测指标数据量的情况，对外采油的18个检测指标，以及10点、90点蒸发温度之差，50点、90点蒸发温度之差，烯烃含量与芳烃含量之和，共21个指标做指标关联性分析。具体指标包括：10％蒸发温度、50％蒸发温度、90％蒸发温度、终馏点、20℃密度、氧含量、烯烃含量、芳烃含量、氯含量、硫含量、苯含量、研究法辛烷值、未洗胶质、溶剂洗胶质、残留量、蒸发指数DI值、蒸气压、诱导期、t9010馏差、t9050馏差、烯烃与芳烃。

以下是本实施例典型外采油指标相关性分析过程和结果。

Ⅰ92号汽油典型外采油指标相关性分析

对于92号汽油典型外采油，求得24个指标间的Pearson相关系数矩阵如图15a、图15b和图15c所示。通过图15a、图15b和图15c所示的92号汽油典型外采油的指标相关系数矩阵可以看出：

氯含量、硫含量、诱导期比较独立；

馏程类指标之间有一定相关性；

20℃密度与芳烃含量相关性较强；

芳烃含量与氧含量有相关性较强；

未洗胶质与溶剂洗胶质的相关性较强；

蒸发指数DI值与馏程类指标相关性较强；

研究法辛烷值与20℃密度、氧与烯烃之和、烯烃与芳烃之和、氧与芳烃与烯烃之和有较弱的相关性。

Ⅱ95号汽油典型外采油指标相关性分析

对于95号汽油典型外采油，求得24个指标间的Pearson相关系数矩阵如图16a、图16b和图16c所示。通过图16a、图16b和图16c所示的95号汽油典型外采油的相关系数矩阵可以看出：

研究法辛烷值、杂质类、诱导期比较独立；

馏程类指标之间有一定相关性，其中10％蒸发温度与50％蒸发温度、90％蒸发温度与终馏点相关性较强；

20℃密度与芳烃含量相关性较强；

未洗胶质与溶剂洗胶质相关性较强；

蒸发指数DI值与10％、50％蒸发温度相关性较强。

(2)不同群落的油品在油品检测指标上的相关性及差异分析

以下是本实施例不同群落的油品在油品检测指标上的相关性及差异分析过程和结果。

Ⅰ92号汽油生产型供应商外采油与典型配置油指标相关性及差异对比分析

对于92号汽油生产型供应商外采油与典型配置油的指标相关性系数矩阵如图17a、图17b和图17c所示。通过图17a、图17b和图17c所示的相关系数矩阵可以看出，对于92号汽油，典型配置油与生产型供应商外采油指标相关性的差异表现在：

在典型配置油中，20℃密度与馏程类指标10％蒸发温度、50％蒸发温度、终馏点的相关性更强；

典型配置油中，20℃密度与50点、90点馏差的相关性更强。

Ⅱ95号汽油生产型供应商外采油与典型配置油指标相关性及差异对比分析

对于95号汽油生产型供应商外采油与典型配置油的指标相关性系数矩阵如图18a、图18b和图18c所示。通过图18a、图18b和图18c所示的相关系数矩阵可以看出，对于95号汽油，与典型配置油相比，生产型供应商外采油指标相关性的差异主要有：10％蒸发温度与20℃密度、未洗胶质、残留量的相关性；50％蒸发温度与90％蒸发温度、终馏点、20℃密度、杂质类指标的相关性，90％蒸发温度与硫含量的相关性；终馏点与硫含量的相关性；20℃密度与未洗胶质、残留量、T9050馏差的相关性。

本实施例提供的相关性分析子系统可以分析检测指标之间的正负相关关系和不同群落的油品在检测指标上的关联性，并根据相关性自动判断检测指标是否合理；把油品检测指标之间的依赖关系，通过Pearson相关系数进行量化，发现两两之间线性相关性较强的指标，对不同群落油品之间两两指标相关性及差异进行对比，进一步刻画各群落的特征以及各群落之间的差异。

综上所述，本实施例提供的基于大数据的油品质量分析系统，能够通过探索隐藏于质检数据之后的潜在规律，寻找油品检测指标之间的相关性，并通过油品群落分析与模糊匹配，提前发现问题油品，优化卡边油品，避免问题油品的回炉再造，并建立油品与生产型供应商的相互关系，进一步提高中国石化油品质量的风险管控能力，杜绝社会性群体质量事件的发生，提升中国石化的整体品牌形象。

实施例二

此外，根据本发明的第二个实施例，本发明提供的油品质量分析系统的群落分析子系统可以进一步包括：

业务分析模块，其主要用于根据群落分析模块14获得的各个群落的油品特点和/或各个群落的油品差异，分析各个群落中油品供应商分布情况和各个油品供应商的群落分布情况，从而获得各个油品供应商的油品特点和不同油品供应商之间的油品差异。由此，相关研究人员能够进一步判断不同类型的生产性供应商的生产工艺的差异是否能够反映为成品油检测项上的差异。

实施例三

此外，根据本发明的第三个实施例，本发明提供的油品质量分析系统的群落分析子系统可以进一步包括：

群落分级模块，其用于根据群落的油品特点确定各项检测指标的分值和权重，计算群落得分，然后根据群落得分情况对群落评级；

质量预警模块，其用于对落入不合格等级的群落的新进油品给予警示。

具体地，对于群落等级的划分，需要根据群落的检测指标特点来进行评判。首先，群落分级模块从单指标角度对各个指标从业务角度进行评级，对92、95号汽油各项检测指标的取值范围合理划分区间，并结合业务经验给出各区间相应的分值，然后，根据群落各检测指标的特点，结合指标权重，算得群落得分，最后，根据群落得分情况划分群落等级。

如图19所示，通过上述模块，系统结合群落分析主题的结果，对新进油品进行判别，在给出初步的群落判别结果后，进一步结合油品群落评级情况，对落入异常群落的油品进行预警，，提前发现问题油品，优化卡边油品，大幅度地提高了中国石化油品质量的风险管控能力。

应当说明的是，虽然本发明所公开的实施方式如上，但所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属技术领域内的技术人员，在不脱离本发明所公开的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种基于大数据的油品质量分析系统，其特征在于，包括：

群落分析子系统，其包括：

业务划分单元，其用于根据油品来源将油品样本数据初步划分为配置油和外采油；

分类监督划分单元，其用于基于筛选出的油品属性，利用决策树分类算法建立油品分类模型，所述油品分类模型根据配置油和外采油的特征，拟合样本数据，形成区分配置油和外采油的分类规则，根据所述分类规则获得预测变量在分类中的重要性，基于所述重要性将划分为配置油和外采油的油品样本数据进一步划分为典型外采油、典型配置油、类配置外采油和类外采配置油；

其中，所述典型外采油指的是实际为外采油，且所述油品分类模型判别为外采油的油品；所述典型配置油指的是实际为配置油，且所述油品分类模型判别为配置油的油品；所述类配置外采油指的是实际为外采油，而所述油品分类模型判别为配置油的油品；所述类外采配置油指的是实际为配置油，而所述油品分类模型判别为外采油的油品；

溯源分析子系统，其包括：