CN112380769A - 基于稀疏检测和径向基函数插值的虚拟样本生成方法 - Google Patents
基于稀疏检测和径向基函数插值的虚拟样本生成方法 Download PDFInfo
- Publication number
- CN112380769A CN112380769A CN202011265842.1A CN202011265842A CN112380769A CN 112380769 A CN112380769 A CN 112380769A CN 202011265842 A CN202011265842 A CN 202011265842A CN 112380769 A CN112380769 A CN 112380769A
- Authority
- CN
- China
- Prior art keywords
- interpolation
- space
- virtual
- sample
- radial basis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 81
- 238000001514 detection method Methods 0.000 title claims abstract description 33
- QTBSBXVTEAMEQO-UHFFFAOYSA-N Acetic acid Chemical compound CC(O)=O QTBSBXVTEAMEQO-UHFFFAOYSA-N 0.000 claims abstract description 84
- 230000008569 process Effects 0.000 claims abstract description 42
- 238000012549 training Methods 0.000 claims abstract description 41
- 238000007781 pre-processing Methods 0.000 claims abstract description 8
- 239000011159 matrix material Substances 0.000 claims description 19
- 238000010992 reflux Methods 0.000 claims description 17
- 238000005070 sampling Methods 0.000 claims description 12
- 239000002904 solvent Substances 0.000 claims description 9
- 230000018044 dehydration Effects 0.000 claims description 8
- 238000006297 dehydration reaction Methods 0.000 claims description 8
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 5
- 230000002159 abnormal effect Effects 0.000 claims description 4
- 230000001174 ascending effect Effects 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 3
- 239000007788 liquid Substances 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 2
- 238000004519 manufacturing process Methods 0.000 abstract description 19
- 230000008901 benefit Effects 0.000 abstract description 7
- KKEYFWRCBNTPAC-UHFFFAOYSA-N Terephthalic acid Chemical compound OC(=O)C1=CC=C(C(O)=O)C=C1 KKEYFWRCBNTPAC-UHFFFAOYSA-N 0.000 description 35
- 238000005516 engineering process Methods 0.000 description 11
- DKPFZGUDAPQIHT-UHFFFAOYSA-N butyl acetate Chemical compound CCCCOC(C)=O DKPFZGUDAPQIHT-UHFFFAOYSA-N 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 239000000126 substance Substances 0.000 description 5
- 238000005315 distribution function Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 239000002994 raw material Substances 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000009776 industrial production Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- PQLVXDKIJBQVDF-UHFFFAOYSA-N acetic acid;hydrate Chemical compound O.CC(O)=O PQLVXDKIJBQVDF-UHFFFAOYSA-N 0.000 description 1
- 238000010533 azeotropic distillation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000003889 chemical engineering Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000011049 filling Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000009440 infrastructure construction Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 239000003208 petroleum Substances 0.000 description 1
- 238000004886 process control Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24137—Distances to cluster centroïds
- G06F18/2414—Smoothing the distance, e.g. radial basis function networks [RBFN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Probability & Statistics with Applications (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Computer Hardware Design (AREA)
- Geometry (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于稀疏检测和径向基函数插值的虚拟样本生成方法,通过在原始样本中加入虚拟样本来提高建立PTA过程预测模型的精度,从而根据预测模型减少醋酸消耗,提高PTA生产过程效益。本发明首先获取数据进行数据预处理,对样本空间进行稀疏检测,利用径向基函数插值生成虚拟样本,最终对PTA过程醋酸消耗进行GDBT建模,从而改善了PTA过程建模,提高了建模精度。本发明采用投影点最大间距法和DBSCAN聚类算法对样本空间进行稀疏检测,使用中点插值在稀疏空间生成虚拟样本输入,利用径向基函数插值生成高质量的虚拟样本,将生成的虚拟样本加入原始训练样本,从而提高了建立GDBT预测模型的精度。
Description
技术领域
本发明涉及化工预测技术领域,尤其涉及一种基于稀疏检测和径向基函数插值的虚拟样本生成方法。
背景技术
作为典型的流程工业,石油、化工、电力等制造业一直是关乎国民经济命脉的基础产业和支柱产业,为基础设施建设、交通、能源及人们的日常生活提供了原材料的保障。如今,生产制造业的智能化发展已经受到了各国的高度重视。为了实现生产过程智能化处理、建设石化行业智能工厂的宏伟目标,我国石化企业尤其是在行业占据主导地位的大型央企和国企,亟需面对和解决将先进的信息处理技术与复杂生产过程有机深度融合的问题,提升石化行业的智能化水平。
鉴于石油化工行业有着生产规模巨大、工艺流程复杂、原料繁多等特点,仅仅依靠经验管理难以满足智能化的要求,因此要做出准确的决策和判断,更加需要构建准确且稳定的数学模型,为实施有效的过程控制和优化决策奠定基础,提升其智能化水平,从而保证石油化工生产过程安全、高效、稳定地运行。因此,面向石化工业过程领域的预测建模是非常有必要的。作为一种重要的研究手段,数学建模能够有效的描述对象之间的相关关系,对流程工业而言,常见的建模模型有机理模型(白箱模型)、数据驱动建模(黑箱模型)、混合模型(灰箱模型)等。其中数据驱动建模方法是指模型是在原始数据的基础上,通过输入输出之间潜在的关系建立预测模型。数据驱动建模无需精确的过程模型,模型的结构和参数根据测试误差最小原则得以确定。
随着计算机技术的发展,数据获取能力、计算机的计算能力和速度都得到了明显的提升,但与此同时,海量数据也涌向了各个行业,大数据又成为数据时代的焦点和热点,面对数量庞大的数据,如何运用已知或者未知的工具和模型来对其进行分析和挖掘,找到隐藏在数据背后的深层次信息、知识和规律正是大数据技术要研究的内容。但值得注意的是,虽然身处大数据时代,由于一些行业数据发生概率小、数据的获取难度大、数据获取的成本高或获取的数据有用信息有限等,都会导致可用于分析挖掘的数据数量不足,难以从中获取到足够的信息。因此“大数据,小样本”问题仍然严重。若是采用处理大数据的方法处理小样本数据,由于数据有限且分布松散,样本之间存在着信息间隔,因此不能很好的刻画出全部特征空间,若是直接采用小样本数据进行建模预测,将会产生较大的误差,甚至造成“过拟合”。因此,采用处理大数据的方法来直接对小样本数据进行建模,将会造成较大的误差甚至造成错误的预测。
在解决小样本的方法中,通过扩充样本数量并保证样本的分布性和一致性来填补小样本数据之间的信息空缺是一种有效的方法,被称为虚拟样本生成技术。虚拟样本生成技术是解决小样本问题的一种有效的方法,虚拟样本生成技术在未知样本概率分布函数的情况下,利用研究的先验理论或者假设样本空间的分布函数,通过生成合理的新数据,再将虚拟样本添加到原始小样本集中,以扩充训练样本集,从而使建立的预测模型更加精确。
发明内容
为解决现有技术存在的局限和缺陷,本发明提供一种基于稀疏检测和径向基函数插值的虚拟样本生成方法,包括获取数据,对数据进行预处理,对样本空间进行稀疏检测,根据径向基函数插值生成虚拟样本,对PTA过程醋酸消耗进行GDBT建模;
所述根据径向基函数插值生成虚拟样本的步骤包括:利用原始训练数据建立径向基函数插值模型,所述径向基函数插值模型的表达式如下:
其中,xi是已知训练数据坐标点,f(x)为对应的属性值,插值条件为xk为空间任意坐标点,f(xk)为对应的属性值,||xk-xi||2表示任意节点到已知点之间的欧氏距离,为中心在xi点的径向基函数在xk点的取值,ci为线性组合系数;
将所述插值矩阵转化为如下表达式:
A·c=f
对所述插值矩阵进行矩阵求逆,得到权重的表达式如下:
c=A-1·f
获得径向基函数的线性组合插值模型,其中所述径向基函数的项数与样本个数相同,所述径向基函数的线性组合插值模型的表达式如下:
f(x)=c1φ(||x-x1||2)+c2φ(||x-x2||2)+Λ+cnφ(||x-xn||2)
根据所述径向基函数的线性组合插值模型获得所述虚拟样本输入空间Xvirin1对应的虚拟样本输出空间Yvirout1,以及所述虚拟样本输入空间Xvirin2对应的虚拟样本输出空间Yvirout2,进而得到完整的虚拟样本集合,所述虚拟样本输出空间Yvirout1、所述虚拟样本输出空间Yvirout2以及所述虚拟样本集合的表达式如下:
Ωvir={Xvir,Yvir}={Xvirin1,Yvirout1}∪{Xvirin2,Yvirout2};
所述对PTA过程醋酸消耗进行GDBT建模的步骤包括:
将生成的虚拟样本集合加入原始训练样本中组成混合训练集,利用所述混合训练集建立GDBT预测模型,根据所述GDBT预测模型对所述PTA过程醋酸消耗进行预测。
可选的,所述获取数据的步骤包括:选择进料醋酸含量、进料流量、水回流量、NBA主回流量、NBA侧线回流量、蒸汽流量、塔顶采出量、进料温度、回流温度、塔顶温度、塔板温度、塔板温度、塔板温度、塔内压力、塔板之间可控温度点、回流罐液位、溶剂脱水塔的操作压力作为输入,选择溶剂脱水塔塔顶电导率作为输出。
可选的,所述对数据进行预处理的步骤包括:对异常数据进行修正,对噪声数据进行滤波,使用固定均值算法进行数据融合,生成包含17组采样值和1组分析值的输出值vi(n),(i=1,2,K 18),得到PTA过程模型的训练数据,所述PTA过程模型的训练数据的表达式如下:
其中,n为采样时刻,N为采样个数。
可选的,所述对样本空间进行稀疏检测的步骤包括:对所述训练数据输入样本空间XInput进行投影,得到每个维度上的投影 Xprojection,所述样本空间XInput和所述投影Xprojection的表达式如下:
将每个维度上的投影进行升序排列,计算连续两个投影点之间的距离,在距离最大连续两个投影点之间采用中点插值生成虚拟样本输入将生成的虚拟样本输入数据加入原始训练数据输入空间,重复上述过程,得到虚拟样本输入空间Xvirin1,所述虚拟样本输入空间Xvirin1的表达式如下:
使用DBSCAN聚类算法检测离群点,在离群点组成的稀疏空间内均匀产生虚拟样本输入,得到虚拟样本输入空间Xvirin2,所述虚拟样本输入空间Xvirin2的表达式如下:
所述样本空间XInput、所述虚拟样本输入空间Xvirin1以及所述虚拟样本输入空间Xvirin2共同组成新的训练样本。
本发明具有下述有益效果:
(1)本发明提供了一种新型的虚拟样本生成技术——基于稀疏检测和径向基函数插值的虚拟样本生成技术,该技术可以在原始训练样本的基础上生成与原始训练数据性质和分布足够接近的虚拟样本,与传统通过原始数据直接建立预测模型相比,通过将生成的虚拟样本加入到原始数据,能够有效提高建立预测模型的精度和泛化能力,为化工行业生产建模优化提供了新的思路。
(2)本发明提出的基于稀疏检测和径向基函数插值的虚拟样本生成技术,能够准确检测原始样本空间的样本稀疏空间,并在稀疏空间生成虚拟样本,与传统的虚拟样本生成技术相比,基于稀疏检测和径向基函数插值的虚拟样本生成技术在稀疏空间生成虚拟样本在扩充样本数量的基础上能更好的填补样本空间信息的空缺,在建立预测模型时能够使用更多的信息,提高建立模型的精度。
(3)本发明提出的基于稀疏检测和径向基函数插值的虚拟样本生成技术,通过使用径向基函数插值来得到虚拟样本的属性输出值,与传统的使用原始训练数据建立神经网络模型预测虚拟样本的属性输出值相比,本发明能够得到更加准确的属性输出值,使生成的虚拟样本与原始样本更加贴近,可以有效的提高加入虚拟样本建立预测模型的精度,使建立的PTA过程预测模型更加准确的预测醋酸消耗,为工业生产过程提供参考。
附图说明
图1为本发明实施例一提供的基于稀疏检测和径向基函数插值的虚拟样本生成方法的工作流程图。
图2为本发明实施例一提供的PTA反应流程图。
图3为本发明实施例一提供的投影点最大间距法工作流程图。
图4为本发明实施例一提供的DBSCAN算法流程图。
图5为本发明实施例一在标准函数上与其他方法在虚拟样本属性输出值的比较示意图。
图6为不同样本数目条件下加入40个本发明实施例一生成的虚拟样本的均方误差MSE比较示意图。
图7为相同40个样本条件下加入不同数目本发明实施例一生成的虚拟样本的均方误差MSE比较示意图。
其中,附图标记为:醋酸-水混合液-1;共沸蒸馏塔-2;空气冷却-3;水冷却-4;水回流-5;水流-6;乙酸-7;新鲜醋酸正丁酯供应 -8;来自醋酸正丁酯回收塔-9;回流槽-10;流向醋酸正丁酯回收塔 -11。
具体实施方式
为使本领域的技术人员更好地理解本发明的技术方案,下面结合附图对本发明提供的基于稀疏检测和径向基函数插值的虚拟样本生成方法进行详细描述。
实施例一
图1为本发明实施例一提供的基于稀疏检测和径向基函数插值的虚拟样本生成方法的工作流程图。图2为本发明实施例一提供的PTA反应流程图。如图1和图2所示,本实施例提出一种基于稀疏检测和径向基函数(Radial basis function,RBF)插值的虚拟样本生成技术,通过加入虚拟样本来提高建立模型的精度,从而对精对苯二甲酸(PureTerephthalic Acid,PTA)过程醋酸消耗做出准确的预测,实现对PTA生产过程的操作优化,提高PTA生产过程经济效益。本实施例提供的基于稀疏检测和径向基函数插值的虚拟样本生成方法包括:数据预处理过程,对样本空间进行稀疏检测,利用RBF 插值生成虚拟样本,对PTA过程醋酸消耗进行梯度提升决策树 (Gradient Boosting Decision Tree,GBDT)建模。
本实施例中,所述数据预处理过程为:对所述异常数据进行修正、对所述噪声数据进行滤波以及采用固定均值算法进行数据融合,进而生成包含17组采样值和1组分析值在内的输出值vi(n), (i=1,2,K 18),最终得到所述PTA醋酸消耗模型的训练数据为:
其中,n为采样时刻,N为采样个数。
图3为本发明实施例一提供的投影点最大间距法工作流程图。如图3所示,所述对样本空间进行稀疏检测为:对输入样本空间数据进行投影,得到每个维度上的投影点,将其升序排列,计算连续两个投影点之间的距离,连续投影点距离最大处即为此维度检测得到的稀疏处,采用中点插值生成一组虚拟样本输入,将生成的数据加入原输入样本空间,重复上述过程;在上述过程基础上采用具有噪声的基于密度的聚类方法(Density-BasedSpatial Clustering of Applications with Noise,DBSCAN)检测离群点,在离群点组成的稀疏空间内均匀产生虚拟样本输入。
本实施例中,所述利用RBF插值生成虚拟样本为:利用原始训练数据建立RBF插值模型,利用建立的RBF模型根据已知训练数据样本空间去预测上述检测得到稀疏空间的虚拟样本输入空间对应的输出值,即为虚拟样本输出空间,从而得到完整的虚拟样本空间。
本实施例中,所述对PTA过程醋酸消耗进行GDBT建模为:将上述生成的虚拟样本加入到原始训练样本中组成混合训练样本,对混合样本建立GDBT模型。
本实施例用于建立GDBT预测模型,用于预测PTA工业生产中的醋酸消耗,采用投影点最大间距法和DBSCAN聚类算法对样本空间进行稀疏检测,采用中点插值在稀疏空间生成虚拟样本输入,并利用RBF插值生成高质量的虚拟样本,将生成的虚拟样本加入原始训练样本,以提高建立GDBT预测模型的精度,从而实现对PTA装置在生产过程中醋酸消耗的精准预测,提高装置的生产效率。
本实施例获得PTA过程训练样本(X,Y)并对数据进行预处理,对PTA数据中异常数据进行修正、对噪声数据进行滤波以及采用固定均值算法进行数据融合,进而生成包含17组采样值和1组分析值在内的输出值vi(n),(i=1,2,K 18),最终得到N个所述PTA醋酸消耗模型的训练数据为:
其中,n为采样时刻,N为采样个数。
本实施例中,PTA数据的输入变量包括进料醋酸含量、进料流量、水回流量、NBA主回流量、NBA侧线回流量、蒸汽流量、塔顶采出量、进料温度、回流温度、塔顶温度、塔板温度、塔板温度、塔板温度、塔内压力、塔板之间可控温度点、回流罐液位、溶剂脱水塔的操作压力;输出变量是溶剂脱水塔塔顶电导率。输入输出变量表如表1所示:
表1输入输出变量
本实施例中,对输入样本空间进行稀疏检测,并在检测得到稀疏空间生成虚拟样本输入,具体过程为:对训练数据输入样本空间进行投影,得到每个维度上的投影且将它们升序排列,计算连续两个投影点在第i个区间之间的距离,可表示如下:
寻找每个维度上的f(i)max,然后进行插值,在距离最大的连续两个投影点中心处生成新数据:
本实施例得到一组虚拟样本输入将新生成的数据加入原训练数据输入样本空间,重复上述过程,得到虚拟样本输入空间在上述过程基础上采用 DBSCAN聚类算法检测离群点,DBSCAN算法是一种基于密度的算法,相比于划分聚类算法和分层聚类算法具有很大的优势,它可以发现任意形状的聚类,能够有效识别离群点,DBSCAN算法需要输入两个参数Eps和MinPts,Eps是聚类簇的半径(半径参数),MinPts 是簇内最少点数(邻域密度阈值)。
本实施例设置DBSCAN算法的如下基本概念:
设置Eps近邻的定义:数据集D中一点p的Eps近邻是指在其邻域半径Eps范围内点的集合,表示为Eps(p),Eps(p)的表达式为:
Eps(p)={q∈D|distance(p,q)≤Eps} (5)
设置直接密度可达的定义:数据集D中的p、q两点,如果 p∈Eps(q)且|Eps(q)|≥MinPts,则点p到点q直接密度可达。
设置密度可达的定义:给定一个数据集D,如果存在一个数据链p1,p2,K,pn,p1=q,pn=p,点pi+1到点pi直接密度可达,则称点p到点q密度可达。
设置核心点和边界点的定义:如果一点满足直接密度可达的定义,则它就是核心点;如果一个点不是核心点,但到另一个核心点密度可达,则该点为边界点。
设置密度相连的定义:对于数据集D中一点ω,如果点p和点q 到点ω都为密度可达,则称点p与点q密度相连。
设置簇的定义:对于数据集D,簇C定义为D的一个非空子集且满足下述条件:1、对于如果p∈C,且q是关于Eps和MinPts与 p密度相连,可得到q∈C。2、则p是关于Eps和MinPts与q 密度相连。
设置噪声点或离群点的定义:假设C1,C2,K,Ck为数据集D根据参数Eps和MinPts产生的类簇,如果数据集D中某些点不输入任何一个类,就把这些点定义为噪声点,表示为:
本实施例中,DBSCAN算法执行步骤具体描述如下:
输入:数据集D,半径参数Eps,密度阈值MinPts;
输出:聚类结果及噪声数据或离群点数据;
步骤1:从数据集D中随机选取一个未被处理的对象p,且在它的Eps邻域满足密度阈值要求称为核对象;
步骤2:遍历整个数据集,找到所有从对象p的密度可达对象,形成一个新的簇;
步骤3:通过密度相连产生最终簇结果;
步骤4:重复执行步骤2和步骤3,直到数据集中所有对象都为“已处理”。
基于密度的聚类就是一组“密度相连”的对象,以实现最大化的“密度可达”,不包含在任何聚类中的对象就是噪声数据。
图4为本发明实施例一提供的DBSCAN算法流程图。如图4所示,在离群点组成的稀疏空间内均匀产生虚拟样本输入,得到另一虚拟样本输入空间:
所述样本空间XInput、所述虚拟样本输入空间Xvirin1以及所述虚拟样本输入空间Xvirin2共同组成了新的训练样本。
本实施例利用原始训练数据建立RBF插值模型xi是已知训练数据坐标点,f(x)为对应的属性值,使其满足插值条件其中xk为空间任意坐标点,f(xk)为对应的属性值,||xk-xi||2表示任意节点到已知点之间的欧氏距离(二阶范数),为中心在xi的某个RBF函数在xk点的取值,ci为线性组合系数,即权重;插值函数是由多个基函数张成的函数空间,插值点到已知点的欧氏距离的某种RBF函数作为插值方程的基,对于方程是否有解,需要保证{xi}不能有相同数据点,这样矩阵的行列式不为零从而保证了矩阵的可解性,如果线性无关,则可以作为RBF空间中的一组基,空间中任何一点都可以由基的线性组合来表示;具体插值表达式如下:
则插值矩阵简写为:
A·c=f (8)
通过矩阵求逆,可以得到权重:
c=A-1·f (9)
最后得到RBF的线性组合插值模型,其中,RBF的项数与样本个数相同:
对于上述插值模型,只要满足矩阵A是正定矩阵,则插值模型总是存在唯一解。高斯基函数和反高斯基函数在任意维度空间下都是正定的,用这两种基函数进行RBF插值,插值矩阵是正定矩阵。对于非正定基函数,可以对原RBF插值表达式进行稍微修改,在表达式中添加一个多项式,使其插值矩阵呈现为条件正定,使得矩阵 A的逆唯一,这样也能保证RBF的可解性。对于非正定矩阵,则采用如下插值函数表达式:
其中,p(x)=λ1+λ2x+λ3y+λ4z (12)
使其满足附加条件:
使其插值矩阵为条件正定
表达式可以简写为:
本实施例中,常用的RBF函数有:
广义Multi-Quadic函数:
广义逆Multi-Quadic函数:
Markov分布函数:
其中,r是欧几里得距离,取a=0.1,即形状函数。
高斯分布函数:
其中,r是欧几里得距离,取a=0.1,即形状函数。
体积样条函数:
其中,一般取r为欧几里得距离。
薄板样条函数:
其中,d为空间维数,且有2k-d>0,在x∈R2时,2k-d=2,常用形式为:
本实施例利用得到的插值模型得到虚拟样本输入空间Xvirin1对应的虚拟样本输出空间Yvirout1,以及虚拟样本输入空间Xvirin2对应的虚拟样本输出空间Yvirout2,进而得到完整的虚拟样本集合:
Ωvir={Xvir,Yvir}={Xvirin1,Yvirout1}∪{Xvirin2,Yvirout2} (23)
所述虚拟样本输出空间Yvirout1和所述虚拟样本输出空间Yvirout2的表达式如下:
本实施例对PTA过程醋酸消耗进行GDBT建模具体包括:将生成的虚拟样本集合加入原始训练样本中组成混合训练集,并建立 GDBT预测模型,对醋酸消耗进行预测。
图5为本发明实施例一在标准函数上与其他方法在虚拟样本属性输出值的比较示意图。图6为不同样本数目条件下加入40个本发明实施例一生成的虚拟样本的均方误差MSE比较示意图。图7为相同40个样本条件下加入不同数目本发明实施例一生成的虚拟样本的均方误差MSE比较示意图。为了验证本发明的有效性,以某化工企业的PTA过程中溶剂脱水塔生产装置为实际应用对象进行GDBT 建模,目的是准确预测装置运行过程中塔顶的醋酸消耗,从而减少不必要的醋酸消耗,提高PTA过程的生产效益。PTA作为聚醋化工生产中的重要原材料之一,在化学纤维、轻工和电子等领域具有广泛的应用,前景十分广阔。PTA溶剂系统作为PTA生产的重要系统,其分为PTA溶剂脱水塔、再蒸馏器及回流槽三个部分,其中醋酸的消耗量被认为是检验反应体系是否有效的重要指标之一,降低减少醋酸的消耗能够减少生产成本,改善经济效益。实验结果表明,与不加虚拟样本相比,加入本发明所提出的基于稀疏检测和RBF插值生成的虚拟样本能有效提高建立GDBT模型的精度,能够实现对 PTA过程醋酸消耗更加精确的预测,也具有更好的泛化能力和鲁棒性。
本发明提出一种基于稀疏检测和径向基函数插值的虚拟样本生成方法,通过在原始样本中加入虚拟样本来提高建立PTA过程预测模型的精度,从而根据预测模型减少醋酸消耗,提高PTA生产过程效益。本发明首先获取数据进行数据预处理,对样本空间进行稀疏检测,利用径向基函数插值生成虚拟样本,最终对PTA过程醋酸消耗进行GDBT建模,从而改善了PTA过程建模,提高了建模精度。本发明提出一种基于稀疏检测和径向基函数插值的虚拟样本生成方法,采用投影点最大间距法和DBSCAN聚类算法对样本空间进行稀疏检测,使用中点插值在稀疏空间生成虚拟样本输入,利用径向基函数插值生成高质量的虚拟样本,将生成的虚拟样本加入原始训练样本,从而提高了建立GDBT预测模型的精度。本发明通过生成虚拟样本来扩充原始样本实现对PTA生产过程的建模。实验结果表明,本发明能够生成高质量的虚拟样本,加入虚拟样本能有效提高建立模型的精度和泛化能力,具有广泛的应用性。
可以理解的是,以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式,然而本发明并不局限于此。对于本领域内的普通技术人员而言,在不脱离本发明的精神和实质的情况下,可以做出各种变型和改进,这些变型和改进也视为本发明的保护范围。
Claims (4)
1.一种基于稀疏检测和径向基函数插值的虚拟样本生成方法,其特征在于,包括获取数据,对数据进行预处理,对样本空间进行稀疏检测,根据径向基函数插值生成虚拟样本,对PTA过程醋酸消耗进行GDBT建模;
所述根据径向基函数插值生成虚拟样本的步骤包括:利用原始训练数据建立径向基函数插值模型,所述径向基函数插值模型的表达式如下:
其中,xi是已知训练数据坐标点,f(x)为对应的属性值,插值条件为xk为空间任意坐标点,f(xk)为对应的属性值,||xk-xi||2表示任意节点到已知点之间的欧氏距离,为中心在xi点的径向基函数在xk点的取值,ci为线性组合系数;
将所述插值矩阵转化为如下表达式:
A·c=f
对所述插值矩阵进行矩阵求逆,得到权重的表达式如下:
c=A-1·f
获得径向基函数的线性组合插值模型,其中所述径向基函数的项数与样本个数相同,所述径向基函数的线性组合插值模型的表达式如下:
f(x)=c1φ(||x-x1||2)+c2φ(||x-x2||2)+Λ+cnφ(||x-xn||2)
根据所述径向基函数的线性组合插值模型获得所述虚拟样本输入空间Xvirin1对应的虚拟样本输出空间Yvirout1,以及所述虚拟样本输入空间Xvirin2对应的虚拟样本输出空间Yvirout2,进而得到完整的虚拟样本集合,所述虚拟样本输出空间Yvirout1、所述虚拟样本输出空间Yvirout2以及所述虚拟样本集合的表达式如下:
Ωvir={Xvir,Yvir}={Xvirin1,Yvirout1}∪{Xvirin2,Yvirout2};
所述对PTA过程醋酸消耗进行GDBT建模的步骤包括:
将生成的虚拟样本集合加入原始训练样本中组成混合训练集,利用所述混合训练集建立GDBT预测模型,根据所述GDBT预测模型对所述PTA过程醋酸消耗进行预测。
2.根据权利要求1所述的基于稀疏检测和径向基函数插值的虚拟样本生成方法,其特征在于,所述获取数据的步骤包括:选择进料醋酸含量、进料流量、水回流量、NBA主回流量、NBA侧线回流量、蒸汽流量、塔顶采出量、进料温度、回流温度、塔顶温度、塔板温度、塔板温度、塔板温度、塔内压力、塔板之间可控温度点、回流罐液位、溶剂脱水塔的操作压力作为输入,选择溶剂脱水塔塔顶电导率作为输出。
4.根据权利要求1所述的基于稀疏检测和径向基函数插值的虚拟样本生成方法,其特征在于,所述对样本空间进行稀疏检测的步骤包括:对所述训练数据输入样本空间XInput进行投影,得到每个维度上的投影Xprojection,所述样本空间XInput和所述投影Xprojection的表达式如下:
将每个维度上的投影进行升序排列,计算连续两个投影点之间的距离,在距离最大连续两个投影点之间采用中点插值生成虚拟样本输入将生成的虚拟样本输入数据加入原始训练数据输入空间,重复上述过程,得到虚拟样本输入空间Xvirin1,所述虚拟样本输入空间Xvirin1的表达式如下:
使用DBSCAN聚类算法检测离群点,在离群点组成的稀疏空间内均匀产生虚拟样本输入,得到虚拟样本输入空间Xvirin2,所述虚拟样本输入空间Xvirin2的表达式如下:
所述样本空间XInput、所述虚拟样本输入空间Xvirin1以及所述虚拟样本输入空间Xvirin2共同组成新的训练样本。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011265842.1A CN112380769B (zh) | 2020-11-12 | 2020-11-12 | 基于稀疏检测和径向基函数插值的虚拟样本生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011265842.1A CN112380769B (zh) | 2020-11-12 | 2020-11-12 | 基于稀疏检测和径向基函数插值的虚拟样本生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112380769A true CN112380769A (zh) | 2021-02-19 |
CN112380769B CN112380769B (zh) | 2024-07-26 |
Family
ID=74583715
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011265842.1A Active CN112380769B (zh) | 2020-11-12 | 2020-11-12 | 基于稀疏检测和径向基函数插值的虚拟样本生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112380769B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113822257A (zh) * | 2021-11-24 | 2021-12-21 | 航天智控(北京)监测技术有限公司 | 一种基于无量纲特征结合虚拟样本的异常点检测方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104268593A (zh) * | 2014-09-22 | 2015-01-07 | 华东交通大学 | 一种小样本情况下多稀疏表示的人脸识别方法 |
US20200271720A1 (en) * | 2020-05-09 | 2020-08-27 | Hefei University Of Technology | Method for diagnosing analog circuit fault based on vector-valued regularized kernel function approximation |
CN111695464A (zh) * | 2020-06-01 | 2020-09-22 | 温州大学 | 一种基于融合核的线性核化特征空间成组性的建模方法 |
CN111738366A (zh) * | 2020-08-11 | 2020-10-02 | 华东交通大学 | 一种基于虚拟样本的铈镨和钕组分含量的预测方法及系统 |
-
2020
- 2020-11-12 CN CN202011265842.1A patent/CN112380769B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104268593A (zh) * | 2014-09-22 | 2015-01-07 | 华东交通大学 | 一种小样本情况下多稀疏表示的人脸识别方法 |
US20200271720A1 (en) * | 2020-05-09 | 2020-08-27 | Hefei University Of Technology | Method for diagnosing analog circuit fault based on vector-valued regularized kernel function approximation |
CN111695464A (zh) * | 2020-06-01 | 2020-09-22 | 温州大学 | 一种基于融合核的线性核化特征空间成组性的建模方法 |
CN111738366A (zh) * | 2020-08-11 | 2020-10-02 | 华东交通大学 | 一种基于虚拟样本的铈镨和钕组分含量的预测方法及系统 |
Non-Patent Citations (1)
Title |
---|
朱群雄;耿志强;徐圆;贺彦林;韩永明;: "数据和知识融合驱动的智能过程系统工程研究进展", 北京化工大学学报(自然科学版), no. 05 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113822257A (zh) * | 2021-11-24 | 2021-12-21 | 航天智控(北京)监测技术有限公司 | 一种基于无量纲特征结合虚拟样本的异常点检测方法 |
CN113822257B (zh) * | 2021-11-24 | 2022-06-07 | 航天智控(北京)监测技术有限公司 | 一种基于无量纲特征结合虚拟样本的异常点检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112380769B (zh) | 2024-07-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ye et al. | Learning the evolutionary and multi-scale graph structure for multivariate time series forecasting | |
Zhao et al. | LSTM network: a deep learning approach for short‐term traffic forecast | |
Qiao et al. | An improved dolphin swarm algorithm based on Kernel Fuzzy C-means in the application of solving the optimal problems of large-scale function | |
Zhao et al. | JAMIP: an artificial-intelligence aided data-driven infrastructure for computational materials informatics | |
CN110705029B (zh) | 一种基于迁移学习的振荡扑翼能量采集系统流场预测方法 | |
Suram et al. | Generating information-rich high-throughput experimental materials genomes using functional clustering via multitree genetic programming and information theory | |
Wang et al. | Improved input-to-state stability analysis of impulsive stochastic systems | |
CN113052955A (zh) | 一种点云补全方法、系统及应用 | |
CN112380769B (zh) | 基于稀疏检测和径向基函数插值的虚拟样本生成方法 | |
Yuan et al. | Continuous-time prediction of industrial paste thickener system with differential ODE-net | |
Decke et al. | DADO–low-cost query strategies for deep active design optimization | |
Chen et al. | Application of Data‐Driven Iterative Learning Algorithm in Transmission Line Defect Detection | |
Wu et al. | Estimating heterogeneous gene regulatory networks from zero-inflated single-cell expression data | |
Jia et al. | Optimization of mine ventilation network feature graph | |
Wang et al. | Innovative product design based on radical problem solving | |
Duan et al. | Toward a framework of extracting typical machining process routines based on knowledge representation learning | |
Yao et al. | Multi‐stage fusion regression network for quality prediction of batch process | |
Chen et al. | Feature selection based on BP neural network and adaptive particle swarm algorithm | |
Liu et al. | STA-APSNFIS: STA-optimized adaptive pre-sparse neuro-fuzzy inference system for online soft sensor modeling | |
Chi et al. | Calculation method of probability integration method parameters based on MIV-GP-BP model | |
Li | A novel framework for discovery and reuse of typical process route driven by symbolic entropy and intelligent optimisation algorithm | |
CN112580692A (zh) | 一种基于插值算法的虚拟样本生成方法 | |
Tian et al. | HSLS: An efficient local search algorithm for the hardware and software partitioning problem | |
Li et al. | Community inspired edge specific message graph convolution network for predictive monitoring of large-scale polymerization processes | |
Weller et al. | Evidential relational-graph convolutional networks for entity classification in knowledge graphs |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |