CN112580692A - 一种基于插值算法的虚拟样本生成方法 - Google Patents
一种基于插值算法的虚拟样本生成方法 Download PDFInfo
- Publication number
- CN112580692A CN112580692A CN202011346109.2A CN202011346109A CN112580692A CN 112580692 A CN112580692 A CN 112580692A CN 202011346109 A CN202011346109 A CN 202011346109A CN 112580692 A CN112580692 A CN 112580692A
- Authority
- CN
- China
- Prior art keywords
- sample
- expression
- virtual
- data
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 75
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 41
- 230000008569 process Effects 0.000 claims abstract description 22
- QTBSBXVTEAMEQO-UHFFFAOYSA-N Acetic acid Chemical compound CC(O)=O QTBSBXVTEAMEQO-UHFFFAOYSA-N 0.000 claims description 51
- 230000014509 gene expression Effects 0.000 claims description 51
- 239000011159 matrix material Substances 0.000 claims description 31
- 238000012549 training Methods 0.000 claims description 17
- 238000010992 reflux Methods 0.000 claims description 16
- 210000002569 neuron Anatomy 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 13
- 230000009467 reduction Effects 0.000 claims description 13
- 239000000126 substance Substances 0.000 claims description 11
- 239000002904 solvent Substances 0.000 claims description 10
- 238000010606 normalization Methods 0.000 claims description 9
- 230000018044 dehydration Effects 0.000 claims description 8
- 238000006297 dehydration reaction Methods 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 4
- 230000002159 abnormal effect Effects 0.000 claims description 3
- 238000000354 decomposition reaction Methods 0.000 claims description 3
- 239000007788 liquid Substances 0.000 claims description 3
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims description 3
- KKEYFWRCBNTPAC-UHFFFAOYSA-N Terephthalic acid Chemical compound OC(=O)C1=CC=C(C(O)=O)C=C1 KKEYFWRCBNTPAC-UHFFFAOYSA-N 0.000 abstract description 33
- 238000004519 manufacturing process Methods 0.000 abstract description 18
- 238000005259 measurement Methods 0.000 abstract description 14
- 238000013528 artificial neural network Methods 0.000 abstract description 8
- 230000000694 effects Effects 0.000 abstract description 4
- 238000004458 analytical method Methods 0.000 abstract description 3
- 238000012824 chemical production Methods 0.000 abstract description 3
- 238000009826 distribution Methods 0.000 description 10
- 238000009792 diffusion process Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000001537 neural effect Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000004088 simulation Methods 0.000 description 3
- 238000012706 support-vector machine Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000007254 oxidation reaction Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- QVGXLLKOCUKJST-UHFFFAOYSA-N atomic oxygen Chemical compound [O] QVGXLLKOCUKJST-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000003054 catalyst Substances 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000001311 chemical methods and process Methods 0.000 description 1
- 239000013064 chemical raw material Substances 0.000 description 1
- 229940011182 cobalt acetate Drugs 0.000 description 1
- QAHREYKOYSIQPH-UHFFFAOYSA-L cobalt(II) acetate Chemical compound [Co+2].CC([O-])=O.CC([O-])=O QAHREYKOYSIQPH-UHFFFAOYSA-L 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000004141 dimensional analysis Methods 0.000 description 1
- -1 feed flow Substances 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000009776 industrial production Methods 0.000 description 1
- 239000007791 liquid phase Substances 0.000 description 1
- 229940071125 manganese acetate Drugs 0.000 description 1
- UOGMEBQRZBEZQT-UHFFFAOYSA-L manganese(2+);diacetate Chemical compound [Mn+2].CC([O-])=O.CC([O-])=O UOGMEBQRZBEZQT-UHFFFAOYSA-L 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 239000007800 oxidant agent Substances 0.000 description 1
- 230000003647 oxidation Effects 0.000 description 1
- 230000001590 oxidative effect Effects 0.000 description 1
- 229910052760 oxygen Inorganic materials 0.000 description 1
- 239000001301 oxygen Substances 0.000 description 1
- 239000002994 raw material Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Pure & Applied Mathematics (AREA)
- Evolutionary Computation (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Computational Mathematics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于插值算法的虚拟样本生成方法,在样本不平衡和不完全的情况下扩充样本量,提高精对苯二甲酸生产装置软测量建模的精度。本发明利用多维尺度分析算法获得高维原始样本在低维空间的投影,根据插值算法在样本稀疏区域生成虚拟样本,最后通过构建极限学习机神经网络获得原始样本空间虚拟样本的值,从而形成虚拟样本生成方法。本发明通过扩充样本集训练神经网络,可以提高软测量模型的精度和稳定性。本发明提供的基于插值算法的虚拟样本生成方法易于使用而且效果明显,具有优越的泛化性能和较好的稳定性,可以广泛应用于解决化工生产过程中的小样本建模。
Description
技术领域
本发明涉及精对苯二甲酸生产技术领域,尤其涉及一种基于插值算法的虚拟样本生成方法。
背景技术
随着数据驱动方法在现代过程工业中被广泛应用于建立软测量模型,许多利用采集数据集来学习数据趋势的算法被提出。充分的有效样本和均匀的样本分布是建立精确的数据驱动模型的两个关键要求。充分的有效样本为提高软测量模型的精度和鲁棒性提供了保障。在现代流程工业中,有效样本难以获取的主要原因有:一、由于流程工业过程稳定、波动性小,难以采集到大量具有代表性的数据;二、由于采集到的数据通常具有缺失值、非线性和随机噪声等特点,难以提取出大量的有价值信息。由于样本量不充足和样本分布不均匀,建立精确、稳定的数据驱动模型比较困难,此类问题被视为小样本问题。小样本问题指由于样本规模较小、有效信息不足,而无法充分揭示样本整体特征的情况。
为了解决小样本问题,相关研究人员提出了众多方法。这些方法主要分为两类:机器学习方法和虚拟样本生成方法。机器学习方法包括支持向量机、基于灰色理论的方法和贝叶斯网络。作为一种经典的小样本学习算法,支持向量机通过间隔对数据分布进行结构化描述,减少了对样本数目和样本分布的要求,从理论上保证了模型的最大泛化能力。尽管支持向量机及其改进模型被广泛用于解决许多实际问题,但当样本数量十分稀少时,它们的工作性能不佳。基于灰色理论的方法是一种常用的不确定系统建模和分析工具。主要通过从部分已知信息来挖掘数据的深层次信息,弱化系统的随机性,从而使紊乱的原始数据列呈现出某种规律性,揭示了系统内部事物连续发展变化的过程。然而,灰色系统理论适用于呈指数规律变化的单维数据,无法适用于高维数据。同时,基于灰色理论的方法难以处理非等距时间数据列。贝叶斯网络是一种将现有数据与专家判断相结合,不确定知识的推理和表达方法。然而,从一个小样本集中获得贝叶斯网络的结构和参数是非常困难的。同样,其他机器学习方法解决小样本问题的性能也非常有限。
由于机器学习方法的局限性,虚拟样本生成技术作为一种样本扩充方法被提出。虚拟样本生成方法能够根据原始小样本信息生成虚拟样本,有效地扩充数据量,提高识别性能。基于虚拟样本生成的方法是近年来研究的热点。根据虚拟样本生成原理,虚拟样本生成技术通常分为以下三类:(1)基于采样的虚拟样本生成方法;(2)基于信息扩散的虚拟样本生成方法;(3)基于特征表达的虚拟样本生成方法。基于采样的虚拟样本生成方法通过采样分布了解样本的真实分布。此类虚拟样本生成方法的性能取决于能否找到一个合适的分布,这个分布通常由一个参数概率模型来拟合。而对于高维的工业过程数据,学习其样本的联合分布是很困难的。基于信息扩散的虚拟样本生成方法利用信息扩散原理推导扩散函数,并利用模糊理论在一定范围内生成新的样本。然而,扩散函数和扩散系数无法有效地确定,并且没有考虑实际样本的不对称性。基于特征表达的虚拟样本生成方法主要是利用特征提取方法对高维样本进行降维处理,以获得适合处理高维数据的特征空间。与其他两种虚拟样本生成原理相比,基于特征表达的虚拟样本生成思想更适用于处理复杂工业过程中的高维数据。因此,本发明正是基于这一原则展开的。
发明内容
为解决现有技术存在的局限和缺陷,本发明提供一种基于插值算法的虚拟样本生成方法,包括获得数据并进行数据预处理,MDS算法对原始数据进行降维处理,特征空间插值生成虚拟样本,对PTA过程醋酸消耗进行建模;
所述获得数据并进行数据预处理的步骤包括:对现场采集的PTA数据中存在的缺失数据、异常数据和噪声数据进行处理,获得I个训练样本{(Xi,Yi)|i=1,2,…,I},其中Xi=[xi1,xi2,…,xin]代表第i个输入样本,Yi代表输出向量,xin代表第i个输入样本Xi的第n个变量,n个变量分别对应进料醋酸含量、进料流量、水回流量、NBA主回流量、NBA侧线回流量、蒸汽流量、塔顶采出量、进料温度、回流温度、塔顶温度、塔板温度、塔板温度、塔板温度、塔内压力、塔板之间可控温度点、回流罐液位、溶剂脱水塔的操作压力,所述输出向量为溶剂脱水塔塔顶电导率;
所述MDS算法对原始数据进行降维处理的步骤包括:设定I个样本之间的距离在原始空间的距离矩阵为D,获得降维到二维空间的样本矩阵Z的表达式如下:
其中,第i个样本和第j个样本在距离矩阵D中距离为dist[i,j],在样本矩阵Z中距离为||Zi-Zj||,dist[i,j]=||Zi-Zj||;
令所述样本矩阵Z被中心化,获得表达式如下:
获得表达式(6)如下:
获得表达式(7)如下:
将表达式(6)和表达式(7)代入表达式(4)得到表达式如下:
对所述距离矩阵D进行特征值分解,获得所述样本矩阵Z的表达式如下:
根据二维度的样本矩阵Z和距离矩阵D画出输入样本X在二维空间的邻域图。
可选的,所述特征空间插值生成虚拟样本的步骤包括:
根据小样本数据的二维空间邻域图,取相邻节点的路径中点,生成二维空间虚拟样本,得到小样本在二维空间的坐标值;
构建小样本数据二维空间的坐标值到原始空间的真实值的极限学习机,根据构建的极限学习机获得所述原始空间的虚拟样本值Xvir;
获取I个不同样本(xi,yi),其中xi=[xi1,xi2,…,xin]T∈Rn;yi=[yi1,yi2,…,yim]T∈Rm,n为网络输入层节点个数,m为网络输出层节点个数,网络具有K个隐含层节点,极限学习机网络的输出的表达式如下:
其中,Wk=(wk1,wk2,…,wkn)T是连接第k个隐含层神经元和输入层神经元的权值,βk=(βk1,βk2,…,βkm)T是连接第k个隐含层神经元和输出层神经元的权值,bk是第k个隐含层神经元的阈值,Wk·xi表示Wk和xi的内积,g(·)为激活函数;
根据上述I个等式获得表达式如下:
Hβ=Y (12)
随机确定输入权重和阈值,使用极小范数最小二乘解方法计算输出权重,表达式如下:
其中,H+为H的广义逆矩阵,y为实际输出;
获得训练好的网络模型,计算所述网络模型的输出,表达式如下:
构建所述输入样本X到所述输出向量Y的极限学习机网络,输入所述虚拟样本值Xvir,所述网络模型的输出为虚拟样本输出值yvir。
可选的,还包括:
对所述训练样本进行归一化处理,所述归一化过程的表达式如下:
可选的,所述对PTA过程醋酸消耗进行建模的步骤包括:
将虚拟样本(Xvir,Yvir)加入训练样本集中,训练所述输入样本X到所述输出向量Y的极限学习机模型。
本发明具有下述有益效果:
本发明提供的基于插值算法的虚拟样本生成方法,根据数据结构生成虚拟样本,通过多维尺度分析算法实现原始高维数据的降维,根据数据在低维空间的可视化结构生成虚拟样本。本发明通过扩充样本集训练神经网络,可以提高软测量模型的精度和稳定性。本发明提供的基于插值算法的虚拟样本生成方法易于使用而且效果明显,具有优越的泛化性能和较好的稳定性,可以广泛应用于解决化工生产过程中的小样本建模。
附图说明
图1为本发明实施例一提供的精对苯二甲酸反应流程图。
图2为本发明实施例一提供的基于插值算法的虚拟样本生成方法的工作流程图。
图3为本发明实施例一提供的样本邻域图。
图4为本发明实施例一提供的虚拟样本插值图。
图5为本发明实施例一提供的极限学习机网络模型。
具体实施方式
为使本领域的技术人员更好地理解本发明的技术方案,下面结合附图对本发明提供的基于插值算法的虚拟样本生成方法进行详细描述。
实施例一
本实施例提供一种基于插值算法的虚拟样本生成方法,解决化工过程中的小样本问题,以提高化工行业软测量模型的精度。本实施例采用多维尺度分析算法对高维石化产业数据进行降维处理,根据数据在低维空间的可视化结构找到样本稀疏区域,利用插值算法在样本缺失区域生成虚拟样本,通过在软测量模型训练集中添加虚拟样本来提高建模性能。本实施例将实现对化工产业中精对苯二甲酸(Pure Terephthalic Acid,PTA)生产数据的样本扩充和过程建模。实验结果显示,本实施例可以生成有效的虚拟样本,是提高石化过程建模精度的有效工具。
为了在小样本条件下建立精确、鲁棒的软测量模型,本实施例提出了一种基于插值算法的虚拟样本生成方法。该方法在可接受范围内生成可行的虚拟样本,通过在模型训练集中添加虚拟样本来提高建模性能。首先,利用多维尺度分析(multidimensionalscaling,MDS)算法对原始高维数据进行降维。然后,根据低维空间的样本分布图,找到样本稀疏区域,利用中点插值法生成虚拟样本。最后,利用由小样本集和虚拟样本集组成的扩充训练集,建立一个精确的神经网络模型。为了验证本实施例的有效性,以某石化厂的PTA工业中溶剂脱水塔生产装置数据为实际应用对象进行虚拟样本生成和样本扩充,目的是提高软测量建模精度,为减少装置运行过程中塔顶的醋酸消耗和提高PTA生产效益做指导。PTA作为聚醋化工生产中的重要原材料之一,在化学纤维、轻工和电子等领域具有广泛的应用,前景十分广阔。PTA在醋酸溶剂中以醋酸钴和醋酸锰为催化剂,以空气中的氧气为氧化剂,在氧化反应器的液相中发生氧化反应而制成的一种重要有机化工原料。PTA溶剂系统作为PTA生产的重要系统,其分为PTA溶剂脱水塔、再蒸馏器及回流槽三个部分,其中醋酸的消耗量被认为是检验反应体系是否有效的重要指标之一,降低减少醋酸的消耗能够减少生产成本,改善经济效益。仿真结果表明,该发明能有效地解决流程工业中的小样本问题,提高软测量模型的建模性能。
本实施例提供的基于插值算法的虚拟样本生成方法包括:获得数据并进行数据预处理,MDS算法对原始数据进行降维处理,特征空间插值生成虚拟样本点,对PTA过程醋酸消耗进行建模。本发明提供的基于插值算法的虚拟样本生成方法易于使用而且效果明显,具有优越的泛化性能和较好的稳定性。
本实施例中,所述获得数据并进行数据预处理的步骤包括:对现场采集的PTA数据中存在的缺失数据、异常数据和噪声数据进行处理,最终得到I个样本{(Xi,Yi)|i=1,2,…,I},其中Xi=[xi1,xi2,…,xin]代表第i个输入样本;xin代表第i个输入样本Xi的第n个变量,n个变量分别对应PTA生产中进料醋酸含量、进料流量、水回流量、NBA主回流量、NBA侧线回流量、蒸汽流量、塔顶采出量、进料温度、回流温度、塔顶温度、塔板温度、塔板温度、塔板温度、塔内压力、塔板之间可控温度点、回流罐液位、溶剂脱水塔的操作压力;Yi代表输出向量-溶剂脱水塔塔顶电导率,输入输出变量如表1所示。
表1输入变量和输出变量
本实施例中,所述MDS算法对原始数据进行降维处理的步骤包括:MDS算法将高维空间中的样本投影到低维空间中,保持样本点彼此之间的相似性尽可能不变,即原始空间中样本之间的距离在低维空间中得以保持。通过MDS算法降维得到输入样本X在二维空间的邻域图,即路径拓扑图。
本实施例中,所述特征空间插值生成虚拟样本的步骤包括:根据样本在低维投影空间的坐标分布,找到样本稀疏区域,利用中点插值方法生成虚拟样本。取相邻节点的路径中点,生成二维空间虚拟样本,得到小样本在二维空间的坐标值。构建小样本数据二维空间的坐标值到原始空间真实值的神经网络,根据构建的神经网络求得原始空间的虚拟样本值。
本实施例中,所述对PTA过程醋酸消耗进行建模的步骤包括:训练ELM网络模型,输入参数可以得到网络预测值,从而可以获得醋酸消耗的测量值。
图1为本发明实施例一提供的精对苯二甲酸反应流程图。本实施例提供的基于插值算法的虚拟样本生成方法,用于扩充PTA生产数据,提高PTA工业生产中醋酸消耗的预测精度,通过扩充样本集训练神经网络,可以提高网络模型的泛化能力和鲁棒性。本实施例可以生成可行的虚拟样本,实现对PTA装置在生产过程中醋酸消耗的精准预测,从而提高装置的生产效率。
图2为本发明实施例一提供的基于插值算法的虚拟样本生成方法的工作流程图。本实施例获得训练样本(X,Y)并对其进行归一化处理,消除量纲对模型的影响。归一化过程如公式(1)和公式(2)所示:
本实施例提供的MDS算法对原始数据进行降维处理,假设I个样本之间的距离在原始空间的距离矩阵为D,本实施例的目的是获得降维到二维空间的样本矩阵Z,表达式如下:
令样本矩阵Z被中心化,表达式如下:
本实施例可以得到表达式(6)如下:
获得表达式(7)如下:
将表达式(6)和表达式(7)代入表达式(4)可以获得表达式如下:
对距离矩阵B做特征值分解,则可以获得Z的表达式如下:
图3为本发明实施例一提供的样本邻域图。根据二维度的样本矩阵Z及距离矩阵为D画出输入样本X在二维空间的邻域图,即I个样本与其最邻近的k个样本点的连接图,临近样本点个数k选择为10。
图4为本发明实施例一提供的虚拟样本插值图。本实施例提供的特征空间插值生成虚拟样本,根据小样本数据的二维空间邻域图,即路径拓扑图,取相邻节点的路径中点,生成二维空间虚拟样本,可得到小样本在二维空间的坐标值。
图5为本发明实施例一提供的极限学习机网络模型。本实施例构建小样本数据二维空间的坐标值到原始输入空间真实值的神经网络-极限学习机(Extreme LearningMachine,ELM),根据构建的神经网络可求得原始空间的虚拟样本值Xvir。构建的网络模型为2输入、17输出,隐含层节点数为30。
假设有I个不同样本(xi,yi),其中xi=[xi1,xi2,…,xin]T∈Rn;yi=[yi1,yi2,…,yim]T∈Rm,n为输入向量维数即网络输入层节点个数,m为输出向量维数即网络输出层节点个数,网络具有K个隐含层节点,则ELM网络输出表达式如下:
其中,Wk=(wk1,wk2,…,wkn)T是连接第k个隐含层神经元和输入层神经元的权值,βk=(βk1,βk2,…,βkm)T是连接第k个隐含层神经元和输出层神经元的权值,bk是第k个隐含层神经元的阈值。Wk·xi表示Wk和xi的内积,g(·)为激活函数。
上述I个等式可以概况地写为表达式如下:
Hβ=Y (12)
本实施例随机确定输入权重和阈值,然后使用极小范数最小二乘解法计算输出权重,表达式如下:
其中,H+为H的广义逆矩阵,y为实际输出,得到训练好的网络模型,计算网络模型输出,表达式如下:
本实施例构建样本输入X到输出Y的ELM网络,即17输入、1输出ELM模型。输入虚拟样本值Xvir,计算网络模型输出即虚拟样本输出值yvir。
本实施例对PTA过程醋酸消耗进行建模,挑选合适的虚拟样本(Xvir、yvir)加入训练样本集中,训练17输入、1输出的ELM模型。由表2的模拟结果可知,加入虚拟样本后训练出的软测量模型精度更高。PTA案例说明本实施例可以生成有效的虚拟样本,并且可以用于提升软测梁建模精确性和稳定性。本实施例提供了一种虚拟样本生成方法,解决PTA生产过程的小样本问题,提高软测量建模精度,提高生产效益。
表2实验模拟结果
本实施例提供一种基于插值算法的虚拟样本生成方法,在样本不平衡和不完全的情况下扩充样本量,提高精对苯二甲酸生产装置软测量建模的精度。本实施例利用多维尺度分析算法获得高维原始样本在低维空间的投影,根据插值算法在样本稀疏区域生成虚拟样本,最后通过构建极限学习机神经网络获得原始样本空间虚拟样本的值,从而形成虚拟样本生成方法。本实施例通过扩充样本集训练神经网络,可以提高软测量模型的精度和稳定性。本实施例提供的基于插值算法的虚拟样本生成方法易于使用而且效果明显,具有优越的泛化性能和较好的稳定性,可以广泛应用于解决化工生产过程中的小样本建模。
可以理解的是,以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式,然而本发明并不局限于此。对于本领域内的普通技术人员而言,在不脱离本发明的精神和实质的情况下,可以做出各种变型和改进,这些变型和改进也视为本发明的保护范围。
Claims (4)
1.一种基于插值算法的虚拟样本生成方法,其特征在于,包括获得数据并进行数据预处理,MDS算法对原始数据进行降维处理,特征空间插值生成虚拟样本,对PTA过程醋酸消耗进行建模;
所述获得数据并进行数据预处理的步骤包括:对现场采集的PTA数据中存在的缺失数据、异常数据和噪声数据进行处理,获得I个训练样本{(Xi,Yi)|i=1,2,…,I},其中Xi=[xi1,xi2,…,xin]代表第i个输入样本,Yi代表输出向量,xin代表第i个输入样本Xi的第n个变量,n个变量分别对应进料醋酸含量、进料流量、水回流量、NBA主回流量、NBA侧线回流量、蒸汽流量、塔顶采出量、进料温度、回流温度、塔顶温度、塔板温度、塔板温度、塔板温度、塔内压力、塔板之间可控温度点、回流罐液位、溶剂脱水塔的操作压力,所述输出向量为溶剂脱水塔塔顶电导率;
所述MDS算法对原始数据进行降维处理的步骤包括:设定I个样本之间的距离在原始空间的距离矩阵为D,获得降维到二维空间的样本矩阵Z的表达式如下:
其中,第i个样本和第j个样本在距离矩阵D中距离为dist[i,j],在样本矩阵Z中距离为||Zi-Zj||,dist[i,j]=||Zi-Zj||;
令所述样本矩阵Z被中心化,获得表达式如下:
获得表达式(6)如下:
获得表达式(7)如下:
将表达式(6)和表达式(7)代入表达式(4)得到表达式如下:
对所述距离矩阵D进行特征值分解,获得所述样本矩阵Z的表达式如下:
根据二维度的样本矩阵Z和距离矩阵D画出输入样本X在二维空间的邻域图。
2.根据权利要求1所述的基于插值算法的虚拟样本生成方法,其特征在于,所述特征空间插值生成虚拟样本的步骤包括:
根据小样本数据的二维空间邻域图,取相邻节点的路径中点,生成二维空间虚拟样本,得到小样本在二维空间的坐标值;
构建小样本数据二维空间的坐标值到原始空间的真实值的极限学习机,根据构建的极限学习机获得所述原始空间的虚拟样本值Xvir;
获取I个不同样本(xi,yi),其中xi=[xi1,xi2,…,xin]T∈Rn;yi=[yi1,yi2,…,yim]T∈Rm,n为网络输入层节点个数,m为网络输出层节点个数,网络具有K个隐含层节点,极限学习机网络的输出的表达式如下:
其中,Wk=(wk1,wk2,…,wkn)T是连接第k个隐含层神经元和输入层神经元的权值,βk=(βk1,βk2,…,βkm)T是连接第k个隐含层神经元和输出层神经元的权值,bk是第k个隐含层神经元的阈值,Wk·xi表示Wk和xi的内积,g(·)为激活函数;
根据上述I个等式获得表达式如下:
Hβ=Y (12)
随机确定输入权重和阈值,使用极小范数最小二乘解方法计算输出权重,表达式如下:
其中,H+为H的广义逆矩阵,y为实际输出;
获得训练好的网络模型,计算所述网络模型的输出,表达式如下:
构建所述输入样本X到所述输出向量Y的极限学习机网络,输入所述虚拟样本值Xvir,所述网络模型的输出为虚拟样本输出值yvir。
4.根据权利要求1所述的基于插值算法的虚拟样本生成方法,其特征在于,所述对PTA过程醋酸消耗进行建模的步骤包括:
将虚拟样本(Xvir,Yvir)加入训练样本集中,训练所述输入样本X到所述输出向量Y的极限学习机模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011346109.2A CN112580692B (zh) | 2020-11-25 | 2020-11-25 | 一种基于插值算法的虚拟样本生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011346109.2A CN112580692B (zh) | 2020-11-25 | 2020-11-25 | 一种基于插值算法的虚拟样本生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112580692A true CN112580692A (zh) | 2021-03-30 |
CN112580692B CN112580692B (zh) | 2024-04-02 |
Family
ID=75123853
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011346109.2A Active CN112580692B (zh) | 2020-11-25 | 2020-11-25 | 一种基于插值算法的虚拟样本生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112580692B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113822257A (zh) * | 2021-11-24 | 2021-12-21 | 航天智控(北京)监测技术有限公司 | 一种基于无量纲特征结合虚拟样本的异常点检测方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170161606A1 (en) * | 2015-12-06 | 2017-06-08 | Beijing University Of Technology | Clustering method based on iterations of neural networks |
CN107067080A (zh) * | 2016-12-05 | 2017-08-18 | 哈尔滨理工大学 | 基于核极限学习机的泄露气体监测浓度数据虚拟扩展方法 |
CN110188875A (zh) * | 2019-04-16 | 2019-08-30 | 中国农业大学 | 一种小样本数据预测方法及装置 |
-
2020
- 2020-11-25 CN CN202011346109.2A patent/CN112580692B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170161606A1 (en) * | 2015-12-06 | 2017-06-08 | Beijing University Of Technology | Clustering method based on iterations of neural networks |
CN107067080A (zh) * | 2016-12-05 | 2017-08-18 | 哈尔滨理工大学 | 基于核极限学习机的泄露气体监测浓度数据虚拟扩展方法 |
CN110188875A (zh) * | 2019-04-16 | 2019-08-30 | 中国农业大学 | 一种小样本数据预测方法及装置 |
Non-Patent Citations (1)
Title |
---|
贺彦林;王晓;朱群雄;: "基于主成分分析-改进的极限学习机方法的精对苯二甲酸醋酸含量软测量", 控制理论与应用, no. 01, 15 January 2015 (2015-01-15) * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113822257A (zh) * | 2021-11-24 | 2021-12-21 | 航天智控(北京)监测技术有限公司 | 一种基于无量纲特征结合虚拟样本的异常点检测方法 |
CN113822257B (zh) * | 2021-11-24 | 2022-06-07 | 航天智控(北京)监测技术有限公司 | 一种基于无量纲特征结合虚拟样本的异常点检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112580692B (zh) | 2024-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Xie et al. | Supervised variational autoencoders for soft sensor modeling with missing data | |
CN109242223B (zh) | 城市公共建筑火灾风险的量子支持向量机评估与预测方法 | |
CN105425583B (zh) | 基于协同训练lwpls的青霉素生产过程的控制方法 | |
Li et al. | Development of semi-supervised multiple-output soft-sensors with Co-training and tri-training MPLS and MRVM | |
Li et al. | A new method of identification of complex lithologies and reservoirs: task-driven data mining | |
Tang et al. | A new active learning strategy for soft sensor modeling based on feature reconstruction and uncertainty evaluation | |
CN108520310A (zh) | 基于G-L混合噪声特性v-支持向量回归机的风速预报方法 | |
Kong et al. | Deep PLS: A lightweight deep learning model for interpretable and efficient data analytics | |
Zheng et al. | Improved mahalanobis distance based JITL-LSTM soft sensor for multiphase batch processes | |
Li et al. | Development of a Novel Soft Sensor with Long Short‐Term Memory Network and Normalized Mutual Information Feature Selection | |
CN112580692B (zh) | 一种基于插值算法的虚拟样本生成方法 | |
He et al. | Progress in prediction of remaining useful life of hydrogen fuel cells based on deep learning | |
Xiao et al. | Distributed semisupervised HMM for dynamic inferential sensor development | |
CN106405683A (zh) | 基于g‑l混合噪声特性核岭回归技术的风速预报方法及装置 | |
Li et al. | Data cleaning method for the process of acid production with flue gas based on improved random forest | |
CN114239397A (zh) | 基于动态特征提取与局部加权深度学习的软测量建模方法 | |
Han et al. | Filter transfer learning algorithm for missing data imputation in wastewater treatment process | |
CN1327376C (zh) | 基于支持向量机的软测量仪表建模方法 | |
Chen et al. | Multimodal process monitoring based on transition-constrained Gaussian mixture model | |
CN117455536A (zh) | 基于误差补偿的短期煤价预测方法及系统 | |
Smith et al. | Multi-objective evolutionary recurrent neural network ensemble for prediction of computational fluid dynamic simulations | |
Qi et al. | Using stacked auto-encoder and bi-directional LSTM for batch process quality prediction | |
Chen et al. | An Improved Deep Kernel Partial Least Squares and Its Application to Industrial Data Modeling | |
CN116720743A (zh) | 基于数据聚类和机器学习的碳排放测算方法 | |
CN116665039A (zh) | 基于两阶段因果干预的小样本目标识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |