CN112580692A - 一种基于插值算法的虚拟样本生成方法 - Google Patents

一种基于插值算法的虚拟样本生成方法 Download PDF

Info

Publication number
CN112580692A
CN112580692A CN202011346109.2A CN202011346109A CN112580692A CN 112580692 A CN112580692 A CN 112580692A CN 202011346109 A CN202011346109 A CN 202011346109A CN 112580692 A CN112580692 A CN 112580692A
Authority
CN
China
Prior art keywords
sample
expression
virtual
data
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011346109.2A
Other languages
English (en)
Other versions
CN112580692B (zh
Inventor
朱群雄
张晓晗
贺彦林
徐圆
张洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Chemical Technology
Original Assignee
Beijing University of Chemical Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Chemical Technology filed Critical Beijing University of Chemical Technology
Priority to CN202011346109.2A priority Critical patent/CN112580692B/zh
Publication of CN112580692A publication Critical patent/CN112580692A/zh
Application granted granted Critical
Publication of CN112580692B publication Critical patent/CN112580692B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Pure & Applied Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computational Mathematics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于插值算法的虚拟样本生成方法,在样本不平衡和不完全的情况下扩充样本量,提高精对苯二甲酸生产装置软测量建模的精度。本发明利用多维尺度分析算法获得高维原始样本在低维空间的投影,根据插值算法在样本稀疏区域生成虚拟样本,最后通过构建极限学习机神经网络获得原始样本空间虚拟样本的值,从而形成虚拟样本生成方法。本发明通过扩充样本集训练神经网络,可以提高软测量模型的精度和稳定性。本发明提供的基于插值算法的虚拟样本生成方法易于使用而且效果明显,具有优越的泛化性能和较好的稳定性,可以广泛应用于解决化工生产过程中的小样本建模。

Description

一种基于插值算法的虚拟样本生成方法
技术领域
本发明涉及精对苯二甲酸生产技术领域,尤其涉及一种基于插值算法的虚拟样本生成方法。
背景技术
随着数据驱动方法在现代过程工业中被广泛应用于建立软测量模型,许多利用采集数据集来学习数据趋势的算法被提出。充分的有效样本和均匀的样本分布是建立精确的数据驱动模型的两个关键要求。充分的有效样本为提高软测量模型的精度和鲁棒性提供了保障。在现代流程工业中,有效样本难以获取的主要原因有:一、由于流程工业过程稳定、波动性小,难以采集到大量具有代表性的数据;二、由于采集到的数据通常具有缺失值、非线性和随机噪声等特点,难以提取出大量的有价值信息。由于样本量不充足和样本分布不均匀,建立精确、稳定的数据驱动模型比较困难,此类问题被视为小样本问题。小样本问题指由于样本规模较小、有效信息不足,而无法充分揭示样本整体特征的情况。
为了解决小样本问题,相关研究人员提出了众多方法。这些方法主要分为两类:机器学习方法和虚拟样本生成方法。机器学习方法包括支持向量机、基于灰色理论的方法和贝叶斯网络。作为一种经典的小样本学习算法,支持向量机通过间隔对数据分布进行结构化描述,减少了对样本数目和样本分布的要求,从理论上保证了模型的最大泛化能力。尽管支持向量机及其改进模型被广泛用于解决许多实际问题,但当样本数量十分稀少时,它们的工作性能不佳。基于灰色理论的方法是一种常用的不确定系统建模和分析工具。主要通过从部分已知信息来挖掘数据的深层次信息,弱化系统的随机性,从而使紊乱的原始数据列呈现出某种规律性,揭示了系统内部事物连续发展变化的过程。然而,灰色系统理论适用于呈指数规律变化的单维数据,无法适用于高维数据。同时,基于灰色理论的方法难以处理非等距时间数据列。贝叶斯网络是一种将现有数据与专家判断相结合,不确定知识的推理和表达方法。然而,从一个小样本集中获得贝叶斯网络的结构和参数是非常困难的。同样,其他机器学习方法解决小样本问题的性能也非常有限。
由于机器学习方法的局限性,虚拟样本生成技术作为一种样本扩充方法被提出。虚拟样本生成方法能够根据原始小样本信息生成虚拟样本,有效地扩充数据量,提高识别性能。基于虚拟样本生成的方法是近年来研究的热点。根据虚拟样本生成原理,虚拟样本生成技术通常分为以下三类:(1)基于采样的虚拟样本生成方法;(2)基于信息扩散的虚拟样本生成方法;(3)基于特征表达的虚拟样本生成方法。基于采样的虚拟样本生成方法通过采样分布了解样本的真实分布。此类虚拟样本生成方法的性能取决于能否找到一个合适的分布,这个分布通常由一个参数概率模型来拟合。而对于高维的工业过程数据,学习其样本的联合分布是很困难的。基于信息扩散的虚拟样本生成方法利用信息扩散原理推导扩散函数,并利用模糊理论在一定范围内生成新的样本。然而,扩散函数和扩散系数无法有效地确定,并且没有考虑实际样本的不对称性。基于特征表达的虚拟样本生成方法主要是利用特征提取方法对高维样本进行降维处理,以获得适合处理高维数据的特征空间。与其他两种虚拟样本生成原理相比,基于特征表达的虚拟样本生成思想更适用于处理复杂工业过程中的高维数据。因此,本发明正是基于这一原则展开的。
发明内容
为解决现有技术存在的局限和缺陷,本发明提供一种基于插值算法的虚拟样本生成方法,包括获得数据并进行数据预处理,MDS算法对原始数据进行降维处理,特征空间插值生成虚拟样本,对PTA过程醋酸消耗进行建模;
所述获得数据并进行数据预处理的步骤包括:对现场采集的PTA数据中存在的缺失数据、异常数据和噪声数据进行处理,获得I个训练样本{(Xi,Yi)|i=1,2,…,I},其中Xi=[xi1,xi2,…,xin]代表第i个输入样本,Yi代表输出向量,xin代表第i个输入样本Xi的第n个变量,n个变量分别对应进料醋酸含量、进料流量、水回流量、NBA主回流量、NBA侧线回流量、蒸汽流量、塔顶采出量、进料温度、回流温度、塔顶温度、塔板温度、塔板温度、塔板温度、塔内压力、塔板之间可控温度点、回流罐液位、溶剂脱水塔的操作压力,所述输出向量为溶剂脱水塔塔顶电导率;
所述MDS算法对原始数据进行降维处理的步骤包括:设定I个样本之间的距离在原始空间的距离矩阵为D,获得降维到二维空间的样本矩阵Z的表达式如下:
Figure BDA0002799973880000031
其中,第i个样本和第j个样本在距离矩阵D中距离为dist[i,j],在样本矩阵Z中距离为||Zi-Zj||,dist[i,j]=||Zi-Zj||;
令B=ZTZ,得到
Figure BDA0002799973880000032
获得表达式如下:
Figure BDA0002799973880000033
令所述样本矩阵Z被中心化,获得表达式如下:
Figure BDA0002799973880000034
获得表达式(6)如下:
Figure BDA0002799973880000035
Figure BDA0002799973880000036
Figure BDA0002799973880000037
获得表达式(7)如下:
Figure BDA0002799973880000038
Figure BDA0002799973880000039
Figure BDA0002799973880000041
将表达式(6)和表达式(7)代入表达式(4)得到表达式如下:
Figure BDA0002799973880000042
对所述距离矩阵D进行特征值分解,获得所述样本矩阵Z的表达式如下:
Figure BDA0002799973880000043
根据二维度的样本矩阵Z和距离矩阵D画出输入样本X在二维空间的邻域图。
可选的,所述特征空间插值生成虚拟样本的步骤包括:
根据小样本数据的二维空间邻域图,取相邻节点的路径中点,生成二维空间虚拟样本,得到小样本在二维空间的坐标值;
构建小样本数据二维空间的坐标值到原始空间的真实值的极限学习机,根据构建的极限学习机获得所述原始空间的虚拟样本值Xvir
获取I个不同样本(xi,yi),其中xi=[xi1,xi2,…,xin]T∈Rn;yi=[yi1,yi2,…,yim]T∈Rm,n为网络输入层节点个数,m为网络输出层节点个数,网络具有K个隐含层节点,极限学习机网络的输出的表达式如下:
Figure BDA0002799973880000044
其中,Wk=(wk1,wk2,…,wkn)T是连接第k个隐含层神经元和输入层神经元的权值,βk=(βk1k2,…,βkm)T是连接第k个隐含层神经元和输出层神经元的权值,bk是第k个隐含层神经元的阈值,Wk·xi表示Wk和xi的内积,g(·)为激活函数;
根据
Figure BDA0002799973880000045
获得表达式如下:
Figure BDA0002799973880000046
根据上述I个等式获得表达式如下:
Hβ=Y (12)
其中,
Figure BDA0002799973880000047
为隐含层输出矩阵,
Figure BDA0002799973880000051
随机确定输入权重和阈值,使用极小范数最小二乘解方法计算输出权重,表达式如下:
Figure BDA0002799973880000052
其中,H+为H的广义逆矩阵,y为实际输出;
获得训练好的网络模型,计算所述网络模型的输出,表达式如下:
Figure BDA0002799973880000053
将所述网络模型的输出
Figure BDA0002799973880000054
反归一化,获得所述网络模型的输出值;
构建所述输入样本X到所述输出向量Y的极限学习机网络,输入所述虚拟样本值Xvir,所述网络模型的输出为虚拟样本输出值yvir
可选的,还包括:
对所述训练样本进行归一化处理,所述归一化过程的表达式如下:
Figure BDA0002799973880000055
Figure BDA0002799973880000056
其中,
Figure BDA0002799973880000057
为第n维输入向量的最大值,
Figure BDA0002799973880000058
为第n维输入向量的最小值,
Figure BDA0002799973880000059
Ymin是输出向量Y的最小值,Ymax是输出向量Yi的最大值。
可选的,所述对PTA过程醋酸消耗进行建模的步骤包括:
将虚拟样本(Xvir,Yvir)加入训练样本集中,训练所述输入样本X到所述输出向量Y的极限学习机模型。
本发明具有下述有益效果:
本发明提供的基于插值算法的虚拟样本生成方法,根据数据结构生成虚拟样本,通过多维尺度分析算法实现原始高维数据的降维,根据数据在低维空间的可视化结构生成虚拟样本。本发明通过扩充样本集训练神经网络,可以提高软测量模型的精度和稳定性。本发明提供的基于插值算法的虚拟样本生成方法易于使用而且效果明显,具有优越的泛化性能和较好的稳定性,可以广泛应用于解决化工生产过程中的小样本建模。
附图说明
图1为本发明实施例一提供的精对苯二甲酸反应流程图。
图2为本发明实施例一提供的基于插值算法的虚拟样本生成方法的工作流程图。
图3为本发明实施例一提供的样本邻域图。
图4为本发明实施例一提供的虚拟样本插值图。
图5为本发明实施例一提供的极限学习机网络模型。
具体实施方式
为使本领域的技术人员更好地理解本发明的技术方案,下面结合附图对本发明提供的基于插值算法的虚拟样本生成方法进行详细描述。
实施例一
本实施例提供一种基于插值算法的虚拟样本生成方法,解决化工过程中的小样本问题,以提高化工行业软测量模型的精度。本实施例采用多维尺度分析算法对高维石化产业数据进行降维处理,根据数据在低维空间的可视化结构找到样本稀疏区域,利用插值算法在样本缺失区域生成虚拟样本,通过在软测量模型训练集中添加虚拟样本来提高建模性能。本实施例将实现对化工产业中精对苯二甲酸(Pure Terephthalic Acid,PTA)生产数据的样本扩充和过程建模。实验结果显示,本实施例可以生成有效的虚拟样本,是提高石化过程建模精度的有效工具。
为了在小样本条件下建立精确、鲁棒的软测量模型,本实施例提出了一种基于插值算法的虚拟样本生成方法。该方法在可接受范围内生成可行的虚拟样本,通过在模型训练集中添加虚拟样本来提高建模性能。首先,利用多维尺度分析(multidimensionalscaling,MDS)算法对原始高维数据进行降维。然后,根据低维空间的样本分布图,找到样本稀疏区域,利用中点插值法生成虚拟样本。最后,利用由小样本集和虚拟样本集组成的扩充训练集,建立一个精确的神经网络模型。为了验证本实施例的有效性,以某石化厂的PTA工业中溶剂脱水塔生产装置数据为实际应用对象进行虚拟样本生成和样本扩充,目的是提高软测量建模精度,为减少装置运行过程中塔顶的醋酸消耗和提高PTA生产效益做指导。PTA作为聚醋化工生产中的重要原材料之一,在化学纤维、轻工和电子等领域具有广泛的应用,前景十分广阔。PTA在醋酸溶剂中以醋酸钴和醋酸锰为催化剂,以空气中的氧气为氧化剂,在氧化反应器的液相中发生氧化反应而制成的一种重要有机化工原料。PTA溶剂系统作为PTA生产的重要系统,其分为PTA溶剂脱水塔、再蒸馏器及回流槽三个部分,其中醋酸的消耗量被认为是检验反应体系是否有效的重要指标之一,降低减少醋酸的消耗能够减少生产成本,改善经济效益。仿真结果表明,该发明能有效地解决流程工业中的小样本问题,提高软测量模型的建模性能。
本实施例提供的基于插值算法的虚拟样本生成方法包括:获得数据并进行数据预处理,MDS算法对原始数据进行降维处理,特征空间插值生成虚拟样本点,对PTA过程醋酸消耗进行建模。本发明提供的基于插值算法的虚拟样本生成方法易于使用而且效果明显,具有优越的泛化性能和较好的稳定性。
本实施例中,所述获得数据并进行数据预处理的步骤包括:对现场采集的PTA数据中存在的缺失数据、异常数据和噪声数据进行处理,最终得到I个样本{(Xi,Yi)|i=1,2,…,I},其中Xi=[xi1,xi2,…,xin]代表第i个输入样本;xin代表第i个输入样本Xi的第n个变量,n个变量分别对应PTA生产中进料醋酸含量、进料流量、水回流量、NBA主回流量、NBA侧线回流量、蒸汽流量、塔顶采出量、进料温度、回流温度、塔顶温度、塔板温度、塔板温度、塔板温度、塔内压力、塔板之间可控温度点、回流罐液位、溶剂脱水塔的操作压力;Yi代表输出向量-溶剂脱水塔塔顶电导率,输入输出变量如表1所示。
表1输入变量和输出变量
Figure BDA0002799973880000081
本实施例中,所述MDS算法对原始数据进行降维处理的步骤包括:MDS算法将高维空间中的样本投影到低维空间中,保持样本点彼此之间的相似性尽可能不变,即原始空间中样本之间的距离在低维空间中得以保持。通过MDS算法降维得到输入样本X在二维空间的邻域图,即路径拓扑图。
本实施例中,所述特征空间插值生成虚拟样本的步骤包括:根据样本在低维投影空间的坐标分布,找到样本稀疏区域,利用中点插值方法生成虚拟样本。取相邻节点的路径中点,生成二维空间虚拟样本,得到小样本在二维空间的坐标值。构建小样本数据二维空间的坐标值到原始空间真实值的神经网络,根据构建的神经网络求得原始空间的虚拟样本值。
本实施例中,所述对PTA过程醋酸消耗进行建模的步骤包括:训练ELM网络模型,输入参数可以得到网络预测值,从而可以获得醋酸消耗的测量值。
图1为本发明实施例一提供的精对苯二甲酸反应流程图。本实施例提供的基于插值算法的虚拟样本生成方法,用于扩充PTA生产数据,提高PTA工业生产中醋酸消耗的预测精度,通过扩充样本集训练神经网络,可以提高网络模型的泛化能力和鲁棒性。本实施例可以生成可行的虚拟样本,实现对PTA装置在生产过程中醋酸消耗的精准预测,从而提高装置的生产效率。
图2为本发明实施例一提供的基于插值算法的虚拟样本生成方法的工作流程图。本实施例获得训练样本(X,Y)并对其进行归一化处理,消除量纲对模型的影响。归一化过程如公式(1)和公式(2)所示:
Figure BDA0002799973880000091
Figure BDA0002799973880000092
其中,
Figure BDA0002799973880000093
为第n维输入向量的最大值,
Figure BDA0002799973880000094
为第n维输入向量的最小值,
Figure BDA0002799973880000095
Ymin和Ymax分别是输出向量Y的最小值和最大值。
本实施例提供的MDS算法对原始数据进行降维处理,假设I个样本之间的距离在原始空间的距离矩阵为D,本实施例的目的是获得降维到二维空间的样本矩阵Z,表达式如下:
Figure BDA0002799973880000096
即第i个样本和第j个样本在D中距离为dist[i,j],在Z中为||Zi-Zj||(矩阵第i行减去第j行后的1范数),且dist[i,j]=||Zi-Zj||,令B=ZTZ,则
Figure BDA0002799973880000097
从而得到表达式如下:
Figure BDA0002799973880000098
令样本矩阵Z被中心化,表达式如下:
Figure BDA0002799973880000099
本实施例可以得到表达式(6)如下:
Figure BDA00027999738800000910
Figure BDA00027999738800000911
Figure BDA00027999738800000912
获得表达式(7)如下:
Figure BDA0002799973880000101
Figure BDA0002799973880000102
Figure BDA0002799973880000103
将表达式(6)和表达式(7)代入表达式(4)可以获得表达式如下:
Figure BDA0002799973880000104
对距离矩阵B做特征值分解,则可以获得Z的表达式如下:
Figure BDA0002799973880000105
图3为本发明实施例一提供的样本邻域图。根据二维度的样本矩阵Z及距离矩阵为D画出输入样本X在二维空间的邻域图,即I个样本与其最邻近的k个样本点的连接图,临近样本点个数k选择为10。
图4为本发明实施例一提供的虚拟样本插值图。本实施例提供的特征空间插值生成虚拟样本,根据小样本数据的二维空间邻域图,即路径拓扑图,取相邻节点的路径中点,生成二维空间虚拟样本,可得到小样本在二维空间的坐标值。
图5为本发明实施例一提供的极限学习机网络模型。本实施例构建小样本数据二维空间的坐标值到原始输入空间真实值的神经网络-极限学习机(Extreme LearningMachine,ELM),根据构建的神经网络可求得原始空间的虚拟样本值Xvir。构建的网络模型为2输入、17输出,隐含层节点数为30。
假设有I个不同样本(xi,yi),其中xi=[xi1,xi2,…,xin]T∈Rn;yi=[yi1,yi2,…,yim]T∈Rm,n为输入向量维数即网络输入层节点个数,m为输出向量维数即网络输出层节点个数,网络具有K个隐含层节点,则ELM网络输出表达式如下:
Figure BDA0002799973880000106
其中,Wk=(wk1,wk2,…,wkn)T是连接第k个隐含层神经元和输入层神经元的权值,βk=(βk1k2,…,βkm)T是连接第k个隐含层神经元和输出层神经元的权值,bk是第k个隐含层神经元的阈值。Wk·xi表示Wk和xi的内积,g(·)为激活函数。
拥有K个隐含神经元和激活函数g(·)的ELM可以使得I个样本的近似为零误差,即
Figure BDA0002799973880000111
故有表达式如下:
Figure BDA0002799973880000112
上述I个等式可以概况地写为表达式如下:
Hβ=Y (12)
其中,
Figure BDA0002799973880000113
为隐含层输出矩阵,
Figure BDA0002799973880000114
本实施例随机确定输入权重和阈值,然后使用极小范数最小二乘解法计算输出权重,表达式如下:
Figure BDA0002799973880000115
其中,H+为H的广义逆矩阵,y为实际输出,得到训练好的网络模型,计算网络模型输出,表达式如下:
Figure BDA0002799973880000116
本实施例将
Figure BDA0002799973880000117
反归一化得到网络模型的输出值。
本实施例构建样本输入X到输出Y的ELM网络,即17输入、1输出ELM模型。输入虚拟样本值Xvir,计算网络模型输出即虚拟样本输出值yvir
本实施例对PTA过程醋酸消耗进行建模,挑选合适的虚拟样本(Xvir、yvir)加入训练样本集中,训练17输入、1输出的ELM模型。由表2的模拟结果可知,加入虚拟样本后训练出的软测量模型精度更高。PTA案例说明本实施例可以生成有效的虚拟样本,并且可以用于提升软测梁建模精确性和稳定性。本实施例提供了一种虚拟样本生成方法,解决PTA生产过程的小样本问题,提高软测量建模精度,提高生产效益。
表2实验模拟结果
Figure BDA0002799973880000121
本实施例提供一种基于插值算法的虚拟样本生成方法,在样本不平衡和不完全的情况下扩充样本量,提高精对苯二甲酸生产装置软测量建模的精度。本实施例利用多维尺度分析算法获得高维原始样本在低维空间的投影,根据插值算法在样本稀疏区域生成虚拟样本,最后通过构建极限学习机神经网络获得原始样本空间虚拟样本的值,从而形成虚拟样本生成方法。本实施例通过扩充样本集训练神经网络,可以提高软测量模型的精度和稳定性。本实施例提供的基于插值算法的虚拟样本生成方法易于使用而且效果明显,具有优越的泛化性能和较好的稳定性,可以广泛应用于解决化工生产过程中的小样本建模。
可以理解的是,以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式,然而本发明并不局限于此。对于本领域内的普通技术人员而言,在不脱离本发明的精神和实质的情况下,可以做出各种变型和改进,这些变型和改进也视为本发明的保护范围。

Claims (4)

1.一种基于插值算法的虚拟样本生成方法,其特征在于,包括获得数据并进行数据预处理,MDS算法对原始数据进行降维处理,特征空间插值生成虚拟样本,对PTA过程醋酸消耗进行建模;
所述获得数据并进行数据预处理的步骤包括:对现场采集的PTA数据中存在的缺失数据、异常数据和噪声数据进行处理,获得I个训练样本{(Xi,Yi)|i=1,2,…,I},其中Xi=[xi1,xi2,…,xin]代表第i个输入样本,Yi代表输出向量,xin代表第i个输入样本Xi的第n个变量,n个变量分别对应进料醋酸含量、进料流量、水回流量、NBA主回流量、NBA侧线回流量、蒸汽流量、塔顶采出量、进料温度、回流温度、塔顶温度、塔板温度、塔板温度、塔板温度、塔内压力、塔板之间可控温度点、回流罐液位、溶剂脱水塔的操作压力,所述输出向量为溶剂脱水塔塔顶电导率;
所述MDS算法对原始数据进行降维处理的步骤包括:设定I个样本之间的距离在原始空间的距离矩阵为D,获得降维到二维空间的样本矩阵Z的表达式如下:
Figure FDA0002799973870000011
其中,第i个样本和第j个样本在距离矩阵D中距离为dist[i,j],在样本矩阵Z中距离为||Zi-Zj||,dist[i,j]=||Zi-Zj||;
令B=ZTZ,得到
Figure FDA0002799973870000012
获得表达式如下:
Figure FDA0002799973870000013
令所述样本矩阵Z被中心化,获得表达式如下:
Figure FDA0002799973870000014
获得表达式(6)如下:
Figure FDA0002799973870000015
Figure FDA0002799973870000016
Figure FDA0002799973870000017
获得表达式(7)如下:
Figure FDA0002799973870000021
Figure FDA0002799973870000022
Figure FDA0002799973870000023
将表达式(6)和表达式(7)代入表达式(4)得到表达式如下:
Figure FDA0002799973870000024
对所述距离矩阵D进行特征值分解,获得所述样本矩阵Z的表达式如下:
Figure FDA0002799973870000025
根据二维度的样本矩阵Z和距离矩阵D画出输入样本X在二维空间的邻域图。
2.根据权利要求1所述的基于插值算法的虚拟样本生成方法,其特征在于,所述特征空间插值生成虚拟样本的步骤包括:
根据小样本数据的二维空间邻域图,取相邻节点的路径中点,生成二维空间虚拟样本,得到小样本在二维空间的坐标值;
构建小样本数据二维空间的坐标值到原始空间的真实值的极限学习机,根据构建的极限学习机获得所述原始空间的虚拟样本值Xvir
获取I个不同样本(xi,yi),其中xi=[xi1,xi2,…,xin]T∈Rn;yi=[yi1,yi2,…,yim]T∈Rm,n为网络输入层节点个数,m为网络输出层节点个数,网络具有K个隐含层节点,极限学习机网络的输出的表达式如下:
Figure FDA0002799973870000026
其中,Wk=(wk1,wk2,…,wkn)T是连接第k个隐含层神经元和输入层神经元的权值,βk=(βk1k2,…,βkm)T是连接第k个隐含层神经元和输出层神经元的权值,bk是第k个隐含层神经元的阈值,Wk·xi表示Wk和xi的内积,g(·)为激活函数;
根据
Figure FDA0002799973870000031
获得表达式如下:
Figure FDA0002799973870000032
根据上述I个等式获得表达式如下:
Hβ=Y (12)
其中,
Figure FDA0002799973870000033
为隐含层输出矩阵,
Figure FDA0002799973870000034
随机确定输入权重和阈值,使用极小范数最小二乘解方法计算输出权重,表达式如下:
Figure FDA0002799973870000035
其中,H+为H的广义逆矩阵,y为实际输出;
获得训练好的网络模型,计算所述网络模型的输出,表达式如下:
Figure FDA0002799973870000036
将所述网络模型的输出
Figure FDA0002799973870000037
反归一化,获得所述网络模型的输出值;
构建所述输入样本X到所述输出向量Y的极限学习机网络,输入所述虚拟样本值Xvir,所述网络模型的输出为虚拟样本输出值yvir
3.根据权利要求1所述的基于插值算法的虚拟样本生成方法,其特征在于,还包括:
对所述训练样本进行归一化处理,所述归一化过程的表达式如下:
Figure FDA0002799973870000038
Figure FDA0002799973870000039
其中,
Figure FDA00027999738700000310
为第n维输入向量的最大值,
Figure FDA00027999738700000311
为第n维输入向量的最小值,
Figure FDA00027999738700000312
Ymin是输出向量Y的最小值,Ymax是输出向量Yi的最大值。
4.根据权利要求1所述的基于插值算法的虚拟样本生成方法,其特征在于,所述对PTA过程醋酸消耗进行建模的步骤包括:
将虚拟样本(Xvir,Yvir)加入训练样本集中,训练所述输入样本X到所述输出向量Y的极限学习机模型。
CN202011346109.2A 2020-11-25 2020-11-25 一种基于插值算法的虚拟样本生成方法 Active CN112580692B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011346109.2A CN112580692B (zh) 2020-11-25 2020-11-25 一种基于插值算法的虚拟样本生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011346109.2A CN112580692B (zh) 2020-11-25 2020-11-25 一种基于插值算法的虚拟样本生成方法

Publications (2)

Publication Number Publication Date
CN112580692A true CN112580692A (zh) 2021-03-30
CN112580692B CN112580692B (zh) 2024-04-02

Family

ID=75123853

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011346109.2A Active CN112580692B (zh) 2020-11-25 2020-11-25 一种基于插值算法的虚拟样本生成方法

Country Status (1)

Country Link
CN (1) CN112580692B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113822257A (zh) * 2021-11-24 2021-12-21 航天智控(北京)监测技术有限公司 一种基于无量纲特征结合虚拟样本的异常点检测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170161606A1 (en) * 2015-12-06 2017-06-08 Beijing University Of Technology Clustering method based on iterations of neural networks
CN107067080A (zh) * 2016-12-05 2017-08-18 哈尔滨理工大学 基于核极限学习机的泄露气体监测浓度数据虚拟扩展方法
CN110188875A (zh) * 2019-04-16 2019-08-30 中国农业大学 一种小样本数据预测方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170161606A1 (en) * 2015-12-06 2017-06-08 Beijing University Of Technology Clustering method based on iterations of neural networks
CN107067080A (zh) * 2016-12-05 2017-08-18 哈尔滨理工大学 基于核极限学习机的泄露气体监测浓度数据虚拟扩展方法
CN110188875A (zh) * 2019-04-16 2019-08-30 中国农业大学 一种小样本数据预测方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
贺彦林;王晓;朱群雄;: "基于主成分分析-改进的极限学习机方法的精对苯二甲酸醋酸含量软测量", 控制理论与应用, no. 01, 15 January 2015 (2015-01-15) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113822257A (zh) * 2021-11-24 2021-12-21 航天智控(北京)监测技术有限公司 一种基于无量纲特征结合虚拟样本的异常点检测方法
CN113822257B (zh) * 2021-11-24 2022-06-07 航天智控(北京)监测技术有限公司 一种基于无量纲特征结合虚拟样本的异常点检测方法

Also Published As

Publication number Publication date
CN112580692B (zh) 2024-04-02

Similar Documents

Publication Publication Date Title
Xie et al. Supervised variational autoencoders for soft sensor modeling with missing data
CN109242223B (zh) 城市公共建筑火灾风险的量子支持向量机评估与预测方法
CN105425583B (zh) 基于协同训练lwpls的青霉素生产过程的控制方法
Li et al. Development of semi-supervised multiple-output soft-sensors with Co-training and tri-training MPLS and MRVM
Li et al. A new method of identification of complex lithologies and reservoirs: task-driven data mining
Tang et al. A new active learning strategy for soft sensor modeling based on feature reconstruction and uncertainty evaluation
CN108520310A (zh) 基于G-L混合噪声特性v-支持向量回归机的风速预报方法
Kong et al. Deep PLS: A lightweight deep learning model for interpretable and efficient data analytics
Zheng et al. Improved mahalanobis distance based JITL-LSTM soft sensor for multiphase batch processes
Li et al. Development of a Novel Soft Sensor with Long Short‐Term Memory Network and Normalized Mutual Information Feature Selection
CN112580692B (zh) 一种基于插值算法的虚拟样本生成方法
He et al. Progress in prediction of remaining useful life of hydrogen fuel cells based on deep learning
Xiao et al. Distributed semisupervised HMM for dynamic inferential sensor development
CN106405683A (zh) 基于g‑l混合噪声特性核岭回归技术的风速预报方法及装置
Li et al. Data cleaning method for the process of acid production with flue gas based on improved random forest
CN114239397A (zh) 基于动态特征提取与局部加权深度学习的软测量建模方法
Han et al. Filter transfer learning algorithm for missing data imputation in wastewater treatment process
CN1327376C (zh) 基于支持向量机的软测量仪表建模方法
Chen et al. Multimodal process monitoring based on transition-constrained Gaussian mixture model
CN117455536A (zh) 基于误差补偿的短期煤价预测方法及系统
Smith et al. Multi-objective evolutionary recurrent neural network ensemble for prediction of computational fluid dynamic simulations
Qi et al. Using stacked auto-encoder and bi-directional LSTM for batch process quality prediction
Chen et al. An Improved Deep Kernel Partial Least Squares and Its Application to Industrial Data Modeling
CN116720743A (zh) 基于数据聚类和机器学习的碳排放测算方法
CN116665039A (zh) 基于两阶段因果干预的小样本目标识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant