CN112580692A

CN112580692A - 一种基于插值算法的虚拟样本生成方法

Info

Publication number: CN112580692A
Application number: CN202011346109.2A
Authority: CN
Inventors: 朱群雄; 张晓晗; 贺彦林; 徐圆; 张洋
Original assignee: Beijing University of Chemical Technology
Current assignee: Beijing University of Chemical Technology
Priority date: 2020-11-25
Filing date: 2020-11-25
Publication date: 2021-03-30
Anticipated expiration: 2040-11-25
Also published as: CN112580692B

Abstract

本发明公开了一种基于插值算法的虚拟样本生成方法，在样本不平衡和不完全的情况下扩充样本量，提高精对苯二甲酸生产装置软测量建模的精度。本发明利用多维尺度分析算法获得高维原始样本在低维空间的投影，根据插值算法在样本稀疏区域生成虚拟样本，最后通过构建极限学习机神经网络获得原始样本空间虚拟样本的值，从而形成虚拟样本生成方法。本发明通过扩充样本集训练神经网络，可以提高软测量模型的精度和稳定性。本发明提供的基于插值算法的虚拟样本生成方法易于使用而且效果明显，具有优越的泛化性能和较好的稳定性，可以广泛应用于解决化工生产过程中的小样本建模。

Description

一种基于插值算法的虚拟样本生成方法

技术领域

本发明涉及精对苯二甲酸生产技术领域，尤其涉及一种基于插值算法的虚拟样本生成方法。

背景技术

随着数据驱动方法在现代过程工业中被广泛应用于建立软测量模型，许多利用采集数据集来学习数据趋势的算法被提出。充分的有效样本和均匀的样本分布是建立精确的数据驱动模型的两个关键要求。充分的有效样本为提高软测量模型的精度和鲁棒性提供了保障。在现代流程工业中，有效样本难以获取的主要原因有：一、由于流程工业过程稳定、波动性小，难以采集到大量具有代表性的数据；二、由于采集到的数据通常具有缺失值、非线性和随机噪声等特点，难以提取出大量的有价值信息。由于样本量不充足和样本分布不均匀，建立精确、稳定的数据驱动模型比较困难，此类问题被视为小样本问题。小样本问题指由于样本规模较小、有效信息不足，而无法充分揭示样本整体特征的情况。

为了解决小样本问题，相关研究人员提出了众多方法。这些方法主要分为两类：机器学习方法和虚拟样本生成方法。机器学习方法包括支持向量机、基于灰色理论的方法和贝叶斯网络。作为一种经典的小样本学习算法，支持向量机通过间隔对数据分布进行结构化描述，减少了对样本数目和样本分布的要求，从理论上保证了模型的最大泛化能力。尽管支持向量机及其改进模型被广泛用于解决许多实际问题，但当样本数量十分稀少时，它们的工作性能不佳。基于灰色理论的方法是一种常用的不确定系统建模和分析工具。主要通过从部分已知信息来挖掘数据的深层次信息，弱化系统的随机性，从而使紊乱的原始数据列呈现出某种规律性，揭示了系统内部事物连续发展变化的过程。然而，灰色系统理论适用于呈指数规律变化的单维数据，无法适用于高维数据。同时，基于灰色理论的方法难以处理非等距时间数据列。贝叶斯网络是一种将现有数据与专家判断相结合，不确定知识的推理和表达方法。然而，从一个小样本集中获得贝叶斯网络的结构和参数是非常困难的。同样，其他机器学习方法解决小样本问题的性能也非常有限。

由于机器学习方法的局限性，虚拟样本生成技术作为一种样本扩充方法被提出。虚拟样本生成方法能够根据原始小样本信息生成虚拟样本，有效地扩充数据量，提高识别性能。基于虚拟样本生成的方法是近年来研究的热点。根据虚拟样本生成原理，虚拟样本生成技术通常分为以下三类：(1)基于采样的虚拟样本生成方法；(2)基于信息扩散的虚拟样本生成方法；(3)基于特征表达的虚拟样本生成方法。基于采样的虚拟样本生成方法通过采样分布了解样本的真实分布。此类虚拟样本生成方法的性能取决于能否找到一个合适的分布，这个分布通常由一个参数概率模型来拟合。而对于高维的工业过程数据，学习其样本的联合分布是很困难的。基于信息扩散的虚拟样本生成方法利用信息扩散原理推导扩散函数，并利用模糊理论在一定范围内生成新的样本。然而，扩散函数和扩散系数无法有效地确定，并且没有考虑实际样本的不对称性。基于特征表达的虚拟样本生成方法主要是利用特征提取方法对高维样本进行降维处理，以获得适合处理高维数据的特征空间。与其他两种虚拟样本生成原理相比，基于特征表达的虚拟样本生成思想更适用于处理复杂工业过程中的高维数据。因此，本发明正是基于这一原则展开的。

发明内容

为解决现有技术存在的局限和缺陷，本发明提供一种基于插值算法的虚拟样本生成方法，包括获得数据并进行数据预处理，MDS算法对原始数据进行降维处理，特征空间插值生成虚拟样本，对PTA过程醋酸消耗进行建模；

所述获得数据并进行数据预处理的步骤包括：对现场采集的PTA数据中存在的缺失数据、异常数据和噪声数据进行处理，获得I个训练样本{(X_i,Y_i)|i＝1,2,…,I}，其中X_i＝[x_i1,x_i2,…,x_in]代表第i个输入样本，Y_i代表输出向量，x_in代表第i个输入样本X_i的第n个变量，n个变量分别对应进料醋酸含量、进料流量、水回流量、NBA主回流量、NBA侧线回流量、蒸汽流量、塔顶采出量、进料温度、回流温度、塔顶温度、塔板温度、塔板温度、塔板温度、塔内压力、塔板之间可控温度点、回流罐液位、溶剂脱水塔的操作压力，所述输出向量为溶剂脱水塔塔顶电导率；

所述MDS算法对原始数据进行降维处理的步骤包括：设定I个样本之间的距离在原始空间的距离矩阵为D，获得降维到二维空间的样本矩阵Z的表达式如下：

其中，第i个样本和第j个样本在距离矩阵D中距离为dist[i,j]，在样本矩阵Z中距离为||Z_i-Z_j||，dist[i,j]＝||Z_i-Z_j||；

令B＝Z^TZ，得到

获得表达式如下：

令所述样本矩阵Z被中心化，获得表达式如下：

获得表达式(6)如下：

获得表达式(7)如下：

将表达式(6)和表达式(7)代入表达式(4)得到表达式如下：

对所述距离矩阵D进行特征值分解，获得所述样本矩阵Z的表达式如下：

根据二维度的样本矩阵Z和距离矩阵D画出输入样本X在二维空间的邻域图。

可选的，所述特征空间插值生成虚拟样本的步骤包括：

根据小样本数据的二维空间邻域图，取相邻节点的路径中点，生成二维空间虚拟样本，得到小样本在二维空间的坐标值；

构建小样本数据二维空间的坐标值到原始空间的真实值的极限学习机，根据构建的极限学习机获得所述原始空间的虚拟样本值X_vir；

获取I个不同样本(x_i,y_i)，其中x_i＝[x_i1,x_i2,…,x_in]^T∈Rⁿ；y_i＝[y_i1,y_i2,…,y_im]^T∈R^m，n为网络输入层节点个数，m为网络输出层节点个数，网络具有K个隐含层节点，极限学习机网络的输出的表达式如下：

其中，W_k＝(w_k1,w_k2,…,w_kn)^T是连接第k个隐含层神经元和输入层神经元的权值，β_k＝(β_k1,β_k2,…,β_km)^T是连接第k个隐含层神经元和输出层神经元的权值，b_k是第k个隐含层神经元的阈值，W_k·x_i表示W_k和x_i的内积，g(·)为激活函数；

根据

获得表达式如下：

根据上述I个等式获得表达式如下：

Hβ＝Y (12)

其中，

为隐含层输出矩阵，

随机确定输入权重和阈值，使用极小范数最小二乘解方法计算输出权重，表达式如下：

其中，H⁺为H的广义逆矩阵，y为实际输出；

获得训练好的网络模型，计算所述网络模型的输出，表达式如下：

将所述网络模型的输出

反归一化，获得所述网络模型的输出值；

构建所述输入样本X到所述输出向量Y的极限学习机网络，输入所述虚拟样本值X_vir，所述网络模型的输出为虚拟样本输出值y_vir。

可选的，还包括：

对所述训练样本进行归一化处理，所述归一化过程的表达式如下：

其中，

为第n维输入向量的最大值，

为第n维输入向量的最小值，

Y_min是输出向量Y的最小值，Y_max是输出向量Y_i的最大值。

可选的，所述对PTA过程醋酸消耗进行建模的步骤包括：

将虚拟样本(X_vir,Y_vir)加入训练样本集中，训练所述输入样本X到所述输出向量Y的极限学习机模型。

本发明具有下述有益效果：

本发明提供的基于插值算法的虚拟样本生成方法，根据数据结构生成虚拟样本，通过多维尺度分析算法实现原始高维数据的降维，根据数据在低维空间的可视化结构生成虚拟样本。本发明通过扩充样本集训练神经网络，可以提高软测量模型的精度和稳定性。本发明提供的基于插值算法的虚拟样本生成方法易于使用而且效果明显，具有优越的泛化性能和较好的稳定性，可以广泛应用于解决化工生产过程中的小样本建模。

附图说明

图1为本发明实施例一提供的精对苯二甲酸反应流程图。

图2为本发明实施例一提供的基于插值算法的虚拟样本生成方法的工作流程图。

图3为本发明实施例一提供的样本邻域图。

图4为本发明实施例一提供的虚拟样本插值图。

图5为本发明实施例一提供的极限学习机网络模型。

具体实施方式

为使本领域的技术人员更好地理解本发明的技术方案，下面结合附图对本发明提供的基于插值算法的虚拟样本生成方法进行详细描述。

实施例一

本实施例提供一种基于插值算法的虚拟样本生成方法，解决化工过程中的小样本问题，以提高化工行业软测量模型的精度。本实施例采用多维尺度分析算法对高维石化产业数据进行降维处理，根据数据在低维空间的可视化结构找到样本稀疏区域，利用插值算法在样本缺失区域生成虚拟样本，通过在软测量模型训练集中添加虚拟样本来提高建模性能。本实施例将实现对化工产业中精对苯二甲酸(Pure Terephthalic Acid，PTA)生产数据的样本扩充和过程建模。实验结果显示，本实施例可以生成有效的虚拟样本，是提高石化过程建模精度的有效工具。

为了在小样本条件下建立精确、鲁棒的软测量模型，本实施例提出了一种基于插值算法的虚拟样本生成方法。该方法在可接受范围内生成可行的虚拟样本，通过在模型训练集中添加虚拟样本来提高建模性能。首先，利用多维尺度分析(multidimensionalscaling，MDS)算法对原始高维数据进行降维。然后，根据低维空间的样本分布图，找到样本稀疏区域，利用中点插值法生成虚拟样本。最后，利用由小样本集和虚拟样本集组成的扩充训练集，建立一个精确的神经网络模型。为了验证本实施例的有效性，以某石化厂的PTA工业中溶剂脱水塔生产装置数据为实际应用对象进行虚拟样本生成和样本扩充，目的是提高软测量建模精度，为减少装置运行过程中塔顶的醋酸消耗和提高PTA生产效益做指导。PTA作为聚醋化工生产中的重要原材料之一，在化学纤维、轻工和电子等领域具有广泛的应用，前景十分广阔。PTA在醋酸溶剂中以醋酸钴和醋酸锰为催化剂，以空气中的氧气为氧化剂，在氧化反应器的液相中发生氧化反应而制成的一种重要有机化工原料。PTA溶剂系统作为PTA生产的重要系统，其分为PTA溶剂脱水塔、再蒸馏器及回流槽三个部分，其中醋酸的消耗量被认为是检验反应体系是否有效的重要指标之一，降低减少醋酸的消耗能够减少生产成本，改善经济效益。仿真结果表明，该发明能有效地解决流程工业中的小样本问题，提高软测量模型的建模性能。

本实施例提供的基于插值算法的虚拟样本生成方法包括：获得数据并进行数据预处理，MDS算法对原始数据进行降维处理，特征空间插值生成虚拟样本点，对PTA过程醋酸消耗进行建模。本发明提供的基于插值算法的虚拟样本生成方法易于使用而且效果明显，具有优越的泛化性能和较好的稳定性。

本实施例中，所述获得数据并进行数据预处理的步骤包括：对现场采集的PTA数据中存在的缺失数据、异常数据和噪声数据进行处理，最终得到I个样本{(X_i,Y_i)|i＝1,2,…,I}，其中X_i＝[x_i1,x_i2,…,x_in]代表第i个输入样本；x_in代表第i个输入样本X_i的第n个变量，n个变量分别对应PTA生产中进料醋酸含量、进料流量、水回流量、NBA主回流量、NBA侧线回流量、蒸汽流量、塔顶采出量、进料温度、回流温度、塔顶温度、塔板温度、塔板温度、塔板温度、塔内压力、塔板之间可控温度点、回流罐液位、溶剂脱水塔的操作压力；Y_i代表输出向量-溶剂脱水塔塔顶电导率，输入输出变量如表1所示。

表1输入变量和输出变量

本实施例中，所述MDS算法对原始数据进行降维处理的步骤包括：MDS算法将高维空间中的样本投影到低维空间中，保持样本点彼此之间的相似性尽可能不变，即原始空间中样本之间的距离在低维空间中得以保持。通过MDS算法降维得到输入样本X在二维空间的邻域图，即路径拓扑图。

本实施例中，所述特征空间插值生成虚拟样本的步骤包括：根据样本在低维投影空间的坐标分布，找到样本稀疏区域，利用中点插值方法生成虚拟样本。取相邻节点的路径中点，生成二维空间虚拟样本，得到小样本在二维空间的坐标值。构建小样本数据二维空间的坐标值到原始空间真实值的神经网络，根据构建的神经网络求得原始空间的虚拟样本值。

本实施例中，所述对PTA过程醋酸消耗进行建模的步骤包括：训练ELM网络模型，输入参数可以得到网络预测值，从而可以获得醋酸消耗的测量值。

图1为本发明实施例一提供的精对苯二甲酸反应流程图。本实施例提供的基于插值算法的虚拟样本生成方法，用于扩充PTA生产数据，提高PTA工业生产中醋酸消耗的预测精度，通过扩充样本集训练神经网络，可以提高网络模型的泛化能力和鲁棒性。本实施例可以生成可行的虚拟样本，实现对PTA装置在生产过程中醋酸消耗的精准预测，从而提高装置的生产效率。

图2为本发明实施例一提供的基于插值算法的虚拟样本生成方法的工作流程图。本实施例获得训练样本(X,Y)并对其进行归一化处理，消除量纲对模型的影响。归一化过程如公式(1)和公式(2)所示：

其中，

为第n维输入向量的最大值，

为第n维输入向量的最小值，

Y_min和Y_max分别是输出向量Y的最小值和最大值。

本实施例提供的MDS算法对原始数据进行降维处理，假设I个样本之间的距离在原始空间的距离矩阵为D，本实施例的目的是获得降维到二维空间的样本矩阵Z，表达式如下：

即第i个样本和第j个样本在D中距离为dist[i,j]，在Z中为||Z_i-Z_j||(矩阵第i行减去第j行后的1范数)，且dist[i,j]＝||Z_i-Z_j||，令B＝Z^TZ，则

从而得到表达式如下：

令样本矩阵Z被中心化，表达式如下：

本实施例可以得到表达式(6)如下：

获得表达式(7)如下：

将表达式(6)和表达式(7)代入表达式(4)可以获得表达式如下：

对距离矩阵B做特征值分解，则可以获得Z的表达式如下：

图3为本发明实施例一提供的样本邻域图。根据二维度的样本矩阵Z及距离矩阵为D画出输入样本X在二维空间的邻域图，即I个样本与其最邻近的k个样本点的连接图，临近样本点个数k选择为10。

图4为本发明实施例一提供的虚拟样本插值图。本实施例提供的特征空间插值生成虚拟样本，根据小样本数据的二维空间邻域图，即路径拓扑图，取相邻节点的路径中点，生成二维空间虚拟样本，可得到小样本在二维空间的坐标值。

图5为本发明实施例一提供的极限学习机网络模型。本实施例构建小样本数据二维空间的坐标值到原始输入空间真实值的神经网络-极限学习机(Extreme LearningMachine,ELM)，根据构建的神经网络可求得原始空间的虚拟样本值X_vir。构建的网络模型为2输入、17输出，隐含层节点数为30。

假设有I个不同样本(x_i,y_i)，其中x_i＝[x_i1,x_i2,…,x_in]^T∈Rⁿ；y_i＝[y_i1,y_i2,…,y_im]^T∈R^m，n为输入向量维数即网络输入层节点个数，m为输出向量维数即网络输出层节点个数，网络具有K个隐含层节点，则ELM网络输出表达式如下：

其中，W_k＝(w_k1,w_k2,…,w_kn)^T是连接第k个隐含层神经元和输入层神经元的权值，β_k＝(β_k1,β_k2,…,β_km)^T是连接第k个隐含层神经元和输出层神经元的权值，b_k是第k个隐含层神经元的阈值。W_k·x_i表示W_k和x_i的内积，g(·)为激活函数。

拥有K个隐含神经元和激活函数g(·)的ELM可以使得I个样本的近似为零误差，即

故有表达式如下：

上述I个等式可以概况地写为表达式如下：

Hβ＝Y (12)

其中，

为隐含层输出矩阵，

本实施例随机确定输入权重和阈值，然后使用极小范数最小二乘解法计算输出权重，表达式如下：

其中，H⁺为H的广义逆矩阵，y为实际输出，得到训练好的网络模型，计算网络模型输出，表达式如下：

本实施例将

反归一化得到网络模型的输出值。

本实施例构建样本输入X到输出Y的ELM网络，即17输入、1输出ELM模型。输入虚拟样本值X_vir，计算网络模型输出即虚拟样本输出值y_vir。

本实施例对PTA过程醋酸消耗进行建模，挑选合适的虚拟样本(X_vir、y_vir)加入训练样本集中，训练17输入、1输出的ELM模型。由表2的模拟结果可知，加入虚拟样本后训练出的软测量模型精度更高。PTA案例说明本实施例可以生成有效的虚拟样本，并且可以用于提升软测梁建模精确性和稳定性。本实施例提供了一种虚拟样本生成方法，解决PTA生产过程的小样本问题，提高软测量建模精度，提高生产效益。

表2实验模拟结果

本实施例提供一种基于插值算法的虚拟样本生成方法，在样本不平衡和不完全的情况下扩充样本量，提高精对苯二甲酸生产装置软测量建模的精度。本实施例利用多维尺度分析算法获得高维原始样本在低维空间的投影，根据插值算法在样本稀疏区域生成虚拟样本，最后通过构建极限学习机神经网络获得原始样本空间虚拟样本的值，从而形成虚拟样本生成方法。本实施例通过扩充样本集训练神经网络，可以提高软测量模型的精度和稳定性。本实施例提供的基于插值算法的虚拟样本生成方法易于使用而且效果明显，具有优越的泛化性能和较好的稳定性，可以广泛应用于解决化工生产过程中的小样本建模。

可以理解的是，以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式，然而本发明并不局限于此。对于本领域内的普通技术人员而言，在不脱离本发明的精神和实质的情况下，可以做出各种变型和改进，这些变型和改进也视为本发明的保护范围。