CN103226728B

CN103226728B - 高密度聚乙烯串级聚合反应过程智能检测与收率优化方法

Info

Publication number: CN103226728B
Application number: CN201310117161.4A
Authority: CN
Inventors: 徐圆; 朱群雄; 彭荻; 陈彦京; 贺彦林; 叶亮亮; 耿志强; 林晓勇; 李芳�; 史晟辉
Original assignee: Beijing University of Chemical Technology
Current assignee: Beijing University of Chemical Technology
Priority date: 2013-04-07
Filing date: 2013-04-07
Publication date: 2016-04-13
Anticipated expiration: 2033-04-07
Also published as: CN103226728A

Abstract

针对高密度聚乙烯（HDPE）串级聚合反应过程工艺复杂、关键质量变量在线测量困难、生产过程操作成本高等问题，本发明采用数据校正、数据挖掘技术开展数据预处理，从生产与分析数据中寻找规律；采用人工神经网络技术，建立智能软测量仪表与聚乙烯产品单耗模型；采用可拓工程技术，优化人工神经网络结构，提高神经网络建模精度，最终形成了一套HDPE反应过程智能检测与收率优化方法。该发明具有响应时间快、建模精度高、推理能力强、管理方便的特点，为保证HDPE生产的安全进行、提高聚合物产品质量、节约生产成本提供了帮助。

Description

高密度聚乙烯串级聚合反应过程智能检测与收率优化方法

技术领域

本发明是以高密度聚乙烯(HighDensityPolyethylene，HDPE)串级聚合反应过程为对象，以二反应器熔融指数软测量和聚乙烯产品单耗为目标，提出的一种包括复杂过程工业数据在线预处理、极限学习机(ExtremeLearningMachine，ELM)算法和可拓聚类算法的ELM神经网络集成(ELM-E)技术。

背景技术

随着高分子材料科学技术的飞跃进步，生产工艺的不断改进，在管道领域发生了一场革命性的进步，即“以塑代钢”。在这场革命中，高密度聚乙烯管道因其具有极高的机械强度及高速的加工性能而倍受青睐，目前已广泛用于燃气输送、给水、排污、农业灌溉、矿山细颗粒固体输送，以及油田、化工和邮电通讯等领域，特别在燃气输送上得到了普遍的应用。但是由于HDPE生产系统复杂的工艺结构，采用过程建模与模拟技术、先进控制与优化技术、生产监控与安全技术成为了降低生产成本、提高生产操作水平、消除装置“瓶颈”成为提高企业经济效益的主要手段，其中应用过程建模、控制与优化技术以指导生产装置操作已成为我国聚乙烯生产企业的迫切需求。因此，研究应用先进技术进行HDPE生产过程参数的智能检测以及产品单耗的优化操作，具有重要的理论意义和实际应用价值。

人工神经网络是一种基于数据驱动的自适应方法，其根据过程所提供的数据，通过学习和训练，找出输入和输出之间的内在联系，从而在建模实现问题上有着极强的适应性和灵活性。神经网络由于不依靠过程的先验知识和规则，并且具有非线性逼近能力强的特点，因而被广泛用于化工过程中的参数估计、操作过程优化以及过程系统控制中。其中，极限学习机(ExtremeLearningMachine，ELM)是针对大多数神经网络学习算法存在着收敛速度慢、容易陷入局部极小等问题，所提出的一类针对单隐含层前馈神经网络的快速参数训练算法。但是由于ELM学习算法的输入层权值是随机产生的，这些权值并不是最优的，因此可能会降低单个ELM神经网络的拟合精度。为了提高ELM神经网络的拟合精度，需要将多个训练好的ELM神经网络进行集成，并从中选择拟合精度高的神经网络组合作为最后的输出。

发明内容

本发明的目的在于：克服HDPE串级聚合反应生产过程缺乏在线测量手段、聚乙烯生产成本高的困难，将人工神经网络应用于工业领域，分别构建基于ELM神经网络集成(ELM-E)技术的二反应器熔融指数模型和聚乙烯产品单耗模型，提出方便、可靠、高效的HDPE过程优化操作方法，为企业提高生产效率、节约生产成本提供技术支撑。

本发明提供了一种用于高密度聚乙烯(HDPE)串级聚合反应的智能检测与收率优化方法，其特征在于，所述方法包括：数据预处理过程、样本选取过程、个体神经网络建模过程、和基于可拓聚类的个体神经网络集成过程，其中：

所述数据预处理过程为：对现场采集的HDPE聚合反应数据中存在的缺失数据、异常数据和噪声数据进行处理，并将所处理后的数据作为二反应器熔融指数模型和聚乙烯产品单耗模型的训练数据；

所述的样本选取过程为：将数据预处理后的训练数据分为用于个体神经网络建模的训练样本和用于神经网络集成的验证样本，并对所划分的训练样本采用Bootstrap方法进行重复抽样，获得带有差异度的个体神经网络的训练样本；

所述的个体神经网络建模过程为：采用极限学习机(ELM)算法快速完成个体神经网络的训练；其中，在ELM建模过程中，通过设置个体神经网络的训练标准，以减少随机选取的输入层权值所带来的训练误差；

所述的个体神经网络集成过程为：采用可拓聚类算法对个体神经网络的输出进行聚类，并将聚类后获得的差异度较大的个体神经网络进行集成以作为基于ELM神经网络集成(ELM-E)模型的最终输出。

本发明与现有技术相比的创新点在于：

(1)本发明提供了一种新型的神经网络参数学习算法——极限学习机(ExtremeLearningMachine，ELM)算法，该算法可以在随机选择输入层权值的前提下，利用Moore-Penrose广义逆解析求出输出层权值，同时还可以保证网络的泛化能力。与传统的BP神经网络、RBF神经网络相比，ELM学习算法具有学习速度快、可调参数少、不会出现局部极值等许多优良特性，为高密度聚乙烯生产过程建模与优化提供了新思路。

(2)本发明针对在单个ELM神经网络中随机产生输入层权值会降低网络拟合精度的问题，采用不同的输入层权值，训练多个ELM神经网络，再从多个训练ELM神经网络中选择差异度大的网络，并将所挑选出的ELM神经网络的输出取平均以作为最终集成后的神经网络输出。本发明将集成的ELM神经网络应用于高密度聚乙烯生产过程中的参数智能检测和基于产品单耗的操作优化，不但可以实现参数的快速在线检测，而且也可以提高参数检测的准确率和产品的产率。

(3)为了进一步提高ELM-E模型的精度，本发明还提供了基于可拓聚类算法的个体网络集成策略。可拓聚类算法是一种基于可拓集合的算法。该算法定义了一种多维基元间的可拓距离，这种距离可以较好地表达一个数据隶属于某区间的程度。并且，该算法相对于其他聚类算法有如下优点：无需初始设置预期聚类的数目、算法收敛快、以及时间消耗少。本发明将可拓聚类算法运用到个体网络的输出空间中，可以实现个体网络的差异度划分，从而进一步提高集成网络的精度。

(4)本发明以生产牌号为9455F的高密度聚乙烯生产过程为应用研究示例，克服了HDPE生产中的关键质量变量缺乏在线测量手段的问题，节省了生产每吨合格的聚乙烯产品所消耗的乙烯量，并且通过开展基于ELM神经网络集成(ELM-E)技术的应用研究，实现了聚乙烯产品的长周期稳定生产，从而提升了企业的经济效益增长。

附图说明

图1为HDPE串级聚合反应流程图；

图2为神经网络集成结构图；

图3为本发明所述方法的模型结构图；

图4为本发明所述方法的工作流程图；

图5为数据预处理过程的工作流程图；

图6为样本选取过程的工作流程图；

图7为个体神经网络建模过程的工作流程图；

图8为个体神经网络集成过程的工作流程图。

具体实施方式

如图1所示，为HDPE串级聚合反应流程图。反应过程主要是由两个淤浆反应器组成，乙烯以气态通入，溶解于溶剂中并扩散至催化剂颗粒表面，通过搅拌加速反应形成聚乙烯颗粒，并采用稀释剂干燥后产生高密度聚乙烯产品。所生产的HDPE产品，因其价格便宜、性能较好，目前已跃居成为世界需求量第三高的聚烯烃品种，广泛用于薄膜、吹塑、管材等。其中，工业上聚乙烯产品的规格主要根据二反应器熔融指数来区分，由于缺乏在线测量手段，实验室分析一次熔融指数需要花两个小时。显然这种频率存在很大滞后，当发现树脂质量不合格时，大量的废料已经产出，造成了无法挽回的经济损失。聚乙烯单耗是指每吨合格的聚乙烯产品所消耗的乙烯量，它是关系企业效益的一个重要参数，与产品产率成倒数关系。和二反应器熔融指数参数一样，聚乙烯单耗也不能由现场仪表进行实时测量。

如图2所示，为一典型的神经网络集成结构图。在神经网络集成中，假设个体网络的个数为M，每个个体神经网络的训练样本都为{X,Y}，其中X∈R^N×P为神经网络的输入，Y∈R^N×Q为神经网络的期望输出，N为训练样本的数目，P为输入变量的个数，Q为输出变量的个数。对于经过神经网络学习算法训练后，M个个体神经网络的实际输出分别为 (其中，)。因此，所有个体神经网络集成后的输出为：

\hat{Y} = [\begin{matrix} {\hat{y}}_{11} & {\hat{y}}_{1 Q} \\ {\hat{y}}_{21} & {\hat{y}}_{2 Q} \\ {\hat{y}}_{N 1} & {\hat{y}}_{N Q} \end{matrix}] = [\begin{matrix} \frac{1}{M} Σ_{m = 1}^{M} {\hat{y}}_{m_{11}} & \frac{1}{M} Σ_{m = 1}^{M} {\hat{y}}_{m_{1 Q}} \\ \frac{1}{M} Σ_{m = 1}^{M} {\hat{y}}_{m_{21}} & \frac{1}{M} Σ_{m = 1}^{M} {\hat{y}}_{m_{2 Q}} \\ \frac{1}{M} Σ_{m = 1}^{M} {\hat{y}}_{m_{N 1}} & \frac{1}{M} Σ_{m = 1}^{M} {\hat{y}}_{m_{N Q}} \end{matrix}] = \frac{1}{M} Σ_{m = 1}^{M} {\hat{Y}}_{m} - - - (1)

第m个神经网络的训练误差E_m和集成后总的训练误差E分别为：

E_{m} = {({\hat{Y}}_{m} - Y)}^{2} = Σ_{n = 1}^{N} Σ_{q = 1}^{Q} {({\hat{y}}_{m_{n q}} - y_{n q})}^{2} - - - (2)

E = {(\hat{Y} - Y)}^{2} = Σ_{n = 1}^{N} Σ_{q = 1}^{Q} {({\hat{y}}_{n q} - y_{n q})}^{2} - - - (3)

另外，定义第m个神经网络与其他神经网络之间的差异度A_m为：

A_{m} = {({\hat{Y}}_{m} - \hat{Y})}^{2} = Σ_{n = 1}^{N} Σ_{q = 1}^{Q} {({\hat{y}}_{m_{n q}} - {\hat{y}}_{n q})}^{2} - - - (4)

经过以上定义后，可以得到以下关系式：

E = \overset{&OverBar;}{E} - \overset{&OverBar;}{A} = \frac{1}{M} Σ_{m = 1}^{M} E_{m} - \frac{1}{M} Σ_{m = 1}^{M} A_{m} - - - (5)

由式(5)可以看出，集成后总的训练误差E是由每个个体神经网络自身的训练误差E_m和网络之间的差异度A_m共同决定的。为了让训练误差尽可能小，需要在降低每个神经网络自身训练误差E_m的基础上，同时保证网络间的差异度A_m尽可能大。

如图3所示，为本发明所述方法的模型结构图。为了减小每个个体神经网络的训练误差，同时为了保证训练速度足够快，本发明的每个个体神经网络都采用具有相同隐含层神经元个数的单隐含层结构，并采用ELM学习算法进行网络参数训练。此外，为了增大个体神经网络间的差异度，首先对每个神经网络的训练样本集合采用Bootstrap方法进行重复抽样，并以此作为每个个体神经网络的训练样本；其次，对于训练好的M个神经网络的输出空间采用可拓聚类方法进行聚类，并从每个类中选择聚类中心进行集成。

如图4所示，为本发明所述方法的工作流程图。(1)数据预处理过程：该过程主要是在神经网络集成建模之前进行，对现场采样数据中存在的缺失数据、异常数据和噪声数据进行处理，并以时间尺度对采样数据和分析数据(包括二反应器熔融指数、聚乙烯产品单耗)进行匹配。(2)样本选取过程：该过程主要是将预处理后的训练数据分为训练样本集和验证样本集，并采用Bootstrap方法对训练样本集进行重复抽样，从而获得差异度较大的个体神经网络训练样本。(3)个体神经网络建模过程：该过程采用串行方式对所有的个体神经网络分别进行训练，并且引入极限学习机(ELM)训练算法，实现个体神经网络的快速训练，同时在建模过程中设置训练误差标准，保证所训练的个体神经网络有较高的训练精度。(4)基于可拓聚类方法的个体神经网络集成过程：该过程采用可拓聚类算法对个体神经网络的输出进行聚类，从而选择出差异度较大的个体神经网络，并将这些神经网络进行集成以作为ELM-E模型的最终输出。

表1为二反应器熔融指数软测量模型和聚乙烯产品单耗模型的输入输出变量表。在高密度聚乙烯串联生产中，第二反应器中的聚合物实际上是经过“二次混合”的产物，即一部分是由第一反应器生产后移入第二反应器的聚合物，另一部分为第二反应器独自生产的聚合物。因此，影响二反应器熔融指数的因素不仅包括第二反应器自身的物理参数、进出物料的物性和速率，还包括第一反应器的物理参数、进出物料的物性和速率。对影响聚乙烯产品单耗的各种因素进行确定则需要以一段时间内的平均消耗为目标，以聚乙烯反应过程物料平衡和能量平衡方程为依据，并结合实际工程经验。

表1

如图5所示，为数据预处理过程的工作流程图。在HDPE反应过程中，测量仪表的误差、设备故障以及操作过程失误等会造成数据缺失或数据误差超过一定范围。本发明采用最近距离法处理缺失数据，采用绝对均值法修正异常数据，采用滑动均值法去除采集数据中存在的噪声。此外，对于v₁～v₁₄共14个现场测量点，每个现场测量点的采样间隔为1分钟，而对二反应器熔融指数和聚乙烯产品单耗的分析间隔为1小时，因此采用固定均值法以实现采样数据和分析数据的时间匹配。具体的预处理过程如下：

(1)缺失数据填充。按照采样间隔读取当前时刻k在第i个测量点的现场采集值v_i(k)，判断当前测量值v_i(k)是否缺失，如果存在缺失值，采用最近距离法补全缺失值，计算公式如下：

v_{i} (k) = \frac{(v_{i} (k_{p}) - v_{i} (k_{q}))}{(k_{p} - k_{q})} * (k - k_{q}) + v_{i} (k_{q}) - - - (6)

其中v_i(k_p)和v_i(k_q)是第i个测量点的采集值中距离k时刻最近的非缺失值，其对应时刻分别为k_p和k_q。

(2)异常数据修正。首先需要判定当前数据是否为异常数据：设定一个以当前时刻为终点且宽度固定为L的滑动窗口，并且计算窗口内所有采样值的均值，计算公式如下：

{\overset{&OverBar;}{v}}_{i} (k) = \frac{1}{L + 1} Σ_{l = - L}^{0} v_{i} (k + l), (i = 1, 2, ..., 14) - - - (7)

其中为滑动窗口内采样值的均值，异常数据的判断如下：

| ν_{i} (k) | > k_{p} * | {\overset{&OverBar;}{v}}_{i} (k) | - - - (8)

其中k_p取经验值为4，若该式成立，表明测量点i在第k个时刻的采集值v_i(k)为异常数据。当判定v_i(k)为异常数据时，需采用上述代替当前时刻采样值v_i(k)。

(3)噪声数据滤波。对于现场采集数据中混有大量的噪声，采用滑动均值算法实现数据滤波去噪。所采用的滑动均值算法，首先设定了一个宽度固定的滑动窗口，该窗口沿着时间序列滑动，取窗口内数据的算术平均值作为滤波后的输出值。其中，滤波算法公式为：

v_{i}^{'} (k) = \frac{1}{L + 1} Σ_{l = - \frac{L}{2}}^{\frac{L}{2}} v_{i} (k + l), (i = 1, 2, ..., 14) - - - (9)

其中L为数据滤波时所用的滑动窗口大小，v′_i(k)为测量点i在第k个时刻滤波后的输出值。

(4)采样数据融合。在HDPE过程中，14个现场测量点的采样间隔为1分钟，而二反应器熔融指数和乙烯产品单耗的分析间隔为1小时，为了从时间上匹配采样数据和分析数据，本发明采用固定均值算法实现数据融合。设n(n＝1,2,…,N)为分析数据{v₁₅(n)}和{v₁₆(n)}对应的采样时刻，则经过融合后n时刻对应的采样数据输出值为：

v_{i} (n) = \frac{1}{60} Σ_{k = - 30}^{30} v_{i}^{'} (n + k), (n = 1, 2, ..., N) - - - (10)

其中v_i(n)为融合后测量点i对应时刻n的输出值。

(5)将经过数据预处理后的v₁～v₁₄共14组采样值和v₁₅、v₁₆两组分析值组成ELM-E神经网络的训练数据。其中，对于二反应器熔融指数模型，其训练数据为：

Ω₁＝{X,Y}＝{(X_n,Y_n)|n＝1,2,…,N；Y_n＝[y_n1]^T＝[v₁₅(n)]^T；X_n＝[x_n1,x_n2,…,x_n14]^T

＝[v₁(n),v₂(n),v₃(n),v₄(n),v₅(n),v₆(n),v₇(n),v₈(n),v₉(n),v₁₀(n),v₁₁(n),v₁₂(n),v₁₃(n),v₁₄(n)]^T}_；

对于聚乙烯产品单耗模型，其训练数据为：

Ω₂＝{X,Y}＝{(X_n,Y_n)|n＝1,2,…,N；Y_n＝[y_n1]^T＝[v₁₆(n)]^T；X_n＝[x_n1,x_n2,…,x_n11]^T

＝[v₃(n),v₄(n),v₅(n),v₆(n),v₇(n),v₈(n),v₉(n),v₁₀(n),v₁₁(n),v₁₂(n),v₁₃(n),v₁₄(n)]^T}

如图6所示，为样本选取过程的工作流程图。将经过数据预处理后得到的二反应器熔融指数模型的训练数据Ω₁和聚乙烯产品单耗模型的训练数据Ω₂，统一按照训练数据{X,Y}＝{(X_n,Y_n)|n＝1,2,…,N；X_n＝[x_n1,x_n2,…,x_nP]^T∈R^P；Y_n＝[y_n1]^T∈R¹}进行建模。在ELM-E模型中，训练数据被分为训练样本集和验证样本集。其中，训练样本集是用于对ELM-E中的个体神经网络进行训练，同时为了保证个体神经网络间的差异度，采用Bootstrap方法选择每个神经网络的训练样本；验证样本集是用于对ELM-E中的个体神经网络集成方式进行选择，根据每个神经网络在验证样本集中的输出决定个体网络的集成方式。具体的样本选取过程为：

(1)抽取30％的训练数据作为验证样本集，其余的训练数据作为训练样本集。对于N组训练数据{X,Y}，随机抽取N₁(N₁<<N)组训练数据作为验证样本集，剩余N₂(N₂＝N－N₁)组训练数据作为训练样本集。假设所抽取的N₁组训练数据序号为{n₁,n₂,…,n_N1}，则抽取后的验证样本集合为：

{X^{'}, Y^{'}} = {(X_{n}, Y_{n}) | n = n_{1}, n_{2}, . . ., n_{N_{1}}; X_{n} = {[x_{n 1}, x_{n 2}, . . ., x_{nP}]}^{T} &Element; R^{P}; Y_{n} = {[y_{n 1}]}^{T} &Element; R^{1}}

对于抽取后的训练样本集合{X”,Y”}＝{X,Y}-{X',Y'}，将训练序号重新进行排序后，所得训练样本集合为：

{X”,Y”}＝{(X_n,Y_n)|n＝1,2,…,N₂；X_n＝[x_n1,x_n2,…,x_nP]^T∈R^P；Y_n＝[y_n1]^T∈R¹}

(2)设置每个个体神经网络的训练样本个数为N^(m)(其中，m＝1,2,…,M)，并从第1(m＝1)个神经网络开始，采用Bootstrap方法获得第1个神经网络的训练样本。同时初始化第m个神经网络所选取的训练样本序号集合Λ_m为空集，集合Λ_m中的元素个数ρ＝0。

(3)利用计算机在0到J之间产生随机整数j。此时，应保证生成值j在0到J上具有独立性、满周期性与均匀性，J>>N₂，N₂为训练样本的个数。

(4)令μ＝j％N₂，即将序号μ所对应的训练样本(Xμ,Yμ)作为第m个神经网络中的一个训练样本，并将序号μ加入到集合Λ_m中ρ＝ρ+1。

(5)判断集合Λ_m中的元素个数ρ是否超过了所要求的训练样本个数N^(m)。如果ρ≤N^(m)，则返回第(3)步，继续选取个体神经网络m的训练样本；如果ρ>N^(m)，则可得神经网络m的训练样本为

{X^{(m)}, Y^{(m)}} = {(X_{n}^{(m)}, Y_{n}^{(m)}) | n &Element; Λ_{m}; X_{n}^{(m)} = {[x_{n 1}^{(m)}, x_{n 2}^{(m)}, ..., x_{n P}^{(m)}]}^{T} &Element; R^{p}; Y_{n}^{(m)} = {[y_{n 1}^{(m)}]}^{T} &Element; R^{1}},

并进入下一步。

(6)令m＝m+1，如果m≤M，则设置Λ_m＝Ф，ρ＝0，并返回第(3)步对下一个个体神经网络的训练样本进行选取，直到m>M为止，完成ELM-E系统中所有个体神经网络训练样本的选取。

如图7所示，为个体神经网络建模过程的工作流程图。传统的ELM学习算法由于其输入层权值是随机产生的，这些随机产生的输入层权值可能会造成隐含层输出矩阵非奇异，从而增大网络的训练误差，显然这与在神经网络集成理论中每个个体神经网络的训练误差小的要求相矛盾。为了尽可能的减小每个个体神经网络的训练误差，对个体神经网络采用改进的ELM学习算法进行训练，其步骤如下：

(1)确定每个个体神经网络的结构。根据个体神经网络的训练样本

{X^{(m)}, Y^{(m)}} = {(X_{n}^{(m)}, Y_{n}^{(m)}) | n &Element; 1, 2, ..., N^{(m)}; X_{n}^{(m)} = {[x_{n 1}^{(m)}, x_{n 2}^{(m)}, ..., x_{n P}^{(m)}]}^{T} &Element; R^{p}; Y_{n}^{(m)} = {[y_{n 1}^{(m)}]}^{T} &Element; R^{1}}

(m＝1,2,…,M)，可知每个个体神经网络的输入层神经元个数都为P，输出层神经元个数都为1。此外，在本发明中，设置每个个体神经网络的结构相同，它们的隐含层神经元个数都按照经验公式S＝2P+1确定。

(2)设置每个个体神经网络的训练误差标准为RMSE_std。

(3)从m＝1开始，对第m个个体神经网络进行训练，首先随机产生个体神经网络m的输入层权值向量和隐含层阈值其中，为输入层神经元与第s个隐含层神经元的连接权值向量，为第s个隐含层神经元的阈值，其中(s＝1,2,…,S)。

(4)计算第s个隐含层神经元关于个体神经网络m的第n个训练样本的隐含层输出值其中，g(·)为隐含层神经元的激活函数。将关于个体神经网络m的所有训练样本的隐含层输出值构成一个隐含层输出矩阵H^(m)：

H^{(m)} = [\begin{matrix} h_{11}^{(m)} & h_{1 S}^{(m)} \\ h_{N^{(m)} 1}^{(m)} & h_{N^{(m)} S}^{(m)} \end{matrix}] = [\begin{matrix} g (W_{1}^{(m)} X_{1}^{(m)} + b_{1}^{(m)}) & g (W_{S}^{(m)} X_{1}^{(m)} + b_{S}^{(m)}) \\ g (W_{1}^{(m)} X_{N^{(m)}}^{(m)} + b_{1}^{(m)}) & g (W_{S}^{(m)} X_{N^{(m)}}^{(m)} + b_{S}^{(m)}) \end{matrix}] - - - (11)

(5)利用Moore-Penrose广义逆来计算个体神经网络m的输出层权值向量：β^(m)＝(H^(m))⁺Y^(m)，其中(H^(m))⁺为H^(m)的Moore-Penrose广义逆。

(6)取验证样本集

{X^{'}, Y^{'}} = {(X_{n}, Y_{n}) | n = n_{1}, n_{2}, . . ., n_{N_{1}}; X_{n} = {[x_{n 1}, x_{n 2}, . . ., x_{nP}]}^{T} &Element; R^{P}; Y_{n} = {[y_{n 1}]}^{T} &Element; R^{1}}

，首先根据已产生的输入层权值向量和隐含层阈值计算个体神经网络m的隐含层输出矩阵H^(m)，

H^{(m)} = [\begin{matrix} g (W_{1}^{(m)} X_{n_{1}} + b_{1}^{(m)}) & g (W_{S}^{(m)} X_{n_{1}} + b_{S}^{(m)}) \\ g (W_{1}^{(m)} X_{n_{N_{1}}} + b_{1}^{(m)}) & g (W_{S}^{(m)} X_{n_{N_{1}}} + b_{S}^{(m)}) \end{matrix}] - - - (12)

然后按照公式(13)计算所有验证样本在个体神经网络m的输出值T^(m)。

T^{(m)} = {[t_{11}^{(m)}, t_{21}^{(m)}, ..., t_{N_{1} 1}^{(m)}]}^{T} = H^{(m)} β^{(m)} - - - (13)

(7)计算第m个个体神经网络的均方根误差RMSE^(m)。其中，均方根误差计算公式为：

{RMSE}^{(m)} = \frac{1}{N_{1}} \sqrt{Σ_{n = 1}^{N_{1}} {(t_{n 1}^{(m)} - y_{n 1}^{(m)})}^{2}} - - - (14)

(8)如果RMSE^(m)＞RMSE_std，则返回第(3)步，重新对第m个个体神经网络进行训练；反之，如果RMSE^(m)≤RMSE_std，则将该ELM神经网络作为ELM-E中的第m个个体神经网络，并更新RMSE_std＝[RMSE_std×(m-1)+RMSE^(m)]/m。

(9)取m＝m+1，直到m>M为止，完成ELM-E系统中所有个体神经网络的构建。

如图8所示，为本发明基于可拓聚类方法的个体神经网络集成过程工作流程图。在聚类中，当两个模型相差很大时，说明两个模型可能在不同的类中，相反，则在同一个聚类中。由于同一个类中的模型都是相似模型(相互之间距离非常小)，也就是说，这些模型在相同的输入下得到的输出结果相似，因此，可以选择这些模型的聚类中心表示该类中的所有模型。基于以上思想，将M个个体神经网络的输出(m＝1,2,…,M)，采用可拓聚类方法进行空间上的聚类，并将聚类后的中心进行集成作为最终ELM-E模型的输出。具体的实现步骤如下：

(1)按照每个个体神经网络输出的维数建立基元模型，并求取各属性的最大最小值。

R_{T^{(m)}} = [\begin{matrix} T^{(m)} & {ch}_{1} & t_{11}^{(m)} \\ {ch}_{2} & t_{21}^{(m)} \\ {ch}_{N_{1}} & t_{N_{1} 1}^{(m)} \end{matrix}], (m = 1, ..., M) - - - (15)

t_{m a x}^{(m)} = m a x {t_{n 1}^{(m)}}, t_{m i n}^{(m)} = m i n {t_{n 1}^{(m)}}, (n = 1, ..., N_{1}; m = 1, ..., M) - - - (16)

其中，M表示个体神经网络总数，T^(m)表示第m个个体神经网络的输出，ch_n代表T^(m)的第n个输入特征，表示T^(m)的第n个特征的值。

观察样本数据，判断是否所有数据都在[0,1]之间，如果不是，首先对样本数据进行归一化。运用变换的可组合性，归一化可以通过对实施删减变换和扩缩变换的组合来实现。

t_{n 1}^{(m)^{'}} = T_{1} t_{n 1}^{(m)} = t_{n 1}^{(m)} - t_{\min}^{(m)}, t_{n 1}^{(m)^{''}} = T_{2} t_{n 1}^{(m)^{'}} = t_{n 1}^{(m)'} / (t_{m a x}^{(m)} - t_{m i n}^{(m)})

R_{{NT}^{(m)}} = [\begin{matrix} {NT}^{(m)} & {ch}_{1} & t_{11}^{(m)''} \\ {ch}_{2} & t_{21}^{(m)''} \\ {ch}_{N_{1}} & t_{N_{1} 1}^{(m)''} \end{matrix}] = T_{1} T_{2} R_{T^{(m)}} = [\begin{matrix} {NT}^{(m)} & {ch}_{1} & (t_{11}^{(m)} - t_{\min}^{(m)}) / (t_{\max}^{(m)} - t_{\min}^{(m)}) \\ {ch}_{2} & (t_{21}^{(m)} - t_{\min}^{(m)}) / (t_{\max}^{(m)} - t_{\min}^{(m)}) \\ {ch}_{N_{1}} & (t_{N_{1} 1}^{(m)} - t_{\min}^{(m)}) / (t_{\max}^{(m)} - t_{\min}^{(m)}) \end{matrix}] - - - (17)

其中，T₁代表删减变换，T₂代表扩缩变换，NT^(m)表示归一化后的第m个个体神经网络输出，ch_n代表T^(m)的第n个输入特征，表示T^(m)的第n个特征的值。

(2)采用可拓理论中的多维基元模型规范化描述基函数的中心向量，表达式为：

R_{C_{k}} = [\begin{matrix} C_{k} & a_{1} & c_{k 1} \\ a_{2} & c_{k 2} \\ a_{N_{1}} & c_{{kN}_{1}} \end{matrix}], (k = 1, ..., K) - - - (18)

式中，C_k表示第k个聚类的中心，c_kn表示第k个聚类关于第n个特征a_n的值，用表示c_kn的经典域，L表示下限值，U表示上限值。

(3)设置距离参数阈值θ来度量聚类中心和期望边界的距离，则θ是一个用户自定义参数，一般根据样本分布等先验知识或者实验法来确定。用K表示聚类的数目，No_k表示第k个类中样本的数目。读取第m个个体神经网络(m＝1)，创建第一个类，初始化K＝1，No_K＝1，通过的复制变换来获得第一个类的中心(具体来说，就是对对象NT^(m)实施主动变换)。即：

R_{C_{K}} = T_{{NT}^{(m)} &RightArrow; C_{K}} R_{{NT}^{(m)}} = [\begin{matrix} C_{K} & a_{1} & t_{11}^{{(m)}^{''}} \\ a_{2} & t_{21}^{{(m)}^{''}} \\ a_{N_{1}} & t_{N_{1} 1}^{{(m)}^{''}} \end{matrix}] - - - (19)

(4)可拓学中定义了点x和区间X₀＝<a,b>的距ρ，可以把点与区间的位置关系用定量的形式精确刻画，使人们从“类内即为同”发展到类内也有程度区别的定量描述，但此公式只适用于一维基元，无法描述多维基元空间中的点和区间的关系。为克服这一局限性，本文借鉴可拓学中距的概念，对距的定义进行扩展，提出了n维基元空间中点和区间距的表达式：

d ({NT}^{(m)}, C_{k}) = Σ_{n = 1}^{N_{1}} α_{n} ρ (t_{n 1}^{(m)''}, < c_{k n}^{L}, c_{k n}^{U} >) Σ_{n = 1}^{N_{1}} α_{n} [| t_{n 1}^{(m)''} - c_{k n} | - (c_{k n}^{U} - c_{k n}^{L}) / 2] - - - (20)

其中，α_n为权系数，用以衡量各个变量的重要性程度，当各变量的重要性程度差别较大时，可以考虑采用层次分析法等来确定，本文为了计算简单，取根据式(20)可知，当样本越接近聚类中心C_k，可拓距离越小，越远离C_k时，可拓距离越大，当样本的值等于C_k时，可拓距离最小，为-θ。

读入下一个(m＝m+1)个体神经网络，采用公式(20)计算第m个样本和已经存在的K个聚类中第k个聚类中心的距离。从获取的K个距离中，采用式(21)查找与第m个个体神经网络距离最近的聚类编号。

d_p＝min{d(NT^(m),C₁),d(NT^(m),C₂),…,d(NT^(m),C_K)}(21)

其中，p表示可拓距离集合{d(NT^(m),C₁),d(NT^(m),C₂),…,d(NT^(m),C_K)}中值最小的元素编号。

(5)如果d_p＞0，表明第m个个体神经网络不属于已经存在的所有聚类，因此，增加一个新的聚类，K＝K+1，No_K＝1，采用式(19)的复制变换来确定该聚类中心。

反之，则表明第m个个体神经网络属于第p个聚类中心，No_p＝No_p+1，通过式(22)所示的置换变换来更新第p个聚类中心。

c_{p n} = \frac{c_{p n} \times (N o ._{p} - 1) + t_{n 1}^{(m)^{''}}}{N o ._{p}}

R_{C_{p}} = T_{{NT}^{(m)} \cup C_{p} &RightArrow; C_{p}} R_{C_{p}} = [\begin{matrix} C_{p} & a_{1} & \frac{c_{p 1} \times ({No}_{p} - 1) + t_{11}^{{(m)}^{''}}}{{No}_{p}} \\ a_{2} & \frac{c_{p 2} \times ({No}_{p} - 1) + t_{21}^{{(m)}^{''}}}{{No}_{p}} \\ a_{N_{1}} & \frac{c_{{pN}_{1}} \times ({No}_{p} - 1) + t_{N_{1} 1}^{{(m)}^{''}}}{{No}_{p}} \end{matrix}] - - - (22)

同时，重新判断第p个个体神经网络之前所有个体神经网络所属的聚类中心是否发生了跳转，如果其中的第j个个体神经网络从聚类中心s变化到q，则No_q＝No_q+1，No_s＝No_s－1，采用式(22)更新第q个聚类中心，同时采用加减号互换来修正式(22)，据此更新第s个聚类中心。如此循环，直到所有样本聚类中心不发生变动。

(6)重复第(3)～(5)步，直到对比完所有样本和已经存在的聚类中心。如果聚类过程收敛，则结束，否则，回到第(2)步，调整阈值。

(7)取出聚类后每一个聚类的中心(k＝1,2,…,K)，按照式(23)生成最终的集成结果。

{\hat{y}}_{n} = Σ_{k = 1}^{K} c_{k n}, (n = 1, 2, ..., N_{1})

(23)

\hat{Y} = {[\begin{matrix} {\hat{y}}_{1} & {\hat{y}}_{2} & {\hat{y}}_{N_{1}} \end{matrix}]}^{T}

综上，依次经过数据预处理、样本选取、个体神经网络建模和个体神经网络集成四个过程，实现了HDPE过程关键质量变量的在线测量以及聚乙烯产品单耗的在线估计。

Claims

1.一种用于高密度聚乙烯(HDPE)串级聚合反应的智能检测与收率优化方法，其特征在于，所述方法包括：数据预处理过程、样本选取过程、个体神经网络建模过程、和基于可拓聚类的个体神经网络集成过程，其中：

2.根据权利要求1所述的方法，其特征在于所述数据预处理过程具体包括：对所述缺失数据进行补充、对所述异常数据进行修正、以及对所述噪声数据进行滤波，之后采用固定均值算法进行数据融合，进而生成包含14组采样值和2组分析值在内的输出值v_i(n)，(i＝1,2,...,16)，最终得出所述二反应器熔融指数模型的训练数据为：

Ω₁＝{X，Y}＝{(X_n，Y_n)|n＝1，2，…，N；Y_n＝[y_n1]^T＝[v₁₅(n)]^T；X_n＝[x_n1，x_n2，…，x_n14]^T

＝[v₁(n)，v₂(n)，v₃(n)，v₄(n)，v₅(n)，v₆(n)，v₇(n)，v₈(n)，v₉(n)，v₁₀(n)，v₁₁(n)，v₁₂(n)，v₁₃(n)，v₁₄(n)]^T}；

所述聚乙烯产品单耗模型的训练数据为：

Ω₂＝{X，Y}＝{(X_n，Y_n)|n＝1，2，…，N；Y_n＝[y_n1]^T＝[v₁₆(n)]^T；X_n＝[x_n1，…，x_n2，x_n11]^T

＝[v₃(n)，v₄(n)，v₅(n)，v₆(n)，v₇(n)，v₉(n)，v₁₀(n)，v₁₁(n)，v₁₂(n)，v₁₃(n)，v₁₄(n)]^T}

其中，n为采样时刻。

3.根据权利要求1所述的方法，其特征在于所述样本选取过程具体包括：对预处理过程所得的训练数据，统一按照训练数据{X,Y}＝{(X_n,Y_n)|n＝1,2,…,N；X_n＝[x_n1,x_n2,…,x_nP]^T∈R^P；Y_n＝[y_n1]^T∈R¹}进行建模；在抽取30％的训练数据作为验证样本集之后，剩余的训练数据采用Bootstrap方法进行重复抽样，由此获得各个体神经网络的训练样本

{X^{(m)}, Y^{(m)}} = {(X_{n}^{(m)}, Y_{n}^{(m)}) | n &Element; Λ_{m}; X_{n}^{(m)} = {[x_{n 1}^{(m)}, x_{n 2}^{(m)}, ..., x_{n P}^{(m)}]}^{T} &Element; R^{P}; Y_{n}^{(m)} = {[y_{n 1}^{(m)}]}^{T} &Element; R^{1}};

其中Λ_m为所获得的训练样本的序号，m＝1,2,…,M，M为个体神经网络的个数。

4.根据权利要求1所述的方法，其特征在于所述个体神经网络建模过程具体包括：首先，从第1个个体神经网络开始，设置每个神经网络网络的结构和训练误差标准RMSE_std，并随机产生输入层权值和隐含层阈值；其次，根据每个个体神经网络的训练样本{X^(m),Y^(m)}，计算个体神经网络的输出层权值，其中m＝1,2,…,M，M为个体神经网络的个数；再次，输入验证样本集，根据所建立的个体神经网络m模型，计算各个体神经网络的输出值，并将其与验证样本集的期望输出值进行比较，获得个体神经网络m的均方根误差RMSE^(m)，其中，个体神经网络m模型包括训练得到的输入层权值、隐含层阈值和输出层权值；最后，判断RMSE^(m)小于训练误差标准RMSE_std的条件是否满足，如果条件不满足，则重新产生输入层权值和隐含层阈值，进行个体神经网络m的训练，相反，如果条件满足，则更新RMSE_std，并令m＝m+1进行下一个个体神经网络的训练，直到完成所有M个个体神经网络的训练为止。

5.根据权利要求1所述的方法，其特征在于所述个体神经网络集成过程具体包括：首先，采用多维基元模型描述各个个体神经网络的输出，通过删减变换和扩缩变换的组合对样本数据进行归一化；其次，采用多维基元模型描述中心向量，设置距离参数阈值，通过对第一个个体神经网络输出进行复制变换获得第一个聚类中心，同时，对中心基元的对象实施主动变换，引起对应特征值的传导变换；再次，将可拓学中距的定义扩展到多维基元中，得到扩展的可拓距公式；最后，根据扩展的可拓距公式计算出个体神经网络输出和所有已存在中心的最小可拓距，以此判断是否属于当前已存在的类，并分情况运用置换变换进行中心和权值的调整，直到所有的聚类过程收敛。