CN100580698C

CN100580698C - 稀疏数据过程建模方法

Info

Publication number: CN100580698C
Application number: CN200710012776A
Authority: CN
Inventors: 关守平; 尤富强
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2007-09-10
Filing date: 2007-09-10
Publication date: 2010-01-13
Anticipated expiration: 2027-09-10
Also published as: CN101118610A

Abstract

本发明涉及应用过程神经网络模型建立稀疏数据过程预测模型的方法。在对稀疏的样本数据进行预处理的基础上，应用基于离散Walsh变换的学习算法，提高过程神经网络的学习效率和建模精度。为使建立的过程预测模型能够及时修正预测偏差，根据稀疏数据过程的特点，采用了数据采样周期间网络滚动学习的方法，通过最新的采样数据及时对预测网络模型进行在线修正，从而进一步提高了预测模型的准确性。本发明为解决一类稀疏数据过程的建模问题提供了一条有效的途径。

Description

稀疏数据过程建模方法

(一)技术领域

本发明涉及一种应用智能信息处理技术的过程建模方法，特别是一种稀疏数据过程的建模方法。

(二)背景技术

在许多工业过程中，由于受到现场条件，工艺过程和检测设备等因素的影响，采集样本数据的时间间隔较长，数据量有限，造成了样本数据的稀疏。因此，如何根据稀疏数据过程的特点建立过程的预测模型，并通过预测模型产生较为连续的密集预报数据，从而有利于过程控制是一个重要的研究课题。

目前在系统建模方面，以神经网络为代表的辨识建模方法发展迅速。但是目前用于系统建模的神经网络大多是前馈网络，其特点是网络输入均为与时间无关的常量，主要解决数据空间上的映射问题，这对于密集采样数据过程的建模非常有效。但是对于稀疏数据过程，为了充分利用有限数据所包含的信息，仅仅考虑数据的空间聚合效应是不够的，还要充分考虑数据的时间累计效应，因为工业过程中的数据往往是与时间有关的。因此同时利用稀疏数据的空间与时间效应，产生密集的过程预报数据，及时修正网络模型的预报误差，以利于过程的监测与优化控制，是传统的神经网络建模方法难以解决的问题。

(三)发明内容

本发明的目的在于针对现有技术的不足，提供一种基于过程神经网络的建模方法，以解决稀疏数据过程的建模问题，为稀疏数据过程的建模提供一条有效的途径。

本发明是通过以下技术方案实现的：数据预处理，数据扩充，过程神经网络建模与在线滚动学习。通过对采样数据的预处理，平滑采样数据中因干扰而产生的伪数据；然后对处理后的数据进行扩充，产生所需时间间隔的较为密集的数据用于网络模型训练，目的是使网络预测模型能够输出所需要的时间点上的数据，弥补因检测困难而导致实际采样数据稀少、难以对过程进行有效监测与控制的问题；应用过程神经元建立过程的神经网络模型，过程神经元的输入和权值是随时间变化的函数或过程，其聚合运算既有对空间的多输入聚合，也有对时间过程的累积聚合，可以充分利用稀疏数据所包含的空间与时间信息；应用经过处理后的离线数据对过程神经网络模型离线训练后，将网络模型投入实际预测过程，在采样时刻间隙，当检测到预测值不正确时，则立即对已有的实际数据进行处理，采用处理后的数据在线训练网络，使网络在训练过程中学到新的信息。由于稀疏数据过程采样周期长，有些甚至是离线检测数据，因此上述采样时刻间隙滚动学习的方法是可行的。

以下对本发明内容作进一步的说明，具体内容如下：

1、数据预处理

假设有n₁组现场采样数据，每组的采样数为m₁，不同组采样数据同一时刻的平均值x，方差为σ，如果对应同一时刻各组的采样值都在(x-σ，x+σ)之间，表示该组数据中并不存在伪数据。若某个采样值

不在(x-σ，x+σ)之间时，则当

x_{n_{1} m_{1}} < \overset{&OverBar;}{x} - σ

时，取

x_{n_{1} m_{1}} = \overset{&OverBar;}{x} - σ;

当

x_{n_{1} m_{1}} > \overset{&OverBar;}{x} + σ

时，取

x_{n_{1} m_{1}} = \overset{&OverBar;}{x} + σ .

对采样数据平滑后，对样本数据进行归一化处理。考虑到神经网络每层的激励函数都选用Sigmoid函数，因此将网络的输入输出数据限制在[0，1]区间内，应用式(1)的变换，将网络的输入输出变量近似为正态标准分布。

\tilde{x} = ρ \frac{x - x_{\min}}{x_{\max} - x_{\min}} + 0.1 - - - (1)

式中：x为经过伪数据处理的采样数据；

为经过归一化处理后的数据；x_min为神经网络输入或输出量的最小值；x_max为神经网络输入或输出量的最大值，ρ为比例系数，一般取ρ＝0.1～0.9。

2、数据扩充

采用递推式邻均值生成法进行数据扩充，即利用两端的数据首先产生中间的扩充数据，再利用两端的数据和已得出的中间数据扩充出所有数据的一种方法。即将原始数列[X]＝[X(1)，X(2)，…，X(n₂)]扩充为数列

[X (1), Φ_{1} (h_{1}), . . ., Φ_{1} (h_{1}), . . ., Φ_{1} (h_{m_{2}}), X (2), Φ_{2} (h_{1}), . . ., Φ_{2} (h_{1}), . . ., Φ_{2} (h_{m_{2}}), . . ., X (n_{2})],

其中Φ_j(h_i)，(i＝1，2，…m₂，j＝1，2，…，n₂-1)为扩充的数据。

取Φ_j(h₀)＝X(j)，

Φ_{j} (h_{m_{2} + 1}) = X (j + 1),

则

Φ_{j} (h_{i}) = 0.5 Φ_{j} (h_{i_{\min}} 6) + 0.5 Φ_{j} (h_{i_{\max}}) - - - (2)

式中，

i = INT (\frac{i_{\min} + i_{\max}}{2}),

i_min为扩充数列的左端已知数据序列号，i_max为扩充数列的右端已知数据序列号。重复应用公式(2)，即可得到所需的扩充数据序列Φ_j(h_i)。

3、过程神经元网络建模

过程神经元由加权，聚合和激励三部分组成，结构图如图1所示。图中，x₁(t)，x₂(t)，…，x_n(t)为过程神经元输入函数；w₁(t)，w₂(t)，…，w_n(t)为相应的权函数；K(t)为过程神经元的时间聚合基函数；f(·)为激励函数，可取线性函数、Sigmoid函数、Gauss型函数等。过程神经元的输入与输出之间的关系为

y = f ((W (t) &CirclePlus; X (t)) &CircleTimes; K (\cdot) - θ) - - - (3)

这里θ为过程神经元输出阈值，y为过程神经元的输出值，表示某种空间聚合运算，

表示某种时间(过程)聚合运算。这里取空间聚合运算为加权和，时间聚合运算为积分。

以过程神经元为基础，构造一种4层结构的过程神经元网络模型如图2所示，拓扑结构为n-m-K-1，即网络输入层有n个节点、过程神经元隐层有m个节点、非时变一般神经元隐层有K个节点，输出层有1个节点。过程神经元隐层完成对输入信息过程模式特征的提取和对时间的聚合运算，非时变一般神经元隐层用于提高网络对系统输入输出之间复杂关系的影射能力。

由图2可知，过程神经网络输入输出之间的关系为

y = Σ_{k = 1}^{K} μ_{k} g (Σ_{j = 1}^{m} v_{jk} f ({&Integral;}_{0}^{T} Σ_{i = 1}^{n} w_{ij} (t) x_{i} (t)) dt - θ_{j}^{(1)}) - θ_{k}^{(2)}) - - - (4)

图中模型的输入为X(t)＝(x₁(t)，x₂(t)，…，x_n(t))，模型输出为y，[0，T]为时间采样区间，w_ij(t)为输入层与第1隐层的连接权函数，v_jk为第1隐层与第2隐层的连接权值，μ_k为第2隐层到输出层的连接权值，θ_j ⁽¹⁾为第1隐层第j个过程神经元的输出阈值，θ_k ⁽²⁾为第2隐层第k个过程神经元的输出阈值，f为第1隐层的激励函数，g为第2隐层的激励函数。取各层的激励函数均为Sigmoid函数，即

f (u) = g (u) = \frac{1}{1 + e^{- u}} - - - (5)

将随时间变化的离散采样数据进行Walsh变换，使之直接作为神经网络的输入，减少中间的拟合过程，消除拟合误差，其变换过程如下：

给定Q个序列长度为2^p的学习样本(若离散序列长度不为2^p，可通过平滑插值得到)：(x_q1(t_l)，x_q2(t_l)，…，x_qn(t_l)，d_q)，其中q＝1，2，…，Q，l＝0，1，…，N-1，N＝2^p，p是满足插值精度要求的自然数，d_q为期望输出。对学习样本实施Walsh变换，得(wal(x_q1(t_l))，wal(x_q2(t_l))，…，wal(x_qn(t_l))，d_q)。

离散数据经过Walsh变换作为网络的输入，于是网络的输入输出关系为

y_{q} = Σ_{k = 1}^{K} μ_{k} g (Σ_{j = 1}^{m} v_{jk} f (Σ_{i = 1}^{n} Σ_{l = 1}^{N - 1} wal (w_{ij} (t_{1})) wal (x_{qi} (t_{l})) - θ_{j}^{(1)} - θ_{k}^{(2)})) - - - (6)

其中

wal (w_{ij} (t_{l})) = Σ_{l = 0}^{N - 1} w_{ij}^{(l)} wal (l, \frac{s}{N}),

s＝1，2，…，N；

w_{ij} (t_{l}) = w_{ij}^{(l)} = w_{ij} (t) |_{t = t_{l}},

即第t_l时刻网络输入层与第1隐层的连接权函数。

网络的误差函数为

E = Σ_{q = 1}^{Q} {(Σ_{k = 1}^{K} μ_{k} g (Σ_{j = 1}^{m} v_{jk} f (Σ_{i = 1}^{n} Σ_{l = 1}^{N - 1} wal (w_{ij} (t_{l})) wal (x_{qi} (t_{l})) - θ_{j}^{(1)}) - θ_{k}^{(2)}) - d_{q})}^{2} - - - (7)

过程神经网络作用过程如图3所示。对上述过程神经网络模型应用误差反向传播的BP算法进行离线训练，得到预期的网络逼近精度。学习算法如下式所示：

\{\begin{matrix} μ_{k} = μ_{k} + α (- &PartialD; E / &PartialD; μ_{k}) \\ v_{jk} = v_{jk} + β (- &PartialD; E / &PartialD; v_{jk}) \\ w_{ij}^{(l)} = w_{ij}^{(l)} + γ (- &PartialD; E / &PartialD; w_{ij}^{(l)}) \\ θ_{j}^{(1)} = θ_{j}^{(1)} + η (- &PartialD; E / &PartialD; θ_{j}^{(1)}) \\ θ_{k}^{(2)} = θ_{k}^{(2)} + λ (- &PartialD; E / &PartialD; θ_{k}^{(2)}) \end{matrix} - - - (8)

其中α，β，γ，η，λ为网络学习速率。

4、在线滚动学习

在第k个采样时刻，将预测值与采样值相比较，若误差超过精度要求，则对已采集数据进行处理后在线进行网络学习，否则保持网络模型的输出；在k+1时刻，重复上述检测与学习过程。这种“学习-预测-学习”的滚动流程如图4所示

本发明充分利用稀疏数据过程的特点，利用过程神经元并结合数据处理技术进行工业过程中一类稀疏数据过程的建模工作，有效解决了工业过程中因检测困难而导致过程采样数据稀少，从而使过程的监测与优化控制难以有效实施的问题，为稀疏数据过程的建模提供了一条有效的途径，并为该类工业过程实施优化控制奠定了基础。

(四)附图说明

图1为过程神经元结构示意图。

图2为双隐层过程神经网络结构示意图。

图3为神经网络作用过程示意图。

图4为网络模型滚动学习示意图。

(五)具体实施方式

为更好理解本发明的技术方案，以下以味精发酵过程为实施例，对其进行菌体浓度预测模型的建模。

味精发酵过程是一个复杂的生化反应过程，由于受到现场条件、工艺过程、检测设备等因素的影响，通常每隔3个小时才能得到一次菌体浓度的样本数据，属于稀疏数据过程。在此发酵过程中，根据实际数据和现场工程师的经验，确定进风量与菌体浓度有一定关系。因此，当前进风量和当前的菌体浓度作为网络的两个输入节点，预测菌体浓度为输出节点。建立味精发酵过程菌体浓度的预测模型的具体步骤如下：

1、数据预处理

表1为部分菌体浓度与进风量的现场数据，菌体浓度为稀疏数据，每间隔3个小时得到一组样本数据，而通风量为连续密集数据。

表1部分现场数据

考虑第3组中第15小时的菌体浓度数据，该时刻3组采样数据的均值为：

\overset{&OverBar;}{x} = \frac{1}{3} (1.0 + 0.85 + 1.0) = 0.95

方差为：

σ = \frac{1}{3} {[{(1.0 - 0.95)}^{2} + {(0.85 - 0.95)}^{2} + {(1.0 - 0.95)}^{2}]}^{1 / 2} = 0.041

因此该时刻的采样数据应位于区间(x-σ，x+σ)＝(0.909，0.991)之中。据此可知第2组第15小时的菌体浓度数据为伪数据，取为区间的下限，即用0.909代替该时刻的0.85数值。

通过现场数据分析，菌体浓度最小值为x_1min＝0.07，最大值为x_1max＝1.10；进风量最小值为x_2min＝15，最大值为x_2max＝50，据此对表1数据应用公式(1)进行归一化处理，式中比例系数取为ρ＝0.8。经过归一化处理后的数据见表2。

2、数据扩充

对稀疏的菌体浓度样本数据进行扩充，采用递推式邻均值生成法，根据0.5小时时间间隔得到扩充后的样本数据如表2中所示。

表2归一化处理及扩充后的样本数据

3、过程神经元网络建模

网络的拓扑结构选为2-20-9-1，即2个输入节点，20个过程神经元隐层节点，9个非时变一般神经元隐层节点，1个菌体浓度输出节点。取输入函数的离散Walsh基函数和用于权函数基展开的离散Walsh基函数的个数均为64。将表2菌体浓度和进风量输入到过程神经网络进行训练，学习速率α＝0.65，β＝0.8，γ＝0.7，η＝0.8，λ＝0.71，误差精度取0.01，网络经过1000次训练后收敛，该过程神经网络作为菌体浓度预测模型。

4、在线滚动学习

将上述离线训练好的过程神经网络预测模型投入在线运行，输出时间间隔为0.5小时的菌体浓度预测数据。在采样点3、6、9、12、15、18、21、24、27、30小时上，将模型预测值与采样值进行比较，若误差精度大于1％，则立即对已采集数据进行处理，然后在线进行网络学习；否则保持网络模型的输出。应用此种“学习-预测-学习”模式的一组预测数据如表3所示(表中只给出了采样点上的数据)。为增加对比性，表3给出了非滚动学习模式的模型预测数据，可以看出，采用滚动学习方法预测的输出值精度要高于非滚动学习方法预测输出值的精度。

表3菌体浓度在线预测数据

Claims

1、一种稀疏数据过程的建模方法，包括数据预处理、过程神经网络建模和在线滚动学习三个步骤，其特征在于：

所述的数据处理包括伪数据的修正和稀疏数据的填充；伪数据的修正是对采样数据中存在的伪数据进行平滑修正、处理，并对平滑后的数据进行归一化处理；稀疏数据的填充是对稀疏数据进行扩充，弥补已知时刻的未知数据，得到适当时间间隔的密集数据；

所述的过程神经网络建模是应用过程神经元组成双隐层过程神经网络模型，应用预处理数据训练神经网络模型，得到符合精度要求的过程神经网络模型；过程神经元由加权，聚合和激励三部分组成；输入和权值是随时间变化的函数；网络由输入层、过程神经元隐层、非时变一般神经元隐层和输出层组成，采用基于离散Walsh变换的方法对网络进行学习训练；

x₁(t)，x₂(t)，…，x_n(t)为过程神经元输入函数；w₁(t)，w₂(t)，…，w_n(t)为相应的权函数；K(t)为过程神经元的时间聚合基函数；f(·)为激励函数，可取线性函数、或Sigmoid函数、或Gauss型函数；过程神经元的输入与输出之间的关系为：

y = f ((W (t) &CirclePlus; X (t)) &CircleTimes; K (\cdot) - θ) - - - (1)

这里θ为过程神经元输出阈值，y为过程神经元的输出值，

表示某种空间聚合运算，

表示某种时间过程聚合运算；这里取空间聚合运算为加权和，时间聚合运算为积分；

以过程神经元为基础，构造一种四层结构的过程神经元网络模型，拓扑结构为n-m-K-1，网络输入层有n个节点，过程神经元隐层有m个节点，非时变一般神经元隐层有K个节点，输出层有1个节点；过程神经元隐层完成对输入信息过程模式特征的提取和对时间的聚合运算，非时变一般神经元隐层用于提高网络对系统输入输出之间复杂关系的影射能力；

过程神经网络输入输出之间的关系为：

y = Σ_{k = 1}^{K} μ_{k} g (Σ_{j = 1}^{m} v_{jk} f ({&Integral;}_{0}^{T} Σ_{i = 1}^{n} w_{ij} (t) x_{i} (t)) dt - θ_{j}^{(1)}) - θ_{k}^{(2)}) - - - (2)

模型的输入为X(t)＝(x₁(t)，x₂(t)，…，x_n(t))，模型输出为y，[0，T]为时间采样区间，w_ij(t)为输入层与第1隐层的连接权函数，v_jk为第1隐层与第2隐层的连接权值，μ_k为第2隐层到输出层的连接权值，θ_j ⁽¹⁾为第1隐层第j个过程神经元的输出阈值，θ_k ⁽²⁾为第2隐层第k个过程神经元的输出阈值，f为第1隐层的激励函数，g为第2隐层的激励函数；取各层的激励函数均为Sigmoid函数，即

f (u) = g (u) = \frac{1}{1 + e^{- u}} - - - (3)

将随时间变化的离散采样数据进行Walsh变换，使之直接作为神经网络的输入，减少中间的拟合过程，消除拟合误差，则变换过程为：

给定Q个序列长度为2^p的学习样本，若离散序列长度不为2^p，可通过平滑插值得到：(x_q1(t_l)，x_q2(t_l)，…，x_qn(t_l)，d_q)，其中q＝1，2，…，Q，l＝0，1，… ，N-1，N＝2^p，p是满足插值精度要求的自然数，d_q为期望输出；对学习样本实施Walsh变换，得(wal(x_q1(t_l))，wal(x_q2(t_l))，…，wal(x_qn(t_l))，d_q)；

y_{q} = Σ_{k = 1}^{K} μ_{k} g (Σ_{j = 1}^{m} v_{jk} f (Σ_{i = 1}^{n} Σ_{l = 1}^{N - 1} wal (w_{ij} (t_{l})) wal (x_{qi} (t_{l})) - θ_{j}^{(1)}) - θ_{k}^{(2)}) - - - (4)

其中

wal (w_{ij} (t_{l})) = Σ_{l = 0}^{N - 1} w_{ij}^{(l)} wal (l, \frac{s}{N}), s = 1,2, . . ., N;

w_{ij} (t_{l}) = w_{ij}^{(l)} = w_{ij} (t) |_{t = t_{l}},

即第t_l时刻网络输入层与第1隐层的连接权函数；

网络的误差函数为

E = Σ_{q = 1}^{Q} {(Σ_{k = 1}^{K} μ_{k} g (Σ_{j = 1}^{m} v_{jk} f (Σ_{i = 1}^{n} Σ_{l = 1}^{N - 1} wal (w_{ij} (t_{l})) wal (x_{qi} (t_{l})) - θ_{j}^{(1)}) - θ_{k}^{(2)}) - d_{q})}^{2} - - - (5)

上述过程神经网络模型应用误差反向传播的BP算法进行离线训练，得到预期的网络逼近精度；学习算法如下式：

\{\begin{matrix} μ_{k} = μ_{k} + α (- &PartialD; E / &PartialD; μ_{k}) \\ v_{jk} = v_{jk} + β (- &PartialD; E / &PartialD; v_{jk}) \\ w_{ij}^{(l)} = w_{ij}^{(l)} + γ (- &PartialD; E / &PartialD; w_{ij}^{(l)}) \\ θ_{j}^{(1)} = θ_{j}^{(1)} + η (- &PartialD; E / &PartialD; θ_{j}^{(1)}) \\ θ_{k}^{(2)} = θ_{k}^{(2)} + λ (- &PartialD; E / &PartialD; θ_{k}^{(2)}) \end{matrix} - - - (6)

其中α，β，γ，η，λ为网络学习速率；

所述的在线滚动学习，是在第k个采样时刻，将预测值与采样值相比较，若误差超过精度要求，则对已采集数据进行处理后在线进行网络学习，否则保持网络模型的输出；在k+1时刻，重复上述检测与学习过程；

2、根据权利1所述的稀疏数据过程建模方法，其特征在于：上述伪数据的修正：设有n₁组采样数据，每组的采样数为m₁，不同组采样数据同一时刻的平均值为x，方差为σ，如果对应同一时刻各组的采样值都在(x-σ，x+σ)之间，表示该组数据中并不存在伪数据；若某个采样值不在(x-σ，x+σ)之间时，则当

x_{n_{1} m_{1}} < \overset{&OverBar;}{x} - σ

时，取

x_{n_{1} m_{1}} = \overset{&OverBar;}{x} - σ;

当

x_{n_{1} m_{1}} > \overset{&OverBar;}{x} + σ

时，取

x_{n_{1} m_{1}} = \overset{&OverBar;}{x} + σ;

得到适合于神经网络模型训练与学习用的数据；

将采样数据平滑并对样本数据进行归一化处理：将网络的输入输出数据限制在[0，1]区间内，应用公式

\tilde{x} = ρ \frac{x - x_{\min}}{x_{\max} - x_{\min}} + 0.1 - - - (7)

将网络的输入输出变量近似为正态标准分布；

式中：x为经过伪数据处理的采样数据；

为经过归一化处理后的数据；x_min为神经网络输入或输出量的最小值；x_max为神经网络输入或输出量的最大值，ρ为比例系数，取ρ＝0.1～0.9；

3、根据权利1所述的稀疏数据过程建模方法，其特征在于：上述的稀疏数据的填充是采用递推式邻均值生成法进行数据扩充，即利用两端的数据首先产生中间的扩充数据，再利用两端的数据和已得出的中间数据扩充出所有数据的一种方法；

即将原始数列[X]＝[X(1)，X(2)，…，X(n₂)]，

扩充为数列

[X (1), Φ_{1} (h_{1}), . . ., Φ_{1} (h_{i}), . . ., Φ_{1} (h_{m_{2}}), X (2), Φ_{2} (h_{1}), . . ., Φ_{2} (h_{i}), . . ., Φ_{2} (h_{m_{2}}), . . ., X (n_{2})],

其中Φ_i(h_i)为扩充的数据，i＝1，2，…m₂；j＝1，2，…，n₂-1；

取Φ_j(h₀)＝X(j)，

Φ_{j} (h_{m_{2} + 1}) = X (j + 1),

则

Φ_{j} (h_{i}) = 0.5 Φ_{j} (h_{i_{\min}}) + 0.5 Φ_{j} (h_{i_{\max}}) - - - (8)

式中

i = INT (\frac{i_{\min} + i_{\max}}{2}),

i_min为扩充数列的左端已知数据序列号，i_max为扩充数列的右端已知数据序列号；重复应用公式(8)，即可得到所需的扩充数据序列Φ_j(h_i)。