CN1571982A

CN1571982A - 存在仪器噪声和测量误差时人工神经网络模型改进的性能

Info

Publication number: CN1571982A
Application number: CNA028024966A
Authority: CN
Inventors: 巴斯卡·戴特雷·库卡尼; 桑吉夫·史瑞克瑞士纳·塔姆比; 贾亚瑞姆·布哈吉·劳纳瑞; 尼拉姆库马·维勒查; 桑雷·瓦桑特劳·戴史姆克; 巴范尼史安卡·希诺伊; 希瓦拉玛·拉维克安德兰
Original assignee: Council of Scientific and Industrial Research CSIR
Current assignee: Council of Scientific and Industrial Research CSIR
Priority date: 2002-03-26
Filing date: 2002-03-26
Publication date: 2005-01-26
Anticipated expiration: 2022-03-26
Also published as: CN100520817C; AU2002247918A1; WO2003081527A1; KR20040099092A; EP1382012B1; KR100869516B1; DE60217663T2; DE60217663D1; JP4157477B2; EP1382012A1; JP2005521167A

Abstract

描述了一种方法，在存在包含仪器噪声和/或测量误差的输入－输出例子数据时，用于改进人工神经网络模型的预测精度和推广性能，用于训练网络模型输入－输出例子数据中噪声和误差的存在造成在精确学习输入和输出之间非线性关系的困难，网络有效学习噪声关系，该方法设法使用计算机模拟生成大规模的噪声－叠加采样输入－输出数据集，这里高斯噪声专用量被添加到例子集中的每一输入/输出变量，并由此生成的扩大的采样数据集用作为训练集，用于构造人工数据网络模型，被添加的噪声量对输入/输出变量是专用的，并使用随机搜索和优化技术即遗传算法确定其优化值，对噪声叠加扩大的训练集所训练的网络表现出其预测精度和推广性能明显的改进，所发明的方法通过其成功用于来自工业聚合反应器和连续搅拌反应器(CSTR)包含仪器误差和/或测量噪声的例子数据所例证。

Description

存在仪器噪声和测量误差时人工神经网络模型改进的性能

技术领域

本发明涉及用于在存在含有仪器噪声和/或测量误差的输入-输出数据的改进人工神经网络模型预测精度和推广性能的方法。

背景技术

人工神经网络(ANN)由于其能够以任意精确度逼近非线性关系而适合对复杂的的多输入-多输出非线性过程建模(Poggio，T.and Girosi，F.Regularization algorithms for learning that are equivalent tomultilayer networks.Science，247，978，1990)。其结果是，ANN已经广泛用于多种工业，进行过程变量的在线和离线预测。ANN的工业应用包括过程识别，稳态和动态过程建模，故障检测和诊断，软检测器研发，及非线性过程控制和监视。这些ANN应用已经由Tambe h共同作者进行了全面的综述(Tambe，S.S.，Kulkarmi，B.D.，Deshpande，P.B.Elements of Artificial Neural Networks with Selected Applicationsin Chemical Engineering，and Chemical & Biological Sciences，Simulation & Advanced Controls Inc.：Louisville，USA，1996)。在任何过程操作期间，产生大量的过程输入-输出数据，这些数据能够用来研发事先预测过程输出变量值的ANN模型。所希望的ANN模型特性是：(i)应当精确预测包含在用于其构成的输入-输出例子数据集中的输出，以及(ii)应当具有良好的推广的可能性。传统上，使用尽可能减小预定成本(误差)函数的适当的权重-调节算法训练ANN模型。例如，最广泛使用误差反向传播(EBP)(Rumelhart，D.，Hinton，G.，William，R.，Learning representations by backpropagating errors.Nature，323，533，1986)算法进行均方根误差(RMSE)函数的最小化。在任何大的过程数据集中，都会有仪器噪声和/或测量误差的存在。在用于网络训练的输入-输出数据中噪声和/或误差的存在生成了对于模型预测精度的阈值极限，并由模型显示的推广的性能。这主要是因为网络试图逼近(学习)包含噪声和/或误差的输入和输出数据之间存在的平均关系而发生的。由于网络忽略数据中的噪声和误差，因而由它所俘获的平均关系充满了不精确性。由于关于过程操作的重要的控制数和方针决策基于由模型作出的预测，因而预测中的不精确性，如果它们是重要的，则是不能容许的。例如，在聚合反应器中，质量变量的预测，诸如熔体流指标(MFI)，应力指数(Sex)等在决定生产的聚合物等级中是重要的。能够推广的ANN模型不仅精确预测用于其研发的数据(例子集)中的输出，而且还对应于新的或新型的输入数据。非常重要的是ANN模型不仅具有优秀的预测精度，而且有良好的推广性质。

已经由Gorp和同事们观察到(Gorp，J.V.，Schoukens，J.，Pintelon，R.，Learning neural networks with noisy input using theerrors-in-variables approach，Transaction on Neural Networks A.180，1-14，1999)，在商业软件中，大部分ANN模型是使用简单的输出误差(OE)代价函数训练的，并且当输入数据有噪声时，这可能导致网络预测的输出严重的偏差。作者证明，噪声的存在实际上抑制了ANN模型的转移函数较高阶的导数，并如果采用传统的最小二乘法代价函数，则还引入偏差。于是，用于改进ANN推广性能的方法推荐以新型的代价函数例如变量中的误差(EIV)代价函数代替RMSE代价函数(Gorp，J.V.，Schoukens，J.，Pintelon，R.，Learning neural networks with noisyinput using the errors-in-variables approach，Transaction on NeuralNetworks A.180，1-14，1999)。EIV方法的缺陷是其实现需要关于输入和输出变化的知识。在许多实际的设置中，这种信息是不可得的，这样严重限制了EIV方法的使用。该方法论虽然对于噪声测量可较好地工作，但还是需要大量的存储器并可能导致局部最小。另一些方法，诸如：(i)使用EIV方法作为在施加OE方法之后的后处理工具，(ii)使用被测的输入和输出值代替估计值，以及(iii)修改的学习和优化方案，被多样化地提出和展示(Gorp，J.V.，Schoukens，J.，Pintelon，R.，Theerrors in variables cost function for learning neural networks withnoisy inputs.Intelligent Engineering Systems Through ArtificialNeural Networks，8，141-146，1998)。

报道添加噪声对ANN模型性能的影响的文献相对少，并至今只进行了很少的系统研究。一般知道，对训练数据添加噪声有助于获得具有较好推广性能的模型。Sietsma与Dow报告(Sietsma，J.，Dow，R.，J.，Creating artificial neural networks that generalize，Neural Networks 4，67-79，1991)噪声和添加的伪-高斯分布噪声对训练模式(向量)的每一元素有益的效果。他们证明，使用添加噪声的数据训练改进了多层感知机(MLP)网络的分类能力。研究还揭示了需要较高数目的网络结点，且每一结点对解独立贡献；还可能是对网络输出没有重要贡献的少量的单元能够通过适当的网络修剪技术被去除。这种观点还由Minai和Williams共有(Minai，A.A.，Williams，R.D.，Perturbation response infeedforward network，Neural Networks，7(5)，783-796，1994)，他们提出产生较大的网络，其中每一结点在较小程度上对整体计算贡献。在另一彻底的研究中，An研究了(An，G.，The effects of adding noiseduring backprogation training on a generalization performance.Neural Comput.，8，643-674，1996)噪声添加对基于EBP网络训练推广性能的影响。这样，An的研究分别分析了输入、权重、和输出中噪声对网络预测性能的影响。研究表明，输出中的噪声没有改进推广，但在输入和权重中的噪声是有帮助的。还观察到，使用Langevin噪声的网络训练导致整体极小化，这类似于使用模拟退火方法所获得的网络训练。在理论研究中，Bishop(Bishop，C.M.，Training with noice isequivalent to Tikhonov regularization，Neural Comput.，7，108-116，1995)声称由噪声引起的误差项对应于一类推广调节器。调节(Poggio，T.，Girosi，F.Regularization algorithms for learning that areequivalentto multilayer networks，Science，247，978，1990)通过损失项的添加而修改误差函数，并控制由网络产生的变化。实际上，训练数据中噪声的添加提供了一种平滑的形式，并且该方法起作用是因为通过ANN被学习的函数一般是平滑的，或至少在有限数的区域中是分段连续的。该命题包括以下假设，对于适定的问题存在唯一的解，并且数据的小扰动应当只产生解的小的变化。换言之，对于两个类似地输入，预期有两个类似地输出。这样，对于给定的例子数据集，通过叠加小量的噪声能够产生附加的网络训练模式。虽然太小的噪声量将导致没有结果的不明显的变化，但由于大量的噪声将明显地破坏输入和和输出之间的固有关系，因而噪声量必须小。紧接下来是必须确切地量化要被叠加到输入-输出例子数据的‘小’噪声量。可以注意到，在在制造和加工业中大量存在的非线性系统中，输入变量变化影响输出变量的敏感性，可能显著不同。因而必须对每一输入和输出变量添加噪声变化的程度。确定要向每一输入-输出变量添加的确切的噪声量是一复杂的问题，并且本发明就这一问题提供了基于遗传算法的有效解。

遗传算法(Goldberg，D.E.，Generic Algorithms in Search，Optimization，and Machine Learning，Addison-Wesley：New York，1989，Holland，J.，Adaptation in Natural and Artificial System，University of Michigan Press，Ann Arbor，MI，USA)是一类称为随机优化算法’的函数最小/最大形式体系的成员。它们基于在生物机体的达尔文进化论中起重要作用的自然选择和遗传机制。已知GA在搜索噪声、非连续的、多模和非凸解空间中是有效的，并且其特性是：(i)它们是第零’阶搜索技术，意味着GA只需要标量值而不是被优化的目标函数的导数，(ii)GA进行整体的搜索，因而它们在目标函数表面上通常收敛到整体最优值，(iii)由GA使用的搜索过程是随机性的，因而它们能够在不特别涉及诸如关于对象函数的形式的平滑性，可微性，及连续性假设之下被采用(由于这一特性，GA能够用来解决使用经典基于梯度的算法所不能解决的优化问题，经典算法要求目标函数同时满足上述准则)，以及(iv)GA过程能够被并行化，这有助于有效而快速地搜索大的多维解空间。本发明公开了基于遗传算法的方法，用于达到向例子集的每一输入/输出变量所添加的噪声优化水平，从而生成在ANN训练中使用的扩大的噪声叠加采样数据集，诸如改进预测精度的训练网络过程和推广性能。

在GA过程中，搜索表示在例子集合中输入/输出变量上被叠加的噪声的允许值的优化解向量(又称为决策向量)，从概率(候选)解的随机初始化随机母体开始。然后通常以二进制串(染色体)形式编码的解被测试，以测量其在满足优化目标即函数最小化或最大化中的适配性。接下来，候选解按其适配性得分的降序排序，并对排序解执行包括选择、交叉和变异的GA运算的主循环。循环的实现产生候选解新的母体，它与当前母体比较可更好满足优化目标。在重复上述循环若干次之后演化成的最佳串，形成优化问题的解。在评估解向量的适配性时，包含在其中的输入/输出变量特定噪声允许值用来产生对应于例子集中每一模式的大量的噪声叠加样品输入/输出模式；然后所得的放大数据集用来以最小化最小二乘代价函数诸如RMSE的观点训练神经网络。使用基于梯度或其它适当的权重更新形式方法进行ANN的训练。由此获得的RMSE的大小用来计算包括噪声允差的候选向量解的适配值。对使用GA-优化噪声允差值产生的数据所训练的网络更好地逼近存在仪器噪声和/或测量误差的真实的输入-输出关系，因而具有良好的由此精度和推广性能。

本发明基于考虑两个例子，即(i)工业聚合反应器基于ANN的建模，及(ii)连续搅拌桶反应器基于ANN-的建模，其中发生发热连续A→B→C反应。使用所发明的方法获得的预测精度与使用通常所使用的网络训练过程获得的预测精度比较。

本发明的目标

本发明的主要目标是要提供一种方法，用于在存在包含仪器噪声和/或测量误差的输入-输出数据时，改进人工神经网络模型的预测精度和推广性能。特别地，发明了一种方法，使用计算机生成要在网络训练中使用的高斯噪声叠加扩大采样输入-输出数据集，其中使用基于遗传算法(GA)的策略优化添加到每一输入-输出变量的噪声量。通过以下原则即两个类似的输入结果应当是两个类似的输出，基于GA的方法调整要添加到例子数据输入-输出变量的噪声优化水平。

本发明的概述

本发明采用人工生成的噪声叠加输入-输出数据模式。用于构成具有改进的预测精度和推广性能的ANN模型。实质上，本发明提出的方法是迫使ANN学习在其输入与输出之间存在的噪声关系。在发明的方法使用输入-输出变量特定噪声允差值，用于生成噪声叠加扩大采样数据集供网络的训练。具体来说，已知允差的高斯噪声被添加到例子集的每一输入和输出变量，并以这种方式产生对应于例子集中每一模式的多个噪声叠加模式。本发明中，使用称为遗传算法’的一种新型进化随机优化形式方法优化每一输入/输出变量特定的允差值。已经发现对噪声叠加扩大采样数据训练的ANN模型具有改进的预测精度和推广的能力。

本发明的详细说明

于是，当称为例子集的可用于构成网络模型的输入-输出数据包括仪器噪声和/或测量误差时，本发明提供了用于改进非线性人工神经网络模型的预测精度和推广性能的方法，所述方法包括以下步骤：

(a)使用计算机模拟产生噪声叠加扩大输入-输出采样数据集；

(b)使用计算机模拟对于例子集中每一输入-输出模式产生M数目噪声叠加输入-输出模式(向量)；

(c)使用每一输入/输出变量专用的噪声允差值产生噪声-叠加采样输入-输出模式；

(d)使用计算机模拟产生高斯(正态)分布随机数，以便生成噪声-叠加采样输入-输出模式；

(e)使用随机搜索和优化技术，确定要添加到例子集中每一输入-输出变量的准确的高斯噪声量；以及

(f)使用计算机产生的噪声-叠加采样输入-输出模式作为训练集’用于构成非线性人工神经网络模型；

本发明的一个实施例，其中通过遗传算法确定的被添加到例子集的每一输入输出变量准确的高斯噪声量，是整体(非局部)优化的。

本发明的另一实施例，其中例子集用作为测试集’，用于监视人工神经网络模型的推广性能。

本发明又一实施例，其中人工神经网络模型结构是从输入层向输出层前馈’的，即网络内的信息流是单向的。

本发明的另一实施例，其中前馈的神经网络结构包括多层感知机(MLP)网络，径向基函数网络(RBFN)，及反向传播神经网络(CPNN)。

本发明的又一实施例，其中用于构成或训练人工神经网络模型的算法包括误差反向传播，共轭梯度，Quickprop和RPROP。

本发明的另一实施例，其中用来优化噪声允差的随机搜索和优化技术涉及遗传算法和相关方法，即模拟退火(SA)、同时扰动随机逼近(SPSA)、进化算法(EA)和memetic算法(MA)。

本发明的又一实施例，其中使用计算机模拟从小规模例子输入-输出集生成扩大的噪声叠加采样输入-输出数据集。

进而以以下实施例的形式说明本发明。

考虑表示例子集的P数目的输入-输出模式对[(x₁，y₁)，(x₂，y₂)，...，(x_p，y_p)，...，(x_p，y_p)]。N-维输入向量x_p和对应的K-维输出向量y_p之间的相互关系由定义为y_p＝f(x_p)的K-维非线性函数向量f支配。x_p，和y_p向量也分别称为输入模式及对应的输出(目标)模式。第p个N-维输入向量定义为[x_p1，x_p2，...x_pN]^T及对应的K-维目标输出y_p向量[y_p1，y_p2，...y_pK]^T。前馈神经网络(FFNN)，诸如MLP(参见图1)，逼近x_p，和y_p之间的如下给出的非线性关系

y_{p} = f (x_{p}, W^{H}, W^{O}) - - - (1)

其中矩阵W^H和W^O分别表示对MLP的输入和隐藏层结点之间，以及隐藏和输出结点之间的连接的权重。训练MLP网络的整体目标是要使适当的最小平方最小化。

误差函数，例如如下定义的均方根误差(RMSE)(Nandi，S.，Ghosh，S.，Tambe，S.S.，Kulkarni，B.D.，Artificial neural-network-assistedstochastic process optimization stategies.AIChE J.，47，126，2001)：

RMSE = \sqrt{\frac{Σ_{i = 1}^{N_{pat}} 2 E_{i}}{N_{pat} \times K}} - - - (2)

权重i表示输入模式的下标(i＝1，2，...，N_pat)；K表示输出结点数，而E_i表示如下定义的平方和误差(SSE)：

E_{i} = \frac{1}{2} Σ_{k = 1}^{K} {(o_{i}^{k} - y_{i}^{k})}^{2} - - - (3)

其中y_i ^k表示当第i个输入模式施加到网络输入层时，第k个输出结点的实际输出，o_i ^k表示对应的目标输出。RMSE最小化的任务是使用适当的梯度下降技术实现的，诸如基于广义德尔塔规则(GDR)的误差反向传播(EBP)，共轭梯度，或更先进的方法即Quickprop(Fahlman，S.E.，Faster-learning variations on back-propagation：Proceedings ofthe 1988 Connectionist Models Summer School，D.S.Touretzky，G.E.Hinton，and T.J.Sejnowski，Eds.，pp.38-51，Morgan Kaufmann，SanMateo，CA，1998)，和弹性反向传播(RPROP)(Riedmiller，M.，BraunH.，A direct adaptive method for faster backpropagation learning：The RPROP algorithm.Proc.of IEEE Int.Conf.On Neural Net，SanFransisco，CA，March 28-april 1，1993)。网络训练过程是以初始化权重矩阵W^H和W^o随机开始的迭代过程。训练迭代由两类即前向和反向通过网络层的传送组成。在前向传送中，来自训练数据集的输入模式施加到输入结点，且评价隐藏结点的输出。为了计算所述的输出，首先计算对隐藏结点的输入加权和，然后使用非线性激励函数，诸如；逻辑s形曲线。隐藏结点的输出形成到输出层结点的输入，其输出以类似于隐藏结点的的方式被评估。输出层结点的输出，其也称为网络输出，与目标输出比较，并以反向传送，网络和目标输出之间的差(预测误差)用于更新权重矩阵W^H和W^O。当对训练集中所有的模式重复时权重更新过程完成一个训练迭代。可注意到，权重矩阵W^H和W^O可以使用各种方法被更新，诸如EBP，共轭梯度，Quickprop及RPROP。本发明提出一种方法，从而从例子集生成用作为训练数据的噪声叠加扩大采样输入-输出数据集，且其中使用遗传算法确定被添加到每一输入/输出变量的噪声优化量，使得结果的ANN模型具有改进的预测精度和推广性能。以下说明所发明的优化被添加到例子集的每一输入/输出变量的噪声量的方法。

考虑在例子集中作为[PxN]输入矩阵X的P数目的N-维输入向量，以及作为[PxK]输出矩阵Y的相等数目的对应的的K-维输出向量。本发明分别生成矩阵X和Y的噪声叠加矩阵版本和它们用作为用于ANN训练的训练输入和输出集。待添加的高斯(正太分布)噪声量是对输入/输出变量特定的，并以允差百分比刻画。用作为在输入矩阵X和输出矩阵Y中引入噪声的噪声允差向量分别定义为ε^I和ε⁰。刻画被添加到N-维输入向量的每一元素的N-维噪声允差向量定义为：

ϵ^{I} = [{ϵ_{1}^{I}, ϵ_{2}^{I}, . . ., ϵ_{n}^{I}, . . ., ϵ_{N}^{I}]}^{T} - - - (4)

并且其第n个元素ε^I _n用来在输入矩阵X的第n个列元素{x_pn}∶p＝1，2，...，p中引入工组。噪声允差值ε^I _n定义为

ϵ_{n}^{I} = (3.09 \times 100) \times (σ_{pn}^{I} / x_{pn}); n = 1,2, . . ., N - - - - (5)

其中x_pn和σ^I _pn标记高斯分布的平均与标准偏差。重新排布方程式5，标准偏差可被计算为

σ_{pn}^{I} = (ϵ_{n}^{I} \times x_{pn}) / (3.09 \times 100) - - - (6)

使用x_pn(n＝1，2，...，N)作为平均，σ^I _pn(n＝1，2，...，N)作为高斯分布的标准偏差，产生(使用计算机模拟)M数目的噪声叠加采样输入模式，对应于例子集中第p(p＝1，2，...，P)个输入模式。所得的噪声叠加引起的输入矩阵具有维数[(MP)xN]。

类似于对于输入的噪声允差向量ε^I，我们定义K-维输出噪声允差向量ε⁰为

ϵ^{0} = [{ϵ_{1}^{0}, ϵ_{2}^{0}, . . ., ϵ_{k}^{0}, . . ., ϵ_{k}^{0}]}^{T} - - - (7)

这一允差向量的第K个元素ε⁰ _k用来在目标输出矩阵Y的第K列元素{y_pk}，P＝1，2，...，P中引入高斯噪声。允差向量元素ε⁰ _k定义为

ϵ_{k}^{0} = (3.09 \times 100) \times (σ_{pk}^{0} / y_{pk}) - - - (8)

其中y_pk和σ⁰ _pk分别表示高斯分布的平均和标准分布。重新编排方程式8，标准偏差可估计为为

σ_{pk}^{0} = (ϵ_{k}^{0} \times y_{pk}) / (3.09 \times 100) - - - (9)

类似于矩阵的方式使用计算机模拟产生噪声叠加采样输出矩阵

这里y_pk(k＝1，2，...，K)和σ⁰ _pk(k＝1，2，...，K)分别用作为高斯分别的平均和标准偏差，形成对应于例子集中第p个(p＝1，2，...，P)目标输出模式的M数目的噪声叠加采样输出模式。所得的噪声叠加引起的输入矩阵具有维数[(MP)xK]。在ANN训练期间，矩阵和

用作为输入-输出训练数据，同时矩阵X和Y用作为测试输入-输出数据以便监视网络的推广性能。

在其输入与输出之间的关系为非线性的系统中，相关的(输出)变量出对临时(输入)变量变化的敏感性变化程度。这样，被添加到例子集中(由允差向量ε^I和ε^o定义)每一输入/输出变量的噪声的准确量的确定称为关键问题。本发明引入了基于GA的方法优化被添加到例子数据集的输入-输出元素的准确的噪声量。当在训练网络中使用时，噪声叠加数据结果得到具有改进的预测精度和推广性能的网络模型。在以下，提供用于优化被添加到例子集的输入-输出元素的准确的噪声量的基于GA的方法的说明。

基于GA的优化任务描述为：找到输入/输出变量特定噪声允差的优化值，使得使用噪声允差值生成的噪声叠加扩大训练集结果得到具有改进的预测精度和推广能力的的网络模型。实质上，GA的任务是找到优化的输入和输出噪声允差训向量，

ϵ^{I *} = {[{ϵ_{1}}^{I *}, {ϵ_{2}}^{I *}, . . ., {ϵ_{n}}^{I *}, . . ., {ϵ_{N}}^{I *}]}^{T}

和

ϵ^{0 *} = {[{ϵ_{1}}^{0 *}, {ϵ_{2}}^{0 *}, . . ., {ϵ_{k}}^{0 *}, . . ., {ϵ_{K}}^{0 *}]}^{T},

使得当它们用来产生噪声叠加扩大输入-输出训练集时，对于测试集的RMSE误差最小化。于是，通过GA被最小化的目标函数是由以下定义的测试集RMSE：

{RMSE}_{tst} = \sqrt{\frac{Σ_{i = 1}^{N_{tst}} 2 E_{i}}{N_{tst} \times K}} - - - (10)

其中i标记测试输入模式的的下标(i＝1，2，...，N_tst)；K表示MLP结构中的输出结点数，N_tst表示测试集中模式数，而E_i表示对应于第i个测试模式的平方和误差(SSE)。RMSE_tst最小化中涉及的遗传算法步骤为：

(1) 候选解母体的初始化：设代下标(N_gen)为零，并随机产生N_pop二进制串(染色体)的母体；具有总共l_chr位的每一串被划分与待优化的决策变量数目(N+K)同样多的段。注意，一个串的(N+K)个二进制段的十进制等效值表示候选解向量，其前面的N个元素表示对应于N个输入变量的噪声允差，之后的K个元素表示对应于与输出变量同样多的噪声允差。这样，N_pop个候选解的母体可表示为输入-输出噪声允差的一组合的集合：

{ϵ_{\ln}^{''}, ϵ_{lk}^{''}}; l = 1,2, . . ., N_{pop} :; n = 1,2, . . ., N; k = 1,2, . . ., K - - - (11)

(2) 适配性计算：采样在包括输入-输出噪声允差的向量对的当前母体中第1个(l＝1，2，...，N_pop)候选解，计算该解的适配性值。具体来说，使用输入-输出噪声允差值通过稍早概述的以下过程生成高斯噪声叠加扩大向量集{

}。这样生成的训练集用来调节适当的学习算法框架，诸如EBP，共轭梯度，Quickprop和RPROP的网络权重矩阵W^H和W^O。在训练期间，例子的输入-输出集用作为测试集，且对应的RMSE值(RMSE_tst(l))用来计算第j个候选解的适配性(ξ₁)，使用

ξ₁＝1/(1+RMSE_tst(1))；l＝1，2，，...，N_pop (12)

注意，方程式12定义的适配性函数的形式是可用来评估适配性ξ₁的几个形式之一。也可使用涉及损失项的适配性函数(Deb，K.，Optimization for Engineering Design，Algorithms and Examples，Prentice-Hall，New Delhi，1995)。适配性评估之后，候选串按其适配性值降序排列。

(3) 母类的选择：从当前母体选择N_pop数目的母类染色体以便形成配对组。这一组的成员是这样选择的，使得具有相对高的适配得分，并且它们用来产生支系串。通常使用的母类选择技术是Roullete-Wheel(RW)方法，以及RW方法更多的稳定变种，称为随机剩余选择(SRS)(Goldberg，D.E.Genetic Algorithms in Search，Optimzation，and Machine Learning，Addison-Wesley：New York，1989)。

(4) 交叉：从配对组随机选择N_pop/2数目的的母类对，并对每一对以等于P_cr(0＜P_cr≤1.0)的交叉概率进行交叉运算。在交叉中，母类对的每一成员在相同的随机选择的交叉点处被切割。结果是，从每一母类串形成两个子串；子串在母类之间被相互交换并组合而获得两个支系染色体。当对所有母类-对执行时，被称为单点交叉’这一交叉运算结果是包括N_pop数目支系串的母体。

(5) 变异：对支系串进行变异(位-颠倒)运算，其中受到颠倒(零到一或反之)的位的概率等于P_mut；推荐的范围是p_mrt[0.01-0.05]。

(6)使代下标增加一(N_gen＝N_gen+1)，并对新产生的支系串重复步骤2-5，直到达到收敛。GA收敛的基准可以是：N_gen超过其最大极限(N_gen ^max)，或在变异支系母体中的最佳串适配性得分经过相继的代有很小的或没有变化。在达到GA-收敛之后，具有最高适配性值的串被解码而获得优化的解。通常大数目的代必定获得优化解向量[ε^I*，ε^0*]，这导致最小的RMSE_tst量值。

虽然以下描述本发明的优选实施例，但本发明能够有各种变形和修改。这样，本发明的范围不限于用来展示其效果的各例子的机器的细节。

在本发明的一实施例中，使用噪声-叠加扩大的输入-输出数据集对用来进行非线性建模和分类的人工神经网络进行训练，其中使用称为遗传算法的随机优化形式方法确定被添加的例子集的每一输入/输出变量的最优噪声量，遗传算法使网络能够具有改进的预测降低和推广性能。

在本发明的另一实施例中，当包含引起噪声和/或测量误差称为例子集’的输入-输出数据已经或是在线或是离线被收集时，该方法被证明可使用。

在本发明的另一实施例中，该方法对于其实现不需要过程监视系统、过程类型和传感器硬件等的知识。

在本发明的又一实施例中，使用其它随机优化技术，诸如同时扰动随机逼近(SPSA)，模拟退火(SA)，蚂蚁群体方法，及memetic算法，能够确定被添加的例子数据的优化噪声。

在本发明另一实施例中，能够在输入和输出例子数据之间的关系为非线性的情形下，使用该方法建立人工神经网络模型。

在本发明的另一实施例中，所发明的形式方法可用于各种确定性的和随机性的人工神经网络训练方案，诸如误差反向传播，共轭梯度，Quickprop及RPROP。

于是，本发明提供了一种方法，用于改进人工神经网络模型在包含仪器噪声和/或测量误差数据存在之下的预测精度和推广性能，该方法包括步骤(参见图2)：

(a)以临时(输入)变量的[PxN]矩阵(X)、及相关的(输出)变量对应的[PxK]矩阵(Y)的形式，编辑进程数据(例子数据)。

(b)预处理例子数据集，即去除明显的和非明显的异常值，抛弃包含丢失数据的模式，有故障的传感器读数等。

(c)通过随机产生大小N_pop串的候选解母体，开始GA搜索及优化过程(代数N_gen＝0)，其中每一解为[N+K]维决策变量向量，描述N个输入噪声允差(ε^I)，及K个输出噪声允差(ε⁰)。

(d)使用第1个(l＝1，2，...，N_pop)候选解执行以下步骤：

(i)对应于例子集中第p个(p＝1，2，...，P)输入-输出模式，使用计算机模拟产生M个数高斯噪声叠加采样输入-输出模式。分别使用方程式6和9计算用于产生输入和输出采样模式的标准偏差值(σ^I，σ^O)。结果所得采样输入矩阵和输出矩阵

分别为[(MP)，N]及[(MP)，K]维。

(ii)使用适当的训练算法，例如误差反向传播，共轭梯度，Quick-prop或RPROP，训练前馈ANN，诸如MLP，包括N数目的输入结点，N_H数目的隐藏结点，每一输入和隐藏层中的偏移结点，及K数目的输出结点。在训练期间，使用噪声叠加采样输入-输出矩阵和分别调节网络权重矩阵W^H和W^o，并使用例子输入-输出矩阵X和Y作为测试数据衡量网络的推广性能。网络训练的目的是要对于测试集(RMSEtst)最小化RMSE。为了达到这一目的，必须优化数个隐藏层，每一隐藏层中的数个结点，及训练算法专用参数，例如EBP算法中的学习率和动量系数。对应于第1候选解的最小化的测试集RMSE值定义为RMSE_tst(l)。

(e)使用在上一步骤获得的最小化RMSE_tst(l)值计算候选解的适配性值ξ_l：l＝1，2，...，N_pop。诸如以下给出的适当的适配性函数可用于计算适配性值：

ξ₁＝1/(1+RMSE_tst(1))； l＝1，2，...，N_pop (13)

其中ξ₁表示第1个候选解的适配性得分，而RMSE_tst(l)标记当第1个解用来产生噪声叠加扩大训练数据时的最小化测试集RMSE值。在评估它们的适配性值之后，候选解按适配性得分的降序排列。

(f)如稍早详述，对当前排序的候选解母体执行选择、交叉和变异运算，以获得新一代的解(N_gen＝N_gen+1)。

(g)对新一代候选解执行步骤(d)到(f)，直到达到收敛。成功收敛的基准是或者GA已经在大量的代上演化(N_gen≥N_gen ^max)，或者最佳解的适配性值显示可被忽略或在相继的代中没有变化。在收敛母体中具有最高适配性值的候选解表示GA-优化解(ε^I*，ε^0*)，且对应于这一解的权重矩阵(W^H和W^O)表示具有改进的预测精度和推广性能的ANN模型优化权重。

附图的简要说明

图1：表示典型的前馈神经网络诸如多层感知机(MLP)的示意图

图2：表示详细说明本发明中步骤的流程图

以下以示例的方式给出使用本发明的例子，因而这不应构成对本

发明范围的限制.

例子1

在所发明的方法的第一示例中使用的数据是取自运行的工业聚合工艺过程。该工艺过程数据由九个输入和一个输出组成；输入描述了工艺过程的条件，而输出表示聚合物质量参数.总共有28个输入-输出模式(例子集)用于ANN建模。这些数据含有仪器噪声和测量误差。使用MLP作为ANN范例，使用各种训练算法诸如EBP，共轭梯度，Quickprop和RPROP，开发前面七个网络模型为预测聚合物质量参数。在开发基于MLP模型时，严格研究了各种网络结构参数的效果，诸如隐藏层的数目，每一隐藏层结点数，学习率，动量系数等。而且详尽考察了网络权重、及训练和参数集的大小的不同初始化效果。使用上述对于训练和测试集产生最小RMSE值的方法训练的MLP网络的结构，包含输入层中的九个结点，隐藏层-1中的六个结点，隐藏层-2中的七个结点，及输出层中的一个结点。RMSE误差对于训练和测试集的量值分别为0.00590(RMSE_trn)及0.03436(RMSE_tst)。从RMSE值可看出，RMSE_tst远大于RMSE_trn，这样推断出网络模型的推广可能性是不令人满意的。为了使为了模型的预测精度和推广性能都有改进，使用了本发明所述的方法。具体来说，对于例子集中每一模式产生25(M＝25)个噪声叠加采样输入-输出模式。使用在本发明中引入的(也是参见图2)基于遗传算法的策略，获得优化输入-输出噪声允差值(ε^I*，ε^O*)，用于产生总共包括700输入-输出模式的噪声叠加数据。由GA给出的优化允差值列于表1.这些值使用以下GA-专用的参数值获得：(i)每一母体串的长度(l_chr)＝10位，(ii)母体大小(N_pop)＝16，(iii)交叉概率(P_cr)＝0.9，及(iv)变异概率(P_mut)0.05.对噪声叠加数据训练的MLP网络结果如表2中所报告的RMSE值；为了进行比较，使用作为训练集的非噪声叠加数据获得的最小RMSE值也在表中列出。从表2中列出的值可清楚地看到，对噪声叠加数据训练的网络结果对于训练和测试数据两者都是较小的RMSE值，RMSE_tst已从0.03436明显降低到0.00172。为了便于比较，已计算出网络预测和目标输出值之间的平均百分比误差和相关系数(CC)并也列于表2中。可以观察到，当噪声叠加数据用于网络训练时CC值已经增加。较小的训练和测试集RMSE值分别指示，对噪声叠加数据训练的网络模型改进的预测精度和推广性能。而且网络预测输出与它们的希望的量值之间的平均百分比误差模型降低。这样能够推断，本发明已经成功地改进了网络模型的预测精度和推广性能。

表格1：对于工业聚合工艺过程使用基于GA策略获得的输入-输出变量的优化噪声允差值

对于输入变量百分比噪声允差(ε^I*)									对于输出变量百分比噪声允差(ε^0*)
对于输入变量百分比噪声允差(ε^I*)									对于输出变量百分比噪声允差(ε^0*)	ε₁ ^I*	ε₂ ^I*	ε₃ ^I*	ε₄ ^I*	ε₅ ^I*	ε₆ ^I*	ε₇ ^I*	ε₈ ^I*	ε₉ ^I*	ε₁ ^0*
0.569	0.246	0.932	0.540	0.604	0.810	0.896	0.662	0.613	0.831	ε₁ ^I*	ε₂ ^I*	ε₃ ^I*	ε₄ ^I*	ε₅ ^I*	ε₆ ^I*	ε₇ ^I*	ε₈ ^I*	ε₉ ^I*	ε₁ ^0*

表格2：比较使用非噪声叠加和噪声叠加训练数据集获得的RMSE值，相关系数和平均预测误差

训练和测试数据描述	用于训练和测试集的RMSE值		相关系数(CC)		平均绝对预测误差(％)
	用于训练和测试集的RMSE值		相关系数(CC)		平均绝对预测误差(％)		RMSE_tm	RMSE_tst	训练集	测试集	训练集	测试集
	1.例子集被划分为训练和测试集(无噪声叠加)	0.00590	0.03436	0.99976	0.99529	1.4113	RMSE_tm	RMSE_tst	训练集	测试集	训练集	测试集	4.9748
2.噪声叠加训练数据和作为测试数据的例子集，其中通过GA确定被添加到输入/输出变量的噪声优化量	1.例子集被划分为训练和测试集(无噪声叠加)	0.00590	0.03436	0.99976	0.99529	1.4113	0.00341	0.00172	0.9999	0.9998	0.8238	1.2745	4.9748

例子2

这例子中，涉及有套非等温连续搅拌桶反应器(CSTR)的工艺过程，其中考虑顺序发生的两个一级反应A→B→C。工艺过程数据包括六个CSTR操作变量(输入)，而其中单个的输出变量稳态值描述产品质量变量对应的稳态值。总共50个输入-输出数据模式(例子集)可用于基于ANN的建模；数据包含仪器噪声和/或策略误差。首先采样例子集作为训练数据形成一MLP模型，用于预测输出变量值，为此使用各种训练算法，诸如EBP，共轭梯度，Quickprop或RPROP。在形成MLP网络模型时，研究了各种结构参数的效果，例如隐藏层数目，每一隐藏层中结点数，学习率，动量系数等。而且严格地考察了网络权重不同的初始化及训练和参数集大小的效果。使用上述方法训练的MLP网络的结构，及对于训练和测试集产生的最小RMSE误差，包含输入层中的六个结点，隐藏层-1中的的四个结点，隐藏层-2中的四个结点，以及输出层中的一个结点。发现对于训练和测试集的RMSE误差分别为0.00909(RMSE_tm)及0.01405(RMSE_tst)。从RMSE值看出，仍然存在相当的范围可改进网络模型预测精度及推广性能。为此目的，使用了本发明所展示的方法。具体来说，对于例子集中每一模式产生了25(M＝25)个噪声叠加采样输入-输出模式。使用本发明中引入的基于遗传算法的策略(参见图2)，获得了用于产生包括总共1250个采样输入-输出模式的噪声叠加数据的优化允差值(ε^I*，ε^O*)。通过GA给出的优化噪声允差值列于表3。这些值是使用以下GA专用参数值获得的：(i)每一母体串的长度(l_chr)＝10位，(ii)母体大小(N_pop)＝14，(iii)交叉概率(P_cr)＝0.9，及(iv)变异概率(P_mut)＝0.05.使用噪声叠加数据获得的最小训练和测试集RMSE值在表4中列出；为了进行比较，使用无噪声叠加的数据获得的最小RMSE值也列于表中。在表4所列的值清楚观察到，对噪声叠加数据训练的网络结果是对于训练和测试数据两者都有较低的RMSE值。更重要的是，RMSE_tst已明显从0.01405降低到0.00183.很小的训练和测试集RMSE值指示出，对于噪声叠加数据训练的网络模型提高的预测精度和推广的性能。对应的的较高的(≈1)相关系数值和较小的平均预测误差(％)值也支持这一推断。这样能够断定，本发明在改进对于CSTR的ANN模型的预测精度和推广性能上是成功的。

表格3：对于CSTR工艺过程使用基于GA策略获得的输入-输出变量的优化噪声允差值

对于输入变量百分比噪声允差(ε^I*)						对于输出变量百分比噪声允差(ε^0*)
对于输入变量百分比噪声允差(ε^I*)						对于输出变量百分比噪声允差(ε^0*)	ε₁ ^I*	ε₂ ^I*	ε₃ ^I*	ε₄ ^I*	ε₅ ^I*	ε₆ ^I*	ε₁ ^0*
0.753	1.206	0.227	1.413	0.913	0.416	1.533	ε₁ ^I*	ε₂ ^I*	ε₃ ^I*	ε₄ ^I*	ε₅ ^I*	ε₆ ^I*	ε₁ ^0*

表格4：比较对于CSTR工艺过程使用非噪声叠加和噪声叠加训练数据集获得的RMSE值，相关系数，和平均预测误差

训练和测试数据描述	用于训练和测试集的RMSE值		相关系数(CC)		平均绝对预测误差(％)
	用于训练和测试集的RMSE值		相关系数(CC)		平均绝对预测误差(％)		RMSE_tm	RMSE_tst	训练集	测试集	训练集	测试集
	1.例子集被划分为训练和测试集(无噪声叠	0.00909	0.01405	0.99904	0.99872	1.1038	RMSE_tm	RMSE_tst	训练集	测试集	训练集	测试集	1.041

加)
加)							2.作为测试数据的噪声叠加训练数据和例子集，其中通过GA确定被添加到输入/输出变量的噪声优化量	0.00793	0.00183	0.99931	0.99902	1.0038	0.9801

优点：

(1)易于在存在包含仪器噪声和/或测量误差施加到数据之下，实现形式方法以构成非线性人工神经网络模型。

(2)该方法由于专门通过计算机模拟产生扩大的训练数据集，因而是节省成本的，并从而避免收集附加的工艺过程数据，用于改进人工神经网络模型的预测精度和推广能力。

(3)所发明的方法产生噪声-叠加训练数据，用于改进人工神经网络模型的预测精度和推广性能，其中被添加到每一输入-输出变量的噪声量不是任意选择的，而是使用新型和有力的随机优化技术即遗传算法。

(4)遗传算法的使用允许获得被添加到例子数据的每一输入/输出变量噪声的整体(而不是局部)优化量。

(5)所发明的方法，由于使用噪声-叠加技术生成附加的训练数据，故甚至在例子数据不适于进行ANN训练时也能工作。

(6)该方法有充分的通用性，以保证其用于对多输入-多输出非线性系统的建模和分类。

(7)所发明的方法能够实时用于涉及基于人工神经网络建模和分类。

(9)所发明的方法对于使用并行计算机的实现能够被有效地并行化。

(10)本发明的实现是完全自动化的，很少或不需要人工干涉。

Claims

1.一种方法，当称为例子集的可用于构成网络模型的输入-输出数据包括仪器噪声和/或测量误差时，用于改进非线性人工神经网络模型的预测精度和推广性能，所述方法包括以下步骤：

(a)使用计算机模拟产生噪声叠加扩大的输入-输出采样数据集；

(b)使用计算机模拟对于例子集中每一输入-输出模式产生M数目噪声叠加采样输入-输出模式(向量)；

(f)使用计算机产生的噪声-叠加采样输入-输出模式作为‘训练集’，用于构成非线性人工神经网络模型；

2.根据权利要求1的方法，其中通过遗传算法确定的被添加到例子集的每一输入输出变量的准确的高斯噪声量，是整体(非局部)优化的。

3.根据权利要求1的方法，其中例子集用作为‘测试集’，用于监视人工神经网络模型的推广性能。

4.根据权利要求1的方法，其中人工神经网络模型结构是从输入层向输出层‘前馈’的，即网络内的信息流是单向的。

5.根据权利要求1的方法，其中前馈的神经网络结构包括多层感知机(MLP)网络，径向基函数网络(RBFN)，及反向传播神经网络(CPNN)。

6.根据权利要求1的方法，其中用于构成或训练人工神经网络模型的算法包括误差反向传播，共轭梯度，Quickprop和RPROP。

7.根据权利要求1的方法，其中用来优化噪声允差的随机搜索和优化技术涉及遗传算法和相关方法，即模拟退火(SA)、同时扰动随机逼近(SPSA)、进化算法(EA)和memetic算法(MA)。

8.根据权利要求1的方法，其中使用计算机模拟从小规模例子输入-输出集生成扩大的噪声叠加采样输入-输出数据集。