CN111881990A

CN111881990A - 一种用于数字图像识别的构建型神经网络参数融合优化方法

Info

Publication number: CN111881990A
Application number: CN202010766549.7A
Authority: CN
Inventors: 谢林柏; 张思源; 彭力
Original assignee: Jiangnan University
Current assignee: Jiangnan University
Priority date: 2020-08-03
Filing date: 2020-08-03
Publication date: 2020-11-03
Anticipated expiration: 2040-08-03
Also published as: CN111881990B

Abstract

一种用于数字图像识别的构建型神经网络参数融合优化方法，属于人工智能数字图像识别领域。本方法包括：构建融合优化性能指标；融合优化算法；利用构建的神经网络进行数字图像识别。本发明还通过收敛性分析验证了本发明的有效性，其中第一部分为准备环节，第二部分的IOM算法为本发明的关键技术和实现步骤，第三个部分为理论保证。本发明提供一种隐含层节点参数和输出层参数的同步联合优化方法，在理论上相比于现有方法具有更小的保守性。本方法生成的构建型神经网络模型比现有方法产生的模型结构更紧凑，冗余节点更少，计算速度更快。相比于现有方法产生的模型在学习阶段的后期，误差收敛的速度更快，收敛精度更高，泛化性能更好。

Description

一种用于数字图像识别的构建型神经网络参数融合优化方法

技术领域

本发明属于人工智能数字图像识别领域，提出了一种新的针对随机构建型神经网络(Randomizedconstructivenetwork)隐含层节点参数和输出层参数融合优化配置的方法。

背景技术

本发明专利针对随机构建型神经网络隐含层节点的连接权系数与输出层权系数不能同时联合优化的难题，尤其是在大规模神经网络系统中隐含层节点及其权系数数量剧增的情形下，给出了一种能够将隐含层节点权系数与输出层权系数进行联合优化配置的方法，同时给出了该方法的理论形成和证明过程以及相应的迭代算法步骤。本发明专利给出的系数融合优化方法及其双边配置条件为人工智能领域神经网络系统大规模参数的随机配置提供了一种新的理论指导方法和实现途径。

在人工智能领域，尤其是神经网络模型中，网络的结构和权系数的快速学习算法决定着最终生成的神经网络模型的性能。特别是对于图像的处理往往使用很大的网络结构，而深度的神经网络的训练往往需要花费大量的时间，并且针对网络的结构只能通过实验性质的方法来确定。所以我们针对神经网络对数字图像的处理问题，提出了一种新的浅层的构建型神经网络。在目前的浅层构建型神经网络模型中，比如单隐含层的神经网络模型。在目前的浅层构建神经网络模型中，比如单隐含层的神经网络模型，其隐含层节点和输出层节点的权系数是分阶段独立计算的，即，第一个阶段采用随机生成的方式得到隐含层各个节点的系数或者参数(ω_i,b_i)，其中ω_i＝[ω_i1…ω_in]^T和b_i分别为第i个隐含层节点的输入系数向量和偏差。第二个阶段在前一个阶段得到的(ω_i,b_i)的基础上，利用最小二乘法计算得到输出层的系数矩阵α。因此目前神经网络模型生成中存在的问题是隐含层节点和输出层节点的系数不是同步进行优化生成的，无法确保最终得到的系数是全局最优的，另外上述分阶段参数优化还可能产生大量的冗余隐含层节点，既造成网络结构复杂化，也会浪费计算资源，使得模型计算过程复杂度高并且模型的性能不佳。本发明专利的提出为神经网络模型中的权系数选择和联合优化提供了一个理论指导方法和实现途径。现有的随机构建型神经网络模型(比如Incremental random vector functional link networks，简称I-RVFL)参数的配置过程如下所述。

对于给定的数据集

假设其映射关系可以描述为y_i＝f(x_i)，其中f:Rⁿ→R^m是未知的，输入向量x_i∈Rⁿ是n维的，输出向量y_i∈R^m是m维的。对于这N个样本对，希望能构造一个含有k个隐含层节点的单层神经网络来拟合函数f的映射关系，即神经网络模型拟合的映射关系表示为H_kα＝Y；其中

为数据聚集矩阵，

为第i个隐含层节点的激活函数，简写为

或者

输出层参数矩阵为α＝[a_i…a_k]^T，其中α_i＝[α_i1…α_im]^T为参数向量。输出矩阵为

ω_i＝[ω_i1…ω_in]^T和b_i∈R分别是第i个隐含层节点的输入参数向量和偏差。因此含有k个隐含层节点的单层神经网络模型产生的拟合函数可以表示为

简写为

对于每一个隐含层节点，比如第k个节点，对给定的数据集

记它在该数据集上产生的输出向量为

因此，神经网络模型拟合的残差e_k表示为

其中e_k-1为隐含层有k-1个节点时神经网络模型的拟合误差。如果将数据集上的数据对(x_i,y_i)视为函数变量(x,y)的具体取值，则上述误差可以表示为函数形式

或者简写为

对于随机构建型的神经网络，其构建性是指神经网络的隐含层节点是逐个增加或者逐批次增加的，直至神经网络模型的拟合精度达到预设的误差容忍水平为止，并且对于每一个新增的节点，其参数是随机配置的，而输出层参数是通过求解最小二乘问题的解而得到。具体来说，构建型神经网络算法中，比如现有k-1个节点，要增加一个新节点，即第k个节点的生成过程可以分为两个步骤：第一个步骤是随机产生隐含层节点的参数对(ω_k,b_k)，它们分别在区间[-λ,λ]上随机均匀生成，其中λ是一个预先设定的正数。第二个步骤是其输出层的所有参数α通过求解线性问题

而得到最小二乘意义下的最优解

其中在上述问题中，范数||·||是指矩阵的Frobenius范数。在上述增加第k个节点的第一个步骤中，输出层的参数矩阵α是根据一定的局部优化问题求解得到的。然后固定在第一个步骤中得到的参数值(ω_i,b_i)，i＝1,…,k，在第二个步骤中通过求解优化问题更新得到输出层的所有参数或者权值α。显然，在上述构建第k个新增节点的两个步骤中隐含层节点参数(ω_i,b_i)和输出层参数α是分别固定后通过局部优化得到的，并不是同步进行优化而产生的。因此难免会产生前述的问题，即上述分阶段参数优化无法确保最终得到的模型参数(ω_i,b_i)和α是全局最优的，并且可能产生大量的冗余隐含层节点。

在第k个节点生成的第一个步骤中，对应的输出层参数α_k通常是根据求解如下局部优化问题而得到并固定的：

其中

为

的函数简写形式。输出层参数

是通过在上述优化问题中对α_k求极值而得到。因此在式子

中，最右边的值

的含义是在固定输出层参数α_k的值时，拟合误差下降能达到的最大值。这个下降的最大值能否达到取决于在第一个步骤中随机选取的隐含层节点参数(ω_i,b_i)。

上述过程即为构建型神经网络隐含层节点逐步生成的过程，网络节点数从1开始逐渐增加，使得拟合误差逐渐减小，直到满足预设定的误差水平为止。尽管针对上述的构建过程很多学者提出了很多不同的优化算法，但是两个基本步骤是固定和相同的，参数或者权值(ω_i,b_i)和α都是分阶段独立优化的。因此存在的问题也是共性的。(ω_i,b_i)和α的同步优化问题在方法论和原理上尚未得到解决。在最终生成的神经网络模型的性能表现上，不仅会产生较多的冗余节点，而且会出现节点增加后误差不降或者下降极少的现象，表明模型的后期收敛能力弱，即当误差已经很小但仍然大于容忍的误差水平时，要保持拟合误差的进一步下降变得非常困难。

进一步分析上述问题产生的原因：1)在生成网络的过程中，由于之前已经产生了很多的节点，这自然会使后面随机生成的新节点会与前面产生的节点有一定的相关性。使得该新增节点在输出层求连接权值的过程中难以起到作用，并且要进一步得到一个合适的节点变得越来越困难。2)上述算法只是分别进行了两个阶段的优化，而并未考虑将两类参数纳入到一个整体的参数优化过程。因此两个计算阶段分别得到各自局部最优的节点参数，从整体看无法确保是一个全局的最优解。

发明内容

本发明专利针对随机构建型神经网络隐含层节点的参数与输出层参数不能同时联合优化的难题，提出了一种隐含层节点参数与输出层参数融合优化的方法，解决了构建型神经网络建模过程中这两类参数的同步联合优化问题。该融合优化的框架仍然保持了节点构建的两个步骤，但是在第一个步骤优化隐含层节点参数的过程中融合了第二个步骤输出层参数最小二乘解应满足的约束条件，从而达到在优化隐含层节点参数的同时输出层参数也满足其最小二乘解条件，从而达到两类参数同步优化的结果。数值仿真结果表明，该融合优化方法生成的构建型神经网络的性能相比于现有方法，得到了极大地提高。

本发明所采用的技术要点包括三部分：1)构建融合优化性能指标；2)融合优化算法；3)收敛性分析，其中第一部分为准备环节，第二部分的IOM算法为本发明的关键技术和实现步骤，第三个部分为理论保证。

本发明的技术方案：

一种用于数字图像识别的构建型神经网络参数融合优化方法，步骤如下：

步骤一、构建融合优化性能指标

针对给定的训练集

其中x_i为一张图片的像素的输入矩阵；y_i为输出矩阵；N为样本个数；n为样本的输入维数；m为样本的类别数量。针对输入矩阵x_i，首先采用两组输入权值(u_i,v_i)作为一张图片的输入矩阵的左侧和右侧的转换向量。因此含有k个隐含层节点的单层神经网络模型产生的拟合函数表示为

简写为

其中，b_k表示偏差；

表示第N个样本在第k个节点下的输出；输出层参数矩阵为α＝[α_i…α_k]^T，其中α_i＝[α_i1…α_im]^T为参数向量。误差表示为函数形式

或者简写为

并且定义在输入为矩阵时的隐含层的输出矩阵与第k层隐含层节点的输出矩阵分别为：

在(1)式中的数据聚集矩阵H_k进一步表示为H_k＝[H_k-1Φ_k]，H_k-1为H_k的第1至k-1列组成的矩阵。H_k的伪逆

表示为

令

其中A₁₁，A₁₂，A₂₁，A₂₂，U_k和L_k为待定的分块矩阵，则有

由2X2的分块矩阵求逆公式可得

A₂₂＝R^-1

其中

且

为投影矩阵，因此

也为投影矩阵，其中，I为单位矩阵。因此(4)式中的分块矩阵L_k进一步表示为：

因此得到求解最小二乘问题的迭代方式为

进一步得到迭代形式的输出层参数的最小二乘解为

其中，Y为输出矩阵为

将第二阶段的迭代形式的最小二乘解应满足的条件(6)代入到

构建融合优化性能指标步骤如下。

其中，

并将(6)式中的L_k代入(7)式，考虑到

为投影矩阵，因此得到

令

得到

其中，e_k-1,q表示输出矩阵的第q列，q表示第q个输出，||·||表示L2-范数，<·>表示内积，根据上述式(9)，得到融合输出层参数最小二乘解约束条件的、针对新增隐含层节点参数的融合优化目标函数

步骤二、融合优化算法(Integrated Optimization Method，简称IOM)

给定训练集

令激活函数为

网络的输出可以表示为

其中ω_i为第i层的隐含层的连接权值，设算法生成的最大节点数为k_max,误差容忍水平为ε。算法分为两个阶段，第一阶段中每次循环产生M个候选节点，并将候选节点的参数(ω_(i),b_(i))在区间[-λ,λ]上随机均匀产生，其中i＝1,…,M。在算法中，用下标加括号的方式表示候补节点的参数，以及其计算产生数值。第二阶段为最小二乘法计算输出层参数。具体实现步骤如下：

(1)初始化拟合误差e₀＝[y₁,…,y_N]，令k＝1，H₀＝0，

和W₀＝||e₀||²，设定λ，ε和k_max的值。

(2)如果k≤k_max且||e_k||＞ε，则开始进入下一步的节点生产；

第一阶段(Phase I)：确定第k个节点的参数(ω_k,b_k)

(3)在[-λ,λ]内随机均匀生成M个候选节点

(4)计算每个候选节点的输出矩阵Φ_(i)并计算

(5)计算

(6)如果{i|γ_(i)≤W_k-1}是空集，回到第(2)步。

(7)如果{i|γ_(i)≤W_k-1}不是空集，则选择

并计算

(8)如果r^*≥ε，令

并令k＝k+1。

(9)否则回到第(2)步。

第二阶段(Phase II)：计算输出层参数α，更新参数

(10)令

H_k＝[H_k-1 Φ_k]，并计算伪逆

(11)计算输出层参数

和当前误差e_k＝Y-H_kα。

(12)令k＝k+1，结束本次循环，重新返回第(2)步。

(13)输出(ω_i,b_i)和输出层所有参数α，i＝1,…,k。

算法描述：在上述生成一个新的节点(第k个节点)的过程中，首先生成数量为M的候选节点，候选节点的参数

在[-λ,λ]内随机均匀生成，并计算每个候选节点的P_k以及γ_k，并选择具有最小γ_k的候选节点作为新增加的节点，并更新H_k-1和

如果在所有候选节点中都没有满足要求的节点，就重新随机生成新的候选节点。为了保证收敛的误差序列可以呈现出更为光滑的曲线，对于收敛的误差可以采用双边约束条件加以限制(见收敛性定理)。由于随机生成的特性，在误差序列的收敛后期，误差曲线的收敛速度会变得非常慢，我们综合考虑收敛速度与误差曲线平滑的折中，在实际算法计算过程中建议采取在误差较小的情况下，只保留下界，放开上界约束条件。这样既保证了误差收敛曲线的平滑特性，又确保了一定的收敛速度。上述算法为一般输入的描述，而为了更好应对矩阵输入，即图像识别问题，我们首先将图像进行归一化等处理，作为我们神经网络的输入，然后根据(1)我们可以将随机生成的隐含层的权值设定为两个转换向量和一个偏差(u_k,v_k,b_k),这样在应对图片问题时，很好的减少参数量。最后将所需要识别的图片作为输入，输入给这样构建而成的神经网络，就可以完成图片的分类任务。

步骤三、利用构建的神经网络进行数字图像识别：将待进行识别的图像输入神经网络中进行数字图像的识别。将IOM算法运用于数字图像处理时，由IOM算法修订所得为2DIOM算法如下：

二维融合优化算法(Two-DimensionalIntegrated Optimization Method，简称2DIOM)

给定训练集

令激活函数为

网络的输出表示为

设算法生成的最大节点数为k_max,误差容忍水平为ε。算法分为两个阶段，第一阶段中每次循环产生M个候选节点，并将候选节点的参数(u_(i),v_(i),b_(i))在区间[-λ,λ]上随机均匀产生，其中i＝1,…,M。在算法中，用下标加括号的方式表示候补节点的参数，以及其计算产生数值。第二阶段为最小二乘法计算输出层参数。具体实现步骤如下：

(1)初始化拟合误差e₀＝[y₁,…,y_N]，令k＝1，H₀＝0，

和W₀＝||e₀||²，设定λ，ε和k_max的值。

(2)如果k≤k_max且||e_k||＞ε，则开始进入下一步的节点生产；

第一阶段(Phase I)：确定第k个节点的参数(u_k,v_k,b_k)

(3)在[-λ,λ]内随机均匀生成M个候选节点

(4)计算每个候选节点的输出矩阵Φ_(i)并计算

(5)计算

(6)如果{i|γ_(i)≤W_k-1}是空集，回到第(2)步。

(7)如果{i|γ_(i)≤W_k-1}不是空集，则选择

并计算

(8)如果r^*≥ε，令

并令k＝k+1。

(9)否则回到第(2)步。

第二阶段(Phase II)：计算输出层参数α，更新参数

(10)令

H_k＝[H_k-1Φ_k]，并计算伪逆

(11)计算输出层参数

和当前误差e_k＝Y-H_kα。

(12)令k＝k+1，结束本次循环，重新返回第(2)步。

(13)输出(u_i,v_i,b_i)和输出层所有参数α，i＝1,…,k。

收敛性分析

(收敛性定理)给定含N个样本的训练集

以及收敛因子0＜σ＜1，如果随机生成的激活函数

满足

其中W_k＝||e_k-2||²-||e_k-1||²,

为(1)式定义的输出向量，那么拟合误差序列{||e_k||²}是收敛的，即

并且是按照凸函数方式单调下降。

证明：收敛性证明分为三部分。第一部分证明误差序列{||e_k||²}的单调下降性。

已知

因此

如果

则{||e_k||²}是严格单调下降的序列。因此当k充分大时，||e_k-1||²与||e_k||²之间的差很小，可以找到一个充分靠近1的正数0＜ρ_k＜1，满足如下的不等式

第二部分证明给出(11)式中的上界约束条件。为了分析误差序列以及随机构建型神经网络模型的收敛性，在本定理中我们提出一种基于差分误差序列{||e_k-1||²-||e_k||²}的收敛性证明新方法。根据差分误差序列的收敛性要求，必须满足下列不等式。

(||e_k-1||²-||e_k||²)-σ(||e_k-2||²-||e_k-1||²)≤0 (14)

其中0＜σ＜1为给定的收敛因子。显然条件(14)也意味着误差序列{||e_k||²}是按照凸单调下降的方式收敛的。将(12)式代入(14)式可得

因此得到(11)式中的上界约束条件。结合双边约束不等条件可知，差分误差序列满足

故根据收敛定义，对

当k＞k₀时，有如下不等式成立

|||e_k-1||²-||e_k||²|＜ε (16)

因此对于k＞k₀的整数和一个有限正数p≥1，有

|||e_k||²-||e_k+p||²|＝|||e_k||²-||e_k+1||²+||e_k+1||²-||e_k+2||²+…-||e_k+p||²|

≤|||e_k||²-||e_k+1||²|+…+|||e_k+p-1||²-||e_k+p||²|

≤pε

上式表明，误差序列{||e_k||²}是一个Cauchy序列。

第三部分证明在双边不等式约束条件下，误差序列本身也是收敛的，即

为此我们希望能找到{||e_k||²}的一个子序列是收敛的，则根据Cauchy序列的定义，{||e_k||²}也收敛于该子序列。由差分误差序列的收敛性要求(14)式，可得

||e_k-1||²-||e_k||²+σ||e_k-1||²≤σ||e_k-2||² (17)

由(13)式可知，当k充分大时，总可以找到一个正数ρ_k满足0＜ρ_k≤σ＜1(否则总可通过增大收敛因子σ使得上式成立)，因此得到

||e_k||²≤||e_k-1||²-||e_k||²+σ||e_k-1||²≤σ||e_k-2||² (18)

从而可以找到{||e_k||²}的一个收敛子序列

其下标表示为{…,n_k-1,n_k,n_k+1，…}＝{…,k-2,k,k+2,…}，满足序列的收敛条件

因此有

成立。由于{||e_k||²}是Cauchy序列，因此得到

从上述证明过程可知，差分误差序列{||e_k-1||²-||e_k||²}的收敛性可以覆盖和包含误差序列{||e_k||²}的收敛性。

本发明专利提出了一种针对构建型神经网络的隐含层节点参数与输出层参数融合优化的方法，该方法的技术实现要点为：

1)将输出层参数所满足的最小二乘优化条件表示为迭代形式，如式(6)所示。

2)将迭代形式的输出层参数最小二乘解应满足的条件(6)融入到隐含层节点参数的优化过程，构建融合优化性能指标(10)。

3)形成并运行IOM/2DIOM算法。

本发明专利所述IOM算法解决了构建型神经网络中两类参数不能同步优化的问题，提出了一种新的参数融合优化算法，为神经网络系统参数的随机配置提供了一种新的理论指导方法和实现途径。

本发明的有益效果：本发明专利提出了一种隐含层节点参数与输出层参数融合优化的方法，相比于现有的分阶段独立优化方法，有益效果主要有：

1)本方法提供了一种隐含层节点参数和输出层参数的同步联合优化方法，在理论上相比于现有方法具有更小的保守性。

2)本发明专利方法生成的构建型神经网络模型相比于现有方法产生的模型结构更紧凑，冗余节点更少，计算速度更快。

3)本发明专利方法生成的构建型神经网络模型相比于现有方法产生的模型在学习阶段的后期，误差收敛的速度更快，收敛精度更高，泛化性能更好。

附图说明

图1为IOM算法与其他4种算法在数据集1(DataSet1)的训练集上节点为150时的均方根误差(RMSE)。

图2为IOM算法与其他4种算法在数据集1(DataSet1)的测试集上节点为150时的均方根误差。

图3为IOM算法与其他4种算法在数据集2(DataSet2)的训练集上节点为150时的均方根误差。

图4为IOM算法与其他4种算法在数据集2(DataSet2)的测试集上节点为150时的均方根误差。

图5为IOM算法与其他4种算法在数据集10(DataSet10)的训练集上节点为150时的分类精度。

图6为IOM算法与其他4种算法在数据集10(DataSet10)的测试集上节点为150时的分类精度。

图7为2DIOM算法与其他3种算法在手写体识别数据集13(DataSet13)的测试集上节点为100时的分类精度。

图8为2DIOM算法与其他3种算法在手写体识别数据集13(DataSet13)的测试集上节点为100时的分类精度。

图9为2DIOM算法与其他3种算法在人脸识别数据集14(DataSet14)的测试集上节点为1500时的分类精度。

图10为2DIOM算法与其他3种算法在人脸识别数据集14(DataSet14)的测试集上节点为1500时的分类精度。

具体实施方式

为了说明本发明专利在与其他方法的在图像识别技术上的优势，本发明专利的实施案例一共在14个数据集上进行测试和性能比较，12个数据集分别标记为DataSet1～DataSet12数据集分别用于回归和分类两类任务的测试，其中DataSet1和DataSet2用于回归问题，DataSet3-DataSet12用于分类问题，DataSet13和DataSet14为手写体识别数据集与人脸识别数据集，如表1所示。表1为数据集3至12(DataSet3-DataSet12)的参数。

表1

1)2个回归数据集上的案例实施

DataSet1来源于下面的函数

其中变量x在区间[0,1]内随机均匀生成600个点，同时利用函数生成对应的函数值y＝f(x)。测试集为用类似的方法生成300个点对。

数据集DataSet2Energy efficiency来自公共平台UCI Machine LearningRepository(http://archive.ics.uci.edu/ml/datasets.php)的实际数据，一共有768个样本和8个特征以及2个输出。将其中600个样本点作为训练集，其余168作为测试集。

在回归问题的2个实施案例中，将本发明专利所述的IOM方法与现有的I-RVFL,EI-RVFL,OI-RVFL以及SCN等4种构建型神经网络建模方法进行了性能对比。这5种方法在实施案例中参数设置如下：SCN的随机取值区间参数设定为λ＝[1,5,15,30,50,100,200]，收敛因子序列为r＝[0.9,0.99,0.999,0.9999,0.99999]。在EI-RVFL和IOM算法中最大候选节点数设定M＝500。算法I-RVFL，OI-RVFL以及EI-RVFL的λ均与IOM相同，各个算法具体对于每一个数据集的参数设定见表2。表2为IOM算法在案例中不同数据集上的参数设置值。

表2

在上述两个数据集DataSet1和DataSet2中进行了两种试验。第一个实验如图1至图4所示，给出了IOM与其他4种算法在DataSet1和DataSet2上在节点数增长到150个时候的性能表现。第二个实验则如表3所示，表3为IOM算法与其他4种算法对于数据集1(DataSet1)与数据集2(DataSet2)在不同的容忍误差水平下的运行时间与所需要的节点数对比(ε＝0.001和ε＝0.01)。针对误差容忍水平分别设定为ε＝0.001和ε＝0.01时，5种算法的运行时间以及需要的节点数量的比较。需要说明的是，本发明专利所述的IOM方法的操作流程见前述算法步骤。

表3

结果对比与分析：

从图1和图2中可以看出，OI-RVFL算法由于对冗余节点进行了筛选，性能较优于无条件随机生成的I-RVFL。SCN则相对于上面的两种方法更为优秀。EI-RVFL和IOM这两个算法则对比其他的算法收敛得更快，拟合误差更小。并且本发明专利所述IOM算法由于是对于两个阶段的参数进行同步优化，收敛的速度最快、误差曲线最平滑，反映了生成的神经网络模型中冗余节点最少。

从表3中可以看出，本发明专利所述IOM算法在对应的指标下需要的节点数量远小于其他算法，反映了在拟合误差小的情形下收敛性能更好，生成的神经网络模型结构最紧凑。

2)10个分类数据集上的案例实施

本发明专利所述IOM算法与现有的I-RVFL,EI-RVFL,OI-RVFL以及SCN等4种算法也在DataSet3-DataSet12这10个分类数据集上进行了案例实施和性能对比。表4为IOM算法与其他4种算法对于数据集3(DataSet3)至数据集9(DataSet9)在容忍误差ε＝0.01时的运行时间、所需要的节点数以及最终的测试精度对比。

表4

在数据集3(DataSet3)至数据集9(DataSet9)上，在容忍误差水平设定为ε＝0.01时，对于上述5种算法测试了所需要的节点数、运行时间以及最后分类的精度对比，结果如表4所示。从表中的结果可知，算法I-RVFL和OI-RVFL的误差收敛得非常慢，因此需要大量的节点来达到预定的误差容忍水平。算法EI-RVFL和SCN在生成过程中产生了较多的冗余节点，所以导致所以生成的网络结构复杂，容易出现过拟合现象，模型的泛化能不足。

此外，5种算法在大数据集DataSet10至DataSet12上的性能表现如图5、图6以及表5所示。由这些结果可知，本发明专利所述IOM算法有着更好收敛能力与泛化能力。表5为IOM算法与其他4种算法对于数据集10(DataSet10)至数据集12(DataSet12)在节点数分别为50，100和150时，在训练集和测试集上的分类精度对比。

表5

3)手写体数字识别与人脸识别上的案例实例

从上述的12个数据集的例子可以看出，提出的IOM算法相比于其他算法有着更短的运行时间，更好的泛化能力。因为良好的泛化能力与更短的运行时间，本专利更专注于解决于图像识别技术，以及人脸识别技术。为了更好的应对于2维图像的处理，根据式子(11)，我们在提出的IOM算法的基础上，提出2DIOM算法以方便于应用到2D图像的处理，IOM与2DIOM仅仅在随机生成的权值上面，2DIOM随机生成向量与偏差(u_k,v_k,b_k)而非(ω_k,b_k)。DataSet13Semeion Handwritten Digit数字识别数据集来自公共平台UCI MachineLearning Repository的实际数据而DataSet14ORL Faces Database人脸识别数据集来自英国剑桥的Olivetti研究实验室(http://www.cl.cam.ac.uk/)。在实例中，我们均设定参数λ＝1，SCN与I-RVFL均与之前设定的参数相同。图7-图10为2DIOM算法与其他3中算法在两个数据集上的训练准确度与测试准确度上的表现。

其中DatsSet13中共有1593张16*16的手写体图像，其中1273张图片作为训练集，剩下320张作为测试集。

而DataSet14共有来自40个人的一共400张112*92像素的照片，其中每人10张照片。我们将一半作为训练集，另外一半作为数据集。

结果对比与分析：

从图7和图9中可以看出，2DIOM在处理图像问题上相比于其他的算法有更快的收敛速度，因此就有着更加紧密的网络结构。鲁棒性更好。另外在图8和图10在测试集的表现来看，2DIOM在测试集上有着更好的泛化性能，在ORL的人脸识别数据集上在1500节点时，可以达到超过百分之九十的准确度，而其余算法均小于百分九十。因此，相比于同类的随机构建性算法，在图像识别上，2DIOM有着更快收敛速度和更好的泛化能力。

Claims

1.一种用于数字图像识别的构建型神经网络参数融合优化方法，其特征在于，步骤如下：

步骤一、构建融合优化性能指标

针对给定的训练集

其中x_i为一张图片的像素的输入矩阵；y_i为输出矩阵；N为样本个数；n为样本的输入维数；m为样本的类别数量；针对输入矩阵x_i，首先采用两组输入权值(u_i,v_i)作为一张图片的输入矩阵的左侧和右侧的转换向量；因此含有k个隐含层节点的单层神经网络模型产生的拟合函数表示为

简写为

其中，b_k表示偏差；

表示第N个样本在第k个节点下的输出；输出层参数矩阵为α＝[α_i…α_k]^T，其中α_i＝[α_i1…α_im]^T为参数向量；误差表示为函数形式

或者简写为

和

在(6)式中的数据聚集矩阵H_k进一步表示为H_k＝[H_k-1 Φ_k]，H_k-1为H_k的第1至k-1列组成的矩阵；H_k的伪逆

表示为

令

由2X2的分块矩阵求逆公式获得：

A₂₂＝R^-1

其中

且

为投影矩阵，因此

也为投影矩阵，其中，I为单位矩阵；因此(4)式中的分块矩阵L_k进一步表示为：

因此得到求解最小二乘问题的迭代方式为

进一步得到迭代形式的输出层参数的最小二乘解为

其中，Y为输出矩阵为

将第二阶段的迭代形式的最小二乘解应满足的条件(6)代入到

构建融合优化性能指标步骤如下；

其中，

并将(6)式中的L_k代入(7)式，考虑到

为投影矩阵，因此得到

令

得到

步骤二、融合优化算法

给定训练集

令激活函数为

设算法生成的最大节点数为k_max,误差容忍水平为ε；算法分为两个阶段，第一阶段中每次循环产生M个候选节点，并将候选节点的参数(ω_(i),b_(i))在区间[-λ,λ]上随机均匀产生，其中i＝1,…,M；在算法中，用下标加括号的方式表示候补节点的参数，以及其计算产生数值；第二阶段为最小二乘法计算输出层参数；具体实现步骤如下：

(1)初始化拟合误差e₀＝[y₁,…,y_N]，令k＝1，H₀＝0，

和W₀＝||e₀||²，设定λ，ε和k_max的值；

(2)如果k≤k_max且||e_k||＞ε，则开始进入下一步的节点生产；

第一阶段：确定第k个节点的参数(ω_k,b_k)

(3)在[-λ,λ]内随机均匀生成M个候选节点

(4)计算每个候选节点的输出矩阵Φ_(i)并计算

(5)计算

(6)如果{i|γ_(i)≤W_k-1}是空集，回到第(2)步；

(7)如果{i|γ_(i)≤W_k-1}不是空集，则选择

并计算

(8)如果r^*≥ε，令

并令k＝k+1；

(9)否则回到第(2)步；

第二阶段：计算输出层参数α，更新参数

(10)令

H_k＝[H_k-1 Φ_k]，并计算伪逆

(11)计算输出层参数

和当前误差e_k＝Y-H_kα；

(12)令k＝k+1，结束本次循环，重新返回第(2)步；

(13)输出(ω_i,b_i)和输出层所有参数α，i＝1,…,k；

步骤三、利用构建的神经网络进行数字图像识别：将待进行识别的图像输入神经网络中进行数字图像的识别；将IOM算法运用于数字图像处理时，由IOM算法修订所得为2DIOM算法如下：

二维融合优化算法：给定训练集

令激活函数为

网络的输出表示为

设算法生成的最大节点数为k_max,误差容忍水平为ε；算法分为两个阶段，第一阶段中每次循环产生M个候选节点，并将候选节点的参数(u_(i),v_(i),b_(i))在区间[-λ,λ]上随机均匀产生，其中i＝1,…,M；在算法中，用下标加括号的方式表示候补节点的参数，以及其计算产生数值；第二阶段为最小二乘法计算输出层参数；具体实现步骤如下：

(1)初始化拟合误差e₀＝[y₁,…,y_N]，令k＝1，H₀＝0，