CN111881990A - 一种用于数字图像识别的构建型神经网络参数融合优化方法 - Google Patents

一种用于数字图像识别的构建型神经网络参数融合优化方法 Download PDF

Info

Publication number
CN111881990A
CN111881990A CN202010766549.7A CN202010766549A CN111881990A CN 111881990 A CN111881990 A CN 111881990A CN 202010766549 A CN202010766549 A CN 202010766549A CN 111881990 A CN111881990 A CN 111881990A
Authority
CN
China
Prior art keywords
matrix
algorithm
parameters
output
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010766549.7A
Other languages
English (en)
Other versions
CN111881990B (zh
Inventor
谢林柏
张思源
彭力
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangnan University
Original Assignee
Jiangnan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangnan University filed Critical Jiangnan University
Priority to CN202010766549.7A priority Critical patent/CN111881990B/zh
Publication of CN111881990A publication Critical patent/CN111881990A/zh
Application granted granted Critical
Publication of CN111881990B publication Critical patent/CN111881990B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Mathematical Analysis (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)

Abstract

一种用于数字图像识别的构建型神经网络参数融合优化方法,属于人工智能数字图像识别领域。本方法包括:构建融合优化性能指标;融合优化算法;利用构建的神经网络进行数字图像识别。本发明还通过收敛性分析验证了本发明的有效性,其中第一部分为准备环节,第二部分的IOM算法为本发明的关键技术和实现步骤,第三个部分为理论保证。本发明提供一种隐含层节点参数和输出层参数的同步联合优化方法,在理论上相比于现有方法具有更小的保守性。本方法生成的构建型神经网络模型比现有方法产生的模型结构更紧凑,冗余节点更少,计算速度更快。相比于现有方法产生的模型在学习阶段的后期,误差收敛的速度更快,收敛精度更高,泛化性能更好。

Description

一种用于数字图像识别的构建型神经网络参数融合优化方法
技术领域
本发明属于人工智能数字图像识别领域,提出了一种新的针对随机构建型神经网络(Randomizedconstructivenetwork)隐含层节点参数和输出层参数融合优化配置的方法。
背景技术
本发明专利针对随机构建型神经网络隐含层节点的连接权系数与输出层权系数不能同时联合优化的难题,尤其是在大规模神经网络系统中隐含层节点及其权系数数量剧增的情形下,给出了一种能够将隐含层节点权系数与输出层权系数进行联合优化配置的方法,同时给出了该方法的理论形成和证明过程以及相应的迭代算法步骤。本发明专利给出的系数融合优化方法及其双边配置条件为人工智能领域神经网络系统大规模参数的随机配置提供了一种新的理论指导方法和实现途径。
在人工智能领域,尤其是神经网络模型中,网络的结构和权系数的快速学习算法决定着最终生成的神经网络模型的性能。特别是对于图像的处理往往使用很大的网络结构,而深度的神经网络的训练往往需要花费大量的时间,并且针对网络的结构只能通过实验性质的方法来确定。所以我们针对神经网络对数字图像的处理问题,提出了一种新的浅层的构建型神经网络。在目前的浅层构建型神经网络模型中,比如单隐含层的神经网络模型。在目前的浅层构建神经网络模型中,比如单隐含层的神经网络模型,其隐含层节点和输出层节点的权系数是分阶段独立计算的,即,第一个阶段采用随机生成的方式得到隐含层各个节点的系数或者参数(ωi,bi),其中ωi=[ωi1…ωin]T和bi分别为第i个隐含层节点的输入系数向量和偏差。第二个阶段在前一个阶段得到的(ωi,bi)的基础上,利用最小二乘法计算得到输出层的系数矩阵α。因此目前神经网络模型生成中存在的问题是隐含层节点和输出层节点的系数不是同步进行优化生成的,无法确保最终得到的系数是全局最优的,另外上述分阶段参数优化还可能产生大量的冗余隐含层节点,既造成网络结构复杂化,也会浪费计算资源,使得模型计算过程复杂度高并且模型的性能不佳。本发明专利的提出为神经网络模型中的权系数选择和联合优化提供了一个理论指导方法和实现途径。现有的随机构建型神经网络模型(比如Incremental random vector functional link networks,简称I-RVFL)参数的配置过程如下所述。
对于给定的数据集
Figure BDA0002614858040000021
假设其映射关系可以描述为yi=f(xi),其中f:Rn→Rm是未知的,输入向量xi∈Rn是n维的,输出向量yi∈Rm是m维的。对于这N个样本对,希望能构造一个含有k个隐含层节点的单层神经网络来拟合函数f的映射关系,即神经网络模型拟合的映射关系表示为Hkα=Y;其中
Figure BDA0002614858040000022
为数据聚集矩阵,
Figure BDA0002614858040000023
为第i个隐含层节点的激活函数,简写为
Figure BDA0002614858040000024
或者
Figure BDA0002614858040000025
输出层参数矩阵为α=[ai…ak]T,其中αi=[αi1…αim]T为参数向量。输出矩阵为
Figure BDA0002614858040000026
ωi=[ωi1…ωin]T和bi∈R分别是第i个隐含层节点的输入参数向量和偏差。因此含有k个隐含层节点的单层神经网络模型产生的拟合函数可以表示为
Figure BDA0002614858040000027
简写为
Figure BDA0002614858040000028
对于每一个隐含层节点,比如第k个节点,对给定的数据集
Figure BDA0002614858040000029
记它在该数据集上产生的输出向量为
Figure BDA00026148580400000210
因此,神经网络模型拟合的残差ek表示为
Figure BDA00026148580400000211
其中ek-1为隐含层有k-1个节点时神经网络模型的拟合误差。如果将数据集上的数据对(xi,yi)视为函数变量(x,y)的具体取值,则上述误差可以表示为函数形式
Figure BDA0002614858040000031
或者简写为
Figure BDA0002614858040000032
对于随机构建型的神经网络,其构建性是指神经网络的隐含层节点是逐个增加或者逐批次增加的,直至神经网络模型的拟合精度达到预设的误差容忍水平为止,并且对于每一个新增的节点,其参数是随机配置的,而输出层参数是通过求解最小二乘问题的解而得到。具体来说,构建型神经网络算法中,比如现有k-1个节点,要增加一个新节点,即第k个节点的生成过程可以分为两个步骤:第一个步骤是随机产生隐含层节点的参数对(ωk,bk),它们分别在区间[-λ,λ]上随机均匀生成,其中λ是一个预先设定的正数。第二个步骤是其输出层的所有参数α通过求解线性问题
Figure BDA0002614858040000033
而得到最小二乘意义下的最优解
Figure BDA0002614858040000034
其中在上述问题中,范数||·||是指矩阵的Frobenius范数。在上述增加第k个节点的第一个步骤中,输出层的参数矩阵α是根据一定的局部优化问题求解得到的。然后固定在第一个步骤中得到的参数值(ωi,bi),i=1,…,k,在第二个步骤中通过求解优化问题更新得到输出层的所有参数或者权值α。显然,在上述构建第k个新增节点的两个步骤中隐含层节点参数(ωi,bi)和输出层参数α是分别固定后通过局部优化得到的,并不是同步进行优化而产生的。因此难免会产生前述的问题,即上述分阶段参数优化无法确保最终得到的模型参数(ωi,bi)和α是全局最优的,并且可能产生大量的冗余隐含层节点。
在第k个节点生成的第一个步骤中,对应的输出层参数αk通常是根据求解如下局部优化问题而得到并固定的:
Figure BDA0002614858040000035
其中
Figure BDA0002614858040000036
Figure BDA0002614858040000037
的函数简写形式。输出层参数
Figure BDA0002614858040000038
是通过在上述优化问题中对αk求极值而得到。因此在式子
Figure BDA0002614858040000041
中,最右边的值
Figure BDA0002614858040000042
的含义是在固定输出层参数αk的值时,拟合误差下降能达到的最大值。这个下降的最大值能否达到取决于在第一个步骤中随机选取的隐含层节点参数(ωi,bi)。
上述过程即为构建型神经网络隐含层节点逐步生成的过程,网络节点数从1开始逐渐增加,使得拟合误差逐渐减小,直到满足预设定的误差水平为止。尽管针对上述的构建过程很多学者提出了很多不同的优化算法,但是两个基本步骤是固定和相同的,参数或者权值(ωi,bi)和α都是分阶段独立优化的。因此存在的问题也是共性的。(ωi,bi)和α的同步优化问题在方法论和原理上尚未得到解决。在最终生成的神经网络模型的性能表现上,不仅会产生较多的冗余节点,而且会出现节点增加后误差不降或者下降极少的现象,表明模型的后期收敛能力弱,即当误差已经很小但仍然大于容忍的误差水平时,要保持拟合误差的进一步下降变得非常困难。
进一步分析上述问题产生的原因:1)在生成网络的过程中,由于之前已经产生了很多的节点,这自然会使后面随机生成的新节点会与前面产生的节点有一定的相关性。使得该新增节点在输出层求连接权值的过程中难以起到作用,并且要进一步得到一个合适的节点变得越来越困难。2)上述算法只是分别进行了两个阶段的优化,而并未考虑将两类参数纳入到一个整体的参数优化过程。因此两个计算阶段分别得到各自局部最优的节点参数,从整体看无法确保是一个全局的最优解。
发明内容
本发明专利针对随机构建型神经网络隐含层节点的参数与输出层参数不能同时联合优化的难题,提出了一种隐含层节点参数与输出层参数融合优化的方法,解决了构建型神经网络建模过程中这两类参数的同步联合优化问题。该融合优化的框架仍然保持了节点构建的两个步骤,但是在第一个步骤优化隐含层节点参数的过程中融合了第二个步骤输出层参数最小二乘解应满足的约束条件,从而达到在优化隐含层节点参数的同时输出层参数也满足其最小二乘解条件,从而达到两类参数同步优化的结果。数值仿真结果表明,该融合优化方法生成的构建型神经网络的性能相比于现有方法,得到了极大地提高。
本发明所采用的技术要点包括三部分:1)构建融合优化性能指标;2)融合优化算法;3)收敛性分析,其中第一部分为准备环节,第二部分的IOM算法为本发明的关键技术和实现步骤,第三个部分为理论保证。
本发明的技术方案:
一种用于数字图像识别的构建型神经网络参数融合优化方法,步骤如下:
步骤一、构建融合优化性能指标
针对给定的训练集
Figure BDA0002614858040000051
其中xi为一张图片的像素的输入矩阵;yi为输出矩阵;N为样本个数;n为样本的输入维数;m为样本的类别数量。针对输入矩阵xi,首先采用两组输入权值(ui,vi)作为一张图片的输入矩阵的左侧和右侧的转换向量。因此含有k个隐含层节点的单层神经网络模型产生的拟合函数表示为
Figure BDA0002614858040000052
简写为
Figure BDA0002614858040000053
其中,bk表示偏差;
Figure BDA0002614858040000054
表示第N个样本在第k个节点下的输出;输出层参数矩阵为α=[αi…αk]T,其中αi=[αi1…αim]T为参数向量。误差表示为函数形式
Figure BDA0002614858040000055
或者简写为
Figure BDA0002614858040000056
并且定义在输入为矩阵时的隐含层的输出矩阵与第k层隐含层节点的输出矩阵分别为:
Figure BDA0002614858040000057
在(1)式中的数据聚集矩阵Hk进一步表示为Hk=[Hk-1Φk],Hk-1为Hk的第1至k-1列组成的矩阵。Hk的伪逆
Figure BDA0002614858040000061
表示为
Figure BDA0002614858040000062
Figure BDA0002614858040000063
其中A11,A12,A21,A22,Uk和Lk为待定的分块矩阵,则有
Figure BDA0002614858040000064
Figure BDA0002614858040000065
由2X2的分块矩阵求逆公式可得
Figure BDA0002614858040000066
Figure BDA0002614858040000067
A22=R-1
其中
Figure BDA0002614858040000068
Figure BDA0002614858040000069
为投影矩阵,因此
Figure BDA00026148580400000610
也为投影矩阵,其中,I为单位矩阵。因此(4)式中的分块矩阵Lk进一步表示为:
Figure BDA00026148580400000611
因此得到求解最小二乘问题的迭代方式为
Figure BDA00026148580400000612
进一步得到迭代形式的输出层参数的最小二乘解为
Figure BDA00026148580400000613
其中,Y为输出矩阵为
Figure BDA00026148580400000614
将第二阶段的迭代形式的最小二乘解应满足的条件(6)代入到
Figure BDA00026148580400000615
构建融合优化性能指标步骤如下。
Figure BDA0002614858040000071
其中,
Figure BDA0002614858040000072
并将(6)式中的Lk代入(7)式,考虑到
Figure BDA0002614858040000073
为投影矩阵,因此得到
Figure BDA0002614858040000074
Figure BDA0002614858040000075
得到
Figure BDA0002614858040000076
其中,ek-1,q表示输出矩阵的第q列,q表示第q个输出,||·||表示L2-范数,<·>表示内积,根据上述式(9),得到融合输出层参数最小二乘解约束条件的、针对新增隐含层节点参数的融合优化目标函数
Figure BDA0002614858040000077
步骤二、融合优化算法(Integrated Optimization Method,简称IOM)
给定训练集
Figure BDA0002614858040000078
令激活函数为
Figure BDA0002614858040000079
网络的输出可以表示为
Figure BDA00026148580400000710
其中ωi为第i层的隐含层的连接权值,设算法生成的最大节点数为kmax,误差容忍水平为ε。算法分为两个阶段,第一阶段中每次循环产生M个候选节点,并将候选节点的参数(ω(i),b(i))在区间[-λ,λ]上随机均匀产生,其中i=1,…,M。在算法中,用下标加括号的方式表示候补节点的参数,以及其计算产生数值。第二阶段为最小二乘法计算输出层参数。具体实现步骤如下:
(1)初始化拟合误差e0=[y1,…,yN],令k=1,H0=0,
Figure BDA00026148580400000711
和W0=||e0||2,设定λ,ε和kmax的值。
(2)如果k≤kmax且||ek||>ε,则开始进入下一步的节点生产;
第一阶段(Phase I):确定第k个节点的参数(ωk,bk)
(3)在[-λ,λ]内随机均匀生成M个候选节点
Figure BDA0002614858040000081
(4)计算每个候选节点的输出矩阵Φ(i)并计算
Figure BDA0002614858040000082
(5)计算
Figure BDA0002614858040000083
(6)如果{i|γ(i)≤Wk-1}是空集,回到第(2)步。
(7)如果{i|γ(i)≤Wk-1}不是空集,则选择
Figure BDA0002614858040000084
并计算
Figure BDA0002614858040000085
(8)如果r*≥ε,令
Figure BDA0002614858040000086
并令k=k+1。
(9)否则回到第(2)步。
第二阶段(Phase II):计算输出层参数α,更新参数
(10)令
Figure BDA0002614858040000087
Hk=[Hk-1 Φk],并计算伪逆
Figure BDA0002614858040000088
(11)计算输出层参数
Figure BDA0002614858040000089
和当前误差ek=Y-Hkα。
(12)令k=k+1,结束本次循环,重新返回第(2)步。
(13)输出(ωi,bi)和输出层所有参数α,i=1,…,k。
算法描述:在上述生成一个新的节点(第k个节点)的过程中,首先生成数量为M的候选节点,候选节点的参数
Figure BDA00026148580400000810
在[-λ,λ]内随机均匀生成,并计算每个候选节点的Pk以及γk,并选择具有最小γk的候选节点作为新增加的节点,并更新Hk-1
Figure BDA00026148580400000811
如果在所有候选节点中都没有满足要求的节点,就重新随机生成新的候选节点。为了保证收敛的误差序列可以呈现出更为光滑的曲线,对于收敛的误差可以采用双边约束条件加以限制(见收敛性定理)。由于随机生成的特性,在误差序列的收敛后期,误差曲线的收敛速度会变得非常慢,我们综合考虑收敛速度与误差曲线平滑的折中,在实际算法计算过程中建议采取在误差较小的情况下,只保留下界,放开上界约束条件。这样既保证了误差收敛曲线的平滑特性,又确保了一定的收敛速度。上述算法为一般输入的描述,而为了更好应对矩阵输入,即图像识别问题,我们首先将图像进行归一化等处理,作为我们神经网络的输入,然后根据(1)我们可以将随机生成的隐含层的权值设定为两个转换向量和一个偏差(uk,vk,bk),这样在应对图片问题时,很好的减少参数量。最后将所需要识别的图片作为输入,输入给这样构建而成的神经网络,就可以完成图片的分类任务。
步骤三、利用构建的神经网络进行数字图像识别:将待进行识别的图像输入神经网络中进行数字图像的识别。将IOM算法运用于数字图像处理时,由IOM算法修订所得为2DIOM算法如下:
二维融合优化算法(Two-DimensionalIntegrated Optimization Method,简称2DIOM)
给定训练集
Figure BDA0002614858040000091
令激活函数为
Figure BDA0002614858040000092
网络的输出表示为
Figure BDA0002614858040000093
设算法生成的最大节点数为kmax,误差容忍水平为ε。算法分为两个阶段,第一阶段中每次循环产生M个候选节点,并将候选节点的参数(u(i),v(i),b(i))在区间[-λ,λ]上随机均匀产生,其中i=1,…,M。在算法中,用下标加括号的方式表示候补节点的参数,以及其计算产生数值。第二阶段为最小二乘法计算输出层参数。具体实现步骤如下:
(1)初始化拟合误差e0=[y1,…,yN],令k=1,H0=0,
Figure BDA0002614858040000094
和W0=||e0||2,设定λ,ε和kmax的值。
(2)如果k≤kmax且||ek||>ε,则开始进入下一步的节点生产;
第一阶段(Phase I):确定第k个节点的参数(uk,vk,bk)
(3)在[-λ,λ]内随机均匀生成M个候选节点
Figure BDA0002614858040000095
(4)计算每个候选节点的输出矩阵Φ(i)并计算
Figure BDA0002614858040000096
(5)计算
Figure BDA0002614858040000101
(6)如果{i|γ(i)≤Wk-1}是空集,回到第(2)步。
(7)如果{i|γ(i)≤Wk-1}不是空集,则选择
Figure BDA0002614858040000102
并计算
Figure BDA0002614858040000103
(8)如果r*≥ε,令
Figure BDA0002614858040000104
并令k=k+1。
(9)否则回到第(2)步。
第二阶段(Phase II):计算输出层参数α,更新参数
(10)令
Figure BDA0002614858040000105
Hk=[Hk-1Φk],并计算伪逆
Figure BDA0002614858040000106
(11)计算输出层参数
Figure BDA0002614858040000107
和当前误差ek=Y-Hkα。
(12)令k=k+1,结束本次循环,重新返回第(2)步。
(13)输出(ui,vi,bi)和输出层所有参数α,i=1,…,k。
收敛性分析
(收敛性定理)给定含N个样本的训练集
Figure BDA0002614858040000108
以及收敛因子0<σ<1,如果随机生成的激活函数
Figure BDA0002614858040000109
满足
Figure BDA00026148580400001010
其中Wk=||ek-2||2-||ek-1||2,
Figure BDA00026148580400001011
为(1)式定义的输出向量,那么拟合误差序列{||ek||2}是收敛的,即
Figure BDA00026148580400001012
并且是按照凸函数方式单调下降。
证明:收敛性证明分为三部分。第一部分证明误差序列{||ek||2}的单调下降性。
已知
Figure BDA00026148580400001013
因此
Figure BDA00026148580400001014
如果
Figure BDA00026148580400001015
则{||ek||2}是严格单调下降的序列。因此当k充分大时,||ek-1||2与||ek||2之间的差很小,可以找到一个充分靠近1的正数0<ρk<1,满足如下的不等式
Figure BDA0002614858040000111
第二部分证明给出(11)式中的上界约束条件。为了分析误差序列以及随机构建型神经网络模型的收敛性,在本定理中我们提出一种基于差分误差序列{||ek-1||2-||ek||2}的收敛性证明新方法。根据差分误差序列的收敛性要求,必须满足下列不等式。
(||ek-1||2-||ek||2)-σ(||ek-2||2-||ek-1||2)≤0 (14)
其中0<σ<1为给定的收敛因子。显然条件(14)也意味着误差序列{||ek||2}是按照凸单调下降的方式收敛的。将(12)式代入(14)式可得
Figure BDA0002614858040000112
因此得到(11)式中的上界约束条件。结合双边约束不等条件可知,差分误差序列满足
Figure BDA0002614858040000113
故根据收敛定义,对
Figure BDA0002614858040000114
当k>k0时,有如下不等式成立
|||ek-1||2-||ek||2|<ε (16)
因此对于k>k0的整数和一个有限正数p≥1,有
|||ek||2-||ek+p||2|=|||ek||2-||ek+1||2+||ek+1||2-||ek+2||2+…-||ek+p||2|
≤|||ek||2-||ek+1||2|+…+|||ek+p-1||2-||ek+p||2|
≤pε
上式表明,误差序列{||ek||2}是一个Cauchy序列。
第三部分证明在双边不等式约束条件下,误差序列本身也是收敛的,即
Figure BDA0002614858040000115
为此我们希望能找到{||ek||2}的一个子序列是收敛的,则根据Cauchy序列的定义,{||ek||2}也收敛于该子序列。由差分误差序列的收敛性要求(14)式,可得
||ek-1||2-||ek||2+σ||ek-1||2≤σ||ek-2||2 (17)
由(13)式可知,当k充分大时,总可以找到一个正数ρk满足0<ρk≤σ<1(否则总可通过增大收敛因子σ使得上式成立),因此得到
||ek||2≤||ek-1||2-||ek||2+σ||ek-1||2≤σ||ek-2||2 (18)
从而可以找到{||ek||2}的一个收敛子序列
Figure BDA0002614858040000121
其下标表示为{…,nk-1,nk,nk+1,…}={…,k-2,k,k+2,…},满足序列的收敛条件
Figure BDA0002614858040000122
因此有
Figure BDA0002614858040000123
成立。由于{||ek||2}是Cauchy序列,因此得到
Figure BDA0002614858040000124
从上述证明过程可知,差分误差序列{||ek-1||2-||ek||2}的收敛性可以覆盖和包含误差序列{||ek||2}的收敛性。
本发明专利提出了一种针对构建型神经网络的隐含层节点参数与输出层参数融合优化的方法,该方法的技术实现要点为:
1)将输出层参数所满足的最小二乘优化条件表示为迭代形式,如式(6)所示。
2)将迭代形式的输出层参数最小二乘解应满足的条件(6)融入到隐含层节点参数的优化过程,构建融合优化性能指标(10)。
3)形成并运行IOM/2DIOM算法。
本发明专利所述IOM算法解决了构建型神经网络中两类参数不能同步优化的问题,提出了一种新的参数融合优化算法,为神经网络系统参数的随机配置提供了一种新的理论指导方法和实现途径。
本发明的有益效果:本发明专利提出了一种隐含层节点参数与输出层参数融合优化的方法,相比于现有的分阶段独立优化方法,有益效果主要有:
1)本方法提供了一种隐含层节点参数和输出层参数的同步联合优化方法,在理论上相比于现有方法具有更小的保守性。
2)本发明专利方法生成的构建型神经网络模型相比于现有方法产生的模型结构更紧凑,冗余节点更少,计算速度更快。
3)本发明专利方法生成的构建型神经网络模型相比于现有方法产生的模型在学习阶段的后期,误差收敛的速度更快,收敛精度更高,泛化性能更好。
附图说明
图1为IOM算法与其他4种算法在数据集1(DataSet1)的训练集上节点为150时的均方根误差(RMSE)。
图2为IOM算法与其他4种算法在数据集1(DataSet1)的测试集上节点为150时的均方根误差。
图3为IOM算法与其他4种算法在数据集2(DataSet2)的训练集上节点为150时的均方根误差。
图4为IOM算法与其他4种算法在数据集2(DataSet2)的测试集上节点为150时的均方根误差。
图5为IOM算法与其他4种算法在数据集10(DataSet10)的训练集上节点为150时的分类精度。
图6为IOM算法与其他4种算法在数据集10(DataSet10)的测试集上节点为150时的分类精度。
图7为2DIOM算法与其他3种算法在手写体识别数据集13(DataSet13)的测试集上节点为100时的分类精度。
图8为2DIOM算法与其他3种算法在手写体识别数据集13(DataSet13)的测试集上节点为100时的分类精度。
图9为2DIOM算法与其他3种算法在人脸识别数据集14(DataSet14)的测试集上节点为1500时的分类精度。
图10为2DIOM算法与其他3种算法在人脸识别数据集14(DataSet14)的测试集上节点为1500时的分类精度。
具体实施方式
为了说明本发明专利在与其他方法的在图像识别技术上的优势,本发明专利的实施案例一共在14个数据集上进行测试和性能比较,12个数据集分别标记为DataSet1~DataSet12数据集分别用于回归和分类两类任务的测试,其中DataSet1和DataSet2用于回归问题,DataSet3-DataSet12用于分类问题,DataSet13和DataSet14为手写体识别数据集与人脸识别数据集,如表1所示。表1为数据集3至12(DataSet3-DataSet12)的参数。
表1
Figure BDA0002614858040000141
1)2个回归数据集上的案例实施
DataSet1来源于下面的函数
Figure BDA0002614858040000142
其中变量x在区间[0,1]内随机均匀生成600个点,同时利用函数生成对应的函数值y=f(x)。测试集为用类似的方法生成300个点对。
数据集DataSet2Energy efficiency来自公共平台UCI Machine LearningRepository(http://archive.ics.uci.edu/ml/datasets.php)的实际数据,一共有768个样本和8个特征以及2个输出。将其中600个样本点作为训练集,其余168作为测试集。
在回归问题的2个实施案例中,将本发明专利所述的IOM方法与现有的I-RVFL,EI-RVFL,OI-RVFL以及SCN等4种构建型神经网络建模方法进行了性能对比。这5种方法在实施案例中参数设置如下:SCN的随机取值区间参数设定为λ=[1,5,15,30,50,100,200],收敛因子序列为r=[0.9,0.99,0.999,0.9999,0.99999]。在EI-RVFL和IOM算法中最大候选节点数设定M=500。算法I-RVFL,OI-RVFL以及EI-RVFL的λ均与IOM相同,各个算法具体对于每一个数据集的参数设定见表2。表2为IOM算法在案例中不同数据集上的参数设置值。
表2
Figure BDA0002614858040000151
在上述两个数据集DataSet1和DataSet2中进行了两种试验。第一个实验如图1至图4所示,给出了IOM与其他4种算法在DataSet1和DataSet2上在节点数增长到150个时候的性能表现。第二个实验则如表3所示,表3为IOM算法与其他4种算法对于数据集1(DataSet1)与数据集2(DataSet2)在不同的容忍误差水平下的运行时间与所需要的节点数对比(ε=0.001和ε=0.01)。针对误差容忍水平分别设定为ε=0.001和ε=0.01时,5种算法的运行时间以及需要的节点数量的比较。需要说明的是,本发明专利所述的IOM方法的操作流程见前述算法步骤。
表3
Figure BDA0002614858040000152
Figure BDA0002614858040000161
结果对比与分析
从图1和图2中可以看出,OI-RVFL算法由于对冗余节点进行了筛选,性能较优于无条件随机生成的I-RVFL。SCN则相对于上面的两种方法更为优秀。EI-RVFL和IOM这两个算法则对比其他的算法收敛得更快,拟合误差更小。并且本发明专利所述IOM算法由于是对于两个阶段的参数进行同步优化,收敛的速度最快、误差曲线最平滑,反映了生成的神经网络模型中冗余节点最少。
从表3中可以看出,本发明专利所述IOM算法在对应的指标下需要的节点数量远小于其他算法,反映了在拟合误差小的情形下收敛性能更好,生成的神经网络模型结构最紧凑。
2)10个分类数据集上的案例实施
本发明专利所述IOM算法与现有的I-RVFL,EI-RVFL,OI-RVFL以及SCN等4种算法也在DataSet3-DataSet12这10个分类数据集上进行了案例实施和性能对比。表4为IOM算法与其他4种算法对于数据集3(DataSet3)至数据集9(DataSet9)在容忍误差ε=0.01时的运行时间、所需要的节点数以及最终的测试精度对比。
表4
Figure BDA0002614858040000162
Figure BDA0002614858040000171
在数据集3(DataSet3)至数据集9(DataSet9)上,在容忍误差水平设定为ε=0.01时,对于上述5种算法测试了所需要的节点数、运行时间以及最后分类的精度对比,结果如表4所示。从表中的结果可知,算法I-RVFL和OI-RVFL的误差收敛得非常慢,因此需要大量的节点来达到预定的误差容忍水平。算法EI-RVFL和SCN在生成过程中产生了较多的冗余节点,所以导致所以生成的网络结构复杂,容易出现过拟合现象,模型的泛化能不足。
此外,5种算法在大数据集DataSet10至DataSet12上的性能表现如图5、图6以及表5所示。由这些结果可知,本发明专利所述IOM算法有着更好收敛能力与泛化能力。表5为IOM算法与其他4种算法对于数据集10(DataSet10)至数据集12(DataSet12)在节点数分别为50,100和150时,在训练集和测试集上的分类精度对比。
表5
Figure BDA0002614858040000172
Figure BDA0002614858040000181
3)手写体数字识别与人脸识别上的案例实例
从上述的12个数据集的例子可以看出,提出的IOM算法相比于其他算法有着更短的运行时间,更好的泛化能力。因为良好的泛化能力与更短的运行时间,本专利更专注于解决于图像识别技术,以及人脸识别技术。为了更好的应对于2维图像的处理,根据式子(11),我们在提出的IOM算法的基础上,提出2DIOM算法以方便于应用到2D图像的处理,IOM与2DIOM仅仅在随机生成的权值上面,2DIOM随机生成向量与偏差(uk,vk,bk)而非(ωk,bk)。DataSet13Semeion Handwritten Digit数字识别数据集来自公共平台UCI MachineLearning Repository的实际数据而DataSet14ORL Faces Database人脸识别数据集来自英国剑桥的Olivetti研究实验室(http://www.cl.cam.ac.uk/)。在实例中,我们均设定参数λ=1,SCN与I-RVFL均与之前设定的参数相同。图7-图10为2DIOM算法与其他3中算法在两个数据集上的训练准确度与测试准确度上的表现。
其中DatsSet13中共有1593张16*16的手写体图像,其中1273张图片作为训练集,剩下320张作为测试集。
而DataSet14共有来自40个人的一共400张112*92像素的照片,其中每人10张照片。我们将一半作为训练集,另外一半作为数据集。
结果对比与分析
从图7和图9中可以看出,2DIOM在处理图像问题上相比于其他的算法有更快的收敛速度,因此就有着更加紧密的网络结构。鲁棒性更好。另外在图8和图10在测试集的表现来看,2DIOM在测试集上有着更好的泛化性能,在ORL的人脸识别数据集上在1500节点时,可以达到超过百分之九十的准确度,而其余算法均小于百分九十。因此,相比于同类的随机构建性算法,在图像识别上,2DIOM有着更快收敛速度和更好的泛化能力。

Claims (1)

1.一种用于数字图像识别的构建型神经网络参数融合优化方法,其特征在于,步骤如下:
步骤一、构建融合优化性能指标
针对给定的训练集
Figure FDA0002614858030000011
其中xi为一张图片的像素的输入矩阵;yi为输出矩阵;N为样本个数;n为样本的输入维数;m为样本的类别数量;针对输入矩阵xi,首先采用两组输入权值(ui,vi)作为一张图片的输入矩阵的左侧和右侧的转换向量;因此含有k个隐含层节点的单层神经网络模型产生的拟合函数表示为
Figure FDA0002614858030000012
简写为
Figure FDA0002614858030000013
其中,bk表示偏差;
Figure FDA0002614858030000014
表示第N个样本在第k个节点下的输出;输出层参数矩阵为α=[αi…αk]T,其中αi=[αi1…αim]T为参数向量;误差表示为函数形式
Figure FDA0002614858030000015
或者简写为
Figure FDA0002614858030000016
并且定义在输入为矩阵时的隐含层的输出矩阵与第k层隐含层节点的输出矩阵分别为:
Figure FDA0002614858030000017
Figure FDA0002614858030000018
在(6)式中的数据聚集矩阵Hk进一步表示为Hk=[Hk-1 Φk],Hk-1为Hk的第1至k-1列组成的矩阵;Hk的伪逆
Figure FDA0002614858030000019
表示为
Figure FDA00026148580300000110
Figure FDA00026148580300000111
其中A11,A12,A21,A22,Uk和Lk为待定的分块矩阵,则有
Figure FDA00026148580300000112
Figure FDA00026148580300000113
由2X2的分块矩阵求逆公式获得:
Figure FDA0002614858030000021
Figure FDA0002614858030000022
A22=R-1
其中
Figure FDA0002614858030000023
Figure FDA0002614858030000024
为投影矩阵,因此
Figure FDA0002614858030000025
也为投影矩阵,其中,I为单位矩阵;因此(4)式中的分块矩阵Lk进一步表示为:
Figure FDA0002614858030000026
因此得到求解最小二乘问题的迭代方式为
Figure FDA0002614858030000027
进一步得到迭代形式的输出层参数的最小二乘解为
Figure FDA0002614858030000028
其中,Y为输出矩阵为
Figure FDA0002614858030000029
将第二阶段的迭代形式的最小二乘解应满足的条件(6)代入到
Figure FDA00026148580300000210
构建融合优化性能指标步骤如下;
Figure FDA00026148580300000211
其中,
Figure FDA00026148580300000212
并将(6)式中的Lk代入(7)式,考虑到
Figure FDA00026148580300000213
为投影矩阵,因此得到
Figure FDA00026148580300000214
Figure FDA00026148580300000215
得到
Figure FDA0002614858030000031
其中,ek-1,q表示输出矩阵的第q列,q表示第q个输出,||·||表示L2-范数,<·>表示内积,根据上述式(9),得到融合输出层参数最小二乘解约束条件的、针对新增隐含层节点参数的融合优化目标函数
Figure FDA0002614858030000032
步骤二、融合优化算法
给定训练集
Figure FDA0002614858030000033
令激活函数为
Figure FDA0002614858030000034
设算法生成的最大节点数为kmax,误差容忍水平为ε;算法分为两个阶段,第一阶段中每次循环产生M个候选节点,并将候选节点的参数(ω(i),b(i))在区间[-λ,λ]上随机均匀产生,其中i=1,…,M;在算法中,用下标加括号的方式表示候补节点的参数,以及其计算产生数值;第二阶段为最小二乘法计算输出层参数;具体实现步骤如下:
(1)初始化拟合误差e0=[y1,…,yN],令k=1,H0=0,
Figure FDA0002614858030000035
和W0=||e0||2,设定λ,ε和kmax的值;
(2)如果k≤kmax且||ek||>ε,则开始进入下一步的节点生产;
第一阶段:确定第k个节点的参数(ωk,bk)
(3)在[-λ,λ]内随机均匀生成M个候选节点
Figure FDA0002614858030000036
(4)计算每个候选节点的输出矩阵Φ(i)并计算
Figure FDA0002614858030000037
(5)计算
Figure FDA0002614858030000038
(6)如果{i|γ(i)≤Wk-1}是空集,回到第(2)步;
(7)如果{i|γ(i)≤Wk-1}不是空集,则选择
Figure FDA0002614858030000039
并计算
Figure FDA00026148580300000310
(8)如果r*≥ε,令
Figure FDA00026148580300000311
并令k=k+1;
(9)否则回到第(2)步;
第二阶段:计算输出层参数α,更新参数
(10)令
Figure FDA0002614858030000041
Hk=[Hk-1 Φk],并计算伪逆
Figure FDA0002614858030000042
(11)计算输出层参数
Figure FDA0002614858030000043
和当前误差ek=Y-Hkα;
(12)令k=k+1,结束本次循环,重新返回第(2)步;
(13)输出(ωi,bi)和输出层所有参数α,i=1,…,k;
步骤三、利用构建的神经网络进行数字图像识别:将待进行识别的图像输入神经网络中进行数字图像的识别;将IOM算法运用于数字图像处理时,由IOM算法修订所得为2DIOM算法如下:
二维融合优化算法:给定训练集
Figure FDA0002614858030000044
令激活函数为
Figure FDA0002614858030000045
网络的输出表示为
Figure FDA0002614858030000046
设算法生成的最大节点数为kmax,误差容忍水平为ε;算法分为两个阶段,第一阶段中每次循环产生M个候选节点,并将候选节点的参数(u(i),v(i),b(i))在区间[-λ,λ]上随机均匀产生,其中i=1,…,M;在算法中,用下标加括号的方式表示候补节点的参数,以及其计算产生数值;第二阶段为最小二乘法计算输出层参数;具体实现步骤如下:
(1)初始化拟合误差e0=[y1,…,yN],令k=1,H0=0,
Figure FDA00026148580300000411
和W0=||e0||2,设定λ,ε和kmax的值;
(2)如果k≤kmax且||ek||>ε,则开始进入下一步的节点生产;
第一阶段:确定第k个节点的参数(uk,vk,bk)
(3)在[-λ,λ]内随机均匀生成M个候选节点
Figure FDA0002614858030000047
(4)计算每个候选节点的输出矩阵Φ(i)并计算
Figure FDA0002614858030000048
(5)计算
Figure FDA0002614858030000049
(6)如果{i|γ(i)≤Wk-1}是空集,回到第(2)步;
(7)如果{i|γ(i)≤Wk-1}不是空集,则选择
Figure FDA00026148580300000410
并计算
Figure FDA0002614858030000051
(8)如果r*≥ε,令
Figure FDA0002614858030000052
并令k=k+1;
(9)否则回到第(2)步;
第二阶段:计算输出层参数α,更新参数
(10)令
Figure FDA0002614858030000053
Hk=[Hk-1 Φk],并计算伪逆
Figure FDA0002614858030000054
(11)计算输出层参数
Figure FDA0002614858030000055
和当前误差ek=Y-Hkα;
(12)令k=k+1,结束本次循环,重新返回第(2)步;
(13)输出(ui,vi,bi)和输出层所有参数α,i=1,…,k。
CN202010766549.7A 2020-08-03 2020-08-03 一种用于数字图像识别的构建型神经网络参数融合优化方法 Active CN111881990B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010766549.7A CN111881990B (zh) 2020-08-03 2020-08-03 一种用于数字图像识别的构建型神经网络参数融合优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010766549.7A CN111881990B (zh) 2020-08-03 2020-08-03 一种用于数字图像识别的构建型神经网络参数融合优化方法

Publications (2)

Publication Number Publication Date
CN111881990A true CN111881990A (zh) 2020-11-03
CN111881990B CN111881990B (zh) 2024-03-08

Family

ID=73205274

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010766549.7A Active CN111881990B (zh) 2020-08-03 2020-08-03 一种用于数字图像识别的构建型神经网络参数融合优化方法

Country Status (1)

Country Link
CN (1) CN111881990B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105844332A (zh) * 2016-03-10 2016-08-10 中国石油大学(华东) 快速递归Elman神经网络建模学习算法
CN106407932A (zh) * 2016-09-20 2017-02-15 中国石油大学(华东) 基于分数阶微积分与广义逆神经网络的手写数字识别方法
CN109840639A (zh) * 2019-03-05 2019-06-04 东北大学 一种高速铁路列车运行晚点时间预测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105844332A (zh) * 2016-03-10 2016-08-10 中国石油大学(华东) 快速递归Elman神经网络建模学习算法
CN106407932A (zh) * 2016-09-20 2017-02-15 中国石油大学(华东) 基于分数阶微积分与广义逆神经网络的手写数字识别方法
CN109840639A (zh) * 2019-03-05 2019-06-04 东北大学 一种高速铁路列车运行晚点时间预测方法

Also Published As

Publication number Publication date
CN111881990B (zh) 2024-03-08

Similar Documents

Publication Publication Date Title
Sun et al. NeuPDE: Neural network based ordinary and partial differential equations for modeling time-dependent data
JP7462623B2 (ja) 活性スパース化を用いたニューラルネットワーク加速・埋め込み圧縮システム及び方法
US10984308B2 (en) Compression method for deep neural networks with load balance
CN110807154B (zh) 一种基于混合深度学习模型的推荐方法与系统
US10762426B2 (en) Multi-iteration compression for deep neural networks
US20190050734A1 (en) Compression method of deep neural networks
CN108874914B (zh) 一种基于图卷积与神经协同过滤的信息推荐方法
US11308392B2 (en) Fixed-point training method for deep neural networks based on static fixed-point conversion scheme
US10832123B2 (en) Compression of deep neural networks with proper use of mask
US10929744B2 (en) Fixed-point training method for deep neural networks based on dynamic fixed-point conversion scheme
JP2022545038A (ja) リソース制約付きニューラルネットワークアーキテクチャ検索
CN110245269B (zh) 获取关系网络图中节点的动态嵌入向量的方法和装置
CN110677284B (zh) 一种基于元路径的异构网络链路预测的方法
CN113254663B (zh) 一种融合图卷积与翻译模型的知识图谱联合表示学习方法
WO2022252455A1 (en) Methods and systems for training graph neural network using supervised contrastive learning
CN111723914A (zh) 一种基于卷积核预测的神经网络架构搜索方法
Loni et al. Densedisp: Resource-aware disparity map estimation by compressing siamese neural architecture
CN112580728A (zh) 一种基于强化学习的动态链路预测模型鲁棒性增强方法
CN110232151B (zh) 一种混合概率分布检测的QoS预测模型的构建方法
Springer et al. Robust parameter estimation of chaotic systems
CN111881990B (zh) 一种用于数字图像识别的构建型神经网络参数融合优化方法
CN116821519A (zh) 一种基于图结构的系统过滤和降噪的智能推荐方法
CN115938505A (zh) 基于图神经网络块结构与多头注意力机制融合的药物分子筛选方法及系统
CN116561614A (zh) 一种基于元学习的小样本数据处理系统
CN112949599B (zh) 基于大数据的候选内容推送方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant