CN111881990A - 一种用于数字图像识别的构建型神经网络参数融合优化方法 - Google Patents
一种用于数字图像识别的构建型神经网络参数融合优化方法 Download PDFInfo
- Publication number
- CN111881990A CN111881990A CN202010766549.7A CN202010766549A CN111881990A CN 111881990 A CN111881990 A CN 111881990A CN 202010766549 A CN202010766549 A CN 202010766549A CN 111881990 A CN111881990 A CN 111881990A
- Authority
- CN
- China
- Prior art keywords
- matrix
- algorithm
- parameters
- output
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 70
- 238000005457 optimization Methods 0.000 title claims abstract description 51
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 31
- 230000004927 fusion Effects 0.000 title claims abstract description 29
- 238000010276 construction Methods 0.000 title abstract description 7
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 92
- 238000003062 neural network model Methods 0.000 claims abstract description 24
- 238000004364 calculation method Methods 0.000 claims abstract description 8
- 239000010410 layer Substances 0.000 claims description 93
- 239000011159 matrix material Substances 0.000 claims description 47
- 238000012549 training Methods 0.000 claims description 16
- 239000013598 vector Substances 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 6
- 238000004519 manufacturing process Methods 0.000 claims description 4
- 239000002356 single layer Substances 0.000 claims description 4
- 230000002776 aggregation Effects 0.000 claims description 3
- 238000004220 aggregation Methods 0.000 claims description 3
- 241000764238 Isis Species 0.000 claims description 2
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 239000000126 substance Substances 0.000 claims description 2
- 238000004458 analytical method Methods 0.000 abstract description 5
- 230000001360 synchronised effect Effects 0.000 abstract description 5
- 238000005516 engineering process Methods 0.000 abstract description 3
- 238000002360 preparation method Methods 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 16
- 238000012360 testing method Methods 0.000 description 16
- 230000006870 function Effects 0.000 description 14
- 230000002146 bilateral effect Effects 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 230000003247 decreasing effect Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 101100365548 Caenorhabditis elegans set-14 gene Proteins 0.000 description 2
- 101100365546 Schizosaccharomyces pombe (strain 972 / ATCC 24843) set10 gene Proteins 0.000 description 2
- 101100141528 Schizosaccharomyces pombe (strain 972 / ATCC 24843) set13 gene Proteins 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013100 final test Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Mathematical Analysis (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Computational Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
Abstract
一种用于数字图像识别的构建型神经网络参数融合优化方法,属于人工智能数字图像识别领域。本方法包括:构建融合优化性能指标;融合优化算法;利用构建的神经网络进行数字图像识别。本发明还通过收敛性分析验证了本发明的有效性,其中第一部分为准备环节,第二部分的IOM算法为本发明的关键技术和实现步骤,第三个部分为理论保证。本发明提供一种隐含层节点参数和输出层参数的同步联合优化方法,在理论上相比于现有方法具有更小的保守性。本方法生成的构建型神经网络模型比现有方法产生的模型结构更紧凑,冗余节点更少,计算速度更快。相比于现有方法产生的模型在学习阶段的后期,误差收敛的速度更快,收敛精度更高,泛化性能更好。
Description
技术领域
本发明属于人工智能数字图像识别领域,提出了一种新的针对随机构建型神经网络(Randomizedconstructivenetwork)隐含层节点参数和输出层参数融合优化配置的方法。
背景技术
本发明专利针对随机构建型神经网络隐含层节点的连接权系数与输出层权系数不能同时联合优化的难题,尤其是在大规模神经网络系统中隐含层节点及其权系数数量剧增的情形下,给出了一种能够将隐含层节点权系数与输出层权系数进行联合优化配置的方法,同时给出了该方法的理论形成和证明过程以及相应的迭代算法步骤。本发明专利给出的系数融合优化方法及其双边配置条件为人工智能领域神经网络系统大规模参数的随机配置提供了一种新的理论指导方法和实现途径。
在人工智能领域,尤其是神经网络模型中,网络的结构和权系数的快速学习算法决定着最终生成的神经网络模型的性能。特别是对于图像的处理往往使用很大的网络结构,而深度的神经网络的训练往往需要花费大量的时间,并且针对网络的结构只能通过实验性质的方法来确定。所以我们针对神经网络对数字图像的处理问题,提出了一种新的浅层的构建型神经网络。在目前的浅层构建型神经网络模型中,比如单隐含层的神经网络模型。在目前的浅层构建神经网络模型中,比如单隐含层的神经网络模型,其隐含层节点和输出层节点的权系数是分阶段独立计算的,即,第一个阶段采用随机生成的方式得到隐含层各个节点的系数或者参数(ωi,bi),其中ωi=[ωi1…ωin]T和bi分别为第i个隐含层节点的输入系数向量和偏差。第二个阶段在前一个阶段得到的(ωi,bi)的基础上,利用最小二乘法计算得到输出层的系数矩阵α。因此目前神经网络模型生成中存在的问题是隐含层节点和输出层节点的系数不是同步进行优化生成的,无法确保最终得到的系数是全局最优的,另外上述分阶段参数优化还可能产生大量的冗余隐含层节点,既造成网络结构复杂化,也会浪费计算资源,使得模型计算过程复杂度高并且模型的性能不佳。本发明专利的提出为神经网络模型中的权系数选择和联合优化提供了一个理论指导方法和实现途径。现有的随机构建型神经网络模型(比如Incremental random vector functional link networks,简称I-RVFL)参数的配置过程如下所述。
对于给定的数据集假设其映射关系可以描述为yi=f(xi),其中f:Rn→Rm是未知的,输入向量xi∈Rn是n维的,输出向量yi∈Rm是m维的。对于这N个样本对,希望能构造一个含有k个隐含层节点的单层神经网络来拟合函数f的映射关系,即神经网络模型拟合的映射关系表示为Hkα=Y;其中为数据聚集矩阵,为第i个隐含层节点的激活函数,简写为或者输出层参数矩阵为α=[ai…ak]T,其中αi=[αi1…αim]T为参数向量。输出矩阵为ωi=[ωi1…ωin]T和bi∈R分别是第i个隐含层节点的输入参数向量和偏差。因此含有k个隐含层节点的单层神经网络模型产生的拟合函数可以表示为简写为对于每一个隐含层节点,比如第k个节点,对给定的数据集记它在该数据集上产生的输出向量为因此,神经网络模型拟合的残差ek表示为其中ek-1为隐含层有k-1个节点时神经网络模型的拟合误差。如果将数据集上的数据对(xi,yi)视为函数变量(x,y)的具体取值,则上述误差可以表示为函数形式或者简写为
对于随机构建型的神经网络,其构建性是指神经网络的隐含层节点是逐个增加或者逐批次增加的,直至神经网络模型的拟合精度达到预设的误差容忍水平为止,并且对于每一个新增的节点,其参数是随机配置的,而输出层参数是通过求解最小二乘问题的解而得到。具体来说,构建型神经网络算法中,比如现有k-1个节点,要增加一个新节点,即第k个节点的生成过程可以分为两个步骤:第一个步骤是随机产生隐含层节点的参数对(ωk,bk),它们分别在区间[-λ,λ]上随机均匀生成,其中λ是一个预先设定的正数。第二个步骤是其输出层的所有参数α通过求解线性问题而得到最小二乘意义下的最优解其中在上述问题中,范数||·||是指矩阵的Frobenius范数。在上述增加第k个节点的第一个步骤中,输出层的参数矩阵α是根据一定的局部优化问题求解得到的。然后固定在第一个步骤中得到的参数值(ωi,bi),i=1,…,k,在第二个步骤中通过求解优化问题更新得到输出层的所有参数或者权值α。显然,在上述构建第k个新增节点的两个步骤中隐含层节点参数(ωi,bi)和输出层参数α是分别固定后通过局部优化得到的,并不是同步进行优化而产生的。因此难免会产生前述的问题,即上述分阶段参数优化无法确保最终得到的模型参数(ωi,bi)和α是全局最优的,并且可能产生大量的冗余隐含层节点。
在第k个节点生成的第一个步骤中,对应的输出层参数αk通常是根据求解如下局部优化问题而得到并固定的:其中为的函数简写形式。输出层参数是通过在上述优化问题中对αk求极值而得到。因此在式子中,最右边的值的含义是在固定输出层参数αk的值时,拟合误差下降能达到的最大值。这个下降的最大值能否达到取决于在第一个步骤中随机选取的隐含层节点参数(ωi,bi)。
上述过程即为构建型神经网络隐含层节点逐步生成的过程,网络节点数从1开始逐渐增加,使得拟合误差逐渐减小,直到满足预设定的误差水平为止。尽管针对上述的构建过程很多学者提出了很多不同的优化算法,但是两个基本步骤是固定和相同的,参数或者权值(ωi,bi)和α都是分阶段独立优化的。因此存在的问题也是共性的。(ωi,bi)和α的同步优化问题在方法论和原理上尚未得到解决。在最终生成的神经网络模型的性能表现上,不仅会产生较多的冗余节点,而且会出现节点增加后误差不降或者下降极少的现象,表明模型的后期收敛能力弱,即当误差已经很小但仍然大于容忍的误差水平时,要保持拟合误差的进一步下降变得非常困难。
进一步分析上述问题产生的原因:1)在生成网络的过程中,由于之前已经产生了很多的节点,这自然会使后面随机生成的新节点会与前面产生的节点有一定的相关性。使得该新增节点在输出层求连接权值的过程中难以起到作用,并且要进一步得到一个合适的节点变得越来越困难。2)上述算法只是分别进行了两个阶段的优化,而并未考虑将两类参数纳入到一个整体的参数优化过程。因此两个计算阶段分别得到各自局部最优的节点参数,从整体看无法确保是一个全局的最优解。
发明内容
本发明专利针对随机构建型神经网络隐含层节点的参数与输出层参数不能同时联合优化的难题,提出了一种隐含层节点参数与输出层参数融合优化的方法,解决了构建型神经网络建模过程中这两类参数的同步联合优化问题。该融合优化的框架仍然保持了节点构建的两个步骤,但是在第一个步骤优化隐含层节点参数的过程中融合了第二个步骤输出层参数最小二乘解应满足的约束条件,从而达到在优化隐含层节点参数的同时输出层参数也满足其最小二乘解条件,从而达到两类参数同步优化的结果。数值仿真结果表明,该融合优化方法生成的构建型神经网络的性能相比于现有方法,得到了极大地提高。
本发明所采用的技术要点包括三部分:1)构建融合优化性能指标;2)融合优化算法;3)收敛性分析,其中第一部分为准备环节,第二部分的IOM算法为本发明的关键技术和实现步骤,第三个部分为理论保证。
本发明的技术方案:
一种用于数字图像识别的构建型神经网络参数融合优化方法,步骤如下:
步骤一、构建融合优化性能指标
针对给定的训练集其中xi为一张图片的像素的输入矩阵;yi为输出矩阵;N为样本个数;n为样本的输入维数;m为样本的类别数量。针对输入矩阵xi,首先采用两组输入权值(ui,vi)作为一张图片的输入矩阵的左侧和右侧的转换向量。因此含有k个隐含层节点的单层神经网络模型产生的拟合函数表示为简写为其中,bk表示偏差;表示第N个样本在第k个节点下的输出;输出层参数矩阵为α=[αi…αk]T,其中αi=[αi1…αim]T为参数向量。误差表示为函数形式或者简写为并且定义在输入为矩阵时的隐含层的输出矩阵与第k层隐含层节点的输出矩阵分别为:
由2X2的分块矩阵求逆公式可得
A22=R-1
因此得到求解最小二乘问题的迭代方式为
其中,ek-1,q表示输出矩阵的第q列,q表示第q个输出,||·||表示L2-范数,<·>表示内积,根据上述式(9),得到融合输出层参数最小二乘解约束条件的、针对新增隐含层节点参数的融合优化目标函数
步骤二、融合优化算法(Integrated Optimization Method,简称IOM)
给定训练集令激活函数为网络的输出可以表示为其中ωi为第i层的隐含层的连接权值,设算法生成的最大节点数为kmax,误差容忍水平为ε。算法分为两个阶段,第一阶段中每次循环产生M个候选节点,并将候选节点的参数(ω(i),b(i))在区间[-λ,λ]上随机均匀产生,其中i=1,…,M。在算法中,用下标加括号的方式表示候补节点的参数,以及其计算产生数值。第二阶段为最小二乘法计算输出层参数。具体实现步骤如下:
(2)如果k≤kmax且||ek||>ε,则开始进入下一步的节点生产;
第一阶段(Phase I):确定第k个节点的参数(ωk,bk)
(6)如果{i|γ(i)≤Wk-1}是空集,回到第(2)步。
(9)否则回到第(2)步。
第二阶段(Phase II):计算输出层参数α,更新参数
(12)令k=k+1,结束本次循环,重新返回第(2)步。
(13)输出(ωi,bi)和输出层所有参数α,i=1,…,k。
算法描述:在上述生成一个新的节点(第k个节点)的过程中,首先生成数量为M的候选节点,候选节点的参数在[-λ,λ]内随机均匀生成,并计算每个候选节点的Pk以及γk,并选择具有最小γk的候选节点作为新增加的节点,并更新Hk-1和如果在所有候选节点中都没有满足要求的节点,就重新随机生成新的候选节点。为了保证收敛的误差序列可以呈现出更为光滑的曲线,对于收敛的误差可以采用双边约束条件加以限制(见收敛性定理)。由于随机生成的特性,在误差序列的收敛后期,误差曲线的收敛速度会变得非常慢,我们综合考虑收敛速度与误差曲线平滑的折中,在实际算法计算过程中建议采取在误差较小的情况下,只保留下界,放开上界约束条件。这样既保证了误差收敛曲线的平滑特性,又确保了一定的收敛速度。上述算法为一般输入的描述,而为了更好应对矩阵输入,即图像识别问题,我们首先将图像进行归一化等处理,作为我们神经网络的输入,然后根据(1)我们可以将随机生成的隐含层的权值设定为两个转换向量和一个偏差(uk,vk,bk),这样在应对图片问题时,很好的减少参数量。最后将所需要识别的图片作为输入,输入给这样构建而成的神经网络,就可以完成图片的分类任务。
步骤三、利用构建的神经网络进行数字图像识别:将待进行识别的图像输入神经网络中进行数字图像的识别。将IOM算法运用于数字图像处理时,由IOM算法修订所得为2DIOM算法如下:
二维融合优化算法(Two-DimensionalIntegrated Optimization Method,简称2DIOM)
给定训练集令激活函数为网络的输出表示为设算法生成的最大节点数为kmax,误差容忍水平为ε。算法分为两个阶段,第一阶段中每次循环产生M个候选节点,并将候选节点的参数(u(i),v(i),b(i))在区间[-λ,λ]上随机均匀产生,其中i=1,…,M。在算法中,用下标加括号的方式表示候补节点的参数,以及其计算产生数值。第二阶段为最小二乘法计算输出层参数。具体实现步骤如下:
(2)如果k≤kmax且||ek||>ε,则开始进入下一步的节点生产;
第一阶段(Phase I):确定第k个节点的参数(uk,vk,bk)
(6)如果{i|γ(i)≤Wk-1}是空集,回到第(2)步。
(9)否则回到第(2)步。
第二阶段(Phase II):计算输出层参数α,更新参数
(12)令k=k+1,结束本次循环,重新返回第(2)步。
(13)输出(ui,vi,bi)和输出层所有参数α,i=1,…,k。
收敛性分析
证明:收敛性证明分为三部分。第一部分证明误差序列{||ek||2}的单调下降性。
第二部分证明给出(11)式中的上界约束条件。为了分析误差序列以及随机构建型神经网络模型的收敛性,在本定理中我们提出一种基于差分误差序列{||ek-1||2-||ek||2}的收敛性证明新方法。根据差分误差序列的收敛性要求,必须满足下列不等式。
(||ek-1||2-||ek||2)-σ(||ek-2||2-||ek-1||2)≤0 (14)
其中0<σ<1为给定的收敛因子。显然条件(14)也意味着误差序列{||ek||2}是按照凸单调下降的方式收敛的。将(12)式代入(14)式可得
|||ek-1||2-||ek||2|<ε (16)
因此对于k>k0的整数和一个有限正数p≥1,有
|||ek||2-||ek+p||2|=|||ek||2-||ek+1||2+||ek+1||2-||ek+2||2+…-||ek+p||2|
≤|||ek||2-||ek+1||2|+…+|||ek+p-1||2-||ek+p||2|
≤pε
上式表明,误差序列{||ek||2}是一个Cauchy序列。
第三部分证明在双边不等式约束条件下,误差序列本身也是收敛的,即为此我们希望能找到{||ek||2}的一个子序列是收敛的,则根据Cauchy序列的定义,{||ek||2}也收敛于该子序列。由差分误差序列的收敛性要求(14)式,可得
||ek-1||2-||ek||2+σ||ek-1||2≤σ||ek-2||2 (17)
由(13)式可知,当k充分大时,总可以找到一个正数ρk满足0<ρk≤σ<1(否则总可通过增大收敛因子σ使得上式成立),因此得到
||ek||2≤||ek-1||2-||ek||2+σ||ek-1||2≤σ||ek-2||2 (18)
从而可以找到{||ek||2}的一个收敛子序列其下标表示为{…,nk-1,nk,nk+1,…}={…,k-2,k,k+2,…},满足序列的收敛条件因此有成立。由于{||ek||2}是Cauchy序列,因此得到
从上述证明过程可知,差分误差序列{||ek-1||2-||ek||2}的收敛性可以覆盖和包含误差序列{||ek||2}的收敛性。
本发明专利提出了一种针对构建型神经网络的隐含层节点参数与输出层参数融合优化的方法,该方法的技术实现要点为:
1)将输出层参数所满足的最小二乘优化条件表示为迭代形式,如式(6)所示。
2)将迭代形式的输出层参数最小二乘解应满足的条件(6)融入到隐含层节点参数的优化过程,构建融合优化性能指标(10)。
3)形成并运行IOM/2DIOM算法。
本发明专利所述IOM算法解决了构建型神经网络中两类参数不能同步优化的问题,提出了一种新的参数融合优化算法,为神经网络系统参数的随机配置提供了一种新的理论指导方法和实现途径。
本发明的有益效果:本发明专利提出了一种隐含层节点参数与输出层参数融合优化的方法,相比于现有的分阶段独立优化方法,有益效果主要有:
1)本方法提供了一种隐含层节点参数和输出层参数的同步联合优化方法,在理论上相比于现有方法具有更小的保守性。
2)本发明专利方法生成的构建型神经网络模型相比于现有方法产生的模型结构更紧凑,冗余节点更少,计算速度更快。
3)本发明专利方法生成的构建型神经网络模型相比于现有方法产生的模型在学习阶段的后期,误差收敛的速度更快,收敛精度更高,泛化性能更好。
附图说明
图1为IOM算法与其他4种算法在数据集1(DataSet1)的训练集上节点为150时的均方根误差(RMSE)。
图2为IOM算法与其他4种算法在数据集1(DataSet1)的测试集上节点为150时的均方根误差。
图3为IOM算法与其他4种算法在数据集2(DataSet2)的训练集上节点为150时的均方根误差。
图4为IOM算法与其他4种算法在数据集2(DataSet2)的测试集上节点为150时的均方根误差。
图5为IOM算法与其他4种算法在数据集10(DataSet10)的训练集上节点为150时的分类精度。
图6为IOM算法与其他4种算法在数据集10(DataSet10)的测试集上节点为150时的分类精度。
图7为2DIOM算法与其他3种算法在手写体识别数据集13(DataSet13)的测试集上节点为100时的分类精度。
图8为2DIOM算法与其他3种算法在手写体识别数据集13(DataSet13)的测试集上节点为100时的分类精度。
图9为2DIOM算法与其他3种算法在人脸识别数据集14(DataSet14)的测试集上节点为1500时的分类精度。
图10为2DIOM算法与其他3种算法在人脸识别数据集14(DataSet14)的测试集上节点为1500时的分类精度。
具体实施方式
为了说明本发明专利在与其他方法的在图像识别技术上的优势,本发明专利的实施案例一共在14个数据集上进行测试和性能比较,12个数据集分别标记为DataSet1~DataSet12数据集分别用于回归和分类两类任务的测试,其中DataSet1和DataSet2用于回归问题,DataSet3-DataSet12用于分类问题,DataSet13和DataSet14为手写体识别数据集与人脸识别数据集,如表1所示。表1为数据集3至12(DataSet3-DataSet12)的参数。
表1
1)2个回归数据集上的案例实施
DataSet1来源于下面的函数
其中变量x在区间[0,1]内随机均匀生成600个点,同时利用函数生成对应的函数值y=f(x)。测试集为用类似的方法生成300个点对。
数据集DataSet2Energy efficiency来自公共平台UCI Machine LearningRepository(http://archive.ics.uci.edu/ml/datasets.php)的实际数据,一共有768个样本和8个特征以及2个输出。将其中600个样本点作为训练集,其余168作为测试集。
在回归问题的2个实施案例中,将本发明专利所述的IOM方法与现有的I-RVFL,EI-RVFL,OI-RVFL以及SCN等4种构建型神经网络建模方法进行了性能对比。这5种方法在实施案例中参数设置如下:SCN的随机取值区间参数设定为λ=[1,5,15,30,50,100,200],收敛因子序列为r=[0.9,0.99,0.999,0.9999,0.99999]。在EI-RVFL和IOM算法中最大候选节点数设定M=500。算法I-RVFL,OI-RVFL以及EI-RVFL的λ均与IOM相同,各个算法具体对于每一个数据集的参数设定见表2。表2为IOM算法在案例中不同数据集上的参数设置值。
表2
在上述两个数据集DataSet1和DataSet2中进行了两种试验。第一个实验如图1至图4所示,给出了IOM与其他4种算法在DataSet1和DataSet2上在节点数增长到150个时候的性能表现。第二个实验则如表3所示,表3为IOM算法与其他4种算法对于数据集1(DataSet1)与数据集2(DataSet2)在不同的容忍误差水平下的运行时间与所需要的节点数对比(ε=0.001和ε=0.01)。针对误差容忍水平分别设定为ε=0.001和ε=0.01时,5种算法的运行时间以及需要的节点数量的比较。需要说明的是,本发明专利所述的IOM方法的操作流程见前述算法步骤。
表3
结果对比与分析:
从图1和图2中可以看出,OI-RVFL算法由于对冗余节点进行了筛选,性能较优于无条件随机生成的I-RVFL。SCN则相对于上面的两种方法更为优秀。EI-RVFL和IOM这两个算法则对比其他的算法收敛得更快,拟合误差更小。并且本发明专利所述IOM算法由于是对于两个阶段的参数进行同步优化,收敛的速度最快、误差曲线最平滑,反映了生成的神经网络模型中冗余节点最少。
从表3中可以看出,本发明专利所述IOM算法在对应的指标下需要的节点数量远小于其他算法,反映了在拟合误差小的情形下收敛性能更好,生成的神经网络模型结构最紧凑。
2)10个分类数据集上的案例实施
本发明专利所述IOM算法与现有的I-RVFL,EI-RVFL,OI-RVFL以及SCN等4种算法也在DataSet3-DataSet12这10个分类数据集上进行了案例实施和性能对比。表4为IOM算法与其他4种算法对于数据集3(DataSet3)至数据集9(DataSet9)在容忍误差ε=0.01时的运行时间、所需要的节点数以及最终的测试精度对比。
表4
在数据集3(DataSet3)至数据集9(DataSet9)上,在容忍误差水平设定为ε=0.01时,对于上述5种算法测试了所需要的节点数、运行时间以及最后分类的精度对比,结果如表4所示。从表中的结果可知,算法I-RVFL和OI-RVFL的误差收敛得非常慢,因此需要大量的节点来达到预定的误差容忍水平。算法EI-RVFL和SCN在生成过程中产生了较多的冗余节点,所以导致所以生成的网络结构复杂,容易出现过拟合现象,模型的泛化能不足。
此外,5种算法在大数据集DataSet10至DataSet12上的性能表现如图5、图6以及表5所示。由这些结果可知,本发明专利所述IOM算法有着更好收敛能力与泛化能力。表5为IOM算法与其他4种算法对于数据集10(DataSet10)至数据集12(DataSet12)在节点数分别为50,100和150时,在训练集和测试集上的分类精度对比。
表5
3)手写体数字识别与人脸识别上的案例实例
从上述的12个数据集的例子可以看出,提出的IOM算法相比于其他算法有着更短的运行时间,更好的泛化能力。因为良好的泛化能力与更短的运行时间,本专利更专注于解决于图像识别技术,以及人脸识别技术。为了更好的应对于2维图像的处理,根据式子(11),我们在提出的IOM算法的基础上,提出2DIOM算法以方便于应用到2D图像的处理,IOM与2DIOM仅仅在随机生成的权值上面,2DIOM随机生成向量与偏差(uk,vk,bk)而非(ωk,bk)。DataSet13Semeion Handwritten Digit数字识别数据集来自公共平台UCI MachineLearning Repository的实际数据而DataSet14ORL Faces Database人脸识别数据集来自英国剑桥的Olivetti研究实验室(http://www.cl.cam.ac.uk/)。在实例中,我们均设定参数λ=1,SCN与I-RVFL均与之前设定的参数相同。图7-图10为2DIOM算法与其他3中算法在两个数据集上的训练准确度与测试准确度上的表现。
其中DatsSet13中共有1593张16*16的手写体图像,其中1273张图片作为训练集,剩下320张作为测试集。
而DataSet14共有来自40个人的一共400张112*92像素的照片,其中每人10张照片。我们将一半作为训练集,另外一半作为数据集。
结果对比与分析:
从图7和图9中可以看出,2DIOM在处理图像问题上相比于其他的算法有更快的收敛速度,因此就有着更加紧密的网络结构。鲁棒性更好。另外在图8和图10在测试集的表现来看,2DIOM在测试集上有着更好的泛化性能,在ORL的人脸识别数据集上在1500节点时,可以达到超过百分之九十的准确度,而其余算法均小于百分九十。因此,相比于同类的随机构建性算法,在图像识别上,2DIOM有着更快收敛速度和更好的泛化能力。
Claims (1)
1.一种用于数字图像识别的构建型神经网络参数融合优化方法,其特征在于,步骤如下:
步骤一、构建融合优化性能指标
针对给定的训练集其中xi为一张图片的像素的输入矩阵;yi为输出矩阵;N为样本个数;n为样本的输入维数;m为样本的类别数量;针对输入矩阵xi,首先采用两组输入权值(ui,vi)作为一张图片的输入矩阵的左侧和右侧的转换向量;因此含有k个隐含层节点的单层神经网络模型产生的拟合函数表示为简写为其中,bk表示偏差;表示第N个样本在第k个节点下的输出;输出层参数矩阵为α=[αi…αk]T,其中αi=[αi1…αim]T为参数向量;误差表示为函数形式或者简写为并且定义在输入为矩阵时的隐含层的输出矩阵与第k层隐含层节点的输出矩阵分别为:
由2X2的分块矩阵求逆公式获得:
A22=R-1
因此得到求解最小二乘问题的迭代方式为
其中,ek-1,q表示输出矩阵的第q列,q表示第q个输出,||·||表示L2-范数,<·>表示内积,根据上述式(9),得到融合输出层参数最小二乘解约束条件的、针对新增隐含层节点参数的融合优化目标函数
步骤二、融合优化算法
给定训练集令激活函数为设算法生成的最大节点数为kmax,误差容忍水平为ε;算法分为两个阶段,第一阶段中每次循环产生M个候选节点,并将候选节点的参数(ω(i),b(i))在区间[-λ,λ]上随机均匀产生,其中i=1,…,M;在算法中,用下标加括号的方式表示候补节点的参数,以及其计算产生数值;第二阶段为最小二乘法计算输出层参数;具体实现步骤如下:
(2)如果k≤kmax且||ek||>ε,则开始进入下一步的节点生产;
第一阶段:确定第k个节点的参数(ωk,bk)
(6)如果{i|γ(i)≤Wk-1}是空集,回到第(2)步;
(9)否则回到第(2)步;
第二阶段:计算输出层参数α,更新参数
(12)令k=k+1,结束本次循环,重新返回第(2)步;
(13)输出(ωi,bi)和输出层所有参数α,i=1,…,k;
步骤三、利用构建的神经网络进行数字图像识别:将待进行识别的图像输入神经网络中进行数字图像的识别;将IOM算法运用于数字图像处理时,由IOM算法修订所得为2DIOM算法如下:
二维融合优化算法:给定训练集令激活函数为网络的输出表示为设算法生成的最大节点数为kmax,误差容忍水平为ε;算法分为两个阶段,第一阶段中每次循环产生M个候选节点,并将候选节点的参数(u(i),v(i),b(i))在区间[-λ,λ]上随机均匀产生,其中i=1,…,M;在算法中,用下标加括号的方式表示候补节点的参数,以及其计算产生数值;第二阶段为最小二乘法计算输出层参数;具体实现步骤如下:
(2)如果k≤kmax且||ek||>ε,则开始进入下一步的节点生产;
第一阶段:确定第k个节点的参数(uk,vk,bk)
(6)如果{i|γ(i)≤Wk-1}是空集,回到第(2)步;
(9)否则回到第(2)步;
第二阶段:计算输出层参数α,更新参数
(12)令k=k+1,结束本次循环,重新返回第(2)步;
(13)输出(ui,vi,bi)和输出层所有参数α,i=1,…,k。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010766549.7A CN111881990B (zh) | 2020-08-03 | 2020-08-03 | 一种用于数字图像识别的构建型神经网络参数融合优化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010766549.7A CN111881990B (zh) | 2020-08-03 | 2020-08-03 | 一种用于数字图像识别的构建型神经网络参数融合优化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111881990A true CN111881990A (zh) | 2020-11-03 |
CN111881990B CN111881990B (zh) | 2024-03-08 |
Family
ID=73205274
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010766549.7A Active CN111881990B (zh) | 2020-08-03 | 2020-08-03 | 一种用于数字图像识别的构建型神经网络参数融合优化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111881990B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105844332A (zh) * | 2016-03-10 | 2016-08-10 | 中国石油大学(华东) | 快速递归Elman神经网络建模学习算法 |
CN106407932A (zh) * | 2016-09-20 | 2017-02-15 | 中国石油大学(华东) | 基于分数阶微积分与广义逆神经网络的手写数字识别方法 |
CN109840639A (zh) * | 2019-03-05 | 2019-06-04 | 东北大学 | 一种高速铁路列车运行晚点时间预测方法 |
-
2020
- 2020-08-03 CN CN202010766549.7A patent/CN111881990B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105844332A (zh) * | 2016-03-10 | 2016-08-10 | 中国石油大学(华东) | 快速递归Elman神经网络建模学习算法 |
CN106407932A (zh) * | 2016-09-20 | 2017-02-15 | 中国石油大学(华东) | 基于分数阶微积分与广义逆神经网络的手写数字识别方法 |
CN109840639A (zh) * | 2019-03-05 | 2019-06-04 | 东北大学 | 一种高速铁路列车运行晚点时间预测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111881990B (zh) | 2024-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sun et al. | NeuPDE: Neural network based ordinary and partial differential equations for modeling time-dependent data | |
JP7462623B2 (ja) | 活性スパース化を用いたニューラルネットワーク加速・埋め込み圧縮システム及び方法 | |
US10984308B2 (en) | Compression method for deep neural networks with load balance | |
CN110807154B (zh) | 一种基于混合深度学习模型的推荐方法与系统 | |
US10762426B2 (en) | Multi-iteration compression for deep neural networks | |
US20190050734A1 (en) | Compression method of deep neural networks | |
CN108874914B (zh) | 一种基于图卷积与神经协同过滤的信息推荐方法 | |
US11308392B2 (en) | Fixed-point training method for deep neural networks based on static fixed-point conversion scheme | |
US10832123B2 (en) | Compression of deep neural networks with proper use of mask | |
US10929744B2 (en) | Fixed-point training method for deep neural networks based on dynamic fixed-point conversion scheme | |
JP2022545038A (ja) | リソース制約付きニューラルネットワークアーキテクチャ検索 | |
CN110245269B (zh) | 获取关系网络图中节点的动态嵌入向量的方法和装置 | |
CN110677284B (zh) | 一种基于元路径的异构网络链路预测的方法 | |
CN113254663B (zh) | 一种融合图卷积与翻译模型的知识图谱联合表示学习方法 | |
WO2022252455A1 (en) | Methods and systems for training graph neural network using supervised contrastive learning | |
CN111723914A (zh) | 一种基于卷积核预测的神经网络架构搜索方法 | |
Loni et al. | Densedisp: Resource-aware disparity map estimation by compressing siamese neural architecture | |
CN112580728A (zh) | 一种基于强化学习的动态链路预测模型鲁棒性增强方法 | |
CN110232151B (zh) | 一种混合概率分布检测的QoS预测模型的构建方法 | |
Springer et al. | Robust parameter estimation of chaotic systems | |
CN111881990B (zh) | 一种用于数字图像识别的构建型神经网络参数融合优化方法 | |
CN116821519A (zh) | 一种基于图结构的系统过滤和降噪的智能推荐方法 | |
CN115938505A (zh) | 基于图神经网络块结构与多头注意力机制融合的药物分子筛选方法及系统 | |
CN116561614A (zh) | 一种基于元学习的小样本数据处理系统 | |
CN112949599B (zh) | 基于大数据的候选内容推送方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |