CN105243398A - 基于线性判别分析准则的改进卷积神经网络性能的方法 - Google Patents

基于线性判别分析准则的改进卷积神经网络性能的方法 Download PDF

Info

Publication number
CN105243398A
CN105243398A CN201510566529.4A CN201510566529A CN105243398A CN 105243398 A CN105243398 A CN 105243398A CN 201510566529 A CN201510566529 A CN 201510566529A CN 105243398 A CN105243398 A CN 105243398A
Authority
CN
China
Prior art keywords
convolutional neural
neural networks
discriminant analysis
linear discriminant
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510566529.4A
Other languages
English (en)
Other versions
CN105243398B (zh
Inventor
龚怡宏
石伟伟
王进军
张世周
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN201510566529.4A priority Critical patent/CN105243398B/zh
Publication of CN105243398A publication Critical patent/CN105243398A/zh
Application granted granted Critical
Publication of CN105243398B publication Critical patent/CN105243398B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/192Recognition using electronic means using simultaneous comparisons or correlations of the image signals with a plurality of references
    • G06V30/194References adjustable by an adaptive method, e.g. learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于线性判别分析准则的改进卷积神经网络性能的方法,属于深度学习卷积神经网络领域、脑认知领域和计算机视觉图像分类领域,包括以下步骤:1)将待处理图像集划分为训练集、验证集和测试集;2)选择一个卷积神经网络模型;3)选定步骤2)中的卷积神经网络模型的一个层,对选定层的特征做基于线性判别分析准则的正则约束,形成了一个新的卷积神经网络模型;4)按照基于mini-batch的随机梯度下降方法,利用训练集来训练新的卷积神经网络模型,新的卷积神经网络模型训练好之后,利用训练好的卷积神经网络模型对待分类图像测试,完成分类预测。实验结果表明:本发明能够显著地提高卷积神经网络图像分类的精度。

Description

基于线性判别分析准则的改进卷积神经网络性能的方法
技术领域:
本发明涉及深度学习卷积神经网络领域、脑认知领域和计算机视觉图像分类领域,具体涉及改进卷积神经网络性能的方法,提高卷积神经网络图像分类性能的方法。
背景技术:
当前深度卷积神经网络,已经广泛应用到计算机视觉的各个领域,例如,图像分类、目标检测和定位以及图像检索等等。一直以来,提高卷积网络图像分类性能的方法可以大致分为两种:一种是增加网络结构的规模,即增加网络的层数和每一层的节点的数目;另一种是使用更大规模的训练集。
增加网络结构的规模将会大大增加计算量,给硬件计算设备带来很大的计算负担。现实中,计算资源也是有限的,连续增加两个相邻的卷基层特征图的个数,会导致相应计算量呈平方规模的增加。而且网络规模增大到一定定程度的时候,其性能会逐渐趋于饱和。同时,由于网络规模越大,要通过训练学习的参数就越多,过多的模型参数容易导致过拟合,(所谓过拟合,就是在训练集上分类错误率较低,而在测试集上的分类错误率较高)。
构建大规模的训练标注数据集也是一件很困难的事情,不见耗费大量的时间、人力和财力,而且构建高质量的数据集往往还需要相关的专业知识。最近的一些实验还表明,卷积神经网络的性能随着训练集增大也逐渐趋于饱和,也就是说,当训练集到一定规模时候,再增加训练集,网络性能的提升微乎其微,提升的幅度已经很小。鉴于以上两种情况,最近一些学者也试图对卷积神经网络的结构做了一些小的修改,但这些小的技巧都是基于实验驱动的,是通过大量的实验总结出来的一些技巧,缺乏理论的分析和支持,当然也很难系统地提升网络性能。
发明内容:
本发明的目的在于针对现有技术的不足,提供了一种基于线性判别分析准则的改进卷积神经网络性能的训练方法。
为了达到上述目的,本发明采用如下技术方案予以实现的:
基于线性判别分析准则的改进卷积神经网络性能的方法,包括以下步骤:
1)将待处理图像集划分为训练集、验证集和测试集;
2)选择一个卷积神经网络模型;
3)选定步骤2)中的卷积神经网络模型的第k层,对选定层的特征做基于线性判别分析准则的正则约束,形成了一个新的卷积神经网络模型;
4)按照基于mini-batch的随机梯度下降方法,利用训练集来训练新的卷积神经网络模型,新的卷积神经网络模型训练好之后,利用训练好的卷积神经网络模型对待分类图像测试,完成分类预测。
本发明进一步的改进在于,步骤2)中,设选定的卷积神经网络模型共有M层,给定一个mini-batch的训练样本n为一个mini-batch的大小;Xi表示原始的输入数据,即原始图像;ci∈{1,2,…,C}是相应的类别标签,C是类别总数,选定的卷积神经网络模型的目标函数如下:
m i n W L = Σ i = 1 n l ( W , X i , c i )
其中,W=(W(1),…,W(M);b(1),…,b(M)),即W表示选定的卷积神经网络模型的全部参数,W(m)表示选定的卷积神经网络模型第m层的权重参数,b(m)表示选定的卷积神经网络模型第m层的偏置参数,l(W,Xi,ci)表示样本Xi的损失函数。
本发明进一步的改进在于,步骤2)中,选定的卷积神经网络模型的每一层的特征的递归表示如下:
Y(m)=X(m-1)*W(m),X(0)=X,
X(m)=f(Y(m)+b(m)),m=1,2,…,M,
其中,X(m)表示选定的卷积神经网络模型第m层的特征,*表示卷积运算,Y(m)表示选定的卷积神经网络模型第m层的没有经过激活函数的响应,f(·)表示非线性激活函数。
本发明进一步的改进在于,步骤3)中,选定步骤2)中的卷积神经网络模型的高层,即靠近输出的层。
本发明进一步的改进在于,步骤3)中,对选定的步骤2)中的卷积神经网络模型的第k层做基于线性判别分析准则的正则约束,即使得特征的类内距离逐渐变小,类间距离逐渐变大。
本发明进一步的改进在于,步骤3)中,线性判别分析准则为其中,Trace(·)表示矩阵的迹,
S w = Σ c = 1 C Σ i ∈ π c ( h i - m c ) ( h i - m c ) T
其中,hi表示样本Xi的第k层特征的简写,nc和πc分别表示该mini-batch中属于第c类的样本个数和第c类的下标标号的集合,mc表示第c类的样本的第k层特征的平均值,m表示该mini-batch的所有样本的第k层特征的平均值, n = Σ c = 1 C n c , m c = 1 n c Σ i ∈ π c h i , m = 1 n Σ i = 1 n h i .
本发明进一步的改进在于,步骤3)中,对选定层的特征做基于线性判别分析准则的正则约束,形成一个新的卷积神经网络模型的目标函数为:
m i n W L = Σ i = 1 n l ( W , X i , c i ) - λ T r a c e ( S b ) T r a c e ( S w ) = Δ L 1 - λL 2
其中,为新的卷积神经网络模型的分类损失函数,为第k层特征的线性判别分析准则,λ为大于零的权重系数。
本发明进一步的改进在于,步骤4)中,基于mini-batch的随机梯度下降方法中使用了基于平均值增量更新的方法来计算每一类第k层的特征的平均值,平均值增量更新公式具体如下:
m c ( t ) = Σ i ∈ π c ( t ) h i ( t ) + N c ( t - 1 ) m c ( t - 1 ) N c ( t ) ,
m ( t ) = 1 n Σn c ( t ) m c ( t ) ,
其中,表示其中,表示样本Xi在第t次迭代的第k层的特征;表示第c类的第k层的特征在第t次迭代的平均值;表示到第t次迭代为止,第c类样本的累积总数;分别表示第t次迭代所选取的mini-batch中属于第c类的样本个数和第c类的下标标号的集合;m(t)表示第t次迭代所选取的mini-batch中所有样本的第k层特征的平均值向量;分别表示第t次迭代所选取的mini-batch的总的类内散布矩阵和类间散布矩阵,且有
S w ( t ) = Σ c = 1 C Σ i ∈ π c ( h i ( t ) - m c ( t ) ) ( h i ( t ) - m c ( t ) ) T ,
S b ( t ) = Σ c = 1 C n c ( t ) ( m c ( t ) - m ( t ) ) ( m c ( t ) - m ( t ) ) T .
本发明进一步的改进在于,步骤4)中,基于mini-batch的随机梯度下降方法中,第k层的特征的灵敏度为从新的卷积神经网络模型的分类损失函关于第k层特征的梯度加上线性判别分析准则关于第k层特征的梯度;线性判别分析准则关于第k层的特征的梯度如下:
∂ L 2 ( t ) ∂ h i ( t ) = T r a c e ( S w ( t ) ) ∂ T r a c e ( S b ( t ) ) ∂ h i ( t ) - T r a c e ( S b ( t ) ) ∂ T r a c e ( S w ( t ) ) ∂ h i ( t ) [ T r a c e ( S w ( t ) ) ] 2
其中,
L 2 ( t ) = T r a c e ( S b ( t ) ) T r a c e ( S w ( t ) ) , ∂ T r a c e ( S w ( t ) ) ∂ h i ( t ) = 2 Σ i = 1 C I ( i ∈ π c ( t ) ) { ( h i ( t ) - m c ( t ) ) + ( n c ( t ) m c ( t ) - Σ j ∈ π c ( t ) h j ( t ) ) N c ( t ) } , I()为指示函数,当指示函数的括号内的条件表达式值为真时,指示函数值为1,否则指示函数值为0。
本发明进一步的改进在于,步骤4)中,基于mini-batch的随机梯度下降方法,利用训练集来训练新的卷积神经网络模型,求得参数W,验证集用来调节学习率参数。
相对于现有技术,本发明具有如下的优点:
本发明借鉴视觉皮层的认知机理来进一步提高卷积神经网络的性能,而不单纯地通过增加网络规模和数据规模,同时也避免了陷入纯粹实验驱动的困境。本发明受到视觉皮层认知机理的启发,通过对卷积神经网络的特征进行基于线性判别分析准则的约束,显示地使得卷积神经网络所学习到的特征满足类内距离逐渐变小,类间距离逐渐变大。以往对模型的正则约束都是基于模型参数的约束,本发明第一次提出显式地对卷积神经网络学习到的特征进行正则约束。同时,本发明提出了mini-batch平均值增量式更新的方案,并在试验中进行了验证。
实验结果表明:本发明能够显著地提高卷积神经网络图像分类的精度,不但能够使性能优秀的深度卷积神经网络的分类精度进一步提高,同时还能够使一个浅层的卷积神经网络的分类精度达到一个与没有使用基于线性判别分析准则约束的深度卷积神经网络模型的可比较的分类精度。
具体实施方式:
为了进一步提高卷积神经网络的性能,而不单纯地通过增加网络规模和数据规模,同时也避免陷入纯粹实验驱动的困境,本发明通过借鉴人类视觉皮层的一些机理来提高卷积神经网络的性能,人类视觉系统在几乎所有的任务上都优于机器视觉系统,因此模拟视觉皮层的目标识别来建立一个机器系统一直以来都是一个很有吸引力的事情,事实上卷积神经网络的局部连接和权值共享的结构就已经借鉴了最近一些神经科学的研究成果。
最近的神经科学研究成果表明:目标识别,在视觉皮层腹侧通路表现为通过一系列非线性变换来逐步解离不同类的视觉目标流形。受到视觉皮层认知机理的启发,通过对卷积神经网络的特征进行基于线性判别分析准则的约束,显示地使得卷积神经网络所学习到的特征满足类内距离更小,类间距离更大,最终用一个线性分类器就能将不同类的物体分开,大大提高了卷积神经网络的性能,训练方法简单易行。
本发明基于线性判别分析准则的改进卷积神经网络性能的方法,包括以下步骤:
(1)准备好训练集、验证集和测试集。
(2)选定一个卷积神经网络模型(可以包含一个或多个全连接层)
假定共有M层,给定一个这里为一个mini-batch的大小;Xi表示原始的输入数据,即原始图像;ci∈{1,2,…,C}是相应的类别标签,C是类别总数。我们的目标是学习相应的卷积核权重以及偏置使得网络有最优的分类精度,下面递归地给出每一层的特征图(或特征):
Y(m)=X(m-1)*W(m),X(0)=X
X(m)=f(Y(m)+b(m)),m=1,2,…,M.
这里,W(m)表示第m层的权重,X(m)表示相应层的特征图(对于卷积层)或特征(对于全连接层),“*”表示卷积运算,Y(m)表示第层的没有经过激活函数的响应,f(·)表示非线性激活函数(例如ReLU激活函数);选定的卷积神经网络模型的目标函数如下:
m i n W L = Σ i = 1 n l ( W , X i , c i )
其中,W=(W(1),…,W(M);b(1),…,b(M)),即W表示选定的卷积神经网络模型的全部参数,W(m)表示选定的卷积神经网络模型第m层的权重参数,b(m)表示选定的卷积神经网络模型第m层的偏置参数,l(W,Xi,ci)表示样本Xi的损失函数。
(3)选定步骤(2)中卷积神经网络的一个层(一般为高层,即靠近输出的层),对选定层的特征做基于线性判别分析准则的约束。
假定对网络的第k层的特征进行基于线性判别分析准则的约束,为了描述方便,将样本Xi的第k层特征简写为hi(列向量),nc和πc分别表示该mini-batch中属于第c类的样本个数和相应的指标集合(或下标标号的集合),mc表示第c类的样本的第k层特征向量的平均值,m表示该mini-batch的所有样本的第k层特征向量的平均值,根据以上符号定义可知
对于不同类的物体,其卷积神经网络模型的相应特征应该是逐层被分离开的,即卷积神经网络模型所学习到的特征的类内距离逐渐变小,类间距离逐渐变大。第c类的类内距离可以表示为c=1,2,…,C,这里,上标T表示向量或矩阵的转置,总的类内距离为总的类间距离为
S ( b ) = Σ c = 1 C n c ( m c - m ) T ( m c - m ) .
令Sw和Sb分别表示该mini-batch的类内散布矩阵(协方差矩阵)和类间散布矩阵,则, S w = Σ c = 1 C Σ i ∈ π c ( h i - m c ) ( h i - m c ) T , S b = Σ c = 1 C n c ( m c - m ) ( m c - m ) T . 经过简单的数学计算可以得到S(w)=Trace(Sw),S(b)=Trace(Sb),这里,Trace(·)表示矩阵的迹(矩阵主对角元素的和)。于是,最大化基于线性判别分析的准则意味着最大化类间距离同时最小化类内距离。下面给出对第k层的特征做基于线性判别分析准则的正则约束的新的卷积神经网络模型的目标函数
m i n W L = Σ i = 1 n l ( W , X i , c i ) - λ T r a c e ( S b ) T r a c e ( S w ) = Δ L 1 - λL 2
其中,W=(W(1),…,W(M);b(1),…,b(M)),即W表示新的卷积神经网络的所有要学习的权重参数和偏置参数;表示分类损失函数,l(W,Xi,ci)表示样本Xi的分类损失函数;λ为大于零的权重系数,实际应用中,针对不同的数据集需要进行调节,当λ的值调节好之后,整个训练过程一直保持为恒定不变的值。
由于训练时,每次迭代是基于一个mini-batch的数据进行的,当数据集的类别总数接近或大于一个mini-batch的样本个数时,将不能保证每一次迭代都能使用到所有类的样本。在一个mini-batch中,如果某一类的样本只有一个时,相应于该类的类内距离将为0,虽然计算线性判别分析准则仍然能够继续进行,但本发明希望在一个mini-batch中,即使某一类只有一个样本,该类的类内距离不为0,该类的类内距离仍然能够在总的类内距离中起一定的作用,同时,为了计算的稳定性,我们提出如下的特征平均值(每一类的平均值和总平均值)的增量更新方案:
m c ( t ) = Σ i ∈ π c ( t ) h i ( t ) + N c ( t - 1 ) m c ( t - 1 ) N c ( t ) , m ( t ) = 1 n Σn c ( t ) m c ( t ) .
其中,表示样本Xi在第t次迭代的第k层的特征;表示第c类的第k层的特征在第t次迭代的平均值向量;表示到第t次迭代为止,第c类样本的累积总数;n为一个mini-batch的样本总数;分别表示第t次迭代所选取的mini-batch中属于第c类的样本个数和相应的指标集合(或下标标号的集合);m(t)表示第t次迭代所选取的mini-batch中所有样本的第k层特征的平均值(按照该mini-batch中每一类的更新后的平均值计算出来的);分别表示第t次迭代所选取的mini-batch的总的类内散布矩阵和类间散布矩阵,且有
S w ( t ) = Σ c = 1 C Σ i ∈ π c ( h i ( t ) - m c ( t ) ) ( h i ( t ) - m c ( t ) ) T ,
S b ( t ) = Σ c = 1 C n c ( t ) ( m c ( t ) - m ( t ) ) ( m c ( t ) - m ( t ) ) T .
(4)按照基于mini-batch的随机梯度下降方法,利用训练集来训练新的卷积神经网络模型模型,验证集只用来调节学习率等参数。
在用反向传播算法,需要求目标函数关于模型参数的导数,由于直接求目标函数关于模型参数的导数比较困难,所以需要先求出来目标函数关于各层特征的灵敏度,即损失函数关于相应层特征的导数或梯度,然后根据灵敏度可以求出来关于相应参数的导数。分类损失函数关于第k层的特征的灵敏度可以按照传统神经网络的反向传播算法进行计算。本发明只需计算出线性判别分析准则关于第k层的特征的梯度即可,计算过程如下:
∂ T r a c e ( S w ( t ) ) ∂ h i ( t ) = 2 Σ i = 1 C I ( i ∈ π c ( t ) ) { ( h i ( t ) - m c ( t ) ) + ( n c ( t ) m c ( t ) - Σ j ∈ π c ( t ) h j ( t ) ) N c ( t ) }
∂ T r a c e ( S b ( t ) ) ∂ h i ( t ) = 2 Σ i = 1 C I ( i ∈ π c ( t ) ) n c ( t ) ( m c ( t ) - m ( t ) ) N c ( t )
∂ L 2 ( t ) ∂ h i ( t ) = T r a c e ( S w ( t ) ) ∂ T r a c e ( S b ( t ) ) ∂ h i ( t ) - T r a c e ( S b ( t ) ) ∂ T r a c e ( S w ( t ) ) ∂ h i ( t ) [ T r a c e ( S w ( t ) ) ] 2
其中,I()为指示函数,当指示函数的括号内的条件表达式值为真时,指示函数值为1,否则指示函数值为0。
第k层的特征的灵敏度为从新的卷积神经网络模型的分类损失函关于第k层特征的梯度加上线性判别分析准则关于第k层特征的梯度。然后按照标准的反向传播算法向前进行误差灵敏度反传即可。
(5)当新的卷积神经网络模型训练好之后,利用训练好的卷积神经网络模型对待分类图像测试,完成分类预测。

Claims (10)

1.基于线性判别分析准则的改进卷积神经网络性能的方法,其特征在于,包括以下步骤:
1)将待处理图像集划分为训练集、验证集和测试集;
2)选择一个卷积神经网络模型;
3)选定步骤2)中的卷积神经网络模型的第k层,对选定层的特征做基于线性判别分析准则的正则约束,形成了一个新的卷积神经网络模型;
4)按照基于mini-batch的随机梯度下降方法,利用训练集来训练新的卷积神经网络模型,新的卷积神经网络模型训练好之后,利用训练好的卷积神经网络模型对待分类图像测试,完成分类预测。
2.根据权利要求1所述的基于线性判别分析准则的改进卷积神经网络性能的方法,其特征在于,步骤2)中,设选定的卷积神经网络模型共有M层,给定一个mini-batch的训练样本n为一个mini-batch的大小;Xi表示原始的输入数据,即原始图像;ci∈{1,2,…,C}是相应的类别标签,C是类别总数,选定的卷积神经网络模型的目标函数如下:
m i n W L = Σ i = 1 n l ( W , X i , c i )
其中,W=(W(1),…,W(M);b(1),…,b(M)),即W表示选定的卷积神经网络模型的全部参数,W(m)表示选定的卷积神经网络模型第m层的权重参数,b(m)表示选定的卷积神经网络模型第m层的偏置参数,l(W,Xi,ci)表示样本Xi的损失函数。
3.根据权利要求2所述的基于线性判别分析准则的改进卷积神经网络性能的方法,其特征在于,步骤2)中,选定的卷积神经网络模型的每一层的特征的递归表示如下:
Y(m)=X(m-1)*W(m),X(0)=X,
X(m)=f(Y(m)+b(m)),m=1,2,…,M,
其中,X(m)表示选定的卷积神经网络模型第m层的特征,*表示卷积运算,Y(m)表示选定的卷积神经网络模型第m层的没有经过激活函数的响应,f(·)表示非线性激活函数。
4.根据权利要求3所述的基于线性判别分析准则的改进卷积神经网络性能的方法,其特征在于,步骤3)中,选定步骤2)中的卷积神经网络模型的高层,即靠近输出的层。
5.根据权利要求1所述的基于线性判别分析准则的改进卷积神经网络性能的方法,其特征在于,步骤3)中,对选定的步骤2)中的卷积神经网络模型的第k层做基于线性判别分析准则的正则约束,即使得特征的类内距离逐渐变小,类间距离逐渐变大。
6.根据权利要求5所述的基于线性判别分析准则的改进卷积神经网络性能的方法,其特征在于,步骤3)中,线性判别分析准则为其中,Trace(·)表示矩阵的迹,
S w = Σ c = 1 C Σ i ∈ π c ( h i - m c ) ( h i - m c ) T
其中,hi表示样本Xi的第k层特征的简写,nc和πc分别表示该mini-batch中属于第c类的样本个数和第c类的下标标号的集合,mc表示第c类的样本的第k层特征的平均值,m表示该mini-batch的所有样本的第k层特征的平均值, n = Σ c = 1 C n c , m c = 1 n c Σ i ∈ π c h i , m = 1 n Σ i = 1 n h i .
7.根据权利要求6所述的基于线性判别分析准则的改进卷积神经网络性能的方法,其特征在于,步骤3)中,对选定层的特征做基于线性判别分析准则的正则约束,形成一个新的卷积神经网络模型的目标函数为:
m i n W L = Σ i = 1 n l ( W , X i , c i ) - λ T r a c e ( S b ) T r a c e ( S w ) = Δ L 1 - λL 2
其中,为新的卷积神经网络模型的分类损失函数,为第k层特征的线性判别分析准则,λ为大于零的权重系数。
8.根据权利要求7所述的基于线性判别分析准则的改进卷积神经网络性能的方法,其特征在于,步骤4)中,基于mini-batch的随机梯度下降方法中使用了基于平均值增量更新的方法来计算每一类第k层的特征的平均值,平均值增量更新公式具体如下:
m c ( t ) = Σ i ∈ π c ( t ) h i ( t ) + N c ( t - 1 ) m c ( t - 1 ) N c ( t ) ,
m ( t ) = 1 n Σn c ( t ) m c ( t ) ,
其中,表示其中,表示样本Xi在第t次迭代的第k层的特征;表示第c类的第k层的特征在第t次迭代的平均值;表示到第t次迭代为止,第c类样本的累积总数;分别表示第t次迭代所选取的mini-batch中属于第c类的样本个数和第c类的下标标号的集合;m(t)表示第t次迭代所选取的mini-batch中所有样本的第k层特征的平均值向量;分别表示第t次迭代所选取的mini-batch的总的类内散布矩阵和类间散布矩阵,且有
S w ( t ) = Σ c = 1 C Σ i ∈ π c ( h i ( t ) - m c ( t ) ) ( h i ( t ) - m c ( t ) ) T ,
S b ( t ) = Σ c = 1 C n c ( t ) ( m c ( t ) - m ( t ) ) ( m c ( t ) - m ( t ) ) T .
9.根据权利要8所述的基于线性判别分析准则的改进卷积神经网络性能的方法,其特征在于,步骤4)中,基于mini-batch的随机梯度下降方法中,第k层的特征的灵敏度为从新的卷积神经网络模型的分类损失函关于第k层特征的梯度加上线性判别分析准则关于第k层特征的梯度;线性判别分析准则关于第k层的特征的梯度如下:
∂ L 2 ( t ) ∂ h i ( t ) = T r a c e ( S w ( t ) ) ∂ T r a c e ( S b ( t ) ) ∂ h i ( t ) - T r a c e ( S b ( t ) ) ∂ T r a c e ( S w ( t ) ) ∂ h i ( t ) [ T r a c e ( S w ( t ) ) ] 2
其中,
L 2 ( t ) = T r a c e ( S b ( t ) ) T r a c e ( S w ( t ) ) , ∂ T r a c e ( S w ( t ) ) ∂ h i ( t ) = 2 Σ i = 1 C I ( i ∈ π c ( t ) ) { ( h i ( t ) - m c ( t ) ) + ( n c ( t ) m c ( t ) - Σ j ∈ π c ( t ) h j ( t ) ) N c ( t ) } , ∂ T r a c e ( S b ( t ) ) ∂ h i ( t ) = 2 Σ i = 1 C I ( i ∈ π c ( t ) ) n c ( t ) ( m c ( t ) - m ( t ) ) N c ( t ) , I()为指示函数,当指示函数的括号内的条件表达式值为真时,指示函数值为1,否则指示函数值为0。
10.根据权利要9所述的基于线性判别分析准则的改进卷积神经网络性能的方法,其特征在于,步骤4)中,基于mini-batch的随机梯度下降方法,利用训练集来训练新的卷积神经网络模型,求得参数W,验证集用来调节学习率参数。
CN201510566529.4A 2015-09-08 2015-09-08 基于线性判别分析准则的改进卷积神经网络性能的方法 Expired - Fee Related CN105243398B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510566529.4A CN105243398B (zh) 2015-09-08 2015-09-08 基于线性判别分析准则的改进卷积神经网络性能的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510566529.4A CN105243398B (zh) 2015-09-08 2015-09-08 基于线性判别分析准则的改进卷积神经网络性能的方法

Publications (2)

Publication Number Publication Date
CN105243398A true CN105243398A (zh) 2016-01-13
CN105243398B CN105243398B (zh) 2018-09-04

Family

ID=55041039

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510566529.4A Expired - Fee Related CN105243398B (zh) 2015-09-08 2015-09-08 基于线性判别分析准则的改进卷积神经网络性能的方法

Country Status (1)

Country Link
CN (1) CN105243398B (zh)

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106203432A (zh) * 2016-07-14 2016-12-07 杭州健培科技有限公司 一种基于卷积神经网显著性图谱的感兴趣区域的定位方法
CN106250931A (zh) * 2016-08-03 2016-12-21 武汉大学 一种基于随机卷积神经网络的高分辨率图像场景分类方法
CN106257490A (zh) * 2016-07-20 2016-12-28 乐视控股(北京)有限公司 检测行驶车辆信息的方法及系统
CN106960185A (zh) * 2017-03-10 2017-07-18 陕西师范大学 线性判别深度信念网络的多姿态人脸识别方法
CN107103132A (zh) * 2017-04-21 2017-08-29 西北工业大学 基于随机参数‑神经网络的民机机构全局灵敏度分析方法
CN107481209A (zh) * 2017-08-21 2017-12-15 北京航空航天大学 一种基于卷积神经网络的图像或视频质量增强方法
CN107527355A (zh) * 2017-07-20 2017-12-29 中国科学院自动化研究所 基于卷积神经网络回归模型的视觉跟踪方法、装置
WO2018010434A1 (zh) * 2016-07-13 2018-01-18 华为技术有限公司 一种图像分类方法及装置
CN107704924A (zh) * 2016-07-27 2018-02-16 中国科学院自动化研究所 同步自适应时空特征表达学习模型的构建方法及相关方法
CN107886062A (zh) * 2017-11-03 2018-04-06 北京达佳互联信息技术有限公司 图像处理方法、系统及服务器
CN107909084A (zh) * 2017-11-15 2018-04-13 电子科技大学 一种基于卷积‑线性回归网络的雾霾浓度预测方法
WO2018076130A1 (zh) * 2016-10-24 2018-05-03 中国科学院自动化研究所 物体识别模型的建立方法及物体识别方法
CN108133222A (zh) * 2016-12-01 2018-06-08 富士通株式会社 为数据库确定卷积神经网络cnn 模型的装置和方法
CN108960342A (zh) * 2018-08-01 2018-12-07 中国计量大学 基于改进SoftMax损失函数的图像相似度计算方法
CN109033990A (zh) * 2018-07-02 2018-12-18 河南大学 基于类内类间距离的cnn模型心拍分类方法
CN109389615A (zh) * 2018-09-29 2019-02-26 佳都新太科技股份有限公司 基于深度学习卷积神经网络的硬币识别方法及处理终端
CN109815971A (zh) * 2017-11-20 2019-05-28 富士通株式会社 信息处理方法和信息处理装置
CN109871835A (zh) * 2019-03-27 2019-06-11 南开大学 一种基于互斥正则化技术的人脸识别方法
CN110083719A (zh) * 2019-03-29 2019-08-02 杭州电子科技大学 一种基于深度学习的工业制品病疵检测方法
CN110088773A (zh) * 2016-10-06 2019-08-02 谷歌有限责任公司 具有可分离卷积层的图像处理神经网络
CN110111810A (zh) * 2019-04-29 2019-08-09 华院数据技术(上海)有限公司 基于卷积神经网络的语音人格预测方法
WO2020082732A1 (zh) * 2018-10-26 2020-04-30 平安科技(深圳)有限公司 图片自动分类方法、装置及计算机可读存储介质
US10726326B2 (en) * 2016-02-24 2020-07-28 International Business Machines Corporation Learning of neural network
US10824945B2 (en) 2016-04-15 2020-11-03 Agreeya Mobility Inc. Machine-learning system and method thereof to manage shuffling of input training datasets

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150213302A1 (en) * 2014-01-30 2015-07-30 Case Western Reserve University Automatic Detection Of Mitosis Using Handcrafted And Convolutional Neural Network Features
CN104850836A (zh) * 2015-05-15 2015-08-19 浙江大学 基于深度卷积神经网络的害虫图像自动识别方法
CN104866810A (zh) * 2015-04-10 2015-08-26 北京工业大学 一种深度卷积神经网络的人脸识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150213302A1 (en) * 2014-01-30 2015-07-30 Case Western Reserve University Automatic Detection Of Mitosis Using Handcrafted And Convolutional Neural Network Features
CN104866810A (zh) * 2015-04-10 2015-08-26 北京工业大学 一种深度卷积神经网络的人脸识别方法
CN104850836A (zh) * 2015-05-15 2015-08-19 浙江大学 基于深度卷积神经网络的害虫图像自动识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
HIDEKI NAKAYAMA: "Efficient Discriminative Convolution Using Fisher Weight Map", 《24TH BRITISH MACHINE VISION CONFERENCE》 *
孙艳丰 等: "基于改进Fisher准则的深度卷积神经网络识别算法", 《北京工业大学学报》 *
马勇 等: "基于辨别性深度信念网络的说话人分割", 《清华大学学报(自然科学版)》 *

Cited By (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10726326B2 (en) * 2016-02-24 2020-07-28 International Business Machines Corporation Learning of neural network
US10824945B2 (en) 2016-04-15 2020-11-03 Agreeya Mobility Inc. Machine-learning system and method thereof to manage shuffling of input training datasets
WO2018010434A1 (zh) * 2016-07-13 2018-01-18 华为技术有限公司 一种图像分类方法及装置
CN107622272A (zh) * 2016-07-13 2018-01-23 华为技术有限公司 一种图像分类方法及装置
CN106203432A (zh) * 2016-07-14 2016-12-07 杭州健培科技有限公司 一种基于卷积神经网显著性图谱的感兴趣区域的定位方法
CN106203432B (zh) * 2016-07-14 2020-01-17 杭州健培科技有限公司 一种基于卷积神经网显著性图谱的感兴趣区域的定位系统
CN106257490A (zh) * 2016-07-20 2016-12-28 乐视控股(北京)有限公司 检测行驶车辆信息的方法及系统
CN107704924A (zh) * 2016-07-27 2018-02-16 中国科学院自动化研究所 同步自适应时空特征表达学习模型的构建方法及相关方法
CN107704924B (zh) * 2016-07-27 2020-05-19 中国科学院自动化研究所 同步自适应时空特征表达学习模型的构建方法及相关方法
CN106250931A (zh) * 2016-08-03 2016-12-21 武汉大学 一种基于随机卷积神经网络的高分辨率图像场景分类方法
US11593614B2 (en) 2016-10-06 2023-02-28 Google Llc Image processing neural networks with separable convolutional layers
US11922288B2 (en) 2016-10-06 2024-03-05 Google Llc Image processing neural networks with separable convolutional layers
CN110088773A (zh) * 2016-10-06 2019-08-02 谷歌有限责任公司 具有可分离卷积层的图像处理神经网络
WO2018076130A1 (zh) * 2016-10-24 2018-05-03 中国科学院自动化研究所 物体识别模型的建立方法及物体识别方法
CN108133222A (zh) * 2016-12-01 2018-06-08 富士通株式会社 为数据库确定卷积神经网络cnn 模型的装置和方法
CN108133222B (zh) * 2016-12-01 2021-11-02 富士通株式会社 为数据库确定卷积神经网络cnn模型的装置和方法
US11144817B2 (en) 2016-12-01 2021-10-12 Fujitsu Limited Device and method for determining convolutional neural network model for database
CN106960185A (zh) * 2017-03-10 2017-07-18 陕西师范大学 线性判别深度信念网络的多姿态人脸识别方法
CN106960185B (zh) * 2017-03-10 2019-10-25 陕西师范大学 线性判别深度信念网络的多姿态人脸识别方法
CN107103132B (zh) * 2017-04-21 2020-04-03 西北工业大学 基于随机参数-神经网络的民机机构全局灵敏度分析方法
CN107103132A (zh) * 2017-04-21 2017-08-29 西北工业大学 基于随机参数‑神经网络的民机机构全局灵敏度分析方法
CN107527355A (zh) * 2017-07-20 2017-12-29 中国科学院自动化研究所 基于卷积神经网络回归模型的视觉跟踪方法、装置
CN107527355B (zh) * 2017-07-20 2020-08-11 中国科学院自动化研究所 基于卷积神经网络回归模型的视觉跟踪方法、装置
CN107481209B (zh) * 2017-08-21 2020-04-21 北京航空航天大学 一种基于卷积神经网络的图像或视频质量增强方法
CN107481209A (zh) * 2017-08-21 2017-12-15 北京航空航天大学 一种基于卷积神经网络的图像或视频质量增强方法
CN107886062A (zh) * 2017-11-03 2018-04-06 北京达佳互联信息技术有限公司 图像处理方法、系统及服务器
CN107886062B (zh) * 2017-11-03 2019-05-10 北京达佳互联信息技术有限公司 图像处理方法、系统及服务器
CN107909084A (zh) * 2017-11-15 2018-04-13 电子科技大学 一种基于卷积‑线性回归网络的雾霾浓度预测方法
CN109815971B (zh) * 2017-11-20 2023-03-10 富士通株式会社 信息处理方法和信息处理装置
CN109815971A (zh) * 2017-11-20 2019-05-28 富士通株式会社 信息处理方法和信息处理装置
CN109033990B (zh) * 2018-07-02 2021-08-17 河南大学 基于类内类间距离的cnn模型心拍分类方法
CN109033990A (zh) * 2018-07-02 2018-12-18 河南大学 基于类内类间距离的cnn模型心拍分类方法
CN108960342A (zh) * 2018-08-01 2018-12-07 中国计量大学 基于改进SoftMax损失函数的图像相似度计算方法
CN109389615A (zh) * 2018-09-29 2019-02-26 佳都新太科技股份有限公司 基于深度学习卷积神经网络的硬币识别方法及处理终端
CN109389615B (zh) * 2018-09-29 2021-05-28 佳都科技集团股份有限公司 基于深度学习卷积神经网络的硬币识别方法及处理终端
WO2020082732A1 (zh) * 2018-10-26 2020-04-30 平安科技(深圳)有限公司 图片自动分类方法、装置及计算机可读存储介质
CN109871835B (zh) * 2019-03-27 2021-10-01 南开大学 一种基于互斥正则化技术的人脸识别方法
CN109871835A (zh) * 2019-03-27 2019-06-11 南开大学 一种基于互斥正则化技术的人脸识别方法
CN110083719A (zh) * 2019-03-29 2019-08-02 杭州电子科技大学 一种基于深度学习的工业制品病疵检测方法
CN110111810A (zh) * 2019-04-29 2019-08-09 华院数据技术(上海)有限公司 基于卷积神经网络的语音人格预测方法
CN110111810B (zh) * 2019-04-29 2020-12-18 华院数据技术(上海)有限公司 基于卷积神经网络的语音人格预测方法

Also Published As

Publication number Publication date
CN105243398B (zh) 2018-09-04

Similar Documents

Publication Publication Date Title
CN105243398A (zh) 基于线性判别分析准则的改进卷积神经网络性能的方法
Zhang et al. Dynamic key-value memory networks for knowledge tracing
CN108095716B (zh) 一种基于置信规则库和深度神经网络的心电信号检测方法
CN106845530A (zh) 字符检测方法和装置
CN104463209A (zh) 一种基于bp神经网络的pcb板上数字代码识别方法
CN110059716B (zh) 一种cnn-lstm-svm网络模型的构建及mooc辍学预测方法
CN107943784A (zh) 基于生成对抗网络的关系抽取方法
CN109740655B (zh) 基于矩阵分解及神经协同过滤的物品评分预测方法
CN109242149A (zh) 一种基于教育数据挖掘的学生成绩早期预警方法及系统
Al Ka'bi Proposed artificial intelligence algorithm and deep learning techniques for development of higher education
CN104966105A (zh) 一种鲁棒机器错误检索方法与系统
CN108197743A (zh) 一种基于深度学习的预测模型软测量方法
Ragab et al. Enhancement of predicting students performance model using ensemble approaches and educational data mining techniques
CN107274020A (zh) 一种基于协同过滤思想的学习者学科总测成绩预测系统及方法
CN108596274A (zh) 基于卷积神经网络的图像分类方法
Oyedotun et al. Data mining of students’ performance: Turkish students as a case study
CN112712117A (zh) 一种基于全卷积注意力的多元时间序列分类方法及系统
AKÇAPINAR et al. Modeling students’ academic performance based on their interactions in an online learning environment
Kumar et al. Performance analysis of students using machine learning & data mining approach
CN107423697A (zh) 基于非线性融合深度3d卷积描述子的行为识别方法
Wenwen Modeling and simulation of teaching quality in colleges based on BP neural network and training function
CN113378581B (zh) 一种基于多元概念注意力模型的知识追踪方法及系统
CN113591988B (zh) 知识认知结构分析方法、系统、计算机设备、介质、终端
Yao et al. Chemical property relation guided few-shot molecular property prediction
Buraimoh et al. Application of machine learning techniques to the prediction of student success

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180904

Termination date: 20210908

CF01 Termination of patent right due to non-payment of annual fee