CN104850890A - 基于实例学习和Sadowsky分布的卷积神经网络参数调整方法 - Google Patents

基于实例学习和Sadowsky分布的卷积神经网络参数调整方法 Download PDF

Info

Publication number
CN104850890A
CN104850890A CN201510175608.2A CN201510175608A CN104850890A CN 104850890 A CN104850890 A CN 104850890A CN 201510175608 A CN201510175608 A CN 201510175608A CN 104850890 A CN104850890 A CN 104850890A
Authority
CN
China
Prior art keywords
neural networks
convolutional neural
distribution
model
sadowsky
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510175608.2A
Other languages
English (en)
Other versions
CN104850890B (zh
Inventor
刘天良
王义峰
郑海红
田玉敏
罗雪梅
谢琨
潘蓉
方敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN201510175608.2A priority Critical patent/CN104850890B/zh
Publication of CN104850890A publication Critical patent/CN104850890A/zh
Application granted granted Critical
Publication of CN104850890B publication Critical patent/CN104850890B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种基于实例学习和Sadowsky分布的卷积神经网络参数调整方法,主要是在利用卷积神经网络训练分类模型的基础上,将特例样本的进一步分类问题归结为基于Sadowsky分布的感知问题,并从理论上证明了感知特征向量中存在Sadowsky分布;通过构造实例集合、Sadowsky分布搜索算法和满足Sadowsky分布的权值映射算法,来训练新的实例卷积神经网络;在分类决策时,两个卷积神经网络共同作用于样本,取概率最大值对应的标签作为分类的结果。本发明的方法能够在保证具有公共特征的样本分类正确的基础上,进一步提高特例样本的分类精度。

Description

基于实例学习和Sadowsky分布的卷积神经网络参数调整方法
技术领域
本发明涉及卷积神经网络参数调整方法,具体涉及基于实例学习和Sadowsky分布的卷积神经网络参数调整方法,属于机器学习技术领域。
背景技术
二分类或多分类问题的分类精度往往取决于特征与机器学习算法,很多文献将Shiftable Edges特征、Shape Context特征等与K最近邻分类算法(K-Nearest Neighbors algorithm,KNN)结合取得了良好效果。随着机器学习算法的不断发展,尤其是人工神经网络与卷积神经网络的不断改进,分类算法的精度有了大幅提高,但是,在手写体识别领域,由于人工神经网络具有大量隐神经元,并且神经元的权值空间对称,所以使得神经网络的误差函数是一多峰函数,优化算法难以收敛到全局最优点,导致神经网络过拟合现象严重。文献“Krizhevsky A,Sutskever I,Hinton G E.ImageNet Classification withDeep Convolutional Neural Networks[C]//Advances in NeuralInformation Processing Systems.Cambridge:MIT Press,2012:1106-1114.”采用多层二维卷积模型,模拟人的视神经皮质的分层特性与功能,提出了LeNet特征学习框架,该模型更符合仿生学特性,具有自动提取图像局部特征的能力,其分类精度显著提高。但是,由于卷积神经网络总是提取同一类样本的共同特征,而样本中总是存在一些与大部分样本差异较大的样本,我们称其为特例样本,这些特例样本往往导致识别精度不能进一步提升,成为卷积神经网络分类问题的瓶颈。
发明内容
为解决现有技术的不足,本发明的目的在于提供一种基于实例学习和Sadowsky分布的卷积神经网络参数调整方法,该调整方法可以在卷积神经网络分类模型的基础上,进一步提高二分类或多分类问题的分类精度,尤其对解决样本获取困难的小样本分类问题更有优势。
为了实现上述目标,本发明采用如下的技术方案:
一种基于实例学习和Sadowsky分布的卷积神经网络参数调整方法,其特征在于,包括以下步骤:
一、利用有限的样本集和最简单的卷积神经网络结构,训练一个分类模型Model1
二、利用分类模型Model1构造实例集合;
三、分类模型Model1输出的结果为正确的分类标签或与正确分类标签最接近的错误标签,将输出结果看成一个二分类问题,为该二分类问题建立基于Sadowsky分布的感知模型;
四、通过搜索高斯分布近似Sadowsky分布;
五、通过感知模型调整基于实例的卷积神经网络卷积模板的参数,得到分类模型Model2
六、输入样本利用分类模型Model1和分类模型Model2进行联合训练;
七、基于联合卷积神经网络进行分类预测。
前述的基于实例学习和Sadowsky分布的卷积神经网络参数调整方法,其特征在于,在步骤一中,训练分类模型Model1的过程为:
(1)准备训练样本;
(2)设置卷积神经网络结构,具体过程为:
2a、设计卷积神经网络容量;
2b、设计卷积神经网络的激活函数;
2c、设计卷积神经网络的下采样;
2d、设计卷积神经网络的损失函数:
L = - 1 N Σ i = 1 N y i ′ log P ( x i ) + λ 2 | | W ( 2 ) | | 2 + λ 2 | | W ( 3 ) | | 2 ;
2e、设计卷积神经网络全连接层分类器;
2f、设计卷积神经网络的优化算法;
2g、训练卷积神经网络,直至到达局部最优。
前述的基于实例学习和Sadowsky分布的卷积神经网络参数调整方法,其特征在于,在步骤二中,构造实例集合的方法为:
在训练集中选择经过Model1预测正确但概率较低的样本作为实例,每个种类随机选择其中概率较大的至少3个样本作为实例,添加进实例集合。
前述的基于实例学习和Sadowsky分布的卷积神经网络参数调整方法,其特征在于,在步骤三中,建立基于Sadowsky分布的感知模型的过程为:
二分类问题中,假设样本集合中的样本用x1表示,C1、C2为分类标签,则可将卷积神经网络的输入和卷积层这一连续感知过程表示为连续的单调递增概率函数,即:
P ( x 1 → C 1 ) ( t ) = h 1 ( 2 ) ,
其中,x1→C1表示若x1存在,则x1被分为C1类,t表示时间,表示卷积层的输出。
前述的基于实例学习和Sadowsky分布的卷积神经网络参数调整方法,其特征在于,在步骤四中,通过搜索高斯分布近似Sadowsky分布的过程为:
(1)初始化实例卷积神经网络Model2,令Model2=Model1
(2)为每个类C选择单一实例,使用基于相关系数的高斯分布搜索算法,搜索出实例中高斯分布的位置与分布半径;
(3)利用行和列的一维高斯分布来近似表示实例卷积神经网络中卷积模板中蕴含的Sadowsky分布。
前述的基于实例学习和Sadowsky分布的卷积神经网络参数调整方法,其特征在于,在步骤五中,获得分类模型Model2的过程为:
(1)对卷积模板的卷积特征矩阵的行/列高斯分布序列依亮度从高到低排序,并记录排序的索引向量Index;
(2)对Sadowsky分布采样region1+1个点,得到序列,将序列依能量从高到低排序,记录排序索引向量Index';
(3)将卷积模板中与特征向量的高斯序列相对应的序列按元素绝对值递增排序,记录排序索引向量SIndex';
(4)根据Index、Index'、SIndex',调整卷积模板序列的顺序。
前述的基于实例学习和Sadowsky分布的卷积神经网络参数调整方法,其特征在于,在步骤六中,联合训练的过程为:
(1)将步骤二已经建立的实例集合中的每个类的所有实例求均值,得到均值实例,将均值实例作为实例卷积神经网络的输入;
(2)利用步骤四和步骤五更新实例卷积神经网络卷积模板的参数,与此同时,Model1也在原来的基础上进一步训练,但不更新实例集合;
(3)当卷积神经网络收敛或执行有限次后,训练结束。
前述的基于实例学习和Sadowsky分布的卷积神经网络参数调整方法,其特征在于,在步骤七中,基于联合卷积神经网络进行分类预测的过程为:
(1)输入待测试样本,利用Model1预测该样本属于各个类别的概率;
(2)同时,将待测试样本输入Model2,得到各个类别的预测概率;
(3)选择两模型结果中概率最大的类别作为该样本的最终类别。
本发明的有益之处在于:
第一,本发明通过引入实例学习,能够在原有基于卷积神经网络分类模型的基础上,进一步提高特例样本分类预测的概率,从而提高分类精度;
第二,本发明适用任何基于卷积神经网络的分类问题,对解决样本数较少的分类问题尤其有效。
附图说明
图1是本发明采用的卷积神经网络的结构图;
图2是本发明的方法的流程图;
图3是Sadowsky能量归一化分布图;
图4是Sadowsky分布序列按能量递减顺序排序与高斯分布序列正半轴分布对比图;
图5是从测试集中选取的特例样本图;
图6是改进后的卷积神经网络算法与原卷积神经网络算法对图5中特例样本的预测概率对比图,横坐标表示数字分类,纵坐标表示预测概率;
图7是卷积神经网络与基于实例的卷积神经网络算法准确率比较图。
具体实施方式
本发明的卷积神经网络参数调整方法,主要是在利用卷积神经网络训练分类模型的基础上,将特例样本的进一步分类问题归结为基于Sadowsky分布的感知问题,并从理论上证明了感知特征向量中存在Sadowsky分布;通过构造实例集合、Sadowsky分布搜索算法和满足Sadowsky分布的权值映射算法,来训练新的实例卷积神经网络;在分类决策时,两个卷积神经网络共同作用于样本,取概率最大值对应的标签作为分类的结果。本发明的方法能够在保证具有公共特征的样本分类正确的基础上,进一步提高特例样本的分类精度。
为了便于公众理解本发明的方法,本申请以手写体数字识别为例进行介绍。
以下结合附图2和具体实施例对本发明的方法作具体的介绍。
一、利用有限的样本集和最简单的卷积神经网络结构训练一个分类模型Model1
利用有限的样本集和最简单的卷积神经网络结构,训练一个分类模型Model1,具体的步骤为:
1、准备训练样本
由于数字手写体样本多,训练样本有6万张,为满足本实施例算法的要求,选择其中较难区分的数字手写体灰度图像样本2369张为训练样本。
2、设置卷积神经网络结构
本实施例采用附图1的卷积神经网络结构,卷积神经网络的设计过程如下:
(1)、卷积神经网络容量设计
由于数字手写体共分为10类,因此全连接层的h(4)具有10个隐神经元,x1为输入样本,输出预测向量为分别属于这10个类的概率。由于数字手写体图像训练样本数为2369张,图像大小为28×28,假设卷积模板个数为N,卷积模板大小为M×M,下采样维数为2,则全连接层的权值共有个,由神经网络容量设计原则可知,训练样本数必须多于网络模型的连接权数,一般为2到10倍。已知卷积模板不能过小,过小则趋近于传统全连接神经网络,同样卷积神经网络也不能过大,过大则局部特征缺失过多,因此选择卷积模板7到13,卷积模板个数即可为15到20个以保证连接权数与样本的比例关系。为了验证基于实例学习的卷积神经网络的能力,选择卷积层只有一层的卷积神经网络。
(2)、卷积神经网络的激活函数设计
激活函数采用S型激活函数。
(3)、卷积神经网络的下采样设计
已知卷积后图像较小,因此选择大小为2×2的均值下采样。
(4)、卷积神经网络的损失函数设计
数字手写体识别问题是一个多分类问题,对于多分类问题常选择使用交叉熵作为损失函数,交叉熵型损失函数如下:
L = - 1 N Σ i = 1 N y i ′ log P ( x i ) ,
因考虑到损失函数的光滑性,故采用正则化技术对上面的交叉熵型损失函数进行处理,处理后的损失函数为:
L = - 1 N Σ i = 1 N y i ′ log P ( x i ) + λ 2 | | W ( 2 ) | | 2 + λ 2 | | W ( 3 ) | | 2 .
(5)、全连接层设计
全连接层采用Soft-Max回归,该回归是逻辑回归在多分类问题上的推广,令(xi,yi)为标记过的样本,已知Soft-Max解决的是数字手写体多分类问题,因此yi取值为10个不同种类,即yi={1,2,……,k},取
P ( y i | x i ; θ ) = P ( y = 1 | x i ; θ ) P ( y = 2 | x i ; θ ) . . . P ( y = k | x i ; θ ) ,
Soft-Max回归是假设分布满足逻辑分布函数:
P ( y = 1 | x i ; θ ) P ( y = 2 | x i ; θ ) . . . P ( y = k | x i ; θ ) = 1 Σ j = 1 k e θ i x i e θ 1 x i e θ 2 x i . . . e θ k x i ,
其中,q表示与输入x对应的权值向量,qj为q的行向量。
选择概率最大的种类为预测种类。
(6)、卷积神经网络的优化算法设计
选择应用最广泛的随机梯度下降法进行权值更新。
(7)、训练卷积神经网络
按上述方法设置好卷积神经网络后,训练卷积神经网络,直至达到局部最优,得到的分类模型记作Model1
二、利用分类模型Model1构造实例集合
在训练集中选择经过Model1预测正确但概率较低的样本作为实例。实验中选择概率阈值为70%。每个数字种类随机选择其中概率较大的5个样本作为实例,添加进实例集合X。
三、建立基于Sadowsky分布的感知模型
在卷积神经网络中,影响分类精度的一个重要因素是卷积模板的卷积系数。我们建立基于Sadowsky分布感知模型的目的,就是重新调整卷积模板的系数,从而提高分类精度。
为建立基于Sadowsky分布的感知模型,首先将卷积神经网络的输入和卷积层(如图1)这一感知过程表示为连续、单调的递增函数;然后定义感知过程不同状态下的特征感知量;最后给出引理,证明连续感知过程的特征感知量总可以构成一个连续的Sadowsky型莫比乌斯带。基于这一模型,就可以利用特征感知量中存在Sadowsky分布来调整卷积模板的系数。
分类模型Model1输出的结果要么是正确的分类标签,要么是与正确分类标签最接近的错误标签,因此,可以将分类模型Model1输出的结果看成一个二分类问题。
在二分类问题中,假设样本集合中的样本用x1表示,C1、C2为分类标签,则可将卷积神经网络的输入和卷积层这一连续感知过程表示为连续的单调递增概率函数,即:
P ( x 1 → C 1 ) ( t ) = h 1 ( 2 ) ,
其中,x1→C1表示若x1存在,则x1被分为C1类,t表示时间,表示卷积层的输出。由于P(x1→C1)(t)是单调递增函数,且P(x1→C1)(t)是概率函数,其值小于等于1,即如图1所示。
若f1=F(C1)、f2=F(C2)分别表示C1类的特征和C2类的特征,其中F表示样本到其特征的映射函数。以f1、f2为基,{f1,f2}可以张成向量空间,则样本x1在时间t下的特征向量可以表示为F(x1)(t)=α1f12f2,[α12,t]就是x1在时间t下的特征感知量。
引理1连续感知过程的任意两个不同状态的特征感知量是异面直线。
证明:设连续感知过程P(x1→C1)(t)的两个不同状态为P(x1→C1)(t1)和P(x1→C1)(t2),并且t2>t1,已知连续感知过程是一个单调增函数,所以P(x1→C1)(t1)≤P(x1→C1)(t2),若将样本x1在t1、t2状态的特征分别表示为F(x1)(t1)=α1f12f2和F(x1)(t2)=β1f12f2,向量α=[α12],β=[β12]显然不平行,否则与连续感知过程是一个单调递增函数相矛盾。因此向量α=[α12]与β=[β12]是异面直线。
定理1连续感知过程的特征感知量总可以构成一个连续的莫比乌斯带。
证明:
(1)必要性:
由性质:“可展莫比乌斯带的两个不相同母线是异面直线”可知,这些母线可以表示为一个连续感知过程。
(2)充分性:
由引理1可知,连续感知过程是从[a1,a2,t1]到[α1,0,tn]的连续变化的,且连续感知过程P(x1→C1)(t)具有等价感知过程其中“≡”表示等价。取这两个过程对称但法向量相反,可以形成连续单侧曲面。由于单侧曲面总是含有莫比乌斯带的,因此连续感知过程的特征感知量总是可以构成一个连续的莫比乌斯带。
推论1连续感知过程的特征感知量总可以构成一个连续的Sadowsky型莫比乌斯带。
证明:由于连续感知过程的特征感知量的计算与莫比乌斯带的宽度无关,且由于感知过程是一个概率函数,每个状态只对应一个概率值,因此特征感知向量构成的莫比乌斯带的宽度为0,即为Sadowsky型莫比乌斯带,其归一化的能量分布就是Sadowsky分布,图3就是某组特殊参数下的Sadowsky分布。
四、通过搜索高斯分布近似Sadowsky分布
特例样本集合X中的样本经过Model1分类,其输出可能是正确的分类标签,也可能是某个其他类的标签,因此可以看成是一个二分类问题,它满足基于Sadowsky分布的感知模型,根据推论1,感知向量中一定存在Sadowsky分布。初始化region的值,将图3所示的Sadowsky分布采样region+1个点,按照概率(能量)从大到小排序,其分布如图4所示,从图中可以发现,它与高斯分布N(0,region/2)的正半轴非常相似,因此可以通过搜索高斯分布来近似Sadowsky分布,具体步骤如下:
1、初始化实例卷积神经网络Model2:令Model2=Model1
2、为每个类C选择单一实例,使用基于相关系数的高斯分布搜索算法,搜索出实例中高斯分布的位置与分布半径,具体步骤如下:
(1)计算卷积特征矩阵:计算属于类C的实例的亮度均值图像(所有该类实例图像求均值),使用大小为M×M的矩阵在亮度均值图像上滑动,每滑动一行或一列,记录一组矩阵值,直到滑动完整个亮度均值图像,共记录28-M+1组矩阵,所有这些矩阵的均值矩阵即为均值图像的卷积特征矩阵。
(2)将类C卷积特征矩阵按行变换为行向量,已知行向量中的元素是像素的亮度,记为pixelposition,其中position表示亮度值pixel在行向量中的索引,初始化邻域大小region。
(3)搜索类C的{Pixelposition-region,……,Pixelposition+region}序列的高斯分布参数:设该序列构成的向量为L1,而采样个数为2region+1,均值为0,方差为region/2的高斯分布N(0,region/2)向量为L2,计算L1与L2的相关系数ρ。如果ρ大于某一阈值,则记录序列{Pixelposition-region,……,Pixelposition+region}的中心点位置position、邻域大小region和相关系数ρ,称position、region和ρ为序列{Pixelposition-region,……,Pixelposition+region}的序列参数。
(4)扩充{Pixelposition-region,……,Pixelposition+region}序列的长度,更新相应参数:令邻域大小region1=region+1,若{Pixelposition-region,……,Pixelposition+region}构成的行向量为L3,采样个数为2region1+1,均值为0,方差为region1/2的高斯分布N(0,region1/2)的向量记作L4,计算L3和L4的相关系数r1,若相关系数ρ1>ρ,则更新{Pixelposition-region,……,Pixelposition+region}序列的相关参数,即:region=region1,r=r1,否则region与ρ保持不变。重复过程(4),直到邻域大小region与相关系数ρ不变为止。
(5)为行向量的每个位置(position)执行步骤(3)和步骤(4)运算,得到每个位置的最相关高斯序列。
(6)删除冗余的行高斯分布序列:
若两组序列参数position1,region1,ρ1与position,region,ρ同时满足:
①position-region≤position1-region1,
②position1+region1≤position+region,
则删除position1,region1,ρ1对应的序列及参数,剩余的序列参数即为行向量中高斯分布的位置及半径。
(7)将卷积特征矩阵按列变换为列向量,依次执行步骤(3)至步骤(6)即可得到列向量中高斯分布序列的序列参数。
3、利用行和列的一维高斯分布来近似表示实例卷积神经网络中卷积模板中蕴含的Sadowsky分布。
五、通过感知模型调整基于实例的卷积神经网络卷积模板的参数,得到分类模型Model2
1、若该卷积模板的卷积特征矩阵的行(列)高斯分布序列参数为position和region,则行(列)的高斯分布序列对应Sadowsky分布序列。
2、对该序列依亮度(概率)从高到低排序,并记录排序的索引向量Index。
由于高斯分布具有对称性,所以,本实施例仅以负半轴上序列{Pixelposition-region,……,Pixelposition}为例来说明参数调整的方法。
3、对如图3的Sadowsky分布采样region1+1个点,得到序列{Pixel′1,……,Pixel′region+1},依能量从高到低排序,记录排序索引向量Index'。
4、将类C的卷积模板按行(列)变换为向量:
由于卷积模板与卷积特征矩阵大小相同,因此卷积模板的行(列)向量也应该存在高斯分布,并且与特征矩阵的高斯分布位置相同。若卷积模板中与特征向量的高斯序列相对应的序列为{Weightposition-region,……,Weightposition},那么首先将{Weightposition-region,……,Weightposition}重新记作{Weight1,……,Weightregion+1},并对{Weight1,……,Weightregion+1}按其元素绝对值递增排序,记录排序索引向量SIndex'。
5、根据Index、Index'、SIndex',调整卷积模板序列{Weight1,……,Weightregion+1}的顺序,方法如下:遍历权值序列,按照WeightIndex'(i)=WeightSIndex'(Index(i))调整权值顺序即可。
六、输入样本利用分类模型Model1和分类模型Model2进行联合训练
1、步骤一得到的卷积神经网络模型Model1在步骤二中已经建立了实例集合X,将实例集合中每个类的所有实例求均值,可得到均值实例,将均值实例作为实例卷积神经网络的输入。
2、利用步骤四和步骤五更新实例卷积神经网络卷积模板的参数,与此同时,Model1也在原来的基础上进一步训练,但不更新实例集合。
3、当卷积神经网络收敛或执行有限次后,训练结束。
七、基于联合卷积神经网络进行分类预测
1、输入待测试样本,利用Model1预测该样本属于各个类别的概率。
2、同时,将待测试样本输入Model2,得到各个类别的预测概率。
3、选择两模型结果中概率最大的类别作为该样本的最终类别。
八、分类概率、分类准确率的比较
从训练集中选择0-9的一组特例样本,如图5所示,对原始卷积神经网络(CNN)和基于实例的卷积神经网络(INS-CNN)进行测试,分类概率如图6所示,其中,黑色柱子表示CNN网络的分类概率,白色柱子表示INS-CNN的分类概率。可以发现,经过参数调整后,每个特例样本的分类概率都有明显的提高。
对CNN和INS-CNN进行对比测试,测试集由10000张图片构成,分类的准确率如图7所示。当迭代次数小于20次时,CNN的准确率较INS-CNN高,因为网络还没有收敛;随着迭代次数的增加,INS-CNN较CNN有明显的提高,两者准确率最大相差1.7%,表明基于实例的卷积神经网络的分类准确率高于传统卷积神经网络。
卷积神经网络总是提取同一类样本的共同特征,导致其对于某些特例样本的正确预测概率较低。通过分析发现:一个预测正确但预测概率较低的样本很多时候与特例样本具有大量的共同特征。如果将预测正确但预测概率较低的样本作为实例,重新选取一组神经元网络并初始化、学习训练,不仅能进一步提高这些实例的预测概率,而且能提高特例样本的预测概率。此外,选择另外一组神经元网络进行训练,并不会影响原来预测正确且概率较高的样本的预测概率。在测试阶段,输入测试样本经过两个卷积神经网络,得到两个预测概率,采用“预测概率最大”作为输出类型的决策准则,即:若输入是该类型中一般的测试样本,第一个卷积网络得到较高的预测概率,当经过第二个卷积网络时,得到一个较低的预测概率;当输入是该类型中的特例样本时,第一个网络往往输出一个较低的预测概率,而第二个网络会得到一个较高的预测概率,根据“预测概率最大”原则,它都会输出一个较高的概率,从而确定类别。
由此可见,本发明的方法通过引入实例学习,能够在原有基于卷积神经网络分类模型的基础上,进一步提高特例样本分类预测的概率,从而提高了分类精度。
卷积神经网络适用于多种分类问题,由于本发明并未影响卷积特征的提取,所以本发明的方法适用任何基于卷积神经网络的分类问题。
另外,因为本发明选用特例样本进行参数调整,所以本发明的方法对解决样本数较少的分类问题尤其有效。
需要说明的是,上述实施例不以任何形式限制本发明,凡采用等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。

Claims (8)

1.基于实例学习和Sadowsky分布的卷积神经网络参数调整方法,其特征在于,包括以下步骤:
一、利用有限的样本集和最简单的卷积神经网络结构,训练一个分类模型Model1
二、利用分类模型Model1构造实例集合;
三、分类模型Model1输出的结果为正确的分类标签或与正确分类标签最接近的错误标签,将输出结果看成一个二分类问题,为该二分类问题建立基于Sadowsky分布的感知模型;
四、通过搜索高斯分布近似Sadowsky分布;
五、通过感知模型调整基于实例的卷积神经网络卷积模板的参数,得到分类模型Model2
六、输入样本利用分类模型Model1和分类模型Model2进行联合训练;
七、基于联合卷积神经网络进行分类预测。
2.根据权利要求1所述的基于实例学习和Sadowsky分布的卷积神经网络参数调整方法,其特征在于,在步骤一中,训练分类模型Model1的过程为:
(1)准备训练样本;
(2)设置卷积神经网络结构,具体过程为:
2a、设计卷积神经网络容量;
2b、设计卷积神经网络的激活函数;
2c、设计卷积神经网络的下采样;
2d、设计卷积神经网络的损失函数:
L = - 1 N Σ i = 1 N y i ′ log P ( x i ) + λ 2 | | W ( 2 ) | | 2 + λ 2 | | W ( 3 ) | | 2 ;
2e、设计卷积神经网络全连接层分类器;
2f、设计卷积神经网络的优化算法;
2g、训练卷积神经网络,直至到达局部最优。
3.根据权利要求1所述的基于实例学习和Sadowsky分布的卷积神经网络参数调整方法,其特征在于,在步骤二中,构造实例集合的方法为:
在训练集中选择经过Model1预测正确但概率较低的样本作为实例,每个种类随机选择其中概率较大的至少3个样本作为实例,添加进实例集合。
4.根据权利要求1所述的基于实例学习和Sadowsky分布的卷积神经网络参数调整方法,其特征在于,在步骤三中,建立基于Sadowsky分布的感知模型的过程为:
二分类问题中,假设样本集合中的样本用x1表示,C1、C2为分类标签,则可将卷积神经网络的输入和卷积层这一连续感知过程表示为连续的单调递增概率函数,即:
P ( x i → C 1 ) ( t ) = h 1 ( 2 ) ,
其中,x1→C1表示若x1存在,则x1被分为C1类,t表示时间,表示卷积层的输出。
5.根据权利要求1所述的基于实例学习和Sadowsky分布的卷积神经网络参数调整方法,其特征在于,在步骤四中,通过搜索高斯分布近似Sadowsky分布的过程为:
(1)初始化实例卷积神经网络Model2,令Model2=Model1
(2)为每个类C选择单一实例,使用基于相关系数的高斯分布搜索算法,搜索出实例中高斯分布的位置与分布半径;
(3)利用行和列的一维高斯分布来近似表示实例卷积神经网络中卷积模板中蕴含的Sadowsky分布。
6.根据权利要求1所述的基于实例学习和Sadowsky分布的卷积神经网络参数调整方法,其特征在于,在步骤五中,获得分类模型Model2的过程为:
(1)对卷积模板的卷积特征矩阵的行/列高斯分布序列依亮度从高到低排序,并记录排序的索引向量Index;
(2)对Sadowsky分布采样region1+1个点,得到序列,将序列依能量从高到低排序,记录排序索引向量Index';
(3)将卷积模板中与特征向量的高斯序列相对应的序列按元素绝对值递增排序,记录排序索引向量SIndex';
(4)根据Index、Index'、SIndex',调整卷积模板序列的顺序。
7.根据权利要求1所述的基于实例学习和Sadowsky分布的卷积神经网络参数调整方法,其特征在于,在步骤六中,联合训练的过程为:
(1)将步骤二已经建立的实例集合中的每个类的所有实例求均值,得到均值实例,将均值实例作为实例卷积神经网络的输入;
(2)利用步骤四和步骤五更新实例卷积神经网络卷积模板的参数,与此同时,Model1也在原来的基础上进一步训练,但不更新实例集合;
(3)当卷积神经网络收敛或执行有限次后,训练结束。
8.根据权利要求1所述的基于实例学习和Sadowsky分布的卷积神经网络参数调整方法,其特征在于,在步骤七中,基于联合卷积神经网络进行分类预测的过程为:
(1)输入待测试样本,利用Model1预测该样本属于各个类别的概率;
(2)同时,将待测试样本输入Model2,得到各个类别的预测概率;
(3)选择两模型结果中概率最大的类别作为该样本的最终类别。
CN201510175608.2A 2015-04-14 2015-04-14 基于实例学习和Sadowsky分布的卷积神经网络参数调整方法 Expired - Fee Related CN104850890B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510175608.2A CN104850890B (zh) 2015-04-14 2015-04-14 基于实例学习和Sadowsky分布的卷积神经网络参数调整方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510175608.2A CN104850890B (zh) 2015-04-14 2015-04-14 基于实例学习和Sadowsky分布的卷积神经网络参数调整方法

Publications (2)

Publication Number Publication Date
CN104850890A true CN104850890A (zh) 2015-08-19
CN104850890B CN104850890B (zh) 2017-09-26

Family

ID=53850522

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510175608.2A Expired - Fee Related CN104850890B (zh) 2015-04-14 2015-04-14 基于实例学习和Sadowsky分布的卷积神经网络参数调整方法

Country Status (1)

Country Link
CN (1) CN104850890B (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106778682A (zh) * 2017-01-11 2017-05-31 厦门中控生物识别信息技术有限公司 一种卷积神经网络模型的训练方法及其设备
WO2017088537A1 (zh) * 2015-11-23 2017-06-01 广州视源电子科技股份有限公司 一种元件分类方法及装置
CN106874921A (zh) * 2015-12-11 2017-06-20 清华大学 图像分类方法和装置
CN107481209A (zh) * 2017-08-21 2017-12-15 北京航空航天大学 一种基于卷积神经网络的图像或视频质量增强方法
CN107491790A (zh) * 2017-08-25 2017-12-19 北京图森未来科技有限公司 一种神经网络训练方法及装置
CN107992131A (zh) * 2017-12-11 2018-05-04 浙江工业大学 基于卷积神经网络的光照度测量及光照度智能控制系统
CN108038543A (zh) * 2017-10-24 2018-05-15 华南师范大学 期望与反期望深度学习方法和神经网络系统
CN108280516A (zh) * 2018-03-05 2018-07-13 山东领能电子科技有限公司 一种多组卷积神经网络之间互博智能进化的优化方法
WO2019011093A1 (zh) * 2017-07-12 2019-01-17 腾讯科技(深圳)有限公司 机器学习模型训练方法和装置、表情图像分类方法和装置
CN109447247A (zh) * 2018-10-23 2019-03-08 北京旷视科技有限公司 获得卷积神经网络的方法及装置
CN109472359A (zh) * 2018-10-23 2019-03-15 深圳和而泰数据资源与云技术有限公司 深度神经网络的网络结构处理方法及相关产品
CN109643396A (zh) * 2016-06-17 2019-04-16 诺基亚技术有限公司 构建卷积神经网络
CN110110854A (zh) * 2019-04-01 2019-08-09 南京邮电大学 一种基于边状态的深度神经网络测试充分性的方法
CN110717359A (zh) * 2018-07-12 2020-01-21 浙江宇视科技有限公司 基于数理统计的反向传播优化方法、装置及电子设备
CN111242268A (zh) * 2019-09-05 2020-06-05 中国科学院计算技术研究所 一种搜索卷积神经网络的方法
CN111298735A (zh) * 2020-02-12 2020-06-19 苏州垣瑞环境科技有限公司 用于油泥资源化利用的自循环智能供热系统
CN112614132A (zh) * 2021-01-27 2021-04-06 杭州健培科技有限公司 针对少样本腰椎医学影像的半监督循环自学习方法及模型
WO2023015631A1 (zh) * 2021-08-13 2023-02-16 广东技术师范大学 一种基于缺失数据的分类模型生成方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103164701A (zh) * 2013-04-10 2013-06-19 苏州大学 手写体数字识别方法及装置
JP2014049118A (ja) * 2012-08-31 2014-03-17 Fujitsu Ltd 畳み込みニューラルネットワーク分類器システム、その訓練方法、分類方法および用途
CN103996057A (zh) * 2014-06-12 2014-08-20 武汉科技大学 基于多特征融合的实时手写体数字识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014049118A (ja) * 2012-08-31 2014-03-17 Fujitsu Ltd 畳み込みニューラルネットワーク分類器システム、その訓練方法、分類方法および用途
CN103164701A (zh) * 2013-04-10 2013-06-19 苏州大学 手写体数字识别方法及装置
CN103996057A (zh) * 2014-06-12 2014-08-20 武汉科技大学 基于多特征融合的实时手写体数字识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
颜培玉: "基于人工神经网络的手写体数字识别方法", 《沈阳航空工业学院学报》 *

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017088537A1 (zh) * 2015-11-23 2017-06-01 广州视源电子科技股份有限公司 一种元件分类方法及装置
CN106874921A (zh) * 2015-12-11 2017-06-20 清华大学 图像分类方法和装置
CN109643396A (zh) * 2016-06-17 2019-04-16 诺基亚技术有限公司 构建卷积神经网络
CN106778682B (zh) * 2017-01-11 2019-07-09 厦门中控智慧信息技术有限公司 一种卷积神经网络模型的训练方法及其设备
CN106778682A (zh) * 2017-01-11 2017-05-31 厦门中控生物识别信息技术有限公司 一种卷积神经网络模型的训练方法及其设备
US11537884B2 (en) 2017-07-12 2022-12-27 Tencent Technology (Shenzhen) Company Limited Machine learning model training method and device, and expression image classification method and device
WO2019011093A1 (zh) * 2017-07-12 2019-01-17 腾讯科技(深圳)有限公司 机器学习模型训练方法和装置、表情图像分类方法和装置
CN107481209A (zh) * 2017-08-21 2017-12-15 北京航空航天大学 一种基于卷积神经网络的图像或视频质量增强方法
CN107481209B (zh) * 2017-08-21 2020-04-21 北京航空航天大学 一种基于卷积神经网络的图像或视频质量增强方法
CN107491790B (zh) * 2017-08-25 2021-04-02 北京图森智途科技有限公司 一种神经网络训练方法及装置
CN107491790A (zh) * 2017-08-25 2017-12-19 北京图森未来科技有限公司 一种神经网络训练方法及装置
CN108038543A (zh) * 2017-10-24 2018-05-15 华南师范大学 期望与反期望深度学习方法和神经网络系统
CN108038543B (zh) * 2017-10-24 2021-01-22 华南师范大学 期望与反期望深度学习方法和神经网络系统
CN107992131A (zh) * 2017-12-11 2018-05-04 浙江工业大学 基于卷积神经网络的光照度测量及光照度智能控制系统
CN108280516B (zh) * 2018-03-05 2021-05-11 山东领能电子科技有限公司 一种多组卷积神经网络之间互博智能进化的优化方法
CN108280516A (zh) * 2018-03-05 2018-07-13 山东领能电子科技有限公司 一种多组卷积神经网络之间互博智能进化的优化方法
CN110717359B (zh) * 2018-07-12 2023-07-25 浙江宇视科技有限公司 基于数理统计的反向传播优化方法、装置及电子设备
CN110717359A (zh) * 2018-07-12 2020-01-21 浙江宇视科技有限公司 基于数理统计的反向传播优化方法、装置及电子设备
CN109472359B (zh) * 2018-10-23 2021-06-04 深圳和而泰数据资源与云技术有限公司 深度神经网络的网络结构处理方法及相关产品
CN109472359A (zh) * 2018-10-23 2019-03-15 深圳和而泰数据资源与云技术有限公司 深度神经网络的网络结构处理方法及相关产品
CN109447247B (zh) * 2018-10-23 2021-11-16 北京旷视科技有限公司 获得用于图像处理任务的卷积神经网络的方法及装置
CN109447247A (zh) * 2018-10-23 2019-03-08 北京旷视科技有限公司 获得卷积神经网络的方法及装置
CN110110854A (zh) * 2019-04-01 2019-08-09 南京邮电大学 一种基于边状态的深度神经网络测试充分性的方法
CN110110854B (zh) * 2019-04-01 2022-04-22 南京邮电大学 一种基于边状态的深度神经网络测试充分性的方法
CN111242268A (zh) * 2019-09-05 2020-06-05 中国科学院计算技术研究所 一种搜索卷积神经网络的方法
CN111298735A (zh) * 2020-02-12 2020-06-19 苏州垣瑞环境科技有限公司 用于油泥资源化利用的自循环智能供热系统
CN112614132A (zh) * 2021-01-27 2021-04-06 杭州健培科技有限公司 针对少样本腰椎医学影像的半监督循环自学习方法及模型
WO2023015631A1 (zh) * 2021-08-13 2023-02-16 广东技术师范大学 一种基于缺失数据的分类模型生成方法

Also Published As

Publication number Publication date
CN104850890B (zh) 2017-09-26

Similar Documents

Publication Publication Date Title
CN104850890A (zh) 基于实例学习和Sadowsky分布的卷积神经网络参数调整方法
CN109271522B (zh) 基于深度混合模型迁移学习的评论情感分类方法及系统
CN110321361B (zh) 基于改进的lstm神经网络模型的试题推荐判定方法
CN110348624B (zh) 一种基于Stacking集成策略的沙尘暴等级预测方法
Colak et al. Automated McIntosh-based classification of sunspot groups using MDI images
CN101944174B (zh) 车牌字符的识别方法
CN103116766B (zh) 一种基于增量神经网络和子图编码的图像分类方法
CN107562784A (zh) 基于ResLCNN模型的短文本分类方法
CN110321967B (zh) 基于卷积神经网络的图像分类改进方法
CN108288035A (zh) 基于深度学习的多通道图像特征融合的人体动作识别方法
CN100595780C (zh) 一种基于模块神经网络的手写体数字自动识别方法
CN109948029A (zh) 基于神经网络自适应的深度哈希图像搜索方法
CN104834748A (zh) 一种利用基于深度语义排序哈希编码的图像检索方法
CN105989368A (zh) 一种目标检测方法及装置以及移动终端
CN105701480A (zh) 一种视频语义分析方法
CN107229914A (zh) 一种基于深度q学习策略的手写数字识别方法
CN106991296A (zh) 基于随机化贪心特征选择的集成分类方法
CN110110845B (zh) 一种基于并行多级宽度神经网络的学习方法
CN107944410A (zh) 一种基于卷积神经网络的跨领域面部特征解析方法
CN113378913A (zh) 一种基于自监督学习的半监督节点分类方法
CN110807485B (zh) 基于高分遥感影像二分类语义分割图融合成多分类语义图的方法
CN103927550A (zh) 一种手写体数字识别方法及系统
CN110929746A (zh) 一种基于深度神经网络的电子卷宗标题定位提取与分类方法
CN110298434A (zh) 一种基于模糊划分和模糊加权的集成深度信念网络
CN113887410A (zh) 一种基于深度学习的多类别食材识别系统及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170926

Termination date: 20180414