CN110288090B - 训练卷积神经网络的方法及装置、计算机设备和存储介质 - Google Patents
训练卷积神经网络的方法及装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN110288090B CN110288090B CN201910578722.8A CN201910578722A CN110288090B CN 110288090 B CN110288090 B CN 110288090B CN 201910578722 A CN201910578722 A CN 201910578722A CN 110288090 B CN110288090 B CN 110288090B
- Authority
- CN
- China
- Prior art keywords
- neural network
- convolutional neural
- feature vectors
- dimensional feature
- variance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 104
- 238000012549 training Methods 0.000 title claims abstract description 49
- 238000000034 method Methods 0.000 title claims abstract description 41
- 239000013598 vector Substances 0.000 claims abstract description 88
- 238000000513 principal component analysis Methods 0.000 claims abstract description 61
- 238000004364 calculation method Methods 0.000 claims abstract description 29
- 238000013461 design Methods 0.000 claims abstract description 9
- 230000009467 reduction Effects 0.000 claims description 22
- 238000010606 normalization Methods 0.000 claims description 19
- 238000009825 accumulation Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 3
- 238000012935 Averaging Methods 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012847 principal component analysis method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种训练卷积神经网络的方法及装置、计算机设备和存储介质,该方法包括在利用包含K个样品的训练集对卷积神经网络进行推理运算时,对卷积神经网络的每个卷积层的M个输出通道中的每个输出通道的特征图进行平均计算,得到K个M维特征向量;对K个M维特征向量进行主成分分析PCA操作以获得M个新的空间主轴和K个M维特征向量在新的空间主轴上的M个方差值;根据M个方差值,确定缩减后的每个卷积层的输出通道数;以及根据缩减后的每个卷积层的输出通道数设计缩减后的卷积神经网络,并对缩减后的卷积神经网络进行再训练以获得新的卷积神经网络,能够精确地确定出缩减后的每个卷积层的输出通道数,减少卷积神经网络的设计花销时间。
Description
技术领域
本发明涉及深度学习技术领域,具体涉及一种训练卷积神经网络的方法及装置。
背景技术
卷积神经网络(Convolutional Neural Network,CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,尤其适合完成大型图像处理。卷积神经网络主要由多个卷积层组成,其主要的计算量由卷积层的通道数的平方决定。明显地,减少卷积层的输出通道数可以有效减少卷积神经网络的计算量,但也会带来计算准确率的降低。在实际应用中,网络设计主要通过设计者的经验来确定卷积层的输出通道数,或者通过参数的组合进行遍历搜索,每搜索一个确定的网络结构参数,需要对网络重新进行训练,非常耗费时间。
发明内容
有鉴于此,本发明实施例致力于提供一种训练卷积神经网络的方法及装置,精确地确定出缩减后的每个卷积层的输出通道数,从而直接推导出新的优化的网络结构参数,减少卷积神经网络的设计花销时间。
根据本发明实施例的第一方面,提供一种训练卷积神经网络的方法,包括:在利用包含K个样品的训练集对所述卷积神经网络进行推理运算时,对所述卷积神经网络的每个卷积层的M个输出通道中的每个输出通道的特征图进行平均计算,得到K个M维特征向量,其中所述K和M为正整数;对所述K个M维特征向量进行主成分分析PCA操作以获得M个新的空间主轴和所述K个M维特征向量在所述新的空间主轴上的M个方差值;根据所述M个方差值,确定缩减后的所述每个卷积层的输出通道数;以及根据所述缩减后的所述每个卷积层的输出通道数设计缩减后的卷积神经网络,并对所述缩减后的卷积神经网络进行再训练以获得新的卷积神经网络。
在一个实施例中,所述对所述卷积神经网络的每个卷积层的M个输出通道中的每个输出通道的特征图进行平均计算,得到K个M维特征向量具体包括:针对所述包含K个样品的训练集中的每个样品,利用设置在所述每个卷积层后的平均计算旁路,对所述M个输出通道中每个输出通道的特征图进行平均运算以获M维特征向量,从而获得所述K个M维特征向量。
在一个实施例中,所述方法还包括:对所述K个M维特征向量进行标准的方差归一化操作。
在一个实施例中,所述对所述K个M维特征向量进行主成分分析PCA操作以获得M个新的空间主轴和所述K个M维特征向量在所述新的空间主轴上的M个方差值,包括:对经过所述标准的方差归一化操作后的所述K个M维特征向量进行主成分分析PCA操作以获得M个新的空间主轴和所述K个M维特征向量在所述新的空间主轴上的M个方差值,所述M个方差值从大到小依次排列。
在一个实施例中,所述根据所述M个方差值,确定缩减后的所述每个卷积层的输出通道数具体包括:对所述M个方差值进行求和以获得总方差和;从大到小累加所述方差值以获得累加方差和,直到所述累加方差和大于等于所述总方差和的s倍时停止累加,所述s为预设的卷积神经网络宽度缩减系数,其中0<s<1;以及根据累加的所述方差值的个数,确定缩减后的所述每个卷积层的输出通道数。
根据本发明实施例的第二方面,提供一种训练卷积神经网络的装置,包括:平均计算模块,配置为在利用包含K个样品的训练集对所述卷积神经网络进行推理运算时,对所述卷积神经网络的每个卷积层的M个输出通道中的每个输出通道的特征图进行平均计算,得到K个M维特征向量,其中所述K和M为正整数;主成分分析PCA操作模块,配置为对所述K个M维特征向量进行主成分分析PCA操作以获得M个新的空间主轴和所述K个M维特征向量在所述新的空间主轴上的M个方差值;确定模块,配置为根据所述M个方差值,确定缩减后的所述每个卷积层的输出通道数;以及再训练模块,配置为根据所述缩减后的所述每个卷积层的输出通道数设计缩减后的卷积神经网络,并对所述缩减后的卷积神经网络进行再训练以获得新的卷积神经网络。
在一个实施例中,所述平均计算模块具体被配置为:针对所述包含K个样品的训练集中的每个样品,利用设置在所述每个卷积层后的平均计算旁路,对所述M个输出通道中每个输出通道的特征图进行平均运算以获M维特征向量,从而获得所述K个M维特征向量。
在一个实施例中,所述装置还包括:方差归一化模块,配置为对所述K个M维特征向量进行标准的方差归一化操作。
在一个实施例中,所述主成分分析PCA操作模块具体被配置为:对经过所述标准的方差归一化操作后的所述K个M维特征向量进行主成分分析PCA操作以获得M个新的空间主轴和所述K个M维特征向量在所述新的空间主轴上的M个方差值,所述M个方差值从大到小依次排列。
在一个实施例中,所述确定模块具体被配置为:对所述M个方差值进行求和以获得总方差和;从大到小累加所述方差值以获得累加方差和,直到所述累加方差和大于等于所述总方差和的s倍时停止累加,所述s为预设的卷积神经网络宽度缩减系数,其中0<s<1;以及根据累加的所述方差值的个数,确定缩减后的所述每个卷积层的输出通道数。
根据本发明实施例的第三方面,提供一种计算机可读存储介质,其上存储有计算机可执行指令,所述可执行指令被处理器执行时实现如上所述的训练卷积神经网络的方法。
根据本发明实施例的第四方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上所述的训练卷积神经网络的方法。
本发明的实施例所提供的一种训练卷积神经网络的方法,通过在利用包含K个样品的训练集对所述卷积神经网络进行推理运算时,对所述卷积神经网络的每个卷积层的M个输出通道中的每个输出通道的特征图进行平均计算,得到K个M维特征向量;对所述K个M维特征向量进行主成分分析PCA操作以获得M个新的空间主轴和所述K个M维特征向量在所述新的空间主轴上的M个方差值;根据所述M个方差值,确定缩减后的所述每个卷积层的输出通道数;以及根据所述缩减后的所述每个卷积层的输出通道数设计缩减后的卷积神经网络,并对所述缩减后的卷积神经网络进行再训练以获得新的卷积神经网络,能够精确地确定出缩减后的每个卷积层的输出通道数,从而直接推导出新的优化的网络结构参数,减少卷积神经网络的设计花销时间。
附图说明
图1所示为本发明一个实施例提供的训练卷积神经网络的方法的流程示意图。
图2所示为本发明另一个实施例提供的训练卷积神经网络的方法的原理示意图。
图3所示为本发明一个实施例提供的训练卷积神经网络的装置的框图。
图4所示为本发明一个实施例提供的计算机设备的结构示意图。
图5所示为本发明另一个实施例提供的训练卷积神经网络的装置的框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1所示为本发明一个实施例提供的训练卷积神经网络的方法的流程示意图。如图1所示,该方法包括:
S101:在利用包含K个样品的训练集对所述卷积神经网络进行推理运算时,对所述卷积神经网络的每个卷积层的M个输出通道中的每个输出通道的特征图进行平均计算,得到K个M维特征向量,其中所述K和M为正整数。
应当理解,该卷积神经网络是指训练好的基准卷积神经网络,该基准卷积神经网络中的网络结构参数是随机设定的,也就是说该基准卷积神经网络中的每个卷积层的输出通道数是随机设定的。
具体地,利用包含K个样品的训练集对训练好的基准卷积神经网络进行推理运算,应当理解该推理运算可以为EPOCH的推理运算,但是本发明实施例并不限制推理运算的具体实施方法,可以为EPOCH的推理运算,还可以为其他的推理运算。在推理运算的过程中会对每个卷积层的M个输出通道中的每个输出通道的特征图进行平均计算,从而可以得到K个M维特征向量。
需要说明的是,本发明实施例也并不限制对训练好的基准卷积神经网络进行几次推理运算,只要可以获得K个M维特征向量即可;同时,本发明实施例也并不限制训练集中包含的样品的个数,在这里样品的个数用K来表示,但实际上K的个数是任意的。M是指卷积层的输出通道数,为了方便描述本申请将每个卷积层的输出通道数均叫作M,实际上每个卷积层的输出通道数是不相同的。
还应当理解,对于卷积神经网络,对所有指定训练集进行一次计算就叫一个EPOCH,在训练阶段,通常要进行多次EPOCH的推理运算和参数训练才能获得训练好的卷积神经网络。而在训练好之后,只需做一个EPOCH的推理运算就可以获得该卷积神经网络对该训练集数据的统计参数。
S102:对所述K个M维特征向量进行主成分分析PCA操作以获得M个新的空间主轴和所述K个M维特征向量在所述新的空间主轴上的M个方差值。
应当理解,主成分分析PCA操作是常用的分量空间主成分分析方法,主要用于对多元特征空间的主成分方向的求解,主成分分析PCA操作还能够获得样品集在所有正交方向上的方差统计值。在本发明的实施例中,该样品集就是指通过步骤S101获得的K个M维特征向量,所以对K个M维特征向量进行主成分分析PCA操作就可以获得M个新的空间主轴,以及每个卷积层的K个M维特征向量在新的空间主轴上的M个方差值,M个方差值的和在某种意义上讲可以评估每个卷积层的所有输出通道所包含的信息量的大小。
S103:根据所述M个方差值,确定缩减后的所述每个卷积层的输出通道数。
应当理解,可以根据具体的需求来确定缩减后的每个卷积层的输出通道数,所以本发明实施例并不限制缩减后的每个卷积层的输出通道数。
具体地,当对一个样品进行EPOCH的推理运算时,每个卷积层都会得到一个M维特征向量,当样品由一个增加到K个时,每个卷积层就会得到K个M维特征向量,再分别对每个卷积层获得的K个M维特征向量进行主成分分析PCA操作,就可以获得每个卷积层的K个M维特征向量在新的空间主轴上的M个方差值,也就是说,可以获得与每个卷积层的输出通道个数相同的方差值的个数,根据这些方差值确定缩减后的每个卷积层的输出通道数。
S104:根据所述缩减后的所述每个卷积层的输出通道数设计缩减后的卷积神经网络,并对所述缩减后的卷积神经网络进行再训练以获得新的卷积神经网络。
应当理解,经过步骤S103后,已经确定出缩减后的每个卷积层的输出通道数,从而获得了缩减后的卷积神经网络,该缩减后的卷积神经网络具有新的优化的网络结构参数,再对缩减后的卷积神经网络进行再训练就可以获得新的卷积神经网络。
由此可见,通过完成上述S101至S103步骤可以精确地确定出缩减后的每个卷积层的输出通道数,从而直接推导出新的优化的网络结构参数,减少卷积神经网络的设计花销时间。
在本发明的另一个实施例中,对所述卷积神经网络的每个卷积层的M个输出通道中的每个输出通道的特征图进行平均计算,得到K个M维特征向量具体包括:针对所述包含K个样品的训练集中的每个样品,利用设置在所述每个卷积层后的平均计算旁路,对所述M个输出通道中每个输出通道的特征图进行平均运算以获M维特征向量,从而获得所述K个M维特征向量。
具体地,如图2所示,对基准卷积神经网络输入一个包含有K个样品的训练集,并对其进行EPOCH的推理运算,当一个样品通过第一个卷积层后,第一个卷积层的每个输出通道会分别形成一个X*Y的二维特征图,利用设置在每个卷积层后的平均计算旁路,可以对第一个卷积层的第一个输出通道的X*Y的二维特征图进行平均计算以获得一个特征值,当第一个卷积层的输出通道个数为M1时,就会得到M1个特征值,将M1个特征值聚集为一个M1维特征向量。对基准卷积神经网络输入K个样品,并进行EPOCH的推理运算,第一个卷积层就会获得K个M1维特征向量,以此推理可以得出,第i个卷积层也会获得K个Mi维特征向量(如图2所示,第i个卷积层的通道数为Mi),其中X、Y分别为卷积层每个输出通道的特征图的宽和高。需要说明的是,本申请中的M1和Mi与M实际上表示相同的含义,均表示卷积层的输出通道数,只是为了区分每个卷积层包含有不同的输出通道数而定义为M1和Mi。
在本发明的另一个实施例中,所述方法还包括:对所述K个M维特征向量进行标准的方差归一化操作。
需要说明的是,本实施例中仅以第i个卷积层为例进行说明,为了防止出现一些波动过大的M维特征向量而影响PCA操作的效果,经过每个卷积层后获得的K个M维特征向量均要进行标准的方差归一化操作,这样K个M维特征向量的波动会限定在一定范围内。设经过平均计算获得的特征值为f,已知样品的个数为K个,第K个样品经过第i个卷积层后会获得f1,f2…fMi的特征值(第i个卷积层的通道数为Mi),将f1,f2…fMi聚集为一个Mi维特征向量,即第i个卷积层的第K个样品所形成的Mi维特征向量为Fik=[f1,f2…fMi]T。
具体地,标准的方差归一化操作的过程如下:
首先,计算第i个卷积层的K个Mi维特征向量的平均值,为
最后,对Fik进行标准的方差归一化处理,得到一个更新后的Mi维特征向量
在本发明的另一个实施例中,所述对所述K个M维特征向量进行主成分分析PCA操作以获得M个新的空间主轴和所述K个M维特征向量在所述新的空间主轴上的M个方差值,包括:对经过所述标准的方差归一化操作后的所述K个M维特征向量进行主成分分析PCA操作以获得M个新的空间主轴和所述K个M维特征向量在所述新的空间主轴上的M个方差值,所述M个方差值从大到小依次排列。
应当理解,经过标准的方差归一化操作后的K个M维特征向量可以为上述计算得到的更新后的Mi维特征向量Fik,对K个更新后的Mi维特征向量Fik进行主成分分析PCA操作可以获得M个新的空间主轴和所述K个M维特征向量在所述新的空间主轴上的M个方差值E1,E2……EMi,其中方差值的个数与每个卷积层的输出通道个数相同。同时,经过主成分分析PCA操作还可以对获得的M个方差值进行大小的排序,M个方差值从大到小依次排列是为了统计在新的空间主轴上的每个方差值,这样在缩减每个卷积层的输出通道数时,可以认为减少的是信息量较少的输出通道,所以在确定缩减后的每个卷积层的输出通道数时,可以看作在新的空间主轴上的M个方差值中的最小方差值被丢弃,同时,M个方差值从大到小依次排列有利于后续确定缩减后的每个卷积层的输出通道数。
在本发明的另一个实施例中,根据所述M个方差值,确定缩减后的所述每个卷积层的输出通道数具体包括:对所述M个方差值进行求和以获得总方差和;从大到小累加所述方差值以获得累加方差和,直到所述累加方差和大于等于所述总方差和的s倍时停止累加,所述s为预设的卷积神经网络宽度缩减系数,其中0<s<1;以及根据累加的所述方差值的个数,确定缩减后的所述每个卷积层的输出通道数。
应当理解,在确定缩减后的所述每个卷积层的输出通道数之前,需要根据需求来设定一个预设的卷积神经网络宽度缩减系数s,s是大于0小于1的整数。当设定好缩减系数s以后,进行如下伪代码的操作:
具体地,首先对E1,E2……EMi方差值进行求和,获得总方差和E1+E2+……+EMi;再从大到小累加方差值以获得累加方差和E1+E2+……,直到累加方差和大于等于总方差和的s倍时停止累加;最后返回与累加的方差值的个数相同的每个卷积层的输出通道数,从而确定出与累加的方差值的个数相同的每个卷积层的输出通道数为缩减后的每个卷积层的输出通道数。
应当理解,总方差和用于表征基准卷积神经网络的宽度;累加方差和用于表征缩减后的卷积神经网络的宽度,当对基准卷积神经网络的每个卷积层的输出通道进行缩减后,形成缩减后的卷积神经网络,再对缩减后的卷积神经网络进行再训练就可以获得新的卷积神经网络。
需要说明的是,缩减后的每个卷积层的输出通道数是不相同的,每个卷积层具体需要缩减多少个输出通道是通过将M个方差值进行上述伪代码的操作获得的。同时,本发明实施例并不限制上述伪代码,例如其中的Eia和Eja中的a指数为预设值,可以采用a=1,但也可以采用其他值,也就是说a的值并不会对本发明实施例起到限制的作用,本申请所要得到的是总方差和和累加方差和的对比结果,所以a可以为任意值。
由此可见,通过上述伪代码的操作可以精确地确定出缩减后的每个卷积层的输出通道数,从而直接推导出新的优化的网络结构参数,减少卷积神经网络的设计花销时间。
图3所示为本发明一个实施例提供的训练卷积神经网络的装置的框图。如图3所示,该装置300包括:
平均计算模块310,配置为在利用包含K个样品的训练集对所述卷积神经网络进行推理运算时,对所述卷积神经网络的每个卷积层的M个输出通道中的每个输出通道的特征图进行平均计算,得到K个M维特征向量,其中所述K和M为正整数;
主成分分析PCA操作模块320,配置为对所述K个M维特征向量进行主成分分析PCA操作以获得M个新的空间主轴和所述K个M维特征向量在所述新的空间主轴上的M个方差值;
确定模块330,配置为配置为根据所述M个方差值,确定缩减后的所述每个卷积层的输出通道数;
再训练模块340,配置为根据所述缩减后的所述每个卷积层的输出通道数设计缩减后的卷积神经网络,并对所述缩减后的卷积神经网络进行再训练以获得新的卷积神经网络。
在本发明的另一个实施例中,平均计算模块310具体被配置为:针对所述包含K个样品的训练集中的每个样品,利用设置在所述每个卷积层后的平均计算旁路,对所述M个输出通道中每个输出通道的特征图进行平均运算以获M维特征向量,从而获得所述K个M维特征向量。
在本发明的另一个实施例中,所述装置还包括:方差归一化模块350,配置为对K个M维特征向量进行标准的方差归一化操作。
在本发明的另一个实施例中,主成分分析PCA操作模块320具体被配置为:对经过所述标准的方差归一化操作后的所述K个M维特征向量进行主成分分析PCA操作以获得M个新的空间主轴和所述K个M维特征向量在所述新的空间主轴上的M个方差值,所述M个方差值从大到小依次排列。
在本发明的另一个实施例中,确定模块330具体被配置为:对所述M个方差值进行求和以获得总方差和;从大到小累加所述方差值以获得累加方差和,直到所述累加方差和大于等于所述总方差和的s倍时停止累加,所述s为预设的卷积神经网络宽度缩减系数,其中0<s<1;以及根据累加的所述方差值的个数,确定缩减后的所述每个卷积层的输出通道数。
需要说明的是,上述实施例提供的训练卷积神经网络的方法时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。上述装置300中各个模块的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
本发明实施例还提供一种计算机设备400,如图4所示,该计算机设备400包括存储器410、处理器420及存储在存储器上并可在处理器上运行的计算机程序,处理器执行所述程序时实现如上所述的训练卷积神经网络的方法。
图5所示为本发明另一个实施例提供的训练卷积神经网络的装置500的框图。
参照图5,装置500包括处理组件510,其进一步包括一个或多个处理器,以及由存储器520所代表的存储器资源,用于存储可由处理组件510的执行的指令,例如应用程序。存储器520中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件510被配置为执行指令,以执行上述训练卷积神经网络的方法。
装置500还可以包括一个电源组件被配置为执行装置500的电源管理,一个有线或无线网络接口被配置为将装置500连接到网络,和一个输入输出(I/O)接口。装置500可以操作基于存储在存储器520的操作系统,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
一种非临时性计算机可读存储介质,当存储介质中的指令由上述装置500的处理器执行时,使得上述装置500能够执行一种训练卷积神经网络的方法,包括:在利用包含K个样品的训练集对所述卷积神经网络进行推理运算时,对所述卷积神经网络的每个卷积层的M个输出通道中的每个输出通道的特征图进行平均计算,得到K个M维特征向量;对所述K个M维特征向量进行主成分分析PCA操作以获得M个新的空间主轴和所述K个M维特征向量在所述新的空间主轴上的M个方差值;根据所述M个方差值,确定缩减后的所述每个卷积层的输出通道数;以及根据所述缩减后的所述每个卷积层的输出通道数设计缩减后的卷积神经网络,并对所述缩减后的卷积神经网络进行再训练以获得新的卷积神经网络。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序校验码的介质。
另外,还需要说明的是,本案中各技术特征的组合方式并不限本案权利要求中所记载的组合方式或是具体实施例所记载的组合方式,本案所记载的所有技术特征可以以任何方式进行自由组合或结合,除非相互之间产生矛盾。
需要注意的是,以上列举的仅为本发明的具体实施例,显然本发明不限于以上实施例,随之有着许多的类似变化。本领域的技术人员如果从本发明公开的内容直接导出或联想到的所有变形,均应属于本发明的保护范围。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种训练卷积神经网络的方法,其特征在于,应用于图像处理,所述方法包括:
在利用包含K个样品的训练集对所述卷积神经网络进行推理运算时,对所述卷积神经网络的每个卷积层的M个输出通道中的每个输出通道的特征图进行平均计算,得到K个M维特征向量,其中所述K和M为正整数;
对所述K个M维特征向量进行主成分分析PCA操作以获得M个新的空间主轴和所述K个M维特征向量在所述新的空间主轴上的M个方差值;
根据所述M个方差值,确定缩减后的所述每个卷积层的输出通道数;以及
根据所述缩减后的所述每个卷积层的输出通道数设计缩减后的卷积神经网络,并对所述缩减后的卷积神经网络进行再训练以获得新的卷积神经网络,以对图像进行处理;
其中,所述根据所述M个方差值,确定缩减后的所述每个卷积层的输出通道数具体包括:
对所述M个方差值进行求和以获得总方差和;
从大到小累加所述方差值以获得累加方差和,直到所述累加方差和大于等于所述总方差和的s倍时停止累加,所述s为预设的卷积神经网络宽度缩减系数,其中0<s<1;以及
根据累加的所述方差值的个数,确定缩减后的所述每个卷积层的输出通道数。
2.根据权利要求1所述的方法,其特征在于,所述对所述卷积神经网络的每个卷积层的M个输出通道中的每个输出通道的特征图进行平均计算,得到K个M维特征向量具体包括:
针对所述包含K个样品的训练集中的每个样品,利用设置在所述每个卷积层后的平均计算旁路,对所述M个输出通道中每个输出通道的特征图进行平均运算以获M维特征向量,从而获得所述K个M维特征向量。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
对所述K个M维特征向量进行标准的方差归一化操作,
其中所述对所述K个M维特征向量进行主成分分析PCA操作以获得M个新的空间主轴和所述K个M维特征向量在所述新的空间主轴上的M个方差值,包括:
对经过所述标准的方差归一化操作后的所述K个M维特征向量进行主成分分析PCA操作以获得M个新的空间主轴和所述K个M维特征向量在所述新的空间主轴上的M个方差值,所述M个方差值从大到小依次排列。
4.一种训练卷积神经网络的装置,其特征在于,应用于图像处理,所述装置包括:
平均计算模块,配置为在利用包含K个样品的训练集对所述卷积神经网络进行推理运算时,对所述卷积神经网络的每个卷积层的M个输出通道中的每个输出通道的特征图进行平均计算,得到K个M维特征向量,其中所述K和M为正整数;
主成分分析PCA操作模块,配置为对所述K个M维特征向量进行主成分分析PCA操作以获得M个新的空间主轴和所述K个M维特征向量在所述新的空间主轴上的M个方差值;
确定模块,配置为根据所述M个方差值,确定缩减后的所述每个卷积层的输出通道数;以及
再训练模块,配置为根据所述缩减后的所述每个卷积层的输出通道数设计缩减后的卷积神经网络,并对所述缩减后的卷积神经网络进行再训练以获得新的卷积神经网络,以对图像进行处理;
其中,所述确定模块具体被配置为:
对所述M个方差值进行求和以获得总方差和;
从大到小累加所述方差值以获得累加方差和,直到所述累加方差和大于等于所述总方差和的s倍时停止累加,所述s为预设的卷积神经网络宽度缩减系数,其中0<s<1;以及
根据累加的所述方差值的个数,确定缩减后的所述每个卷积层的输出通道数。
5.根据权利要求4所述的装置,其特征在于,所述平均计算模块具体被配置为:
针对所述包含K个样品的训练集中的每个样品,利用设置在所述每个卷积层后的平均计算旁路,对所述M个输出通道中每个输出通道的特征图进行平均运算以获M维特征向量,从而获得所述K个M维特征向量。
6.根据权利要求5所述的装置,其特征在于,所述装置还包括:
方差归一化模块,配置为对所述K个M维特征向量进行标准的方差归一化操作,
其中所述主成分分析PCA操作模块具体被配置为:
对经过所述标准的方差归一化操作后的所述K个M维特征向量进行主成分分析PCA操作以获得M个新的空间主轴和所述K个M维特征向量在所述新的空间主轴上的M个方差值,所述M个方差值从大到小依次排列。
7.一种计算机可读存储介质,其上存储有计算机可执行指令,其特征在于,所述可执行指令被处理器执行时实现如权利要求1至3中任意一项所述的训练卷积神经网络的方法。
8.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至3中任意一项所述的训练卷积神经网络的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910578722.8A CN110288090B (zh) | 2019-06-28 | 2019-06-28 | 训练卷积神经网络的方法及装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910578722.8A CN110288090B (zh) | 2019-06-28 | 2019-06-28 | 训练卷积神经网络的方法及装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110288090A CN110288090A (zh) | 2019-09-27 |
CN110288090B true CN110288090B (zh) | 2023-11-07 |
Family
ID=68019675
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910578722.8A Active CN110288090B (zh) | 2019-06-28 | 2019-06-28 | 训练卷积神经网络的方法及装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110288090B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106779050A (zh) * | 2016-11-24 | 2017-05-31 | 厦门中控生物识别信息技术有限公司 | 一种卷积神经网络的优化方法和装置 |
CN107292352A (zh) * | 2017-08-07 | 2017-10-24 | 北京中星微电子有限公司 | 基于卷积神经网络的图像分类方法和装置 |
CN107844827A (zh) * | 2017-11-28 | 2018-03-27 | 北京地平线信息技术有限公司 | 执行卷积神经网络中的卷积层的运算的方法和装置 |
CN109426858A (zh) * | 2017-08-29 | 2019-03-05 | 京东方科技集团股份有限公司 | 神经网络、训练方法、图像处理方法及图像处理装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11227214B2 (en) * | 2017-11-14 | 2022-01-18 | Advanced Micro Devices, Inc. | Memory bandwidth reduction techniques for low power convolutional neural network inference applications |
US10776668B2 (en) * | 2017-12-14 | 2020-09-15 | Robert Bosch Gmbh | Effective building block design for deep convolutional neural networks using search |
-
2019
- 2019-06-28 CN CN201910578722.8A patent/CN110288090B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106779050A (zh) * | 2016-11-24 | 2017-05-31 | 厦门中控生物识别信息技术有限公司 | 一种卷积神经网络的优化方法和装置 |
CN107292352A (zh) * | 2017-08-07 | 2017-10-24 | 北京中星微电子有限公司 | 基于卷积神经网络的图像分类方法和装置 |
CN109426858A (zh) * | 2017-08-29 | 2019-03-05 | 京东方科技集团股份有限公司 | 神经网络、训练方法、图像处理方法及图像处理装置 |
CN107844827A (zh) * | 2017-11-28 | 2018-03-27 | 北京地平线信息技术有限公司 | 执行卷积神经网络中的卷积层的运算的方法和装置 |
Non-Patent Citations (1)
Title |
---|
紧凑型深度卷积神经网络在图像识别中的应用;吴 进等;《计算机科学与探索》;第13卷(第2期);第275页-第284页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110288090A (zh) | 2019-09-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liu et al. | IPO: Interior-point policy optimization under constraints | |
Castillo et al. | Nonparametric Bernstein–von Mises theorems in Gaussian white noise | |
WO2018068421A1 (zh) | 一种神经网络的优化方法及装置 | |
Lee et al. | Flexible generalized varying coefficient regression models | |
Bertoni et al. | Shallow shadows: Expectation estimation using low-depth random Clifford circuits | |
US20140204092A1 (en) | Classification of high dimensional data | |
Makur et al. | An efficient algorithm for information decomposition and extraction | |
US20100325072A1 (en) | System and method for solving multiobjective optimization problems | |
Li et al. | Variable selection and estimation for partially linear single-index models with longitudinal data | |
CN105869022B (zh) | 一种应用流行度预测方法和装置 | |
CN110647992A (zh) | 卷积神经网络的训练方法、图像识别方法及其对应的装置 | |
CN110717687A (zh) | 一种评价指数获取的方法及系统 | |
Bura et al. | Sufficient reductions in regressions with elliptically contoured inverse predictors | |
CN111062428A (zh) | 一种高光谱图像的聚类方法、系统及设备 | |
US20060095236A1 (en) | Circuit analysis utilizing rank revealing factorization | |
CN115496144A (zh) | 配电网运行场景确定方法、装置、计算机设备和存储介质 | |
Ankenman et al. | Screening for dispersion effects by sequential bifurcation | |
CN110288090B (zh) | 训练卷积神经网络的方法及装置、计算机设备和存储介质 | |
CN111313998B (zh) | 一种统计信道模型验证方法及装置 | |
CN116842447A (zh) | 分类数据的后处理方法、装置、系统和电子装置 | |
EP3580676B1 (en) | Sample-based multidimensional data cloning | |
CN114880363A (zh) | 一种数据中心流量预测系统及训练方法、预测方法 | |
Cho et al. | An adaptive reduced basis collocation method based on PCM ANOVA decomposition for anisotropic stochastic PDEs | |
Almomani et al. | A method for selecting the best performance systems | |
Yang et al. | Robust variable selection and parametric component identification in varying coefficient models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |