CN118114734A - 基于稀疏正则化理论的卷积神经网络优化方法及系统 - Google Patents
基于稀疏正则化理论的卷积神经网络优化方法及系统 Download PDFInfo
- Publication number
- CN118114734A CN118114734A CN202410252146.9A CN202410252146A CN118114734A CN 118114734 A CN118114734 A CN 118114734A CN 202410252146 A CN202410252146 A CN 202410252146A CN 118114734 A CN118114734 A CN 118114734A
- Authority
- CN
- China
- Prior art keywords
- layer
- convolutional neural
- neural network
- output
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 88
- 238000000034 method Methods 0.000 title claims abstract description 87
- 238000005457 optimization Methods 0.000 title claims abstract description 40
- 238000012549 training Methods 0.000 claims abstract description 72
- 230000006870 function Effects 0.000 claims abstract description 44
- 230000008569 process Effects 0.000 claims abstract description 34
- 238000012545 processing Methods 0.000 claims abstract description 14
- 238000011176 pooling Methods 0.000 claims description 53
- 239000011159 matrix material Substances 0.000 claims description 30
- 238000012360 testing method Methods 0.000 claims description 21
- 210000002569 neuron Anatomy 0.000 claims description 20
- 238000004364 calculation method Methods 0.000 claims description 17
- 230000004913 activation Effects 0.000 claims description 13
- 238000004422 calculation algorithm Methods 0.000 claims description 11
- 238000013528 artificial neural network Methods 0.000 claims description 10
- 238000011478 gradient descent method Methods 0.000 claims description 10
- 238000013507 mapping Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 3
- 210000002364 input neuron Anatomy 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 4
- 238000000605 extraction Methods 0.000 abstract description 3
- 238000003058 natural language processing Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000005484 gravity Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000013138 pruning Methods 0.000 description 2
- 238000005096 rolling process Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000003631 expected effect Effects 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
- 230000003313 weakening effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0985—Hyperparameter optimisation; Meta-learning; Learning-to-learn
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明属于信息技术服务领域,公开了一种基于正则化理论的卷积神经网络优化方法,首先获取数据集;然后设定学习率、正则化参数、最大迭代步数,初始化卷积核参数和权重;通过损失函数加GL1/2正则化计算误差;最后利用反向传播和梯度下降对网络进行训练,通过不断的训练,最后可以得到一个性能优异的网络。本发明针对解决分类问题的卷积神经网络,通过在网络模型中加入正则化处理,能够更清晰的说明网络的运行过程并大幅度减少了推理的运算量。通过不断重复训练过程,最终可以得到一个性能优异的网络,该网络的特征提取能力比传统的网络有所提升,进而实现了对卷积神经网络的优化,提升了网络的技术效能。
Description
技术领域
本发明属于信息技术服务领域,尤其涉及一种基于稀疏正则化理论的卷积神经网络优化方法。
背景技术
卷积神经网络是当前较为流行的深度神经网络的一种。2012年,Krizhevsky等人提出的AlexNet在大型图像数据库ImageNet的图像分类竞赛中以准确度超越第二名11%的巨大优势夺得了冠军,使得卷积神经网络成为了学术界和工业界关注的焦点。因此,各国科学家、研究人员、企业等都在大力研究并推进卷积神经网络的应用,促使其在图像识别、语音识别、物体检测、人脸识别等众多领域得到了大幅度推广。
卷积神经网络由三部分构成。第一部分是输入层,第二部分是n个卷积层和池化层组合而成,第三部分是由一个全连接的多层感知机分类器构成。卷积神经网络通过反向传播算法将网络损失传递到所有层,参数更新过程通过梯度下降法来实现。卷积神经网络与普通神经网络的区别在于,卷积神经网络包含了一个由卷积层和子采样层构成的特征抽取器。在卷积神经网络的一个卷积层中,通常包含若干个特征平面,每个特征平面由一些矩形排列的神经元组成,同一特征平面的神经元共享权值,这里共享的权值就是卷积核。卷积核一般以随机数矩阵的形式初始化,在网络的训练过程中卷积核将学习并得到合理的权值。共享权值(卷积核)带来的直接好处是减少网络各层之间的连接,同时又降低了过拟合的风险。子采样也叫做池化,通常有均值子采样和最大值子采样两种形式。子采样可以看作一种特殊的卷积过程。卷积和子采样大大简化了模型复杂度,减少了模型的参数。由于其权值共享、降采样和强大的特征提取能力,使得卷积神经网络在性能上远超传统的神经网络。目前,在图像分类和图像识别等研究领域,卷积神经网络已成为主流算法。
众所周知,在深度网络拓扑结构中,过多的节点和权值会增加计算负载、内存大小和过拟合的风险。事实上,部分隐层节点和权值对提高网络的性能贡献不大。因此,选择适当数量的隐层节点和权值选择受到广泛的重视,且被视为是优化神经网络拓扑结构的一个难点。将正则化方法引入到网络学习过程中,是减少网络中节点数量最有效的方法之一。
传统的基于正则化理论的优化方法只能使得全连接层一部分的权重为零或产生小而分散的权重,而不能同时修剪输出层的节点从而达到很好的稀疏效果。因此,迫切需要一种新的优化方法来解决上述难题。
通过上述分析可知,现有技术存在的问题及缺陷为:当网络结构中存在冗余节点时,经典的L1或者L0等正则化方法仅能找到权重为零或者接近于零的连接,而不能将和某个神经元节点相连的所有接近于零的权重找到。因此,稀疏化的效率较低、效果有限。
发明内容
针对现有技术存在的问题,本发明提供了一种新的基于稀疏组L1/2正则化项的卷积神经网络优化方法。
本发明是这样实现的,基于稀疏组L1/2正则化项的卷积神经网络优化方法包括:
步骤1:构建卷积神经网络,并在卷积神经网络的末端添加损失层计算损失函数的值;
步骤2:加入数据集,数据集包括:训练集、测试集,并设定学习率、正则项系数、最大迭代步数、卷积核大小和移动步长、卷积核个数、池化层的大小和移动步长;
步骤3:初始化卷积核的参数和全连接层的权重;
步骤4:开始训练卷积神经网络,当训练完所有训练样本后开始测试,获得输出值和损失函数值;
步骤5:分别计算损失函数关于权重和卷积核参数的梯度和它们的增加量,从而更新权重;
步骤6:当网络达到最大迭代步数后循环结束,计算训练精度和测试精度。
进一步,所述步骤1具体如下,构建卷积神经网络:
(1)输入层为一张图片;
(2)卷积层、池化层和全连接层可以设置若干个;
(3)输出层采用MSE+GL1/2函数处理;
(4)所选的激活函数为ReLU函数:
f(x)=max{0,x}。
进一步,所述步骤2具体如下:
(1)数据集的目的是给卷积神经网络的训练提供必要的信息,使得卷积神经网络能过通过学习获取数据中潜在的有价值的内容;其中,所述训练数据集包括训练样本和训练标签,用于训练卷积神经网络,测试集用来对训练完成的卷积神经网络进行性能测评;
(2)将输入层、卷积层、池化层和全连接层按照一定的次序进行连接,并设置参数,具体参数设置如下:
输入层:图片大小为[wj,hj];
卷积层:卷积核大小为[wz,hz],卷积核移动步长为sz,卷积核个数为nz,输出图片维数
池化层:池化层大小为[wm,hm],池化区域移动步长为sm,输出图片维数
全连接层:节点数为学习率为η,正则项系数为λ,最大迭代步数N;
输出层:节点数为r。
进一步,所述步骤3具体如下:
(1)初始化卷积核:
(2)初始化全连接层的权重:
U=(uik)r×q;
(3)为了简单起见,把所有的权重和偏置放到一个大的集合W。
进一步,所述步骤4具体如下:
开始训练网络,卷积过程可以转化为矩阵乘法来描述,具体可以表示为:
池化过程类似也可以转化为矩阵乘法;
(1)卷积层中的卷积核对输入的图像进行卷积操作,获得新的特征映射,可以表示为:
其中,是l层的第j个特征映射,/>为卷积核,*为卷积操作,/>为偏置,Cj为l-1层的特征映射组合;
(2)每个卷积层的输出表示为:
A=f(G(X)·Z);
其中,x为输入数据,G为调整输入数据转化为可进行矩阵乘法的矩阵,Z为卷积核;
(3)每个池化层的输出表示为:
V=F(G(f(G(X)·Z))·M);
其中,M为池化层所选矩阵,F为对池化层的输出矩阵进行列扫描的向量化;
(4)所述全连接层等同于传统的神经网络,具有q个输入神经元,每个输入都通过一个适当的权重值w与神经元相连接输出r个神经元,神经元的输出表示为:
O=g(U·F(G(f(G(X)·Z))·M));
这里,g(·)为sigmoid激活函数,U为全连接层的权重;
(5)根据上述步骤网络实际输出为:
(6)进一步,通过反向传播算法迭代输出;
(7)损失函数选择MSE+GL1/2,具体计算公式为:
其中,J为样本个数,Oj和Tj分别为第j个实际输出和期望输出,uik为全连接层和输出层的节点;其过程是:根据卷积神经网络每个神经元之间的连接关系和连接权重,按照上述网络输出的计算方法,把卷积神经网络的损失在不同网络层的神经元之间进行加权求和,最终得到每个神经元连接权重的计算误差,然后利用神经元连接已有的权重值和计算误差,通过梯度下降法对权值进行更新。
进一步,所述步骤5具体如下:
(1)进一步的,步骤4所计算的损失函数E关于权重uik的梯度为:
(2)损失函数E关于卷积核参数zij的梯度为:
(3)采用稀疏组L1/2正则化(GL1/2)项,梯度下降法所对应的增量公式:
(4)从而利用上述的方程式迭代更新参数W,利用梯度下降法,表示为:
其中,n为迭代步数。
进一步,所述步骤6具体如下:
(1)当卷积神经网络迭代次数达到最大迭代步数N,则停止运行,得到步骤4中最终的损失输出;
(2)统计分类正确个数,计算训练精度和测试精度。
本发明的另一目的在于提供一种基于稀疏正则化理论的卷积神经网络拓扑结构优化系统,该系统主要包括:
卷积神经网络模块,该模块的网络输入数据由输入层经卷积层、池化层和全连接层向输出层顺传播,网络的期望输出和实际输出的误差信号由输出层经卷积层、池化层和全连接层向输出层逆传播,顺传播与逆传播的反复交替进行网络记忆训练;
初始化模块,对输入样本值进行归一化,产生初始隐含层权值和卷积核值,并计算出卷积层特征映射的输入值,根据卷积层和隐含层采用的激活函数得到相应的特征映射输出值;
网络训练模块,开始训练网络,卷积过程可以转化为矩阵乘法来描述,具体可以表示为:
池化过程类似的也可以转化为矩阵乘法。
本发明的另一目的在于提供一种计算机设备,计算机设备包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行所述的基于稀疏正则化理论卷积神经网络拓扑结构优化方法的步骤。
本发明的另一目的在于提供一种信息数据处理终端,信息数据处理终端用于实现所述的基于稀疏正则化理论卷积神经网络拓扑结构优化系统。
结合上述的技术方案和解决的技术问题,本发明所要保护的技术方案所具备的优点及积极效果为:
第一,针对权值过大和结构复杂、效率低的问题,本发明提供了一种基于稀疏正则化理论的卷积神经网络拓扑结构优化方法。首先获取数据集;然后设定学习率、正则化参数、最大迭代步数,初始化卷积核参数和权重;通过传统损失函数加L1/2正则化项计算误差;最后利用反向传播和梯度下降对网络进行权重更新,通过不断的训练,最后可以得到一个拓扑结构合理、性能优异的网络。本发明采用的稀疏L1/2正则化方法,在训练过程中迫使不重要权重变小,最终在训练后移除,而且该方法可以在组内和组间产生稀疏效应,显示出了组内稀疏和组间稀疏的预期效果。对于网络节点的修剪,该方法在组层面施加了稀疏性,使全连接层的所有节点与输出层的所有节点之间的权值同时趋近于零,同时对幸存节点的冗余权值进行修剪。
总之,本发明将组稀疏L1/2正则化项引入卷积神经网络中,不仅可以修剪隐藏节点,还可以修剪剩余隐藏节点的冗余权值,并且在稀疏性方面具有更好的性能。
第二,作为本发明的权利要求的创造性辅助证据,还体现在以下几个重要方面:
(1)本发明的技术方案转化后的预期收益和商业价值为:本发明有望提高卷积神经网络的效率,包括模型训练和推理的速度。这将降低硬件资源需求,提高整体计算效率,节省成本,有助于在资源受限的设备上进行高效部署。这对于移动端和边缘计算应用非常重要。本发明减少卷积神经网络在推理阶段的计算负担,提高实时性,适用于对延迟敏感的应用,如自动驾驶、智能监控等。
(2)本发明的技术方案填补了国内外业内技术空白:本发明的优化技术可以与模型压缩和加速技术结合使用,以便在保持模型性能的同时减小模型的体积和计算开销。在特定应用领域,如嵌入式设备、边缘计算等,本发明的优化技术发挥更大的作用,填补相关技术在这些领域的空白。
(3)本发明的技术方案解决了人们一直渴望解决、但始终未能获得成功的技术难题:本发明在模型训练和推理的效率层面有望成功解决技术难题,通过减少冗余参数和计算来加速神经网络的运行。有望提高神经网络在移动设备和边缘设备上的能源效率,解决了一些关于能源消耗的问题。
第三,本发明基于稀疏正则化理论的卷积神经网络拓扑结构优化方法取得的显著技术进步包括:
1)提高了学习效率和精度:通过融合传统误差函数和L1/2正则化项,能够对权重进行有效的稀疏优化,更准确地反映实际输出与期望输出之间的差异,这样不仅提高了网络训练的精度,还有助于网络的快速收敛。同时,有助于控制模型的复杂度,防止过拟合现象的发生,这对于处理大规模数据集特别重要,提高了模型的泛化能力。
2)优化网络结构:通过精心设计的卷积核大小、数量和池化层参数,本方法可以有效地提取和利用图像数据中的重要特征,这有助于构建更高效的网络结构,提升整体性能。
3)提高计算效率:通过将卷积和池化过程转化为矩阵乘法,优化算法的计算效率得到显著提升,这使得网络在处理大规模数据时更加高效,大幅节约了计算资源。
4)增强网络的稳定性:通过合理的权重和卷积核参数的初始化,以及通过反向传播算法进行迭代优化,本方法提高了网络训练过程的稳定性,减少了训练过程中的不确定性。
5)广泛的应用潜力:由于本发明方法的高效性和准确性,它可以广泛应用于图像识别、视频分析、自然语言处理等多个领域,提供更加精确和高效的解决方案。
总体来说,本发明的基于稀疏正则化理论的卷积神经网络优化方法在提高训练效率、准确性、防止过拟合、优化网络拓扑结构、提高计算效率和稳定性等方面取得了显著的技术进步,为深度学习领域提供了一种更加有效的、可借鉴的网络优化策略。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图做简单的介绍,显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的简单网络结构图;
图2是本发明实施例提供的流程示意图;
图3是本发明实施例提供的卷积过程的矩阵计算示意图。
图4为在图像处理方面,在所得混淆矩阵中可清晰地看出每类样本的分类精度和迅速可视化各种类别误分为其它类别的比重,这样能够帮我们调整后续模型,比如一些类别设置权重衰减等。可视化每层输出特征图及最终输出结果,方便后续在具体产品的应用说明。
图5为已应用到图像识别中,比如手写数字、人脸识别等。在折线图中可看出识别每个类别的具体精度置信范围,最终得出本发明的错误识别率为1.8%。右边对每个类别的识别精度可以看出,绝大多数都是正确识别,只有少数落入错误范围,最终在测试集上的准确率为97.1%。下方我们也绘制出本发明在每层输出的特征图,更具可视化效果易于理解。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
针对现有技术存在的问题,本发明提供了一种基于正则化理论的卷积神经网络优化方法,下面结合附图对本发明作详细的描述。
基于本发明提出的基于正则化项的卷积神经网络优化方法,以下是两个具体的实施例及其具体实现方案:
实施例1:图像识别系统
1)网络构建:构建卷积神经网络,包括输入层、多个卷积层和池化层、全连接层和输出层。使用ReLU激活函数和MSE+GL1/2损失函数。
2)参数设置和初始化:设定学习率、正则项系数、迭代步数等参数。
初始化卷积核和全连接层权重。
3)训练与测试:使用图像数据集进行网络训练,利用反向传播算法优化网络参数。在测试集上评估模型性能,调整参数以优化准确率。
4)应用部署:
将训练好的模型部署在图像识别系统中,用于实时图像数据的分类和识别。
实施例2:自然语言处理系统
1)网络构建:设计适用于自然语言处理的卷积神经网络,包括文本输入层、卷积层、池化层和全连接层。
使用ReLU激活函数和MSE+GL1/2损失函数。
2)参数配置和初始化:根据文本数据特性设置合适的卷积核大小、数量和池化参数。
初始化网络参数,包括卷积核和权重。
3)训练与评估:使用文本数据集训练网络,包括训练样本和标签。
在测试集上验证模型的性能,调整参数以提高准确率和处理速度。
4)系统部署:将优化后的网络模型应用于自然语言处理系统,如情感分析、文本分类等任务。
这两个实施例展示了基于正则化理论的卷积神经网络优化方法在不同领域的应用潜力。在图像识别中,该方法能够提高识别的准确性和效率;而在自然语言处理中,它有助于更有效地处理和分析大量文本数据。
本发明实施例提供了一种卷积神经网络优化方法,解决了现有的卷积神经网络存在性能无法提升的技术问题,实现了对卷积神经网络进行了优化,提升了性能的技术效果。
如图2所示,本发明实施例提供了一种基于正则化的卷积神经网络优化算法,该算法主要解决了卷积神经网络中权重的稀疏性,通过将正则化的思想应用于全连接层提升卷积神经网络的泛化性能,最后利用反向传播和梯度下降算法对网络模型进行训练,保存最终模型。接下来以Mnist数据集为实施例进行具体说明。
本发明的目的可以通过以下技术方案来实现,一种基于正则化的卷积神经网络优化方法,该算法在Matlab\R2018a以上版本都可运行,方法的主要步骤包括:
1.构建一个卷积神经网络,将输出层、卷积层、池化层、全连接层和输出层按一定次序连接,如图1所示。
输入层:一张手写数字图片。
卷积层、池化层和全连接层设置俩层。
输出层:采用MSE+GL1/2函数处理。
激活函数优选ReLU函数:
f(x)=max{0,x}
该网络的输入数据由输入层经卷积层、池化层和全连接层向输出层顺传播,网络的期望输出和实际输出的误差信号由输出层经卷积层、池化层和全连接层向输出层逆传播,顺传播与逆传播的反复交替进行网络记忆训练。
2.所述数据集为Mnist,是一个研究手写数字识别的数据集,它包括70000张28×28像素的数字图像的例子。训练数据集包含60000个样本,测试数据集包含10000样本,每个像素点用一个灰度值表示。每个图片是黑底白字的形式,黑底用0表示,白字用0-1之间的浮点数表示,越接近1,颜色越白。在这里,我们将28×28的像素展开为一个一维的行向量,这些行向量就是图片数组里的行(每行784个值,或者说每行就是代表了一张图片)。其中,所述训练数据集包括训练样本和训练标签,用于训练卷积神经网络,测试集用来对训练完成的卷积神经网络进行性能测评。
具体参数设置如下:
输入层:维数28×28。
卷积层:卷积核大小为5×5,卷积核移动步长为1,卷积核个数1个,输出图片维数24。
池化层:池化层大小为2×2,池化区域移动步长为2,池化方法(最大池化max-pooling,平均池化average-pooling,二选一),本发明采用平均池化,输出图片维数12。
全连接层:节点数为144,连接参数学习率η=0.03,正则项系数λ=0.005,最大迭代步数N=1000。
输出层:节点数为10(10类)。
3.神经网络的权重初始化方法(weight initialization)对模型的收敛速度和性能有着至关重要的影响。卷积核参数和网络权重采用随机初始化,在实际应用,通常将随机参数服从均匀分布或者高斯分布。
初始化卷积核:
其中,zpl代表卷积核中第p行和第l列的元素。
初始化全连接层的权重:
U=(uik)r×q
其中,uik代表全连接层的权向量。最后,我们把所有的权重和偏置在集合W中表示。接下来,对输入样本值进行归一化处理,产生初始隐含层权值和卷积核值,并计算出卷积层特征映射的输入值,根据卷积层和隐含层采用的激活函数得到相应的特征映射输出值。防止数据中存在较大数值的数据造成数值较小的数据对于训练效果减弱甚至无效化。
4.为了得到收敛性的理论结果,我们首先将卷积神经网络进行数学建模。本质上卷积就是矩阵和矩阵之间的对应元素的运算,再加结果求和的过程,二维情况可以参考图3,三维情况类似,如果输入数据深度为3,对应的卷积核深度也为3,仍然采用相同的运算规则。卷积运算可以表示为如图3所示过程,为了表示简单,我们用3×3卷积核描述该过程。
训练过程包括前向传播和后向传播。前向传播从样本集中取一个样本,输入网络,计算相应的实际输出;在此阶段信息从输入层经过逐级的映射变换,传送到输出层,此过程也是网络在完成训练之后正常执行时执行的过程。后向传播计算实际输出与相应的理想输出的差;按照极小化误差函数的方法调整权值矩阵。
卷积过程可以转化为矩阵运算来描述,具体可以表示为:
池化过程类似也可以转化为矩阵运算。
卷积层中的卷积核对输入的图像进行卷积操作,获得新的特征映射,可以表示为:
其中,是l层的第j个特征映射,/>为卷积核,*为卷积操作,/>为偏置,Cj为l-1层的特征映射。
进一步的,每个卷积层的输出表示为:
A=f(G(X)·Z)
其中,x为输入数据,G为调整输入数据转化为可进行矩阵乘法的矩阵,Z为卷积核。
进一步的,每个池化层的输出表示为:
V=F(G(f(G(X)·Z))·M)
其中,M为池化层所选矩阵,F为对池化层的输出矩阵进行列扫描的向量化。
所述全连接层等同于传统的神经网络,具有q个输入神经元,每个输入都通过一个适当的权重值w与神经元相连接输出r个神经元,神经元的输出表示为:
O=g(U·F(G(f(G(X)·Z))·M))
这里,g(·)为sigmoid激活函数,U为全连接层的权重。
根据上述步骤网络实际输出为:
进一步,通过反向传播算法迭代输出。
根据上面所述的卷积神经网络优化方法,其特征在于,损失函数选择MSE+GL1/2,具体计算公式为:
这里,J为样本个数,Oj和Tj分别为第j个实际输出和期望输出,uik为全连接层和输出层的节点。
5.预测值与真实值之间必然是存在误差的,反向传播就是要把这个误差信息回传给每一层,让这些层修改他们的权值,使得网络更精准。本发明主要利用梯度下降法更新权值,梯度下降法的更新公式如下:
其中η是学习率(learning rate),可以看出,梯度下降法更新权值主要是利用误差代价函数对参数的梯度,所以权值更新的目标就是通过反复的迭代得到理想的精度或者可以满足条件的迭代步数。。
在本网络中损失函数E关于权重uik的梯度为:
损失函数E关于卷积核参数zij的梯度为:
梯度下降法所对应的增量公式:
从而利用上述的方程式迭代更新参数W利用梯度下降法,表示为:
这里,n为迭代步数。
网络每训练一次权重参数更新一次。对修改后的参数继续进行迭代训练,记录每次输出的损失值。
6.当卷积神经网络迭代次数达到最大迭代步数N或者满足要求精度时,则停止运行,得到最终的损失输出。
经过本发明提出的方法训练之后的网络性能,比传统的训练方法性能高。这样的结果证明了本发明的有效性。
综上所述,本发明实施例针对解决分类问题的卷积神经网络,通过在网络模型中加入正则化处理,用简单的数学方程来表示卷积和池化复杂的乘法操作,在保证网络模型分类精度的情况下,能够更清晰的说明网络的运行过程并大幅度减少了推理的运算量。通过不断重复训练过程,最终可以得到一个性能优异的网络,该网络的特征提取能力比传统的网络有所提升,进而实现了对卷积神经网络的优化,提升了网络的技术效能。
本发明可应用于模型压缩、嵌入式视觉处理、无人驾驶辅助系统、医学图像分析和自然语言处理等任务。目前,我们已在移动端设备上,本发明被用于模型压缩和加速。通过剪枝和稀疏化技术,可以显著减小模型的大小和计算负担,使得模型在边缘设备上更容易部署和运行。如图4所示,在图像处理方面,在所得混淆矩阵中可清晰地看出每类样本的分类精度和迅速可视化各种类别误分为其它类别的比重,这样能够帮我们调整后续模型,比如一些类别设置权重衰减等。可视化每层输出特征图及最终输出结果,方便后续在具体产品的应用说明。
如图5所示,本发明已应用到图像识别中,比如手写数字、人脸识别等。在折线图中可看出识别每个类别的具体精度置信范围,最终得出本发明的错误识别率为1.8%。右边对每个类别的识别精度可以看出,绝大多数都是正确识别,只有少数落入错误范围,最终在测试集上的准确率为97.1%。下方我们也绘制出本发明在每层输出的特征图,更具可视化效果易于理解。
以下是对一种基于正则化理论的卷积神经网络(CNN)优化方法的详细步骤描述,包括信号和数据处理过程:
步骤1:构建卷积神经网络
设计CNN架构,包括输入层、卷积层、激活函数层、池化层、全连接层和输出层。在网络的末端添加损失层,例如交叉熵损失或均方误差损失,以衡量模型输出与真实标签之间的差异。
步骤2:准备数据集和参数设置
准备数据集,划分为训练集和测试集。
设置超参数:
学习率:控制权重调整的步长。正则项系数:决定正则化项在总损失中的权重,用于防止过拟合。
最大迭代步数:训练过程中的总迭代次数。
卷积核参数:包括大小、移动步长和个数。
池化层参数:包括池化窗口的大小和移动步长。
步骤3:参数初始化
使用如随机初始化或He初始化等策略来初始化卷积核和全连接层权重的参数。
步骤4:训练过程
输入训练数据,通过卷积层、激活函数、池化层和全连接层进行前向传播,得到输出值。计算损失函数的值,比较模型输出和真实标签。对整个训练集执行前向传播和损失计算,完成一个迭代。
步骤5:梯度计算与权重更新
通过反向传播算法计算损失函数关于权重和卷积核参数的梯度。使用梯度和学习率计算权重和卷积核参数的更新量。应用正则化方法(如L1、L2正则化)以减少过拟合风险,并更新权重。
步骤6:测试与终止条件使用测试集评估模型性能,获取测试精度。判断是否达到最大迭代步数或满足预定的精度要求。如果条件满足,则停止训练;否则,返回步骤4继续训练。
数据预处理:包括归一化、中心化、数据增强等。
批处理:通常采用小批量梯度下降法来更新权重。
正则化:在损失函数中添加正则项,如L1正则化导致权重稀疏,L2正则化限制权重大小。
优化器选择:可以选择SGD、Adam、RMSprop等优化器进行权重更新。
通过这一优化方法,卷积神经网络在训练过程中能够更好地泛化,提高模型的鲁棒性和预测精度。
应当注意,本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现;软件部分可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的处理器执行的软件实现,也可以由上述硬件电路和软件的结合例如固件来实现。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。
Claims (10)
1.一种基于正则化理论的卷积神经网络优化方法,其特征在于,包括:
步骤1:构建卷积神经网络,并在卷积神经网络的末端添加损失层计算损失函数的值;
步骤2:加入数据集,数据集包括:训练集、测试集,并设定学习率、正则项系数、最大迭代步数、卷积核大小和移动步长、卷积核个数、池化层的大小和移动步长;
步骤3:初始化卷积核的参数和全连接层的权重;
步骤4:开始训练卷积神经网络,当训练完所有训练样本后开始测试,获得输出值和损失函数值;
步骤5:分别计算损失函数关于权重和卷积核参数的梯度和它们的增加量,从而更新权重;
步骤6:当网络达到最大迭代步数或精度要求后循环结束,得到训练精度和测试精度。
2.如权利要求1所述的基于正则化理论的卷积神经网络优化方法,其特征在于,所述步骤1具体如下,构建卷积神经网络:
(1)输入层为一张图片;
(2)卷积层、池化层和全连接层可以设置若干个;
(3)输出层采用MSE+GL1/2函数处理;
(4)所选的激活函数为ReLU函数:
f(x)=max{0,x}。
3.如权利要求1所述的基于正则化理论的卷积神经网络优化方法,其特征在于,所述步骤2具体如下:
(1)数据集的目的是给卷积神经网络的训练提供必要的信息,使得卷积神经网络能过通过学习获取数据中潜在的有价值的内容;其中,所述训练数据集包括训练样本和训练标签,用于训练卷积神经网络,测试集用来对训练完成的卷积神经网络进行性能测评;
(2)将输入层、卷积层、池化层和全连接层按照一定的次序进行连接,并设置参数,具体参数设置如下:
输入层:图片大小为[wj,hj];
卷积层:卷积核大小为[wz,hz],卷积核移动步长为sz,卷积核个数为nz,输出图片维数
池化层:池化层大小为[wm,hm],池化区域移动步长为sm,输出图片维数
全连接层:节点数为连接参数学习率η,正则项系数λ,最大迭代步数N;
输出层:节点数为r。
4.如权利要求1所述的基于正则化理论的卷积神经网络优化方法,其特征在于,所述步骤3具体如下:
(1)初始化卷积核:
(2)初始化全连接层的权重:
U=(uik)r×q;
(3)为了简单起见,把所有的权重和偏置放到一个大的集合W。
5.如权利要求1所述的基于正则化理论的卷积神经网络优化方法,其特征在于,所述步骤4具体如下:
开始训练网络,卷积过程可以转化为矩阵乘法来描述,具体可以表示为:
池化过程类似也可以转化为矩阵乘法;
(1)卷积层中的卷积核对输入的图像进行卷积操作,获得新的特征映射,可以表示为:
其中,是l层的第j个特征映射,/>为卷积核,*为卷积操作,/>为偏置,Cj为l-1层的特征映射组合;
(2)每个卷积层的输出表示为:
A=f(G(X)·Z);
其中,x为输入数据,G为调整输入数据转化为可进行矩阵乘法的矩阵,Z为卷积核;
(3)每个池化层的输出表示为:
V=F(G(f(G(X)·Z))·M);
其中,M为池化层所选矩阵,F为对池化层的输出矩阵进行列扫描的向量化;
(4)所述全连接层等同于传统的神经网络,具有q个输入神经元,每个输入都通过一个适当的权重值w与神经元相连接输出r个神经元,神经元的输出表示为:
O=g(U·F(G(f(G(X)·Z))·M));
这里,g(·)为sigmoid激活函数,U为全连接层的权重;
(5)根据上述步骤网络实际输出为:
(6)进一步,通过反向传播算法迭代输出;
(7)损失函数选择MSE+GL1/2,具体计算公式为:
其中,J为样本个数,Oj和Tj分别为第j个实际输出和期望输出,uik为全连接层和输出层的节点;其过程是:根据卷积神经网络每个神经元之间的连接关系和连接权重,按照上述网络输出的计算方法,把卷积神经网络的损失在不同网络层的神经元之间进行加权求和,最终得到每个神经元连接权重的计算误差,然后利用神经元连接已有的权重值和计算误差,通过梯度下降法对权值进行更新。
6.如权利要求1所述的基于正则化理论的卷积神经网络优化方法,其特征在于,所述步骤5具体如下:
(1)进一步的,步骤4所计算的损失函数E关于权重uik的梯度为:
(2)损失函数E关于卷积核参数zij的梯度为:
(3)采用Group L1/2正则化(GL1/2),梯度下降法所对应的增量公式:
(4)从而利用上述的方程式迭代更新参数W利用梯度下降法,表示为:
其中,n为迭代步数。
7.如权利要求1所述的基于正则化理论的卷积神经网络优化方法,其特征在于,所述步骤6具体如下:
(1)当卷积神经网络迭代次数达到最大迭代步数N,则停止运行,得到步骤4中最终的损失输出;
(2)统计分类正确个数,计算训练精度和测试精度。
8.一种基于正则化项的卷积神经网络优化系统,其特征在于,基于正则化理论的卷积神经网络优化系统包括:
卷积神经网络模块,该模块的网络输入数据由输入层经卷积层、池化层和全连接层向输出层顺传播,网络的期望输出和实际输出的误差信号由输出层经卷积层、池化层和全连接层向输出层逆传播,顺传播与逆传播的反复交替进行网络记忆训练;
初始化模块,对输入样本值进行归一化,产生初始隐含层权值和卷积核值,并计算出卷积层特征映射的输入值,根据卷积层和隐含层采用的激活函数得到相应的特征映射输出值;
网络训练模块,开始训练网络,卷积过程可以转化为矩阵乘法来描述,具体可以表示为:
池化过程类似也可以转化为矩阵乘法。
9.一种计算机设备,计算机设备包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行如权利要求1~7所述的基于正则化理论的卷积神经网络优化方法的步骤。
10.一种信息数据处理终端,信息数据处理终端用于实现如权利要求8所述的基于正则化理论的卷积神经网络优化系统。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410252146.9A CN118114734A (zh) | 2024-04-02 | 2024-04-02 | 基于稀疏正则化理论的卷积神经网络优化方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410252146.9A CN118114734A (zh) | 2024-04-02 | 2024-04-02 | 基于稀疏正则化理论的卷积神经网络优化方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118114734A true CN118114734A (zh) | 2024-05-31 |
Family
ID=91216021
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410252146.9A Pending CN118114734A (zh) | 2024-04-02 | 2024-04-02 | 基于稀疏正则化理论的卷积神经网络优化方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118114734A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118394112A (zh) * | 2024-07-01 | 2024-07-26 | 辽宁高比科技有限公司 | 一种基于边缘计算的无人机控制系统决策方法 |
-
2024
- 2024-04-02 CN CN202410252146.9A patent/CN118114734A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118394112A (zh) * | 2024-07-01 | 2024-07-26 | 辽宁高比科技有限公司 | 一种基于边缘计算的无人机控制系统决策方法 |
CN118394112B (zh) * | 2024-07-01 | 2024-08-20 | 辽宁高比科技有限公司 | 一种基于边缘计算的无人机控制系统决策方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111583263B (zh) | 一种基于联合动态图卷积的点云分割方法 | |
CN113705769B (zh) | 一种神经网络训练方法以及装置 | |
US20210019630A1 (en) | Loss-error-aware quantization of a low-bit neural network | |
Teow | Understanding convolutional neural networks using a minimal model for handwritten digit recognition | |
CN112116030A (zh) | 一种基于向量标准化和知识蒸馏的图像分类方法 | |
CN108171318B (zh) | 一种基于模拟退火—高斯函数的卷积神经网络集成方法 | |
CN108985252B (zh) | 改进的脉冲深度神经网络的图像分类方法 | |
CN114492574A (zh) | 基于高斯均匀混合模型的伪标签损失无监督对抗域适应图片分类方法 | |
CN112906828A (zh) | 一种基于时域编码和脉冲神经网络的图像分类方法 | |
CN112465120A (zh) | 一种基于进化方法的快速注意力神经网络架构搜索方法 | |
WO2021218470A1 (zh) | 一种神经网络优化方法以及装置 | |
CN118114734A (zh) | 基于稀疏正则化理论的卷积神经网络优化方法及系统 | |
CN114186672A (zh) | 一种用于脉冲神经网络的高效高精度训练算法 | |
CN112183742A (zh) | 基于渐进式量化和Hessian信息的神经网络混合量化方法 | |
CN114998659B (zh) | 随时间在线训练脉冲神经网络模型的图像数据分类方法 | |
CN107563430A (zh) | 一种基于稀疏自动编码器和灰度关联分析法的卷积神经网络算法优化方法 | |
Chen et al. | Application of improved convolutional neural network in image classification | |
CN113642602B (zh) | 一种基于全局与局部标签关系的多标签图像分类方法 | |
CN106503661A (zh) | 基于烟花深度信念网络的人脸性别识别方法 | |
CN113537365B (zh) | 一种基于信息熵动态赋权的多任务学习自适应平衡方法 | |
CN115393631A (zh) | 基于贝叶斯层图卷积神经网络的高光谱图像分类方法 | |
KR102149355B1 (ko) | 연산량을 줄이는 학습 시스템 | |
CN114723989A (zh) | 多任务学习方法、装置及电子设备 | |
CN110717402B (zh) | 一种基于层级优化度量学习的行人再识别方法 | |
CN112836763A (zh) | 一种图结构数据分类方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |