CN116882473A - 神经网络的训练方法、图像分类方法、电子设备及介质 - Google Patents
神经网络的训练方法、图像分类方法、电子设备及介质 Download PDFInfo
- Publication number
- CN116882473A CN116882473A CN202310794182.3A CN202310794182A CN116882473A CN 116882473 A CN116882473 A CN 116882473A CN 202310794182 A CN202310794182 A CN 202310794182A CN 116882473 A CN116882473 A CN 116882473A
- Authority
- CN
- China
- Prior art keywords
- layer
- feature map
- image
- feature
- image classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 55
- 238000000034 method Methods 0.000 title claims abstract description 54
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 38
- 238000011176 pooling Methods 0.000 claims abstract description 139
- 230000007704 transition Effects 0.000 claims abstract description 43
- 238000013145 classification model Methods 0.000 claims abstract description 41
- 230000004927 fusion Effects 0.000 claims description 36
- 238000010586 diagram Methods 0.000 claims description 24
- 230000009467 reduction Effects 0.000 claims description 24
- 238000000605 extraction Methods 0.000 claims description 21
- 238000004590 computer program Methods 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 14
- 238000007499 fusion processing Methods 0.000 claims description 7
- 230000015654 memory Effects 0.000 claims description 7
- 230000006870 function Effects 0.000 description 11
- 230000008569 process Effects 0.000 description 9
- 230000008901 benefit Effects 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 6
- 238000010606 normalization Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000004088 simulation Methods 0.000 description 4
- 238000012935 Averaging Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了神经网络的训练方法、图像分类方法、电子设备及介质,所述训练方法包括以下步骤:S1:获取训练数据集;S2:构建基于神经网络的图像分类模型,所述图像分类模型包括依次连接的第一卷积层、第一池化层、N个密集连接块和分类层,N≥2,相邻的密集连接块之间间插有过渡层;S3:基于所述训练数据集对所述图像分类模型进行训练,直到达到预设的最大迭代次数时停止,以获得训练完成的图像分类模型。通过本发明方法,使图像分类模型可以更好的保留图像的纹理及背景特征,以提高图像分类精度。
Description
技术领域
本发明涉及人工智能技术领域,具体涉及神经网络的训练方法、图像分类方法、电子设备及介质。
背景技术
图像分类的目标是将不同的图像,划分到不同的类别,实现最小的分类误差。根据各自在图像信息中所反映的不同特征,把不同类别的目标区分开来的图像处理方法。它利用计算机对图像进行定量分析,把图像或图像中的每个像素或区域划归为若干个类别中的某一种。
DenseNet网络(密集连接卷积网络)是一种基于卷积神经网络(CNN)改进的前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。它包括卷积层和池化层。DenseNet模型的基本思路与ResNet一致,但它建立的是前面所有层与后面层的密集连接,DenseNet的另一特点是通过特征在通道上的连接来实现特征重用。与ResNet相比DenseNet的参数量和计算成本都减少了。DenseNet从feature入手,通过对feature的极致利用能达到更好的效果和减少参数。DenseNet网络包含很多层,每个层的特征图大小相同(才可以在通道上进行连结),层与层之间采用密集连接方式。
在卷积神经网络中通常会在相邻的卷积层之间加入一池化层,池化层可以有效的缩小参数矩阵的尺寸,从而减少最后连接层的中的参数数量。所以加入池化层可以加快计算速度和防止过拟合的作用。池化(pooling)是在不同的通道上分开执行的(就是池化操作不改变通道数),且不需要参数控制,根据窗口大小进行相应的操作。
最常见的池化操作包括最大池化、平均池化,最大池化,(max pooling)如图3,是选图像区域的最大值作为该区域池化后的值,可以减少由于卷积层参数误差造成估计均值的偏移的影响,但是这种方式得到的特征图对纹理特征信息更加敏感。平均池化(averagepooling)如图4,是计算图像区域的平均值作为该区域池化后的值,是对池化区域内的图像取平均值,可以减少由于邻域大小受限造成的估计值方差增大的影响,但是这种方式得到的特征信息对背景信息更加敏感。鉴于此,如何使DenseNet网络可以更好的保留图像的纹理及背景特征,以提高图像分类精度,是本领域技术人员需解决的技术问题。
发明内容
鉴于以上所述现有技术的缺点,本发明提供神经网络的训练方法、图像分类方法、电子设备及介质,用于使分类模型可以更好的保留图像的纹理及背景特征,以提高图像分类精度。
为实现上述效果,本发明的技术方案如下:
第一个方面,本发明提供神经网络的训练方法,训练方法包括以下步骤:
S1:获取训练数据集;
S2:构建基于神经网络的图像分类模型,所述图像分类模型包括依次连接的第一卷积层、第一池化层、N个密集连接块和分类层,N≥2,相邻的密集连接块之间间插有过渡层;其中,
第一卷积层,用于对输入的图像进行第一卷积处理,以得到特征图;
第一池化层,对第一卷积层输出的特征图进行降维;
N个密集连接块,用于从第一池化层获取降维的特征图后发送至分类层;
过渡层,包括过渡卷积层和过渡池化层,所述过渡池化层为混合池化层;
分类层,用于得到预测图像类型,所述预测图像类型用于实现图像分类;
S3:基于所述训练数据集对所述图像分类模型进行训练,直到达到预设的最大迭代次数时停止,以获得训练完成的图像分类模型。
所述图像分类模型为DenseNet网络。
进一步的,所述混合池化层的输入输出关系为:
式中,xi,j表示过渡卷积层的输出图像的像素,作为混合池化层的输入信息;hmax表示像素xi,j的最大鲜明特征,k表示特征图列数,N表示特征图元素个数,α表示最大鲜明特征系数,havg表示特征图中各个特征值的平均值,β表示平均值系数,表示均方根,作为混合池化层输出。
进一步的,步骤S3所述基于所述训练数据集对所述神经网络进行训练,具体为:
S31:将训练数据集作为待分类图像X输入至神经网络的第一卷积层进行第一特征提取,得到第一特征图;
S32:将第一特征图输入至第一池化层进行第一下采样,得到第一降维特征图;
S33:将降维特征图输入至第一个密集连接块进行特征融合,所述第一个密集连接块根据每个特征通道的重要程度在通道维度上对待处理图像的原始特征进行重标定,得到融合特征图;
S34:将融合特征图输入至过渡层进行特征提取和下采样,得到降维特征图;
S35:将降维特征图输入至第p个密集连接块进行特征融合,p≥2,所述密集连接块根据每个特征通道的重要程度在通道维度上对待处理图像的原始特征进行重标定,得到融合特征图;
S36:重复步骤S34~S35直至N个密集连接块均得到融合特征图;
S37:将融合特征图输入至分类层,得到用于实现图像分类的预测图像类型;
S38:重复步骤S31~S37,直到达到预设的最大迭代次数时停止,获得训练完成的图像分类模型。
进一步的,所述分类层包括依次连接的全局平均池化层、全连接层,其中,
全局平均池化层,用于对接受到的融合特征图下采样,以得到全局特征信息;
全连接层,用于对所述全局特征信息进行融合处理,得到预测图像类型,所述预测图像类型用于实现图像分类。
第二个方面,本发明提供一种图像分类方法,包括以下步骤:
S1:获取待处理图像;
S2:构建基于神经网络的图像分类模型,所述图像分类模型包括依次连接的第一卷积层、第一池化层、N个密集连接块和分类层,N≥2,相邻的密集连接块之间间插有过渡层;其中,
第一卷积层,用于对输入的图像进行第一卷积处理,以得到特征图;
第一池化层,对第一卷积层输出的特征图进行降维;
N个密集连接块,用于从第一池化层获取降维的特征图后发送至分类层;
过渡层,包括过渡卷积层和过渡池化层,所述过渡池化层为混合池化层;
分类层,用于得到预测图像类型,所述预测图像类型用于实现图像分类;
S3:利用所述图像分类模型对待处理图像进行分类处理。
进一步的,所述混合池化层的输入输出关系为:
式中,xi,j表示过渡卷积层的输出图像的像素,作为混合池化层的输入信息;hmax表示像素xi,j的最大鲜明特征,k表示特征图列数,N表示特征图元素个数,α表示最大鲜明特征系数,havg表示特征图中各个特征值的平均值,β表示平均值系数,表示均方根,作为混合池化层输出。
进一步的,步骤S3所述利用所述图像分类模型对待处理图像进行分类处理,具体为:
S31:将待处理图像输入至神经网络的第一卷积层进行第一特征提取,得到第一特征图;
S32:将第一特征图输入至第一池化层进行第一下采样,得到第一降维特征图;
S33:将降维特征图输入至第一个密集连接块进行特征融合,所述第一个密集连接块根据每个特征通道的重要程度在通道维度上对待处理图像的原始特征进行重标定,得到融合特征图;
S34:将融合特征图输入至过渡层进行特征提取和下采样,得到降维特征图;
S35:将降维特征图输入至第p个密集连接块进行特征融合,p≥2,所述密集连接块根据每个特征通道的重要程度在通道维度上对待处理图像的原始特征进行重标定,得到融合特征图;
S36:重复步骤S34~S35直至N个密集连接块均得到融合特征图;
S37:将融合特征图输入至分类层,得到用于实现图像分类的预测图像类型。
进一步的,所述分类层包括依次连接的全局平均池化层、全连接层,其中,
全局平均池化层,用于对接受到的融合特征图下采样,以得到全局特征信息;
全连接层,用于对所述全局特征信息进行融合处理,得到预测图像类型,所述预测图像类型用于实现图像分类。
第三个方面,本发明提供一种电子设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行所述的神经网络的训练方法或所述的图像分类方法。
第四个方面,本发明提供一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,所述计算机程序运行时执行所述的神经网络的训练方法或所述的图像分类方法。
与现有技术相比,本发明技术方案的有益效果是:
本发明构建图像分类模型,在密集连接块与全连接层之间通过全局平均池化层进行图像分类,综合考虑平均池化和最大池化的优缺点,可根据不同应用场景进行参数调节,以提高分类精度。使图像分类模型可以更好的保留图像的纹理及背景特征,以提高图像分类精度,并降低分类损失。
附图说明
图1为本发明实施例提供的所述的图像分类方法的流程示意图;
图2是本发明实施例提供的图像分类模型示意图;
图3是本发明实施例提供的最大池化示意图;
图4是本发明实施例提供的平均池化示意图;
图5是本发明实施例提供的对所述神经网络进行训练流程示意图;
图6是本发明实施例提供的基于神经网络的图像分类方法示意图;
图7是本发明实施例提供的对待处理图像进行分类处理流程示意图;
图8是本发明实施例提供的最大池化仿真结果示意图;
图9a-图9c是本发明实施例提供的不同系数下混合池化仿真结果示意图。
具体实施方式
以下将参照附图和优选实施例来说明本发明的实施方式,本领域技术人员可由本说明书中所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。应当理解,优选实施例仅为了说明本发明,而不是为了限制本发明的保护范围。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
实施例
本实施例提出了神经网络的训练方法。请参阅图1、图2,训练方法包括以下步骤:
S1:获取训练数据集;
S2:构建基于神经网络的图像分类模型,所述图像分类模型包括依次连接的第一卷积层、第一池化层、N个密集连接块和分类层,N≥2,相邻的密集连接块之间间插有过渡层;其中,
第一卷积层,用于对输入的图像进行第一卷积处理,以得到特征图;
第一池化层,对第一卷积层输出的特征图进行降维;
N个密集连接块,用于从第一池化层获取降维的特征图后发送至分类层;
过渡层,包括过渡卷积层和过渡池化层,所述过渡池化层为混合池化层;
分类层,用于得到预测图像类型,所述预测图像类型用于实现图像分类;
S3:基于所述训练数据集对所述图像分类模型进行训练,直到达到预设的最大迭代次数时停止,以获得训练完成的图像分类模型。
输入卷积层的训练数据集包括:训练样本、目标图像;所述图像分类模型选用DenseNet网络。
其中,过渡池化层采用混合池化层进行特征值的精细提取。例如,过渡池化层为2x2的混合池化层。
作为优选的技术方案,本实施例中,所述混合池化层的输入输出关系为:
式中,xi,j表示过渡卷积层的输出图像的像素,作为混合池化层的输入信息;hmax表示像素xi,j的最大鲜明特征,k表示特征图列数,N表示特征图元素个数,α表示最大鲜明特征系数,havg表示特征图中各个特征值的平均值,β表示平均值系数,表示均方根,作为混合池化层输出。
所述分类层(Classification Layer)包括池化区域为7x7的全局平均池化(globalpooling)层和全连接层(Fully Connected Layer),全局平均池化层用于对特征信息下采样(即池化降维处理),将每个通道的二维图像做平均,以得到所述全局特征信息;所述全连接层用于对所述全局特征信息进行融合处理,得到预测图像类型,所述预测图像类型用于实现图像分类;全局平均池化具有抑制过拟合、可解释的雏形、输入尺寸更加灵活的优点;全连接层前的池化层一般采用全局平均池化层,使用平均池化层而不使用最大值池化层的原因是平均池化层可以保留更多特征,如果使用最大值池化就只会关注图片中很小的一块,最终会导致准确率降低;使用全局平均池化层用于不让全连接层学习过多的特征,防止过拟合。
作为优选的技术方案,本实施例中,如图5,步骤S3所述基于所述训练数据集对所述DenseNet网络(密集连接DenseNet网络)进行训练,具体为:
S31:将训练数据集作为待分类图像X输入至神经网络的第一卷积层进行第一特征提取,得到第一特征图;
S32:将第一特征图输入至第一池化层进行第一下采样,得到第一降维特征图;
S33:将降维特征图输入至第一个密集连接块进行特征融合,所述第一个密集连接块根据每个特征通道的重要程度在通道维度上对待处理图像的原始特征进行重标定,得到融合特征图;
S34:将融合特征图输入至过渡层进行特征提取和下采样,得到降维特征图;
S35:将降维特征图输入至第p个密集连接块进行特征融合,p≥2,所述密集连接块根据每个特征通道的重要程度在通道维度上对待处理图像的原始特征进行重标定,得到融合特征图;
S36:重复步骤S34~S35直至N个密集连接块均得到融合特征图;
S37:将融合特征图输入至分类层,得到用于实现图像分类的预测图像类型;
S38:重复步骤S31~S37,直到达到预设的最大迭代次数时停止,获得训练完成的图像分类模型。
具体地,第一卷积层用于对输入的图像进行第一卷积处理,以得到特征图。
具体地,第一池化层包含最大池化层或平均池化层。优选地,第一池化层为最大池化层。
以密集连接块数量设为4进行举例说明,第一密集连接块、第二密集连接块、第三密集连接块、第四密集连接块内,均包括至少一个稠密计算层,进一步地,包括多个稠密计算层;在该多个稠密计算层中,第i个稠密计算层被配置为接收并处理第i个稠密计算层之前的i-1个稠密计算层输出的i-1个特征图组,以得到第i个特征图组,这里,i为大于1的正整数且小于等于至少一个稠密计算层的总数。
对于普通的神经网络,第N层的输出为第N+1层的输入,若一种神经网络有L层,则该神经网络一共包括L-1个连接,其中,N、L均为正整数,且N大于1且小于L。而密集连接块采用稠密连接,即密集连接块中的每一个稠密计算层的输入包括来自该稠密计算层之前的所有层的输出,若密集连接块有L个稠密计算层,则其有L(L-1)/2个连接。密集连接块之间通过串联的方式结合,在密集连接块中,第l个稠密计算层输出的特征图xl表示为:xl=Hl([x0,x1,..,xl-1]),其中,Hl(.)可以表示特征提取操作,x0表示输入的特征图组,x1,…,xl-1分别表示第一层至第l-1层输出的特征图组,且x0,x1,…,xl-1的大小一致。
例如,第一密集连接块包括依次串联的第一稠密计算层、第二稠密计算层、第三稠密计算层和第四稠密计算层。在对输入的特征图组x0进行处理的过程中,首先,通过第一稠密计算层对输入的特征图组x0执行第一特征提取操作H1,以得到第一特征图组x1,例如,第一特征图组包括多个第一特征图;然后,通过第二稠密计算层对输入的特征图组x0和第一特征图组x1执行第二特征提取操作H2,以得到第二特征图组x2;然后,通过第三稠密计算层对输入的特征图组x0、第一特征图组x1和第二特征图组x2执行第三特征提取操作H3,以得到第三特征图组x3;然后,通过第四稠密计算层对输入的特征图组x0、第一特征图组x1、第二特征图组x2和第三特征图组x3执行第四特征提取操作H4,以得到第四特征图组x4;最后,输入的特征图组x0、第一特征图组x1、第二特征图组x2、第三特征图组x3和第四特征图组x4均被传输至过渡,以进行后续操作。
例如,每个稠密计算层包括“卷积-批标准化-激活”层和一个稠密计算卷积层,针对第i个稠密计算层,第i个稠密计算层中的“卷积-批标准化-激活”层被配置为将接收到的i-1个特征图组压缩至k个特征图,第i个稠密计算层中的稠密计算卷积层被配置为对k个特征图进行卷积处理,以得到第i个特征图组,这里,k为正整数且小于i-1个特征图组包括的特征图的总数。通过设置“卷积-批标准化-激活”层和稠密计算卷积层,可以引入更多的非线性激活函数,增加特征提取子网络的非线性,提升特征表达能力。
例如,“卷积-批标准化-激活”层包括批标准化层BatchNorm、激活函数层ReLU和一个3x3的卷积层。通过在稠密计算层中设置“卷积-批标准化-激活”层,大幅减少特征通道数,极大的减少模型参数,减少计算量,降低过拟合的风险。
作为优选的技术方案,本实施例中,分类层包括全连接层、全局平均池化层或优选地两者。全局平均池化层包含平均池化层或最大池化层,优选地平均池化层。在一些形式中全局平均池化层包括一个或多个7×7内核,诸如一个内核。全连接层从先前的密集连接块(优选地终端密集连接块)获取输出,将输出“展平”并将其转换为可以为下一阶段(诸如终端池化层)提供输入的向量(优选地单个向量)。
作为优选的技术方案,本实施例中,所述第一密集连接块、第二密集连接块、第三密集连接块、第四密集连接块均包括:批标准化BatchNorm、ReLU函数和一个3x3的卷积层;在密集连接块中,各个层的特征图大小一致,可以在channel维度上连接。通过批标准化(即归一化方法)对所述多尺度特征信息进行归一化处理,以及通过所述特征融合对归一化处理后得到的信息进行融合处理,以得到所述特征信息。
作为优选的技术方案,本实施例中,所述卷积层如下式所示:
f(i,j)=(X*W)(i,j)=∑m∑nx(i+m,j+n)w(m,n) (1)
式中,X*W表示待分类图像x与卷积区域w的卷积;x(i+m,j+n)表示待分类图像X中第i行第j列像素x(i,j)每次沿横坐标移动m步长、每次沿纵坐标移动n步长;w(m,n)表示卷积区域W中第m行第n列的像素大小。
作为优选的技术方案,本实施例中,降维特征图输入至密集连接块进行特征融合过程为:将DenseNet网络中0到L层的特征图x0,……,xL-1作为第L+i层的输入,则有:
xL=HL([x0,x1,......,xL-1]) (2)
式中,[x0,x1,......,xL-1]表示第0层到第L-1层产生的特征图的合并,HL表示密集连接块。
本发明结合了最大池化和平均池化的优点,并引用均方根进行优化,形成了一种改进混合池化的神经网络训练方法,能够更好的保留图像和背景特征,进而提高图像分类精度,并降低分类损失;
本发明引入最大鲜明特征系数α和平均值系数β,可以根据不同图像进行实时调节;与传统的最大池化(max-pooling)相比,混合池化(mix-pooling)有明显的优势。
在训练阶段,考虑到数据集的规模大小,使用的学习率和批量大小N分别为0.001、32,最大迭代次数设为100。本发明采用权重衰减为0.001,动量为0.5的小批量随机梯度下降法SGD进行模型优化,损失函数采用的是交叉熵损失函数。这样,可以在模型训练过程中,基于当前学习结果及时施加相应的策略调整,提高了图像分类模型在小样本学习环境中训练的准确性,进而提高了训练后模型进行分类的正确率。在每一轮迭代中利用交叉熵损失函数的取值,更新所述模型的模型参数,直至满足预设的训练结束条件,所述交叉熵损失函数是图像分类模型的原始模型中构造的。
训练结果如图8至图9c所示,图中train是模型训练数据集,test是测试数据集。其中,图8是最大池化仿真结果,图9a至图9c分别采用(α=1.6,β=0.4)、(α=1.5,β=0.5)、(α=1.7,β=0.3)系数分配的混合池化仿真结果;epoch表示一个训练周期,即训练完所有训练集样本;损失值越低,模型训练结果越好,是一次epoch中训练集样本或验证集样本所有error的和。accuracy是指模型的准确率,即模型预测结果与真实结果的匹配度,accuracy值越大说明图像识别越准确。最大池化得到的特征图对纹理特征信息更加敏感;平均池化得到的特征信息对背景信息更加敏感;可以看出针对对纹理特征信息敏感和兼顾背景信息的图像,本发明混合池化更具有优势,使图像分类模型可以更好的保留图像的纹理及背景特征,以提高图像分类精度,并降低分类损失。
需要说明的是,本发明池化层主要的作用包括:
(1)下采样;
(2)降维、去除冗余信息、对特征进行压缩、简化网络复杂度、减小计算量、减小内存消耗等等;
(3)实现非线性;
(4)扩大感知野;
(5)实现不变性,其中不变形性包括,平移不变性、旋转不变性和尺度不变性。
实施例2
下面结合具体的工作方式对实施例1中的方案进行进一步的介绍,详见下文描述:
如图6,本发明提供一种图像分类方法,包括以下步骤,
S1:获取待处理图像;
S2:构建基于神经网络的图像分类模型,所述图像分类模型包括依次连接的第一卷积层、第一池化层、N个密集连接块和分类层,N≥2,相邻的密集连接块之间间插有过渡层;其中,
第一卷积层,用于对输入的图像进行第一卷积处理,以得到特征图;
第一池化层,对第一卷积层输出的特征图进行降维;
N个密集连接块,用于从第一池化层获取降维的特征图后发送至分类层;
过渡层,包括过渡卷积层和过渡池化层,所述过渡池化层为混合池化层;
分类层,用于得到预测图像类型,所述预测图像类型用于实现图像分类;
S3:利用所述图像分类模型对待处理图像进行分类处理。
作为优选的技术方案,本实施例中,过渡层包括一个1x1的渡卷积层和2x2的混合池化层,在所述混合池化层区域中,计算过程为:
式中,xi,j表示过渡卷积层的输出图像的像素,作为混合池化层的输入信息;hmax表示像素xi,j的最大鲜明特征,k表示特征图列数,N表示特征图元素个数,α表示最大鲜明特征系数,havg表示特征图中各个特征值的平均值,β表示平均值系数,表示均方根,作为混合池化层输出,衡量重建数据及真实数据的偏差指标。
作为优选的技术方案,本实施例中,如图7,步骤S3所述利用所述图像分类模型对待处理图像进行分类处理,具体为:
S31:将待处理图像输入至神经网络的第一卷积层进行第一特征提取,得到第一特征图;
S32:将第一特征图输入至第一池化层进行第一下采样,得到第一降维特征图;
S33:将降维特征图输入至第一个密集连接块进行特征融合,所述第一个密集连接块根据每个特征通道的重要程度在通道维度上对待处理图像的原始特征进行重标定,得到融合特征图;
S34:将融合特征图输入至过渡层进行特征提取和下采样,得到降维特征图;
S35:将降维特征图输入至第p个密集连接块进行特征融合,p≥2,所述密集连接块根据每个特征通道的重要程度在通道维度上对待处理图像的原始特征进行重标定,得到融合特征图;
S36:重复步骤S34~S35直至N个密集连接块均得到融合特征图;
S37:将融合特征图输入至分类层,得到用于实现图像分类的预测图像类型。
最终,图像分类模型经由第一卷积层、第一池化层、多个密集连接块、多个过渡层以及分类层对待处理图像进行特征提取,得到用于实现图像分类的预测图像类型。
作为优选的技术方案,本实施例中,所述分类层包括依次连接的全局平均池化层、全连接层,其中,
全局平均池化层,用于对接受到的融合特征图下采样,以得到全局特征信息;
全连接层,用于对所述全局特征信息进行融合处理,得到预测图像类型,所述预测图像类型用于实现图像分类。
作为优选的技术方案,本实施例中,所述过渡卷积层为1x1的卷积层,所述第一池化层采用3x3的最大池化层进行特征值提取,所述混合池化层为2x2的混合池化层(mixpooling)。所述过渡层采用2x2的混合池化层进行特征值的精细提取。
在本发明的另一个实施例中,还提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得本发明实现如上任一实施例中的所述的一种神经网络的训练方法或所述的图像分类方法。
在本实施例中,适用于来实现本发明实施例的电子设备的计算机系统包括中央处理单元(Central Processing Unit,CPU),其可以根据存储在只读存储器(Read-OnlyMemory,ROM)中的程序或者从储存部分加载到随机访问存储器(Random Access Memory,RAM)中的程序而执行各种适当的动作和处理,例如执行上述实施例中所述的方法。在RAM中,还存储有系统操作所需的各种程序和数据。CPU、ROM以及RAM通过总线彼此相连。输入/输出(Input/Output,I/O)接口也连接至总线。
以下部件连接至I/O接口:包括键盘、鼠标等的输入部分;包括诸如阴极射线管(Cathode Ray Tube,CRT)、液晶显示器(Liquid Crystal Display,LCD)等以及扬声器等的输出部分;包括硬盘等的储存部分;以及包括诸如LAN(Local Area Network,局域网)卡、调制解调器等的网络接口卡的通信部分。通信部分经由诸如因特网的网络执行通信处理。驱动器也根据需要连接至I/O接口。可拆卸介质,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器上,以便于从其上读出的计算机程序根据需要被安装入储存部分。
特别地,根据本发明的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的计算机程序。在这样的实施例中,该计算机程序可以通过通信部分从网络上被下载和安装,和/或从可拆卸介质被安装。在该计算机程序被中央处理单元(CPU)执行时,执行本发明的系统中限定的各种功能。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
在本实施例中,本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序被计算机的处理器执行时,使计算机执行如前述任一实施例提供的所述的神经网络的训练方法或所述的图像分类方法。该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的,也可以是单独存在,而未装配入该电子设备中。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本发明实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本发明实施方式的方法。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (10)
1.神经网络的训练方法,其特征在于,训练方法包括以下步骤:
S1:获取训练数据集;
S2:构建基于神经网络的图像分类模型,所述图像分类模型包括依次连接的第一卷积层、第一池化层、N个密集连接块和分类层,N≥2,相邻的密集连接块之间间插有过渡层;其中,
第一卷积层,用于对输入的图像进行第一卷积处理,以得到特征图;
第一池化层,对第一卷积层输出的特征图进行降维;
N个密集连接块,用于从第一池化层获取降维的特征图后发送至分类层;
过渡层,包括过渡卷积层和过渡池化层,所述过渡池化层为混合池化层;
分类层,用于得到预测图像类型,所述预测图像类型用于实现图像分类;
S3:基于所述训练数据集对所述图像分类模型进行训练,直到达到预设的最大迭代次数时停止,以获得训练完成的图像分类模型。
2.根据权利要求1所述神经网络的训练方法,其特征在于,所述混合池化层的输入输出关系为:
式中,xi,j表示过渡卷积层的输出图像的像素,作为混合池化层的输入信息;hmax表示像素xi,j的最大鲜明特征,k表示特征图列数,N表示特征图元素个数,α表示最大鲜明特征系数,havg表示特征图中各个特征值的平均值,β表示平均值系数,表示均方根,作为混合池化层输出。
3.根据权利要求2所述神经网络的训练方法,其特征在于,步骤S3所述基于所述训练数据集对所述神经网络进行训练,具体为:
S31:将训练数据集作为待分类图像X输入至神经网络的第一卷积层进行第一特征提取,得到第一特征图;
S32:将第一特征图输入至第一池化层进行第一下采样,得到第一降维特征图;
S33:将降维特征图输入至第一个密集连接块进行特征融合,所述第一个密集连接块根据每个特征通道的重要程度在通道维度上对待处理图像的原始特征进行重标定,得到融合特征图;
S34:将融合特征图输入至过渡层进行特征提取和下采样,得到降维特征图;
S35:将降维特征图输入至第p个密集连接块进行特征融合,p≥2,所述密集连接块根据每个特征通道的重要程度在通道维度上对待处理图像的原始特征进行重标定,得到融合特征图;
S36:重复步骤S34~S35直至N个密集连接块均得到融合特征图;
S37:将融合特征图输入至分类层,得到用于实现图像分类的预测图像类型;
S38:重复步骤S31~S37,直到达到预设的最大迭代次数时停止,获得训练完成的图像分类模型。
4.根据权利要求1或3所述的一种神经网络的训练方法,其特征在于,所述分类层包括依次连接的全局平均池化层、全连接层,其中,
全局平均池化层,用于对接受到的融合特征图下采样,以得到全局特征信息;
全连接层,用于对所述全局特征信息进行融合处理,得到预测图像类型,所述预测图像类型用于实现图像分类。
5.一种图像分类方法,其特征在于,包括以下步骤:
S1:获取待处理图像;
S2:构建基于神经网络的图像分类模型,所述图像分类模型包括依次连接的第一卷积层、第一池化层、N个密集连接块和分类层,N≥2,相邻的密集连接块之间间插有过渡层;其中,
第一卷积层,用于对输入的图像进行第一卷积处理,以得到特征图;
第一池化层,对第一卷积层输出的特征图进行降维;
N个密集连接块,用于从第一池化层获取降维的特征图后发送至分类层;
过渡层,包括过渡卷积层和过渡池化层,所述过渡池化层为混合池化层;
分类层,用于得到预测图像类型,所述预测图像类型用于实现图像分类;
S3:利用所述图像分类模型对待处理图像进行分类处理。
6.根据权利要求5所述的图像分类方法,其特征在于,所述混合池化层的输入输出关系为:
式中,x(i,j)表示过渡卷积层的输出图像的像素,作为混合池化层的输入信息,hmax表示像素x(i,j)的最大鲜明特征,k表示特征图列数,N表示特征图元素个数,α表示最大鲜明特征系数,havg表示特征图中各个特征值的平均值,β表示平均值系数,表示均方根,作为混合池化层输出。
7.根据权利要求6所述的图像分类方法,其特征在于,步骤S3所述利用所述图像分类模型对待处理图像进行分类处理,具体为:
S31:将待处理图像输入至神经网络的第一卷积层进行第一特征提取,得到第一特征图;
S32:将第一特征图输入至第一池化层进行第一下采样,得到第一降维特征图;
S33:将降维特征图输入至第一个密集连接块进行特征融合,所述第一个密集连接块根据每个特征通道的重要程度在通道维度上对待处理图像的原始特征进行重标定,得到融合特征图;
S34:将融合特征图输入至过渡层进行特征提取和下采样,得到降维特征图;
S35:将降维特征图输入至第p个密集连接块进行特征融合,p≥2,所述密集连接块根据每个特征通道的重要程度在通道维度上对待处理图像的原始特征进行重标定,得到融合特征图;
S36:重复步骤S34~S35直至N个密集连接块均得到融合特征图;
S37:将融合特征图输入至分类层,得到用于实现图像分类的预测图像类型。
8.根据权利要求5或7所述的图像分类方法,其特征在于,所述分类层包括依次连接的全局平均池化层、全连接层,其中,
全局平均池化层,用于对接受到的融合特征图下采样,以得到全局特征信息;
全连接层,用于对所述全局特征信息进行融合处理,得到预测图像类型,所述预测图像类型用于实现图像分类。
9.一种电子设备,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行所述权利要求1-4中任一项所述的神经网络的训练方法或权利要求5至8中任一项所述的图像分类方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,所述计算机程序运行时执行所述权利要求1-4中任一项所述的神经网络的训练方法或权利要求5至8中任一项所述的图像分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310794182.3A CN116882473A (zh) | 2023-06-29 | 2023-06-29 | 神经网络的训练方法、图像分类方法、电子设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310794182.3A CN116882473A (zh) | 2023-06-29 | 2023-06-29 | 神经网络的训练方法、图像分类方法、电子设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116882473A true CN116882473A (zh) | 2023-10-13 |
Family
ID=88257916
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310794182.3A Pending CN116882473A (zh) | 2023-06-29 | 2023-06-29 | 神经网络的训练方法、图像分类方法、电子设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116882473A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110942106A (zh) * | 2019-12-13 | 2020-03-31 | 东华大学 | 一种基于平方平均的池化卷积神经网络图像分类方法 |
CN110942105A (zh) * | 2019-12-13 | 2020-03-31 | 东华大学 | 一种基于最大池化和平均池化的混合池化方法 |
CN111209972A (zh) * | 2020-01-09 | 2020-05-29 | 中国科学院计算技术研究所 | 基于混合连通性深度卷积神经网络的图像分类方法及系统 |
CN114511475A (zh) * | 2022-04-21 | 2022-05-17 | 天津大学 | 一种基于改进Cycle GAN的图像生成方法 |
CN115131279A (zh) * | 2021-03-12 | 2022-09-30 | 香港大学 | 通过深度学习模型的疾病分类 |
CN115294556A (zh) * | 2022-09-28 | 2022-11-04 | 西南石油大学 | 基于改进YOLOv5的密闭振动筛上异常流态流体检测方法 |
-
2023
- 2023-06-29 CN CN202310794182.3A patent/CN116882473A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110942106A (zh) * | 2019-12-13 | 2020-03-31 | 东华大学 | 一种基于平方平均的池化卷积神经网络图像分类方法 |
CN110942105A (zh) * | 2019-12-13 | 2020-03-31 | 东华大学 | 一种基于最大池化和平均池化的混合池化方法 |
CN111209972A (zh) * | 2020-01-09 | 2020-05-29 | 中国科学院计算技术研究所 | 基于混合连通性深度卷积神经网络的图像分类方法及系统 |
CN115131279A (zh) * | 2021-03-12 | 2022-09-30 | 香港大学 | 通过深度学习模型的疾病分类 |
CN114511475A (zh) * | 2022-04-21 | 2022-05-17 | 天津大学 | 一种基于改进Cycle GAN的图像生成方法 |
CN115294556A (zh) * | 2022-09-28 | 2022-11-04 | 西南石油大学 | 基于改进YOLOv5的密闭振动筛上异常流态流体检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11501415B2 (en) | Method and system for high-resolution image inpainting | |
CN110659725B (zh) | 神经网络模型的压缩与加速方法、数据处理方法及装置 | |
CN109711426B (zh) | 一种基于gan和迁移学习的病理图片分类装置及方法 | |
CN111507993A (zh) | 一种基于生成对抗网络的图像分割方法、装置及存储介质 | |
CN113222123B (zh) | 模型训练方法、装置、设备及计算机存储介质 | |
CN112288011A (zh) | 一种基于自注意力深度神经网络的图像匹配方法 | |
CN111695494A (zh) | 一种基于多视角卷积池化的三维点云数据分类方法 | |
CN112766062B (zh) | 一种基于双流深度神经网络的人体行为识别方法 | |
CN112101364B (zh) | 基于参数重要性增量学习的语义分割方法 | |
CN112884668A (zh) | 基于多尺度的轻量级低光图像增强方法 | |
CN111223128A (zh) | 目标跟踪方法、装置、设备及存储介质 | |
WO2022100490A1 (en) | Methods and systems for deblurring blurry images | |
CN115147402A (zh) | 用于图像处理的自对比学习 | |
CN113744251A (zh) | 基于自注意力机制从病理图片预测微卫星不稳定性的方法 | |
CN114863348A (zh) | 基于自监督的视频目标分割方法 | |
Li et al. | Robust blood cell image segmentation method based on neural ordinary differential equations | |
CN117437423A (zh) | 基于sam协同学习和跨层特征聚合增强的弱监督医学图像分割方法及装置 | |
CN115063847A (zh) | 一种面部图像获取模型的训练方法及装置 | |
CN113095473A (zh) | 神经网络架构搜索系统和方法及计算机可读记录介质 | |
WO2024060839A1 (zh) | 对象操作方法、装置、计算机设备以及计算机存储介质 | |
CN117314751A (zh) | 一种基于生成式对抗网络的遥感图像超分辨率重建方法 | |
CN112132207A (zh) | 基于多分支特征映射目标检测神经网络构建方法 | |
CN116309165A (zh) | 一种基于ResNet的深度可分离卷积神经网络的图像去雾方法 | |
CN116882473A (zh) | 神经网络的训练方法、图像分类方法、电子设备及介质 | |
Han et al. | Blind image quality assessment with channel attention based deep residual network and extended LargeVis dimensionality reduction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |