CN111079795B - 基于cnn的分片多尺度特征融合的图像分类方法 - Google Patents

基于cnn的分片多尺度特征融合的图像分类方法 Download PDF

Info

Publication number
CN111079795B
CN111079795B CN201911150614.7A CN201911150614A CN111079795B CN 111079795 B CN111079795 B CN 111079795B CN 201911150614 A CN201911150614 A CN 201911150614A CN 111079795 B CN111079795 B CN 111079795B
Authority
CN
China
Prior art keywords
image
feature
training
feature extraction
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911150614.7A
Other languages
English (en)
Other versions
CN111079795A (zh
Inventor
薛涛
洪洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongfu Software (Xi'an) Co.,Ltd.
Original Assignee
Xian Polytechnic University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Polytechnic University filed Critical Xian Polytechnic University
Priority to CN201911150614.7A priority Critical patent/CN111079795B/zh
Publication of CN111079795A publication Critical patent/CN111079795A/zh
Application granted granted Critical
Publication of CN111079795B publication Critical patent/CN111079795B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于CNN的分片多尺度特征融合的图像分类方法,该方法按照以下步骤实施,首先获得已标注的图像训练集并进行预处理增强样本多样性,得到完整图像训练集;其次构建分片多尺度特征融合的特征提取卷积模块,卷积模块对完整图像训练集中的图像进行特征转换和特征提取,获取表示该图像样本的图像特征向量;将图像特征向量接入softmax分类器作为图像识别的输出;最后通过随机梯度下降法和反向传播算法训练获得的神经网络模型,损失函数收敛训练结束后即得到最终完成的模型。本发明的基于CNN的分片多尺度特征融合的图像分类方法,有效打破了不同网络优化范式间的壁垒,进一步提升网络模型对图像特征提取的性能,提高了模型精度。

Description

基于CNN的分片多尺度特征融合的图像分类方法
技术领域
本发明属于基于深度学习的计算机视觉技术领域,具体涉及一种基于 CNN的分片多尺度特征融合的图像分类方法。
背景技术
随着CNN(卷积神经网络)在2012年的LSVRC图像分类大赛上的巨大成功,引发了CNN在计算机视觉任务上的研究热潮。传统的图像分类方法需要根据大量的先验知识进行手工的特征提取,这种方式不但费时而且提取的特征的效果并不理想。相对传统方法,CNN的最大魅力在于在足够算力的支持下,只要拥有充足的训练数据,CNN就能自动根据训练样本的分布学习出代表原始图像的最好的特征,因此“数据驱动”是区别于传统方法最显著的特征。
一方面,为了解决网络过深,参数太多难以优化的问题Inception系列方法利用多尺度融合的策略在增加网络宽度的同时精心设计每一层网络的结构,证明了通过利用特征多尺度融合的方法增加网络宽度能够有效提高网络性能。
另一方面,在探索深度网络中,在残差网络ResNet被提出之前,“梯度消失”一直是阻碍构建更深层网络的诟病,ResNet提出了跳层连接的“shortcut connection”,能够保证即使构建几百层网络,梯度也不会消失。残差网络到目前为止一直实现深度网络的主流范式。
除了网络的宽度与深度,ResNeXt引入了新的超参数“基数”,提出了分组卷积的方法,其基数就代表分组的个数。在这之前网络模型的容量主要是通过调节网络的宽度与深度实现的,ResNeXt表明“基数”也能起到调节网络模型的容量的作用,同时证明了通过增大“基数”比通过加深网络提高网络性能的方法更加有效。
但这几种优化范式都是在如网络宽度或网络深度等的单一维度中提出,对进一步提升网络整体性能,具有一定局限性。为了探索多优化范式融合的可能性,进一步解放CNN神经网络模型的潜能,本发明在网络深度上结合残差连接;在网络宽度上结合多尺度特征融合;在网络“基数”上结合分组卷积提出了一种新的特征转换策略,通过在分组卷积中引入多尺度特征融合的方法,来扩展网络宽度,增强模型的表达能力。
发明内容
本发明的目的是提供基于CNN的分片多尺度特征融合的图像分类方法,打破各网络优化范式间的壁垒,进一步提升网络模型对图像分类的性能。
本发明所采用的技术方案是,基于CNN的分片多尺度特征融合的图像分类方法,该方法按照以下步骤实施,
步骤1:下载公共图像分类训练集或使用自主标注图像训练样本标签的训练集;
步骤2:对步骤1准备好的图像训练集进行预处理,进一步扩充图像训练样本集,增加训练样本的多样性,得到完整图像训练集;
步骤3:使用多尺度特征融合的图像特征提取方法构建特征提取的卷积模块,卷积模块对步骤2完整图像训练集中的图像进行特征转换和特征提取,获取表示该图像样本的图像特征向量;
步骤4:使用步骤3得到的图像特征向量作为输入,构建softmax分类器;
步骤5:将步骤3扩充训练样本集中的图像均分为多个样本包,采用 SGD随机梯度下降法和反向传播算法训练网络优化损失函数,逐层调整损失函数的权值,直到损失函数不再收敛,结束网络训练,得到神经网络模型;
步骤6:将步骤5得到训练完成的神经网络模型应用到没有标注的图像样本,将未标注的原始图像输入步骤3构建的特征提取的卷积模块,经前向传播获得图像特征向量,再通过softmax分类器得到图像分类结果,达到图像识别的目的。
本发明的特点还在于,
步骤2对图像训练集中图像进行预处理的方式如下:
①水平翻转:对原始图像样本进行镜面翻折;
②旋转:将原始图像样本进行顺时针或逆时针的旋转,选取90或180 度的旋转角度保证图像样本的的尺度大小;
③缩放:对原始图像样本进行放大或缩小;
④裁剪:从原始图像样本中随机选取一部分,然后将选取的部分放大到原图像大小;
⑤添加噪声:在部分原始图像样本中添加噪声数据来消除高频特征;
对经过上述①-⑤步骤处理后的图像训练集中的图片进行随机选取叠加,添加到原始图像训练样本集中,得到完整图像训练集。
步骤3中构建特征提取的卷积模块具体为:
根据步骤2得到的完整图像训练集,首先将其编码转换为输入张量,然后构建特征提取的卷积模块对输入图像进行特征转换和提取,最后获得提取的特征向量作为下一步骤的分类器的输入;其特征转换的特征表达为:
Figure BDA0002283433660000041
C=G×g      (2)
Figure BDA0002283433660000042
Figure BDA0002283433660000043
其中F(x)、x、xi及C分别代表特征输出、特征输入、输入分片和分片数。使用参数G表示转换中的异构数,也就是特征子转换函数的种类数, G控制着整个转换模块的复杂度与表达力的平衡。多个分片可以归为一组,参数g=C/G,其中g就代表每组子转换函数的个数;除此之外,式(3)和式 (4)分别表示组间子转换函数异构互不相同和组内子转换函数同构相同;最后加上特征输入x,其特征转换的特征表达为:
Figure BDA0002283433660000044
步骤3中构建特征提取的卷积模块的具体过程为:
步骤3.1:编码格式转换
将步骤2得到的完整图像训练集样本进行编码转换为输入张量,具体如下:
Batch RGB-Images→(batch,channel,height,width)
其中,batch代表一次输入的图像张数;channel代表RGB三通道取3; height是输入图像的高,同时width代表输入图像的宽;
步骤3.2:构建分片多尺度特征融合的特征提取子模块
构建三种不同尺度的特征转换层,包括1x1卷积、3x3卷积以及使用两个3x3卷积替代5x5卷积;设置G为3、g为11和10,同时采用C为32,使相对简单的特征提取子模块组内分片数取
Figure BDA0002283433660000051
即为
Figure BDA0002283433660000052
最后一个相对复杂的子转换模块组内分片数取
Figure BDA0002283433660000053
Figure BDA0002283433660000054
步骤3.3:特征提取子模块结构优化
使用两个1x3的卷积核替换1个3x3的卷积核、使用两个5x1的卷积核替换两个3x3的卷积核,在保证一定精度的同时,有效的降低了网络模型的参数量;
步骤3.4:构建完整特征提取模块
采用多个步骤3.2构建的特征提取子模块堆叠的方式构建特征提取模块,采取的堆叠策略为:将所有特征提取子模块分为若干组,组内各特征提取子模块采用相同的层参数包括特征图大小和个数,组间两倍下采样且特征图个数增倍;
最后在堆叠完成的特征提取模块的后面接入全局平均池化替换常用的全连接结构,输出最终的特征向量作为softmax分类器的输入。
步骤4构建分类器的过程为:
根据步骤3提取的图像特征向量构建softmax分类器,softmax分类器将输入的特征向量转化为关于类别的概率向量输出,每个概率分量对应一个训练对应的类别概率;
输入的特征向量用
Figure BDA0002283433660000055
表示:
Figure BDA0002283433660000056
参数m代表特征向量的维度大小,
权值矩阵w为:
Figure BDA0002283433660000061
其中参数n代表训练设置的类别数;
类别yj对应的权值向量为:
Figure BDA0002283433660000062
类别向量
Figure BDA0002283433660000063
为:
Figure BDA0002283433660000064
类别yj对应的softmax分类输出概率为:
Figure BDA0002283433660000065
softmax分类器最终输出为类别对应的概率向量:
Figure BDA0002283433660000066
在应用模型时,取最大的Pj对应的类别yj作为最终判定的分类结果。
步骤5训练卷积神经网络的过程为:
步骤5.1:将步骤3完整图像训练集中的图像均分为多个样本包;
步骤5.2:设置损失函数为:
Figure BDA0002283433660000067
其中,t是训练数据集的样本包大小;
Figure BDA0002283433660000068
是每个训练样本对应的类标签如果属于类yj则为1否则为0;
Figure BDA0002283433660000069
是每个训练样本对应的softmax分类器的类yj的概率输出,同步骤4中的Pj
步骤5.2:采用SGD随机梯度下降法更新权值,对给定的
Figure BDA00022834336600000610
对于j=1,2,3,…,n,有如下的权值更新过程:
Figure BDA00022834336600000611
Figure BDA00022834336600000612
其中,Δwj0为偏置更新,η是学习率,控制着学习的速度,经过多次迭代训练不断更新权值,损失函数逐渐收敛,最后停止权值更新,得到最终的网络模型。
本发明的基于CNN的分片多尺度特征融合的图像分类方法,首先获得已标注的图像训练集并进行预处理增强样本多样性,得到完整图像训练集;其次构建特征提取的卷积模块,卷积模块对完整图像训练集中的图像进行特征转换和特征提取,获取表示该图像样本的图像特征向量;将图像特征向量接入softmax分类器作为图像识别的输出;最后通过随机梯度下降法和反向传播算法训练获得的神经网络模型,损失函数收敛训练结束后即得到最终完成的模型。本发明的基于CNN的分片多尺度特征融合的图像分类方法,有效打破了不同网络优化范式间的壁垒,进一步提升网络模型对图像特征提取的性能,提高了模型精度。
附图说明
图1是本发明基于CNN的分片多尺度特征融合的图像分类方法的流程图;
图2是本发明的图像特征转换逻辑结构图;
图3(a)是本发明图1所示实施例中的特征提取的卷积模块的子转换模块,是分组卷积神经网络中的子转换模块,其中分组数C为32;
图3(b)是本发明构造的原始的子转换模块;
图3(c)是本发明构造的改进的子转换模块;
图4(a)、(b)是本发明构造的网络模型在cifar-10图像数据集上的损失训练变化的测试精度和损失值结果;
图4(c)、(d)是本发明构造的网络模型在cifar-100图像数据集上的损失训练变化的变化的测试精度和损失值结果;
图5(a)、(b)是本发明在两组不同设置参数下,不同方法的对比测试精度的变化结果;
图6是本发明cifar-10图像数据集的10个类别信息及每类随机10张图像信息。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明的基于CNN的分片多尺度特征融合的图像分类方法,具体流程如图1所示:以下以cifar-10与cifar-100公共图像数据集为实施例来说明本发明的方法。
步骤1:图像训练集的准备
在网上下载好cifar-10和cifar-100图像数据集。cifar-10数据集由10个类的60000张32x32彩色图像构成,图6是其10个类别的具体内容;每个类包含5000张训练图像和1000张测试图像。cifar-100数据集也总共包含 60000张32x32彩色图像,不同的是cifar-100数据集包含100类,其中每类拥有500张训练图片和100张测试图片,表3显示了其类别信息包括20个超类和100个子类。
表3 cifar-100图像数据集的20个超类和100个子类信息
Figure BDA0002283433660000081
Figure BDA0002283433660000091
步骤2:图像训练集预处理
对图像训练集进行额外扩充,包含的操作如下:
2.1、水平翻转:对原始图像样本进行镜面翻折。
2.2、旋转:将原始图像样本进行顺时针或逆时针的旋转,选取90或 180度的旋转角度保证图像样本的的尺度大小。
2.3、缩放:对原始图像样本进行放大或缩小。放大时,放大后的图像尺寸会大于原始尺寸,按照原始尺寸对放大后的图像进行裁切,缩小时,同理需要对处理后的图像进行放大到原始尺寸。
2.4、裁剪:从原始图像样本中随机选取一部分,然后将选取的部分放大到原图像大小。
2.5、添加噪声:在部分原始图像样本中添加噪声数据来消除高频特征。
步骤3:构建特征提取的卷积模块
如图2所示,根据步骤2得到的完整图像训练集,首先将其转换为此步骤的数据输入格式,然后构建特征提取的卷积模块对输入图像进行特征转换和提取,最后获得提取的特征向量作为下一步骤的分类器的输入。其特征转换的特征表达为:
Figure BDA0002283433660000101
C=G×g    (2)
Figure BDA0002283433660000102
k且j≠k            (3)
Figure BDA0002283433660000103
其中F(x)、x、xi及C分别代表特征输出、特征输入、输入分片和分片数。使用参数G表示转换中的异构数,也就是特征子转换函数的种类数, G控制着整个转换模块的复杂度与表达力的平衡。多个分片可以归为一组,参数g=C/G,其中g就代表每组子转换函数的个数。除此之外,(3)和(4) 分别表示组间子转换函数异构互不相同和组内子转换函数同构相同。最后加上特征输入x,分片多尺度特征转换最终可以表示为:
Figure BDA0002283433660000104
具体步骤为:
步骤3.1:编码格式转换
将步骤2得到的图像训练样本进行编码转换为输入张量,具体如下:
Batch RGB-Images→(batch,channel,height,width)
其中,batch代表一次输入的图像张数;channel代表RGB三通道取3; height是输入图像的高,同时width代表输入图像的宽。
3.2、构建分片多尺度特征融合的特征提取子模块:图3(a)是已有的分组卷积神经网络ResNeXt中的转换模块,其中C为32。图3(b)是本发明提出的转换模块、虚线框中的结构就代表一个子转换结构,本发明构建了三种不同尺度的特征转换层,包括1x1卷积、3x3卷积以及使用两个3x3卷积替代5x5卷积。在图3(b)中G为虚线框的个数即为3,g为11或10,为了充分地与ResNeXt转换模块进行对比,所以本发明同样采用C为32,由于C 无法整除G,考虑减少参数量,使相对简单的子转换模块组内分片数取
Figure BDA0002283433660000111
即为
Figure BDA0002283433660000112
最后一个相对复杂的子转换模块组内分片数取
Figure BDA0002283433660000113
即为
Figure BDA0002283433660000114
在图3中,图3(b)相比图3(a)仅仅多使用了几组3x3的卷积,并没有增加额外的复杂度,而且图3(b)中1x1卷积的使用有几大作用:
①.作为多尺度转换的一部分,能为网络提供更小尺度的转换;
②.提供残差连接的功能;
③.平衡大尺度转换的参数量,在特征图深度相同的情况下,1x1卷积的参数量仅是3x3卷积的1/9。
3.3、子模块结构优化:考虑到随着网络的加深,即使每一个转换模块仅仅增加少量参数量,当层数越多特征图个数越多时,积累的参数数量就无法忽视。为了进一步提高模型性能,在不影响模型精度的前提下压缩模型参数,如图3(c)所示,本发明采用了一个新的等效结构,使用两个1x3 的卷积核替换1个3x3的卷积核,以及使用两个5x1的卷积核替换两个3x3 的卷积核。使用a结构的原始ResNeXt29的参数量约为5.7M,使用本发明图3(b)结构参数量约为6M,而使用图3(c)结构可使参数降为5M左右。
3.4、构建完整特征提取模块:本发明采用多个3.2的分片多尺度特征融合的特征提取子模块堆叠的方式构建特征提取模块,以简化网络模型的设计,采取的堆叠策略为:将所有特征提取子模块分为若干组,1.组内各转换模块采用相同的层参数包括特征图大小和个数,2.组间两倍下采样且特征图个数增倍。
表1是其实现的一个例子,其中IX-ResNet38是基于本发明提出的特征提取模块构建的网络模型结构,表1展示了已有的ResNeXt与本发明的 IX-ResNet38结构设计对比,从中可以看出9个转换子模块平均分为3组,每组3个,组内层参数相同,而输出的特征层数由256增加到1024,同样输出特征图大小从32x32降为8x8。
表1 实施例中的特征提取的卷积模块的整体构造结构
Figure BDA0002283433660000121
最后在堆叠完成的特征提取模块的后面接入全局平均池化global averagepooling替换常用的全连接结构,输出最终的特征向量作为步骤4分类器的输入。
步骤4:构建分类器
根据步骤3提取的图像特征向量构建softmax分类器,softmax分类器将输入的特征向量转化为关于类别的概率向量输出,每个概率分量对应一个训练对应的类别概率。
输入的特征向量用
Figure BDA0002283433660000131
表示:
Figure BDA0002283433660000132
参数m代表特征向量的维度大小。
权值矩阵w为:
Figure BDA0002283433660000133
其中参数n代表训练设置的类别数。
类别yj对应的权值向量为:
Figure BDA0002283433660000134
类别向量
Figure BDA0002283433660000135
为:
Figure BDA0002283433660000136
类别yj对应的softmax分类输出概率为:
Figure BDA0002283433660000137
softmax分类器最终输出为类别对应的概率向量:
Figure BDA0002283433660000138
在应用模型时,取最大的Pj对应的类别yj作为最终判定的分类结果。
步骤5:训练卷积神经网络
通过步骤1到步骤4已经构建好了从输入到输出的整个网络模型,在此步骤需要根据提供的训练数据集对前步骤得到的网络模型进行训练调整网络模型的权值来优化loss,直到训练loss不再收敛,获得最终的权值得到训练完成的模型,图1中的过程“1→2→3→4→5”展示了训练过程。
5.1、设置损失函数,损失函数为:
Figure BDA0002283433660000139
其中t是训练数据集的batch大小;
Figure BDA00022834336600001310
是每个训练样本对应的类标签如果属于类yj则为1否则为0;
Figure BDA0002283433660000141
是每个训练样本对应的softmax分类器的类yj的概率输出,同步骤4中的Pj
5.2、使用梯度下降法更新权值,对给定的
Figure BDA0002283433660000142
对于j=1,2,3,…,n,有如下的权值更新过程:
Figure BDA0002283433660000143
Figure BDA0002283433660000144
其中,Δwj0为偏置更新,η是学习率,控制着学习的速度,经过多次迭代训练不断更新权值,逐步是loss收敛,最后停止权值更新,得到最终的网络模型。
5.3、训练结果
图4(a)-4(d)展示了在数据集cifar-100与cifar-10上,IX-ResNet38与ResNeXt29的训练损失与测试精度随训练周期增加的变化结果,其中的 IX-ResNet-c代表使用图3(c)转换模块的IX-ResNet38,同理IX-ResNet-b代表使用图3(b)转换模块的IX-ResNet38。可以发现本发明的IX-ResNet38最终训练结果的loss更小,除此之外,表2也显示的是在特定设置参数:“8-16”下,本发明方法在cifar-10与cifar-100数据集上的具体测试精度结果。
表2 “8-16”下,本发明方法在cifar-10与cifar-100数据集上的具体测试精度结果
Figure BDA0002283433660000145
Cifar10(8-16d)
Figure BDA0002283433660000146
图5(a)-图5(b)是在数据集cifar-100与cifar-10上,在不同设置参数的情况下,网络模型的训练精度变化情况,其中下标“16-8”代表转换模块初始分片数为16,每个分片的特征图个数为8,所有模型中分片数不变,而特征图个数每叠加一组转换模块就增加为原来的两倍,其他参数与图4相同。
首先观察第1组实验结果,可以发现当C={8,16,32,64}时,IX-ResNet38-b 与IX-ResNet38-c的最终测试准确率都要高于ResNeX29,同样通过观察第 2组的实验结果亦能发现在C={4,8,16,32}的情况下IX-ResNet38-b与 IX-ResNet38-c的最终测试准确率也都高于ResNeX29,第1组与第2组的实验结果分析能够说明新的特征转化策略在多种情况下的准确率都要高于原始的转换策略,进一步论证了新特征转换策略的有效性。
步骤6:图像识别
将步骤5得到训练完成的网络模型应用到没有标注的图像样本,前向传播获得该图像估计的类标签,达到图像识别的目的,其步骤流程可参考图1中的“6→3→7”,模型应用时不再将输入样本进行反向传播过程,而是直接输入softmax分类器得到输出结果,判定该图像样本的类标签,最终完成图像识别任务。
取,获取表示该图像样本的图像特征向量;将图像特征向量接入softmax 分类器作为图像识别的输出;最后通过随机梯度下降法和反向传播算法训练获得的神经网络模型,损失函数收敛训练结束后即得到最终完成的模型。本发明的基于CNN的分片多尺度特征融合的图像分类方法,有效打破了不同网络优化范式间的壁垒,进一步提升网络模型对图像特征提取的性能,提高了模型精度。

Claims (6)

1.基于CNN的分片多尺度特征融合的图像分类方法,其特征在于,具体包括以下几个步骤:
步骤1:下载公共图像分类训练集或使用自主标注图像训练样本标签的训练集;
步骤2:对步骤1准备好的图像训练集进行预处理,进一步扩充图像训练样本集,增加训练样本的多样性,得到完整图像训练集;
步骤3:使用多尺度特征融合的图像特征提取方法构建特征提取的卷积模块,卷积模块对步骤2完整图像训练集中的图像进行特征转换和特征提取,获取表示该图像样本的图像特征向量;
步骤4:使用步骤3得到的图像特征向量作为输入,构建softmax分类器;
步骤5:将步骤3扩充训练样本集中的图像均分为多个样本包,采用SGD随机梯度下降法和反向传播算法训练网络优化损失函数,逐层调整损失函数的权值,直到损失函数不再收敛,结束网络训练,得到神经网络模型;
步骤6:将步骤5得到训练完成的神经网络模型应用到没有标注的图像样本,将未标注的原始图像输入步骤3构建的特征提取的卷积模块,经前向传播获得图像特征向量,再通过softmax分类器得到图像分类结果,达到图像识别的目的。
2.根据权利要求1所述的基于CNN的分片多尺度特征融合的图像分类方法,其特征在于,步骤2对图像训练集中图像进行预处理的方式如下:
①水平翻转:对原始图像样本进行镜面翻折;
②旋转:将原始图像样本进行顺时针或逆时针的旋转,选取90或180度的旋转角度保证图像样本的的尺度大小;
③缩放:对原始图像样本进行放大或缩小;
④裁剪:从原始图像样本中随机选取一部分,然后将选取的部分放大到原图像大小;
⑤添加噪声:在部分原始图像样本中添加噪声数据来消除高频特征;
对经过上述①-⑤步骤处理后的图像训练集中的图片进行随机选取叠加,添加到原始图像训练样本集中,得到完整图像训练集。
3.根据权利要求2所述的基于CNN的分片多尺度特征融合的图像分类方法,其特征在于,步骤3中构建特征提取的卷积模块具体为:
根据步骤2得到的完整图像训练集,首先将其编码转换为输入张量,然后构建特征提取的卷积模块对输入图像进行特征转换和提取,最后获得提取的特征向量作为下一步骤的分类器的输入;其特征转换的特征表达为:
Figure FDA0002283433650000021
C=G×g     (2)
fji(xi)≠fki(xi)
Figure FDA0002283433650000022
且j≠k    (3)
Figure FDA0002283433650000023
其中F(x)、x、xi及C分别代表特征输出、特征输入、输入分片和分片数。使用参数G表示转换中的异构数,也就是特征子转换函数的种类数,G控制着整个转换模块的复杂度与表达力的平衡。多个分片可以归为一组,参数g=C/G,其中g就代表每组子转换函数的个数;除此之外,式(3)和式(4)分别表示组间子转换函数异构互不相同和组内子转换函数同构相同;最后加上特征输入x,其特征转换的特征表达为:
Figure FDA0002283433650000031
4.根据权利要求3所述的基于CNN的分片多尺度特征融合的图像分类方法,其特征在于,步骤3中构建特征提取的卷积模块的具体过程为:
步骤3.1:编码格式转换
将步骤2得到的完整图像训练集样本进行编码转换为输入张量,具体如下:
Batch RGB-Images→(batch,channel,height,width)
其中,batch代表一次输入的图像张数;channel代表RGB三通道取3;height是输入图像的高,同时width代表输入图像的宽;
步骤3.2:构建分片多尺度特征融合的特征提取子模块
构建三种不同尺度的特征转换层,包括1x1卷积、3x3卷积以及使用两个3x3卷积替代5x5卷积;设置G为3、g为11和10,同时采用C为32,使相对简单的特征提取子模块组内分片数取
Figure FDA0002283433650000032
即为
Figure FDA0002283433650000033
最后一个相对复杂的子转换模块组内分片数取
Figure FDA0002283433650000034
Figure FDA0002283433650000035
步骤3.3:特征提取子模块结构优化
使用两个1x3的卷积核替换1个3x3的卷积核、使用两个5x1的卷积核替换两个3x3的卷积核,在保证一定精度的同时,有效的降低了网络模型的参数量;
步骤3.4:构建完整特征提取模块
采用多个步骤3.2构建的特征提取子模块堆叠的方式构建特征提取模块,采取的堆叠策略为:将所有特征提取子模块分为若干组,组内各特征提取子模块采用相同的层参数包括特征图大小和个数,组间两倍下采样且特征图个数增倍;
最后在堆叠完成的特征提取模块的后面接入全局平均池化替换常用的全连接结构,输出最终的特征向量作为softmax分类器的输入。
5.根据权利要求1所述的基于CNN的分片多尺度特征融合的图像分类方法,其特征在于,步骤4构建分类器的过程为:
根据步骤3提取的图像特征向量构建softmax分类器,softmax分类器将输入的特征向量转化为关于类别的概率向量输出,每个概率分量对应一个训练对应的类别概率;
输入的特征向量用
Figure FDA0002283433650000041
表示:
Figure FDA0002283433650000042
参数m代表特征向量的维度大小,
权值矩阵w为:
Figure FDA0002283433650000043
其中参数n代表训练设置的类别数;
类别yj对应的权值向量为:
Figure FDA0002283433650000044
类别向量
Figure FDA0002283433650000045
为:
Figure FDA0002283433650000046
类别yj对应的softmax分类输出概率为:
Figure FDA0002283433650000047
softmax分类器最终输出为类别对应的概率向量:
Figure FDA0002283433650000048
在应用模型时,取最大的Pj对应的类别yj作为最终判定的分类结果。
6.根据权利要求1所述的基于CNN的分片多尺度特征融合的图像分类方法,其特征在于,步骤5训练卷积神经网络的过程为:
步骤5.1:将步骤3完整图像训练集中的图像均分为多个样本包;
步骤5.2:设置损失函数为:
Figure FDA0002283433650000051
其中,t是训练数据集的样本包大小;
Figure FDA0002283433650000052
是每个训练样本对应的类标签如果属于类yj则为1否则为0;
Figure FDA0002283433650000053
是每个训练样本对应的softmax分类器的类yj的概率输出,同步骤4中的Pj
步骤5.2:采用SGD随机梯度下降法更新权值,对给定的
Figure FDA0002283433650000054
对于j=1,2,3,…,n,有如下的权值更新过程:
Figure FDA0002283433650000055
Figure FDA0002283433650000056
其中,Δwj0为偏置更新,η是学习率,控制着学习的速度,经过多次迭代训练不断更新权值,损失函数逐渐收敛,最后停止权值更新,得到最终的网络模型。
CN201911150614.7A 2019-11-21 2019-11-21 基于cnn的分片多尺度特征融合的图像分类方法 Active CN111079795B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911150614.7A CN111079795B (zh) 2019-11-21 2019-11-21 基于cnn的分片多尺度特征融合的图像分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911150614.7A CN111079795B (zh) 2019-11-21 2019-11-21 基于cnn的分片多尺度特征融合的图像分类方法

Publications (2)

Publication Number Publication Date
CN111079795A CN111079795A (zh) 2020-04-28
CN111079795B true CN111079795B (zh) 2023-04-07

Family

ID=70311585

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911150614.7A Active CN111079795B (zh) 2019-11-21 2019-11-21 基于cnn的分片多尺度特征融合的图像分类方法

Country Status (1)

Country Link
CN (1) CN111079795B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111553867B (zh) * 2020-05-15 2023-05-26 华润数字科技有限公司 一种图像去模糊方法、装置、计算机设备及存储介质
CN111627014B (zh) * 2020-05-29 2023-04-28 四川大学 一种基于深度学习的根管检测与评分的方法及系统
CN111931900B (zh) * 2020-05-29 2023-09-19 西安电子科技大学 基于残差网络与多尺度特征融合的gis放电波形检测方法
CN111860273B (zh) * 2020-07-14 2022-07-05 吉林大学 基于卷积神经网络的磁共振地下水探测噪声抑制方法
CN112183303A (zh) * 2020-09-24 2021-01-05 南方电网数字电网研究院有限公司 变电设备图像分类方法、装置、计算机设备和介质
CN112560662B (zh) * 2020-12-11 2022-10-21 湖北科技学院 一种基于多示例注意力机制的遮挡图像识别方法
CN112686331B (zh) * 2021-01-11 2022-09-09 中国科学技术大学 伪造图像识别模型训练方法及伪造图像识别方法
CN113269190B (zh) * 2021-07-21 2021-10-12 中国平安人寿保险股份有限公司 基于人工智能的数据分类方法、装置、计算机设备及介质
CN113657458A (zh) * 2021-07-27 2021-11-16 浙江大华技术股份有限公司 气道分类方法及其装置、计算机可读存储介质
CN114187485B (zh) * 2021-11-30 2024-04-16 江苏大学 一种基于四元特征融合图的轻量级Tor流量分类方法及系统
CN114359698B (zh) * 2021-12-06 2024-06-04 江苏科技大学 一种基于双向跨跃反馈循环结构声纳图像识别方法及系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018052586A1 (en) * 2016-09-14 2018-03-22 Konica Minolta Laboratory U.S.A., Inc. Method and system for multi-scale cell image segmentation using multiple parallel convolutional neural networks
CN109063728A (zh) * 2018-06-20 2018-12-21 燕山大学 一种火灾图像深度学习模式识别方法
CN110059582B (zh) * 2019-03-28 2023-04-07 东南大学 基于多尺度注意力卷积神经网络的驾驶员行为识别方法

Also Published As

Publication number Publication date
CN111079795A (zh) 2020-04-28

Similar Documents

Publication Publication Date Title
CN111079795B (zh) 基于cnn的分片多尺度特征融合的图像分类方法
Aszemi et al. Hyperparameter optimization in convolutional neural network using genetic algorithms
CN108985317B (zh) 一种基于可分离卷积和注意力机制的图像分类方法
CN110210486B (zh) 一种基于素描标注信息的生成对抗迁移学习方法
CN106845529B (zh) 基于多视野卷积神经网络的影像特征识别方法
CN111126256B (zh) 一种基于自适应空谱多尺度网络的高光谱图像分类方法
CN108847223B (zh) 一种基于深度残差神经网络的语音识别方法
CN109948029A (zh) 基于神经网络自适应的深度哈希图像搜索方法
CN110570346B (zh) 一种基于循环生成对抗网络对书法进行风格迁移的方法
CN107506761A (zh) 基于显著性学习卷积神经网络的脑部图像分割方法及系统
CN108614997B (zh) 一种基于改进AlexNet的遥感图像识别方法
CN107330355B (zh) 一种基于正样本平衡约束的深度行人再标识方法
CN107122796A (zh) 一种基于多分支网络融合模型的光学遥感图像分类方法
CN111882040A (zh) 基于通道数量搜索的卷积神经网络压缩方法
CN111861906B (zh) 一种路面裂缝图像虚拟增广模型建立及图像虚拟增广方法
CN103942571B (zh) 一种基于遗传规划算法的图形图像分类方法
CN109741341A (zh) 一种基于超像素和长短时记忆网络的图像分割方法
CN109582782A (zh) 一种基于用弱监督深度学习的文本聚类方法
CN112101364B (zh) 基于参数重要性增量学习的语义分割方法
KR20220116270A (ko) 학습 처리 장치 및 방법
CN109543029A (zh) 基于卷积神经网络的文本分类方法、装置、介质和设备
CN107392155A (zh) 基于多目标优化的稀疏受限玻尔兹曼机的手写体识别方法
CN107886165A (zh) 一种基于计算机模式识别的并行卷积神经网络方法
CN110956201A (zh) 一种基于卷积神经网络的图像失真类型分类方法
CN111639751A (zh) 一种用于二值卷积神经网络的非零填补训练方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230714

Address after: 710075 Zone C, 3rd Floor, Synergy Building, No. 12 Gaoxin Second Road, High tech Zone, Xi'an City, Shaanxi Province

Patentee after: Zhongfu Software (Xi'an) Co.,Ltd.

Address before: 710048 Shaanxi province Xi'an Beilin District Jinhua Road No. 19

Patentee before: XI'AN POLYTECHNIC University