CN108985317A - 一种基于可分离卷积和注意力机制的图像分类方法 - Google Patents

一种基于可分离卷积和注意力机制的图像分类方法 Download PDF

Info

Publication number
CN108985317A
CN108985317A CN201810517380.4A CN201810517380A CN108985317A CN 108985317 A CN108985317 A CN 108985317A CN 201810517380 A CN201810517380 A CN 201810517380A CN 108985317 A CN108985317 A CN 108985317A
Authority
CN
China
Prior art keywords
module
layer
convolution
separable
attention mechanism
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810517380.4A
Other languages
English (en)
Other versions
CN108985317B (zh
Inventor
王松松
李跃进
徐昆然
官俊涛
李奕诗
王东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN201810517380.4A priority Critical patent/CN108985317B/zh
Publication of CN108985317A publication Critical patent/CN108985317A/zh
Application granted granted Critical
Publication of CN108985317B publication Critical patent/CN108985317B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于可分离卷积和注意力机制的图像分类方法,其特征在于,包括:S1、构建原始深度卷积神经网络;S2、利用训练数据集训练所述原始深度卷积神经网络,得到训练的深度卷积神经网络;S3、将验证数据集输入到所述训练的深度卷积神经网络,得到分类概率向量;S4、选取所述分类概率向量中概率最大值对应的分类作为数据预处理的测试结果;S5、将所述测试结果与所述验证数据集的类别标签进行对比,得到最终分类的准确度。本发明提出的基于可分离卷积和注意力机制的图像分类方法,可用于提升深度学习中图像分类模型特征提取的效率和缩减模型的训练参数量,加速模型收敛。

Description

一种基于可分离卷积和注意力机制的图像分类方法
技术领域
本发明属于计算机视觉领域,具体涉及一种基于可分离卷积和注意力机制的图像分类方法。
背景技术
图像分类是计算机视觉领域的一个重要基本问题,也是物体识别的基础。伴随网络购物和社交网络等互联网技术的发展,数字图像的数量也在急剧增长。对这些数字图像的分析、处理、分类提出了更高的要求,高效率,高准确度的分类方法成为了解决此类问题的关键。
现有图像分类的方法有两大类:一是根据计算联合分布概率分类,如高斯模型、隐马尔科夫模型等;二是根据计算条件概率分布分类,如神经网络、支持向量机等。
但是,现有方法对图像中的噪声敏感和细节纹理、颜色信息等重要信息并不敏感,导致不能达到一个很好的分类准确度。
发明内容
为了解决现有技术中存在的上述问题,本发明提供了一种基于可分离卷积和注意力机制的图像分离方法。本发明要解决的技术问题通过以下技术方案实现:
本发明实施例提供了一种基于可分离卷积和注意力机制的图像分离方法,包括:
S1、构建原始深度卷积神经网络;
S2、利用训练数据集训练所述原始深度卷积神经网络,得到训练的深度卷积神经网络;
S3、将验证数据集输入到所述训练的深度卷积神经网络,得到分类概率向量;
S4、选取所述分类概率向量中概率最大值对应的分类作为数据预处理的测试结果;
S5、将所述测试结果与所述验证数据集的类别标签进行对比,得到最终分类的准确度。
在本发明的一个实施例中,所述S2包括:
S21、对所述训练数据集进行预处理;
S22、从预处理后的训练数据集中采样M张大小为N*N的第一图像,其中,M、N均为正整数;
S23、对所述第一图像依次做RGB三通道均值处理和随机水平翻转处理,得到第二图像;
S24、将所述第二图像输入到所述原始深度卷积神经网络中,采用随机梯度下降法对所述原始深度卷积神经网络进行优化;
S25、重复执行所述步骤S21-S24,若判断所述原始深度卷积神经网络的损失函数值不再下降时,则将优化后的所述原始深度卷积神经网络作为所述训练的深度卷积神经网络。
在本发明的一个实施例中,所述S1包括:
S11、构建残差卷积模块、构建可分离卷积模块;
S12、根据所述可分离卷积模块构建注意力机制特征增强模块;
S13、根据所述残差卷积模块、所述注意力机制特征增强模块构建原始深度卷积神经网络。
在本发明的一个实施例中,构建所述残差卷积模块,包括:
依次连接第一卷积层、第一规范化层、第一线性修正单元层、第二卷积层、第二规范化层、第二线性修正单元层、第三卷积层、第三规范化层、逐点加法层,将第一卷积层的输入与第三规范化层的输出逐元素相加,将相加后的结果输出到第三线性修正单元层,构建得到所述残差卷积模块,其中,所述残差卷积模块的输出特征的尺寸和输入的尺寸均为H×W×C,H、W、C分别为特征图高度、宽度和通道数,第一卷积层卷积核尺寸为1×1、第二卷积层卷积核尺寸为3×3、第三卷积层卷积核尺寸为1×1。
在本发明的一个实施例中,构建所述可分离卷积模块,包括:
依次连接第一可分离卷积层、第一规范化层、第一线性修正单元层、第二可分离卷积层、第二规范化层、第二线性修正单元层、第三可分离卷积层、第三规范化层、逐点加法层,将第一可分离卷积层的输入与第三规范化层的输出逐元素相加,将相加后的结果输出到第三线性修正单元层,构建得到所述可分离卷积模块,其中,所述可分离卷积模块的输出特征的尺寸和输入的尺寸均为H×W×C,H、W、C分别为特征图高度、宽度和通道数,第一可分离卷积层卷积核尺寸为1×1、第二可分离卷积层卷积核尺寸为3×3、第三可分离卷积层卷积核尺寸为1×1。
在本发明的一个实施例中,构建所述注意力机制特征增强模块,包括:
依次连接第一最大池化层、第一可分离卷积模块、第二最大池化层、第二可分离卷积模块、第三可分离卷积模块、第一上采样卷积层、逐点加法层、第四可分离卷积模块、第二上采样卷积层、第一可分离卷积层、第二可分离卷积层、S型生长曲线激活函数层,所述第一可分离卷积模块的输出端通过第五可分离卷积模块连接到所述逐点加法层的输入端,构建得到所述注意力机制特征增强模块,其中,第一可分离卷积层卷积核尺寸为1×1、第二可分离卷积层卷积核尺寸为1×1,所述S型生长曲线激活函数层的尺寸和第一最大池化层的输入的尺寸均为H×W×C,H、W、C分别为特征图高度、宽度和通道数,所述第一最大池化层的输入为所述残差卷积模块的输出。
在本发明的一个实施例中,所述S13包括:
S131、根据所述残差卷积模块、所述注意力机制特征增强模块得到第一模块、第二模块、第一过渡模块、第三模块、第二过渡模块、第四模块、第五模块;
S132、依次连接所述第一模块、第二模块、第一过渡模块、第三模块、第二过渡模块、第四模块、第五模块,得到所述原始深度卷积神经网络。
在本发明的一个实施例中,所述第二模块、所述第三模块、所述第四模块均包括:残差卷积模块、注意力机制特征增强模块、逐点乘加线性修正单元层,其中,所述残差卷积模块连接所述逐点乘加线性修正单元层,所述残差卷积模块的输出端通过所述注意力机制特征增强模块连接到所述逐点乘加线性修正单元层的输入端,所述第二模块中每个模块的卷积核的数量均为64,所述第三模块中每个模块的卷积核的数量均为128,所述第四模块中每个模块的卷积核的数量均为256。
在本发明的一个实施例中,所述第一过渡模块、所述第二过渡模块均包括:最大池化层和修正残差卷积模块,其中所述最大池化层的卷积核尺寸为3×3,步长为2×2,所述第一过渡模块中修正残差卷积模块的输入通道数为64,输出通道数为128,所述第二过渡模块中修正残差卷积模块的输入通道数为128,输出通道数为256,所述修正残差卷积模块为在所述残差卷积模块的旁路增加一层卷积层,其中,所述卷积层卷积核尺寸为1×1。
与现有技术相比,本发明的有益效果:
本发明的基于可分离卷积和注意力机制的图像分类方法将深度卷积神经网络的可分离卷积和自适应性增强多尺度特征的注意力机制相结合,缩减了网络模型的训练参数量,加速了网络模型的收敛速度,提高了网络模型的分类准确度。
附图说明
图1为本发明实施例提供的一种基于可分离卷积和注意力机制的图像分类方法流程图;
图2为本发明一个具体实施例的残差卷积模块的结构图;
图3为本发明一个具体实施例的可分离卷积模块的结构图;
图4为本发明一个具体实施例的注意力机制特征增强模块的结构图;
图5为本发明一个具体实施例的原始深度卷积神经网络的结构图;
图6为本发明一个具体实施例的修正残差卷积模块。
具体实施方式
下面结合具体实施例对本发明做进一步详细的描述,但本发明的实施方式不限于此。
实施例一
请参见图1,图1为本发明实施例提供的一种基于可分离卷积和注意力机制的图像分类方法流程图,本实施例的图像分类方法应用于对图像的预处理,包括:
S1、构建原始深度卷积神经网络;
S2、利用训练数据集训练所述原始深度卷积神经网络,得到训练的深度卷积神经网络;
S3、将验证数据集输入到所述训练的深度卷积神经网络,得到分类概率向量;
S4、选取所述分类概率向量中概率最大值对应的分类作为数据预处理的测试结果;
S5、将所述测试结果与所述验证数据集的类别标签进行对比,得到最终分类的准确度。
原始深度卷积神经网络为未经过训练的神经网络,因此需要对应进行训练,本发明在训练时使用Cifar10数据集训练网络。
为了更好的说明本实施例的训练过程,举例进行说明。
首先,对已有的Cifar10数据集中的训练数据集进行数据预处理。Cifar10数据集总共有60000张32×2的RGB彩色图像,其中50000张用于训练构建的网络模型,10000张用于验证构建的网络模型。对50000张训练图像的上下左右各填充4行或列0值,形成50000张40×40的RGB彩色图像。
其次,从50000张40×40的RGB彩色图像中随机采样并截取256张大小为32×32的图像,减RGB三通道均值分别为123.68、116.7、103.94,并作随机水平翻转作为输入Xtrain
然后,不断获取Xtrain训练构建的网络模型,训练时使用采用Nesterov技术的Mini-batch Stochastic Gradient Descent优化器来优化损失函数。mini-batch的大小设置为256,权重衰减率设置为0.0,动量设置为0.9;训练的前130次迭代采用0.01的学习率,137-200次迭代采用0.001的学习率,201-253次迭代采用0.0001的学习率,250次迭代之后损失函数值停止下降,停止训练,得到完成训练的基于可分离卷积和自适应性增强多尺度特征的注意力机制的深度卷积神经网络。
接着,把Cifar10数据集的10000张32×32的RGB验证图像集Xtest送入优化完成的网络模型,得到10000张图像的分类概率向量
最后,将得到的预测概率向量与验证数据集的真实类别标签Ytest进行比对,得到该模型在验证数据集上的最终分类准确度。
本发明的基于可分离卷积和注意力机制的图像分类方法,相比于现有普通卷积不使用注意力机制的网络模型来说能够加快模型收敛速度并提高模型准确度。
图2为本发明一个具体实施例的残差卷积模块的结构图,构建所述残差卷积模块,包括:
依次连接第一卷积层、第一规范化层、第一线性修正单元层、第二卷积层、第二规范化层、第二线性修正单元层、第三卷积层、第三规范化层、逐点加法层,将第一卷积层的输入X与第三规范化层的输出逐元素相加得Y=f(X)+X,将相加后的结果输出到第三线性修正单元层,构建得到所述残差卷积模块。
其中,所述残差卷积模块的输出特征的尺寸和输入X的尺寸均为H×W×C,H、W、C分别为特征图高度、宽度和通道数,第一卷积层卷积核尺寸为1×1、第二卷积层卷积核尺寸为3×3、第三卷积层卷积核尺寸为1×1。
图3为本发明一个具体实施例的可分离卷积模块的结构图,构建所述可分离卷积模块,包括:
依次连接第一可分离卷积层、第一规范化层、第一线性修正单元层、第二可分离卷积层、第二规范化层、第二线性修正单元层、第三可分离卷积层、第三规范化层、逐点加法层,将第一可分离卷积层的输入X与第三规范化层的输出逐元素相加得Y=f(X)+X,将相加后的结果输出到第三线性修正单元层,构建得到所述可分离卷积模块。
其中,所述可分离卷积模块的输出特征的尺寸和输入X的尺寸均为H×W×C,H、W、C分别为特征图高度、宽度和通道数,第一可分离卷积层卷积核尺寸为1×1、第二可分离卷积层卷积核尺寸为3×3、第三可分离卷积层卷积核尺寸为1×1。
图4为本发明一个具体实施例的注意力机制特征增强模块的结构图,构建所述注意力机制特征增强模块,包括:
依次连接第一最大池化层、第一可分离卷积模块、第二最大池化层、第二可分离卷积模块、第三可分离卷积模块、第一上采样卷积层、逐点加法层、第四可分离卷积模块、第二上采样卷积层、第一可分离卷积层、第二可分离卷积层、S型生长曲线激活函数层,所述第一可分离卷积模块的输出端通过第五可分离卷积模块连接到所述逐点加法层的输入端,构建得到所述注意力机制特征增强模块,所述注意力机制特征增强模块利用所述可分离卷积模块构建得到。
其中,输入X接第一最大池化层、第一可分离卷积模块,此时的输出Xskip分别接第二最大池化层输出为Xmax、第五可分离卷积模块输出为Xsepconv。Xmax接第二可分离卷积模块、第三可分离卷积模块和第二上采样卷积层,输出Xupsample加上Xsepconv后再接第四可分离卷积模块、第二上采样卷积层、第一可分离卷积层、第二可分离卷积层、S型生长曲线激活函数层可得到模块的输出A(X),第一可分离卷积层卷积核尺寸为1×1、第二可分离卷积层卷积核尺寸为1×1,所述S型生长曲线激活函数层的尺寸和第一最大池化层的输入X的尺寸均为H×W×C,H、W、C分别为特征图高度、宽度和通道数,且对输入X的尺寸大小无强制性限制,所以在网络模型中可自适应性增强多尺度的特征图,所述第一最大池化层的输入为所述残差卷积模块的输出。
图5为本发明一个具体实施例的原始深度卷积神经网络的结构图,构建所述原始深度卷积神经网络,包括:
在本发明的一个实施例中,所述S13包括:
S131、根据所述残差卷积模块、所述注意力机制特征增强模块得到第一模块、第二模块、第一过渡模块、第三模块、第二过渡模块、第四模块、第五模块;
S132、依次连接所述第一模块、第二模块、第一过渡模块、第三模块、第二过渡模块、第四模块、第五模块,得到所述原始深度卷积神经网络。
优选的,构建输入预处理卷积层,由输入层和1个普通卷积层组成,卷积层的卷积核尺寸为3×3,卷积步长为1×1,卷积核的数量为64。
在本发明的一个实施例中,所述第二模块、所述第三模块、所述第四模块均包括:残差卷积模块、注意力机制特征增强模块、逐点乘加线性修正单元层,其中,该顶层模块输入端,输入为X,连接所述残差卷积模块输出端,输出为Xc,连接所述注意力机制特征增强模块输出端,输出为A(Xc),连接逐点乘加层输出端,输出为(1+A(Xc))×Xc,连接线性修正单元层的该顶层模块输出端,输出为f((1+A(Xc))×Xc),所述第二模块中每个模块的卷积核的数量均为64,所述第三模块中每个模块的卷积核的数量均为128,所述第四模块中每个模块的卷积核的数量均为256。
在本发明的一个实施例中,所述第一过渡模块、所述第二过渡模块均包括:最大池化层和修正残差卷积模块,其中,所述最大池化层的卷积核尺寸为3×3,步长为2×2,所述第一过渡模块中修正残差卷积模块的输入通道数为64,输出通道数为128,所述第二过渡模块中修正残差卷积模块的输入通道数为128,输出通道数为256。
图6为本发明一个具体实施例的修正残差卷积模块,包括:
依次连接第一卷积层、第一规范化层、第一线性修正单元层、第二卷积层、第二规范化层、第二线性修正单元层、第三卷积层、第三规范化层、逐点加法层,将第一卷积层的输入X与第三规范化层的输出逐元素相加得Y=f(X)+X,将相加后的结果输出到第三线性修正单元层,所述第一卷积层的输入端通过第四卷积层连接到所述逐点加法层的输入端,构建得到所述修正残差卷积模块。
其中,所述修正残差卷积模块的输出特征的尺寸和输入X的尺寸均为H×W×C,H、W、C分别为特征图高度、宽度和通道数,第一卷积层卷积核尺寸为1×1、第二卷积层卷积核尺寸为3×3、第三卷积层卷积核尺寸为1×1、第四卷积层卷积核尺寸为1×1。
优选的,修改所述残差卷积模块是由于各大模块之间的卷积核的数量不同,在进行跨层逐点加操作时,会出现维度不匹配的问题,因此需要在所述残差卷积模块中加一层卷积核尺寸为1×1的卷积层来实现维度匹配。
优选的,本发明的效果可以通过以下对照实验进一步说明。
对照实验分别采用普通卷积层代替可分离卷积层、不使用注意力机制的深度卷积网络和本发明方法对Cifar10数据集的10000张验证图像进行分类,实验结果见表1。
表1图像测试数据集分类正确率对比表
由表1可见:
为保证无注意力机制、普通卷积和注意力机制、普通卷积参数量相差不悬殊的情况下比较图像分类正确率,可以看出注意力机制对模型提升了0.78%的正确率。本发明方法是注意力机制和可分离卷积的结合,正确率比使用无注意力机制和普通卷积提升了1.48%的正确率。
经过实验可知,本发明方法在第50次迭代左右就已经达到了注意力机制和普通卷积结合模型第100次迭代的正确率。
通过实验所得特征图,可见特征图的第一行加强了图像纹理特征,第二行加强了背景特征,第三行加强了前景特征,因此从特征图的前后变化可知注意力机制可很大程度上增强特征图中的特征。
综上,本发明提出的基于可分离卷积和注意力机制的图像分类方法,可用于提升深度学习中图像分类模型特征提取的效率和缩减模型的训练参数量,加速模型收敛。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (10)

1.一种基于可分离卷积和注意力机制的图像分类方法,其特征在于,包括:
S1、构建原始深度卷积神经网络;
S2、利用训练数据集训练所述原始深度卷积神经网络,得到训练的深度卷积神经网络;
S3、将验证数据集输入到所述训练的深度卷积神经网络,得到分类概率向量;
S4、选取所述分类概率向量中概率最大值对应的分类作为数据预处理的测试结果;
S5、将所述测试结果与所述验证数据集的类别标签进行对比,得到最终分类的准确度。
2.根据权利要求1所述的基于可分离卷积和注意力机制的图像分类方法,其特征在于,所述S2包括:
S21、对所述训练数据集进行预处理;
S22、从预处理后的训练数据集中采样M张大小为N*N的第一图像,其中,M、N均为正整数;
S23、对所述第一图像依次做RGB三通道均值处理和随机水平翻转处理,得到第二图像;
S24、将所述第二图像输入到所述原始深度卷积神经网络中,采用随机梯度下降法对所述原始深度卷积神经网络进行优化;
S25、重复执行所述步骤S21-S24,若判断所述原始深度卷积神经网络的损失函数值不再下降时,则将优化后的所述原始深度卷积神经网络作为所述训练的深度卷积神经网络。
3.根据权利要求1所述的基于可分离卷积和注意力机制的图像分类方法,其特征在于,所述S1包括:
S11、构建残差卷积模块、构建可分离卷积模块;
S12、根据所述可分离卷积模块构建注意力机制特征增强模块;
S13、根据所述残差卷积模块、所述注意力机制特征增强模块构建原始深度卷积神经网络。
4.根据权利要求3所述的基于可分离卷积和注意力机制的图像分类方法,其特征在于,构建所述残差卷积模块包括:
依次连接第一卷积层、第一规范化层、第一线性修正单元层、第二卷积层、第二规范化层、第二线性修正单元层、第三卷积层、第三规范化层、逐点加法层,将第一卷积层的输入与第三规范化层的输出逐元素相加,将相加后的结果输出到第三线性修正单元层,构建得到所述残差卷积模块,其中,所述残差卷积模块的输出特征的尺寸和输入的尺寸均为H×W×C,H、W、C分别为特征图高度、宽度和通道数,第一卷积层卷积核尺寸为1×1、第二卷积层卷积核尺寸为3×3、第三卷积层卷积核尺寸为1×1。
5.根据权利要求3所述的基于可分离卷积和注意力机制的图像分类方法,其特征在于,构建所述可分离卷积模块包括:
依次连接第一可分离卷积层、第一规范化层、第一线性修正单元层、第二可分离卷积层、第二规范化层、第二线性修正单元层、第三可分离卷积层、第三规范化层、逐点加法层,将第一可分离卷积层的输入与第三规范化层的输出逐元素相加,将相加后的结果输出到第三线性修正单元层,构建得到所述可分离卷积模块,其中,所述可分离卷积模块的输出特征的尺寸和输入的尺寸均为H×W×C,H、W、C分别为特征图高度、宽度和通道数,第一可分离卷积层卷积核尺寸为1×1、第二可分离卷积层卷积核尺寸为3×3、第三可分离卷积层卷积核尺寸为1×1。
6.根据权利要求3所述的基于可分离卷积和注意力机制的图像分类方法,其特征在于,构建所述注意力机制特征增强模块包括:
依次连接第一最大池化层、第一可分离卷积模块、第二最大池化层、第二可分离卷积模块、第三可分离卷积模块、第一上采样卷积层、逐点加法层、第四可分离卷积模块、第二上采样卷积层、第一可分离卷积层、第二可分离卷积层、S型生长曲线激活函数层,所述第一可分离卷积模块的输出端通过第五可分离卷积模块连接到所述逐点加法层的输入端,构建得到所述注意力机制特征增强模块,其中,第一可分离卷积层卷积核尺寸为1×1、第二可分离卷积层卷积核尺寸为1×1,所述S型生长曲线激活函数层的尺寸和第一最大池化层的输入的尺寸均为H×W×C,H、W、C分别为特征图高度、宽度和通道数,所述第一最大池化层的输入为所述残差卷积模块的输出。
7.根据权利要求3所述的基于可分离卷积和注意力机制的图像分类方法,其特征在于,所述S13包括:
S131、根据所述残差卷积模块、所述注意力机制特征增强模块得到第一模块、第二模块、第一过渡模块、第三模块、第二过渡模块、第四模块、第五模块;
S132、依次连接所述第一模块、第二模块、第一过渡模块、第三模块、第二过渡模块、第四模块、第五模块,得到所述原始深度卷积神经网络。
8.根据权利要求7所述的基于可分离卷积和注意力机制的图像分类方法,其特征在于,所述第二模块、所述第三模块、所述第四模块均包括:残差卷积模块、注意力机制特征增强模块、逐点乘加线性修正单元层,其中,所述残差卷积模块连接所述逐点乘加线性修正单元层,所述残差卷积模块的输出端通过所述注意力机制特征增强模块连接到所述逐点乘加线性修正单元层的输入端,所述第二模块中每个模块的卷积核的数量均为64,所述第三模块中每个模块的卷积核的数量均为128,所述第四模块中每个模块的卷积核的数量均为256。
9.根据权利要求7所述的基于可分离卷积和注意力机制的图像分类方法,其特征在于,所述第一过渡模块、所述第二过渡模块均包括:最大池化层和修正残差卷积模块,其中所述最大池化层的卷积核尺寸为3×3,步长为2×2,所述第一过渡模块中修正残差卷积模块的输入通道数为64,输出通道数为128,所述第二过渡模块中修正残差卷积模块的输入通道数为128,输出通道数为256,所述修正残差卷积模块为在所述残差卷积模块的旁路增加一层卷积层,其中,所述卷积层卷积核尺寸为1×1。
10.根据权利要求7所述的基于可分离卷积和注意力机制的图像分类方法,其特征在于,所述第五模块包括:依次连接的第一残差卷积模块、第二残差卷积模块、全局池化层、全连接层、Softmax激活函数分类层,其中所述第一残差卷积模块卷积核数量和所述第二残差卷积模块卷积核数量均为256,所述全局池化层的输出通道数为256,所述全连接层的输出通道数为10,所述Softmax激活函数分类层的输出通道数为10。
CN201810517380.4A 2018-05-25 2018-05-25 一种基于可分离卷积和注意力机制的图像分类方法 Active CN108985317B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810517380.4A CN108985317B (zh) 2018-05-25 2018-05-25 一种基于可分离卷积和注意力机制的图像分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810517380.4A CN108985317B (zh) 2018-05-25 2018-05-25 一种基于可分离卷积和注意力机制的图像分类方法

Publications (2)

Publication Number Publication Date
CN108985317A true CN108985317A (zh) 2018-12-11
CN108985317B CN108985317B (zh) 2022-03-01

Family

ID=64542147

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810517380.4A Active CN108985317B (zh) 2018-05-25 2018-05-25 一种基于可分离卷积和注意力机制的图像分类方法

Country Status (1)

Country Link
CN (1) CN108985317B (zh)

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109344920A (zh) * 2018-12-14 2019-02-15 汇纳科技股份有限公司 顾客属性预测方法、存储介质、系统及设备
CN109934249A (zh) * 2018-12-14 2019-06-25 网易(杭州)网络有限公司 数据处理方法、装置、介质和计算设备
CN110059710A (zh) * 2018-01-18 2019-07-26 Aptiv技术有限公司 用于利用卷积神经网络进行图像分类的装置和方法
CN110322509A (zh) * 2019-06-26 2019-10-11 重庆邮电大学 基于层级类激活图的目标定位方法、系统及计算机设备
CN110427867A (zh) * 2019-07-30 2019-11-08 华中科技大学 基于残差注意力机制的面部表情识别方法及系统
CN110544221A (zh) * 2019-09-05 2019-12-06 迪爱斯信息技术股份有限公司 训练方法及装置、去雨方法、终端设备、存储介质
CN111008924A (zh) * 2019-12-02 2020-04-14 西安交通大学深圳研究院 一种图像处理方法、装置、电子设备及存储介质
CN111209972A (zh) * 2020-01-09 2020-05-29 中国科学院计算技术研究所 基于混合连通性深度卷积神经网络的图像分类方法及系统
CN111488893A (zh) * 2019-01-25 2020-08-04 银河水滴科技(北京)有限公司 一种图像分类方法及装置
CN111639652A (zh) * 2020-04-28 2020-09-08 博泰车联网(南京)有限公司 一种图像处理方法、装置及计算机存储介质
CN111797717A (zh) * 2020-06-17 2020-10-20 电子科技大学 一种高速高精度的sar图像船只检测方法
CN112132817A (zh) * 2020-09-29 2020-12-25 汕头大学 一种混合注意力机制的眼底图像视网膜血管分割方法
CN112241765A (zh) * 2020-10-26 2021-01-19 三亚中科遥感研究所 一种基于多尺度卷积和注意力机制的图像分类模型及方法
CN112364911A (zh) * 2020-11-06 2021-02-12 东北石油大学 电阻率成像的反演方法、装置及存储介质
CN112418261A (zh) * 2020-09-17 2021-02-26 电子科技大学 一种基于先验原型注意力机制的人体图像多属性分类方法
CN112465790A (zh) * 2020-12-03 2021-03-09 天津大学 基于多尺度卷积和三线性全局注意力的表面缺陷检测方法
CN112541409A (zh) * 2020-11-30 2021-03-23 北京建筑大学 一种融入注意力的残差网络表情识别方法
CN112651420A (zh) * 2019-10-11 2021-04-13 百度(美国)有限责任公司 训练图像分类模型的系统及方法和对图像进行分类的方法
CN112836696A (zh) * 2019-11-22 2021-05-25 搜狗(杭州)智能科技有限公司 一种文字数据的检测方法、装置及电子设备
CN115049969A (zh) * 2022-08-15 2022-09-13 山东百盟信息技术有限公司 一种改进YOLOv3和BiConvLSTM的不良视频检测方法
CN116660982A (zh) * 2023-08-02 2023-08-29 东北石油大学三亚海洋油气研究院 一种基于注意力卷积神经网络的全波形反演方法
CN116758631A (zh) * 2023-06-13 2023-09-15 孟冠宇 大数据驱动的行为智能分析方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070292047A1 (en) * 2006-06-14 2007-12-20 Guofang Jiao Convolution filtering in a graphics processor
CN104866900A (zh) * 2015-01-29 2015-08-26 北京工业大学 一种反卷积神经网络训练方法
CN105843928A (zh) * 2016-03-28 2016-08-10 西安电子科技大学 基于双层矩阵分解的推荐方法
CN106997608A (zh) * 2016-01-22 2017-08-01 五八同城信息技术有限公司 一种生成光晕效果图的方法及装置
US20170323481A1 (en) * 2015-07-17 2017-11-09 Bao Tran Systems and methods for computer assisted operation
CN107578060A (zh) * 2017-08-14 2018-01-12 电子科技大学 一种基于可判别区域的深度神经网络用于菜品图像分类的方法
CN107948529A (zh) * 2017-12-28 2018-04-20 北京麒麟合盛网络技术有限公司 图像处理方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070292047A1 (en) * 2006-06-14 2007-12-20 Guofang Jiao Convolution filtering in a graphics processor
CN104866900A (zh) * 2015-01-29 2015-08-26 北京工业大学 一种反卷积神经网络训练方法
US20170323481A1 (en) * 2015-07-17 2017-11-09 Bao Tran Systems and methods for computer assisted operation
CN106997608A (zh) * 2016-01-22 2017-08-01 五八同城信息技术有限公司 一种生成光晕效果图的方法及装置
CN105843928A (zh) * 2016-03-28 2016-08-10 西安电子科技大学 基于双层矩阵分解的推荐方法
CN107578060A (zh) * 2017-08-14 2018-01-12 电子科技大学 一种基于可判别区域的深度神经网络用于菜品图像分类的方法
CN107948529A (zh) * 2017-12-28 2018-04-20 北京麒麟合盛网络技术有限公司 图像处理方法及装置

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
FRANCOIS CHOLLET: "Xception: Deep Learning with Depthwise Separable Convolutions", 《ARXIV:1610.02357V3》 *
ŁUKASZ KAISER: "Depthwise Separable Convolutions for Neural", 《ARXIV:1706.03059V2》 *
MADDOCK: "深度可分离卷积结构(depthwise separable convolution)计算复杂度分析", 《HTTPS://WWW.CNBLOGS.COM/ADONG7639/P/7918527.HTML》 *
深度学习于NLP: "模型汇总17 基于Depthwise Separable Convolutions的Seq2Seq模型_SliceNet原理解析", 《HTTPS://ZHUANLAN.ZHIHU.COM/P/27552230》 *
赵刚强: "基于视觉的大范围头部姿态跟踪关键技术研究", 《中国优秀博硕士学位论文全文数据库(博士)_信息科技辑》 *

Cited By (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110059710A (zh) * 2018-01-18 2019-07-26 Aptiv技术有限公司 用于利用卷积神经网络进行图像分类的装置和方法
CN109344920B (zh) * 2018-12-14 2021-02-02 汇纳科技股份有限公司 顾客属性预测方法、存储介质、系统及设备
CN109934249A (zh) * 2018-12-14 2019-06-25 网易(杭州)网络有限公司 数据处理方法、装置、介质和计算设备
CN109344920A (zh) * 2018-12-14 2019-02-15 汇纳科技股份有限公司 顾客属性预测方法、存储介质、系统及设备
CN111488893B (zh) * 2019-01-25 2023-05-30 银河水滴科技(北京)有限公司 一种图像分类方法及装置
CN111488893A (zh) * 2019-01-25 2020-08-04 银河水滴科技(北京)有限公司 一种图像分类方法及装置
CN110322509A (zh) * 2019-06-26 2019-10-11 重庆邮电大学 基于层级类激活图的目标定位方法、系统及计算机设备
CN110427867A (zh) * 2019-07-30 2019-11-08 华中科技大学 基于残差注意力机制的面部表情识别方法及系统
CN110544221A (zh) * 2019-09-05 2019-12-06 迪爱斯信息技术股份有限公司 训练方法及装置、去雨方法、终端设备、存储介质
CN110544221B (zh) * 2019-09-05 2022-03-29 迪爱斯信息技术股份有限公司 训练方法及装置、去雨方法、终端设备、存储介质
CN112651420A (zh) * 2019-10-11 2021-04-13 百度(美国)有限责任公司 训练图像分类模型的系统及方法和对图像进行分类的方法
CN112836696A (zh) * 2019-11-22 2021-05-25 搜狗(杭州)智能科技有限公司 一种文字数据的检测方法、装置及电子设备
CN111008924A (zh) * 2019-12-02 2020-04-14 西安交通大学深圳研究院 一种图像处理方法、装置、电子设备及存储介质
CN111008924B (zh) * 2019-12-02 2023-09-12 西安交通大学深圳研究院 一种图像处理方法、装置、电子设备及存储介质
CN111209972A (zh) * 2020-01-09 2020-05-29 中国科学院计算技术研究所 基于混合连通性深度卷积神经网络的图像分类方法及系统
CN111639652A (zh) * 2020-04-28 2020-09-08 博泰车联网(南京)有限公司 一种图像处理方法、装置及计算机存储介质
CN111797717A (zh) * 2020-06-17 2020-10-20 电子科技大学 一种高速高精度的sar图像船只检测方法
CN111797717B (zh) * 2020-06-17 2022-03-15 电子科技大学 一种高速高精度的sar图像船只检测方法
CN112418261A (zh) * 2020-09-17 2021-02-26 电子科技大学 一种基于先验原型注意力机制的人体图像多属性分类方法
CN112418261B (zh) * 2020-09-17 2022-05-03 电子科技大学 一种基于先验原型注意力机制的人体图像多属性分类方法
CN112132817A (zh) * 2020-09-29 2020-12-25 汕头大学 一种混合注意力机制的眼底图像视网膜血管分割方法
CN112132817B (zh) * 2020-09-29 2022-12-06 汕头大学 一种混合注意力机制的眼底图像视网膜血管分割方法
CN112241765A (zh) * 2020-10-26 2021-01-19 三亚中科遥感研究所 一种基于多尺度卷积和注意力机制的图像分类模型及方法
CN112241765B (zh) * 2020-10-26 2024-04-26 三亚中科遥感研究所 一种基于多尺度卷积和注意力机制的图像分类模型及方法
CN112364911A (zh) * 2020-11-06 2021-02-12 东北石油大学 电阻率成像的反演方法、装置及存储介质
CN112541409A (zh) * 2020-11-30 2021-03-23 北京建筑大学 一种融入注意力的残差网络表情识别方法
CN112541409B (zh) * 2020-11-30 2021-09-14 北京建筑大学 一种融入注意力的残差网络表情识别方法
CN112465790A (zh) * 2020-12-03 2021-03-09 天津大学 基于多尺度卷积和三线性全局注意力的表面缺陷检测方法
CN115049969A (zh) * 2022-08-15 2022-09-13 山东百盟信息技术有限公司 一种改进YOLOv3和BiConvLSTM的不良视频检测方法
CN116758631A (zh) * 2023-06-13 2023-09-15 孟冠宇 大数据驱动的行为智能分析方法及系统
CN116758631B (zh) * 2023-06-13 2023-12-22 杭州追形视频科技有限公司 大数据驱动的行为智能分析方法及系统
CN116660982A (zh) * 2023-08-02 2023-08-29 东北石油大学三亚海洋油气研究院 一种基于注意力卷积神经网络的全波形反演方法
CN116660982B (zh) * 2023-08-02 2023-09-29 东北石油大学三亚海洋油气研究院 一种基于注意力卷积神经网络的全波形反演方法

Also Published As

Publication number Publication date
CN108985317B (zh) 2022-03-01

Similar Documents

Publication Publication Date Title
CN108985317A (zh) 一种基于可分离卷积和注意力机制的图像分类方法
CN113240580B (zh) 一种基于多维度知识蒸馏的轻量级图像超分辨率重建方法
CN107220657B (zh) 一种面向小数据集的高分辨率遥感影像场景分类的方法
CN112699937B (zh) 基于特征引导网络的图像分类与分割的装置、方法、设备及介质
CN108171701B (zh) 基于u网络和对抗学习的显著性检测方法
CN113221969A (zh) 一种基于物联网感知的双特征融合的语义分割系统及方法
CN109461157A (zh) 基于多级特征融合及高斯条件随机场的图像语义分割方法
CN109543502A (zh) 一种基于深度多尺度神经网络的语义分割方法
CN108510012A (zh) 一种基于多尺度特征图的目标快速检测方法
CN111079795A (zh) 基于cnn的分片多尺度特征融合的图像分类方法
CN109087258A (zh) 一种基于深度学习的图像去雨方法及装置
CN109948692B (zh) 基于多颜色空间卷积神经网络及随机森林的计算机生成图片检测方法
CN108765512B (zh) 一种基于多层级特征的对抗图像生成方法
CN107103285A (zh) 基于卷积神经网络的人脸深度预测方法
CN109740451A (zh) 基于重要性加权的道路场景图像语义分割方法
CN113658189B (zh) 一种跨尺度特征融合的实时语义分割方法和系统
CN115620010A (zh) 一种rgb-t双模态特征融合的语义分割方法
CN114842216A (zh) 一种基于小波变换的室内rgb-d图像语义分割方法
CN111652273A (zh) 一种基于深度学习的rgb-d图像分类方法
CN112861727A (zh) 一种基于混合深度可分离卷积的实时语义分割方法
CN110633706B (zh) 一种基于金字塔网络的语义分割方法
CN117474796B (zh) 一种图像生成方法、装置、设备及计算机可读存储介质
CN113449808B (zh) 多源图文信息分类方法及其相应的装置、设备、介质
CN111783688B (zh) 一种基于卷积神经网络的遥感图像场景分类方法
CN116862883A (zh) 基于图像语义分割的混凝土坍落度检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant