CN111898709B - 一种图像分类方法及设备 - Google Patents

一种图像分类方法及设备 Download PDF

Info

Publication number
CN111898709B
CN111898709B CN202011058357.7A CN202011058357A CN111898709B CN 111898709 B CN111898709 B CN 111898709B CN 202011058357 A CN202011058357 A CN 202011058357A CN 111898709 B CN111898709 B CN 111898709B
Authority
CN
China
Prior art keywords
residual error
attention
module
model
convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011058357.7A
Other languages
English (en)
Other versions
CN111898709A (zh
Inventor
蒋杰
杨君燕
许辉
孙家豪
刘阳
康来
魏迎梅
谢毓湘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202011058357.7A priority Critical patent/CN111898709B/zh
Publication of CN111898709A publication Critical patent/CN111898709A/zh
Application granted granted Critical
Publication of CN111898709B publication Critical patent/CN111898709B/zh
Priority to JP2021124754A priority patent/JP7013057B1/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本说明书一个或多个实施例提供的一种图像分类方法及设备,包括:建立残差网络模型,将所述残差网络模型的原始边径中的标准卷积替换为空洞卷积,生成空洞残差网络主干;基于注意力机制模型的通道注意力模块及空间注意力模块,生成所述残差网络模型的权重层;生成由所述空洞残差网络主干及所述权重层组成的残差注意力机制模型,对所述残差注意力机制模型进行训练;将图像数据输入所述残差注意力机制模型,对所述图像数据进行识别分类。本说明书一个或多个实施例通过在注意力模型中融入残差机制,在不增加参数的同时使注意力机制内部的上下文信息相结合,帮助注意力模型更准确地提取图像分类任务感兴趣的特征,从而提高了图像分类的效率及准确率。

Description

一种图像分类方法及设备
技术领域
本说明书一个或多个实施例涉及图像识别技术领域,尤其涉及一种图像分类方法及设备。
背景技术
随着社会信息化程度提高,图像逐渐取代文本成为人类传递和存储信息的重要载体。图像所包含的信息无序化和庞大的体量对图像信息的处理提出了巨大的挑战。如何对图像进行有效的分类,从而提取出我们所需要的有用的信息已经成为计算机视觉领域一个备受关注的课题。
然而随着社会的发展,图像数据量呈现指数级增长,应用范围不断地扩大,现有技术中图像分类的网络结构和算法远远达不到完美且高效地对不同种类、不同性质且杂乱无章的图像数据进行分类的要求,现有图像分类方式的效率和准确率还有待提高。
发明内容
有鉴于此,本说明书一个或多个实施例的目的在于提出一种图像分类方法及设备,以解决图像分类效率及准确率不高的问题。
基于上述目的,本说明书一个或多个实施例提供了一种图像分类方法,包括:
建立残差网络模型,将所述残差网络模型的原始边径中的标准卷积替换为空洞卷积,生成空洞残差网络主干;
基于注意力机制模型的通道注意力模块及空间注意力模块,生成所述残差网络模型的权重层;
生成由所述空洞残差网络主干及所述权重层组成的残差注意力机制模型,对所述残差注意力机制模型进行训练;
将图像数据输入所述残差注意力机制模型,对所述图像数据进行识别分类。
在一些实施方式中,所述生成所述残差网络模型的权重层,包括:
基于所述通道注意力模块及所述空间注意力模块,生成通道注意力权重层及空间注意力权重层,将所述通道注意力权重层及所述空间注意力权重层串联顺序排布。
在一些实施方式中,所述通道注意力模块与残差网络边径进行矩阵加和,生成所述通道注意力权重层。
在一些实施方式中,所述通道注意力模块与残差网络边径进行矩阵加和之前,还包括:
对所述通道注意力模块进行反卷积操作。
在一些实施方式中,所述将所述残差网络模型的原始边径中的标准卷积替换为空洞卷积,包括:
将所述原始边径中的标准卷积替换为空洞卷积串联批量归一化串联线性整流激活函数的卷积层。
基于同一构思,本说明书一个或多个实施例还提供了一种图像分类设备,包括:
主干模块,建立残差网络模型,将所述残差网络模型的原始边径中的标准卷积替换为空洞卷积,生成空洞残差网络主干;
权重模块,基于注意力机制模型的通道注意力模块及空间注意力模块,生成所述残差网络模型的权重层;
生成模块,生成由所述空洞残差网络主干及所述权重层组成的残差注意力机制模型,对所述残差注意力机制模型进行训练;
分类模块,将图像数据输入所述残差注意力机制模型,对所述图像数据进行识别分类。
在一些实施方式中,所述权重模块生成所述残差网络模型的权重层,包括:
基于所述通道注意力模块及所述空间注意力模块,生成通道注意力权重层及空间注意力权重层,将所述通道注意力权重层及所述空间注意力权重层串联顺序排布。
在一些实施方式中,所述权重模块通道注意力模块与残差网络边径进行矩阵加和,生成所述通道注意力权重层。
在一些实施方式中,所述权重模块通道注意力模块与残差网络边径进行矩阵加和之前,还包括:
对所述通道注意力模块进行反卷积操作。
在一些实施方式中,所述主干模块将所述残差网络模型的原始边径中的标准卷积替换为空洞卷积,包括:
将所述原始边径中的标准卷积替换为空洞卷积串联批量归一化串联线性整流激活函数的卷积层。
从上面所述可以看出,本说明书一个或多个实施例提供的一种图像分类方法及设备,包括:建立残差网络模型,将所述残差网络模型的原始边径中的标准卷积替换为空洞卷积,生成空洞残差网络主干;基于注意力机制模型的通道注意力模块及空间注意力模块,生成所述残差网络模型的权重层;生成由所述空洞残差网络主干及所述权重层组成的残差注意力机制模型,对所述残差注意力机制模型进行训练;将图像数据输入所述残差注意力机制模型,对所述图像数据进行识别分类。本说明书一个或多个实施例通过在注意力模型中融入残差机制,在不增加参数的同时使注意力机制内部的上下文信息相结合,帮助注意力模型更准确地提取图像分类任务感兴趣的特征,从而提高了图像分类的效率及准确率,同时通过本方案改进的注意力机制模型的训练时间缩短为原来的一半左右,训练效率大大提高。
附图说明
为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书一个或多个实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书一个或多个实施例提出的一种图像分类方法的流程示意图;
图2为本说明书一个或多个实施例提出的残差网络模型应用原理示意图;
图3为本说明书一个或多个实施例提出的一种空洞残差网络主干残差块示意图;
图4为本说明书一个或多个实施例提出的一种注意力机制模型的结构示意图;
图5为本说明书一个或多个实施例提出的一种残差注意力机制模型(Dilated-CBAM)的结构示意图;
图6为本说明书一个或多个实施例提出的一种残差通道注意力模块的结构示意图;
图7为本说明书一个或多个实施例提出的另一种残差通道注意力模块的结构示意图;
图8为本说明书一个或多个实施例提出的一种图像分类设备的结构示意图。
具体实施方式
为使本说明书的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本说明书进一步详细说明。
需要说明的是,除非另外定义,本说明书实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件、物件或者方法步骤涵盖出现在该词后面列举的元件、物件或者方法步骤及其等同,而不排除其他元件、物件或者方法步骤。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
如背景技术部分所述,图像分类具体是指计算机在相关算法的辅助下利用输入数据判别图像的种类,作为研究目标检测任务、图像分割任务等的重要基础,具有比较高的学术研究与科技应用价值,计算机视觉领域大部分研究工作都与图像分类任务相关。随着深度学习的跃进,图像分类技术在硬件层面和软件层面上都有了显著提高,并在许多现有大数据集上达到了超越人类肉眼分辨图像能力的水准,越来越多的研究者也开始重视对图像分类和相关的计算机视觉领域的研究。
图像物体分类作为计算机视觉中较为热门的研究方向,在多个领域得到广泛应用,包括安全防御领域的智能视频分析、行人检测、人脸识别;交通监察领域的逆行检测、车辆计数、交通场景物体识别、车牌检测与识别;物流管理统计领域的物体识别计数、商品识别分类、产品质量评估,以及相册智能分析领域的基于图片内容的图像检索、相册自动归类、人像检测,物像检测等。
然而,随着图像数据量的增长,应用范围的不断地扩大,当前存在的网络结构和算法远远达不到完美且高效地对不同种类,不同性质且杂乱无章的图像数据进行分类的要求,所以研究者们还需不断地对卷积神经网络架构进行探索改进,以提高图像分类的效率和准确率。
结合上述实际情况,通过在注意力模型中融入残差机制,在注意力模型中应用残差边径,执行注意力模块中的同等映射,在不增加参数的同时使注意力机制内部的上下文信息相结合,帮助注意力模型更准确地提取图像分类任务感兴趣的特征,从而提高了图像分类的效率及准确率,同时通过本方案改进的注意力机制模型的训练时间缩短为原来的一半左右,训练效率大大提高。
参考图1所示,为本说明书一个实施例的一种图像分类方法的流程示意图,具体包括以下步骤:
步骤101,建立残差网络模型,将所述残差网络模型的原始边径中的标准卷积替换为空洞卷积,生成空洞残差网络主干。
本步骤旨在,对现有残差网络进行改进,生成空洞残差网络主干。其中,残差网络(ResNet)是在2015年的ImageNet(是一个用于视觉对象识别软件研究的大型可视化数据库)大规模视觉识别竞赛(ImageNet Large Scale Visual Recognition Challenge,ILSVRC)中公布的图像分类和物体识别模型。残差网络的特点是容易优化,并且能够通过增加相当的深度来提高准确率。其内部的残差块使用了跳跃连接,缓解了在深度神经网络中增加深度带来的梯度消失问题。如图2所示,为残差网络模型应用原理示意图,残差即为观测值与估计值之间的差,即
Figure 472523DEST_PATH_IMAGE001
Figure 541716DEST_PATH_IMAGE002
为观测值,
Figure 565035DEST_PATH_IMAGE003
为估计值,
Figure 587087DEST_PATH_IMAGE004
即为残差。当前,会对
Figure 393369DEST_PATH_IMAGE005
中的
Figure 302419DEST_PATH_IMAGE003
作标准卷积操作,即对原始边径(图示中为边径)构建标准卷积的卷积层,用以提纯残差边径中输入的特征图内的信息,优化残差网络效果。其中,标准卷积即为一般卷积在数学上用通俗的话来说就是输入矩阵与卷积核(卷积核也是矩阵)进行对应元素相乘并求和,所以一次卷积的结果的输出是一个数,最后对整个输入输入矩阵进行遍历,最终得到一个结果矩阵,一般卷积的二维卷积核最常见的就是3*3的卷积核,也可以根据网络设计5*5或者7*7。
之后,空洞卷积即为扩张卷积(Dilated Convolution)也被称为膨胀卷积,是在标准的卷积核中注入空洞,以此来增加模型的感受野(reception field)。相比于一般卷积扩张卷积增加了扩张率参数,扩张率指的是卷积核的点的间隔数量。假设将扩张率置于一般卷积中,其扩张率值为1,表示卷积核的点之间相邻,而在空洞卷积中,扩张率并不为1,以扩张率为2为例,表示卷积核的点之间间隔一个像素,即扩张率为2的空洞卷积的3*3卷积核与标准卷积5*5卷积核具有相同的感受野。由于残差网络前期得到的输入图像的特征图一般提取的是图像的轮廓信息,而空洞卷积所带来的扩大感受野的特性能更好地筛选初期特征图的有用信息,使初期提取图像轮廓、边缘的特征图和后期提取图像细节信息的特征图相结合能够更好地归纳统筹图像信息,从而提高网络图像分类的效果。
之后,对于标准卷积替换为空洞卷积,现有的标准卷积的卷积层一般为卷积到批量归一化(BN,Batch Normalization)到Sigmoid激活函数,即
Figure 434323DEST_PATH_IMAGE006
卷积层。其中,Sigmoid激活函数是一个在生物学中常见的S型函数。替换的方式可以为仅将标准卷积卷积层中的conv替换为空洞卷积dilated-conv,即卷积层为
Figure 962912DEST_PATH_IMAGE007
;或是为了加快计算速度和收敛速度,在替换卷积的同时,将激活函数也进行替换,替换为ReLU(线性整流函数,Rectified Linear Unit)激活函数,即卷积层为
Figure 838464DEST_PATH_IMAGE008
;还可以将激活函数替换为其他激活函数如ELU激活函数、SELU激活函数等。最终生成空洞残差网络主干,如图3所示,为具体实施例中的一种空洞残差网络主干残差块示意图,其中,
Figure 867600DEST_PATH_IMAGE009
为残差函数中的估计值。
步骤102,基于注意力机制模型的通道注意力模块及空间注意力模块,生成所述残差网络模型的权重层。
本步骤旨在,将注意力机制模型中的通道注意力模块及空间注意力模块设置成为残差网络模型的权重层。其中,注意力机制模型(CBAM,Convolutional Block AttentionModule),如图4所示,是一种结合了空间(spatial)和通道(channel)的注意力机制模块,其中圈内“×”代表矩阵element-wise点乘操作。本具体实施例利用CBAM模型中的通道注意力机制,对通道进行最大池化操作和均值池化操作,可以将得到的特征图输入多层感知机(shared MLP),对得到的两份特征图采用elementwise加和操作,通过sigmoid激活函数使卷积层输出的特征图非线性化,扩大通道注意力的表达能力,从而获取更有效的通道权重。
在具体实施例中,由于是基于通道注意力模块及空间注意力模块,其会生成两个权重层,用于设置于空洞残差网络主干中。其设置的方式可以是直接将两个模块摘取出来作为权重层,或是将模块摘取出来后,再对模块进行进一步的调整之后再形成权重层,例如,对于通道注意力模块可以通过标准卷积的残差边径与通道注意力模块进行矩阵加和处理,生成对应的权重层;或是通过与如同上一步骤类似的空洞残差边径进行矩阵加和,生成对应的权重层。通道注意力权重层在
之后,对于生成的两个权重层,其可以是并联关系,也可以是串联关系,在串联关系中,可以是通道注意力权重层在前,也可以是空间注意力权重层在前。
步骤103,生成由所述空洞残差网络主干及所述权重层组成的残差注意力机制模型,对所述残差注意力机制模型进行训练。
本步骤旨在,将生成的主干与权重层结合生成残差注意力机制模型并训练。其中,如图5所示,为具体实施例中一种残差注意力机制模型(Dilated-CBAM)的结构示意图,其中,圈内“×”代表矩阵element-wise点乘操作,圈内“+”代表矩阵加和element-wise操作。并对Dilated-CBAM模型进行图像分类的模型训练。
在具体应用场景中,为了验证Dilated-CBAM模型的图像分类效果,进而利用Cifar-10数据集(一种图像数据集,与CIFAR-100类似,同为带有标签的数据集,出自于规模更大的一个8千万张小型图片的数据集)的训练集训练优化后的Dilated-CBAM模型,用Cifar-10数据集的测试集验证训练后得到的网络及权重对同性质图像数据的分类准确率和收敛能力,如表1所示。其中,Train acc表示模型在Cifar-10数据集训练集上的分类成功率;Test acc表示模型在Cifar-10数据集测试集上的分类成功率;EPOCH表示模型时期或周期,当一个完整的数据集通过了神经网络一次并且返回了一次,这个过程称为一次epoch。其中的模型依次分别为18层残差网络模型(ResNet-18);现有CBAM模型;CBAM模型嵌入空洞卷积实验模型;Dilated-CBAM模型框架,其中通道注意力模块为CBAM模型中原始通道注意力模块;Dilated-CBAM模型框架,其中通道注意力模块为通道注意力模块与残差网络边径结合的残差通道注意力模块;Dilated-CBAM模型框架,其中通道注意力模块为通道注意力模块与空洞残差网络边径结合的空洞残差通道注意力模块;Dilated-CBAM模型框架,将其中的空洞残差网络主干中的空洞卷积替换为分组卷积(groups conv);Dilated-CBAM模型框架,嵌入ELU激活函数;Dilated-CBAM模型框架,嵌入SELU激活函数。可以看出,Dilated-CBAM模型,当其中通道注意力模块为通道注意力模块与残差网络边径结合的残差通道注意力模块时(即表中第五排数据),在训练集上的分类正确率达到98.7%,在测试集上的分类正确率达到93.5%,而其收敛速度仅为10个周期。
表1. 模型实验数据分类成功率汇总表
Figure 904826DEST_PATH_IMAGE010
步骤104,将图像数据输入所述残差注意力机制模型,对所述图像数据进行识别分类。
本步骤旨在,将待识别的图像输入训练好的残差注意力机制模型,通过残差注意力机制模型对图像进行分类识别。其中,图像数据其可以为通过外部设备获取得到的,例如:摄像机照相机等;还可以是用户通过外部网络获取到的;还可以是系统或服务器自身数据库存储的等等。
对于识别出的分类结果,可以以存储、展示或再加工的方式处理识别分类结果,这里的分类结果可以是单一图像具体属于的类型,或是多幅图像之间的分类处理结果。根据不同的应用场景和实施需要,具体的对于识别分类结果的输出方式可以灵活选择。
例如,对于本实施例的方法在单一设备上执行的应用场景,可以将识别分类结果直接在当前设备的显示部件(显示器、投影仪等)上以显示的方式输出,使得当前设备的操作者能够从显示部件上直接看到识别分类结果的内容。
又如,对于本实施例的方法在多个设备组成的系统上执行的应用场景,可以将识别分类结果通过任意的数据通信方式(有线连接、NFC、蓝牙、wifi、蜂窝移动网络等)发送至系统内的其他作为接收方的预设设备上,以使得接收到识别分类结果的预设设备可以对其进行后续处理。可选的,该预设设备可以是预设的服务器,服务器一般设置在云端,作为数据的处理和存储中心,其能够对识别分类结果进行存储和分发;其中,分发的接收方是终端设备,该些终端设备的持有者或操作者可以是当前用户、图像所有的机构或个人、与图像展示的相关单位、个人、网站等等。
再如,对于本实施例的方法在多个设备组成的系统上执行的应用场景时,可以将识别分类结果通过任意的数据通信方式直接发送至预设的终端设备,终端设备可以是前述段落列举中的一种或多种。
通过应用本说明书一个或多个实施例提供的一种图像分类方法,包括:建立残差网络模型,将所述残差网络模型的原始边径中的标准卷积替换为空洞卷积,生成空洞残差网络主干;基于注意力机制模型的通道注意力模块及空间注意力模块,生成所述残差网络模型的权重层;生成由所述空洞残差网络主干及所述权重层组成的残差注意力机制模型,对所述残差注意力机制模型进行训练;将图像数据输入所述残差注意力机制模型,对所述图像数据进行识别分类。本说明书一个或多个实施例通过在注意力模型中融入残差机制,在不增加参数的同时使注意力机制内部的上下文信息相结合,帮助注意力模型更准确地提取图像分类任务感兴趣的特征,从而提高了图像分类的效率及准确率,同时通过本方案改进的注意力机制模型的训练时间缩短为原来的一半左右,训练效率大大提高。
需要说明的是,本说明书一个或多个实施例的方法可以由单个设备执行,例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下,由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本说明书一个或多个实施例的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成所述的方法。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
在本说明书的可选实施例中,为了使图像识别的效果达到最佳效果。所述生成所述残差网络模型的权重层,包括:
基于所述通道注意力模块及所述空间注意力模块,生成通道注意力权重层及空间注意力权重层,将所述通道注意力权重层及所述空间注意力权重层串联顺序排布。
其中,串联顺序排布即为如图5所示的结构示意图中通道注意力模块及空间注意力模块的排列方式。在具体应用场景中,特征图会先经过通道注意力模块进行处理,处理结果再输入空间注意力模块进行处理,之后输出结果再与残差边径进行矩阵加和。而通道注意力模块及空间注意力模块的排列方式还可以是空间注意力模块在前,通道注意力模块在后进行串联,或是两模块进行并联等等。
在本说明书的可选实施例中,为了使感受野提取到多尺度的上下文信息,从而更准确地对图像的区域进行权重赋值。所述通道注意力模块与残差网络边径进行矩阵加和,生成所述通道注意力权重层,这里的残差网络边径为当前现有残差网络其中的残差边径。
如图6所示,在具体实施例中,Dilated-CBAM模型的基础通道注意力模块仿照CBAM模型,通过均值池化和最大池化提取到通道的全局特征,将得到的特征图分别输入多层感知机,计算不同通道之间的关系,输出通道权重矩阵,之后将残差网络模型中的残差边径通道权重矩阵进行矩阵加和操作。图6中,其中,圈内“+”代表矩阵加和element-wise操作,圈内“S”状曲线表示激活函数,例如:Sigmoid等。
在具体应用场景中,图像以数字矩阵的形式存储计算,一个通道对应一个矩阵,空间注意力模块就在每个通道对应的矩阵上产生效果。从数理角度分析,同个矩阵中不存在上下文信息的联结问题,因此,在空间注意力模块中,Dilated-CBAM模型没有应用残差机制。即在Dilated-CBAM模型中的空间注意力模块为当前CBAM模型中的空间注意力模块,直接挪移过来。
在本说明书的可选实施例中,为了整合图像特征提取过程中的图像尺寸变化,重新放大图像的尺寸,从而使残差边径上的特征图可以较为契合的与通道注意力模块输出的特征图进行矩阵加和elementwise操作。所述通道注意力模块与残差网络边径进行矩阵加和之前,还包括:
对所述通道注意力模块进行反卷积操作。
如图7所示,为在图6基础上,加入了反卷积操作。图中单圆圈代表反卷积deconvolution操作。本具体应用场景中,进行反卷积操作是为了是需要进行加和的矩阵更为契合,提高准确度,在其他应用场景中,并不一定需要进行反卷积。
在本说明书的可选实施例中,为了更准确的提取图像轮廓,加快计算速度和收敛速度。所述将所述残差网络模型的原始边径中的标准卷积替换为空洞卷积,包括:
将所述原始边径中的标准卷积替换为空洞卷积串联批量归一化串联线性整流激活函数的卷积层。
其中,串联的方式为如图3所示的具体实施例中的一种空洞残差网络主干残差块中展示的连接顺序方式。本具体实施例即为将原始的标准卷积的
Figure 652202DEST_PATH_IMAGE011
卷积层替换为
Figure 65866DEST_PATH_IMAGE012
卷积层。
基于同一构思,本说明书一个或多个实施例还提供了一种图像分类设备,参考图8所示,包括:
主干模块801,建立残差网络模型,将所述残差网络模型的原始边径中的标准卷积替换为空洞卷积,生成空洞残差网络主干;
权重模块802,基于注意力机制模型的通道注意力模块及空间注意力模块,生成所述残差网络模型的权重层;
生成模块803,生成由所述空洞残差网络主干及所述权重层组成的残差注意力机制模型,对所述残差注意力机制模型进行训练;
分类模块804,将图像数据输入所述残差注意力机制模型,对所述图像数据进行识别分类。
作为一个可选的实施例,所述权重模块802生成所述残差网络模型的权重层,包括:
基于所述通道注意力模块及所述空间注意力模块,生成通道注意力权重层及空间注意力权重层,将所述通道注意力权重层及所述空间注意力权重层串联顺序排布。
作为一个可选的实施例,所述权重模块802通道注意力模块与残差网络边径进行矩阵加和,生成所述通道注意力权重层。
作为一个可选的实施例,所述权重模块802通道注意力模块与残差网络边径进行矩阵加和之前,还包括:
对所述通道注意力模块进行反卷积操作。
作为一个可选的实施例,所述主干模块801将所述残差网络模型的原始边径中的标准卷积替换为空洞卷积,包括:
将所述原始边径中的标准卷积替换为空洞卷积串联批量归一化串联线性整流激活函数的卷积层。
为了描述的方便,描述以上设备时以功能分为各种模块分别描述。当然,在实施本说明书一个或多个实施例时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
上述实施例的设备用于实现前述实施例中相应的方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本公开的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本说明书一个或多个实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。
另外,为简化说明和讨论,并且为了不会使本说明书一个或多个实施例难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出设备,以便避免使本说明书一个或多个实施例难以理解,并且这也考虑了以下事实,即关于这些框图设备的实施方式的细节是高度取决于将要实施本说明书一个或多个实施例的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本公开的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本说明书一个或多个实施例。因此,这些描述应被认为是说明性的而不是限制性的。
尽管已经结合了本公开的具体实施例对本公开进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。
本说明书一个或多个实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本说明书一个或多个实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本公开的保护范围之内。

Claims (4)

1.一种图像分类方法,其特征在于,包括:
建立残差网络模型,将所述残差网络模型的原始边径中的标准卷积替换为空洞卷积,生成空洞残差网络主干;
基于注意力机制模型的通道注意力模块及空间注意力模块,生成所述残差网络模型的权重层;
生成由所述空洞残差网络主干及所述权重层组成的残差注意力机制模型,对所述残差注意力机制模型进行训练;
将图像数据输入所述残差注意力机制模型,对所述图像数据进行识别分类;
所述将所述残差网络模型的原始边径中的标准卷积替换为空洞卷积,包括:
将所述原始边径中的标准卷积替换为空洞卷积串联批量归一化串联线性整流激活函数的卷积层;
所述生成所述残差网络模型的权重层,包括:
基于所述通道注意力模块及所述空间注意力模块,生成通道注意力权重层及空间注意力权重层,将所述通道注意力权重层及所述空间注意力权重层串联顺序排布;
所述通道注意力模块与残差网络边径进行矩阵加和,生成所述通道注意力权重层。
2.根据权利要求1所述的方法,其特征在于,所述通道注意力模块与残差网络边径进行矩阵加和之前,还包括:
对所述通道注意力模块进行反卷积操作。
3.一种图像分类设备,其特征在于,包括:
主干模块,建立残差网络模型,将所述残差网络模型的原始边径中的标准卷积替换为空洞卷积,生成空洞残差网络主干;
权重模块,基于注意力机制模型的通道注意力模块及空间注意力模块,生成所述残差网络模型的权重层;
生成模块,生成由所述空洞残差网络主干及所述权重层组成的残差注意力机制模型,对所述残差注意力机制模型进行训练;
分类模块,将图像数据输入所述残差注意力机制模型,对所述图像数据进行识别分类;
所述主干模块将所述残差网络模型的原始边径中的标准卷积替换为空洞卷积,包括:
将所述原始边径中的标准卷积替换为空洞卷积串联批量归一化串联线性整流激活函数的卷积层;
所述权重模块生成所述残差网络模型的权重层,包括:
基于所述通道注意力模块及所述空间注意力模块,生成通道注意力权重层及空间注意力权重层,将所述通道注意力权重层及所述空间注意力权重层串联顺序排布;
所述权重模块通道注意力模块与残差网络边径进行矩阵加和,生成所述通道注意力权重层。
4.根据权利要求3所述的设备,其特征在于,所述权重模块通道注意力模块与残差网络边径进行矩阵加和之前,还包括:
对所述通道注意力模块进行反卷积操作。
CN202011058357.7A 2020-09-30 2020-09-30 一种图像分类方法及设备 Active CN111898709B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202011058357.7A CN111898709B (zh) 2020-09-30 2020-09-30 一种图像分类方法及设备
JP2021124754A JP7013057B1 (ja) 2020-09-30 2021-07-29 画像分類方法及び機器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011058357.7A CN111898709B (zh) 2020-09-30 2020-09-30 一种图像分类方法及设备

Publications (2)

Publication Number Publication Date
CN111898709A CN111898709A (zh) 2020-11-06
CN111898709B true CN111898709B (zh) 2021-01-15

Family

ID=73224053

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011058357.7A Active CN111898709B (zh) 2020-09-30 2020-09-30 一种图像分类方法及设备

Country Status (2)

Country Link
JP (1) JP7013057B1 (zh)
CN (1) CN111898709B (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112420170B (zh) * 2020-12-10 2022-12-09 北京理工大学 一种提高计算机辅助诊断系统图片分类准确度的方法
CN112801128B (zh) * 2020-12-14 2023-10-13 深圳云天励飞技术股份有限公司 非机动车识别方法、装置、电子设备及存储介质
CN112507920B (zh) * 2020-12-16 2023-01-24 重庆交通大学 一种基于时间位移和注意力机制的考试异常行为识别方法
CN112541469B (zh) * 2020-12-22 2023-09-08 山东师范大学 基于自适应分类的人群计数方法及系统
CN112818914B (zh) * 2021-02-24 2023-08-18 网易(杭州)网络有限公司 一种视频内容的分类方法及装置
CN113239947B (zh) * 2021-03-10 2022-09-23 安徽省农业科学院农业经济与信息研究所 一种基于细粒度分类技术的害虫图像分类方法
CN113052254B (zh) * 2021-04-06 2022-10-04 安徽理工大学 多重注意力幽灵残差融合分类模型及其分类方法
CN113408577A (zh) * 2021-05-12 2021-09-17 桂林电子科技大学 一种基于注意力机制的图像分类方法
CN113269077B (zh) * 2021-05-19 2023-04-07 青岛科技大学 基于改进门控网络和残差网络的水声通信信号调制方式识别方法
CN113468531A (zh) * 2021-07-15 2021-10-01 杭州电子科技大学 基于深度残差网络和混合注意力机制的恶意代码分类方法
CN113822331A (zh) * 2021-08-11 2021-12-21 北京邮电大学 加密流量的分类方法与装置以及电子设备
CN113610857B (zh) * 2021-08-24 2024-02-06 济南大学 一种基于残差网络的苹果分级方法及系统
CN113793345B (zh) * 2021-09-07 2023-10-31 复旦大学附属华山医院 一种基于改进注意力模块的医疗影像分割方法及装置
CN113963202A (zh) * 2021-10-19 2022-01-21 郑州大学 一种骨骼点动作识别方法、装置、电子设备及存储介质
CN114067153B (zh) * 2021-11-02 2022-07-12 暨南大学 基于并行双注意力轻量残差网络的图像分类方法及系统
CN114239641B (zh) * 2021-11-16 2023-04-07 电子科技大学 一种联合注意力机制选择核卷积残差网络的故障诊断方法
CN114821121B (zh) * 2022-05-09 2023-02-03 盐城工学院 一种基于rgb三分量分组注意力加权融合的图像分类方法
CN116777908B (zh) * 2023-08-18 2023-11-03 新疆塔林投资(集团)有限责任公司 油气井套管堵漏辅助方法及其系统

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3591572B1 (en) * 2018-07-06 2021-09-01 Tata Consultancy Services Limited Method and system for automatic chromosome classification
US10769744B2 (en) * 2018-10-31 2020-09-08 Kabushiki Kaisha Toshiba Computer vision system and method
CN109815883A (zh) * 2019-01-21 2019-05-28 中国人民解放军国防科技大学 一种基于“主+辅”线索的静态图像行为识别方法
CN110210485A (zh) * 2019-05-13 2019-09-06 常熟理工学院 基于注意力机制指导特征融合的图像语义分割方法
JP7296270B2 (ja) * 2019-07-30 2023-06-22 日本放送協会 画像特徴抽出装置およびそのプログラム
CN111191626B (zh) * 2020-01-02 2021-01-01 北京航空航天大学 一种多类别交通工具的精细识别方法
CN111291670B (zh) * 2020-01-23 2023-04-07 天津大学 基于注意力机制和网络集成的小目标人脸表情识别方法
CN111325155B (zh) * 2020-02-21 2022-09-23 重庆邮电大学 基于残差式3d cnn和多模态特征融合策略的视频动作识别方法
CN111723748B (zh) * 2020-06-22 2022-04-29 电子科技大学 一种红外遥感图像舰船检测方法

Also Published As

Publication number Publication date
CN111898709A (zh) 2020-11-06
JP2022058173A (ja) 2022-04-11
JP7013057B1 (ja) 2022-01-31

Similar Documents

Publication Publication Date Title
CN111898709B (zh) 一种图像分类方法及设备
CN109584248B (zh) 基于特征融合和稠密连接网络的红外面目标实例分割方法
CN111192292B (zh) 基于注意力机制与孪生网络的目标跟踪方法及相关设备
CN112446398B (zh) 图像分类方法以及装置
CN111126258B (zh) 图像识别方法及相关装置
CN109558781B (zh) 一种多视角视频识别方法及装置、设备和存储介质
CN112446476A (zh) 神经网络模型压缩的方法、装置、存储介质和芯片
CN110309856A (zh) 图像分类方法、神经网络的训练方法及装置
CN111179419B (zh) 三维关键点预测及深度学习模型训练方法、装置及设备
CN110503076B (zh) 基于人工智能的视频分类方法、装置、设备和介质
CN108960059A (zh) 一种视频动作识别方法及装置
CN111680678B (zh) 目标区域识别方法、装置、设备及可读存储介质
CN111667001B (zh) 目标重识别方法、装置、计算机设备和存储介质
Zhang et al. Lightweight and efficient asymmetric network design for real-time semantic segmentation
CN110674741A (zh) 一种基于双通道特征融合的机器视觉中手势识别方法
CN110533041B (zh) 基于回归的多尺度场景文本检测方法
CN109272543B (zh) 用于生成模型的方法和装置
CN108241854A (zh) 一种基于运动和记忆信息的深度视频显著性检测方法
CN105976395B (zh) 一种基于稀疏表示的视频目标跟踪方法
CN113326930A (zh) 数据处理方法、神经网络的训练方法及相关装置、设备
Hu et al. Efficient fast semantic segmentation using continuous shuffle dilated convolutions
CN113869282A (zh) 人脸识别方法、超分模型训练方法及相关设备
CN115620054A (zh) 一种缺陷分类方法、装置、电子设备及存储介质
CN117237547B (zh) 图像重建方法、重建模型的处理方法和装置
CN117953581A (zh) 动作识别的方法、装置、电子设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant