CN111046962B - 基于稀疏注意力的卷积神经网络模型的特征可视化方法及系统 - Google Patents

基于稀疏注意力的卷积神经网络模型的特征可视化方法及系统 Download PDF

Info

Publication number
CN111046962B
CN111046962B CN201911300222.4A CN201911300222A CN111046962B CN 111046962 B CN111046962 B CN 111046962B CN 201911300222 A CN201911300222 A CN 201911300222A CN 111046962 B CN111046962 B CN 111046962B
Authority
CN
China
Prior art keywords
attention
representing
classification
loss function
pixel level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911300222.4A
Other languages
English (en)
Other versions
CN111046962A (zh
Inventor
张文林
司念文
牛铜
罗向阳
屈丹
杨绪魁
李�真
闫红刚
张连海
魏雪娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Information Engineering University of PLA Strategic Support Force
Zhengzhou Xinda Institute of Advanced Technology
Original Assignee
Information Engineering University of PLA Strategic Support Force
Zhengzhou Xinda Institute of Advanced Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Information Engineering University of PLA Strategic Support Force , Zhengzhou Xinda Institute of Advanced Technology filed Critical Information Engineering University of PLA Strategic Support Force
Priority to CN201911300222.4A priority Critical patent/CN111046962B/zh
Publication of CN111046962A publication Critical patent/CN111046962A/zh
Application granted granted Critical
Publication of CN111046962B publication Critical patent/CN111046962B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于稀疏注意力的卷积神经网络模型的特征可视化方法及系统,该方法包括:对输入彩色图像进行特征提取,输出多通道特征图;使用像素级注意力对特征图进行加权调整;采用交叉熵损失函数作为分类损失函数,对像素级注意力进行L1正则化约束,并对分类损失函数进行改进,对加权调整后的特征图进行训练,得出分类结果;将调整后的特征图与原始输入的彩色图像进行叠加,得出彩色图像重要特征的可视化展示,从而给出对分类结果的可视化解释;该系统包括特征提取模块、注意力模块、分类模块及特征可视化模块。本发明提升图像分类准确率的同时,采用特征可视化展示出该图像最重要的特征区域。

Description

基于稀疏注意力的卷积神经网络模型的特征可视化方法及 系统
技术领域
本发明属于图像分类特征可视化技术领域,尤其涉及一种基于稀疏注意力的卷积神经网络模型的特征可视化方法及系统。
背景技术
现有的卷积神经网络可视化方法包括基于反卷积(deconvolution)、基于梯度(gradient-based)、基于反向传播(back-propagation)等方法。这些方法对卷积神经网络所学特征、类别区分性特征的可视化有一定效果,但这些方法多数仅面向特征可视化研究,并不对卷积神经网络本身的性能有所贡献。因此,本发明从该点出发,研究在提升卷积神经网络分类性能的情形下,更精确定位到目标物体最重要特征。
一方面,卷积神经网络中间层的特征图中,包含有大量图像编码后的语义信息,特征图直接可视化能够在一定程度上展示网络学习到的特征,但由于一般卷积神经网络的特征图中同时包含有一些噪声信息,特征图直接可视化对区分性特征的定位效果并不理想。
另一方面,现有的基于注意力机制的卷积神经网络用于图像分类时,通常使用基于通道的和基于空间位置的注意力机制(H.Jie,S.Li,and S.Gang.Squeeze-and-excitation networks.Computer Vision and Pattern Recognition,2017.)(SanghyunWoo,Jongchan Park,Joon-Young Lee,and In So Kweon.CBAM:Convolutional blockattention module.In ECCV,2018.),能够很好的为目标物体最重要部分调整分配更大权重,但这类的注意力并不完全,受到通道限制和空间位置限制,未充分发挥注意力机制的整体功能。并且,特征图各个通道所使用的空间注意力掩码(mask)相同,对不同通道的像素空间分布特征的关注受到了限制。
为此,本发明在现有基于通道注意力和空间注意力的卷积神经网络基础上,提出基于稀疏注意力的模型,并且该注意力使用像素级注意力掩码,可对特征图中每个像素分配注意力权重,而不仅是从单一通道、空间位置层面进行通道级别注意力调整。同时,通过在损失函数中对注意力掩码进行L1正则化约束,保证其稀疏性,使权重分配朝着少量重要特征上倾斜。
发明内容
本发明针对基于深度卷积网络的图像分类模型在准确率上越来越高,但由于深度网络“端到端”属性的限制,导致该分类过程如同一个“黑盒”,无法对其分类结果进行解释,也无法定位图像哪些区域的特征对分类结果贡献最大的问题,提出一种基于稀疏注意力的卷积神经网络模型的特征可视化方法及系统。
为了实现上述目的,本发明采用以下技术方案:
一种基于稀疏注意力的卷积神经网络模型的特征可视化方法,包括:
步骤1:使用多个卷积层和下采样层,对输入训练样本中彩色图像进行特征提取,输出多通道特征图;所述训练样本由多个彩色图像及对应类别标签组成;
步骤2:采用卷积-反卷积网络,通过卷积、反卷积操作实现像素级注意力;使用像素级注意力对特征图进行加权调整,得到经过像素级注意力加权调整后的特征图;
步骤3:采用交叉熵损失函数作为分类损失函数,对像素级注意力进行L1正则化约束,通过加入L1正则化约束后的像素级注意力对分类损失函数进行改进,以最小化改进后的分类损失函数为目标进行训练,完成基于稀疏注意力的卷积神经网络模型构建,得出分类结果;
步骤4:将经过像素级注意力加权调整后的特征图与原始输入的彩色图像进行叠加,得出彩色图像重要特征的可视化展示,通过彩色图像重要特征的可视化展示给出对分类结果的可视化解释。
进一步地,所述步骤2包括:
通过如下公式实现像素级注意力:
Fact=fdeconv(fconv(F;θ))
其中,Fact表示像素级注意力掩码矩阵,F表示多通道特征图,θ表示卷积神经网络的超参数,fconv()表示卷积函数,fdeconv()表示反卷积函数;
通过如下公式得出像素级注意力加权调整后的特征图Fatt
Figure BDA0002320461810000031
其中,σ表示带参数的激活函数,
Figure BDA0002320461810000032
表示矩阵张量间的哈达玛积。
进一步地,所述步骤3包括:
经过像素级注意力调整后的特征图进入全连接层,经过softmax分类函数后,输出一个n维向量,向量每个元素值表示在该类别上的得分大小:
yp=softmax(flinear(Fatt;θ))
其中,flinear()函数表示全连接层的线性变换过程,yp∈Rn表示输出层得到的各类别概率分布向量;
采用交叉熵损失函数计算单个训练样本的分类损失,采用mini-batch批次梯度下降法进行训练:
Figure BDA0002320461810000033
其中,lc为分类损失函数,yi∈RN表示训练样本中对应的类别标签向量,N表示训练样本个数,fcel表示交叉熵损失函数,m表示每批量样本数量,λ1表示对θ的L2正则化约束参数;
对像素级注意力掩码矩阵Fact作L1正则化约束得到稀疏注意力,通过L1正则化约束后的Fact对分类损失函数lc进行改进,改进后的分类损失函数为:
Figure BDA0002320461810000034
其中,Loss为改进后的分类损失函数,λ2表示注意力掩码矩阵Fact的稀疏正则化约束参数。
一种基于稀疏注意力的卷积神经网络模型的特征可视化系统,包括:
特征提取模块,用于使用多个卷积层和下采样层,对输入训练样本中彩色图像进行特征提取,输出多通道特征图;所述训练样本由多个彩色图像及对应类别标签组成;
注意力模块,用于采用卷积-反卷积网络,通过卷积、反卷积操作实现像素级注意力;使用像素级注意力对特征图进行加权调整,得到经过像素级注意力加权调整后的特征图;
分类模块,用于采用交叉熵损失函数作为分类损失函数,对像素级注意力进行L1正则化约束,通过加入L1正则化约束后的像素级注意力对分类损失函数进行改进,以最小化改进后的分类损失函数为目标进行训练,完成基于稀疏注意力的卷积神经网络模型构建,得出特征分类结果;
特征可视化模块,用于将经过像素级注意力加权调整后的特征图与原始输入的彩色图像进行叠加,得出彩色图像重要特征的可视化展示,通过彩色图像重要特征的可视化展示给出对分类结果的可视化解释。
进一步地,所述注意力模块具体用于:
通过如下公式实现像素级注意力:
Fact=fdeconv(fconv(F;θ))
其中,Fact表示像素级注意力掩码矩阵,F表示多通道特征图,θ表示卷积神经网络的超参数,fconv()表示卷积函数,fdeconv()表示反卷积函数;
通过如下公式得出像素级注意力加权调整后的特征图Fatt
Figure BDA0002320461810000041
其中,σ表示带参数的激活函数,
Figure BDA0002320461810000042
表示矩阵张量间的哈达玛积。
进一步地,所述分类模块具体用于:
经过像素级注意力调整后的特征图进入全连接层,经过softmax分类函数后,输出一个n维向量,向量每个元素值表示在该类别上的得分大小:
yp=softmax(flinear(Fatt;θ))
其中,flinear()函数表示全连接层的线性变换过程,yp∈Rn表示输出层得到的各类别概率分布向量;
采用交叉熵损失函数计算单个训练样本的分类损失,采用mini-batch批次梯度下降法进行训练:
Figure BDA0002320461810000043
其中,lc为分类损失函数,yi∈RN表示训练样本中对应的类别标签向量,N表示训练样本个数,fcel表示交叉熵损失函数,m表示每批量样本数量,λ1表示对θ的L2正则化约束参数;
对像素级注意力掩码矩阵Fact作L1稀疏正则化约束得到稀疏注意力,通过稀疏L1正则化约束后的Fact对分类损失函数lc进行改进,改进后的分类损失函数为:
Figure BDA0002320461810000051
其中,Loss为改进后的分类损失函数,λ2表示注意力掩码矩阵Fact的稀疏正则化约束参数。
与现有技术相比,本发明具有的有益效果:
为了让基于卷积神经网络的图像分类过程在保证分类效果的同时,决策原因变得更加能够被用户理解,本发明使用注意力机制引导网络关注图像上最重要特征,并使用带参数的激活函数对注意力掩码矩阵进行激活约束,确保注意力的连续性。同时,通过设计损失函数来利用稀疏正则约束注意力机制,保证注意力机制注意到少量最重要特征。最后,在基础卷积神经网络基础上,提升分类准确率的同时,通过对注意力掩码矩阵加权调整后的特征图的可视化展示,给出对分类结果的可视化解释。
本发明面向基于深度学习的图像分类领域特征可视化,使用常见的卷积神经网络结构,通过添加像素级注意力并实现带参数的激活,使得卷积神经网络能够学习最少最重要特征,对注意力掩码的L1正则化约束进一步保证其能够保持最少特征关注度。通过本发明可在基本卷积神经网络基础上,提升图像分类准确率的同时,采用特征可视化展示出该图像最重要的特征区域,便于用户了解到卷积神经网络的分类决策原因。
附图说明
图1为本发明实施例一种基于稀疏注意力的卷积神经网络模型的特征可视化方法的基本流程图;
图2为本发明实施例一种基于稀疏注意力的卷积神经网络模型的特征可视化方法的注意力掩码生成过程示意图;
图3为本发明实施例一种基于稀疏注意力的卷积神经网络模型的特征可视化系统的架构示意图。
具体实施方式
下面结合附图和具体的实施例对本发明做进一步的解释说明:
实施例1
如图1所示,一种基于稀疏注意力的卷积神经网络模型的特征可视化方法,包括:
步骤S101:使用多个卷积层和下采样层,对输入训练样本中彩色图像进行特征提取,输出多通道特征图;所述训练样本由多个彩色图像及对应类别标签组成;
具体地,可自行设计满足一定需求的卷积层,也可以使用常用的卷积神经网络的特征提取部分结构,如AlexNet,VGGNet,ResNet等卷积神经网络及其变种。
对于输入图像
Figure BDA0002320461810000061
N表示样本个数,特征提取过程可形式化的表示如下:
F=CONV(x;θ)
其中,xi表示第i个彩色图像,yi表示xi对应的类别标签,特征图F∈RC×H×W为多通道特征图,C表示通道数,H和W分别表示高和宽,θ表示卷积神经网络的超参数。
步骤S102:采用卷积-反卷积网络,通过卷积、反卷积操作实现像素级注意力;使用像素级注意力对特征图进行加权调整,得到经过像素级注意力加权调整后的特征图;
具体地,本部分是本发明区别于现有方法的主要部分。现有方法包括使用通道级别注意力,或使用单通道注意力掩码作为空间注意力,或使用二者结合的方式。本发明认为,这些注意力均带有片面性,对特征图中信息利用及权重分配仍受一致限制。为此,本发明使用像素级注意力对特征图进行像素级权重再调整,使重要区域实现像素级特征关注。
对于生成像素级注意力掩码应满足两点要求:其一,为了实现像素级注意力,生成的掩码矩阵在尺寸上应与输入特征图相同;其二,为了实现对特征图中重要区域与像素的关注,掩码矩阵能够初步包含一些主要目标特征信息,后期可在训练中进一步调整参数。
为此,考虑采用卷积—反卷积网络,在卷积过程中进一步降尺寸、升通道、压缩特征图,以提取重要特征,再通过反卷积过程使之返回到原来大小,此时输出的掩码矩阵不仅在尺寸上满足要求,同时还包含一些特征信息。
注意力掩码矩阵生成过程如图2所示,包括:
通过如下公式实现像素级注意力:
Fact=fdeconv(fconv(F;θ))
其中,Fact表示像素级注意力掩码矩阵,F表示多通道特征图,θ表示卷积神经网络的超参数,fconv()表示卷积函数,fdeconv()表示反卷积函数;卷积过程每使用连续两个卷积后,紧接着max pooling操作降低尺寸,反卷积过程则是卷积过程的逆过程。
通过如下公式得出像素级注意力加权调整后的特征图Fatt
Figure BDA0002320461810000071
其中,σ表示带参数的激活函数,通过在训练中自适应调整激活函数的参数,可保证学习到合适的自适应激活门限;
Figure BDA0002320461810000072
表示矩阵张量间的哈达玛积,即逐元素乘法。
此处像素级注意力权重生成过程与文献[1](H.Jie,S.Li,and S.Gang.Squeeze-and-excitation networks.Computer Vision and Pattern Recognition,2017.)和[2](Sanghyun Woo,Jongchan Park,Joon-Young Lee,and In So Kweon.CBAM:Convolutionalblock attention module.In ECCV,2018.)明显不同,文献[1]提出的SENet采用通道级注意力权重,对每个通道使用GAP降尺寸,这样会丢失大量信息,而这里使用一般方法(如卷积-反卷积方法),不会丢失信息。文献[2]则使用通道注意力与空间注意力结合,但与本发明提出的像素级注意力相比,仍然不够完全利用注意力的优势,相比之下,本发明像素级注意力关注细节更多,将卷积-反卷积网络作为注意力权重生成机制,在效果上也会更好。
步骤S103:采用交叉熵损失函数作为分类损失函数,对像素级注意力进行L1正则化约束,通过加入L1正则化约束后的像素级注意力对分类损失函数进行改进,以最小化改进后的分类损失函数为目标对卷积神经网络进行训练,完成基于稀疏注意力的卷积神经网络模型构建,得出特征分类结果;
具体地,所述步骤S103包括:
经过像素级注意力调整后的特征图进入全连接层,经过softmax分类函数后,输出一个n维向量,向量每个元素值表示在该类别上的得分大小:
yp=softmax(flinear(Fatt;θ))
其中,flinear()函数表示全连接层的线性变换过程,yp∈Rn表示输出层得到的各类别概率分布向量;
采用交叉熵损失函数计算单个训练样本的分类损失,采用mini-batch批次梯度下降法进行训练:
Figure BDA0002320461810000081
其中,lc为分类损失函数,yi∈RN表示训练样本中对应的类别标签向量,N表示训练样本个数,fcel表示交叉熵损失函数(CrossEntropyLoss),m表示每批量样本数量,λ1表示对θ的L2正则化约束参数,防止模型过拟合;
同时,对注意力掩码作L1稀疏正则化约束,保证注意力掩码的元素值分布更加集中,仅为特征图中少量最重要特征加强关注,其它区域保持数值稀疏化,有利于学习最重要特征。因此,对像素级注意力掩码矩阵Fact作L1稀疏正则化约束得到稀疏注意力,通过L1正则化约束后的Fact对分类损失函数lc进行改进,改进后的分类损失函数为:
Figure BDA0002320461810000082
其中,Loss为改进后的分类损失函数,λ2表示注意力掩码矩阵Fact的稀疏正则化约束参数。
步骤S104:将经过像素级注意力加权调整后的特征图与原始输入的彩色图像进行叠加,得出彩色图像重要特征的可视化展示,通过彩色图像重要特征的可视化展示给出对分类结果的可视化解释。
作为一种可实施方式,在Anaconda集成开发环境中,使用python语言调用深度学习库(如pytorch或tensorflow等),搭建本发明设计的基于稀疏注意力的卷积神经网络模型,同时采用交叉熵损失函数,使用随机梯度下降算法优化网络权重;使用带标注的训练集(如ImageNet数据集、CIFAR10和CIFAR100数据集等),按照设计的批次大小,批量输入带标注的训练样本图片,进入到卷积神经网络中,分别进行特征提取、像素级注意力加权、Loss计算等;每一批样本结束后,反向传播并更新参数,并在开发集上进行测试保留最佳参数设置;完整训练结束后,保存并固化模型参数,方便下次加载使用;输入新的测试样本图片,可由训练好的模型直接输出分类结果,同时可将经过像素级注意力加权调整后的特征图直接缩放到原图大小并与原图叠加,即可标明由该输入图像提取到的最重要的特征,该特征最能支撑网络输出结果。
综上,为了让基于卷积神经网络的图像分类过程在保证分类效果的同时,决策原因变得更加能够被用户理解,本发明使用注意力机制引导网络关注图像上最重要特征,并使用带参数的激活函数对注意力掩码矩阵进行激活约束,确保注意力的连续性。同时,通过设计损失函数来利用稀疏正则约束注意力机制,保证注意力机制注意到少量最重要特征。最后,在基础卷积神经网络基础上,提升分类准确率的同时,通过对注意力掩码矩阵加权调整后的特征图的可视化展示,给出对分类结果的可视化解释。
本发明面向基于深度学习的图像分类领域特征可视化,使用常见的卷积神经网络结构,通过添加像素级注意力并实现带参数的激活,使得卷积神经网络能够学习最少最重要特征,对注意力掩码的L1正则化约束进一步保证其能够保持最少特征关注度。通过本发明可在基本卷积神经网络基础上,提升图像分类准确率的同时,采用特征可视化展示出该图像最重要的特征区域,便于用户了解到卷积神经网络的分类决策原因。
实施例2
如图3所示,一种基于稀疏注意力的卷积神经网络模型的特征可视化系统,包括:
特征提取模块201,用于使用多个卷积层和下采样层,对输入训练样本中彩色图像进行特征提取,输出多通道特征图;所述训练样本由多个彩色图像及对应类别标签组成;
注意力模块202,用于采用卷积-反卷积网络,通过卷积、反卷积操作实现像素级注意力;使用像素级注意力对特征图进行加权调整,得到经过像素级注意力加权调整后的特征图;
分类模块203,用于采用交叉熵损失函数作为分类损失函数,对像素级注意力进行L1正则化约束,通过加入L1正则化约束后的像素级注意力对分类损失函数进行改进,以最小化改进后的分类损失函数为目标进行训练,完成基于稀疏注意力的卷积神经网络模型构建,得出特征分类结果;
特征可视化模块204,用于将经过像素级注意力加权调整后的特征图与原始输入的彩色图像进行叠加,得出彩色图像重要特征的可视化展示,通过彩色图像重要特征的可视化展示给出对分类结果的可视化解释。
具体地,所述注意力模块202具体用于:
通过如下公式实现像素级注意力:
Fact=fdeconv(fconv(F;θ))
其中,Fact表示像素级注意力掩码矩阵,F表示多通道特征图,θ表示卷积神经网络的超参数,fconv()表示卷积函数,fdeconv()表示反卷积函数;
通过如下公式得出像素级注意力加权调整后的特征图Fatt
Figure BDA0002320461810000101
其中,σ表示带参数的激活函数,
Figure BDA0002320461810000102
表示矩阵张量间的哈达玛积。
具体地,所述分类模块203具体用于:
经过像素级注意力调整后的特征图进入全连接层,经过softmax分类函数后,输出一个n维向量,向量每个元素值表示在该类别上的得分大小:
yp=softmax(flinear(Fatt;θ))
其中,flinear()函数表示全连接层的线性变换过程,yp∈Rn表示输出层得到的各类别概率分布向量;
采用交叉熵损失函数计算单个训练样本的分类损失,采用mini-batch批次梯度下降法进行训练:
Figure BDA0002320461810000103
其中,lc为分类损失函数,yi∈RN表示训练样本中对应的类别标签向量,N表示训练样本个数,fcel表示交叉熵损失函数,m表示每批量样本数量,λ1表示对θ的L2正则化约束参数;
对像素级注意力掩码矩阵Fact作L1稀疏正则化约束得到稀疏注意力,通过稀疏L1正则化约束后的Fact对分类损失函数lc进行改进,改进后的分类损失函数为:
Figure BDA0002320461810000111
其中,Loss为改进后的分类损失函数,λ2表示注意力掩码矩阵Fact的稀疏正则化约束参数。
以上所示仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (6)

1.一种基于稀疏注意力的卷积神经网络模型的特征可视化方法,其特征在于,包括:
步骤1:使用多个卷积层和下采样层,对输入训练样本中彩色图像进行特征提取,输出多通道特征图;所述训练样本由多个彩色图像及对应类别标签组成;
步骤2:采用卷积-反卷积网络,通过卷积、反卷积操作实现像素级注意力;使用像素级注意力对特征图进行加权调整,得到经过像素级注意力加权调整后的特征图;
步骤3:采用交叉熵损失函数作为分类损失函数,对像素级注意力进行L1正则化约束,通过加入L1正则化约束后的像素级注意力对分类损失函数进行改进,以最小化改进后的分类损失函数为目标进行训练,完成基于稀疏注意力的卷积神经网络模型构建,得出分类结果;
步骤4:将经过像素级注意力加权调整后的特征图与原始输入的彩色图像进行叠加,得出彩色图像重要特征的可视化展示,通过彩色图像重要特征的可视化展示给出对分类结果的可视化解释。
2.根据权利要求1所述的基于稀疏注意力的卷积神经网络模型的特征可视化方法,其特征在于,所述步骤2包括:
通过如下公式实现像素级注意力:
Fact=fdeconv(fconv(F;θ))
其中,Fact表示像素级注意力掩码矩阵,F表示多通道特征图,θ表示卷积神经网络的超参数,fconv()表示卷积函数,fdeconv()表示反卷积函数;
通过如下公式得出像素级注意力加权调整后的特征图Fatt
Figure FDA0002320461800000011
其中,σ表示带参数的激活函数,
Figure FDA0002320461800000012
表示矩阵张量间的哈达玛积。
3.根据权利要求2所述的基于稀疏注意力的卷积神经网络模型的特征可视化方法,其特征在于,所述步骤3包括:
经过像素级注意力调整后的特征图进入全连接层,经过softmax分类函数后,输出一个n维向量,向量每个元素值表示在该类别上的得分大小:
yp=softmax(flinear(Fatt;θ))
其中,flinear()函数表示全连接层的线性变换过程,yp∈Rn表示输出层得到的各类别概率分布向量;
采用交叉熵损失函数计算单个训练样本的分类损失,采用mini-batch批次梯度下降法进行训练:
Figure FDA0002320461800000021
其中,lc为分类损失函数,yi∈RN表示训练样本中对应的类别标签向量,N表示训练样本个数,fcel表示交叉熵损失函数,m表示每批量样本数量,λ1表示对θ的L2正则化约束参数;
对像素级注意力掩码矩阵Fact作L1正则化约束得到稀疏注意力,通过L1正则化约束后的Fact对分类损失函数lc进行改进,改进后的分类损失函数为:
Figure FDA0002320461800000022
其中,Loss为改进后的分类损失函数,λ2表示注意力掩码矩阵Fact的稀疏正则化约束参数。
4.一种基于稀疏注意力的卷积神经网络模型的特征可视化系统,其特征在于,包括:
特征提取模块,用于使用多个卷积层和下采样层,对输入训练样本中彩色图像进行特征提取,输出多通道特征图;所述训练样本由多个彩色图像及对应类别标签组成;
注意力模块,用于采用卷积-反卷积网络,通过卷积、反卷积操作实现像素级注意力;使用像素级注意力对特征图进行加权调整,得到经过像素级注意力加权调整后的特征图;
分类模块,用于采用交叉熵损失函数作为分类损失函数,对像素级注意力进行L1正则化约束,通过加入L1正则化约束后的像素级注意力对分类损失函数进行改进,以最小化改进后的分类损失函数为目标进行训练,完成基于稀疏注意力的卷积神经网络模型构建,得出特征分类结果;
特征可视化模块,用于将经过像素级注意力加权调整后的特征图与原始输入的彩色图像进行叠加,得出彩色图像重要特征的可视化展示,通过彩色图像重要特征的可视化展示给出对分类结果的可视化解释。
5.根据权利要求4所述的基于稀疏注意力的卷积神经网络模型的特征可视化系统,其特征在于,所述注意力模块具体用于:
通过如下公式实现像素级注意力:
Fact=fdeconv(fconv(F;θ))
其中,Fact表示像素级注意力掩码矩阵,F表示多通道特征图,θ表示卷积神经网络的超参数,fconv()表示卷积函数,fdeconv()表示反卷积函数;
通过如下公式得出像素级注意力加权调整后的特征图Fatt
Figure FDA0002320461800000031
其中,σ表示带参数的激活函数,
Figure FDA0002320461800000032
表示矩阵张量间的哈达玛积。
6.根据权利要求4所述的基于稀疏注意力的卷积神经网络模型的特征可视化系统,其特征在于,所述分类模块具体用于:
经过像素级注意力调整后的特征图进入全连接层,经过softmax分类函数后,输出一个n维向量,向量每个元素值表示在该类别上的得分大小:
yp=softmax(flinear(Fatt;θ))
其中,flinear()函数表示全连接层的线性变换过程,yp∈Rn表示输出层得到的各类别概率分布向量;
采用交叉熵损失函数计算单个训练样本的分类损失,采用mini-batch批次梯度下降法进行训练:
Figure FDA0002320461800000033
其中,lc为分类损失函数,yi∈RN表示训练样本中对应的类别标签向量,N表示训练样本个数,fcel表示交叉熵损失函数,m表示每批量样本数量,λ1表示对θ的L2正则化约束参数;
对像素级注意力掩码矩阵Fact作L1稀疏正则化约束得到稀疏注意力,通过稀疏L1正则化约束后的Fact对分类损失函数lc进行改进,改进后的分类损失函数为:
Figure FDA0002320461800000041
其中,Loss为改进后的分类损失函数,λ2表示注意力掩码矩阵Fact的稀疏正则化约束参数。
CN201911300222.4A 2019-12-16 2019-12-16 基于稀疏注意力的卷积神经网络模型的特征可视化方法及系统 Active CN111046962B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911300222.4A CN111046962B (zh) 2019-12-16 2019-12-16 基于稀疏注意力的卷积神经网络模型的特征可视化方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911300222.4A CN111046962B (zh) 2019-12-16 2019-12-16 基于稀疏注意力的卷积神经网络模型的特征可视化方法及系统

Publications (2)

Publication Number Publication Date
CN111046962A CN111046962A (zh) 2020-04-21
CN111046962B true CN111046962B (zh) 2022-10-04

Family

ID=70236778

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911300222.4A Active CN111046962B (zh) 2019-12-16 2019-12-16 基于稀疏注意力的卷积神经网络模型的特征可视化方法及系统

Country Status (1)

Country Link
CN (1) CN111046962B (zh)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111598133B (zh) 2020-04-22 2022-10-14 腾讯医疗健康(深圳)有限公司 基于人工智能的图像显示方法、装置、系统、设备及介质
CN111539370B (zh) * 2020-04-30 2022-03-15 华中科技大学 一种基于多注意力联合学习的图像行人重识别方法和系统
CN111652350B (zh) * 2020-05-07 2023-04-07 清华大学深圳国际研究生院 神经网络可视化解释方法及弱监督定位物体方法
CN111582376B (zh) * 2020-05-09 2023-08-15 抖音视界有限公司 神经网络的可视化方法、装置、电子设备和介质
CN111652246B (zh) * 2020-05-09 2023-04-18 清华大学深圳国际研究生院 一种基于深度学习的图像自适应稀疏化表征方法及装置
CN112085069B (zh) * 2020-08-18 2023-06-20 中国人民解放军战略支援部队信息工程大学 基于集成注意力机制的多目标对抗补丁生成方法及装置
CN112130200B (zh) * 2020-09-23 2021-07-20 电子科技大学 一种基于grad-CAM注意力引导的断层识别方法
CN112489033A (zh) * 2020-12-13 2021-03-12 南通云达信息技术有限公司 基于分类权重的混凝土养护箱的清洁效果的检测方法
CN112651407B (zh) * 2020-12-31 2023-10-20 中国人民解放军战略支援部队信息工程大学 一种基于区分性反卷积的cnn可视化方法
CN112884021B (zh) * 2021-01-29 2022-09-02 之江实验室 一种面向深度神经网络可解释性的可视分析系统
CN113194334B (zh) * 2021-04-16 2023-06-06 厦门智瞳科技有限公司 一种保护隐私的图像处理方法、装置、终端及存储介质
CN113256592B (zh) * 2021-06-07 2021-10-08 中国人民解放军总医院 图像特征提取模型的训练方法、系统及装置
CN113536003B (zh) * 2021-06-08 2024-03-12 支付宝(杭州)信息技术有限公司 特征提取模型训练方法、图像检索方法、装置和设备
CN113449612B (zh) * 2021-06-15 2022-06-07 燕山大学 一种基于子流型稀疏卷积的三维目标点云识别的方法
CN113378973B (zh) * 2021-06-29 2023-08-08 沈阳雅译网络技术有限公司 一种基于自注意力机制的图像分类方法
CN114078230B (zh) * 2021-11-19 2023-08-25 西南交通大学 一种自适应特征融合冗余优化的小目标检测方法
CN114419327B (zh) * 2022-01-18 2023-07-28 北京百度网讯科技有限公司 图像检测方法和图像检测模型的训练方法、装置
CN115455408B (zh) * 2022-09-14 2023-04-07 中国电子科技集团公司第十五研究所 一种网络空间推演与安全评估方法及装置
CN115294406B (zh) * 2022-09-30 2022-12-20 华东交通大学 基于属性的多模态可解释分类的方法与系统
CN115953622B (zh) * 2022-12-07 2024-01-30 广东省新黄埔中医药联合创新研究院 一种结合注意力互斥正则的图像分类方法
CN116201316B (zh) * 2023-04-27 2023-07-07 佛山市佳密特防水材料有限公司 大规格瓷砖的密缝铺贴方法及系统
CN116894884B (zh) * 2023-09-06 2023-12-05 山东科技大学 基于加权损失函数彩色图像处理方法、系统、设备及介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110059582B (zh) * 2019-03-28 2023-04-07 东南大学 基于多尺度注意力卷积神经网络的驾驶员行为识别方法
CN110334765B (zh) * 2019-07-05 2023-03-24 西安电子科技大学 基于注意力机制多尺度深度学习的遥感影像分类方法
CN110516596B (zh) * 2019-08-27 2023-03-24 西安电子科技大学 基于Octave卷积的空谱注意力高光谱图像分类方法

Also Published As

Publication number Publication date
CN111046962A (zh) 2020-04-21

Similar Documents

Publication Publication Date Title
CN111046962B (zh) 基于稀疏注意力的卷积神经网络模型的特征可视化方法及系统
Theis et al. Faster gaze prediction with dense networks and fisher pruning
US11537873B2 (en) Processing method and system for convolutional neural network, and storage medium
CN113240580B (zh) 一种基于多维度知识蒸馏的轻量级图像超分辨率重建方法
US9704257B1 (en) System and method for semantic segmentation using Gaussian random field network
WO2020239026A1 (zh) 图像处理方法及装置、神经网络的训练方法、存储介质
CN111191663B (zh) 车牌号码识别方法、装置、电子设备及存储介质
CN105069825A (zh) 基于深度置信网络的图像超分辨率重建方法
CN108596240B (zh) 一种基于判别特征网络的图像语义分割方法
CN112036260B (zh) 一种自然环境下多尺度子块聚合的表情识别方法及系统
CN109544559A (zh) 图像语义分割方法、装置、计算机设备和存储介质
CN112669324B (zh) 基于时序特征聚合和条件卷积的快速视频目标分割方法
CN112257855A (zh) 一种神经网络的训练方法及装置、电子设备及存储介质
CN114565628A (zh) 一种基于边界感知注意的图像分割方法及系统
CN112528077B (zh) 基于视频嵌入的视频人脸检索方法及系统
CN113869396A (zh) 基于高效注意力机制的pc屏幕语义分割方法
CN117078551A (zh) 结合双分支核自适应和多尺度融合的水下图像增强方法
CN110020986B (zh) 基于欧氏子空间群两重映射的单帧图像超分辨率重建方法
CN112365451A (zh) 图像质量等级的确定方法、装置、设备及计算机可读介质
CN109583584B (zh) 可使具有全连接层的cnn接受不定形状输入的方法及系统
CN116563862A (zh) 一种基于卷积神经网络的数字识别方法
CN114155540B (zh) 基于深度学习的文字识别方法、装置、设备及存储介质
CN115797642A (zh) 基于一致性正则化与半监督领域自适应图像语义分割算法
CN115018729A (zh) 一种面向内容的白盒图像增强方法
CN114299193A (zh) 一种基于神经网络的黑白视频上色方法、系统、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant