CN113570035B - 一种利用多层卷积层信息的注意力机制方法 - Google Patents
一种利用多层卷积层信息的注意力机制方法 Download PDFInfo
- Publication number
- CN113570035B CN113570035B CN202110768002.5A CN202110768002A CN113570035B CN 113570035 B CN113570035 B CN 113570035B CN 202110768002 A CN202110768002 A CN 202110768002A CN 113570035 B CN113570035 B CN 113570035B
- Authority
- CN
- China
- Prior art keywords
- convolution
- layer
- features
- information
- layers
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000007246 mechanism Effects 0.000 title claims abstract description 26
- 238000000034 method Methods 0.000 title claims abstract description 14
- 239000011159 matrix material Substances 0.000 claims abstract description 14
- 238000011176 pooling Methods 0.000 claims abstract description 6
- 238000013507 mapping Methods 0.000 claims description 12
- 238000010586 diagram Methods 0.000 claims description 7
- 238000001914 filtration Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 abstract description 5
- 238000003909 pattern recognition Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 3
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000009977 dual effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000001125 extrusion Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
一种利用多层卷积层信息的注意力机制方法,利用当前卷积层的信息以及在它之前两层的卷积层的信息来关注当前层特征的重要性;首先,确定当前层卷积的输出A以及在它之前两层的卷积层的输出A',利用全局平均池化分别得到它们的通道信息,再利用1×1的卷积对通道进行压缩以减少计算量。利用压缩后的特征计算权值矩阵,计算出的权值矩阵作用于A压缩后的特征,进行特征更新。再利用1×1的卷积将更新后的特征恢复到A的维度,与A做残差连接。本发明可以更加突出某一层比较重要的特征,抑制不重要的特征,同时也可以加强特征间的联系。
Description
技术领域
本发明涉及计算机视觉、模式识别与计算机应用领域,具体而言涉及一种利用多层卷积层信息的注意力机制方法。
背景技术
注意力机制在卷积神经网络中的作用已经越来越突出,应用范围也越来越广泛。目前的注意力机制分两大类别即软注意力和硬注意力,大多数注意力机制都是软注意力机制。软注意力机制是给不同的特征配权重,突出重要的特征,抑制不重要的特征。硬注意力是为了消除不相关信息的干扰,提高计算率。从作用域来分,注意力机制可分为三类:通道注意力机制、空间注意力机制、通道-空间注意力机制。通道注意力是关注哪种特征更重要,空间注意力机制是关注哪个位置更重要。通道-空间注意力机制将通道注意力机制和空间注意力机制结合使用。注意力机制可以在增加较少的参数和计算量的条件下,提升网络性能,因此注意力机制在提升网络性能方面具有重要意义。
调研文献发现,已经有许多的注意力模块被提出。如:SENet(J.Hu,L.Shen,S.Albanie,G.Sun,E.Wu.Squeeze-and-Excitation Networks[J].IEEE Transcation onPattern Analysis and Machine Itelligence,2017,42(8):2011-2023.即:J.Hu等.挤压激发网络[J].IEEE模式分析与机器智能,2017,42(8):2011-2023)、CBAM(S.Woo,J.Park,J.Y.Lee,I.S.Kweon.CBAM:Convolutional Block Attention Module[C].Proceedings ofthe European Conference on Computer Vision and Pattern Recognition,2018:3-19.即S.Woo等CBAM:卷积阻塞注意力模块[C].计算机视觉和模式识别欧洲会议记录,2018:3-19.)、RANet(F.Wang,M.jiang,C.Qian,S.Yang,C.Li,H.Zhang,X.Wang,X.Tang.Residualattention network for image classification[C].Proceedings of the IEEEConference on Computer Vision and Pattern Recognition,2017:3156-3164.即F.Wang等,用于图像分类的残差注意力网络[C].计算机视觉和模式识别欧洲会议记录,2017:2156-2164)、DANet(J.Fu,J.Liu,H.Tian,Y.Li,Y.Bao,Z.Fang,H.Lu.Dual AttentionNetwork for Scene Segmentation[C].Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition,2019:3141-3149.即J.Fu等,用于场景分割的双重注意力网络[C].IEEE国际计算机视觉与模式识别会议,2019:3141-3149.)。已有的注意力模块,通过网络学习的方式来确定某一层的权重,这是一个抽象的过程,导致了大多数的注意力模块局限于在某一层中或是通过不同的信息捕获方式给特征配权重,或是关注于减少注意力模块的计算量,或是关注于将作用在不同域的注意力模块结合使用,而这些注意力模块均是使用某一层的信息来关注该层的特征。
综上所述,已有的注意力模块,关注于只用某一层的信息来确定该层特征的重要性,而忽略了不同卷积层特征间的联系。用多层卷积层的特征信息给某一层的特征配权重,可以更突出该层重要的特征,更加抑制不重要的特征。相邻较远的两个卷积层特征间联系较弱,相邻的两个卷积层间特征差异性又较小,设当前卷积层的特征为xi,前一层卷积的特征为xi-1,再前面一层卷积的特征为xi-2,本发明利用xi和xi-2的信息来为xi分配权重,即利用当前卷积层信息和在它之前两层的卷积层的信息来为当前层特征分配权重。
发明内容
为了克服已有的注意力模块仅使用某一层卷积层的信息给该层特征配权重的不足,本发明提出一种利用多层卷积层信息的注意力机制方法。
本发明解决其技术问题所采用的技术方案是:
一种利用多层卷积层信息的注意力机制方法,所述方法包括以下步骤:
1)输入当前卷积层与在它之前两层的卷积层的输出A、A',利用全局平均池化分别获得A和A'的通道信息X、X';
2)利用1×1的卷积将X、X'进行压缩以进一步减少计算量,得到和θ(X′);
3)将θ(X′)做转置,在和θT(X′)之间做矩阵乘法得到/>与θT(X′)的点乘关系,生成/>的权值矩阵M;
4)使用RELU函数,滤除M中小于0的元素;
5)利用1×1卷积,将A映射到M的维度,得到A的映射特征g(A);
6)M与g(A)做矩阵乘法进行特征更新生成新特征图y,y中的每个元素是g(A)中每个通道对应位置元素的加权和,权值是中每个元素与θT(X′)中每个元素的关系;
7)用1×1的卷积将y映射到A的维度,得到新特征图映射后的特征W(y);
8)将W(y)与A做残差连接,保证该注意力模块嵌入已经预训练好的模型时不会破坏它的初始参数。
本发明的技术构思为:用当前卷积层的输出特征与在它之前两层的卷积层的输出特征来共同关注当前卷积层输出的特征中哪些特征比较重要。首先确定要分配权重的卷积层的输出A,然后取出在它之前两层的卷积层的输出A',为减少计算量,关注A和A’的通道特征:利用全局平均池化分别得到A和A’的通道特征X、X'。为进一步减少计算量,采用1×1的卷积对X和X'进行通道压缩,计算压缩后的特征之间的关系M。对A进行降维处理,利用1×1卷积将A降到与M一样的维度得到g(A),M与g(A)的乘积就是突出重要特征后的新特征图y,这个特征图是对A压缩后的特征而言,再利用1×1的卷积将y升回到与A一样的维度与A做残差连接。网络得以更加关注A中比较重要的特征。
本发明的有益效果表现在:利用多层信息关注某一层的特征重要性,可以更加突出该层比较重要特征,抑制不重要的特征;由于计算的是两个不同层的特征进行压缩后的关系,即使本发明的两个输入是不同维度的特征,利用1×1的卷积进行通道压缩,仍然可以得到它们之间的关系。所以本发明可以用在网络的瓶颈部分。
附图说明
图1为一种利用多层卷积层信息的注意力机制方法的结构示意图。
图2为一种利用多层卷积层信息的注意力机制方法的特征更新示意图。
图3为一种利用多层卷积层信息的注意力机制方法嵌入ResNet的示意图。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1、图2和图3,一种利用多层卷积层信息的注意力机制方法,包括以下步骤:
1)输入当前卷积层的输出A以及在它之前两层的卷积层的输出A',利用全局平均池化分别获得A和A'的通道信息X和X';
2)利用1×1的卷积将X、X'进行压缩以进一步减少计算量,得到和θ(X′);
3)将θ(X′)做转置,在和θT(X′)之间做矩阵乘法得到/>与θT(X′)的点乘关系,生成/>的权值矩阵M;
4)使用RELU函数滤除M中小于0的元素;
5)利用1×1卷积,将A映射到M的维度,得到A的映射特征g(A)
6)M与g(A)做矩阵乘法进行特征更新生成新特征图y,y中的每个元素是g(A)中每个通道对应位置元素的加权和,权值是中每个元素与θT(X′)中每个元素的关系;
7)用1×1的卷积将y映射到A的维度,得到新特征图映射后的特征W(y);
8)将W(y)与A做残差连接,保证该注意力模块嵌入已经预训练好的模型时不会破坏它的初始参数
本实施例以嵌入ResNet并应用于图像分类任务为例,一种利用多层卷积层信息的注意力机制方法,包括以下步骤:
1)输入当前卷积层的输出A的维度是B×2C×H/2×W/2,在A之前两层的卷积层的输出A'的维度为B×C×H×W(B、C、H、W分别是A'对应的batch,通道数,特征图的高,特征图的宽),利用全局平均池化获得A和A'的通道信息X、X',X维度是B×2C×1×1,X'维度是B×C×1×1;
2)利用1×1的卷积对X和X'进行压缩以进一步减少计算量,得到与θ(X′),的维度是B×C×1,θ(X′)的维度是B×C×1;
3)将θ(X′)做转置,在和θT(X′)之间做矩阵乘法得到/>与θT(X′)的点乘关系,生成/>的权值矩阵M:M的维度是B×C×C;
4)使用RELU函数滤除M中小于0的元素;
5)利用1×1卷积,将A映射到M的维度,得到A的映射特征g(A):g(A)的维度是B×C×W/2×H/2;
6)M与g(A)做矩阵乘法进行特征更新生成新特征图y:y的维度是B×C×W/2×H/2,y中的每个元素是g(A)中每个通道对应位置元素的加权和,权值是中每个元素与θT(X′)中每个元素的关系;
7)用1×1的卷积将更新后的特征y升到与A一样的维度得到y的映射特征W(y),W(y)的维度是B×2C×W/2×H/2;
8)将W(y)与A做残差连接,保证该注意力模块嵌入已经预训练好的模型时不会破坏它的初始参
9)每两个残差块之间重复上述步骤,最后一个残差块的输出通过全连接层进行分类。
以上说明是本发明以嵌入ResNet并应用于图像分类任务为例进行的说明,并非限定本发明的实施范围,在不偏离本发明基本内容所涉及范围的前提下对其做各种变形和改进,不应排除在本发明的保护范围之外。
Claims (1)
1.一种图像分类的利用多层卷积层信息的注意力机制方法,其特征在于,所述方法包括以下步骤:
1)输入当前卷积层与在它之前两层的卷积层的输出A、A',利用全局平均池化分别获得A和A'的通道信息X、X';
2)利用1×1的卷积将X、X'进行压缩以进一步减少计算量,得到和/>;
3)将做转置,在 />和/>之间做矩阵乘法得到/>与/>的点乘关系,生成/>的权值矩阵M ;
4)使用RELU函数,滤除M中小于0的元素;
5)利用1×1卷积,将A映射到M的维度,得到A的映射特征;
6)M与做矩阵乘法进行特征更新生成新特征图y,y中的每个元素是/>中每个通道对应位置元素的加权和,权值是/>中每个元素与/>中每个元素的关系;
7)用1×1的卷积将y映射到A的维度,得到新特征图映射后的特征;
8)将与A做残差连接,保证注意力模块嵌入已经预训练好的模型时不会破坏它的初始参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110768002.5A CN113570035B (zh) | 2021-07-07 | 2021-07-07 | 一种利用多层卷积层信息的注意力机制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110768002.5A CN113570035B (zh) | 2021-07-07 | 2021-07-07 | 一种利用多层卷积层信息的注意力机制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113570035A CN113570035A (zh) | 2021-10-29 |
CN113570035B true CN113570035B (zh) | 2024-04-16 |
Family
ID=78163960
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110768002.5A Active CN113570035B (zh) | 2021-07-07 | 2021-07-07 | 一种利用多层卷积层信息的注意力机制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113570035B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019095333A1 (zh) * | 2017-11-17 | 2019-05-23 | 华为技术有限公司 | 一种数据处理方法及设备 |
CN111160488A (zh) * | 2020-01-02 | 2020-05-15 | 中国民航大学 | 融合注意力选择机制的CondenseNet算法 |
CN112257647A (zh) * | 2020-11-03 | 2021-01-22 | 徐州工程学院 | 基于注意力机制的人脸表情识别方法 |
CN112613610A (zh) * | 2020-12-25 | 2021-04-06 | 国网江苏省电力有限公司信息通信分公司 | 一种基于联合动态剪枝的深度神经网络压缩方法 |
-
2021
- 2021-07-07 CN CN202110768002.5A patent/CN113570035B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019095333A1 (zh) * | 2017-11-17 | 2019-05-23 | 华为技术有限公司 | 一种数据处理方法及设备 |
CN111160488A (zh) * | 2020-01-02 | 2020-05-15 | 中国民航大学 | 融合注意力选择机制的CondenseNet算法 |
CN112257647A (zh) * | 2020-11-03 | 2021-01-22 | 徐州工程学院 | 基于注意力机制的人脸表情识别方法 |
CN112613610A (zh) * | 2020-12-25 | 2021-04-06 | 国网江苏省电力有限公司信息通信分公司 | 一种基于联合动态剪枝的深度神经网络压缩方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113570035A (zh) | 2021-10-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112132023B (zh) | 基于多尺度上下文增强网络的人群计数方法 | |
CN113592026B (zh) | 一种基于空洞卷积和级联代价卷的双目视觉立体匹配方法 | |
CN113011329A (zh) | 一种基于多尺度特征金字塔网络及密集人群计数方法 | |
CN112419191B (zh) | 基于卷积神经网络的图像运动模糊去除方法 | |
CN113743269B (zh) | 一种轻量化识别视频人体姿态的方法 | |
CN111062278A (zh) | 基于改进残差网络的异常行为识别方法 | |
CN112634163A (zh) | 基于改进型循环生成对抗网络去图像运动模糊方法 | |
CN111798469A (zh) | 基于深度卷积神经网络的数字图像小数据集语义分割方法 | |
CN112633417A (zh) | 一种用于行人重识别的将神经网络模块化的行人深度特征融合方法 | |
CN111931686A (zh) | 一种基于背景知识增强的视频卫星目标跟踪方法 | |
CN112507849A (zh) | 一种基于条件生成对抗网络的动态到静态场景转换方法 | |
CN116563355A (zh) | 一种基于时空交互注意力机制的目标跟踪方法 | |
CN111199255A (zh) | 基于darknet53网络的小目标检测网络模型及检测方法 | |
CN113421187B (zh) | 一种超分辨率重建方法、系统、存储介质、设备 | |
CN113570035B (zh) | 一种利用多层卷积层信息的注意力机制方法 | |
CN113205137A (zh) | 一种基于胶囊参数优化的图像识别方法及系统 | |
CN113256546A (zh) | 一种基于彩色图指导的深度图补全方法 | |
CN117392116A (zh) | 一种超宽幅金属表面瑕疵检测与识别方法 | |
CN113096032A (zh) | 一种基于图像区域划分的非均匀一致模糊去除方法 | |
CN116884074A (zh) | 一种基于混合注意力机制的轻量级人脸识别方法 | |
CN117173595A (zh) | 基于改进YOLOv7的无人机航拍图像目标检测方法 | |
CN116091844A (zh) | 一种基于边缘计算的图像数据处理方法及系统 | |
CN115497164A (zh) | 一种基于图卷积的多视角骨架序列融合方法 | |
CN116229323A (zh) | 一种基于改进的深度残差网络的人体行为识别方法 | |
CN114494284B (zh) | 一种基于显式监督区域关系的场景解析模型及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |