CN116071582A - 一种空间和通道加权和动态非对称卷积的物体识别方法 - Google Patents
一种空间和通道加权和动态非对称卷积的物体识别方法 Download PDFInfo
- Publication number
- CN116071582A CN116071582A CN202211689883.2A CN202211689883A CN116071582A CN 116071582 A CN116071582 A CN 116071582A CN 202211689883 A CN202211689883 A CN 202211689883A CN 116071582 A CN116071582 A CN 116071582A
- Authority
- CN
- China
- Prior art keywords
- convolution
- attention
- channel
- spatial
- asymmetric
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种空间和通道加权和动态非对称卷积的物体识别方法,本发明通过提出的非对称卷积组对平方卷积进行重构,加强卷积局部信息与全局信息的内在联系,使得网络获得3个不同卷积部位的特征,增强模型学习能力。其中,非对称卷积组针对平方卷积的骨干部分进行重构,增加卷积对局部显著特征的捕获。这种局部显著信息能够帮助模型更好的获得物体特征上下文语义信息,提高模型对物体识别准确率。
Description
技术领域
本发明属于图像识别领域。具体涉及一种基于空间信息分析与特征通道加权方法改进的卷积神经网络模型。
背景技术
图像是人类感知事物的视觉基础,人们可以通过图像从外界获得重要信息,因此让机器自动完成图像识别、分类具有重要意义。在图像领域,高效的特征提取算法是主要的研究方向之一,特征提取技术的发展有助于图像分类性能的提升。深度学习算法在图像分类方面的应用已经取得突破性进展。它通过建立、模拟人脑的分层结构,对外部输入的声音、图像、文本等数据进行特征提取,获取低维和高维的特征表示,从中得到表征能力更强的特征。所以深度学习在图像分类领域具有广阔的应用空间,尤其是卷积神经网络。这种网络是一种广泛被使用的深度学习模型,其优点是能够直接对图像像素进行卷积,从图像像素中提取图像特征。另外,卷积神经网络的权值共享属性和池化层使网络重待训练的参数量减少,简化网络模型,提高训练的效率。然而,当前流行的深度网络都具有相同的静态推理范式:一旦完成训练,网络的结构与参数在测试阶段都保持不变,对不同图像做相同的特征提取,在一定程度上限制了模型的表征能力、推理效率和可解释性。
现有的研究针对卷积神经网络中的基础卷积层进行改进,提出不同类型的卷积改进方式,如内容自适应卷积和卷积重新参数化方法。这些方法的特点是在不改变网络模型的深度条件下,增加卷积的复杂性提高模型的性能。其中,卷积重新参数化方法遵循卷积的可加性原则,利用复杂的卷积结构进行训练,在推理过程中将其等价的转化为传统卷积,提高传统卷积的表达能力。内容自适应卷积根据输入图像信息使得卷积适用图像的内容,其中的注意力机制快速扫描全局图像,获得需要重点关注的卷积核,然后对该卷积核投入更多注意力资源,以获取更多所需要关注目标的细节信息,而抑制其他不相关信息。
但上述两种技术单独使用都存在一定的局限性,主要体现在:卷积重新参数化方法原理是在训练过程阶段获取样本中更多不同卷积尺度下的特征信息,此方法导致模型的训练时间成本升高,但模型性能提升有限。目前内容自适应卷积仅仅局限于对内核空间的多个维度(卷积核数、空间大小、输入通道数和输出通道数等)赋予卷积核动态属性,没有利用卷积核中整体与局部的相关性,最终使得模型无法充分利用特征点的局部信息。
发明内容
本发明针对现有技术的不足,提出一种基于空间和通道加权和动态非对称卷积的物体识别方法。
本发明对ResNet网络结构进行了改进,该模块由一个非对称卷积组(包含一个3x1卷积和一个1x 3卷积)和一个平方形卷积构成,这些卷积核通过双注意力机制进行聚合生成新的卷积核。这种生成卷积的方式赋予卷积核动态属性,可以针对不同的输入图像采取不同的特征提取方式。凭借上述的动态属性,网络能够摆脱静态推理范式的限制,提升网络的表征能力。基于空间和通道加权和动态非对称卷积的物体识别方法的核心为使用非对称卷积核组与平方卷积并行的方式对图像进行卷积操作,从全局的视角对图像中局部显著特征进行编码,从而提取出更加有效的特征图上下文语义信息。针对空间信息和特征通道的两种信息维度,该方法使用空间注意力增强模块对特征图中空间显著信息的捕获能力。模块通过整合所有通道映射中的相关特征来生产通道注意力,以此选择性地强调相互依赖的通道映射。
本发明方法具体包括以下步骤:
步骤1:输入图像,并对图像进行预处理,得到预处理后的图像I;
步骤2-1:改进后的ResNet网络结构中的卷积层使用全局平均池化层压缩图像I的全局空间信息,然后先后经过一层全连接层和激活函数ReLu获得初步的注意力信息G;
步骤2-2:将注意力信息G分别经过通道全连接层和空间全连接层,计算出空间和通道注意力权重;
步骤2-3:空间注意力将平方卷积与非对称卷积组进行聚合;
首先使用零填充的方法将非对称卷积组中的卷积等价转换成3x 3卷积;然后3个卷积核分别与其对应的空间注意力权重加权;最后进行叠加得到新的卷积核参数若需要使用偏置,则设置3个偏置值分别对应一个平方卷积、一个3x 1卷积和一个1x 3卷积;这些偏置值与其对应卷积的空间注意力参数进行聚合获得新偏置值
步骤3:特征提取
作为优选,步骤1中所诉的注意力解码层在传统SENet模块的基础上改进注意力生成方式,一共包含三个全连接层,具体为:
所述的原SENet模块计算公式如下:
G=Fex(Fsq(I)) (2)
π=f(fk(G)/t) (4)
fc和fk分别是通道和空间全连接层,f表示Softmax激活函数,π={π1,π2,π3}为空间注意力,t表示退火机制中的温度。
作为优选,计算空间注意力权重时通过Softmax函数对空间注意力的输出进行归一化,以促进空间注意力的学习;对空间注意力采用退火机制以抑制Softmax函数的one-hot输出,保证空间注意力在训练初期相对平均,以促进非对称卷积组和平方卷积的学习。
作为优选,所述的空间注意力将平方卷积与非对称卷积组进行聚合,其中非对称卷积组中的卷积尺寸为:(3,1,C)和(1,3,C),平方卷积的尺寸为:(3,3,C),C表示通道数;通过重构的方式将3x 1和1x 3的卷积核恒等映射合并到3x 3卷积堆栈中;首先3x 1和1x 3卷积通过零填充的方式等价转化为3x 3的卷积;利用公式(5),三个卷积核与空间注意力对应相乘后叠加,最终得到一个新的3x 3卷积核,具体如下:
作为优选,所述的聚合获得新偏置值,具体采用计算公式如下:
作为优选,所述的特征提取,具体为:非对称卷积组通过模仿平方卷积的骨干部分获得特征图的局部上下文语义信息,使用局部上下文语义信息加强特征图的全局上下文语义信息;模块使用空间注意力和通道注意力增强特征图在空间和通道维度显著特征的影响因子;具体公式如下:
其中为由通道注意力增强的特征图,为3个卷积根据空间注意力进行线性叠加得到的3x3卷积;为3个卷积对应的偏置参数通过同样的方式将偏置参数线性聚合得到的偏置参数;Out表示输出特征,Conv(·)表示卷积计算。
作为优选,所述的退火机制具体实现为:
(1)设置初始温度t=31;
(2)在模型完成一个epoch后,将温度t减3;
(3)重复执行(2)直到温度t变为1。
本发明的有益效果:
1.本发明通过提出的非对称卷积组对平方卷积进行重构,加强卷积局部信息与全局信息的内在联系,使得网络获得3个不同卷积部位的特征,增强模型学习能力。其中,非对称卷积组针对平方卷积的骨干部分进行重构,增加卷积对局部显著特征的捕获。这种局部显著信息能够帮助模型更好的获得物体特征上下文语义信息,提高模型对物体识别准确率。
2.本发明通过双注意力自适应加权,使得模型不仅在空间信息上对目标物体的显著特征提取更加精确,而且能够充分利用不同通道之间的相关信息。因此双注意力机制能够有效解决卷积神经网络中无法对目标物体主体特征充分利用与提取的问题。
附图说明
图1为三种不同深度的ResNet网络模型结构图。
图2为采用动态非对称卷积的ResNet10结构图。
图3为动态非对称卷积结构图。
图4为双注意力生成和通道注意力机制的流程图。
图5为空间注意力机制的流程图。
具体实施方式
为了使本发明的技术方案及优点更加清楚,下面将结合附图和实例对本发明进行详细说明。
步骤1:双注意力解码层,双注意力机制流程如下,结构如附图4
步骤1-1:如附图4输入图像I通过全局平均池化采集图像的全局空间信息X∈R2x2xC,然后全局空间信息X通过全连接层获得初步的注意力信息G∈R1x1x(C/r),其中r为通道减少倍率。通道减少倍率r能够减少注意力信息G的通道数,以此降低生成注意力的计算成本。
步骤1-2:上述的注意力信息G分别经过通道全连接层和空间全连接层,计算出通道注意力和空间注意力π∈R1x1x3。其中,Softmax函数对空间注意力的输出进行归一化,以促进空间注意力的学习。在训练初期,模块对空间注意力采用退火机制以抑制Softmax函数的one-hot输出,保证空间注意力在训练初期相对平均,以促进卷积核的学习。退火机制具体实现为:
(1)设置初始温度t=31;
(2)在模型完成一个epoch后,将温度t减3;
(3)重复执行(2)直到温度t变为1。
其中,注意力解码层在传统SENet模块的基础上改进注意力生成方式,一共包含三个全连接层。注意力生成的具体定义如下:
G=Fex(Fsq(I)) (1)
π=f(fk(G)/t) (3)
其中,Fsq全局平均池化卷积,I为输入图像,Fex为一个全链接层和ReLU激活函数,fc和fk分别是通道和空间全连接层,f表示Softmax激活函数,π={π1,π2,π3}为空间注意力,t表示退火机制中的温度。
步骤2:双注意力应用方式
步骤2-1:空间注意力将平方卷积与非对称卷积组进行聚合。首先使用零填充的方法将非对称卷积组中的卷积等价转换成3x 3卷积。然后3个卷积核分别与其对应的空间注意力权重相乘。最后进行相加得到新的卷积核参数
空间注意力对卷积参数进行重构如附图5。首先,3x 1和1x 3的卷积核通过零填充的方式等价转换为3x 3的卷积。三个卷积核根据公式(4)与空间注意力对应相乘后叠加为一个3x 3卷积,最终得到一个新的3x 3卷积核。如附图5,非对称卷积组模仿平方卷积的骨干部分对平方卷积进行重构。这种方式加强卷积局部与全局信息的内在联系,使得网络增强对特征点局部上下文的获取,以此增强模型学习能力。其中,非对称卷积块增加局部显著特征的影响因子,并通过空间注意力选择性地聚焦于卷积核中的重要区域,这种局部显著信息能够更好的获得物体特征信息,提高模型对物体识别准确率。具体如下:
步骤2-3:通道注意力与最开始的输入图像I进行矩阵相乘获得新的特征图根据附图4所示,通道注意力根据公式(7)通过乘法逐通道加权到先前的输入图像I得到新的特征图通道注意力整合所有通道映射中的相关特征,以此选择性地强调相互依赖的通道映射。通道注意力通过增强和抑制特征通道中的信息,影响与其相互依赖的非对称卷积组和平方卷积,以此利用不同通道之间的相关性。计算公式如下:
其中,Fscale为矩阵相乘操作。
步骤3:特征提取
其中为由通道注意力增强的特征图,为非对称卷积组和平方卷积根据空间注意力进行线性叠加得到的3x 3卷积。为三个卷积对应的偏置参数通过同样的方式将偏置参数线性聚合得到的偏置参数。Out表示输出特征,Conv(·)表示卷积计算。
根据附图3,模型实现对目标物体的局部显著信息的精确提取。非对称卷积组通过模仿平方卷积的骨干部分获得特征图的局部上下文语义信息,使用局部上下文语义信息加强特征图的全局上下文语义信息。空间注意力和通道注意力不仅帮助模块在空间信息上对目标物体的显著特征更精确提取,而且能够充分利用不同通道之间的相关信息。
根据附图1,我们给出了动态非对称卷积模块具体的使用方式。模块能够很容易地取代标准的3x 3卷积层,从而提升ResNet网络对物体识别性能。根据附图1中的ResNet10结构列表,我们可以搭建如附图2所示的网络结构。
根据表1,在ImageNet数据集中,我们证明动态非对称卷积模块能够提高ResNet网络对物体识别性能。其中,DAC模块的Top-1准确率达到66.678%、72.498%和74.784%,并且相比于基础ResNet网络分别提高4.214%、2.5%和1.49%,并获得最好的准确度。动态非对称卷积通过对卷积参数的动态重构的方法有限地增加模型的计算量,但使得模型性能得到巨大的提升。
表1
Claims (8)
1.一种空间和通道加权和动态非对称卷积的物体识别方法,其特征在于,该方法具体包括以下步骤:
步骤1:输入图像,并对图像进行预处理,得到预处理后的图像I;
步骤2-1:改进后的ResNet网络结构中的卷积层使用全局平均池化层压缩图像I的全局空间信息,然后先后经过一层全连接层和激活函数ReLu获得初步的注意力信息G;
步骤2-2:将注意力信息G分别经过通道全连接层和空间全连接层,计算出空间和通道注意力权重;
步骤2-3:空间注意力将平方卷积与非对称卷积组进行聚合;
首先使用零填充的方法将非对称卷积组中的卷积等价转换成3x 3卷积;然后3个卷积核分别与其对应的空间注意力权重加权;最后进行叠加得到新的卷积核参数若需要使用偏置,则设置3个偏置值分别对应一个平方卷积、一个3x 1卷积和一个1x 3卷积;这些偏置值与其对应卷积的空间注意力参数进行聚合获得新偏置值
步骤3:特征提取
3.根据权利要求1所述的一种空间和通道加权和动态非对称卷积的物体识别方法,其特征在于:计算空间注意力权重时通过Softmax函数对空间注意力的输出进行归一化,以促进空间注意力的学习;对空间注意力采用退火机制以抑制Softmax函数的one-hot输出,保证空间注意力在训练初期相对平均,以促进非对称卷积组和平方卷积的学习。
4.根据权利要求1所述的一种空间和通道加权和动态非对称卷积的物体识别方法,其特征在于:所述的空间注意力将平方卷积与非对称卷积组进行聚合,其中非对称卷积组中的卷积尺寸为:(3,1,C)和(1,3,C),平方卷积的尺寸为:(3,3,C),C表示通道数;通过重构的方式将3x1和1x3的卷积核恒等映射合并到3x3卷积堆栈中;首先3x1和1x3卷积通过零填充的方式等价转化为3x3的卷积;利用公式(5),三个卷积核与空间注意力对应相乘后叠加,最终得到一个新的3x3卷积核,具体如下:
8.根据权利要求3所述的一种空间和通道加权和动态非对称卷积的物体识别方法,其特征在于:所述的退火机制具体实现为:
(1)设置初始温度t=31;
(2)在模型完成一个epoch后,将温度t减3;
(3)重复执行(2)直到温度t变为1。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211689883.2A CN116071582A (zh) | 2022-12-27 | 2022-12-27 | 一种空间和通道加权和动态非对称卷积的物体识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211689883.2A CN116071582A (zh) | 2022-12-27 | 2022-12-27 | 一种空间和通道加权和动态非对称卷积的物体识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116071582A true CN116071582A (zh) | 2023-05-05 |
Family
ID=86174150
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211689883.2A Pending CN116071582A (zh) | 2022-12-27 | 2022-12-27 | 一种空间和通道加权和动态非对称卷积的物体识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116071582A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117626172A (zh) * | 2024-01-26 | 2024-03-01 | 南通硅胜新材料科技有限公司 | 一种真空镀膜的基体前处理工艺 |
-
2022
- 2022-12-27 CN CN202211689883.2A patent/CN116071582A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117626172A (zh) * | 2024-01-26 | 2024-03-01 | 南通硅胜新材料科技有限公司 | 一种真空镀膜的基体前处理工艺 |
CN117626172B (zh) * | 2024-01-26 | 2024-04-12 | 南通硅胜新材料科技有限公司 | 一种真空镀膜的基体前处理工艺 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108717568A (zh) | 一种基于三维卷积神经网络的图像特征提取与训练方法 | |
CN109872305A (zh) | 一种基于质量图生成网络的无参考立体图像质量评价方法 | |
CN110212528A (zh) | 基于生成对抗和双重语义感知的配电网量测数据缺失重构方法 | |
CN109657582A (zh) | 人脸情绪的识别方法、装置、计算机设备及存储介质 | |
CN115546032B (zh) | 一种基于特征融合与注意力机制的单帧图像超分辨率方法 | |
CN112149802B (zh) | 一种语义结构一致的图像内容转换方法 | |
CN107240136A (zh) | 一种基于深度学习模型的静态图像压缩方法 | |
CN117036875B (zh) | 一种基于融合注意力gan的红外弱小移动目标生成算法 | |
CN116071582A (zh) | 一种空间和通道加权和动态非对称卷积的物体识别方法 | |
CN111160392A (zh) | 一种基于小波宽度学习系统的高光谱分类方法 | |
CN113269702A (zh) | 基于跨尺度特征融合的低曝光静脉图像增强方法 | |
CN112800882A (zh) | 一种基于加权双流残差网络的口罩人脸姿态分类方法 | |
CN110728352A (zh) | 一种基于深度卷积神经网络的大规模图像分类方法 | |
CN117521742B (zh) | 基于深度神经网络模型的轻量化部署图像处理方法 | |
CN113989122A (zh) | 图像的超分辨率恢复方法、系统、电子设备及存储介质 | |
Liu et al. | Frequency separation-based multi-scale cascading residual block network for image super resolution | |
CN115439849B (zh) | 基于动态多策略gan网络的仪表数字识别方法及系统 | |
CN116612364A (zh) | 一种基于信息最大化生成对抗网络的sar图像目标生成方法 | |
CN116503499A (zh) | 一种基于循环生成对抗网络的素描画生成方法及系统 | |
CN112446825A (zh) | 基于循环生成对抗网络的岩心ct图像超分辨率方法 | |
CN112990336B (zh) | 基于竞争注意力融合的深度三维点云分类网络构建方法 | |
CN117036368A (zh) | 图像数据处理方法、装置、计算机设备和存储介质 | |
CN112785684B (zh) | 一种基于局部信息加权机制的三维模型重建方法 | |
CN114998519A (zh) | 一种基于深度学习的三维重建方法及系统 | |
Wang et al. | APST-Flow: A Reversible Network-Based Artistic Painting Style Transfer Method. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |