CN116071582A - 一种空间和通道加权和动态非对称卷积的物体识别方法 - Google Patents

一种空间和通道加权和动态非对称卷积的物体识别方法 Download PDF

Info

Publication number
CN116071582A
CN116071582A CN202211689883.2A CN202211689883A CN116071582A CN 116071582 A CN116071582 A CN 116071582A CN 202211689883 A CN202211689883 A CN 202211689883A CN 116071582 A CN116071582 A CN 116071582A
Authority
CN
China
Prior art keywords
convolution
attention
channel
spatial
asymmetric
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211689883.2A
Other languages
English (en)
Inventor
陈滨
王秦科
邵艳利
魏丹
王兴起
方景龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202211689883.2A priority Critical patent/CN116071582A/zh
Publication of CN116071582A publication Critical patent/CN116071582A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种空间和通道加权和动态非对称卷积的物体识别方法,本发明通过提出的非对称卷积组对平方卷积进行重构,加强卷积局部信息与全局信息的内在联系,使得网络获得3个不同卷积部位的特征,增强模型学习能力。其中,非对称卷积组针对平方卷积的骨干部分进行重构,增加卷积对局部显著特征的捕获。这种局部显著信息能够帮助模型更好的获得物体特征上下文语义信息,提高模型对物体识别准确率。

Description

一种空间和通道加权和动态非对称卷积的物体识别方法
技术领域
本发明属于图像识别领域。具体涉及一种基于空间信息分析与特征通道加权方法改进的卷积神经网络模型。
背景技术
图像是人类感知事物的视觉基础,人们可以通过图像从外界获得重要信息,因此让机器自动完成图像识别、分类具有重要意义。在图像领域,高效的特征提取算法是主要的研究方向之一,特征提取技术的发展有助于图像分类性能的提升。深度学习算法在图像分类方面的应用已经取得突破性进展。它通过建立、模拟人脑的分层结构,对外部输入的声音、图像、文本等数据进行特征提取,获取低维和高维的特征表示,从中得到表征能力更强的特征。所以深度学习在图像分类领域具有广阔的应用空间,尤其是卷积神经网络。这种网络是一种广泛被使用的深度学习模型,其优点是能够直接对图像像素进行卷积,从图像像素中提取图像特征。另外,卷积神经网络的权值共享属性和池化层使网络重待训练的参数量减少,简化网络模型,提高训练的效率。然而,当前流行的深度网络都具有相同的静态推理范式:一旦完成训练,网络的结构与参数在测试阶段都保持不变,对不同图像做相同的特征提取,在一定程度上限制了模型的表征能力、推理效率和可解释性。
现有的研究针对卷积神经网络中的基础卷积层进行改进,提出不同类型的卷积改进方式,如内容自适应卷积和卷积重新参数化方法。这些方法的特点是在不改变网络模型的深度条件下,增加卷积的复杂性提高模型的性能。其中,卷积重新参数化方法遵循卷积的可加性原则,利用复杂的卷积结构进行训练,在推理过程中将其等价的转化为传统卷积,提高传统卷积的表达能力。内容自适应卷积根据输入图像信息使得卷积适用图像的内容,其中的注意力机制快速扫描全局图像,获得需要重点关注的卷积核,然后对该卷积核投入更多注意力资源,以获取更多所需要关注目标的细节信息,而抑制其他不相关信息。
但上述两种技术单独使用都存在一定的局限性,主要体现在:卷积重新参数化方法原理是在训练过程阶段获取样本中更多不同卷积尺度下的特征信息,此方法导致模型的训练时间成本升高,但模型性能提升有限。目前内容自适应卷积仅仅局限于对内核空间的多个维度(卷积核数、空间大小、输入通道数和输出通道数等)赋予卷积核动态属性,没有利用卷积核中整体与局部的相关性,最终使得模型无法充分利用特征点的局部信息。
发明内容
本发明针对现有技术的不足,提出一种基于空间和通道加权和动态非对称卷积的物体识别方法。
本发明对ResNet网络结构进行了改进,该模块由一个非对称卷积组(包含一个3x1卷积和一个1x 3卷积)和一个平方形卷积构成,这些卷积核通过双注意力机制进行聚合生成新的卷积核。这种生成卷积的方式赋予卷积核动态属性,可以针对不同的输入图像采取不同的特征提取方式。凭借上述的动态属性,网络能够摆脱静态推理范式的限制,提升网络的表征能力。基于空间和通道加权和动态非对称卷积的物体识别方法的核心为使用非对称卷积核组与平方卷积并行的方式对图像进行卷积操作,从全局的视角对图像中局部显著特征进行编码,从而提取出更加有效的特征图上下文语义信息。针对空间信息和特征通道的两种信息维度,该方法使用空间注意力增强模块对特征图中空间显著信息的捕获能力。模块通过整合所有通道映射中的相关特征来生产通道注意力,以此选择性地强调相互依赖的通道映射。
本发明方法具体包括以下步骤:
步骤1:输入图像,并对图像进行预处理,得到预处理后的图像I;
步骤2:通过改进ResNet网络结构获取新的特征图
Figure BDA0004020863840000021
步骤2-1:改进后的ResNet网络结构中的卷积层使用全局平均池化层压缩图像I的全局空间信息,然后先后经过一层全连接层和激活函数ReLu获得初步的注意力信息G;
步骤2-2:将注意力信息G分别经过通道全连接层和空间全连接层,计算出空间和通道注意力权重;
步骤2-3:空间注意力将平方卷积与非对称卷积组进行聚合;
首先使用零填充的方法将非对称卷积组中的卷积等价转换成3x 3卷积;然后3个卷积核分别与其对应的空间注意力权重加权;最后进行叠加得到新的卷积核参数
Figure BDA0004020863840000022
若需要使用偏置,则设置3个偏置值分别对应一个平方卷积、一个3x 1卷积和一个1x 3卷积;这些偏置值与其对应卷积的空间注意力参数进行聚合获得新偏置值
Figure BDA0004020863840000023
步骤2-4:通道注意力通过乘法逐通道加权到最开始的图像I得到新的特征图
Figure BDA0004020863840000024
步骤3:特征提取
卷积核参数
Figure BDA0004020863840000031
和偏置值
Figure BDA0004020863840000032
组成新的卷积层L,特征图
Figure BDA0004020863840000033
经过卷积层L进行特征提取,获得最后的特征输出。
作为优选,步骤1中所诉的注意力解码层在传统SENet模块的基础上改进注意力生成方式,一共包含三个全连接层,具体为:
所述的原SENet模块计算公式如下:
Figure BDA0004020863840000037
Fsq为全局平均池化卷积,I为输入图像,Fex为一个全链接层和ReLU激活函数,
Figure BDA0004020863840000036
为通道注意力;此外,动态非对称卷积方法使用两个全连接层生成两种注意力,具体定义如下:
G=Fex(Fsq(I))    (2)
Figure BDA0004020863840000034
π=f(fk(G)/t)        (4)
fc和fk分别是通道和空间全连接层,f表示Softmax激活函数,π={π1,π2,π3}为空间注意力,t表示退火机制中的温度。
作为优选,计算空间注意力权重时通过Softmax函数对空间注意力的输出进行归一化,以促进空间注意力的学习;对空间注意力采用退火机制以抑制Softmax函数的one-hot输出,保证空间注意力在训练初期相对平均,以促进非对称卷积组和平方卷积的学习。
作为优选,所述的空间注意力将平方卷积与非对称卷积组进行聚合,其中非对称卷积组中的卷积尺寸为:(3,1,C)和(1,3,C),平方卷积的尺寸为:(3,3,C),C表示通道数;通过重构的方式将3x 1和1x 3的卷积核恒等映射合并到3x 3卷积堆栈中;首先3x 1和1x 3卷积通过零填充的方式等价转化为3x 3的卷积;利用公式(5),三个卷积核与空间注意力对应相乘后叠加,最终得到一个新的3x 3卷积核,具体如下:
Figure BDA0004020863840000035
Figure BDA0004020863840000041
其中,公式(5)中的
Figure BDA0004020863840000042
表示核元素相加,Wk分别表示三个卷积核参数矩阵,πk表示对应卷积核的空间注意力权值,
Figure BDA0004020863840000043
表示聚合的卷积核权重。
作为优选,所述的聚合获得新偏置值,具体采用计算公式如下:
Figure BDA0004020863840000044
其中,bk为第k个偏置值,
Figure BDA0004020863840000045
表示聚合的偏置参数。
作为优选所述的通道注意力通过乘法逐通道加权到最开始的图像I得到新的特征图
Figure BDA0004020863840000046
其实现模型能够充分利用不同通道之间的相关信息,计算公式如下:
Figure BDA0004020863840000047
其中,Fscale为矩阵相乘操作,
Figure BDA0004020863840000048
为通道注意力。
作为优选,所述的特征提取,具体为:非对称卷积组通过模仿平方卷积的骨干部分获得特征图的局部上下文语义信息,使用局部上下文语义信息加强特征图的全局上下文语义信息;模块使用空间注意力和通道注意力增强特征图在空间和通道维度显著特征的影响因子;具体公式如下:
Figure BDA0004020863840000049
其中
Figure BDA00040208638400000410
为由通道注意力增强的特征图,
Figure BDA00040208638400000411
为3个卷积根据空间注意力进行线性叠加得到的3x3卷积;
Figure BDA00040208638400000412
为3个卷积对应的偏置参数通过同样的方式将偏置参数线性聚合得到的偏置参数;Out表示输出特征,Conv(·)表示卷积计算。
作为优选,所述的退火机制具体实现为:
(1)设置初始温度t=31;
(2)在模型完成一个epoch后,将温度t减3;
(3)重复执行(2)直到温度t变为1。
本发明的有益效果:
1.本发明通过提出的非对称卷积组对平方卷积进行重构,加强卷积局部信息与全局信息的内在联系,使得网络获得3个不同卷积部位的特征,增强模型学习能力。其中,非对称卷积组针对平方卷积的骨干部分进行重构,增加卷积对局部显著特征的捕获。这种局部显著信息能够帮助模型更好的获得物体特征上下文语义信息,提高模型对物体识别准确率。
2.本发明通过双注意力自适应加权,使得模型不仅在空间信息上对目标物体的显著特征提取更加精确,而且能够充分利用不同通道之间的相关信息。因此双注意力机制能够有效解决卷积神经网络中无法对目标物体主体特征充分利用与提取的问题。
附图说明
图1为三种不同深度的ResNet网络模型结构图。
图2为采用动态非对称卷积的ResNet10结构图。
图3为动态非对称卷积结构图。
图4为双注意力生成和通道注意力机制的流程图。
图5为空间注意力机制的流程图。
具体实施方式
为了使本发明的技术方案及优点更加清楚,下面将结合附图和实例对本发明进行详细说明。
步骤1:双注意力解码层,双注意力机制流程如下,结构如附图4
步骤1-1:如附图4输入图像I通过全局平均池化采集图像的全局空间信息X∈R2x2xC,然后全局空间信息X通过全连接层获得初步的注意力信息G∈R1x1x(C/r),其中r为通道减少倍率。通道减少倍率r能够减少注意力信息G的通道数,以此降低生成注意力的计算成本。
步骤1-2:上述的注意力信息G分别经过通道全连接层和空间全连接层,计算出通道注意力
Figure BDA0004020863840000051
和空间注意力π∈R1x1x3。其中,Softmax函数对空间注意力的输出进行归一化,以促进空间注意力的学习。在训练初期,模块对空间注意力采用退火机制以抑制Softmax函数的one-hot输出,保证空间注意力在训练初期相对平均,以促进卷积核的学习。退火机制具体实现为:
(1)设置初始温度t=31;
(2)在模型完成一个epoch后,将温度t减3;
(3)重复执行(2)直到温度t变为1。
其中,注意力解码层在传统SENet模块的基础上改进注意力生成方式,一共包含三个全连接层。注意力生成的具体定义如下:
G=Fex(Fsq(I))      (1)
Figure BDA0004020863840000061
π=f(fk(G)/t)      (3)
其中,Fsq全局平均池化卷积,I为输入图像,Fex为一个全链接层和ReLU激活函数,fc和fk分别是通道和空间全连接层,f表示Softmax激活函数,π={π1,π2,π3}为空间注意力,t表示退火机制中的温度。
步骤2:双注意力应用方式
步骤2-1:空间注意力将平方卷积与非对称卷积组进行聚合。首先使用零填充的方法将非对称卷积组中的卷积等价转换成3x 3卷积。然后3个卷积核分别与其对应的空间注意力权重相乘。最后进行相加得到新的卷积核参数
Figure BDA0004020863840000062
空间注意力对卷积参数进行重构如附图5。首先,3x 1和1x 3的卷积核通过零填充的方式等价转换为3x 3的卷积。三个卷积核根据公式(4)与空间注意力对应相乘后叠加为一个3x 3卷积,最终得到一个新的3x 3卷积核。如附图5,非对称卷积组模仿平方卷积的骨干部分对平方卷积进行重构。这种方式加强卷积局部与全局信息的内在联系,使得网络增强对特征点局部上下文的获取,以此增强模型学习能力。其中,非对称卷积块增加局部显著特征的影响因子,并通过空间注意力选择性地聚焦于卷积核中的重要区域,这种局部显著信息能够更好的获得物体特征信息,提高模型对物体识别准确率。具体如下:
Figure BDA0004020863840000063
Figure BDA0004020863840000064
其中,公式(4)中的
Figure BDA0004020863840000065
表示对应核元素相加,Wk分别表示三个卷积核参数矩阵,πk表示对应卷积核的空间注意力权值,
Figure BDA0004020863840000066
表示聚合的卷积核权重。
步骤2-2:若卷积层需要使用偏置值,则在动态非对称卷积中设置3个偏置值,而这些偏置值与模块中的平方卷积和非对称卷积组中的卷积一一对应。这些偏置值根据公式(6)与空间注意力进行聚合获得新偏置值
Figure BDA0004020863840000071
Figure BDA0004020863840000072
其中,bk为第k个偏置值,
Figure BDA0004020863840000073
表示聚合的偏置参数。
步骤2-3:通道注意力与最开始的输入图像I进行矩阵相乘获得新的特征图
Figure BDA0004020863840000074
根据附图4所示,通道注意力根据公式(7)通过乘法逐通道加权到先前的输入图像I得到新的特征图
Figure BDA0004020863840000075
通道注意力整合所有通道映射中的相关特征,以此选择性地强调相互依赖的通道映射。通道注意力通过增强和抑制特征通道中的信息,影响与其相互依赖的非对称卷积组和平方卷积,以此利用不同通道之间的相关性。计算公式如下:
Figure BDA0004020863840000076
其中,Fscale为矩阵相乘操作。
步骤3:特征提取
根据公式(8)上述卷积核参数
Figure BDA0004020863840000077
和偏置值
Figure BDA0004020863840000078
组成新的卷积层L,特征图
Figure BDA0004020863840000079
经过卷积层L进行特征提取,获得最后的特征输出。
Figure BDA00040208638400000710
其中
Figure BDA00040208638400000711
为由通道注意力增强的特征图,
Figure BDA00040208638400000712
为非对称卷积组和平方卷积根据空间注意力进行线性叠加得到的3x 3卷积。
Figure BDA00040208638400000713
为三个卷积对应的偏置参数通过同样的方式将偏置参数线性聚合得到的偏置参数。Out表示输出特征,Conv(·)表示卷积计算。
根据附图3,模型实现对目标物体的局部显著信息的精确提取。非对称卷积组通过模仿平方卷积的骨干部分获得特征图的局部上下文语义信息,使用局部上下文语义信息加强特征图的全局上下文语义信息。空间注意力和通道注意力不仅帮助模块在空间信息上对目标物体的显著特征更精确提取,而且能够充分利用不同通道之间的相关信息。
根据附图1,我们给出了动态非对称卷积模块具体的使用方式。模块能够很容易地取代标准的3x 3卷积层,从而提升ResNet网络对物体识别性能。根据附图1中的ResNet10结构列表,我们可以搭建如附图2所示的网络结构。
根据表1,在ImageNet数据集中,我们证明动态非对称卷积模块能够提高ResNet网络对物体识别性能。其中,DAC模块的Top-1准确率达到66.678%、72.498%和74.784%,并且相比于基础ResNet网络分别提高4.214%、2.5%和1.49%,并获得最好的准确度。动态非对称卷积通过对卷积参数的动态重构的方法有限地增加模型的计算量,但使得模型性能得到巨大的提升。
Figure BDA0004020863840000081
表1

Claims (8)

1.一种空间和通道加权和动态非对称卷积的物体识别方法,其特征在于,该方法具体包括以下步骤:
步骤1:输入图像,并对图像进行预处理,得到预处理后的图像I;
步骤2:通过改进ResNet网络结构获取新的特征图
Figure FDA0004020863830000011
步骤2-1:改进后的ResNet网络结构中的卷积层使用全局平均池化层压缩图像I的全局空间信息,然后先后经过一层全连接层和激活函数ReLu获得初步的注意力信息G;
步骤2-2:将注意力信息G分别经过通道全连接层和空间全连接层,计算出空间和通道注意力权重;
步骤2-3:空间注意力将平方卷积与非对称卷积组进行聚合;
首先使用零填充的方法将非对称卷积组中的卷积等价转换成3x 3卷积;然后3个卷积核分别与其对应的空间注意力权重加权;最后进行叠加得到新的卷积核参数
Figure FDA0004020863830000012
若需要使用偏置,则设置3个偏置值分别对应一个平方卷积、一个3x 1卷积和一个1x 3卷积;这些偏置值与其对应卷积的空间注意力参数进行聚合获得新偏置值
Figure FDA0004020863830000013
步骤2-4:通道注意力通过乘法逐通道加权到最开始的图像I得到新的特征图
Figure FDA0004020863830000014
步骤3:特征提取
卷积核参数
Figure FDA0004020863830000015
和偏置值
Figure FDA0004020863830000016
组成新的卷积层L,特征图
Figure FDA0004020863830000017
经过卷积层L进行特征提取,获得最后的特征输出。
2.根据权利要求1所述的一种空间和通道加权和动态非对称卷积的物体识别方法,其特征在于:步骤1中所诉的注意力解码层在传统SENet模块的基础上改进注意力生成方式,一共包含三个全连接层,具体为:
所述的原SENet模块计算公式如下:
Figure FDA0004020863830000018
Fsq为全局平均池化卷积,I为输入图像,Fex为一个全链接层和ReLU激活函数,
Figure FDA0004020863830000021
为通道注意力;此外,动态非对称卷积方法使用两个全连接层生成两种注意力,具体定义如下:
G=Fex(Fsq(I))            (2)
Figure FDA0004020863830000022
π=f(fk(G)/t)             (4)
fc和fk分别是通道和空间全连接层,f表示Softmax激活函数,π={π1,π2,π3}为空间注意力,t表示退火机制中的温度。
3.根据权利要求1所述的一种空间和通道加权和动态非对称卷积的物体识别方法,其特征在于:计算空间注意力权重时通过Softmax函数对空间注意力的输出进行归一化,以促进空间注意力的学习;对空间注意力采用退火机制以抑制Softmax函数的one-hot输出,保证空间注意力在训练初期相对平均,以促进非对称卷积组和平方卷积的学习。
4.根据权利要求1所述的一种空间和通道加权和动态非对称卷积的物体识别方法,其特征在于:所述的空间注意力将平方卷积与非对称卷积组进行聚合,其中非对称卷积组中的卷积尺寸为:(3,1,C)和(1,3,C),平方卷积的尺寸为:(3,3,C),C表示通道数;通过重构的方式将3x1和1x3的卷积核恒等映射合并到3x3卷积堆栈中;首先3x1和1x3卷积通过零填充的方式等价转化为3x3的卷积;利用公式(5),三个卷积核与空间注意力对应相乘后叠加,最终得到一个新的3x3卷积核,具体如下:
Figure FDA0004020863830000023
Figure FDA0004020863830000024
其中,公式(5)中的
Figure FDA0004020863830000025
表示核元素相加,Wk分别表示三个卷积核参数矩阵,πk表示对应卷积核的空间注意力权值,
Figure FDA0004020863830000026
表示聚合的卷积核权重。
5.根据权利要求1所述的一种空间和通道加权和动态非对称卷积的物体识别方法,其特征在于:
所述的聚合获得新偏置值,具体采用计算公式如下:
Figure FDA0004020863830000031
其中,bk为第k个偏置值,
Figure FDA0004020863830000032
表示聚合的偏置参数。
6.根据权利要求1所述的一种空间和通道加权和动态非对称卷积的物体识别方法,其特征在于:所述的通道注意力通过乘法逐通道加权到最开始的图像I得到新的特征图
Figure FDA0004020863830000033
其实现模型能够充分利用不同通道之间的相关信息,计算公式如下:
Figure FDA0004020863830000034
其中,Fscale为矩阵相乘操作,
Figure FDA0004020863830000035
为通道注意力。
7.根据权利要求1所述的一种空间和通道加权和动态非对称卷积的物体识别方法,其特征在于:所述的特征提取,具体为:非对称卷积组通过模仿平方卷积的骨干部分获得特征图的局部上下文语义信息,使用局部上下文语义信息加强特征图的全局上下文语义信息;模块使用空间注意力和通道注意力增强特征图在空间和通道维度显著特征的影响因子;具体公式如下:
Figure FDA0004020863830000036
其中
Figure FDA0004020863830000037
为由通道注意力增强的特征图,
Figure FDA0004020863830000038
为3个卷积根据空间注意力进行线性叠加得到的3x3卷积;
Figure FDA0004020863830000039
为3个卷积对应的偏置参数通过同样的方式将偏置参数线性聚合得到的偏置参数;Out表示输出特征,Conv(·)表示卷积计算。
8.根据权利要求3所述的一种空间和通道加权和动态非对称卷积的物体识别方法,其特征在于:所述的退火机制具体实现为:
(1)设置初始温度t=31;
(2)在模型完成一个epoch后,将温度t减3;
(3)重复执行(2)直到温度t变为1。
CN202211689883.2A 2022-12-27 2022-12-27 一种空间和通道加权和动态非对称卷积的物体识别方法 Pending CN116071582A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211689883.2A CN116071582A (zh) 2022-12-27 2022-12-27 一种空间和通道加权和动态非对称卷积的物体识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211689883.2A CN116071582A (zh) 2022-12-27 2022-12-27 一种空间和通道加权和动态非对称卷积的物体识别方法

Publications (1)

Publication Number Publication Date
CN116071582A true CN116071582A (zh) 2023-05-05

Family

ID=86174150

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211689883.2A Pending CN116071582A (zh) 2022-12-27 2022-12-27 一种空间和通道加权和动态非对称卷积的物体识别方法

Country Status (1)

Country Link
CN (1) CN116071582A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117626172A (zh) * 2024-01-26 2024-03-01 南通硅胜新材料科技有限公司 一种真空镀膜的基体前处理工艺

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117626172A (zh) * 2024-01-26 2024-03-01 南通硅胜新材料科技有限公司 一种真空镀膜的基体前处理工艺
CN117626172B (zh) * 2024-01-26 2024-04-12 南通硅胜新材料科技有限公司 一种真空镀膜的基体前处理工艺

Similar Documents

Publication Publication Date Title
CN108717568A (zh) 一种基于三维卷积神经网络的图像特征提取与训练方法
CN109872305A (zh) 一种基于质量图生成网络的无参考立体图像质量评价方法
CN110212528A (zh) 基于生成对抗和双重语义感知的配电网量测数据缺失重构方法
CN109657582A (zh) 人脸情绪的识别方法、装置、计算机设备及存储介质
CN115546032B (zh) 一种基于特征融合与注意力机制的单帧图像超分辨率方法
CN112149802B (zh) 一种语义结构一致的图像内容转换方法
CN107240136A (zh) 一种基于深度学习模型的静态图像压缩方法
CN117036875B (zh) 一种基于融合注意力gan的红外弱小移动目标生成算法
CN116071582A (zh) 一种空间和通道加权和动态非对称卷积的物体识别方法
CN111160392A (zh) 一种基于小波宽度学习系统的高光谱分类方法
CN113269702A (zh) 基于跨尺度特征融合的低曝光静脉图像增强方法
CN112800882A (zh) 一种基于加权双流残差网络的口罩人脸姿态分类方法
CN110728352A (zh) 一种基于深度卷积神经网络的大规模图像分类方法
CN117521742B (zh) 基于深度神经网络模型的轻量化部署图像处理方法
CN113989122A (zh) 图像的超分辨率恢复方法、系统、电子设备及存储介质
Liu et al. Frequency separation-based multi-scale cascading residual block network for image super resolution
CN115439849B (zh) 基于动态多策略gan网络的仪表数字识别方法及系统
CN116612364A (zh) 一种基于信息最大化生成对抗网络的sar图像目标生成方法
CN116503499A (zh) 一种基于循环生成对抗网络的素描画生成方法及系统
CN112446825A (zh) 基于循环生成对抗网络的岩心ct图像超分辨率方法
CN112990336B (zh) 基于竞争注意力融合的深度三维点云分类网络构建方法
CN117036368A (zh) 图像数据处理方法、装置、计算机设备和存储介质
CN112785684B (zh) 一种基于局部信息加权机制的三维模型重建方法
CN114998519A (zh) 一种基于深度学习的三维重建方法及系统
Wang et al. APST-Flow: A Reversible Network-Based Artistic Painting Style Transfer Method.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination