CN113902926B - 一种基于自注意力机制的通用图像目标检测方法和装置 - Google Patents
一种基于自注意力机制的通用图像目标检测方法和装置 Download PDFInfo
- Publication number
- CN113902926B CN113902926B CN202111477045.4A CN202111477045A CN113902926B CN 113902926 B CN113902926 B CN 113902926B CN 202111477045 A CN202111477045 A CN 202111477045A CN 113902926 B CN113902926 B CN 113902926B
- Authority
- CN
- China
- Prior art keywords
- layer
- dimension
- attention
- image
- multiplied
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 56
- 230000007246 mechanism Effects 0.000 title claims abstract description 31
- 239000013598 vector Substances 0.000 claims abstract description 96
- 238000012549 training Methods 0.000 claims abstract description 35
- 238000000034 method Methods 0.000 claims abstract description 28
- 238000004364 calculation method Methods 0.000 claims abstract description 7
- 238000000605 extraction Methods 0.000 claims abstract description 6
- 238000010586 diagram Methods 0.000 claims description 14
- 238000010606 normalization Methods 0.000 claims description 14
- 238000005070 sampling Methods 0.000 claims description 9
- 238000004422 calculation algorithm Methods 0.000 claims description 7
- 150000001875 compounds Chemical class 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 5
- 230000000007 visual effect Effects 0.000 claims description 4
- 235000013399 edible fruits Nutrition 0.000 claims 1
- 230000002708 enhancing effect Effects 0.000 claims 1
- 230000006870 function Effects 0.000 description 13
- 238000012545 processing Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 6
- 238000013461 design Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000012821 model calculation Methods 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 239000011800 void material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种基于自注意力机制的通用图像目标检测方法,该方法是基于DETR模型的改进,其包括对将含边界框标注的训练集图像输入图像特征提取网络,获得图像特征;将图像特征依次通过多头十字交叉注意力模块和多方向交叉注意力模块,获得解码器输出增强目标查询向量;将增强目标查询向量分别通过模型的分类层和回归层得到目标图像物体边界框和物体类别概率;计算网络整体损失对模型进行训练,得到目标检测模型;利用上述模型对待检测图像进行目标检测。本发明相比于DETR模型,在保证目标检测准确的同时,加快模型训练速度,减小模型的计算复杂度,提高模型灵活性与实用性。
Description
技术领域
本发明涉及计算机视觉技术领域,尤其涉及一种基于自注意力机制的通用图像目标检测方法和装置。
背景技术
在计算机视觉领域,目标检测是一项基本任务,其目的是将图像中待检测对象与背景区分开,并预测图像中待检测对象的位置和类别。现有的流行技术基于卷积神经网络。基于该技术目标检测算法可以分为两大类:一类是one-stage算法。其思路是直接产生待检测物体类别概率和坐标位置,不需要产生候选框。另一类算法是two-stage算法。其思路是将检测问题划分为两个部分:首先产生候选区域,然后基于候选区域进行分类和边框回归,得到待检测物体类别概率和坐标位置。
Transformer架构最初应用于自然语言处理领域。其关键的自注意力机制(Self-attention mechanism)使得Transformer架构在不同任务上取得了不错的效果。2020年,Facebook提出DETR模型首次将Transformer架构应用于目标检测领域。它针对基于卷积神经网络的目标检测模型需要不同人工设计步骤的问题。以更加直接的方法简化整个目标检测流程,实现真正地端到端解决目标检测问题。
然而,DETR模型也有其自身地问题:第一:模型收敛速度慢,训练时间长;第二:模型计算量大,这使得DETR模型现阶段难以用于实际应用。
发明内容
针对现有技术的不足,本发明基于Transformer架构,提供了一种基于自注意力机制的通用图像目标检测方法和装置。该方法基于Transformer架构得到图像目标检测模型,收敛速度更快,训练时间更短,计算量更少。
本发明的目的通过如下的技术方案来实现:
一种基于自注意力机制的通用图像目标检测方法,该方法包括如下步骤:
步骤一:将含边界框标注的训练集图像输入图像特征提取网络,获得维度为C×H×W的图像特征;
步骤二:将所述图像特征,输入由L个十字交叉注意力层串联而成的多头十字交叉注意力模块,获得编码器输出特征图;
其中,所述十字交叉注意力层首先通过该层输入的图像特征获得该层多组编码器归一化后的注意力权重A和对应的编码器值向量V;然后通过A和V求出该层初步增强特征图f´;接着,将所述f´替换该层输入的图像特征,再次经过上述步骤,得到中间结果增强特征图;最后将中间结果增强特征图与输入的图像特征对应元素相加,经过该层编码器前馈网络和该层编码器层归一化后,得到该多头十字交叉注意力层输出的增强特征;
步骤三:将所述编码器输出特征图,通过由L个多方向交叉注意力层串联而成的多方向交叉注意力模块,获得解码器输出增强目标查询向量;
所述多方向交叉注意力层首先通过编码器输出特征图获得该层多组解码器归一化后的注意力权重Â和对应的解码器值向量,然后通过所述Â和求出该层融合后的增强目标查询特征q´;最后,改变所述q´维度为N×(M×C),依次经过该层解码器前馈网络和该层解码器层归一化后,得到该层多方向交叉注意力层输出的目标查询向量;
步骤四:将所述解码器输出增强目标查询向量分别通过分类层和回归层得到训练集图像的预测边界框类别概率和位置;
步骤五:将所述训练集图像的预测边界框类别概率和位置,与训练集图像的真实边界框类别和位置信息计算网络整体损失函数,通过反向传播方法对模型进行训练,得到目标检测模型;
步骤六:利用所述目标检测模型对待检测图像进行目标检测,以检测出所述待检测图像中待检测物体。
进一步地,每个多头十字交叉注意力层的操作具体如下:
S2.1:对于第一层多头十字交叉注意力层,将所述图像特征按照第1个维度等分为M组维度为 (C/M)×H×W子图像特征;对于第i层多头十字交叉注意力层,1≤i≤L,i∈Z,将第i-1层多头十字交叉注意力层输出的维度为C×W×H的增强特征fi-1按照第1个维度等分为M组子图像特征,其中第i层输入的第m组子图像特征的维度为(C/M)×H×W ,1≤m≤M,m∈Z ;将第L层多头十字交叉注意力层输出的增强特征fL作为编码器输出特征图;
其中,表示的第u个位置向量,其维度为1×(C/M);表示第u个位置同行同列向量,其维度为(W+H-1)×(C/M);u表示在分辨率维度上的一个位置,{u∈(x,y)|x,y∈Z,1≤x≤W,1≤y≤H};
进一步地,所述步骤三中的每个多方向交叉注意力层进行如下操作:
S3.1:对于第一层多方向交叉注意力层,输入维度为N×C的可学习的目标查询向量,并对所述目标查询向量进行标准正态分布的随机初始化;对于第i层多方向交叉注意力层, 1≤i≤L,i∈Z,将第i-1层多方向交叉注意力层输出的目标查询向量qi-1作为第i层多方向交叉注意力层输入的目标查询向量;将第L层多方向交叉注意力层输出的目标查询向量qL作为解码器输出增强目标查询向量;
S3.2:将所述qi-1输入到两层的多层感知机网络,生成维度为N×4的第i层建议框;将所述第L层多头十字交叉注意力层输出的增强特征fL按照第1个维度等分为M组,第L层多头十字交叉注意力层输出的第m组的子图像特征的维度为(C/M)×H×W;
S3.3:从N个第i层建议框中心出发,对所述均匀向外张开M个方向,在每个方向上使用双线性插值均匀采样K个点,得到维度为NK×M×(C/M)的第i层第m组采样视觉特征向量;通过改变维度的方式将所述qi-1变成维度为N×M×(C/M)的第i层第m组目标查询特征;
S3.4:将所述经过第i层第m组1×1解码器查询向量卷积,得到第i层第m组解码器查询向量,维度为N×M×(C/M);将所述经过第i层第m组1×1解码器匹配键值卷积,得到第i层第m组解码器匹配键值,维度为NK×M×(C/M);
S3.8:将上述所有第i层每组增强目标查询特征在第3个维度拼接后,通过第i层1×1解码器融合卷积,第i层得到融合后的增强目标查询特征,改变维度为N×(M×C),之后经过第i层解码器前馈网络和第i层解码器层归一化,得到第i层多方向交叉注意力层输出的目标查询向量qi,维度为N×C。
进一步地,所述步骤四包括:将所述解码器输出增强目标查询向量分别输入到由两个不同全连接网络组成的分类层和回归层,输出训练集图像的预测边界框类别概率和位置。
进一步地,所述步骤五包括:将所述输出训练集图像的预测边界框类别概率和位置与真实边界框类别和位置信息通过匈牙利匹配算法获得最佳匹配,然后计算分类损失函数和位置回归损失函数之和作为网络整体损失;网络整体损失表达式如下所示:
其中,Lcls表示分类损失函数,计算预测边界框类别概率和真实边界框类别的焦点损失;
LL1表示预测边界框位置和真实边界框位置的L1损失,Lgiou表示预测边界框位置和真实边界框位置的广义的IoU损失,LL1和Lgiou之和表示位置回归损失函数;
λcls、λL1和λgiou分别表示分类损失函数、L1损失和广义的IoU损失对应的权重系数;
最后使用反向传播方法对整个模型进行训练,当网络整体损失不再降低时,得到目标检测模型。
一种基于自注意力机制的通用图像目标检测装置,包括一个或多个处理器,用于实现上述的基于自注意力机制的通用图像目标检测方法。
一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述的基于自注意力机制的通用图像目标检测方法。
本发明具有如下的有益效果:
本发明提供的基于自注意力机制的通用图像目标检测方法,其中多头十字交叉注意力模块和多方向交叉注意力模块使得图像特征中空间信息更好的保留下来。特别地,多方向交叉注意力模块更好地聚集了第L层多头十字交叉注意力层输出的增强特征fL中局部信息,更加有利于检测框的定位。由于上述所设计的适合目标检测任务的操作,模型在一定程度上降低计算量;在保持精度一定的情况下,加快模型训练速度和收敛速度。
附图说明
图1为本发明提供的基于自注意力机制的通用图像目标检测方法的流程示意图;
图2为本发明提供的基于自注意力机制的通用图像目标检测方法的网络架构图;
图3为多方向交叉注意力模块采样示例图(图示张开16个方向,每个方向采样3个点)。
图4为本发明提供的基于自注意力机制的通用图像目标检测装置的结构框图。
具体实施方式
下面根据附图和优选实施例详细描述本发明,本发明的目的和效果将变得更加明白,应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
首先就本发明的技术术语进行解释说明:
ResNet50,ResNet50-DC5:ResNet是残差神经网络,由2015年提出并获得同年ILSVRC冠军。其主要贡献是通过快捷连接(Shortcut connection),消除了深度过大网络训练困难的问题;ResNet50表示50层的ResNet网络。ResNet50-DC5中DC5表示最后一个stage采用空洞率和stride相同的设置。目的是在不进行下采样基础上扩大感受野,输出特征图保持不变。
FPN:FPN是特征金字塔网络,于2017年提出,目的是采用特征金字塔做目标检测,通过自下而上网络提取不同网络层特征图,然后经过自上而下的网络融合特征图,最后在每一不同分辨率特征图上进行目标检测任务。这种特征融合和分而治之的思路被证明能够有效提高目标检测任务效果。
DETR:DEtection TRansformer模型的简称,于2020年提出。该模型将网络简化为图像特征提取模块,编码器和解码器模块,其中编码器模块使用多头自注意力机制获得编码后的序列特征;解码器模块通过输入可学习的目标查询向量和编码后的序列特征,使用多头自注意力机制获得增强的目标查询向量,最后通过两个不同的前馈网络获得待检测对象类别概率和边界框位置,从而实现端到端的目标检测流程。
请参阅图1,本发明实施例提供的基于自注意力机制的通用图像目标检测方法包括以下步骤:
S100、将含边界框标注的训练集图像输入图像特征提取网络,获得维度为C×W×H的图像特征;
在本实例中,所述输入图像特征提取网络可以使用不同种类的卷积神经网络来提取图像特征。
S200、将所述图像特征,通过由L个十字交叉注意力层串联而成的多头十字交叉注意力模块,获得编码器输出特征图;
在本发明中,考虑到编码器设计应该关注全局信息的同时,针对DETR模型将二维图像特征转化为一维序列进行预测的设计会损失图像空间信息这一问题。本发明在该部分使用十字交叉注意力来进行改进。进一步地,考虑模型训练和其实际计算效率,本发明设计了多头十字交叉注意力模块来优化该部分。
所述多头十字交叉注意力模块请参阅图2,该模块由L个多头十字交叉注意力层组成,整体模块输入S100的图像特征,输出第L层多头十字交叉注意力层输出的增强特征,即编码器输出特征图。
所述十字交叉注意力层的操作用公式表达如下:
上述公式中,Wmq是该层第m组1×1编码器查询向量卷积,fu是该层第u个位置输入图像特征,ωu是该层第u个位置同行同列输入图像特征,Wmk是该层第m组1×1编码器匹配键值卷积,C为输出输入图像特征通道数,M是该层分组的总组数。
然后采用下列公式得到该层初步增强特征图f´:
上述公式中,Wm是该层第m组1×1编码器融合卷积,Wmv是该层1×1编码器值向量卷积。
接着,将所述该层初步增强特征图f´再重复上述步骤,得到中间结果增强特征图。将中间结果增强特征图与输入图像特征对应元素相加,得到该层再次增强特征图f´´。
最后,将所述f´´依次经过该层编码器前馈网络(feed-forward network)和该层编码器层归一化(Layer Normalization),得到该层多头十字交叉注意力层输出的增强特征。
具体地,每一个多头十字交叉注意力层具体步骤如下所述:
(1)对于第一层多头十字交叉注意力层,将所述图像特征按照第1个维度等分为M组维度为 (C/M)×H×W子图像特征;对于第i层多头十字交叉注意力层,1≤i≤L,i∈Z,将第i-1层多头十字交叉注意力层输出的维度为C×H×W的增强特征fi-1按照第1个维度等分为M组子图像特征,其中第i层输入的第m组子图像特征的维度为(C/M)×H×W ,1≤m≤M,m∈Z ;将第L层多头十字交叉注意力层输出的增强特征fL作为编码器输出特征图。
其中,表示的第u个位置向量,其维度为1×(C/M);表示第u个位置同行同列向量,其维度为(W+H-1)×(C/M);u表示在分辨率维度上的一个位置,{u∈(x,y)|x,y∈Z,1≤x≤W,1≤y≤H};
S300、将所述编码器输出特征图,通过由L个多方向交叉注意力层串联而成的多方向交叉注意力模块,获得解码器输出增强目标查询向量;
本发明该部分是针对DETR在解码器中将全局信息作为序列进行处理的操作进行优化。动机在于考虑到图像空间信息和上下文语义信息对于目标检测任务的重要性。从而本发明解码器的设计更关注于局部的上下文语义信息而不是全局信息。从而本发明提出了多方向交叉注意力模块。
所述多方向交叉注意力模块请参阅图2和3,该模块包括L个多方向交叉注意力层组成。整体模块输入编码器输出特征图,输出第L层多方向交叉注意力层输出的目标查询向量,即解码器输出增强目标查询向量。
所述多方向交叉注意力层的执行过程通过公式表达如下:
首先,由下述公式计算得到该层第m组第2维度第j个解码器归一化后的注意力权重Âmj:
上述公式中,Ŵmq是该层第m组1×1解码器查询向量卷积,qqj是该层多方向交叉注意力层输入第2维度第j个的目标查询向量;Ŵmk是该层第m组1×1解码器匹配键值卷积,是该层采样视觉特征向量,即编码器输出特征图;
然后采用下列公式得到该层融合后的增强目标查询特征q´:
上述公式中,Ŵmv是该层第m组1×1解码器值向量卷积,Ŵm是该层第m组1×1解码器融合卷积。
最后,改变所述q´维度为N×(M×C),之后依次经过该层解码器前馈网络和该层解码器层归一化,得到该层多方向交叉注意力层输出的目标查询向量。
进一步地,每个多方向交叉注意力层具体步骤如下所述:
(1)对于第一层多方向交叉注意力层,输入维度为N×C的可学习的目标查询向量,并对所述目标查询向量进行标准正态分布的随机初始化;对于第i层多方向交叉注意力层,1≤i≤L,i∈Z,将第i-1层多方向交叉注意力层输出的目标查询向量qi-1作为第i层多方向交叉注意力层输入的目标查询向量;将第L层多方向交叉注意力层输出的目标查询向量qL作为解码器输出增强目标查询向量。
(2)将所述qi-1输入到两层的多层感知机网络,生成维度为N×4的第i层建议框;将所述第L层多头十字交叉注意力层输出的增强特征fL按照第1个维度等分为M组,第L层多头十字交叉注意力层输出的第m组的子图像特征的维度为(C/M)×H×W。
(3)从N个第i层建议框中心出发,对所述均匀向外张开M个方向,在每个方向上使用双线性插值均匀采样K个点,得到维度为NK×M×(C/M)的第i层第m组采样视觉特征向量;通过改变维度的方式将所述qi-1变成维度为N×M×(C/M)的第i层第m组目标查询特征。
(4)将所述经过第i层第m组1×1解码器查询向量卷积,得到第i层第m组解码器查询向量,维度为N×M×(C/M);将所述经过第i层第m组1×1解码器匹配键值卷积,得到第i层第m组解码器匹配键值,维度为NK×M×(C/M)。
(8)将上述所有第i层每组增强目标查询特征在第3个维度拼接后,通过第i层1×1解码器融合卷积,第i层得到融合后的增强目标查询特征,改变维度为N×(M×C),之后经过第i层解码器前馈网络和第i层解码器层归一化,得到第i层多方向交叉注意力层输出的目标查询向量qi,维度为N×C。
S400、将所述解码器输出增强目标查询向量分别通过分类层和回归层得到训练集图像的预测边界框类别概率和位置。
在本实例中,请参阅图2,将解码器输出增强目标查询向量分别输出到由两个不同全连接网络组成的分类层和回归层输出训练集图像的预测边界框类别概率和位置。其中,解码器输出增强目标查询向量即所述第L层多方向交叉注意力层输出的目标查询向量qL。
S500、将所述训练集图像的预测边界框类别概率和位置和训练集图像的真实边界框类别和位置信息计算网络整体损失,通过反向传播方法对模型进行训练,得到目标检测模型;
在本实例中,将所述输出训练集图像的预测边界框类别概率和位置与真实边界框类别和位置信息通过匈牙利匹配算法获得最佳匹配,然后计算分类损失函数和位置回归损失函数之和作为网络整体损失。网络整体损失表达式如下所示:
其中,Lcls表示分类损失函数,计算预测边界框类别概率和真实边界框类别的焦点损失。
LL1表示预测边界框位置和真实边界框位置的L1损失,Lgiou表示预测边界框位置和真实边界框位置的广义的IoU损失,LL1和Lgiou之和表示位置回归损失函数。
λcls、λL1和λgiou分别表示分类损失函数、L1损失和广义的IoU损失对应的权重系数。
最后使用反向传播方法对整个模型进行训练,当网络整体损失不再降低时,得到目标检测模型。
S600、利用所述目标检测模型对待检测图像进行目标检测,以检测出所述待检测图像中待检测物体。
与前述基于自注意力机制的通用图像目标检测方法的实施例相对应,本发明还提供了基于自注意力机制的通用图像目标检测装置的实施例。
参见图4,本发明实施例提供的一种基于自注意力机制的通用图像目标检测装置,包括一个或多个处理器,用于实现上述实施例中的基于自注意力机制的通用图像目标检测方法。
本发明基于自注意力制的通用图像目标检测装置的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图4所示,为本发明基于自注意力机制的通用图像目标检测装置所在任意具备数据处理能力的设备的一种硬件结构图,除了图4所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中的基于自注意力机制的通用图像目标检测方法。
所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是外部存储设备,例如所述设备上配备的插接式硬盘、智能存储卡(SmartMedia card, SMC)、SD卡、闪存卡(Flash card)等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算仉程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储己经输出或者将要输出的数据。
为了验证本发明有效性,将本发明在COCO 2017训练集上进行训练,使用L=6层多头十字交叉注意力层和多方向交叉注意力层。在所述多头十字交叉注意力模块和多方向交叉注意力模块中取M=16,K=3,N=300。网络整体损失表达式中λcls=2,λL1=5,λgiou=2。为了更好对比,同时实现了已有的同规模DETR作为参考。将以上模型训练好在COCO 2017验证集上进行测试,结果如下表所示。
实验结果表明,本发明(CCTR)在保证检测准确率的前提下,模型训练迭代次数由原来的500轮减少到50轮,模型参数量与计算量有一定程度减少。对比表中CCTR-ResNet-5-FPN和DETR-DC5的结果,可以发现本发明在获取更好的物体检测精度(AP)的情况下,模型计算量(FLOPs)更小,且训练迭代次数减少了90%。
表1 本发明方案模型与DETR模型在COCO 2017验证集结果对比表
本领域普通技术人员可以理解,以上所述仅为发明的优选实例而已,并不用于限制发明,尽管参照前述实例对发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实例记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在发明的精神和原则之内,所做的修改、等同替换等均应包含在发明的保护范围之内。
Claims (7)
1.一种基于自注意力机制的通用图像目标检测方法,其特征在于,该方法包括如下步骤:
步骤一:将含边界框标注的训练集图像输入图像特征提取网络,获得维度为C×H×W的图像特征;
步骤二:将所述图像特征,输入由L个十字交叉注意力层串联而成的多头十字交叉注意力模块,获得编码器输出特征图;
其中,所述十字交叉注意力层首先通过该层输入的图像特征获得该层多组编码器归一化后的注意力权重A和对应的编码器值向量V;然后通过A和V求出该层初步增强特征图f´;接着,将所述f´替换该层输入的图像特征,再次经过上述步骤,得到中间结果增强特征图;最后将中间结果增强特征图与输入的图像特征对应元素相加,经过该层编码器前馈网络和该层编码器层归一化后,得到该多头十字交叉注意力层输出的增强特征;
步骤三:将所述编码器输出特征图,通过由L个多方向交叉注意力层串联而成的多方向交叉注意力模块,获得解码器输出增强目标查询向量;
所述多方向交叉注意力层首先通过编码器输出特征图获得该层多组解码器归一化后的注意力权重Â和对应的解码器值向量,然后通过所述Â和求出该层融合后的增强目标查询特征q´;最后,改变所述q´维度为N×(M×C),依次经过该层解码器前馈网络和该层解码器层归一化后,得到该层多方向交叉注意力层输出的目标查询向量;
步骤四:将所述解码器输出增强目标查询向量分别通过分类层和回归层得到训练集图像的预测边界框类别概率和位置;
步骤五:将所述训练集图像的预测边界框类别概率和位置,与训练集图像的真实边界框类别和位置信息计算网络整体损失函数,通过反向传播方法对模型进行训练,得到目标检测模型;
步骤六:利用所述目标检测模型对待检测图像进行目标检测,以检测出所述待检测图像中待检测物体。
2.根据权利要求1所述的基于自注意力机制的通用图像目标检测方法,其特征在于,每个多头十字交叉注意力层的操作具体如下:
S2.1:对于第一层多头十字交叉注意力层,将所述图像特征按照第1个维度等分为M组维度为 (C/M)×H×W子图像特征;对于第i层多头十字交叉注意力层,1≤i≤L,i∈Z,将第i-1层多头十字交叉注意力层输出的维度为C×W×H的增强特征fi-1按照第1个维度等分为M组子图像特征,其中第i层输入的第m组子图像特征的维度为(C/M)×H×W ,1≤m≤M,m∈Z ;将第L层多头十字交叉注意力层输出的增强特征fL作为编码器输出特征图;
其中,表示的第u个位置向量,其维度为1×(C/M);表示第u个位置同行同列向量,其维度为(W+H-1)×(C/M);u表示在分辨率维度上的一个位置,{u∈(x,y)|x,y∈Z,1≤x≤W,1≤y≤H};
3.根据权利要求1所述的基于自注意力机制的通用图像目标检测方法,其特征在于,所述步骤三中的每个多方向交叉注意力层进行如下操作:
S3.1:对于第一层多方向交叉注意力层,输入维度为N×C的可学习的目标查询向量,并对所述目标查询向量进行标准正态分布的随机初始化;对于第i层多方向交叉注意力层, 1≤i≤L,i∈Z,将第i-1层多方向交叉注意力层输出的目标查询向量qi-1作为第i层多方向交叉注意力层输入的目标查询向量;将第L层多方向交叉注意力层输出的目标查询向量qL作为解码器输出增强目标查询向量;
S3.2:将所述qi-1输入到两层的多层感知机网络,生成维度为N×4的第i层建议框;将所述第L层多头十字交叉注意力层输出的增强特征fL按照第1个维度等分为M组,第L层多头十字交叉注意力层输出的第m组的子图像特征的维度为(C/M)×H×W;
S3.3:从N个第i层建议框中心出发,对所述均匀向外张开M个方向,在每个方向上使用双线性插值均匀采样K个点,得到维度为(N×K)×M×(C/M)的第i层第m组采样视觉特征向量;通过改变维度的方式将所述qi-1变成维度为N×M×(C/M)的第i层第m组目标查询特征;
S3.4:将所述经过第i层第m组1×1解码器查询向量卷积,得到第i层第m组解码器查询向量,维度为N×M×(C/M);将所述经过第i层第m组1×1解码器匹配键值卷积,得到第i层第m组解码器匹配键值,维度为(N×K)×M×(C/M);
4.根据权利要求1所述的基于自注意力机制的通用图像目标检测方法,其特征在于,所述步骤四包括:将所述解码器输出增强目标查询向量分别输入到由两个不同全连接网络组成的分类层和回归层,输出训练集图像的预测边界框类别概率和位置。
5.根据权利要求1所述的基于自注意力机制的通用图像目标检测方法,其特征在于,所述步骤五包括:将所述输出训练集图像的预测边界框类别概率和位置与真实边界框类别和位置信息通过匈牙利匹配算法获得最佳匹配,然后计算分类损失函数和位置回归损失函数之和作为网络整体损失;网络整体损失表达式如下所示:
其中,Lcls表示分类损失函数,计算预测边界框类别概率和真实边界框类别的焦点损失;
最后使用反向传播方法对整个模型进行训练,当网络整体损失不再降低时,得到目标检测模型。
6.一种基于自注意力机制的通用图像目标检测装置,其特征在于,包括一个或多个处理器,用于实现权利要求1-5中任一项所述的基于自注意力机制的通用图像目标检测方法。
7.一种计算机可读存储介质,其特征在于,其上存储有程序,该程序被处理器执行时,实现权利要求1-5中任一项所述的基于自注意力机制的通用图像目标检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111477045.4A CN113902926B (zh) | 2021-12-06 | 2021-12-06 | 一种基于自注意力机制的通用图像目标检测方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111477045.4A CN113902926B (zh) | 2021-12-06 | 2021-12-06 | 一种基于自注意力机制的通用图像目标检测方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113902926A CN113902926A (zh) | 2022-01-07 |
CN113902926B true CN113902926B (zh) | 2022-05-31 |
Family
ID=79195365
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111477045.4A Active CN113902926B (zh) | 2021-12-06 | 2021-12-06 | 一种基于自注意力机制的通用图像目标检测方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113902926B (zh) |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114612378B (zh) * | 2022-01-21 | 2024-04-26 | 华东师范大学 | 一种目标检测中使用IoU加强自注意力机制的方法 |
CN114596273B (zh) * | 2022-03-02 | 2022-11-25 | 江南大学 | 利用yolov4网络的陶瓷基板多种瑕疵智能检测方法 |
CN114283347B (zh) * | 2022-03-03 | 2022-07-15 | 粤港澳大湾区数字经济研究院(福田) | 目标检测方法、系统、智能终端及计算机可读存储介质 |
CN114758145B (zh) * | 2022-03-08 | 2024-07-19 | 深圳须弥云图空间科技有限公司 | 一种图像脱敏方法、装置、电子设备及存储介质 |
CN114359283B (zh) * | 2022-03-18 | 2022-07-05 | 华东交通大学 | 基于Transformer的缺陷检测方法和电子设备 |
CN114821331A (zh) * | 2022-05-13 | 2022-07-29 | 北京航空航天大学 | 基于自注意力机制的遥感图像弱监督目标检测方法及系统 |
CN114758032B (zh) | 2022-06-15 | 2022-09-16 | 之江实验室 | 基于时空注意力模型的多相期ct图像分类系统及构建方法 |
CN115063666A (zh) * | 2022-07-06 | 2022-09-16 | 京东科技信息技术有限公司 | 解码器的训练方法、目标检测方法、装置以及存储介质 |
CN115170828B (zh) * | 2022-07-15 | 2023-03-14 | 哈尔滨市科佳通用机电股份有限公司 | 基于深度学习的折角塞门卡子丢失故障检测方法 |
CN114998748B (zh) * | 2022-07-28 | 2023-02-03 | 北京卫星信息工程研究所 | 遥感图像目标精细识别方法、电子设备及存储介质 |
CN114972976B (zh) * | 2022-07-29 | 2022-12-20 | 之江实验室 | 基于频域自注意力机制的夜间目标检测、训练方法及装置 |
CN116258931B (zh) * | 2022-12-14 | 2023-09-15 | 之江实验室 | 基于ViT和滑窗注意力融合的视觉指代表达理解方法和系统 |
CN115953665B (zh) * | 2023-03-09 | 2023-06-02 | 武汉人工智能研究院 | 一种目标检测方法、装置、设备及存储介质 |
CN116129228B (zh) * | 2023-04-19 | 2023-07-18 | 中国科学技术大学 | 图像匹配模型的训练方法、图像匹配方法及其装置 |
CN116384593B (zh) * | 2023-06-01 | 2023-08-18 | 深圳市国电科技通信有限公司 | 分布式光伏出力预测方法、装置、电子设备和介质 |
CN116993996B (zh) * | 2023-09-08 | 2024-01-12 | 腾讯科技(深圳)有限公司 | 对图像中的对象进行检测的方法及装置 |
CN117392505B (zh) * | 2023-10-12 | 2024-09-10 | 同济大学 | 一种基于detr改进算法的图像目标检测方法及系统 |
CN117152142B (zh) * | 2023-10-30 | 2024-02-02 | 菲特(天津)检测技术有限公司 | 一种轴承缺陷检测模型构建方法及系统 |
CN117542045B (zh) * | 2024-01-10 | 2024-05-10 | 山东记食信息科技有限公司 | 一种基于空间引导自注意力的食品识别方法及系统 |
CN117994254B (zh) * | 2024-04-03 | 2024-08-06 | 江苏兴力工程管理有限公司 | 一种基于条件交叉注意力机制的架空线路绝缘子定位识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112819037B (zh) * | 2021-01-12 | 2024-01-30 | 广东石油化工学院 | 基于交叉注意力和自注意力的分类参数分布的故障诊断方法 |
-
2021
- 2021-12-06 CN CN202111477045.4A patent/CN113902926B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN113902926A (zh) | 2022-01-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113902926B (zh) | 一种基于自注意力机制的通用图像目标检测方法和装置 | |
CN110188765B (zh) | 图像语义分割模型生成方法、装置、设备及存储介质 | |
US20220414911A1 (en) | Three-dimensional reconstruction method and three-dimensional reconstruction apparatus | |
CN110929080B (zh) | 基于注意力和生成对抗网络的光学遥感图像检索方法 | |
Jiang et al. | Dual attention mobdensenet (damdnet) for robust 3d face alignment | |
CN106339753A (zh) | 一种有效提升卷积神经网络稳健性的方法 | |
WO2016119076A1 (en) | A method and a system for face recognition | |
CN109766557A (zh) | 一种情感分析方法、装置、存储介质及终端设备 | |
CN111797589A (zh) | 一种文本处理网络、神经网络训练的方法以及相关设备 | |
CN112116064A (zh) | 光谱超分辨自适应加权注意力机制深层网络数据处理方法 | |
CN114821169B (zh) | 微服务架构下的方法级无侵入调用链路追踪方法 | |
CN115222998B (zh) | 一种图像分类方法 | |
CN115423847A (zh) | 基于Transformer的孪生多模态目标跟踪方法 | |
CN116226388B (zh) | 一种文献分类方法、一种图神经网络训练方法及相关组件 | |
US11948078B2 (en) | Joint representation learning from images and text | |
US20230281826A1 (en) | Panoptic segmentation with multi-database training using mixed embedding | |
CN114863407A (zh) | 一种基于视觉语言深度融合的多任务冷启动目标检测方法 | |
CN116503399A (zh) | 基于yolo-afps的绝缘子污闪检测方法 | |
CN114743187A (zh) | 银行安全控件自动登录方法、系统、设备及存储介质 | |
CN116150561A (zh) | 自注意力机制的处理方法、装置、卷积神经网络模型 | |
CN114067371B (zh) | 一种跨模态行人轨迹生成式预测框架、方法和装置 | |
CN113487027B (zh) | 基于时序对齐预测的序列距离度量方法、存储介质及芯片 | |
CN114819140A (zh) | 模型剪枝方法、装置和计算机设备 | |
CN115100599A (zh) | 基于掩码transformer的半监督人群场景异常检测方法 | |
CN114820755A (zh) | 一种深度图估计方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |