CN113902926B - 一种基于自注意力机制的通用图像目标检测方法和装置 - Google Patents

一种基于自注意力机制的通用图像目标检测方法和装置 Download PDF

Info

Publication number
CN113902926B
CN113902926B CN202111477045.4A CN202111477045A CN113902926B CN 113902926 B CN113902926 B CN 113902926B CN 202111477045 A CN202111477045 A CN 202111477045A CN 113902926 B CN113902926 B CN 113902926B
Authority
CN
China
Prior art keywords
layer
dimension
attention
image
multiplied
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111477045.4A
Other languages
English (en)
Other versions
CN113902926A (zh
Inventor
李特
王世杰
朱世强
顾建军
王兴刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202111477045.4A priority Critical patent/CN113902926B/zh
Publication of CN113902926A publication Critical patent/CN113902926A/zh
Application granted granted Critical
Publication of CN113902926B publication Critical patent/CN113902926B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种基于自注意力机制的通用图像目标检测方法,该方法是基于DETR模型的改进,其包括对将含边界框标注的训练集图像输入图像特征提取网络,获得图像特征;将图像特征依次通过多头十字交叉注意力模块和多方向交叉注意力模块,获得解码器输出增强目标查询向量;将增强目标查询向量分别通过模型的分类层和回归层得到目标图像物体边界框和物体类别概率;计算网络整体损失对模型进行训练,得到目标检测模型;利用上述模型对待检测图像进行目标检测。本发明相比于DETR模型,在保证目标检测准确的同时,加快模型训练速度,减小模型的计算复杂度,提高模型灵活性与实用性。

Description

一种基于自注意力机制的通用图像目标检测方法和装置
技术领域
本发明涉及计算机视觉技术领域,尤其涉及一种基于自注意力机制的通用图像目标检测方法和装置。
背景技术
在计算机视觉领域,目标检测是一项基本任务,其目的是将图像中待检测对象与背景区分开,并预测图像中待检测对象的位置和类别。现有的流行技术基于卷积神经网络。基于该技术目标检测算法可以分为两大类:一类是one-stage算法。其思路是直接产生待检测物体类别概率和坐标位置,不需要产生候选框。另一类算法是two-stage算法。其思路是将检测问题划分为两个部分:首先产生候选区域,然后基于候选区域进行分类和边框回归,得到待检测物体类别概率和坐标位置。
Transformer架构最初应用于自然语言处理领域。其关键的自注意力机制(Self-attention mechanism)使得Transformer架构在不同任务上取得了不错的效果。2020年,Facebook提出DETR模型首次将Transformer架构应用于目标检测领域。它针对基于卷积神经网络的目标检测模型需要不同人工设计步骤的问题。以更加直接的方法简化整个目标检测流程,实现真正地端到端解决目标检测问题。
然而,DETR模型也有其自身地问题:第一:模型收敛速度慢,训练时间长;第二:模型计算量大,这使得DETR模型现阶段难以用于实际应用。
发明内容
针对现有技术的不足,本发明基于Transformer架构,提供了一种基于自注意力机制的通用图像目标检测方法和装置。该方法基于Transformer架构得到图像目标检测模型,收敛速度更快,训练时间更短,计算量更少。
本发明的目的通过如下的技术方案来实现:
一种基于自注意力机制的通用图像目标检测方法,该方法包括如下步骤:
步骤一:将含边界框标注的训练集图像输入图像特征提取网络,获得维度为C×H×W的图像特征;
步骤二:将所述图像特征,输入由L个十字交叉注意力层串联而成的多头十字交叉注意力模块,获得编码器输出特征图;
其中,所述十字交叉注意力层首先通过该层输入的图像特征获得该层多组编码器归一化后的注意力权重A和对应的编码器值向量V;然后通过A和V求出该层初步增强特征图f´;接着,将所述f´替换该层输入的图像特征,再次经过上述步骤,得到中间结果增强特征图;最后将中间结果增强特征图与输入的图像特征对应元素相加,经过该层编码器前馈网络和该层编码器层归一化后,得到该多头十字交叉注意力层输出的增强特征;
步骤三:将所述编码器输出特征图,通过由L个多方向交叉注意力层串联而成的多方向交叉注意力模块,获得解码器输出增强目标查询向量;
所述多方向交叉注意力层首先通过编码器输出特征图获得该层多组解码器归一化后的注意力权重Â和对应的解码器值向量
Figure 568742DEST_PATH_IMAGE001
,然后通过所述Â和
Figure 147622DEST_PATH_IMAGE002
求出该层融合后的增强目标查询特征q´;最后,改变所述q´维度为N×(M×C),依次经过该层解码器前馈网络和该层解码器层归一化后,得到该层多方向交叉注意力层输出的目标查询向量;
步骤四:将所述解码器输出增强目标查询向量分别通过分类层和回归层得到训练集图像的预测边界框类别概率和位置;
步骤五:将所述训练集图像的预测边界框类别概率和位置,与训练集图像的真实边界框类别和位置信息计算网络整体损失函数,通过反向传播方法对模型进行训练,得到目标检测模型;
步骤六:利用所述目标检测模型对待检测图像进行目标检测,以检测出所述待检测图像中待检测物体。
进一步地,每个多头十字交叉注意力层的操作具体如下:
S2.1:对于第一层多头十字交叉注意力层,将所述图像特征按照第1个维度等分为M组维度为 (C/M)×H×W子图像特征;对于第i层多头十字交叉注意力层,1≤i≤L,i∈Z,将第i-1层多头十字交叉注意力层输出的维度为C×W×H的增强特征fi-1按照第1个维度等分为M组子图像特征,其中第i层输入的第m组子图像特征
Figure 37081DEST_PATH_IMAGE003
的维度为(C/M)×H×W ,1≤m≤M,m∈Z ;将第L层多头十字交叉注意力层输出的增强特征fL作为编码器输出特征图;
S2.2:将所述
Figure 509650DEST_PATH_IMAGE004
分别经过第i层第m组1×1编码器查询向量卷积
Figure 324897DEST_PATH_IMAGE005
和第i层第m组
Figure 391073DEST_PATH_IMAGE006
编码器匹配键值卷积
Figure 818644DEST_PATH_IMAGE007
,分别得到第i层第m组编码器查询向量
Figure 411299DEST_PATH_IMAGE008
、第i层第m组的编码器匹配键值
Figure 633333DEST_PATH_IMAGE009
;所述
Figure 216499DEST_PATH_IMAGE008
Figure 447760DEST_PATH_IMAGE009
维度为(C/M)×H×W;
S2.3:采用下式计算第i层第m组第u个位置编码器未归一化注意力权重
Figure 770288DEST_PATH_IMAGE010
Figure 428802DEST_PATH_IMAGE011
其中,
Figure 859784DEST_PATH_IMAGE012
表示
Figure 65375DEST_PATH_IMAGE008
的第u个位置向量,其维度为1×(C/M);
Figure 39147DEST_PATH_IMAGE013
表示
Figure 196459DEST_PATH_IMAGE009
第u个位置同行同列向量,其维度为(W+H-1)×(C/M);u表示在分辨率维度上的一个位置,{u∈(x,y)|x,y∈Z,1≤x≤W,1≤y≤H};
将所有位置
Figure 521261DEST_PATH_IMAGE014
拼接成为第i层第m组编码器未归一化注意力权重
Figure 32008DEST_PATH_IMAGE015
,其维度为(W+H-1)×W×H;
Figure 624401DEST_PATH_IMAGE015
每一元素除以
Figure 624718DEST_PATH_IMAGE016
后,在第1个维度上进行softmax操作,得到第i层第m组编码器归一化后的注意力权重
Figure 499133DEST_PATH_IMAGE017
S2.4:将所述
Figure 610309DEST_PATH_IMAGE003
经过第i层第m组1×1编码器值向量卷积
Figure 761935DEST_PATH_IMAGE018
,得到第i层第m组的编码器值向量
Figure 166110DEST_PATH_IMAGE019
,其维度为(C/M) ×H×W;
S2.5:根据下式计算第i层第m组第u个位置初步增强特征图
Figure 403187DEST_PATH_IMAGE020
Figure 380370DEST_PATH_IMAGE021
其中,
Figure 714400DEST_PATH_IMAGE022
表示
Figure 492738DEST_PATH_IMAGE023
第u个位置向量,其维度为(W+H-1)×1;
Figure 13849DEST_PATH_IMAGE024
表示所述
Figure 794723DEST_PATH_IMAGE019
第u个位置同行同列向量,其维度为(W+H-1)×(C/M);
将所有位置
Figure 186521DEST_PATH_IMAGE020
拼接后经过第i层1×1编码器融合卷积Wi,从而得到第i层初步增强特征图
Figure 699542DEST_PATH_IMAGE025
,其维度为C×H×W;
S2.6:将所述
Figure 35846DEST_PATH_IMAGE025
替换步骤S2.1中的fi-1,在所有卷积参数权值共享下,重复S2.1~S2.5后,将其输出的第i层第m组中间结果增强特征图的对应元素加上
Figure 525470DEST_PATH_IMAGE003
,最终获得第i层第m组再次增强特征图
Figure 506196DEST_PATH_IMAGE026
S2.7:将所述
Figure 190118DEST_PATH_IMAGE027
在第1个维度拼接,经过第i层编码器前馈网络和第i层编码器层归一化,得到第i层多头十字交叉注意力层输出的增强特征fi
进一步地,所述步骤三中的每个多方向交叉注意力层进行如下操作:
S3.1:对于第一层多方向交叉注意力层,输入维度为N×C的可学习的目标查询向量,并对所述目标查询向量进行标准正态分布的随机初始化;对于第i层多方向交叉注意力层, 1≤i≤L,i∈Z,将第i-1层多方向交叉注意力层输出的目标查询向量qi-1作为第i层多方向交叉注意力层输入的目标查询向量;将第L层多方向交叉注意力层输出的目标查询向量qL作为解码器输出增强目标查询向量;
S3.2:将所述qi-1输入到两层的多层感知机网络,生成维度为N×4的第i层建议框;将所述第L层多头十字交叉注意力层输出的增强特征fL按照第1个维度等分为M组,第L层多头十字交叉注意力层输出的第m组的子图像特征
Figure 279297DEST_PATH_IMAGE028
的维度为(C/M)×H×W;
S3.3:从N个第i层建议框中心出发,对所述
Figure 11761DEST_PATH_IMAGE028
均匀向外张开M个方向,在每个方向上使用双线性插值均匀采样K个点,得到维度为NK×M×(C/M)的第i层第m组采样视觉特征向量
Figure 673424DEST_PATH_IMAGE029
;通过改变维度的方式将所述qi-1变成维度为N×M×(C/M)的第i层第m组目标查询特征
Figure 590564DEST_PATH_IMAGE030
S3.4:将所述
Figure 573564DEST_PATH_IMAGE031
经过第i层第m组1×1解码器查询向量卷积
Figure 109719DEST_PATH_IMAGE032
,得到第i层第m组解码器查询向量
Figure 455249DEST_PATH_IMAGE033
,维度为N×M×(C/M);将所述
Figure 480974DEST_PATH_IMAGE029
经过第i层第m组1×1解码器匹配键值卷积
Figure 387488DEST_PATH_IMAGE034
,得到第i层第m组解码器匹配键值
Figure 524071DEST_PATH_IMAGE035
,维度为NK×M×(C/M);
S3.5:通过下式计算得到第i层第m组第j个解码器未归一化注意力权重
Figure 927371DEST_PATH_IMAGE036
Figure 61680DEST_PATH_IMAGE037
其中,
Figure 517807DEST_PATH_IMAGE038
为所述
Figure 785977DEST_PATH_IMAGE033
的第2个维度第j个矩阵,维度为N×(C/M);
Figure 512625DEST_PATH_IMAGE039
为所述
Figure 83414DEST_PATH_IMAGE035
的第2个维度第j个矩阵,维度为NK×(C/M);其中,1≤j≤L,j∈Z;
将所有维度
Figure 590619DEST_PATH_IMAGE036
在第2个维度进行拼接,成为第i层第m组解码器未归一化注意力权重
Figure 537847DEST_PATH_IMAGE040
,其维度为N×M×NK;
Figure 617536DEST_PATH_IMAGE040
每一元素除以
Figure 483861DEST_PATH_IMAGE016
后,在第1个维度上进行softmax操作,得到第i层第m组解码器归一化后的注意力权重
Figure 353728DEST_PATH_IMAGE041
S3.6:将所述
Figure 901384DEST_PATH_IMAGE029
经过第i层第m组1×1解码器值向量卷积
Figure 71465DEST_PATH_IMAGE042
,得到第i层第m组的解码器值向量
Figure 108691DEST_PATH_IMAGE043
,其维度为NK×M×(C/M);
S3.7:通过下式计算得到第i层第m组第j个增强目标查询特征
Figure 964389DEST_PATH_IMAGE044
Figure 784578DEST_PATH_IMAGE045
其中,
Figure 340324DEST_PATH_IMAGE046
表示所述
Figure 814031DEST_PATH_IMAGE041
第2个维度的第j个向量,其维度为N×NK;
Figure 658490DEST_PATH_IMAGE047
为所述
Figure 610265DEST_PATH_IMAGE048
第2个维度取出第j个向量,其维度为NK×(C/M);
将所有
Figure 745753DEST_PATH_IMAGE044
在第2个维度拼接,成为第i层第m组增强目标查询特征
Figure 62465DEST_PATH_IMAGE049
,其维度为 N×M×(C/M);
S3.8:将上述所有第i层每组增强目标查询特征在第3个维度拼接后,通过第i层1×1解码器融合卷积
Figure 518854DEST_PATH_IMAGE050
,第i层得到融合后的增强目标查询特征
Figure 884108DEST_PATH_IMAGE051
,改变维度为N×(M×C),之后经过第i层解码器前馈网络和第i层解码器层归一化,得到第i层多方向交叉注意力层输出的目标查询向量qi,维度为N×C。
进一步地,所述步骤四包括:将所述解码器输出增强目标查询向量分别输入到由两个不同全连接网络组成的分类层和回归层,输出训练集图像的预测边界框类别概率和位置。
进一步地,所述步骤五包括:将所述输出训练集图像的预测边界框类别概率和位置与真实边界框类别和位置信息通过匈牙利匹配算法获得最佳匹配,然后计算分类损失函数和位置回归损失函数之和作为网络整体损失;网络整体损失表达式如下所示:
Figure 742342DEST_PATH_IMAGE052
其中,Lcls表示分类损失函数,计算预测边界框类别概率和真实边界框类别的焦点损失;
LL1表示预测边界框位置和真实边界框位置的L1损失,Lgiou表示预测边界框位置和真实边界框位置的广义的IoU损失,LL1和Lgiou之和表示位置回归损失函数;
λcls、λL1和λgiou分别表示分类损失函数、L1损失和广义的IoU损失对应的权重系数;
最后使用反向传播方法对整个模型进行训练,当网络整体损失不再降低时,得到目标检测模型。
一种基于自注意力机制的通用图像目标检测装置,包括一个或多个处理器,用于实现上述的基于自注意力机制的通用图像目标检测方法。
一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述的基于自注意力机制的通用图像目标检测方法。
本发明具有如下的有益效果:
本发明提供的基于自注意力机制的通用图像目标检测方法,其中多头十字交叉注意力模块和多方向交叉注意力模块使得图像特征中空间信息更好的保留下来。特别地,多方向交叉注意力模块更好地聚集了第L层多头十字交叉注意力层输出的增强特征fL中局部信息,更加有利于检测框的定位。由于上述所设计的适合目标检测任务的操作,模型在一定程度上降低计算量;在保持精度一定的情况下,加快模型训练速度和收敛速度。
附图说明
图1为本发明提供的基于自注意力机制的通用图像目标检测方法的流程示意图;
图2为本发明提供的基于自注意力机制的通用图像目标检测方法的网络架构图;
图3为多方向交叉注意力模块采样示例图(图示张开16个方向,每个方向采样3个点)。
图4为本发明提供的基于自注意力机制的通用图像目标检测装置的结构框图。
具体实施方式
下面根据附图和优选实施例详细描述本发明,本发明的目的和效果将变得更加明白,应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
首先就本发明的技术术语进行解释说明:
ResNet50,ResNet50-DC5:ResNet是残差神经网络,由2015年提出并获得同年ILSVRC冠军。其主要贡献是通过快捷连接(Shortcut connection),消除了深度过大网络训练困难的问题;ResNet50表示50层的ResNet网络。ResNet50-DC5中DC5表示最后一个stage采用空洞率和stride相同的设置。目的是在不进行下采样基础上扩大感受野,输出特征图保持不变。
FPN:FPN是特征金字塔网络,于2017年提出,目的是采用特征金字塔做目标检测,通过自下而上网络提取不同网络层特征图,然后经过自上而下的网络融合特征图,最后在每一不同分辨率特征图上进行目标检测任务。这种特征融合和分而治之的思路被证明能够有效提高目标检测任务效果。
DETR:DEtection TRansformer模型的简称,于2020年提出。该模型将网络简化为图像特征提取模块,编码器和解码器模块,其中编码器模块使用多头自注意力机制获得编码后的序列特征;解码器模块通过输入可学习的目标查询向量和编码后的序列特征,使用多头自注意力机制获得增强的目标查询向量,最后通过两个不同的前馈网络获得待检测对象类别概率和边界框位置,从而实现端到端的目标检测流程。
请参阅图1,本发明实施例提供的基于自注意力机制的通用图像目标检测方法包括以下步骤:
S100、将含边界框标注的训练集图像输入图像特征提取网络,获得维度为C×W×H的图像特征;
在本实例中,所述输入图像特征提取网络可以使用不同种类的卷积神经网络来提取图像特征。
S200、将所述图像特征,通过由L个十字交叉注意力层串联而成的多头十字交叉注意力模块,获得编码器输出特征图;
在本发明中,考虑到编码器设计应该关注全局信息的同时,针对DETR模型将二维图像特征转化为一维序列进行预测的设计会损失图像空间信息这一问题。本发明在该部分使用十字交叉注意力来进行改进。进一步地,考虑模型训练和其实际计算效率,本发明设计了多头十字交叉注意力模块来优化该部分。
所述多头十字交叉注意力模块请参阅图2,该模块由L个多头十字交叉注意力层组成,整体模块输入S100的图像特征,输出第L层多头十字交叉注意力层输出的增强特征,即编码器输出特征图。
所述十字交叉注意力层的操作用公式表达如下:
首先,通过下述公式的计算得到该层第m组分辨率维度上第u个空间位置编码器归一化后的注意力权重
Figure 964376DEST_PATH_IMAGE053
Figure 281963DEST_PATH_IMAGE054
上述公式中,Wmq是该层第m组1×1编码器查询向量卷积,fu是该层第u个位置输入图像特征,ωu是该层第u个位置同行同列输入图像特征,Wmk是该层第m组1×1编码器匹配键值卷积,C为输出输入图像特征通道数,M是该层分组的总组数。
然后采用下列公式得到该层初步增强特征图f´:
Figure 841120DEST_PATH_IMAGE055
上述公式中,Wm是该层第m组1×1编码器融合卷积,Wmv是该层1×1编码器值向量卷积。
接着,将所述该层初步增强特征图f´再重复上述步骤,得到中间结果增强特征图。将中间结果增强特征图与输入图像特征对应元素相加,得到该层再次增强特征图f´´。
最后,将所述f´´依次经过该层编码器前馈网络(feed-forward network)和该层编码器层归一化(Layer Normalization),得到该层多头十字交叉注意力层输出的增强特征。
具体地,每一个多头十字交叉注意力层具体步骤如下所述:
(1)对于第一层多头十字交叉注意力层,将所述图像特征按照第1个维度等分为M组维度为 (C/M)×H×W子图像特征;对于第i层多头十字交叉注意力层,1≤i≤L,i∈Z,将第i-1层多头十字交叉注意力层输出的维度为C×H×W的增强特征fi-1按照第1个维度等分为M组子图像特征,其中第i层输入的第m组子图像特征
Figure 163648DEST_PATH_IMAGE003
的维度为(C/M)×H×W ,1≤m≤M,m∈Z ;将第L层多头十字交叉注意力层输出的增强特征fL作为编码器输出特征图。
(2)将所述
Figure 150059DEST_PATH_IMAGE004
分别经过第i层第m组1×1编码器查询向量卷积
Figure 987565DEST_PATH_IMAGE005
和第i层第m组
Figure 960200DEST_PATH_IMAGE006
编码器匹配键值卷积
Figure 527447DEST_PATH_IMAGE007
,分别得到第i层第m组编码器查询向量
Figure 58661DEST_PATH_IMAGE008
、第i层第m组的编码器匹配键值
Figure 383463DEST_PATH_IMAGE056
;所述
Figure 284423DEST_PATH_IMAGE008
Figure 581543DEST_PATH_IMAGE009
维度为(C/M)×H×W。
(3)采用下式计算第i层第m组第u个位置编码器未归一化注意力权重
Figure 909756DEST_PATH_IMAGE010
Figure 721854DEST_PATH_IMAGE011
其中,
Figure 534827DEST_PATH_IMAGE012
表示
Figure 811088DEST_PATH_IMAGE008
的第u个位置向量,其维度为1×(C/M);
Figure 185568DEST_PATH_IMAGE013
表示
Figure 484963DEST_PATH_IMAGE009
第u个位置同行同列向量,其维度为(W+H-1)×(C/M);u表示在分辨率维度上的一个位置,{u∈(x,y)|x,y∈Z,1≤x≤W,1≤y≤H};
将所有位置
Figure 727725DEST_PATH_IMAGE014
拼接成为第i层第m组编码器未归一化注意力权重
Figure 999438DEST_PATH_IMAGE015
,其维度为(W+H-1)×W×H;
Figure 403874DEST_PATH_IMAGE015
每一元素除以
Figure 892362DEST_PATH_IMAGE016
后,在第1个维度上进行softmax操作,得到第i层第m组编码器归一化后的注意力权重
Figure 610919DEST_PATH_IMAGE017
(4)将所述
Figure 861772DEST_PATH_IMAGE003
经过第i层第m组1×1编码器值向量卷积
Figure 312476DEST_PATH_IMAGE018
,得到第i层第m组的编码器值向量
Figure 586463DEST_PATH_IMAGE019
,其维度为(C/M) ×H×W;
(5)根据下式计算第i层第m组第u个位置初步增强特征图
Figure 905449DEST_PATH_IMAGE020
Figure 650289DEST_PATH_IMAGE021
其中,
Figure 334211DEST_PATH_IMAGE022
表示
Figure 423389DEST_PATH_IMAGE023
第u个位置向量,其维度为(W+H-1)×1;
Figure 155853DEST_PATH_IMAGE024
表示所述
Figure 53402DEST_PATH_IMAGE019
第u个位置同行同列向量,其维度为(W+H-1)×(C/M);
将所有位置
Figure 501701DEST_PATH_IMAGE020
拼接后经过第i层1×1编码器融合卷积Wi,从而得到第i层初步增强特征图
Figure 920919DEST_PATH_IMAGE025
,其维度为C×H×W。
(6)将所述
Figure 847286DEST_PATH_IMAGE025
替换步骤(1)中的fi-1,在所有卷积参数权值共享下,重复(1)~(5)后,将其输出的第i层第m组中间结果增强特征图的对应元素加上
Figure 864921DEST_PATH_IMAGE003
,最终获得第i层第m组再次增强特征图
Figure 93908DEST_PATH_IMAGE027
(7)将所述
Figure 626521DEST_PATH_IMAGE027
在第1个维度拼接,经过第i层编码器前馈网络和第i层编码器层归一化,得到第i层多头十字交叉注意力层输出的增强特征fi
S300、将所述编码器输出特征图,通过由L个多方向交叉注意力层串联而成的多方向交叉注意力模块,获得解码器输出增强目标查询向量;
本发明该部分是针对DETR在解码器中将全局信息作为序列进行处理的操作进行优化。动机在于考虑到图像空间信息和上下文语义信息对于目标检测任务的重要性。从而本发明解码器的设计更关注于局部的上下文语义信息而不是全局信息。从而本发明提出了多方向交叉注意力模块。
所述多方向交叉注意力模块请参阅图2和3,该模块包括L个多方向交叉注意力层组成。整体模块输入编码器输出特征图,输出第L层多方向交叉注意力层输出的目标查询向量,即解码器输出增强目标查询向量。
所述多方向交叉注意力层的执行过程通过公式表达如下:
首先,由下述公式计算得到该层第m组第2维度第j个解码器归一化后的注意力权重Âmj
Figure DEST_PATH_IMAGE057
上述公式中,Ŵmq是该层第m组1×1解码器查询向量卷积,qqj是该层多方向交叉注意力层输入第2维度第j个的目标查询向量;Ŵmk是该层第m组1×1解码器匹配键值卷积,
Figure 763104DEST_PATH_IMAGE058
是该层采样视觉特征向量,即编码器输出特征图;
然后采用下列公式得到该层融合后的增强目标查询特征q´:
Figure DEST_PATH_IMAGE059
上述公式中,Ŵmv是该层第m组1×1解码器值向量卷积,Ŵm是该层第m组1×1解码器融合卷积。
最后,改变所述q´维度为N×(M×C),之后依次经过该层解码器前馈网络和该层解码器层归一化,得到该层多方向交叉注意力层输出的目标查询向量。
进一步地,每个多方向交叉注意力层具体步骤如下所述:
(1)对于第一层多方向交叉注意力层,输入维度为N×C的可学习的目标查询向量,并对所述目标查询向量进行标准正态分布的随机初始化;对于第i层多方向交叉注意力层,1≤i≤L,i∈Z,将第i-1层多方向交叉注意力层输出的目标查询向量qi-1作为第i层多方向交叉注意力层输入的目标查询向量;将第L层多方向交叉注意力层输出的目标查询向量qL作为解码器输出增强目标查询向量。
(2)将所述qi-1输入到两层的多层感知机网络,生成维度为N×4的第i层建议框;将所述第L层多头十字交叉注意力层输出的增强特征fL按照第1个维度等分为M组,第L层多头十字交叉注意力层输出的第m组的子图像特征
Figure 274726DEST_PATH_IMAGE028
的维度为(C/M)×H×W。
(3)从N个第i层建议框中心出发,对所述
Figure 799248DEST_PATH_IMAGE028
均匀向外张开M个方向,在每个方向上使用双线性插值均匀采样K个点,得到维度为NK×M×(C/M)的第i层第m组采样视觉特征向量
Figure 756840DEST_PATH_IMAGE029
;通过改变维度的方式将所述qi-1变成维度为N×M×(C/M)的第i层第m组目标查询特征
Figure 900376DEST_PATH_IMAGE030
(4)将所述
Figure 689341DEST_PATH_IMAGE030
经过第i层第m组1×1解码器查询向量卷积
Figure 24245DEST_PATH_IMAGE060
,得到第i层第m组解码器查询向量
Figure 469132DEST_PATH_IMAGE033
,维度为N×M×(C/M);将所述
Figure 275414DEST_PATH_IMAGE029
经过第i层第m组1×1解码器匹配键值卷积
Figure 325410DEST_PATH_IMAGE034
,得到第i层第m组解码器匹配键值
Figure 191735DEST_PATH_IMAGE035
,维度为NK×M×(C/M)。
(5)通过下式计算得到第i层第m组第j个解码器未归一化注意力权重
Figure 61602DEST_PATH_IMAGE036
Figure 671575DEST_PATH_IMAGE037
其中,
Figure 871350DEST_PATH_IMAGE038
为所述
Figure 49521DEST_PATH_IMAGE033
的第2个维度第j个矩阵,维度为N×(C/M);
Figure 265739DEST_PATH_IMAGE039
为所述
Figure 554769DEST_PATH_IMAGE035
的第2个维度第j个矩阵,维度为NK×(C/M);其中,1≤j≤L,j∈Z;
将所有维度
Figure 438411DEST_PATH_IMAGE036
在第2个维度进行拼接,成为第i层第m组解码器未归一化注意力权重
Figure 584222DEST_PATH_IMAGE040
,其维度为N×M×NK;
Figure 927216DEST_PATH_IMAGE040
每一元素除以
Figure 613413DEST_PATH_IMAGE016
后,在第1个维度上进行softmax操作,得到第i层第m组解码器归一化后的注意力权重
Figure 492507DEST_PATH_IMAGE041
(6)将所述
Figure 137115DEST_PATH_IMAGE029
经过第i层第m组1×1解码器值向量卷积
Figure 468870DEST_PATH_IMAGE042
,得到第i层第m组的解码器值向量
Figure 896441DEST_PATH_IMAGE048
,其维度为NK×M×(C/M)。
(7)通过下式计算得到第i层第m组第j个增强目标查询特征
Figure 489096DEST_PATH_IMAGE044
Figure 412927DEST_PATH_IMAGE045
其中,
Figure 356613DEST_PATH_IMAGE046
表示所述
Figure 791136DEST_PATH_IMAGE041
第2个维度的第j个向量,其维度为N×NK;
Figure 175981DEST_PATH_IMAGE047
为所述
Figure 896812DEST_PATH_IMAGE048
第2个维度取出第j个向量,其维度为NK×(C/M);
将所有
Figure 203160DEST_PATH_IMAGE044
在第2个维度拼接,成为第i层第m组增强目标查询特征
Figure 34850DEST_PATH_IMAGE049
,其维度为 N×M×(C/M)。
(8)将上述所有第i层每组增强目标查询特征在第3个维度拼接后,通过第i层1×1解码器融合卷积
Figure 241578DEST_PATH_IMAGE050
,第i层得到融合后的增强目标查询特征
Figure 805414DEST_PATH_IMAGE051
,改变维度为N×(M×C),之后经过第i层解码器前馈网络和第i层解码器层归一化,得到第i层多方向交叉注意力层输出的目标查询向量qi,维度为N×C。
S400、将所述解码器输出增强目标查询向量分别通过分类层和回归层得到训练集图像的预测边界框类别概率和位置。
在本实例中,请参阅图2,将解码器输出增强目标查询向量分别输出到由两个不同全连接网络组成的分类层和回归层输出训练集图像的预测边界框类别概率和位置。其中,解码器输出增强目标查询向量即所述第L层多方向交叉注意力层输出的目标查询向量qL
S500、将所述训练集图像的预测边界框类别概率和位置和训练集图像的真实边界框类别和位置信息计算网络整体损失,通过反向传播方法对模型进行训练,得到目标检测模型;
在本实例中,将所述输出训练集图像的预测边界框类别概率和位置与真实边界框类别和位置信息通过匈牙利匹配算法获得最佳匹配,然后计算分类损失函数和位置回归损失函数之和作为网络整体损失。网络整体损失表达式如下所示:
Figure 723692DEST_PATH_IMAGE061
其中,Lcls表示分类损失函数,计算预测边界框类别概率和真实边界框类别的焦点损失。
LL1表示预测边界框位置和真实边界框位置的L1损失,Lgiou表示预测边界框位置和真实边界框位置的广义的IoU损失,LL1和Lgiou之和表示位置回归损失函数。
λcls、λL1和λgiou分别表示分类损失函数、L1损失和广义的IoU损失对应的权重系数。
最后使用反向传播方法对整个模型进行训练,当网络整体损失不再降低时,得到目标检测模型。
S600、利用所述目标检测模型对待检测图像进行目标检测,以检测出所述待检测图像中待检测物体。
与前述基于自注意力机制的通用图像目标检测方法的实施例相对应,本发明还提供了基于自注意力机制的通用图像目标检测装置的实施例。
参见图4,本发明实施例提供的一种基于自注意力机制的通用图像目标检测装置,包括一个或多个处理器,用于实现上述实施例中的基于自注意力机制的通用图像目标检测方法。
本发明基于自注意力制的通用图像目标检测装置的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图4所示,为本发明基于自注意力机制的通用图像目标检测装置所在任意具备数据处理能力的设备的一种硬件结构图,除了图4所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中的基于自注意力机制的通用图像目标检测方法。
所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是外部存储设备,例如所述设备上配备的插接式硬盘、智能存储卡(SmartMedia card, SMC)、SD卡、闪存卡(Flash card)等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算仉程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储己经输出或者将要输出的数据。
为了验证本发明有效性,将本发明在COCO 2017训练集上进行训练,使用L=6层多头十字交叉注意力层和多方向交叉注意力层。在所述多头十字交叉注意力模块和多方向交叉注意力模块中取M=16,K=3,N=300。网络整体损失表达式中λcls=2,λL1=5,λgiou=2。为了更好对比,同时实现了已有的同规模DETR作为参考。将以上模型训练好在COCO 2017验证集上进行测试,结果如下表所示。
实验结果表明,本发明(CCTR)在保证检测准确率的前提下,模型训练迭代次数由原来的500轮减少到50轮,模型参数量与计算量有一定程度减少。对比表中CCTR-ResNet-5-FPN和DETR-DC5的结果,可以发现本发明在获取更好的物体检测精度(AP)的情况下,模型计算量(FLOPs)更小,且训练迭代次数减少了90%。
表1 本发明方案模型与DETR模型在COCO 2017验证集结果对比表
Figure 656193DEST_PATH_IMAGE063
本领域普通技术人员可以理解,以上所述仅为发明的优选实例而已,并不用于限制发明,尽管参照前述实例对发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实例记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在发明的精神和原则之内,所做的修改、等同替换等均应包含在发明的保护范围之内。

Claims (7)

1.一种基于自注意力机制的通用图像目标检测方法,其特征在于,该方法包括如下步骤:
步骤一:将含边界框标注的训练集图像输入图像特征提取网络,获得维度为C×H×W的图像特征;
步骤二:将所述图像特征,输入由L个十字交叉注意力层串联而成的多头十字交叉注意力模块,获得编码器输出特征图;
其中,所述十字交叉注意力层首先通过该层输入的图像特征获得该层多组编码器归一化后的注意力权重A和对应的编码器值向量V;然后通过A和V求出该层初步增强特征图f´;接着,将所述f´替换该层输入的图像特征,再次经过上述步骤,得到中间结果增强特征图;最后将中间结果增强特征图与输入的图像特征对应元素相加,经过该层编码器前馈网络和该层编码器层归一化后,得到该多头十字交叉注意力层输出的增强特征;
步骤三:将所述编码器输出特征图,通过由L个多方向交叉注意力层串联而成的多方向交叉注意力模块,获得解码器输出增强目标查询向量;
所述多方向交叉注意力层首先通过编码器输出特征图获得该层多组解码器归一化后的注意力权重Â和对应的解码器值向量
Figure DEST_PATH_IMAGE001
,然后通过所述Â和
Figure 618204DEST_PATH_IMAGE002
求出该层融合后的增强目标查询特征q´;最后,改变所述q´维度为N×(M×C),依次经过该层解码器前馈网络和该层解码器层归一化后,得到该层多方向交叉注意力层输出的目标查询向量;
步骤四:将所述解码器输出增强目标查询向量分别通过分类层和回归层得到训练集图像的预测边界框类别概率和位置;
步骤五:将所述训练集图像的预测边界框类别概率和位置,与训练集图像的真实边界框类别和位置信息计算网络整体损失函数,通过反向传播方法对模型进行训练,得到目标检测模型;
步骤六:利用所述目标检测模型对待检测图像进行目标检测,以检测出所述待检测图像中待检测物体。
2.根据权利要求1所述的基于自注意力机制的通用图像目标检测方法,其特征在于,每个多头十字交叉注意力层的操作具体如下:
S2.1:对于第一层多头十字交叉注意力层,将所述图像特征按照第1个维度等分为M组维度为 (C/M)×H×W子图像特征;对于第i层多头十字交叉注意力层,1≤i≤L,i∈Z,将第i-1层多头十字交叉注意力层输出的维度为C×W×H的增强特征fi-1按照第1个维度等分为M组子图像特征,其中第i层输入的第m组子图像特征
Figure 621932DEST_PATH_IMAGE003
的维度为(C/M)×H×W ,1≤m≤M,m∈Z ;将第L层多头十字交叉注意力层输出的增强特征fL作为编码器输出特征图;
S2.2:将所述
Figure DEST_PATH_IMAGE004
分别经过第i层第m组1×1编码器查询向量卷积
Figure 328857DEST_PATH_IMAGE005
和第i层第m组1×1编码器匹配键值卷积
Figure 50825DEST_PATH_IMAGE006
,分别得到第i层第m组编码器查询向量
Figure DEST_PATH_IMAGE007
、第i层第m组的编码器匹配键值
Figure 605959DEST_PATH_IMAGE008
;所述
Figure 464194DEST_PATH_IMAGE007
Figure 545282DEST_PATH_IMAGE008
维度为(C/M)×H×W;
S2.3:采用下式计算第i层第m组第u个位置编码器未归一化注意力权重
Figure DEST_PATH_IMAGE009
Figure 285705DEST_PATH_IMAGE010
其中,
Figure DEST_PATH_IMAGE011
表示
Figure 641600DEST_PATH_IMAGE007
的第u个位置向量,其维度为1×(C/M);
Figure 619920DEST_PATH_IMAGE012
表示
Figure 606331DEST_PATH_IMAGE008
第u个位置同行同列向量,其维度为(W+H-1)×(C/M);u表示在分辨率维度上的一个位置,{u∈(x,y)|x,y∈Z,1≤x≤W,1≤y≤H};
将所有位置
Figure DEST_PATH_IMAGE013
拼接成为第i层第m组编码器未归一化注意力权重
Figure 834050DEST_PATH_IMAGE014
,其维度为(W+H-1)×W×H;
Figure 931319DEST_PATH_IMAGE014
每一元素除以
Figure DEST_PATH_IMAGE015
后,在第1个维度上进行softmax操作,得到第i层第m组编码器归一化后的注意力权重
Figure 581391DEST_PATH_IMAGE016
S2.4:将所述
Figure 738703DEST_PATH_IMAGE003
经过第i层第m组1×1编码器值向量卷积
Figure DEST_PATH_IMAGE017
,得到第i层第m组的编码器值向量
Figure 188139DEST_PATH_IMAGE018
,其维度为(C/M) ×H×W;
S2.5:根据下式计算第i层第m组第u个位置初步增强特征图
Figure DEST_PATH_IMAGE019
Figure 151416DEST_PATH_IMAGE020
其中,
Figure DEST_PATH_IMAGE021
表示
Figure 369907DEST_PATH_IMAGE022
第u个位置向量,其维度为(W+H-1)×1;
Figure 698120DEST_PATH_IMAGE023
表示所述
Figure 103694DEST_PATH_IMAGE018
第u个位置同行同列向量,其维度为(W+H-1)×(C/M);
将所有位置
Figure 808345DEST_PATH_IMAGE019
拼接后经过第i层1×1编码器融合卷积Wi,从而得到第i层初步增强特征图
Figure DEST_PATH_IMAGE024
,其维度为C×H×W;
S2.6:将所述
Figure 149852DEST_PATH_IMAGE025
替换步骤S2.1中的fi-1,在所有卷积参数权值共享下,重复S2.1~S2.5后,将其输出的第i层第m组中间结果增强特征图的对应元素加上
Figure 648966DEST_PATH_IMAGE003
,最终获得第i层第m组再次增强特征图
Figure DEST_PATH_IMAGE026
S2.7:将所述
Figure 72995DEST_PATH_IMAGE026
在第1个维度拼接,经过第i层编码器前馈网络和第i层编码器层归一化,得到第i层多头十字交叉注意力层输出的增强特征f i
3.根据权利要求1所述的基于自注意力机制的通用图像目标检测方法,其特征在于,所述步骤三中的每个多方向交叉注意力层进行如下操作:
S3.1:对于第一层多方向交叉注意力层,输入维度为N×C的可学习的目标查询向量,并对所述目标查询向量进行标准正态分布的随机初始化;对于第i层多方向交叉注意力层, 1≤i≤L,i∈Z,将第i-1层多方向交叉注意力层输出的目标查询向量qi-1作为第i层多方向交叉注意力层输入的目标查询向量;将第L层多方向交叉注意力层输出的目标查询向量qL作为解码器输出增强目标查询向量;
S3.2:将所述qi-1输入到两层的多层感知机网络,生成维度为N×4的第i层建议框;将所述第L层多头十字交叉注意力层输出的增强特征fL按照第1个维度等分为M组,第L层多头十字交叉注意力层输出的第m组的子图像特征
Figure 581336DEST_PATH_IMAGE027
的维度为(C/M)×H×W;
S3.3:从N个第i层建议框中心出发,对所述
Figure 977683DEST_PATH_IMAGE027
均匀向外张开M个方向,在每个方向上使用双线性插值均匀采样K个点,得到维度为(N×K)×M×(C/M)的第i层第m组采样视觉特征向量
Figure DEST_PATH_IMAGE028
;通过改变维度的方式将所述qi-1变成维度为N×M×(C/M)的第i层第m组目标查询特征
Figure 444436DEST_PATH_IMAGE029
S3.4:将所述
Figure 559022DEST_PATH_IMAGE029
经过第i层第m组1×1解码器查询向量卷积
Figure DEST_PATH_IMAGE030
,得到第i层第m组解码器查询向量
Figure 136634DEST_PATH_IMAGE031
,维度为N×M×(C/M);将所述
Figure 918646DEST_PATH_IMAGE028
经过第i层第m组1×1解码器匹配键值卷积
Figure DEST_PATH_IMAGE032
,得到第i层第m组解码器匹配键值
Figure 553371DEST_PATH_IMAGE033
,维度为(N×K)×M×(C/M);
S3.5:通过下式计算得到第i层第m组第j个解码器未归一化注意力权重
Figure DEST_PATH_IMAGE034
Figure 951991DEST_PATH_IMAGE035
其中,
Figure DEST_PATH_IMAGE036
为所述
Figure 67714DEST_PATH_IMAGE037
的第2个维度第j个矩阵,维度为N×(C/M);
Figure DEST_PATH_IMAGE038
为所述
Figure 235391DEST_PATH_IMAGE039
的第2个维度第j个矩阵,维度为(N×K)×(C/M);其中,1≤j≤L,j∈Z;
将所有维度
Figure 512788DEST_PATH_IMAGE040
在第2个维度进行拼接,成为第i层第m组解码器未归一化注意力权重
Figure DEST_PATH_IMAGE041
,其维度为N×M×(N×K);
Figure 133125DEST_PATH_IMAGE042
每一元素除以
Figure 521381DEST_PATH_IMAGE015
后,在第1个维度上进行softmax操作,得到第i层第m组解码器归一化后的注意力权重
Figure DEST_PATH_IMAGE043
S3.6:将所述
Figure 809143DEST_PATH_IMAGE028
经过第i层第m组1×1解码器值向量卷积
Figure 260372DEST_PATH_IMAGE044
,得到第i层第m组的解码器值向量
Figure 836847DEST_PATH_IMAGE045
,其维度为(N×K)×M×(C/M);
S3.7:通过下式计算得到第i层第m组第j个增强目标查询特征
Figure DEST_PATH_IMAGE046
Figure 559952DEST_PATH_IMAGE047
其中,
Figure DEST_PATH_IMAGE048
表示所述
Figure 436641DEST_PATH_IMAGE049
第2个维度的第j个向量,其维度为N×(N×K);
Figure DEST_PATH_IMAGE050
为所述
Figure 852579DEST_PATH_IMAGE045
第2个维度取出第j个向量,其维度为(N×K)×(C/M);
将所有
Figure 650771DEST_PATH_IMAGE046
在第2个维度拼接,成为第i层第m组增强目标查询特征
Figure 646409DEST_PATH_IMAGE051
,其维度为 N×M×(C/M);
S3.8:将上述所有第i层每组增强目标查询特征在第3个维度拼接后,通过第i层1×1解码器融合卷积
Figure DEST_PATH_IMAGE052
,第i层得到融合后的增强目标查询特征
Figure 377604DEST_PATH_IMAGE053
,改变维度为N×(M×C),之后经过第i层解码器前馈网络和第i层解码器层归一化,得到第i层多方向交叉注意力层输出的目标查询向量qi,维度为N×C。
4.根据权利要求1所述的基于自注意力机制的通用图像目标检测方法,其特征在于,所述步骤四包括:将所述解码器输出增强目标查询向量分别输入到由两个不同全连接网络组成的分类层和回归层,输出训练集图像的预测边界框类别概率和位置。
5.根据权利要求1所述的基于自注意力机制的通用图像目标检测方法,其特征在于,所述步骤五包括:将所述输出训练集图像的预测边界框类别概率和位置与真实边界框类别和位置信息通过匈牙利匹配算法获得最佳匹配,然后计算分类损失函数和位置回归损失函数之和作为网络整体损失;网络整体损失表达式如下所示:
Figure DEST_PATH_IMAGE054
其中,Lcls表示分类损失函数,计算预测边界框类别概率和真实边界框类别的焦点损失;
Figure 961514DEST_PATH_IMAGE055
表示预测边界框位置和真实边界框位置的L1损失,Lgiou表示预测边界框位置和真实边界框位置的广义的IoU损失,
Figure 247001DEST_PATH_IMAGE055
和Lgiou之和表示位置回归损失函数;
λcls
Figure DEST_PATH_IMAGE056
和λgiou分别表示分类损失函数、L1损失和广义的IoU损失对应的权重系数;
最后使用反向传播方法对整个模型进行训练,当网络整体损失不再降低时,得到目标检测模型。
6.一种基于自注意力机制的通用图像目标检测装置,其特征在于,包括一个或多个处理器,用于实现权利要求1-5中任一项所述的基于自注意力机制的通用图像目标检测方法。
7.一种计算机可读存储介质,其特征在于,其上存储有程序,该程序被处理器执行时,实现权利要求1-5中任一项所述的基于自注意力机制的通用图像目标检测方法。
CN202111477045.4A 2021-12-06 2021-12-06 一种基于自注意力机制的通用图像目标检测方法和装置 Active CN113902926B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111477045.4A CN113902926B (zh) 2021-12-06 2021-12-06 一种基于自注意力机制的通用图像目标检测方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111477045.4A CN113902926B (zh) 2021-12-06 2021-12-06 一种基于自注意力机制的通用图像目标检测方法和装置

Publications (2)

Publication Number Publication Date
CN113902926A CN113902926A (zh) 2022-01-07
CN113902926B true CN113902926B (zh) 2022-05-31

Family

ID=79195365

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111477045.4A Active CN113902926B (zh) 2021-12-06 2021-12-06 一种基于自注意力机制的通用图像目标检测方法和装置

Country Status (1)

Country Link
CN (1) CN113902926B (zh)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114612378B (zh) * 2022-01-21 2024-04-26 华东师范大学 一种目标检测中使用IoU加强自注意力机制的方法
CN114596273B (zh) * 2022-03-02 2022-11-25 江南大学 利用yolov4网络的陶瓷基板多种瑕疵智能检测方法
CN114283347B (zh) * 2022-03-03 2022-07-15 粤港澳大湾区数字经济研究院(福田) 目标检测方法、系统、智能终端及计算机可读存储介质
CN114758145B (zh) * 2022-03-08 2024-07-19 深圳须弥云图空间科技有限公司 一种图像脱敏方法、装置、电子设备及存储介质
CN114359283B (zh) * 2022-03-18 2022-07-05 华东交通大学 基于Transformer的缺陷检测方法和电子设备
CN114821331A (zh) * 2022-05-13 2022-07-29 北京航空航天大学 基于自注意力机制的遥感图像弱监督目标检测方法及系统
CN114758032B (zh) 2022-06-15 2022-09-16 之江实验室 基于时空注意力模型的多相期ct图像分类系统及构建方法
CN115063666A (zh) * 2022-07-06 2022-09-16 京东科技信息技术有限公司 解码器的训练方法、目标检测方法、装置以及存储介质
CN115170828B (zh) * 2022-07-15 2023-03-14 哈尔滨市科佳通用机电股份有限公司 基于深度学习的折角塞门卡子丢失故障检测方法
CN114998748B (zh) * 2022-07-28 2023-02-03 北京卫星信息工程研究所 遥感图像目标精细识别方法、电子设备及存储介质
CN114972976B (zh) * 2022-07-29 2022-12-20 之江实验室 基于频域自注意力机制的夜间目标检测、训练方法及装置
CN116258931B (zh) * 2022-12-14 2023-09-15 之江实验室 基于ViT和滑窗注意力融合的视觉指代表达理解方法和系统
CN115953665B (zh) * 2023-03-09 2023-06-02 武汉人工智能研究院 一种目标检测方法、装置、设备及存储介质
CN116129228B (zh) * 2023-04-19 2023-07-18 中国科学技术大学 图像匹配模型的训练方法、图像匹配方法及其装置
CN116384593B (zh) * 2023-06-01 2023-08-18 深圳市国电科技通信有限公司 分布式光伏出力预测方法、装置、电子设备和介质
CN116993996B (zh) * 2023-09-08 2024-01-12 腾讯科技(深圳)有限公司 对图像中的对象进行检测的方法及装置
CN117392505B (zh) * 2023-10-12 2024-09-10 同济大学 一种基于detr改进算法的图像目标检测方法及系统
CN117152142B (zh) * 2023-10-30 2024-02-02 菲特(天津)检测技术有限公司 一种轴承缺陷检测模型构建方法及系统
CN117542045B (zh) * 2024-01-10 2024-05-10 山东记食信息科技有限公司 一种基于空间引导自注意力的食品识别方法及系统
CN117994254B (zh) * 2024-04-03 2024-08-06 江苏兴力工程管理有限公司 一种基于条件交叉注意力机制的架空线路绝缘子定位识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112819037B (zh) * 2021-01-12 2024-01-30 广东石油化工学院 基于交叉注意力和自注意力的分类参数分布的故障诊断方法

Also Published As

Publication number Publication date
CN113902926A (zh) 2022-01-07

Similar Documents

Publication Publication Date Title
CN113902926B (zh) 一种基于自注意力机制的通用图像目标检测方法和装置
CN110188765B (zh) 图像语义分割模型生成方法、装置、设备及存储介质
US20220414911A1 (en) Three-dimensional reconstruction method and three-dimensional reconstruction apparatus
CN110929080B (zh) 基于注意力和生成对抗网络的光学遥感图像检索方法
Jiang et al. Dual attention mobdensenet (damdnet) for robust 3d face alignment
CN106339753A (zh) 一种有效提升卷积神经网络稳健性的方法
WO2016119076A1 (en) A method and a system for face recognition
CN109766557A (zh) 一种情感分析方法、装置、存储介质及终端设备
CN111797589A (zh) 一种文本处理网络、神经网络训练的方法以及相关设备
CN112116064A (zh) 光谱超分辨自适应加权注意力机制深层网络数据处理方法
CN114821169B (zh) 微服务架构下的方法级无侵入调用链路追踪方法
CN115222998B (zh) 一种图像分类方法
CN115423847A (zh) 基于Transformer的孪生多模态目标跟踪方法
CN116226388B (zh) 一种文献分类方法、一种图神经网络训练方法及相关组件
US11948078B2 (en) Joint representation learning from images and text
US20230281826A1 (en) Panoptic segmentation with multi-database training using mixed embedding
CN114863407A (zh) 一种基于视觉语言深度融合的多任务冷启动目标检测方法
CN116503399A (zh) 基于yolo-afps的绝缘子污闪检测方法
CN114743187A (zh) 银行安全控件自动登录方法、系统、设备及存储介质
CN116150561A (zh) 自注意力机制的处理方法、装置、卷积神经网络模型
CN114067371B (zh) 一种跨模态行人轨迹生成式预测框架、方法和装置
CN113487027B (zh) 基于时序对齐预测的序列距离度量方法、存储介质及芯片
CN114819140A (zh) 模型剪枝方法、装置和计算机设备
CN115100599A (zh) 基于掩码transformer的半监督人群场景异常检测方法
CN114820755A (zh) 一种深度图估计方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant