CN112215271B - 一种基于多头注意力机制的抗遮挡目标检测方法及设备 - Google Patents
一种基于多头注意力机制的抗遮挡目标检测方法及设备 Download PDFInfo
- Publication number
- CN112215271B CN112215271B CN202011034696.1A CN202011034696A CN112215271B CN 112215271 B CN112215271 B CN 112215271B CN 202011034696 A CN202011034696 A CN 202011034696A CN 112215271 B CN112215271 B CN 112215271B
- Authority
- CN
- China
- Prior art keywords
- feature
- attention mechanism
- attention
- loss value
- occlusion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 121
- 230000007246 mechanism Effects 0.000 title claims abstract description 112
- 238000012549 training Methods 0.000 claims abstract description 33
- 238000000034 method Methods 0.000 claims abstract description 26
- 238000000605 extraction Methods 0.000 claims abstract description 18
- 238000010586 diagram Methods 0.000 claims abstract description 17
- 230000004044 response Effects 0.000 claims abstract description 4
- 238000004364 calculation method Methods 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 11
- 230000004927 fusion Effects 0.000 claims description 9
- 239000013598 vector Substances 0.000 claims description 9
- 230000011218 segmentation Effects 0.000 claims description 5
- 239000010410 layer Substances 0.000 description 45
- 238000004422 calculation algorithm Methods 0.000 description 24
- 238000002474 experimental method Methods 0.000 description 10
- 230000006872 improvement Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000002679 ablation Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 239000002356 single layer Substances 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于多头注意力机制的抗遮挡目标检测方法及设备,方法包括:将所述训练样本输送至初始模型中,通过目标提取子网络对所述训练样本中进行特征提取,以得到多个不同尺度的特征层;将各个所述特征层以特征金字塔的结构融合,通过注意力机制子网络在所述特征金字塔的每层特征层中添加多头注意力机制,以得到各层特征层的特征响应图和注意力特征图;计算出分类损失值、回归损失值和注意力损失值;计算出整体损失值,利用所述整体损失值对所述初始模型进行训练,以得到目标检测模型;利用所述目标检测模型对待检测图像进行目标检测。本发明解决了目前无法有效减少遮挡对目标检测的影响的问题。
Description
技术领域
本发明涉及图像处理和计算机视觉技术领域,尤其涉及一种基于多头注意力机制的抗遮挡目标检测方法、设备及存储介质。
背景技术
近年来,在图像领域,卷积神经网络被广泛应用在目标检测、语义分割、行人检测等领域。自从AlexNet大幅度提升了目标检测算法的检测精度之后,Faster-RCNN又舍弃了速度较慢的Selective Search算法,设计了与CNN权值共享的RPN,真正意义上实现了端对端训练。而FCN算法则是利用全卷积的ResNet替代Faster-RCNN常用的VGGNet,将特征图像上的特征点能够与原始输入图片之间构成映射关系,能提升对小目标的检测性能。SSD算法集成了Faster-RCNN算法的检测精度和YOLO算法的检测速度,将RPN网站中的锚点代替单一的网格化分割,使用多尺度特征向量对特征区域进行回归运算。FPN算法沿袭了SSD算法对于特征金字塔的构建基础,但是又将特征金字塔进行top-down连接,使不同尺度的特征图直接相互关联,提取更丰富的特征。Focal Loss提出一种全新结构RetinaNet以解决单阶段目标检测中正负样本比例严重失衡的问题。
尽管在目标检测领域中,各种最佳算法在各个数据集中都展现了不俗的检测效果,但是目前的算法的检测精度都会随着遮挡程度的增加而降低,经常会出现的待检测目标之间相互重合或者背景遮住待检测目标的一部分的现象。在遮挡情况下,待检测目标的目标特征不完全,这使得常用的卷积神经网络会误将待检测目标识别为背景或者识别成相邻目标的一部分,从而产生漏检现象。只有解决了遮挡问题的目标检测算法,才能在众多的应用领域中减少安全风险。
目前,处理遮挡问题的方法可分为以下3类。
(1)多遮挡情形模型集成:这类方法针对不同遮挡情形各自训练模型,然后集成这些模型来检测目标。例如,在基于部分的模型基础上,对检测结果对应的部分可视概率进行建模,然后将检测结果与概率模型进行融合,获得候选框属于目标类别的概率。或者利用深度学习表达特征的能力来训练每个部分的模型,并设计了一个部分池化层来使模型适用于更多遮挡的情形。这类方法的主要缺点在于由于需要训练多个模型,训练和测试时非常耗时。
(2)多遮挡情形联合模型:也有学者针对不同的遮挡情形训练联合模型,能加快检测速度。例如设计一个集成特征提取、DPM、抗遮挡和分类能力的深度学习模型,较原来最好算法平均错误率降低了9%。或者采用多标签学习算法来联合训练针对不同遮挡情形的检测器。实验表明,该方法不仅适用于手工设计的特征,也适用于深度学习网络提取特征。这类方法的缺点在于所针对的遮挡情形的是有限的,无法包括所有遮挡情形。
(3)通用检测框架的遮挡抑制:此类方法在目标检测网络的基础上通过设计损失和改进网络结构等方式,抑制遮挡对目标检测结果的影响。例如,通过引入Grid loss层分块计算损失,提高每部分的分辨能力进而抑制部分遮挡的情形。或者在采用RepulsionLoss计算检测框的回归损失时,不仅考虑到检测框应该靠近与其IOU最大标定框,还设计了Repulsion Loss使检测框远离其他相交的标定框和其他检测框,提高了算法在密集遮挡情形下的精度。此外,还有采用Soft-NMS算法改进传统的NMS算法,将除最佳检测框之外的所有其他对象的检测分数衰减为与检测框重叠的连续函数。此种方式算法结构复杂,而且智能抑制部分遮挡。
因此,现有技术中均无法有效地减少遮挡对目标检测的影响,抗遮挡能力均不佳。
发明内容
有鉴于此,有必要提供一种基于多头注意力机制的抗遮挡目标检测方法、设备及存储介质,用以解决目前无法有效减少遮挡对目标检测的影响的问题。
第一方面,本发明提供一种基于多头注意力机制的抗遮挡目标检测方法,包括如下步骤:
获取训练样本,将所述训练样本输送至初始模型中,通过目标提取子网络对所述训练样本中进行特征提取,以得到多个不同尺度的特征层;
将各个所述特征层以特征金字塔的结构融合,通过注意力机制子网络在所述特征金字塔的每层特征层中添加多头注意力机制,以得到各层特征层的特征响应图和注意力特征图;
分别通过分类子网络、回归子网络和注意力特征图计算出分类损失值、回归损失值和注意力损失值;
根据所述分类损失值、回归损失值和注意力损失值计算出整体损失值,利用所述整体损失值对所述初始模型进行训练,以得到目标检测模型;
利用所述目标检测模型对待检测图像进行目标检测,以检测出所述待检测图像中的被遮挡目标信息。
优选的,所述的基于多头注意力机制的抗遮挡目标检测方法中,所述通过目标提取子网络对所述训练样本中进行特征提取,以得到多个不同尺度的特征层的方法具体为:
通过具有残差结构的RetinaNet特征提取子网络对所述训练样本进行特征提取,并通过FPN的自上而下融合方式得到多个不同尺度的特征层。
优选的,所述的基于多头注意力机制的抗遮挡目标检测方法中,所述多头注意力机制包含三组注意力特征层,每组注意力特征层由两层包含256个滤波器的3*3卷积层组成。
优选的,所述的基于多头注意力机制的抗遮挡目标检测方法中,所述注意力特征图的获取方式为:
其中,P、V、A分别表示一组注意力特征层,d为所述训练集中的图像的像素宽度。
优选的,所述的基于多头注意力机制的抗遮挡目标检测方法中,所述分类损失值的计算方法为:
其中,lcls,k为第k个检测框的分类损失值,ti为预测分类标签,为实际标签,lcls为分类损失函数。
优选的,所述的基于多头注意力机制的抗遮挡目标检测方法中,所述回归损失值的计算方法为:
,
其中,是用来限制回归损失只考虑积极锚点的函数,pi是预测框上下角两个点坐标向量,/>是预测框的实际坐标向量,Lrep是回归损失函数。
优选的,所述的基于多头注意力机制的抗遮挡目标检测方法中,所述注意力损失值的计算方法为:
,
其中mk是第k个特征层的注意力特征图,是实际的语义分割图,Smoothln为:
,
其中σ为阈值参数。
优选的,所述的基于多头注意力机制的抗遮挡目标检测方法中,所述整体损失值的计算方法为:
L=αLcls+βLreg+λLatt,
其中,α、β和γ为损失值计算参数,用于均衡所述分类损失值、回归损失值和注意力损失值。
第二方面,本发明还提供一种基于多头注意力机制的抗遮挡目标检测设备,包括:处理器和存储器;
所述存储器上存储有可被所述处理器执行的计算机可读程序;
所述处理器执行所述计算机可读程序时实现如上所述的基于多头注意力机制的抗遮挡目标检测方法中的步骤。
第三方面,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如上所述的基于多头注意力机制的抗遮挡目标检测方法中的步骤。
【有益效果】
本发明提供的基于多头注意力机制的抗遮挡目标检测方法、设备及存储介质,在已有的目标检测网络基础上引入新的多头注意力机制来处理不同程度的遮挡目标检测,因而具有易于改进、容易训练的特点,提出的注意力策略兼顾性能提升和较快检测速度,且容易集成到主流目标检测器中,并且不限于特定的遮挡模式,能较好得减小遮挡对目标检测的影响,提高算法的抗遮挡目标检测能力。
附图说明
图1为本发明提供的基于多头注意力机制的抗遮挡目标检测方法的一较佳实施例的流程图;
图2为本发明提供的基于多头注意力机制的抗遮挡目标检测方法的网络架构图;
图3a为本发明在COCO数据集上注意力机制和注意力损失的消融实验结果示意图;
图3b为本发明在Cityscapes数据集上注意力机制和注意力损失的消融实验结果示意图
图4为本发明一较佳实施例中训练过程中子损失的变化曲线图;
图5a为不同注意力形式在COCO数据集上的对比实验结果示意图;
图5b为不同注意力形式在Cityscapes数据集上的对比实验结果示意图;
图6为本发明基于多头注意力机制的抗遮挡目标检测程序的较佳实施例的运行环境示意图。
具体实施方式
下面结合附图来具体描述本发明的优选实施例,其中,附图构成本申请一部分,并与本发明的实施例一起用于阐释本发明的原理,并非用于限定本发明的范围。
请参阅图1,本发明实施例提供的基于多头注意力机制的抗遮挡目标检测方法,包括如下步骤:
S100、获取训练样本,将所述训练样本输送至初始模型中,通过目标提取子网络对所述训练样本中进行特征提取,以得到多个不同尺度的特征层。
本实施例中,所述初始模型包括特征提取子网络、注意力机制子网络、分类子网络和回归子网络。所述特征提取主网络为主网络,其中,所述通过目标提取子网络对所述训练样本中进行特征提取,以得到多个不同尺度的特征层的方法具体为:
通过具有残差结构的RetinaNet特征提取子网络对所述训练样本进行特征提取,并通过FPN的自上而下(top-down)融合方式得到多个不同尺度的特征层。
分类子网络采用四个3*3卷积层,每个卷积层有256个滤波器。接下来是带有KA个滤波器的3*3卷积层,其中K表示总的类别数目,A表示每个像素的锚点数。与原始的RetinaNet一样,该子网中的所有卷积层在所有级别的特征金字塔中共享参数。回归子网络与分类子网络大体上相同,不同之处在于它以线性激活终止于4A卷积滤波器。
S200、将各个所述特征层以特征金字塔的结构融合,通过注意力机制子网络在所述特征金字塔的每层特征层中添加多头注意力机制,以得到各层特征层的特征响应图和注意力特征图。
本实施例中,基于上述网络主体结构,引入了多头注意力机制,并重新设计特征融合策略,提取出被遮挡物体的特征,为后续的分类和回归子网络提供更多特征。针对以RetinaNet为主网络结构的多头注意力机制的引入,包含内容如下:
算法的注意力特征信息可以通过填充地面信息框而获得的。同时,注意力特征热力图与分配给当前层中锚点的实际目标,在背景中位置相关联。这些分层注意力图可以分别提取不同尺度的目标,并降低它们在特征层之间的相关性。
而对于多头注意力机制,较之于传统的注意力机制,更有效地根据相关性在各级特征层中区分不同尺度的目标,捕捉出被遮挡物体。所述多头注意力机制包含三组注意力特征层,分别命名为P,V和A,每组注意力特征层由两层包含256个滤波器的3*3卷积层组成。
具体的,所述注意力特征图的获取方式为:
其中,P、V、A分别表示一组注意力特征层,d为所述训练集中的图像的像素宽度。上述公式中,得到注意力特征图后,又引入的指数运算,以此修正补偿特征图。
具体的,请参阅图2,本发明结合注意力机制的特性,提出了4处可以采用注意力机制的位置A1、A2、A3和A4。这些位置在分类和回归子网络前,都包含较多的目标特征,是通常情况下注意力机制应用位置。
S300、分别通过分类子网络、回归子网络和注意力特征图计算出分类损失值、回归损失值和注意力损失值。
具体来说,对于本发明中多头注意力机制的损失函数,本发明采用多任务交叉损失来训练模型以实现检测出被遮挡目标,其共包含目标分类损失Lcls、检测框回归损失Lreg和注意力损失Latt三个部分。
对于所述目标分类损失Lcls,其降低了大量简单负样本在训练中所占的权重,解决了one-stage目标检测中正负样本比例严重失衡的问题,其具体计算方法为:
其中,lcls,k为第k个检测框的分类损失值,ti是由本发明网络得出的预测分类标签,是实际标签,lcls是focal loss中的分类损失函数。
对于所述的检测框回归损失Lreg,其使预测框更加接近所属的真实目标框,并远离周围的目标,防止了检测遮挡目标的过程中因目标过于拥挤而使得预测框偏移到周围目标框的问题,其具体计算方法为:
其中,是用来限制回归损失只考虑积极锚点(positively assignedanchors)的函数,pi是由本网络得出的预测框上下角两个点坐标向量,/>是预测框的实际坐标向量,Lrep是适用于遮挡检测的回归损失函数。
对于所述的注意力损失Latt,其计算方法为:
其中,mk是第k个特征层的注意力特征图(map),而是实际的语义分割图,Smoothln为
其中σ为阈值参数。
S400、根据所述分类损失值、回归损失值和注意力损失值计算出整体损失值,利用所述整体损失值对所述初始模型进行训练,以得到目标检测模型。
具体来说,基于上述三个损失值,所述整体损失值的计算方法为:
L=αLcls+βLreg+λLatt,
其中,α、β和γ为损失值计算参数,用于均衡所述分类损失值、回归损失值和注意力损失值,通过探寻最优化的参数设置,使各个子损失实现最佳的平衡态。
S500、利用所述目标检测模型对待检测图像进行目标检测,以检测出所述待检测图像中的被遮挡目标信息。
换而言之,在得到了目标检测模型后,即可通过目标检测模型对待检测图像进行检测,能较好得减小所述待检测图像中的遮挡对目标检测的影响,提高算法的抗遮挡目标检测能力。
为了验证本发明的有效性,请参阅图3,采用Cityscapes和COCO两个数据集对提出模型的有效性进行验证,包括注意力机制引入的有效性实验、算法子损失均衡实验、注意力机制形式及位置对算法精度的影响实验,其结果如下:
选择retinanet作为衡量算法精度的基准,在retinanet上增添多头注意力机制以及注意力损失。默认在特征金字塔的每一层都增加多头注意力机制。通过消融实验得到如图3所示的不同情况下模型准确度。
由图3a和图3b的消融实验结果可知,使用多头注意力机制和注意力损失均能得到比基准更高的准确度。在COCO数据集下,多头注意力机制较基准能提升15.38%的平均准确率和12.08%的平均召回率;使用多头注意机制和注意力损失较基准能提升16.12%的平均准确率和12.08%的平均召回率。通过比较对小目标的检测精度,多头注意机制和注意力损失的共同作用能提升28.94%的平均准确率和19.44%的平均召回率。
在Cityscapes数据集下,多头注意力机制较基准能提升6.37%的平均准确度和7.87%的平均召回率;使用多头注意机制和注意力损失较基准能提升8.61%的平均准确度和9.55%的平均召回率。通过比较对小目标的检测精度,多头注意机制和注意力损失的共同作用能提升38.89%的平均准确度和37.50%的平均召回率。
因此,在两个数据集上的结果以及注意力特征图均能表明,多头注意力机制能提升网络的目标检测准确度,同时能有效增强网络对遮挡目标的检测能力。
在另一个具体实施例中,交通场景中的目标检测网络已经有分类和回归子损失,因此在额外增加注意力损失后,需要调整各个子任务的损失权重,以期望能实现各个子任务损失间的均衡,达到最优的检测性。如下表所示,在α=0.25、β=1.8、γ=1.0时,各个子损失直接能实现最佳的平衡态。此时得到的分类损失、回归损失和注意力损失在训练过程中的变化情况如图4所示。随着训练次数的增加,模型的子损失逐渐趋于稳定,各自在一定的范围内趋于稳定,且数值差距不大。准确度的最佳提升和子损失的数值变化均能证明此时子损失间较为均衡。
采用多头注意力机制能提升网络的检测精度和抗遮挡能力,而注意力机制也有不同的网络结构。为了验证本发明提出的多头注意力机制的形式具有最优的抗遮挡能力,针对不同形式的注意力机制进行对比实验。图5a和图5b中展示了在两种数据集下,不同注意力机制的实验结果,其中多层注意力机制的特征有两种方式:直接连接和本文提出的方式。
综合图5中的实验结果,不论是哪一种形式的注意力机制,均能提升原始网络的检测性能和抗遮挡能力。在COCO数据集下,使用注意力机制平均能提升12.70%的平均准确率和24.56%的抗遮挡能力。但是,采用直接连接方式进行注意力特征融合的多层注意力机制相比于单层注意力机制的仅仅能提升0.04的平均精准率和0.01的平均召回率。同一条件下,通过本发明进行特征融合的多头注意力机制可以实现更高的检测精度和抗遮挡能力,提升了0.16的平均准确度和0.07的平均召回率。
在Cityscapes数据集下,注意力机制能平均提升5.24%的平均准确率和48.15%的抗遮挡能力。而且与在COCO数据集中一样,本发明提出的多头注意力机制比直接连接特征层的多层注意力机制能提高更强检测能力的抗遮挡能力,相比于单层注意力,能提升6.62%的平均准确率和25%的平均召回率。
总而言之,注意力机制能提升网络的检测能力和抗遮挡能力,而多层注意力机制提高的准确率更高。但是多层注意力机制中,直接连接注意力特征的融合方式相当于是拓展了单层注意力的卷积核数量,这是数量上的变化,并没有本质的改变。而本发明提出的多头注意力机制提出的特征融合方式,能更有效地利用注意力特征层。
经过以上分析,已经能确定提出的多头注意力机制能明显地提升网络的检测准确率和抗遮挡能力。但是如果对特征金字塔的每一层特征都施加多头注意力机制,将会极大地扩大原始网络的网络结构,降低图像的检测的速度。所以这里将分别在每一层特征上施加多头注意力机制,以探索算法能均衡抗遮挡能力和网络检测速度的最优位置。
下表第一行代表采用相应的策略,ResNet-101代表基础Faster-RCNN网络,而F1、F2、F3和F4则表示在相应的特征层中引入基于注意力机制的抗遮挡策略,打“√”表示选用该策略。
根据表中数据,对比在特征层F1、F2、F3和F4上引入注意力机制的效果,在特征层F2上引入效果最好且能在COCO数据集上提升2.4%的AP和1.1%的AR;在Cityscapes数据集上能提升2.3%的AP和1.5%的AR。在特征层F1和F3上引入时,表现无功无过,并未带来精度上有较大的提升;而在特征层F4引入时,提升的精度最小,因为该层为最高层,具有的小目标特征较少,融合后反倒稀释了小目标特征,导致精度下降。总之,选择合适的特征层引入注意力机制才能提高网络性能。
如图6所示,基于上述基于多头注意力机制的抗遮挡目标检测方法,本发明还相应提供了一种基于多头注意力机制的抗遮挡目标检测设备,所述基于多头注意力机制的抗遮挡目标检测设备可以是移动终端、桌上型计算机、笔记本、掌上电脑及服务器等计算设备。该基于多头注意力机制的抗遮挡目标检测设备包括处理器10、存储器20及显示器30。图6仅示出了基于多头注意力机制的抗遮挡目标检测设备的部分组件,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
所述存储器20在一些实施例中可以是所述基于多头注意力机制的抗遮挡目标检测设备的内部存储单元,例如基于多头注意力机制的抗遮挡目标检测设备的硬盘或内存。所述存储器20在另一些实施例中也可以是所述基于多头注意力机制的抗遮挡目标检测设备的外部存储设备,例如所述基于多头注意力机制的抗遮挡目标检测设备上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器20还可以既包括基于多头注意力机制的抗遮挡目标检测设备的内部存储单元也包括外部存储设备。所述存储器20用于存储安装于所述基于多头注意力机制的抗遮挡目标检测设备的应用软件及各类数据,例如所述安装基于多头注意力机制的抗遮挡目标检测设备的程序代码等。所述存储器20还可以用于暂时地存储已经输出或者将要输出的数据。在一实施例中,存储器20上存储有基于多头注意力机制的抗遮挡目标检测程序40,该基于多头注意力机制的抗遮挡目标检测程序40可被处理器10所执行,从而实现本申请各实施例的基于多头注意力机制的抗遮挡目标检测方法。
所述处理器10在一些实施例中可以是一中央处理器(Central Processing Unit,CPU),微处理器或其他数据处理芯片,用于运行所述存储器20中存储的程序代码或处理数据,例如执行所述基于多头注意力机制的抗遮挡目标检测方法等。
所述显示器30在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。所述显示器30用于显示在所述基于多头注意力机制的抗遮挡目标检测设备的信息以及用于显示可视化的用户界面。所述基于多头注意力机制的抗遮挡目标检测设备的部件10-30通过系统总线相互通信。
在一实施例中,当处理器10执行所述存储器20中基于多头注意力机制的抗遮挡目标检测程序40时实现如上述实施例所述的基于多头注意力机制的抗遮挡目标检测方法,由于上文已对所述基于多头注意力机制的抗遮挡目标检测方法进行详细描述,在此不再赘述。
综上所述,本发明提供的基于多头注意力机制的抗遮挡目标检测方法、设备及存储介质,在已有的目标检测网络基础上引入新的多头注意力机制来处理不同程度的遮挡目标检测,因而具有易于改进、容易训练的特点,提出的注意力策略兼顾性能提升和较快检测速度,且容易集成到主流目标检测器中,并且不限于特定的遮挡模式,能较好得减小遮挡对目标检测的影响,提高算法的抗遮挡目标检测能力。
当然,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关硬件(如处理器,控制器等)来完成,所述的程序可存储于一计算机可读取的存储介质中,该程序在执行时可包括如上述各方法实施例的流程。其中所述的存储介质可为存储器、磁碟、光盘等。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。
Claims (8)
1.一种基于多头注意力机制的抗遮挡目标检测方法,其特征在于,包括如下步骤:
获取训练样本,将所述训练样本输送至初始模型中,通过目标提取子网络对所述训练样本中进行特征提取,以得到多个不同尺度的特征层;
将各个所述特征层以特征金字塔的结构融合,通过注意力机制子网络在所述特征金字塔的每层特征层中添加多头注意力机制,以得到各层特征层的特征响应图和注意力特征图;
分别通过分类子网络、回归子网络和注意力特征图计算出分类损失值、回归损失值和注意力损失值;
根据所述分类损失值、回归损失值和注意力损失值计算出整体损失值,利用所述整体损失值对所述初始模型进行训练,以得到目标检测模型;
利用所述目标检测模型对待检测图像进行目标检测,以检测出所述待检测图像中的被遮挡目标信息;
所述多头注意力机制包含三组注意力特征层,每组注意力特征层由两层包含256个滤波器的3*3卷积层组成;
所述注意力特征图的获取方式为:
,
其中,P、V、A分别表示一组注意力特征层,d为所述训练样本中的图像的像素宽度。
2.根据权利要求1所述的基于多头注意力机制的抗遮挡目标检测方法,其特征在于,所述通过目标提取子网络对所述训练样本中进行特征提取,以得到多个不同尺度的特征层的方法具体为:
通过具有残差结构的RetinaNet特征提取子网络对所述训练样本进行特征提取,并通过FPN的自上而下融合方式得到多个不同尺度的特征层。
3.根据权利要求1所述的基于多头注意力机制的抗遮挡目标检测方法,其特征在于,所述分类损失值的计算方法为:
,
其中,为第k个检测框的分类损失值,/>为预测分类标签,/>为实际标签,/>为分类损失函数。
4.根据权利要求3所述的基于多头注意力机制的抗遮挡目标检测方法,其特征在于,所述回归损失值的计算方法为:
,
其中,是用来限制回归损失只考虑积极锚点的函数,/>是预测框上下角两个点坐标向量,/>是预测框的实际坐标向量,/>是回归损失函数。
5.根据权利要求4所述的基于多头注意力机制的抗遮挡目标检测方法,其特征在于,所述注意力损失值的计算方法为:
,
其中是第k个特征层的注意力特征图, />是实际的语义分割图,/>为:
,
其中为阈值参数。
6.根据权利要求5所述的基于多头注意力机制的抗遮挡目标检测方法,其特征在于,所述整体损失值的计算方法为:
,
其中,、/>和/>为损失值计算参数,用于均衡所述分类损失值、回归损失值和注意力损失值。
7.一种基于多头注意力机制的抗遮挡目标检测设备,其特征在于,包括:处理器和存储器;
所述存储器上存储有可被所述处理器执行的计算机可读程序;
所述处理器执行所述计算机可读程序时实现如权利要求1-6任意一项所述的基于多头注意力机制的抗遮挡目标检测方法中的步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如权利要求1-6任意一项所述的基于多头注意力机制的抗遮挡目标检测方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011034696.1A CN112215271B (zh) | 2020-09-27 | 2020-09-27 | 一种基于多头注意力机制的抗遮挡目标检测方法及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011034696.1A CN112215271B (zh) | 2020-09-27 | 2020-09-27 | 一种基于多头注意力机制的抗遮挡目标检测方法及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112215271A CN112215271A (zh) | 2021-01-12 |
CN112215271B true CN112215271B (zh) | 2023-12-12 |
Family
ID=74052556
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011034696.1A Active CN112215271B (zh) | 2020-09-27 | 2020-09-27 | 一种基于多头注意力机制的抗遮挡目标检测方法及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112215271B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112819073A (zh) * | 2021-02-01 | 2021-05-18 | 上海明略人工智能(集团)有限公司 | 分类网络训练、图像分类方法、装置和电子设备 |
CN113094933B (zh) * | 2021-05-10 | 2023-08-08 | 华东理工大学 | 基于注意力机制的超声波损伤检测分析方法及其应用 |
CN113869192A (zh) * | 2021-09-26 | 2021-12-31 | 无锡数据湖信息技术有限公司 | 道路路面病害智能识别方法 |
CN117173423A (zh) * | 2023-08-09 | 2023-12-05 | 山东财经大学 | 图像小目标检测方法、系统、设备及介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109829893A (zh) * | 2019-01-03 | 2019-05-31 | 武汉精测电子集团股份有限公司 | 一种基于注意力机制的缺陷目标检测方法 |
CN110245655A (zh) * | 2019-05-10 | 2019-09-17 | 天津大学 | 一种基于轻量级图像金字塔网络的单阶段物体检测方法 |
CN110929578A (zh) * | 2019-10-25 | 2020-03-27 | 南京航空航天大学 | 一种基于注意力机制的抗遮挡行人检测方法 |
CN111160379A (zh) * | 2018-11-07 | 2020-05-15 | 北京嘀嘀无限科技发展有限公司 | 图像检测模型的训练方法及装置、目标检测方法及装置 |
CN111259930A (zh) * | 2020-01-09 | 2020-06-09 | 南京信息工程大学 | 自适应注意力指导机制的一般性目标检测方法 |
-
2020
- 2020-09-27 CN CN202011034696.1A patent/CN112215271B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111160379A (zh) * | 2018-11-07 | 2020-05-15 | 北京嘀嘀无限科技发展有限公司 | 图像检测模型的训练方法及装置、目标检测方法及装置 |
CN109829893A (zh) * | 2019-01-03 | 2019-05-31 | 武汉精测电子集团股份有限公司 | 一种基于注意力机制的缺陷目标检测方法 |
CN110245655A (zh) * | 2019-05-10 | 2019-09-17 | 天津大学 | 一种基于轻量级图像金字塔网络的单阶段物体检测方法 |
CN110929578A (zh) * | 2019-10-25 | 2020-03-27 | 南京航空航天大学 | 一种基于注意力机制的抗遮挡行人检测方法 |
CN111259930A (zh) * | 2020-01-09 | 2020-06-09 | 南京信息工程大学 | 自适应注意力指导机制的一般性目标检测方法 |
Non-Patent Citations (1)
Title |
---|
Occlusion Aware Facial Expression Recognition Using CNN With Attention Mechanism;Yong Li 等;IEEE;第28卷(第5期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112215271A (zh) | 2021-01-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112215271B (zh) | 一种基于多头注意力机制的抗遮挡目标检测方法及设备 | |
CN110084292B (zh) | 基于DenseNet和多尺度特征融合的目标检测方法 | |
US20220383535A1 (en) | Object Tracking Method and Device, Electronic Device, and Computer-Readable Storage Medium | |
CN110991311B (zh) | 一种基于密集连接深度网络的目标检测方法 | |
CN112801164A (zh) | 目标检测模型的训练方法、装置、设备及存储介质 | |
CN108596053A (zh) | 一种基于ssd和车辆姿态分类的车辆检测方法和系统 | |
CN107729848B (zh) | 对象检测方法及装置 | |
CN112560862B (zh) | 文本识别方法、装置及电子设备 | |
TW202207077A (zh) | 一種文本區域的定位方法及裝置 | |
CN113065614B (zh) | 分类模型的训练方法和对目标对象进行分类的方法 | |
Yin et al. | An optimised multi-scale fusion method for airport detection in large-scale optical remote sensing images | |
CN112613569B (zh) | 图像识别方法、图像分类模型的训练方法及装置 | |
CN110348522A (zh) | 一种图像检测识别方法及系统、电子设备、图像分类网络优化方法及系统 | |
CN114882321A (zh) | 深度学习模型的训练方法、目标对象检测方法和装置 | |
Yu et al. | SAR ship detection based on improved YOLOv5 and BiFPN | |
Ma et al. | Dynamic gesture contour feature extraction method using residual network transfer learning | |
Zhang et al. | X‐Ray Image Recognition Based on Improved Mask R‐CNN Algorithm | |
CN113537026B (zh) | 建筑平面图中的图元检测方法、装置、设备及介质 | |
CN112750038B (zh) | 交易风险的确定方法、装置和服务器 | |
CN116152576B (zh) | 图像处理方法、装置、设备及存储介质 | |
CN112857746A (zh) | 一种灯光检测仪的追踪方法、装置、电子设备及存储介质 | |
CN111738290A (zh) | 图像检测方法、模型构建和训练方法、装置、设备和介质 | |
CN115346072A (zh) | 图像分类模型的训练方法及装置、电子设备和存储介质 | |
CN114898454A (zh) | 一种神经网络模型的训练方法、装置、电子设备及介质 | |
CN114120208A (zh) | 一种火焰检测方法、装置、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |