CN111950586A - 一种引入双向注意力的目标检测方法 - Google Patents
一种引入双向注意力的目标检测方法 Download PDFInfo
- Publication number
- CN111950586A CN111950586A CN202010617720.8A CN202010617720A CN111950586A CN 111950586 A CN111950586 A CN 111950586A CN 202010617720 A CN202010617720 A CN 202010617720A CN 111950586 A CN111950586 A CN 111950586A
- Authority
- CN
- China
- Prior art keywords
- attention
- target detection
- training
- target
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 93
- 230000002457 bidirectional effect Effects 0.000 title claims abstract description 30
- 238000012549 training Methods 0.000 claims abstract description 44
- 238000012360 testing method Methods 0.000 claims abstract description 19
- 238000007781 pre-processing Methods 0.000 claims abstract description 12
- 239000011159 matrix material Substances 0.000 claims description 32
- 238000000034 method Methods 0.000 claims description 18
- 238000010586 diagram Methods 0.000 claims description 17
- 238000013527 convolutional neural network Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 5
- 238000011156 evaluation Methods 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 230000005764 inhibitory process Effects 0.000 claims 1
- 210000004556 brain Anatomy 0.000 abstract description 7
- 230000007246 mechanism Effects 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 4
- 230000001629 suppression Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 241000282326 Felis catus Species 0.000 description 1
- 241001494479 Pecora Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Molecular Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
一种引入双向注意力的目标检测方法,其具体步骤如下:步骤1,获取用于目标检测的训练样本,并对训练样本进行预处理;步骤2,建立引入双向注意力的目标检测算法模型,所述引入双向注意力的目标检测算法模型包括共享卷积网络、基础目标检测器和注意力模块;步骤3,将训练样本送入引入双向注意力的目标检测算法模型中进行训练,并优化模型的多任务损失;步骤4,将实际应用场景中的测试样本送入训练好的引入双向注意力的目标检测算法模型进行测试,得到目标检测结果。本发明可以模拟人脑的工作机制,提高目标检测性能。
Description
技术领域
本发明属于目标检测领域,涉及一种引入双向注意力的目标检测方法。
背景技术
目标检测技术是指:给定一幅图像以及检测类别,确定在该图像中是否存在给定类别(比如人、鸟、风筝等)的任何实例,若存在,则返回该实例的空间位置和范围(通常用矩形框框出)。
基于深度神经网络的目标检测算法框架可以分为两类:(1)基于候选区域的两阶段算法;(2)基于边框回归的单阶段算法。具体来说:
(1)基于候选区域的两阶段算法:该算法框架分为两个阶段,首先提取图片中目标可能存在的区域,其次,将所有的区域输入到卷积神经网络中进行特征提取,再对这些区域进行目标分类和边框回归修正。较典型的工作包括Ross Girshick等人发表的“Faster R-CNN:Towards real time object detection with region proposal networks”,(见,IEEE Transactions on Pattern Analysis&Machine Intelligence,2015.)它创造性地将神经网络应用于候选框的提取,从而实现了整个算法的端到端训练。
(2)基于边框回归的单阶段算法:该算法框架不再提取候选区域,而是将原图像作为输入,直接对边框进行回归,输出预测结果,如Redmon等人在“Proceedings of the IEEEConference on Computer Vision and Pattern Recognition.2016.”发表的“You onlylook once:Unified,real-time object detection”。该算法利用卷积神经网络提取特征,将不同大小的特征图都作为输出特征图,其后接分类和回归模块,可以解决不同尺度物体的检测问题,速度远快于Faster RCNN。
通常,二阶段算法具有更高的精度,单阶段算法具有更快的速度。原因如下:第一,单阶段算法从网络结构上看只相当于二阶段网络的第一阶段,而二阶段网络会在此基础上对筛选后的候选框做更精细的计算。第二,二阶段算法在第一个阶段时就已经剔除了大量不包含实例的背景区域,这会让正负样本的数量在训练时更加均衡。第三,二阶段算法在第二阶段开始前会对候选框做resize,小目标将会放大,因此在小物体的检测上二阶段算法比单阶段算法更为准确。同时,正是由于第一阶段的存在,二阶段算法在速度上要慢于单阶段算法。
发明内容
本发明的目的在于提高目标检测算法的性能,本发明提供了一种引入双向注意力的目标检测方法,可以在保持较快的运行速度的情况下,提高目标检测准确率。本发明具有通用性,适用于一阶段和二阶段目标检测算法。
本发明采用的技术方案是:
一种引入双向注意力的目标检测方法,其具体步骤如下:
步骤1,获取用于目标检测的训练样本,并对训练样本进行预处理;
步骤2,建立引入双向注意力的目标检测算法模型,所述引入双向注意力的目标检测算法模型包括共享卷积网络、基础目标检测器和注意力模块;
步骤3,将训练样本送入引入双向注意力的目标检测算法模型中进行训练,并优化模型的多任务损失;
步骤4,将实际应用场景中的测试样本送入训练好的引入双向注意力的目标检测算法模型进行测试,得到目标检测结果。
进一步,所述步骤1中训练样本的预处理具体包括以下子步骤:
步骤11,读取目标检测训练样本,每个样本包括图像和标签;
步骤12,对图像进行预处理,将图像进行随机大小,随机长宽比的裁剪,然后将裁剪后的图像调整为固定大小;
步骤13,依概率p对图像进行水平翻转;
步骤14,将读入的图像数据转换为张量,并将RGB三个通道[0,255]的数值归一化至[0,1];
步骤15,将图像数据按通道进行标准化。
进一步,所述步骤2具体包括以下子步骤:
步骤21,所述共享卷积网络用于提取图像的浅层特征图;
步骤22,基础目标检测器通过深度卷积神经网络组成的主干网络对浅层特征图继续提取特征,得到深层特征图;再对深层特征图进行分类和回归,得到矩形框和分类得分矩阵R;
步骤23,注意力模块根据基础目标检测器的结果给浅层特征图赋予不同的注意力权值,浅层特征图中的每个像素对应的特征向量和注意力权值进行点乘之后再继续输入到卷积网络中进行处理,得到注意力模块分类得分矩阵M;
步骤24,注意力模块的结果以一定的注意力权重和基础目标检测器的结果进行结合得到最后的目标检测结果。
进一步,所述基础目标检测器采用一阶段或者两阶段的目标检测算法。
进一步,所述注意力模块的卷积网络采用MobileNet V3网络。
进一步,所述注意力权值按照如下的方法进行赋予:
(1)如果基础目标检测器预测的矩形框和真实物体框最大的IoU大于设定的前景阈值FG_THRESH,该矩形框中所有像素点的注意力权值赋为1;
(2)如果基础目标检测器预测的特征图的像素点对应预测得到的分类分数大于设定的attention阈值,该像素点预测得到的矩形框中范围内包含的所有像素点的注意力权值赋为1;
(3)其余像素点的注意力权值赋为0。
进一步,注意力模块的结果以一定的注意力权重和基础目标检测器的结果结合的具体方式是:
首先计算注意力权重矩阵W:
其中M是注意力模块分类得分矩阵,C表示所有物体类别数;R是基础目标检测器分类得分矩阵,RT是R经过转置后的矩阵;
假设基础目标检测器得到某像素点的分数为r,结合注意力模块的结果得到该像素点的分类分数为
score=r·(WTM)
其中WT表示注意力权重矩阵W转置后的矩阵;
该像素点对应的分类分数score(只是该像素点的分类分数,忽略矩形框中包含的其他像素点的分类分数)和基础目标检测器预测得到的矩形框(由矩形框左上角和右下角的坐标组成)一起组成了该像素点的目标检测结果,然后利用非极大抑制算法对矩形框进行筛选,得到最后的目标检测结果。
进一步,所述步骤3具体包括以下子步骤:
步骤31,将训练样本对随机打乱,每次训练迭代选择Nb个训练样本进行训练,其中Nb<<训练样本总数;
步骤32,将步骤31中预处理后的图像输入到共享卷积网络中,得到浅层特征图,浅层特征图同时输入到基础目标检测器和注意力模块中;基础目标检测器计算分类损失Lcls和定位损失Lloc,其中分类损失Lcls采用交叉熵损失函数,定位损失Lloc采用Smooth-L1损失函数;
注意力模块分类损失LAttention采用交叉熵损失函数;
步骤33,对网络参数进行调整优化多任务损失:L=Lcls+Lloc+LAttention,训练算法模型直到收敛。
进一步,所述的步骤4具体包括以下子步骤:
步骤41,将测试样本进行预处理;
步骤42,将预处理后的测试样本输入训练好的引入双向注意力的目标检测算法模型,得到目标检测结果;
步骤43,重复步骤41至步骤42,直到测试样本集中所有图片均测试完毕,计算目标检测评价指标mAP;
本发明与现有技术相比,其显著优点包括:
1)人脑在观察一幅图片时,并不是均衡地关注整幅图片,而是有侧重地关注图片的某一部分。本发明公开了一种引入双向注意力的目标检测方法,可以模拟人脑的工作机制,提高目标检测性能。
2)注意力模块通过一定的权值关注特征图中位置,使得注意力模块的重点始终放在目标区域。一方面,对于小物体来说,可以减少多余的背景信息,提高网络对小物体的目标检测能力。另一方面,传统的网络一般在降采样的高层语义图进行预测,较小的误差在原图像上会被放大,导致较大的误差。本发明在Attention模块中,特征图和目标可以很好地对齐。
3)传统的目标检测网络对目标的检测性能不够,本发明采用注意力模块和基础目标检测器通过共享浅层网络结合的方式,可以提高目标检测模型的性能,也不会增加过多的计算量。
4)注意力模块的结果以一定的注意力权重和基础目标检测器的结果进行结合得到最后的目标检测结果。这个过程相当于基础目标检测器关注图片中所有位置并在嵌入空间中取加权平均值来表示图片中某位置处的响应,可以得到更多的语义信息。
附图说明
图1为本发明实施例的引入双向注意力的目标检测算法模型的训练和测试流程图。
图2为本发明所述的引入双向注意力的目标检测算法模型的总体结构。
图3为本发明所述的注意力模块所采用的MobileNet V3的网络结构。
图4为本发明所采用的SSD算法的网络结构。
图5为本发明实施例的结果展示对比。
具体实施方式
下面结合具体实施例来对本发明进行进一步说明,但并不将本发明局限于这些具体实施方式。本领域技术人员应该认识到,本发明涵盖了权利要求书范围内所可能包括的所有备选方案、改进方案和等效方案。
参照图1、图2,本实施例提供了一种引入双向注意力的目标检测方法,包括以下步骤:
步骤1,获取用于目标检测的训练样本,并对训练样本进行预处理;
具体的,步骤1中训练样本的预处理具体包括以下子步骤:
步骤11,读取目标检测训练样本,每个样本包括图像和标签;
步骤12,对图像进行预处理,将图像进行随机大小,随机长宽比的裁剪,然后将裁剪后的图像调整为固定大小(通常为224x224,32x32等);
步骤13,依概率p对图像进行水平翻转,p可取0.5;
步骤14,将读入的图像数据转换为张量(Tensor),并将RGB三个通道[0,255]的数值归一化至[0,1],以便深度学习框架如Pytorch等对图像进行后续的操作;
步骤15,将图像数据按通道进行标准化,即RGB每个通道先减去对应的均值(mean),再除以标准差(std)。均值和标准差由所有训练图片统计得到。
步骤2,建立引入双向注意力的目标检测算法模型,所述引入双向注意力的目标检测算法模型包括共享卷积网络、注意力模块和基础目标检测器;
具体的,步骤2具体包括以下子步骤:
步骤21,所述共享卷积网络用于提取图像的浅层特征图。
步骤22,基础目标检测器通过深度卷积神经网络组成的主干网络(backbone)对浅层特征图继续提取特征,得到深层特征图;再对深层特征图进行分类和回归,得到矩形框和分类分数组成的得分矩阵R。
基础目标检测器可以采用一阶段或者两阶段的目标检测算法框架,比如常用一阶段算法框架SSD、RetinaNet和两阶段算法框架Faster RCNN等。采用不同的基础目标检测器算法框架均可以和注意力模块进行结合,采用同样的工作流程来提高基础目标检测器的性能。
本实施例以采用一阶段目标检测算法SSD为例,SSD网络结构如图4所示。采用VGG16作为主干网络,得到6个多尺度特征图,大小为m×n,具有p个通道。特征图上每个像素点预先生成k个默认框。使用3×3×p卷积核对每个特征图进行卷积操作,得到每个像素点对应的相对于默认框的偏移量和物体类别的分数。一张特征图上所有像素点对应的物体类别的分数共同组成了基础目标检测器的得分矩阵R。通过偏移量可以计算出矩形框。
步骤23,注意力模块根据基础目标检测器的结果给浅层特征图赋予不同的注意力权值,浅层特征图中的每个像素对应的特征向量和注意力权值进行点乘之后再继续输入到剩下的卷积网络中进行处理。Attention模块剩下的卷积网络采用MobileNet V3网络,MobileNet V3网络结构如图3所示。同样,每个像素点都会得到对应的物体类别的分数,一张特征图上所有像素点对应的物体类别的分数共同组成了Attention模块的得分矩阵M。
其中注意力权值按照如下的方法进行赋予:
(1)如果基础目标检测器预测的矩形框和真实物体框(Ground Truth)最大的IoU大于设定的前景阈值FG_THRESH,该矩形框中所有像素点的注意力权值赋为1。作为优选,前景阈值FG_THRESH设置为0.5;
(2)如果基础目标检测器预测的特征图的像素点对应预测得到的分类分数大于设定的attention阈值,该矩形框中所有像素点的注意力权值赋为1。作为优选,attention阈值设置为0.3;
(3)其余像素点的注意力权值赋为0。
步骤24,注意力模块的结果以一定的注意力权重和基础目标检测器的结果进行结合得到最后的目标检测结果。结合的具体方式是:基础目标检测器得到的得分矩阵是R,注意力模块得到特征图的得分矩阵为M,首先计算注意力权重矩阵W:
其中M是n×C的矩阵,n表示一张特征图上共有n个像素点,C表示所有物体类别数。R也是n×C的矩阵,RT是R经过转置后的矩阵,大小为C×n。MRT得到n×n的矩阵,除以缩放因子经过softmax计算后得到大小为n×n的矩阵,再和M相乘,最后得到n×C的矩阵W。
假设X是一组数值,xi是X中的第i个元素。其中softmax的计算公式为:
假设基础目标检测器得到某像素点的分数为r,注意力模块得到特征图的得分矩阵为M,注意力权重矩阵为W,最后得到该像素点的分数为
score=r·(WTM)
其中WTM表示注意力矩阵转置和得分矩阵相乘,得到C×C的矩阵,像素点分数r是1×C维向量,最后相乘得到大小为1×C维的像素点分数score。该像素点对应的分类分数score(只是该像素点的分类分数,忽略矩形框中包含的其他像素点的分类分数)和基础目标检测器预测得到的矩形框(由矩形框左上角和右下角的坐标组成)一起组成了该像素点的目标检测结果。在训练时,该结果可以用来计算目标检测的损失函数;在测试时,对该结果,利用非极大抑制算法(NMS)对矩形框进行筛选,得到最后的目标检测结果,即矩形框+物体类别+该类别的分数。
步骤3,将训练样本送入引入双向注意力的目标检测算法模型中进行端到端的深度学习,优化模型的多任务损失;
具体的,所述步骤3具体包括以下子步骤:
步骤31,将训练样本对随机打乱,每次训练迭代选择Nb个训练样本进行训练,其中Nb<<训练样本总数;
步骤32,将上述初始化处理后的图像输入到步骤21定义的共享卷积网络中,得到浅层特征图。浅层特征图同时输入到基础目标检测器和注意力模块中。基础目标检测器可以采用一阶段或者两阶段的目标检测模型,在这里,以SSD为例,SSD网络结构如图4所示。主干网络提取得到深度特征图后,再得到特征图上每个像素点对应的相对于默认框的偏移量和物体类别的分数。将真实物体框(Ground Truth)分配给默认框,分配策略是:首先将GT分配给IoU(交并比)最大的默认框,然后将GT分配给IoU大于0.5的默认框。再计算损失函数:具有GT的是正样本,计算分类损失和定位损失;其余是负样本,只计算分类损失。分类损失(Lcls)采用交叉熵损失函数,定位损失(Lloc)采用Smooth-L1损失函数。
注意力模块根据基础目标检测器的结果给浅层特征图赋予不同的注意力权值,浅层特征图中的每个像素对应的特征向量和注意力权值进行点乘之后再继续输入到剩下的卷积网络中进行处理,得到分类分数之后,和正确的类别标签计算交叉熵损失函数,计算得到损失函数LAttention。
步骤33,对网络参数进行调整优化多任务损失:L=Lcls+Lloc+LAttention,训练算法模型直到收敛。
步骤4,将实际应用场景中的测试样本送入训练好的引入双向注意力的目标检测算法模型进行测试,得到目标检测结果。
具体的,所述步骤4具体包括以下子步骤:
步骤41,将图像调整为300×300像素大小,依照步骤13和步骤14对图像进行后续处理;
步骤42;将图像输入训练好的引入双向注意力的目标检测算法模型中,将注意力模块的结果以一定的注意力权重和基础目标检测器的结果进行结合,利用非极大抑制算法(NMS)对矩形框进行筛选,得到最后的目标检测结果;
步骤43,重复步骤41至步骤42,直到测试数据集中所有图片均测试完毕,计算目标检测评价指标mAP(Mean Average Precision)。
人脑在观察一幅图片时,并不是均衡地关注整幅图片,而是有侧重地关注图片的某一部分。类似地,本发明在进行目标检测时,引入注意力机制来模拟人脑的工作方式。具体来说,本发明的算法分为两个部分:基础目标检测器和注意力(Attention)模块,两个模块共享基础的卷积网络来节省计算量。基础目标检测器的结果以一定的注意力权重输入到注意力模块中;注意力模块的结果以一定的注意力权重和基础目标检测器的结果进行结合得到最后的目标检测结果。在训练阶段,将准备好的目标检测的训练样本输入到算法模型中进行训练,尽可能降低基础目标检测器和注意力模块的多任务损失。在运行速度较快的情况下,和单一的目标检测器相比,本发明进一步提高了目标检测算法精度。本发明可作为图像语义分割、实例分割、图像标注和视频理解的基础,也可应用于机器人、自动驾驶、增强现实、视频监控等领域,具有较好的实用价值。
实施例
本实施例将上述方法应用于目标检测数据集Pascal VOC2007,并与主流的目标检测算法Faster RCNN、R-FCN、SSD、DSSD、DCN相比较。Pascal VOC2007数据集由20个类别的9963张图片组成,包括5011张trainval图片和4952张test图片。20个类别分别为飞机、自行车、鸟、船、瓶子、公共汽车、汽车、猫、椅子、奶牛、餐台、狗、马、摩托车、人、盆栽植物、羊、沙发、火车、电视监视器,见表一。
表一算法性能对比
本实施例采用1080Ti显卡对数据进行训练,在测试集上得到结果如表一所示。图5是以SSD算法为例,和本发明提出的方法的对比示例,其中图5(a)是SSD算法,图5(b)是本发明使用的算法,可以看出,相比于其他目标检测算法,本发明提出的算法在相同的数据集上性能更优,误检更少。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种引入双向注意力的目标检测方法,其特征在于,其具体步骤如下:
步骤1,获取用于目标检测的训练样本,并对训练样本进行预处理;
步骤2,建立引入双向注意力的目标检测算法模型,所述引入双向注意力的目标检测算法模型包括共享卷积网络、基础目标检测器和注意力模块;
步骤3,将训练样本送入引入双向注意力的目标检测算法模型中训练,优化模型的多任务损失;
步骤4,将实际应用场景中的测试样本送入训练好的引入双向注意力的目标检测算法模型进行测试,得到目标检测结果。
2.根据权利要求1所述的一种引入双向注意力的目标检测方法,其特征在于:所述步骤1中训练样本的预处理具体包括以下子步骤:
步骤11,读取目标检测训练样本,每个样本包括图像和标签;
步骤12,对图像进行预处理,将图像进行随机大小,随机长宽比的裁剪,然后将裁剪后的图像调整为固定大小;
步骤13,依概率p对图像进行水平翻转;
步骤14,将读入的图像数据转换为张量,并将RGB三个通道[0,255]的数值归一化至[0,1];
步骤15,将图像数据按通道进行标准化。
3.根据权利要求2所述的一种引入双向注意力的目标检测方法,其特征在于:所述步骤2具体包括以下子步骤:
步骤21,所述共享卷积网络用于提取图像的浅层特征图;
步骤22,基础目标检测器通过深度卷积神经网络组成的主干网络对浅层特征图继续提取特征,得到深层特征图;再对深层特征图进行分类和回归,得到矩形框和分类得分矩阵R;
步骤23,注意力模块根据基础目标检测器的结果给浅层特征图赋予不同的注意力权值,浅层特征图中的每个像素对应的特征向量和注意力权值进行点乘之后再继续输入到卷积网络中进行处理,得到注意力模块分类得分矩阵M;
步骤24,注意力模块的结果以一定的注意力权重和基础目标检测器的结果进行结合得到最后的目标检测结果。
4.根据权利要求3所述的一种引入双向注意力的目标检测方法,其特征在于:所述基础目标检测器采用一阶段或者两阶段的目标检测算法。
5.根据权利要求3所述的一种引入双向注意力的目标检测方法,其特征在于:所述注意力模块的卷积网络采用MobileNet V3网络。
6.根据权利要求3所述的一种引入双向注意力的目标检测方法,其特征在于:所述注意力权值按照如下的方法进行赋予:
(1)如果基础目标检测器预测的矩形框和真实物体框最大的IoU大于设定的前景阈值FG_THRESH,该矩形框中所有像素点的注意力权值赋为1;
(2)如果基础目标检测器预测的特征图的像素点对应预测得到的分类分数大于设定的attention阈值,该像素点预测得到的矩形框中范围内包含的所有像素点的注意力权值赋为1;
(3)其余像素点的注意力权值赋为0。
7.根据权利要求3所述的一种引入双向注意力的目标检测方法,其特征在于:所述注意力模块的结果以一定的注意力权重和基础目标检测器的结果结合的具体方式是:
首先计算注意力权重矩阵W:
其中M是注意力模块分类得分矩阵,C表示所有物体类别数;R是基础目标检测器分类得分矩阵,RT是R经过转置后的矩阵;
假设基础目标检测器得到某像素点的分类分数为r,结合注意力模块的结果得到该像素点的分类分数为
scare=r·(WTM)
其中WT表示注意力权重矩阵W转置后的矩阵;
该像素点对应的分类分数score和基础目标检测器预测得到的矩形框一起组成了该像素点的目标检测结果,然后利用非极大抑制算法对矩形框进行筛选,得到最后的目标检测结果。
8.根据权利要求3所述的一种引入双向注意力的目标检测方法,其特征在于:所述步骤3具体包括以下子步骤:
步骤31,将训练样本对随机打乱,每次训练迭代选择Nb个训练样本进行训练,其中Nb<<训练样本总数;
步骤32,将步骤31中预处理后的图像输入到共享卷积网络中,得到浅层特征图,浅层特征图同时输入到基础目标检测器和注意力模块中;基础目标检测器计算分类损失Lcls和定位损失Lloc,其中分类损失Lcls采用交叉熵损失函数,定位损失Lloc采用Smooth-L1损失函数;
注意力模块分类损失LAttention采用交叉熵损失函数;
步骤33,对网络参数进行调整优化多任务损失:L=Lcls+Lloc+LAttention,训练算法模型直到收敛。
9.根据权利要求3所述的一种引入双向注意力的目标检测方法,其特征在于:所述的步骤4具体包括以下子步骤:
步骤41,将测试样本进行预处理;
步骤42,将预处理后的测试样本输入训练好的引入双向注意力的目标检测算法模型,得到目标检测结果;
步骤43,重复步骤41至步骤42,直到测试样本集中所有图片均测试完毕,计算目标检测评价指标mAP。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010617720.8A CN111950586B (zh) | 2020-07-01 | 2020-07-01 | 一种引入双向注意力的目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010617720.8A CN111950586B (zh) | 2020-07-01 | 2020-07-01 | 一种引入双向注意力的目标检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111950586A true CN111950586A (zh) | 2020-11-17 |
CN111950586B CN111950586B (zh) | 2024-01-19 |
Family
ID=73337531
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010617720.8A Active CN111950586B (zh) | 2020-07-01 | 2020-07-01 | 一种引入双向注意力的目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111950586B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112801971A (zh) * | 2021-01-25 | 2021-05-14 | 北京工业大学 | 一种基于把目标视为点改进的目标检测方法 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018137357A1 (zh) * | 2017-01-24 | 2018-08-02 | 北京大学 | 一种目标检测性能优化的方法 |
CN108647585A (zh) * | 2018-04-20 | 2018-10-12 | 浙江工商大学 | 一种基于多尺度循环注意力网络的交通标识符检测方法 |
CN109389091A (zh) * | 2018-10-22 | 2019-02-26 | 重庆邮电大学 | 基于神经网络和注意力机制结合的文字识别系统及方法 |
CN109543606A (zh) * | 2018-11-22 | 2019-03-29 | 中山大学 | 一种加入注意力机制的人脸识别方法 |
CN110111399A (zh) * | 2019-04-24 | 2019-08-09 | 上海理工大学 | 一种基于视觉注意力的图像文本生成方法 |
WO2019153908A1 (zh) * | 2018-02-11 | 2019-08-15 | 北京达佳互联信息技术有限公司 | 基于注意力模型的图像识别方法和系统 |
CN110135243A (zh) * | 2019-04-02 | 2019-08-16 | 上海交通大学 | 一种基于两级注意力机制的行人检测方法及系统 |
CN110516085A (zh) * | 2019-07-11 | 2019-11-29 | 西安电子科技大学 | 基于双向注意力的图像文本互检索方法 |
CN110929869A (zh) * | 2019-12-05 | 2020-03-27 | 同盾控股有限公司 | 注意力模型的训练方法、装置、设备及存储介质 |
US20200151448A1 (en) * | 2018-11-13 | 2020-05-14 | Adobe Inc. | Object Detection In Images |
CN111179217A (zh) * | 2019-12-04 | 2020-05-19 | 天津大学 | 一种基于注意力机制的遥感图像多尺度目标检测方法 |
CN111275688A (zh) * | 2020-01-19 | 2020-06-12 | 合肥工业大学 | 基于注意力机制的上下文特征融合筛选的小目标检测方法 |
CN111353505A (zh) * | 2020-05-25 | 2020-06-30 | 南京邮电大学 | 可联合实现语义分割和景深估计的网络模型及训练方法 |
-
2020
- 2020-07-01 CN CN202010617720.8A patent/CN111950586B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018137357A1 (zh) * | 2017-01-24 | 2018-08-02 | 北京大学 | 一种目标检测性能优化的方法 |
WO2019153908A1 (zh) * | 2018-02-11 | 2019-08-15 | 北京达佳互联信息技术有限公司 | 基于注意力模型的图像识别方法和系统 |
CN108647585A (zh) * | 2018-04-20 | 2018-10-12 | 浙江工商大学 | 一种基于多尺度循环注意力网络的交通标识符检测方法 |
CN109389091A (zh) * | 2018-10-22 | 2019-02-26 | 重庆邮电大学 | 基于神经网络和注意力机制结合的文字识别系统及方法 |
US20200151448A1 (en) * | 2018-11-13 | 2020-05-14 | Adobe Inc. | Object Detection In Images |
CN111178123A (zh) * | 2018-11-13 | 2020-05-19 | 奥多比公司 | 图像中的对象检测 |
CN109543606A (zh) * | 2018-11-22 | 2019-03-29 | 中山大学 | 一种加入注意力机制的人脸识别方法 |
CN110135243A (zh) * | 2019-04-02 | 2019-08-16 | 上海交通大学 | 一种基于两级注意力机制的行人检测方法及系统 |
CN110111399A (zh) * | 2019-04-24 | 2019-08-09 | 上海理工大学 | 一种基于视觉注意力的图像文本生成方法 |
CN110516085A (zh) * | 2019-07-11 | 2019-11-29 | 西安电子科技大学 | 基于双向注意力的图像文本互检索方法 |
CN111179217A (zh) * | 2019-12-04 | 2020-05-19 | 天津大学 | 一种基于注意力机制的遥感图像多尺度目标检测方法 |
CN110929869A (zh) * | 2019-12-05 | 2020-03-27 | 同盾控股有限公司 | 注意力模型的训练方法、装置、设备及存储介质 |
CN111275688A (zh) * | 2020-01-19 | 2020-06-12 | 合肥工业大学 | 基于注意力机制的上下文特征融合筛选的小目标检测方法 |
CN111353505A (zh) * | 2020-05-25 | 2020-06-30 | 南京邮电大学 | 可联合实现语义分割和景深估计的网络模型及训练方法 |
Non-Patent Citations (2)
Title |
---|
冀中;孔乾坤;王建;: "一种双注意力模型引导的目标检测算法", 激光与光电子学进展, vol. 57, no. 06, pages 123 - 130 * |
罗会兰;陈鸿坤;: "基于深度学习的目标检测研究综述", 电子学报, no. 06, pages 1230 - 1239 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112801971A (zh) * | 2021-01-25 | 2021-05-14 | 北京工业大学 | 一种基于把目标视为点改进的目标检测方法 |
CN112801971B (zh) * | 2021-01-25 | 2024-04-16 | 北京工业大学 | 一种基于把目标视为点改进的目标检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111950586B (zh) | 2024-01-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111639692B (zh) | 一种基于注意力机制的阴影检测方法 | |
CN112200045B (zh) | 基于上下文增强的遥感图像目标检测模型建立方法及应用 | |
CN111898406B (zh) | 基于焦点损失和多任务级联的人脸检测方法 | |
CN111079739B (zh) | 一种多尺度注意力特征检测方法 | |
CN109446922B (zh) | 一种实时鲁棒的人脸检测方法 | |
CN111401293B (zh) | 一种基于Head轻量化Mask Scoring R-CNN的手势识别方法 | |
CN111524145A (zh) | 图片智能裁剪方法、系统、计算机设备及存储介质 | |
CN108830185B (zh) | 基于多任务联合学习的行为识别及定位方法 | |
CN111860683B (zh) | 一种基于特征融合的目标检测方法 | |
CN110532959B (zh) | 基于双通道三维卷积神经网络的实时暴力行为检测系统 | |
CN112419202B (zh) | 基于大数据及深度学习的野生动物图像自动识别系统 | |
CN111353544A (zh) | 一种基于改进的Mixed Pooling-YOLOV3目标检测方法 | |
CN110827312A (zh) | 一种基于协同视觉注意力神经网络的学习方法 | |
CN111753682A (zh) | 一种基于目标检测算法的吊装区域动态监控方法 | |
CN111797841A (zh) | 一种基于深度残差网络的视觉显著性检测方法 | |
CN114220126A (zh) | 一种目标检测系统及获取方法 | |
CN113850136A (zh) | 基于yolov5与BCNN的车辆朝向识别方法及系统 | |
CN113378675A (zh) | 一种同时检测和特征提取的人脸识别方法 | |
CN114781514A (zh) | 一种融合注意力机制的漂浮物目标检测方法及系统 | |
US20240161461A1 (en) | Object detection method, object detection apparatus, and object detection system | |
CN111950586B (zh) | 一种引入双向注意力的目标检测方法 | |
CN107368847A (zh) | 一种作物叶部病害识别方法及系统 | |
CN114724175B (zh) | 行人图像的检测网络、检测方法、训练方法、电子设备和介质 | |
CN116310688A (zh) | 基于级联融合的目标检测模型及其构建方法、装置及应用 | |
CN115588150A (zh) | 基于改进YOLOv5-L的宠物犬视频目标检测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 310012 1st floor, building 1, 223 Yile Road, Hangzhou City, Zhejiang Province Applicant after: Yinjiang Technology Co.,Ltd. Applicant after: ZHEJIANG University Address before: 310012 1st floor, building 1, 223 Yile Road, Hangzhou City, Zhejiang Province Applicant before: ENJOYOR Co.,Ltd. Applicant before: ZHEJIANG University |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |