CN114841244A - 一种基于鲁棒采样和混合注意力金字塔的目标检测方法 - Google Patents
一种基于鲁棒采样和混合注意力金字塔的目标检测方法 Download PDFInfo
- Publication number
- CN114841244A CN114841244A CN202210352519.0A CN202210352519A CN114841244A CN 114841244 A CN114841244 A CN 114841244A CN 202210352519 A CN202210352519 A CN 202210352519A CN 114841244 A CN114841244 A CN 114841244A
- Authority
- CN
- China
- Prior art keywords
- branch
- feature map
- module
- representing
- attention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 60
- 238000005070 sampling Methods 0.000 title claims abstract description 19
- 230000006870 function Effects 0.000 claims abstract description 49
- 238000012549 training Methods 0.000 claims abstract description 46
- 238000012937 correction Methods 0.000 claims abstract description 16
- 238000001303 quality assessment method Methods 0.000 claims abstract description 13
- 238000000605 extraction Methods 0.000 claims abstract description 9
- 230000008447 perception Effects 0.000 claims abstract description 9
- 238000010586 diagram Methods 0.000 claims description 29
- 239000013598 vector Substances 0.000 claims description 26
- 238000004364 calculation method Methods 0.000 claims description 13
- 238000011176 pooling Methods 0.000 claims description 12
- 238000013441 quality evaluation Methods 0.000 claims description 10
- 230000005764 inhibitory process Effects 0.000 claims description 6
- 230000009467 reduction Effects 0.000 claims description 6
- 230000017105 transposition Effects 0.000 claims description 5
- 239000000126 substance Substances 0.000 claims description 4
- 238000012935 Averaging Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000000034 method Methods 0.000 abstract description 26
- 230000007246 mechanism Effects 0.000 abstract description 9
- 230000008569 process Effects 0.000 description 6
- 230000003044 adaptive effect Effects 0.000 description 3
- 230000007423 decrease Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 2
- LFQSCWFLJHTTHZ-UHFFFAOYSA-N Ethanol Chemical compound CCO LFQSCWFLJHTTHZ-UHFFFAOYSA-N 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000013140 knowledge distillation Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于鲁棒采样和混合注意力金字塔的目标检测方法,包括步骤:基于输入图像生成的候选样本框集合设计鲁棒性训练样本采样策略,构建鲁棒性更强的正负训练样本集合;利用正负训练样本集合对全卷积目标检测网络模型进行训练,将空间注意力机制和通道注意力机制与全卷积目标检测网络模型中的金字塔特征提取模块进行融合,设计出多种结构的混合注意力特征金字塔模块;设计出由教师‑学生模型指导的基于分类分支和回归分支感知引导的修正损失函数。通过构建采用修正中心度质量评估损失函数的全卷积目标检测网络模型,在自然场景数据集和城市场景数据集上提高了检测精度,可以应用于复杂的目标检测场景中。
Description
技术领域
本发明属于模式识别技术领域,具体涉及一种视频图像标注文字的合规性检验方法。
背景技术
目前,在计算机视觉领域中,目标检测是最重要的任务之一,用于支持实例级识别任务以及下游应用,例如智能视频监控、自动驾驶、智慧城市等方面。单阶段检测方法相比两阶段检测方法具有更简单的设计和更有竞争力的性能优势,逐渐成为了目标检测领域的主流方法。文献“FCOS:Fully Convolutional One-Stage Object Detection”以每像素预测的方式进行检测,相比RetinaNet、SSD、YOLO v3这类依赖于预先设定的锚框,避免了与锚框相关的复杂计算,如训练过程中计算IoU分数,更为重要的是,避免了与锚框相关的超参数,这些超参数通常对最终检测性能敏感。文献“Bridging the Gap Between Anchor-based and Anchor-free Detection via Adaptive Training Sample Selection”对于FCOS和RetinaNet两类有无锚框的经典网络进行了详细的对比实验,得出了训练样本选择策略是影响两类网络模型性能的重要因素,进一步提出了基于目标的统计特征来自适应进行训练样本选择的策略。未引入额外开销的前提下,在公开数据集上达到了更好的检测效果。
该方法依旧存在着与目标有关的超参数,并不是完全无参数的选择策略,从实验结果上来讲,只能说是相对鲁棒的策略。对于不同的数据集,需要进行多次实验来能选择出最佳的参数。此外,样本选择策略中选用正态分布来进行区间的划分,对于候选框的分布并不是完全的拟合。无论是FCOS抑或是ATSS,两者的瓶颈部分均采用特征金字塔的模块,该模块用于进行多尺度目标检测,将注意力模块的思想融入该模块有助于增强多尺度检测的性能。FCOS的网络头部结构中的中心度分支用于评估目标框的质量,其对于负样本没有有效的监督信号,在网络训练过程中损失函数存在无法下降的现象。
发明内容
为了克服现有技术的不足,本发明提供了一种基于鲁棒采样和混合注意力金字塔的目标检测方法,包括步骤:基于输入图像生成的候选样本框集合设计鲁棒性训练样本采样策略,构建鲁棒性更强的正负训练样本集合;利用正负训练样本集合对全卷积目标检测网络模型进行训练,将空间注意力机制和通道注意力机制与全卷积目标检测网络模型中的金字塔特征提取模块进行融合,设计出多种结构的混合注意力特征金字塔模块;设计出由教师-学生模型指导的基于分类分支和回归分支感知引导的修正损失函数。通过构建采用修正中心度质量评估损失函数的全卷积目标检测网络模型,在自然场景数据集和城市场景数据集上提高了检测精度,可以应用于复杂的目标检测场景中。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤1:基于输入图像构建正训练样本和负训练样本集合;
步骤1-1:图像中每个目标的真实框建立一个候选正样本集合,对于特征金字塔的每一层,将与该层特征金字塔对应的候选锚框中心在真实框内部且与真实框中心的L2距离排名前十的候选锚框挑选出来;
步骤1-2:采用式(2)计算步骤1-1挑选出的候选锚框与真实框的Ag值:
其中,b表示候选锚框中心与真实框中心点之间的欧几里得距离;g表示能够同时覆盖候选锚框与真实框的最小框的对角线距离,AR表示宽高比;x1、x2分别表示锚框的左下角横坐标和右上角横坐标,y1、y2分别表示锚框的左下角纵坐标和右上角纵坐标,A、B分别表示候选锚框与真实框,ARA、ARB分别表示候选锚框与真实框的宽高比;
步骤1-3:根据步骤1-2计算得到的结果建立正态分布,进行建模拟合,计算均值和标准差,进而划定正样本阈值;
步骤1-4:将步骤1-2计算得到的Ag值结果中高于正样本阈值的数值所对应的候选锚框挑选出来作为正样本集合,其余部分作为负样本集合;
步骤2:构建基于混合注意力特征金字塔的全卷积目标检测网络模型,并利用正样本集合和负样本集合作为训练集对全卷积目标检测网络模型进行训练;
步骤2-1:所述基于混合注意力特征金字塔的全卷积目标检测网络模型包括主干网络模块、混合注意力模块和头部解码模块;
步骤2-2:所述主干网络模块使用ResNet-50或ResNeXt-64x4d-101;
步骤2-3:所述混合注意力模块由通道注意力模块和空间注意力模块串联,通道注意力层在前,空间注意力层在后,具体如下:
构造通道注意力层:输入图像经过特征提取层后,特征图的大小设定为(w,h,c),w、h、c分别表示特征图的宽度、高度和深度;每个分支的特征图分为四个分支,第一分支经过最大池化层后得到形状为(1,1,c)的特征图,再经过两个1×1卷积先降维后升维,得到用于表示特征图之间的相关性向量(1,1,c);第二分支经过最大池化层后变为形状为(1,1,c)的特征图,进行压缩转置为形状为(c,1)大小的向量,再经过3×3的一维卷积层后得到形状为(c,1)大小的向量,再经过转置扩张恢复成形状为(1,1,c)的特征图;第三分支经过平均池化层后得到形状为(1,1,c)的特征图,进行压缩转置为形状为(c,1)大小的向量,再经过3×3的一维卷积层后得到形状为(c,1)大小的向量,再经过转置扩张恢复为形状为(1,1,c)的特征图;第四分支经过平均池化层后得到形状为(1,1,c)的特征图,再经过两个1×1卷积先降维后升维,得到用于表示特征图之间的相关性向量(1,1,c);四个分支叠加起来经过Sigmoid函数归一化到0~1之间后,将得到的权重向量与输入的特征图相乘,得到通道注意力特征图;
构造空间注意力层:通道注意力特征图大小设定为(w,h,c),分为两个分支,两个分支都经过1×1卷积降低特征数量得到形状为(w,h,c/2)的特征图,第一分支经过均值化计算模块得到形状为(w,h,1)的特征图,第二分支经过最大化计算模块得到形状为(w,h,1)的特征图;两个特征图基于通道叠加为形状为(w,h,2)的特征图,经过1×1卷积降维到形状为(w,h,1)的特征图,经过Sigmoid函数归一化到0~1之间后,将得到的权重向量与输入的特征图相乘便得到混合注意力特征图;
混合注意力特征图再经过1×1卷积和3×3的一维卷积层形成5层特征金字塔输出特征图;
步骤2-4:所述头部解码模块作为编解码结构的解码模块,由分类分支、回归分支、中心度质量评估分支三部分组成;
在头部解码模块中,特征金字塔输出特征图分为两个主分支,第一个主分支经过四个二维卷积得到分类分支的分类特征图和分类分数,分类特征图的尺寸为(H×W×C);第二个主分支经过四个二维卷积后分为回归子分支和中心度子分支,回归分支输出得到回归特征图和目标边界框坐标,回归特征图的尺寸为(H×W×4),中心度子分支经过二维卷积后得到中心度特征图和中心度分数,中心度特征图的尺寸为(H×W×4);
步骤3:构建由教师-学生模型指导的基于分类分支和回归分支感知引导的修正损失函数;
步骤3-1:全卷积目标检测网络模型的损失函数由三部分组成:其中分类损失函数使用Focal Loss,回归损失函数使用GIoU Loss,中心度质量评估损失函数使用基于中心度的BCE Loss:
Lcls=Lfl=-(1-pt)γlog(pt)
其中,Lcls表示分类损失函数,Lfl表示Focal Loss;Lreg表示回归损失函数,LGIoU表示GIoU Loss;Lcenterness表示中心度质量评估损失函数,LBCE表示BCE Loss;pt表示预测概率,γ表示标签类别,GIoU表示广义交并比,IoU表示交并比,Ac表示最小包含两个框的框,U表示两个框的并集,N表示样本数量,Yi表示真实值,yi表示预测值;
步骤3-2:基于教学-学生模型思想的指导,构建出基于分类损失和回归损失的下降趋势感知引导的修正中心度质量评估损失函数作为整体损失函数,其具体如下所示:
步骤4:将分类分数和中心度分数相乘作为非极大值抑制分数进行排序选择,将非极大值抑制分数最大值作为最终输出结果,回归分支输出的结果用于预测目标边界框。
优选地,所述混合注意力模块由通道注意力模块和空间注意力模块串联,空间注意力层在前,通道注意力层在后。
优选地,所述混合注意力模块由通道注意力模块和空间注意力模块并联。
本发明的有益效果如下:
本发明提出了一种基于鲁棒性样本采样策略、注意力特征金字塔以及修正中心度质量评估损失函数的全卷积目标检测方法;经过训练后的网络模型开销小;在复杂自然场景和城市场景中,提高了目标检测精度,能够应对各种常见的目标检测。
利用本发明的方法,可以选择更好的正负样本用于网络训练,可以更好地关注不同尺度的物体,并且基于注意力机制捕捉上下文信息,获得重要且有意义的特征,进而得到场景的空间布局信息,得到更好的定位精度。
附图说明
图1是本发明的网络结构图。
图2是本发明四分支通道注意力模块结构图。
图3是本发明两分支空间注意力模块结构图。
图4是本发明混合注意力模块串联结构图,(a)通道注意力模块在前,(b)空间注意力模块在前。
图5是本发明混合注意力模块并联结构图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
一种基于鲁棒采样和混合注意力金字塔的目标检测方法,首先研究并设计了多种将通道注意力模块和空间注意力模块混合的模块用于增强多尺度表达能力,探究该混合注意力模块相比通道注意力模块和空间注意力模块的优势与竞争力,其次考虑了该模块如何融入到特征金字塔模块以及对该模块所处的位置进行了对比。同时分析了现有的训练样本选择策略的优点和缺点,提出了该选择策略存在超参数,并非完全无参数化,此外该选择策略根据正态分布来划定阈值与选择区间,对目标进行统计学分析后发现该分布并不是完全合适,因此提出了更为合适和合理的正负样本划分方法。最后针对基于中心度的质量评估分支在训练过程中损失值无法下降,会影响网络优化的问题,根据教师-学生模型的指导下,用于改进该分支,优化指导网络训练过程。包括如下步骤:
步骤1:基于输入图像生成的候选样本框集合设计鲁棒性训练样本采样策略,构建鲁棒性更强的正负训练样本集合,在原始的自适应训练样本采样策略基于IoU来进行候选样本框的选择过程中融入宽高比以及中心距离等因素进行修正,从而改进原始方法只能描述候选框与真实框只能表示重叠率,而不能表示中心点距离以及锚框相似性的问题;
步骤1-1:图像中每个目标的真实框建立一个候选正样本集合,对于特征金字塔的每一层,将与该层特征金字塔对应的候选锚框中心在真实框内部且与真实框中心的L2距离排名前十的候选锚框挑选出来;
步骤1-2:采用式(2)计算步骤1-1挑选出的候选锚框与真实框的Ag值:
AR表示宽高比,作为修正因子,对两个框之间的归一化距离进行建模,融入了更多信息,使得挑选出来的框更具鲁棒性和代表性,
步骤1-3:根据步骤1-2计算得到的结果建立正态分布,进行建模拟合,计算均值和标准差,进而划定正样本阈值;
步骤1-4:将步骤1-2计算得到的Ag值结果中高于正样本阈值的数值所对应的候选锚框挑选出来作为正样本集合,其余部分作为负样本集合;
步骤2:利用步骤1构建的鲁棒性更强的正负训练样本集合对全卷积目标检测网络模型进行训练,将空间注意力机制和通道注意力机制与全卷积目标检测网络模型中的金字塔特征提取模块进行融合,设计出多种结构的混合注意力特征金字塔模块,混合注意力模块接在特征提取层后面,从而增强目标检测网络模型的多尺度表达能力;构建基于混合注意力特征金字塔的全卷积目标检测网络模型,并利用正样本集合和负样本集合作为训练集对全卷积目标检测网络模型进行训练;
步骤2-1:所述基于混合注意力特征金字塔的全卷积目标检测网络模型包括主干网络模块、混合注意力模块和头部解码模块;
步骤2-2:所述主干网络模块使用ResNet-50或ResNeXt-64x4d-101;
步骤2-3:所述混合注意力模块由通道注意力模块和空间注意力模块串联组成,具体如下:
构造通道注意力层:输入图像经过特征提取层后,特征图的大小设定为(w,h,c),w、h、c分别表示特征图的宽度、高度和深度;每个分支的特征图分为四个分支,第一分支经过最大池化层后得到形状为(1,1,c)的特征图,再经过两个1×1卷积先降维后升维,得到用于表示特征图之间的相关性向量(1,1,c);第二分支经过最大池化层后变为形状为(1,1,c)的特征图,进行压缩转置为形状为(c,1)大小的向量,再经过3×3的一维卷积层后得到形状为(c,1)大小的向量,再经过转置扩张恢复成形状为(1,1,c)的特征图;第三分支经过平均池化层后得到形状为(1,1,c)的特征图,进行压缩转置为形状为(c,1)大小的向量,再经过3×3的一维卷积层后得到形状为(c,1)大小的向量,再经过转置扩张恢复为形状为(1,1,c)的特征图;第四分支经过平均池化层后得到形状为(1,1,c)的特征图,再经过两个1×1卷积先降维后升维,得到用于表示特征图之间的相关性向量(1,1,c);四个分支叠加起来经过Sigmoid函数归一化到0~1之间后,将得到的权重向量与输入的特征图相乘,得到通道注意力特征图;
构造空间注意力层:通道注意力特征图大小设定为(w,h,c),分为两个分支,两个分支都经过1×1卷积降低特征数量得到形状为(w,h,c/2)的特征图,第一分支经过均值化计算模块得到形状为(w,h,1)的特征图,第二分支经过最大化计算模块得到形状为(w,h,1)的特征图;两个特征图基于通道叠加为形状为(w,h,2)的特征图,经过1×1卷积降维到形状为(w,h,1)的特征图,经过Sigmoid函数归一化到0~1之间后,将得到的权重向量与输入的特征图相乘便得到混合注意力特征图;
混合注意力特征图再经过1×1卷积和3×3的一维卷积层形成5层特征金字塔输出特征图;
步骤2-4:所述头部解码模块作为编解码结构的解码模块,由分类分支、回归分支、中心度质量评估分支三部分组成;
在头部解码模块中,特征金字塔输出特征图分为两个主分支,第一个主分支经过四个二维卷积得到分类分支的分类特征图和分类分数,分类特征图的尺寸为(H×W×C);第二个主分支经过四个二维卷积后分为回归子分支和中心度子分支,回归分支输出得到回归特征图和目标边界框坐标,回归特征图的尺寸为(H×W×4),中心度子分支经过二维卷积后得到中心度特征图和中心度分数,中心度特征图的尺寸为(H×W×4);
步骤3:全卷积目标检测网络模型头部的中心度质量评估损失函数存在训练不下降的问题,由此构建由教师-学生模型指导的基于分类分支和回归分支感知引导的修正损失函数;
步骤3-1:全卷积目标检测网络模型的损失函数由三部分组成:其中分类损失函数使用Focal Loss,回归损失函数使用GIoU Loss,中心度质量评估损失函数使用基于中心度的BCE Loss:
Lcls=Lfl=-(1-pt)γlog(pt)
步骤3-2:中心度质量评估损失函数存在训练不下降的异常现象,基于教学-学生模型思想的指导,构建出基于分类损失和回归损失的下降趋势感知引导的修正中心度质量评估损失函数作为整体损失函数,其具体如下所示:
步骤3-3:步骤S22公式基于第t个时期的分类分支和回归分支的损失平均值作为t-1个时期中心度分支的修正因子,将学习率优化函数的思想作为损失函数的优化方式,第t个时期的中心度分支的损失函数由以上两部分组成;
步骤4:将分类分数和中心度分数相乘作为非极大值抑制分数进行排序选择,将非极大值抑制分数最大值作为最终输出结果,回归分支输出的结果用于预测目标边界框。
具体实施例:
为了解决上述技术问题,本发明解决其技术问题所采用的技术方案:基于鲁棒性样本采样策略、注意力特征金字塔以及修正中心度质量评估损失函数的全卷积目标检测方法。
其特点是包含以下步骤:
S1:基于输入图像生成的候选样本框集合设计鲁棒性训练样本采样策略,构建鲁棒性更强的正负训练样本集合,在原始的自适应训练样本采样策略基于IoU来进行候选样本框的选择过程中融入宽高比以及中心距离等因素进行修正,从而改进原始方法只能描述候选框与真实框只能表示重叠率,而不能表示中心点距离以及锚框相似性的问题;
S2:利用步骤S1构建的鲁棒性更强的正负训练样本集合对全卷积目标检测网络模型进行训练,将空间注意力机制和通道注意力机制与全卷积目标检测网络模型中的金字塔特征提取模块进行融合,设计出多种结构的混合注意力特征金字塔模块,混合注意力模块接在特征提取层后面,从而增强目标检测网络模型的多尺度表达能力;
S3:全卷积目标检测网络模型头部的中心度质量评估损失函数存在训练不下降的问题,对此设计出由教师-学生模型指导的基于分类分支和回归分支感知引导的修正损失函数;
利用上述技术方法,通过构建了新的基于鲁棒性样本采样策略、注意力特征金字塔以及修正中心度质量评估损失函数的全卷积目标检测方法。在公开数据集MS COCO和Cityscapes上进行了训练和测试。MS COCO数据集是微软开发的大型自然场景数据集,总共有80种类别,训练集包含118281幅图像,验证集包含5000幅图像,测试集包含40670幅图像。Cityscapes数据集是城市场景数据集,总共有50个欧洲城市,包含了5000张精细标注图像以及20000张非精细标注图像。
通过与3种深度学习方法进行了对比,表1为本发明方法与其它基于深度学习方法的精度比较。
表1本发明方法在MS COCO数据集上与另外三种深度学习方法的对比
从表1可以看出,本发明方法全面优于其它3种方法,在主干网络为ResNet-50上检测精度达41.4,在主干网络为ResNet-50上检测精度达48.1,对各种尺寸的检测精度均有所提升。
本发明公开一种目标检测方法,为了解决正负训练样本采样策略鲁棒性和建模分布拟合的问题,融入了宽高比及中心距离信息,用于选择出更为合适的正负样本以及实现无参数化的采样策略。为了增强特征金字塔的多尺度表达能力,设计了多种注意力模块,并于特征金字塔相结合,对比研究了其结构设计和位置设计。为了解决中心度质量评估分支训练损失不下降的问题,融入了教师-学生模型以及知识蒸馏的思想,使得端到端的思想进一步实现。整体上增强了样本表征能力、多尺度表达能力,进而提高了定位准确率和检测精度。本发明检测准确率在基于参考文献的方法在MS COCO数据集和Cityscapes数据集上均提高了2.0AP~3.6AP。
Claims (3)
1.一种基于鲁棒采样和混合注意力金字塔的目标检测方法,其特征在于,包括如下步骤:
步骤1:基于输入图像构建正训练样本和负训练样本集合;
步骤1-1:图像中每个目标的真实框建立一个候选正样本集合,对于特征金字塔的每一层,将与该层特征金字塔对应的候选锚框中心在真实框内部且与真实框中心的L2距离排名前十的候选锚框挑选出来;
步骤1-2:采用式(2)计算步骤1-1挑选出的候选锚框与真实框的Ag值:
其中,b表示候选锚框中心与真实框中心点之间的欧几里得距离;g表示能够同时覆盖候选锚框与真实框的最小框的对角线距离,AR表示宽高比;x1、x2分别表示锚框的左下角横坐标和右上角横坐标,y1、y2分别表示锚框的左下角纵坐标和右上角纵坐标,A、B分别表示候选锚框与真实框,ARA、ARB分别表示候选锚框与真实框的宽高比;
步骤1-3:根据步骤1-2计算得到的结果建立正态分布,进行建模拟合,计算均值和标准差,进而划定正样本阈值;
步骤1-4:将步骤1-2计算得到的Ag值结果中高于正样本阈值的数值所对应的候选锚框挑选出来作为正样本集合,其余部分作为负样本集合;
步骤2:构建基于混合注意力特征金字塔的全卷积目标检测网络模型,并利用正样本集合和负样本集合作为训练集对全卷积目标检测网络模型进行训练;
步骤2-1:所述基于混合注意力特征金字塔的全卷积目标检测网络模型包括主干网络模块、混合注意力模块和头部解码模块;
步骤2-2:所述主干网络模块使用ResNet-50或ResNeXt-64x4d-101;
步骤2-3:所述混合注意力模块由通道注意力模块和空间注意力模块串联,通道注意力层在前,空间注意力层在后,具体如下:
构造通道注意力层:输入图像经过特征提取层后,特征图的大小设定为(w,h,c),w、h、c分别表示特征图的宽度、高度和深度;每个分支的特征图分为四个分支,第一分支经过最大池化层后得到形状为(1,1,c)的特征图,再经过两个1×1卷积先降维后升维,得到用于表示特征图之间的相关性向量(1,1,c);第二分支经过最大池化层后变为形状为(1,1,c)的特征图,进行压缩转置为形状为(c,1)大小的向量,再经过3×3的一维卷积层后得到形状为(c,1)大小的向量,再经过转置扩张恢复成形状为(1,1,c)的特征图;第三分支经过平均池化层后得到形状为(1,1,c)的特征图,进行压缩转置为形状为(c,1)大小的向量,再经过3×3的一维卷积层后得到形状为(c,1)大小的向量,再经过转置扩张恢复为形状为(1,1,c)的特征图;第四分支经过平均池化层后得到形状为(1,1,c)的特征图,再经过两个1×1卷积先降维后升维,得到用于表示特征图之间的相关性向量(1,1,c);四个分支叠加起来经过Sigmoid函数归一化到0~1之间后,将得到的权重向量与输入的特征图相乘,得到通道注意力特征图;
构造空间注意力层:通道注意力特征图大小设定为(w,h,c),分为两个分支,两个分支都经过1×1卷积降低特征数量得到形状为(w,h,c/2)的特征图,第一分支经过均值化计算模块得到形状为(w,h,1)的特征图,第二分支经过最大化计算模块得到形状为(w,h,1)的特征图;两个特征图基于通道叠加为形状为(w,h,2)的特征图,经过1×1卷积降维到形状为(w,h,1)的特征图,经过Sigmoid函数归一化到0~1之间后,将得到的权重向量与输入的特征图相乘便得到混合注意力特征图;
混合注意力特征图再经过1×1卷积和3×3的一维卷积层形成5层特征金字塔输出特征图;
步骤2-4:所述头部解码模块作为编解码结构的解码模块,由分类分支、回归分支、中心度质量评估分支三部分组成;
在头部解码模块中,特征金字塔输出特征图分为两个主分支,第一个主分支经过四个二维卷积得到分类分支的分类特征图和分类分数,分类特征图的尺寸为(H×W×C);第二个主分支经过四个二维卷积后分为回归子分支和中心度子分支,回归分支输出得到回归特征图和目标边界框坐标,回归特征图的尺寸为(H×W×4),中心度子分支经过二维卷积后得到中心度特征图和中心度分数,中心度特征图的尺寸为(H×W×4);
步骤3:构建由教师-学生模型指导的基于分类分支和回归分支感知引导的修正损失函数;
步骤3-1:全卷积目标检测网络模型的损失函数由三部分组成:其中分类损失函数使用Focal Loss,回归损失函数使用GIoU Loss,中心度质量评估损失函数使用基于中心度的BCE Loss:
Lcls=Lfl=-(1-pt)γlog(pt)
其中,Lcls表示分类损失函数,Lfl表示Focal Loss;Lreg表示回归损失函数,LGIoU表示GIoU Loss;Lcenterness表示中心度质量评估损失函数,LBCE表示BCE Loss;pt表示预测概率,γ表示标签类别,GIoU表示广义交并比,IoU表示交并比,Ac表示最小包含两个框的框,U表示两个框的并集,N表示样本数量,Yi表示真实值,yi表示预测值;
步骤3-2:基于教学-学生模型思想的指导,构建出基于分类损失和回归损失的下降趋势感知引导的修正中心度质量评估损失函数作为整体损失函数,其具体如下所示:
步骤4:将分类分数和中心度分数相乘作为非极大值抑制分数进行排序选择,将非极大值抑制分数最大值作为最终输出结果,回归分支输出的结果用于预测目标边界框。
2.根据权利要求1所述的一种基于鲁棒采样和混合注意力金字塔的目标检测方法,其特征在于,所述混合注意力模块由通道注意力模块和空间注意力模块串联,空间注意力层在前,通道注意力层在后。
3.根据权利要求1所述的一种基于鲁棒采样和混合注意力金字塔的目标检测方法,其特征在于,所述混合注意力模块由通道注意力模块和空间注意力模块并联组成。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210352519.0A CN114841244B (zh) | 2022-04-05 | 2022-04-05 | 一种基于鲁棒采样和混合注意力金字塔的目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210352519.0A CN114841244B (zh) | 2022-04-05 | 2022-04-05 | 一种基于鲁棒采样和混合注意力金字塔的目标检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114841244A true CN114841244A (zh) | 2022-08-02 |
CN114841244B CN114841244B (zh) | 2024-03-12 |
Family
ID=82564071
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210352519.0A Active CN114841244B (zh) | 2022-04-05 | 2022-04-05 | 一种基于鲁棒采样和混合注意力金字塔的目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114841244B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115330759A (zh) * | 2022-10-12 | 2022-11-11 | 浙江霖研精密科技有限公司 | 一种基于豪斯多夫距离计算距离损失的方法及装置 |
CN115631344A (zh) * | 2022-10-06 | 2023-01-20 | 中国人民解放军国防科技大学 | 一种基于特征自适应聚合的目标检测方法 |
CN116187322A (zh) * | 2023-03-15 | 2023-05-30 | 深圳市迪博企业风险管理技术有限公司 | 一种基于动量蒸馏的内控合规检测方法及系统 |
CN116935477A (zh) * | 2023-09-13 | 2023-10-24 | 中南民族大学 | 一种基于联合注意力的多分支级联的人脸检测方法及装置 |
CN117237830A (zh) * | 2023-11-10 | 2023-12-15 | 湖南工程学院 | 基于动态自适应通道注意力的无人机小目标检测方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200143205A1 (en) * | 2017-08-10 | 2020-05-07 | Intel Corporation | Convolutional neural network framework using reverse connections and objectness priors for object detection |
CN111814704A (zh) * | 2020-07-14 | 2020-10-23 | 陕西师范大学 | 基于级联注意力与点监督机制的全卷积考场目标检测方法 |
CN112085093A (zh) * | 2020-09-08 | 2020-12-15 | 第四范式(北京)技术有限公司 | 协同滤波模型的训练方法及装置、可读介质及系统 |
CN112149620A (zh) * | 2020-10-14 | 2020-12-29 | 南昌慧亦臣科技有限公司 | 基于无锚点的自然场景文字区域检测模型的构建方法 |
CN112507996A (zh) * | 2021-02-05 | 2021-03-16 | 成都东方天呈智能科技有限公司 | 一种主样本注意力机制的人脸检测方法 |
US20210326624A1 (en) * | 2019-07-03 | 2021-10-21 | Institute Of Automation, Chinese Academy Of Sciences | Method, system and device for difference automatic calibration in cross modal target detection |
-
2022
- 2022-04-05 CN CN202210352519.0A patent/CN114841244B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200143205A1 (en) * | 2017-08-10 | 2020-05-07 | Intel Corporation | Convolutional neural network framework using reverse connections and objectness priors for object detection |
US20210326624A1 (en) * | 2019-07-03 | 2021-10-21 | Institute Of Automation, Chinese Academy Of Sciences | Method, system and device for difference automatic calibration in cross modal target detection |
CN111814704A (zh) * | 2020-07-14 | 2020-10-23 | 陕西师范大学 | 基于级联注意力与点监督机制的全卷积考场目标检测方法 |
CN112085093A (zh) * | 2020-09-08 | 2020-12-15 | 第四范式(北京)技术有限公司 | 协同滤波模型的训练方法及装置、可读介质及系统 |
CN112149620A (zh) * | 2020-10-14 | 2020-12-29 | 南昌慧亦臣科技有限公司 | 基于无锚点的自然场景文字区域检测模型的构建方法 |
CN112507996A (zh) * | 2021-02-05 | 2021-03-16 | 成都东方天呈智能科技有限公司 | 一种主样本注意力机制的人脸检测方法 |
Non-Patent Citations (2)
Title |
---|
周幸;陈立福;: "基于双注意力机制的遥感图像目标检测", 计算机与现代化, no. 08, 15 August 2020 (2020-08-15) * |
李明阳;胡显;雷宏;: "基于可变形卷积神经网络的遥感图像飞机目标检测", 国外电子测量技术, no. 07, 15 July 2020 (2020-07-15) * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115631344A (zh) * | 2022-10-06 | 2023-01-20 | 中国人民解放军国防科技大学 | 一种基于特征自适应聚合的目标检测方法 |
CN115330759A (zh) * | 2022-10-12 | 2022-11-11 | 浙江霖研精密科技有限公司 | 一种基于豪斯多夫距离计算距离损失的方法及装置 |
CN116187322A (zh) * | 2023-03-15 | 2023-05-30 | 深圳市迪博企业风险管理技术有限公司 | 一种基于动量蒸馏的内控合规检测方法及系统 |
CN116935477A (zh) * | 2023-09-13 | 2023-10-24 | 中南民族大学 | 一种基于联合注意力的多分支级联的人脸检测方法及装置 |
CN116935477B (zh) * | 2023-09-13 | 2023-12-26 | 中南民族大学 | 一种基于联合注意力的多分支级联的人脸检测方法及装置 |
CN117237830A (zh) * | 2023-11-10 | 2023-12-15 | 湖南工程学院 | 基于动态自适应通道注意力的无人机小目标检测方法 |
CN117237830B (zh) * | 2023-11-10 | 2024-02-20 | 湖南工程学院 | 基于动态自适应通道注意力的无人机小目标检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114841244B (zh) | 2024-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114841244A (zh) | 一种基于鲁棒采样和混合注意力金字塔的目标检测方法 | |
CN111179217A (zh) | 一种基于注意力机制的遥感图像多尺度目标检测方法 | |
CN111753828B (zh) | 一种基于深度卷积神经网络的自然场景水平文字检测方法 | |
CN112215128B (zh) | 融合fcos的r-cnn城市道路环境识别方法及装置 | |
CN112507777A (zh) | 一种基于深度学习的光学遥感图像舰船检测与分割方法 | |
CN111898432B (zh) | 一种基于改进YOLOv3算法的行人检测系统及方法 | |
CN104680144A (zh) | 基于投影极速学习机的唇语识别方法和装置 | |
CN114758288A (zh) | 一种配电网工程安全管控检测方法及装置 | |
CN101833667A (zh) | 一种基于分组稀疏表示的模式识别分类方法 | |
CN114463759A (zh) | 一种基于无锚框算法的轻量化文字检测方法及装置 | |
CN111860587A (zh) | 一种用于图片小目标的检测方法 | |
WO2024032010A1 (zh) | 一种基于迁移学习策略的少样本目标实时检测方法 | |
CN113159067A (zh) | 一种基于多粒度局部特征软关联聚合的细粒度图像辨识方法及装置 | |
CN110751195A (zh) | 一种基于改进YOLOv3的细粒度图像分类方法 | |
CN112381030A (zh) | 一种基于特征融合的卫星光学遥感图像目标检测方法 | |
CN113012153A (zh) | 一种铝型材瑕疵检测方法 | |
CN107316050A (zh) | 基于柯西损失函数的子空间自表达模型聚类方法 | |
CN116597224A (zh) | 基于改进yolo v8网络模型的马铃薯缺陷检测方法 | |
CN116721414A (zh) | 一种医学图像细胞分割与跟踪方法 | |
CN112580575A (zh) | 电力巡检绝缘子图像识别方法 | |
CN116168240A (zh) | 基于注意力增强的任意方向密集舰船目标检测方法 | |
CN115240259A (zh) | 一种基于yolo深度网络的课堂环境下人脸检测方法及其检测系统 | |
CN111582057B (zh) | 一种基于局部感受野的人脸验证方法 | |
CN115330759B (zh) | 一种基于豪斯多夫距离计算距离损失的方法及装置 | |
CN117011655A (zh) | 基于自适应区域选择特征融合方法、目标跟踪方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |