CN111275688B - 基于注意力机制的上下文特征融合筛选的小目标检测方法 - Google Patents
基于注意力机制的上下文特征融合筛选的小目标检测方法 Download PDFInfo
- Publication number
- CN111275688B CN111275688B CN202010068011.9A CN202010068011A CN111275688B CN 111275688 B CN111275688 B CN 111275688B CN 202010068011 A CN202010068011 A CN 202010068011A CN 111275688 B CN111275688 B CN 111275688B
- Authority
- CN
- China
- Prior art keywords
- target detection
- features
- attention
- target
- screening
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 109
- 230000007246 mechanism Effects 0.000 title claims abstract description 47
- 238000012216 screening Methods 0.000 title claims abstract description 42
- 230000004927 fusion Effects 0.000 title claims abstract description 30
- 230000011218 segmentation Effects 0.000 claims abstract description 76
- 238000012549 training Methods 0.000 claims abstract description 32
- 238000003709 image segmentation Methods 0.000 claims abstract description 12
- 238000000034 method Methods 0.000 claims abstract description 11
- 230000003993 interaction Effects 0.000 claims abstract description 8
- 238000004458 analytical method Methods 0.000 claims abstract description 6
- 238000003062 neural network model Methods 0.000 claims abstract description 6
- 230000000007 visual effect Effects 0.000 claims abstract description 5
- 230000006870 function Effects 0.000 claims description 15
- 238000002372 labelling Methods 0.000 claims description 12
- 238000011176 pooling Methods 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 239000003086 colorant Substances 0.000 claims 1
- 238000010276 construction Methods 0.000 claims 1
- 238000011160 research Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000005065 mining Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000001737 promoting effect Effects 0.000 description 2
- 230000001502 supplementing effect Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000004438 eyesight Effects 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000016776 visual perception Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20092—Interactive image processing based on input by user
- G06T2207/20104—Interactive definition of region of interest [ROI]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Quality & Reliability (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于注意力机制的上下文特征融合筛选的小目标检测方法,该方法包括四个步骤:(1)将基于弱监督学习的图像分割标注与目标检测标注匹配,然后构造适用于基于注意力机制的上下文特征融合和筛选的小目标检测数据集;(2)构建基于语义分割和目标检测的多任务深度网络及其交互共享结构;(3)通过语义可视化分析优化小目标检测网络上下文特征融合和筛选能力;(4)训练基于注意力机制的上下文特征融合和筛选的神经网络模型进行小目标检测。本发明对图像中的小目标检测具有较好准确度,优于其它小目标检测方法。
Description
技术领域
本发明涉及图像中小目标检测,特别涉及一种基于注意力机制的上下文特征融合筛选的小目标检测方法。
背景技术
实时、高精度的目标检测是实现计算机有效视觉感知的关键步骤和必须克服的难点。近年来,深度学习和卷积神经网络的发展使计算机视觉研究和技术取得了突破性进展,尤其针对目标检测任务,实现了将检测任务与识别任务统一到一个神经网络框架中,在实时性与精度两个方面均远远超越了传统目标检测方法。然而,当待检测目标在不同视距与场景中尺度变化较大时,现有的深度网络模型仍不能有效地检测出小尺度目标。
在实际应用场景中,目前的深度网络模型对小目标的检测与识别性能仍无法满足大量应用场景中的实际需求,提高深度网络模型对小目标的检测和识别精度具有重要的应用前景,该方向的研究成果可以推广应用到人脸和行人检测、智能交通、公共安全、机器人导航、医疗辅助诊断等,从而促进深度学习技术在机器视觉和人工智能领域的更广泛应用。
融合目标候选区及附近上下文信息,挖掘并利用小目标与场景之间的相互关系,提高小目标的检测精度。可以将目标上下文信息较全面地概括为三类:①语义上下文(Semantic context),即目标与其他目标类别及场景等相关联的语义信息;②尺度上下文(Scale context),即目标之间的尺度大小关系;③空间上下文(Spatial context),即目标与附近其它目标的空间位置关系。DeepIDNet通过融合图像分类与目标检测,利用目标与图像全局场景相关的语义上下文信息提高检测精度;ION利用RNN(Recurrent NeuralNetworks)学习空间上下文特征即各候选局部区域之间位置关系信息。然而,这些方法只是将上下文语义特征与目标候选区的卷积特征简单串接,而未从目标检测网络提取的卷积特征中充分挖掘上下文语义信息。
但是目前神经网络模型用于小目标方法存在以下问题:
(1)常用的目标检测训练集缺乏像素级别的标注,而仅对目标的位置坐标与类别作了标注,这就会导致目标检测网络训练时不能充分挖掘目标上下文信息,而深度网络模型从低分辨率的小目标上提取的特征比较粗糙,尺寸较小的目标相比较于预设大小的目标候选框,其特征信息所占比例比较小。
(2)已有上下文信息挖掘模型大多只能从某一方面(语义上下文或空间上下文)挖掘语义特征,为候选目标特征补充更全面的上下文信息(比如,目标候选区内多个目标的遮挡关系、多类别间的关联、尺度大小关系等),筛选与待检测目标相关的上下文特征,去除上下文特征中噪声对目标检测的干扰等仍是尚未解决的问题。
本发明技术主要针对小目标检测现有问题,采用图像语义分割网络学习细粒度语义分割特征,并从语义、尺度、空间等多个方面挖掘和分析其包含的目标上下文信息;研究基于注意力机制的软参数共享机制,实现对RoI卷积特征的筛选、融合,提出一种基于注意力机制的上下文特征融合和筛选的小目标检测方法。
发明内容
本发明目的在于针对图像检测实际应用中存在的检测准确度和检测困难等问题,提出一种基于注意力机制的上下文特征融合和筛选的小目标检测,利用目标上下文信息作为先验信息,可提升小目标检测精度。考虑图像语义分割与目标检测任务的相似性与差异性,本项目将从融合目标检测特征和图像语义分割特征的角度,设计多任务深度网络结构,抽取与目标检测高度相关的图像语义分割特征,并从语义、空间、尺度三方面分析其中包含的上下文信息的特点,并研究有效的上下文特征融合方法;研究基于注意力机制的软参数共享机制,有效筛选、融合两任务互补、冗余的特征,用于提升模型小目标检测能力。
本发明是通过以下技术方案实现的:
基于注意力机制的上下文特征融合筛选的小目标检测方法,包括以下步骤:
(1)将基于弱监督学习的图像分割标注与目标检测标注匹配,然后构造适用于基于注意力机制的上下文特征融合和筛选的小目标检测数据集;
(2)构建基于语义分割和目标检测的多任务深度网络及其交互共享结构;
(3)通过语义可视化分析优化小目标检测网络上下文特征融合和筛选能力;
(4)训练基于注意力机制的上下文特征融合和筛选的神经网络模型进行小目标检测。
所述步骤(1)的具体实现步骤为:
利用两任务目标的相似性,根据目标检测训练数据集的位置坐标与目标类别的标注信息,按像素级图像分割需求对目标检测训练图像集进行粗略标注。设计小目标C位整体分割标注方法,将仅含目标候选区域及目标类别标注(弱监督)信息的图像集中的所有图像iw,分割标注为包含弱监督信息的语义分割图像mw。记C表示目标类别的集合,且其中包含背景(background)类别c0;分割图像mw的任一位置像素u标记为类别c的概率为/>且使用不同的颜色标记该像素以区别不同类别。用全部mw构成的弱监督训练集/>训练语义分割网络分支/>。用数据集/>弱监督学习的网络模型/>预测的任一图像iw在像素位置u处的类别为c的概率为/>
所述步骤(2)的具体实现步骤为:
1)在参数共享的多尺度特征重建模块基础上,串接全卷积网络(FCN)作为图像语义分割分支的主体,浅层特征(多尺度特征重建输出的多尺度特征)通过Skip-Connection残差模块(含一组卷积层Convα)与深卷积层输出的语义分割特征相加融合,预测语义分割图像;深卷积层输出的语义分割特征通过注意力机制(与Skip-Connection残差模块共享卷积层参数)计算语义分割注意力概率得分,再根据注意力概率得分筛选浅层卷积特征;将筛选后不同尺度大小的浅层特征按不同池化核自适应池化为同一尺寸,最终合并联结为用于目标检测的特征,并经RPN生成候选框(同一尺度大小的候选框可对应不同尺度特征,也就对应着不同尺寸的感受区域);再对候选框样本逐个进行多类别分类以及候选框坐标回归。
2)利用目标检测的训练集训练语义分割网络分支,以最小化注意力分割损失函数,更新Skip-Connection残差模块卷积层参数,浅层的多尺度特征通过Skip-Connection残差模块直接与深层分割语义特征融合可提升语义分割精度,与此同时,注意力概率分布的通道与目标类别建立对应关系;通过注意力机制,多尺度特征与语义分割特征筛选、融合为用于目标检测的特征,提升目标检测精度。因此,这一交互共享结构能融合语义分割特征和目标检测特征,互为促进和补充,协同提升图像语义分割与目标检测精度。
3)在RPN生成的候选框中,不包含目标(IoU<0.5)的候选框总要远比包含目标的候选框多。为平衡正负候选框样本和不同尺度候选框样本,有效训练目标分类器,同时又不额外增加多任务深度网络结构的复杂性,在RPN生成多尺度候选框过程中,按训练数据集上不同尺度目标出现频数的分布经验值设定不同尺度候选框样本的权重。另外,对二分类损失值以及坐标回归损失值排序,当RPN预测的候选框内是否存在目标的概率值p在区间0.2≤p≤0.7即认定该候选框为难检测样本,否则为易检测样本。为进一步平衡难检测样本和易检测样本对损失值的贡献,定义平衡损失函数BLoss:
BL(pt,γ)=w(pt)·CL(pt). (1)
其中,w(pt)=(1-pt)γ是权值调整函数,γ∈[0,5]是经验值,CL(pt)=-log(pt)是交叉熵损失函数,pt定义为:
其中,p是目标检测网络预测的候选框内是否存在目标的概率。
所述步骤(3)的具体实现步骤为:
1)为去除浅层特征(多尺度特征)与深层特征(语义分割特征)之间的冗余,通过注意力机制(与Skip-Connection残差模块共享卷积层参数Convα)计算语义分割特征(Fs)关于多尺度特征(Fm)的注意力概率得分atteni,经soft-max归一化(σ)后的注意力概率筛选、融合得到不同尺度的特征Fi,再经过AdaptPooling(自适应池化)为直接用于目标检测的特征Fo。注意力机制的计算过程如下所示:
atteni=σ(Convα(Fi s)) (3)
Fo=AdaptPooling([F1,F2,F3]) (5)
2)目标检测网络分支利用目标类别与位置等信息监督学习后,注意力概率分布则表达了对目标的位置分布、注意力区域大小、注意力强度(注意力概率值所处范围)等方面的信息。图像语义分割网络分支更新Skip-Connection残差模块卷积层参数以最小化注意力分割损失函数,又使注意力概率分布的通道与目标类别建立对应关系。总之,注意力机制能从目标的空间分布、尺度大小、类别语义等方面,将浅层多尺度特征与语义分割特征深度筛选融合为用于目标检测的特征。
3)将各通道的注意力概率分布用热力图可视化,统计注意力概率值在可视化图像中作用的位置分布、注意力区域大小、注意力强度,并将其与待检测图像目标的位置分布、尺度大小、类别信息等作对比分析,以验证注意力机制对目标位置、尺度、类别等特征的筛选作用;通过比较细粒度的低层特征图及其筛选后的特征图间的差异,验证语义分割特征中包含的目标位置、尺度、类别语义等上下文信息及其具体对应关系。
所述步骤(4)的具体实现步骤为:
将步骤(1)中图像分割标注与目标检测标注匹配后的数据集,输入步骤(2)中构建的神经网络,训练小目标检测模型,通过步骤(3)不断优化模型小目标检测能力,最终得到基于注意力机制的上下文特征融合和筛选的小目标检测模型。
本发明的优点是:本发明在传统目标检测研究基础上,基于目标上下文特征分析,构建语义分割特征和目标检测特征的信息交互共享结构,创新性地提出基于注意力机制的上下文特征融合和筛选的小目标检测模型,将有效提高其在图像小目标检测的精度,在小目标检测实际应用中具有重要意义;面向小目标检测,提出图像训练集的小目标C位整体分割标注方法,解决了图像分割标注与目标检测标注的匹配问题。
附图说明
图1为目标检测标注图和小目标c位整体分割标注图。
图2为本发明提出的小目标检测深度网络模型结构示意图。
图3为本发明提出的基于注意力机制的上下文特征融合和筛选的小目标检测方法流程图。
具体实施方式
如图3所示,基于注意力机制的上下文特征融合筛选的小目标检测方法,包括以下步骤:
(1)将基于弱监督学习的图像分割标注与目标检测标注匹配,然后构造适用于基于注意力机制的上下文特征融合和筛选的小目标检测数据集;
步骤(1)的具体实现步骤为:
利用两任务目标的相似性,根据目标检测训练数据集的位置坐标与目标类别的标注信息,按像素级图像分割需求对目标检测训练图像集进行粗略标注。设计小目标C位整体分割标注方法(如图1(a)(b)),将仅含目标候选区域及目标类别标注(弱监督)信息的图像集中的所有图像iw,分割标注为包含弱监督信息的语义分割图像mw。记C表示目标类别的集合,且其中包含背景(background)类别c0;分割图像mw的任一位置像素u标记为类别c的概率为/>且使用不同的颜色标记该像素以区别不同类别。用全部mw构成的弱监督训练集/>训练语义分割网络分支/>用数据集/>弱监督学习的网络模型/>预测的任一图像iw在像素位置u处的类别为c的概率为/>
(2)构建基于语义分割和目标检测的多任务深度网络及其交互共享结构;
步骤(2)的具体实现步骤为:
1)在参数共享的多尺度特征重建模块(如图2(b))基础上,串接全卷积网络(FCN)作为图像语义分割分支的主体(如图2(c)所示),浅层特征(多尺度特征重建输出的多尺度特征)通过Skip-Connection残差模块(含一组卷积层Convα)与深卷积层输出的语义分割特征相加融合,预测语义分割图像;深卷积层输出的语义分割特征通过注意力机制(与Skip-Connection残差模块共享卷积层参数)计算语义分割注意力概率得分,再根据注意力概率得分筛选浅层卷积特征;将筛选后不同尺度大小的浅层特征按不同池化核自适应池化为同一尺寸,最终合并联结为用于目标检测的特征,并经RPN生成候选框(同一尺度大小的候选框可对应不同尺度特征,也就对应着不同尺寸的感受区域);再对候选框样本逐个进行多类别分类以及候选框坐标回归(如图2(a)所示)。
2)利用目标检测的训练集训练语义分割网络分支,以最小化注意力分割损失函数,更新Skip-Connection残差模块卷积层参数,浅层的多尺度特征通过Skip-Connection残差模块直接与深层分割语义特征融合可提升语义分割精度,与此同时,注意力概率分布的通道与目标类别建立对应关系;通过注意力机制,多尺度特征与语义分割特征筛选、融合为用于目标检测的特征,提升目标检测精度。因此,这一交互共享结构能融合语义分割特征和目标检测特征,互为促进和补充,协同提升图像语义分割与目标检测精度。
3)在RPN生成的候选框中,不包含目标(IoU<0.5)的候选框总要远比包含目标的候选框多。为平衡正负候选框样本和不同尺度候选框样本,有效训练目标分类器,同时又不额外增加多任务深度网络结构的复杂性,在RPN生成多尺度候选框过程中,按训练数据集上不同尺度目标出现频数的分布经验值设定不同尺度候选框样本的权重。另外,对二分类损失值以及坐标回归损失值排序,当RPN预测的候选框内是否存在目标的概率值p在区间0.2≤p≤0.7即认定该候选框为难检测样本,否则为易检测样本。为进一步平衡难检测样本和易检测样本对损失值的贡献,定义平衡损失函数BLoss:
BL(pt,γ)=w(pt)·CL(pt). (1)
其中,w(pt)=(1-pt)γ是权值调整函数,γ∈[0,5]是经验值,CL(pt)=-log(pt)是交叉熵损失函数,pt定义为:
其中,p是目标检测网络预测的候选框内是否存在目标的概率。
(3)通过语义可视化分析优化小目标检测网络上下文特征融合和筛选能力;
步骤(3)的具体实现步骤为:
1)为去除浅层特征(多尺度特征)与深层特征(语义分割特征)之间的冗余,通过注意力机制(与Skip-Connection残差模块共享卷积层参数Convα)计算语义分割特征(Fs)关于多尺度特征(Fm)的注意力概率得分atteni,经soft-max归一化(σ)后的注意力概率筛选、融合得到不同尺度的特征Fi,再经过AdaptPooling(自适应池化)为直接用于目标检测的特征Fo。注意力机制的计算过程如下所示:
atteni=σ(Convα(Fi s)) (3)
Fo=AdaptPooling([F1,F2,F3]) (5)
2)目标检测网络分支利用目标类别与位置等信息监督学习后,注意力概率分布则表达了对目标的位置分布、注意力区域大小、注意力强度(注意力概率值所处范围)等方面的信息。图像语义分割网络分支更新Skip-Connection残差模块卷积层参数以最小化注意力分割损失函数,又使注意力概率分布的通道与目标类别建立对应关系。总之,注意力机制能从目标的空间分布、尺度大小、类别语义等方面,将浅层多尺度特征与语义分割特征深度筛选融合为用于目标检测的特征。
3)将各通道的注意力概率分布用热力图可视化,统计注意力概率值在可视化图像中作用的位置分布、注意力区域大小、注意力强度,并将其与待检测图像目标的位置分布、尺度大小、类别信息等作对比分析,以验证注意力机制对目标位置、尺度、类别等特征的筛选作用;通过比较细粒度的低层特征图及其筛选后的特征图间的差异,验证语义分割特征中包含的目标位置、尺度、类别语义等上下文信息及其具体对应关系。
(4)训练基于注意力机制的上下文特征融合和筛选的神经网络模型进行小目标检测。
步骤(4)的具体实现步骤为:
将步骤(1)中图像分割标注与目标检测标注匹配后的数据集,输入步骤(2)中构建的神经网络,训练小目标检测模型,通过步骤(3)不断优化模型小目标检测能力,最终得到基于注意力机制的上下文特征融合和筛选的小目标检测模型。
Claims (1)
1.一种基于注意力机制的上下文特征融合筛选的小目标检测方法,其特征在于,包括以下步骤:
(1)将基于弱监督学习的图像分割标注与目标检测标注匹配,然后构造适用于基于注意力机制的上下文特征融合和筛选的小目标检测数据集;
(2)构建基于语义分割和目标检测的多任务深度网络及其交互共享结构;
(3)通过语义可视化分析优化小目标检测网络上下文特征融合和筛选能力;
(4)训练基于注意力机制的上下文特征融合和筛选的神经网络模型进行小目标检测;
步骤(1)所述的将基于弱监督学习的图像分割标注与目标检测标注匹配,然后构造适用于基于注意力机制的上下文特征融合和筛选的小目标检测数据集,具体实现步骤为:
利用两任务目标的相似性,根据目标检测训练数据集的位置坐标与目标类别的标注信息,按像素级图像分割需求对目标检测训练图像集进行标注;将仅含目标候选区域及目标类别标注信息的图像集中的所有图像iw,分割标注为包含弱监督信息的语义分割图像mw,记C表示目标类别的集合,且其中包含背景类别c0;分割图像mw的任一位置像素u标记为类别c的概率为/>且使用不同的颜色标记该像素以区别不同类别,用全部语义分割图像mw构成的弱监督训练集/>训练语义分割网络分支/>用网络模型/>预测的任一图像iw在像素位置u处的类别为c的概率为/>
步骤(2)所述的构建基于语义分割和目标检测的多任务深度网络及其交互共享结构,具体实现步骤为:
1)在参数共享的多尺度特征重建模块基础上,串接全卷积网络作为图像语义分割分支的主体,浅层特征通过Skip-Connection残差模块与深卷积层输出的语义分割特征相加融合,预测语义分割图像,所述的残差模块含一组卷积层Convα;深卷积层输出的语义分割特征通过注意力机制计算语义分割注意力概率得分,注意力机制与Skip-Connection残差模块共享卷积层参数,再根据注意力概率得分筛选浅层卷积特征;将筛选后不同尺度大小的浅层特征按不同池化核自适应池化为同一尺寸,最终合并联结为用于目标检测的特征,并经RPN生成候选框;再对候选框样本逐个进行多类别分类以及候选框坐标回归;
2)利用目标检测的训练集训练语义分割网络分支,以最小化注意力分割损失函数,更新Skip-Connection残差模块卷积层参数,浅层的多尺度特征通过Skip-Connection残差模块直接与深层分割语义特征融合提升语义分割精度,与此同时,注意力概率分布的通道与目标类别建立对应关系;通过注意力机制,多尺度特征与语义分割特征筛选、融合为用于目标检测的特征,提升目标检测精度;
3)在RPN生成的候选框中,不包含目标的候选框总要远比包含目标的候选框多,为平衡正负候选框样本和不同尺度候选框样本,在RPN生成多尺度候选框过程中,按训练数据集上不同尺度目标出现频数的分布经验值设定不同尺度候选框样本的权重;另外,对二分类损失值以及坐标回归损失值排序,当RPN预测的候选框内是否存在目标的概率值p在区间0.2≤p≤0.7即认定该候选框为难检测样本,否则为易检测样本;定义平衡损失函数BLoss:
BL(pt,γ)=w(pt)·CL(pt). (1)
其中,w(pt)=(1-pt)γ是权值调整函数,γ∈[0,5]是经验值,CL(pt)=-log(pt)是交叉熵损失函数,pt定义为:
其中,p是目标检测网络预测的候选框内是否存在目标的概率;
步骤(3)所述的通过语义可视化分析优化小目标检测网络上下文特征融合和筛选能力,具体实现步骤为:
1)为去除浅层特征与深层特征之间的冗余,通过注意力机制计算语义分割特征Fs关于多尺度特征Fm的注意力概率得分atteni,经soft-max归一化σ后的注意力概率筛选、融合得到不同尺度的特征Fi,再经过自适应池化AdaptPooling为直接用于目标检测的特征Fo;注意力机制的计算过程如下所示:
atteni=σ(Convα(Fi s)) (3)
Fo=AdaptPooling([F1,F2,F3]) (5);
2)图像语义分割网络分支更新Skip-Connection残差模块卷积层参数以最小化注意力分割损失函数,又使注意力概率分布的通道与目标类别建立对应关系,因此注意力机制能从目标的空间分布、尺度大小、类别语义方面,将浅层多尺度特征与语义分割特征深度筛选融合为用于目标检测的特征;
3)将各通道的注意力概率分布用热力图可视化,统计注意力概率值在可视化图像中作用的位置分布、注意力区域大小、注意力强度,并将其与待检测图像目标的位置分布、尺度大小、类别信息作对比分析,以验证注意力机制对目标位置、尺度、类别特征的筛选作用;通过比较细粒度的低层特征图及其筛选后的特征图间的差异,验证语义分割特征中包含的目标位置、尺度、类别语义上下文信息及其具体对应关系;
步骤(4)所述的训练基于注意力机制的上下文特征融合和筛选的神经网络模型进行小目标检测,具体实现步骤为:
将步骤(1)中图像分割标注与目标检测标注匹配后的数据集,输入步骤(2)中构建的神经网络,训练小目标检测模型,通过步骤(3)不断优化模型小目标检测能力,最终得到基于注意力机制的上下文特征融合和筛选的小目标检测模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010068011.9A CN111275688B (zh) | 2020-01-19 | 2020-01-19 | 基于注意力机制的上下文特征融合筛选的小目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010068011.9A CN111275688B (zh) | 2020-01-19 | 2020-01-19 | 基于注意力机制的上下文特征融合筛选的小目标检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111275688A CN111275688A (zh) | 2020-06-12 |
CN111275688B true CN111275688B (zh) | 2023-12-12 |
Family
ID=70998989
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010068011.9A Active CN111275688B (zh) | 2020-01-19 | 2020-01-19 | 基于注意力机制的上下文特征融合筛选的小目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111275688B (zh) |
Families Citing this family (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111860186B (zh) * | 2020-06-23 | 2022-04-12 | 华北电力大学(保定) | 一种基于多注意力机制的人脸属性编辑网络 |
CN111860517B (zh) * | 2020-06-28 | 2023-07-25 | 广东石油化工学院 | 一种基于分散注意力网络的小样本下语义分割方法 |
CN111898439B (zh) * | 2020-06-29 | 2022-06-07 | 西安交通大学 | 基于深度学习的交通场景联合目标检测和语义分割方法 |
CN113935391A (zh) * | 2020-06-29 | 2022-01-14 | 中国移动通信有限公司研究院 | 物体检测方法、知识库的构建方法、装置及电子设备 |
CN111950586B (zh) * | 2020-07-01 | 2024-01-19 | 银江技术股份有限公司 | 一种引入双向注意力的目标检测方法 |
CN112084864A (zh) * | 2020-08-06 | 2020-12-15 | 中国科学院空天信息创新研究院 | 模型优化方法、装置、电子设备和存储介质 |
CN112184635A (zh) * | 2020-09-10 | 2021-01-05 | 上海商汤智能科技有限公司 | 目标检测方法、装置、存储介质及设备 |
CN112183435B (zh) * | 2020-10-12 | 2024-08-06 | 河南威虎智能科技有限公司 | 一种两阶段的手部目标检测方法 |
CN112380923A (zh) * | 2020-10-26 | 2021-02-19 | 天津大学 | 基于多任务的智能自主视觉导航与目标检测方法 |
CN112417451B (zh) * | 2020-11-20 | 2022-04-12 | 复旦大学 | 适配智能芯片分级架构的基于深度学习的恶意软件检测方法 |
CN112418207B (zh) * | 2020-11-23 | 2024-03-19 | 南京审计大学 | 一种基于自注意力蒸馏的弱监督文字检测方法 |
CN112396062A (zh) * | 2020-12-03 | 2021-02-23 | 广州海洋地质调查局 | 一种用于海底生物的识别分割方法及处理终端 |
CN112464016B (zh) * | 2020-12-17 | 2022-04-01 | 杭州电子科技大学 | 一种基于深度关系自注意力网络的场景图生成方法 |
CN112766259A (zh) * | 2021-01-08 | 2021-05-07 | 合肥工业大学 | 一种面向视障人士的物品智能搜索方法 |
CN112801146B (zh) * | 2021-01-13 | 2024-03-19 | 华中科技大学 | 一种目标检测方法及系统 |
CN112801029B (zh) * | 2021-02-09 | 2024-05-28 | 北京工业大学 | 基于注意力机制的多任务学习方法 |
CN112700444B (zh) * | 2021-02-19 | 2023-06-23 | 中国铁道科学研究院集团有限公司铁道建筑研究所 | 基于自注意力与中心点回归模型的桥梁螺栓检测方法 |
CN113065402B (zh) * | 2021-03-05 | 2022-12-09 | 四川翼飞视科技有限公司 | 一种基于变形注意力机制的人脸检测方法 |
CN112966697B (zh) * | 2021-03-17 | 2022-03-11 | 西安电子科技大学广州研究院 | 基于场景语义的目标检测方法、装置、设备及存储介质 |
CN113255759B (zh) * | 2021-05-20 | 2023-08-22 | 广州广电运通金融电子股份有限公司 | 基于注意力机制的目标内特征检测系统、方法和存储介质 |
CN113177511A (zh) * | 2021-05-20 | 2021-07-27 | 中国人民解放军国防科技大学 | 基于多数据流的旋转边框智能感知目标检测方法 |
CN113538347B (zh) * | 2021-06-29 | 2023-10-27 | 中国电子科技集团公司电子科学研究院 | 基于高效双向路径聚合注意力网络的图像检测方法及系统 |
CN113343990B (zh) * | 2021-07-28 | 2021-12-03 | 浩鲸云计算科技股份有限公司 | 一种证件类图片的关键文本检测、分类训练方法 |
CN113627557B (zh) * | 2021-08-19 | 2023-10-03 | 电子科技大学 | 一种基于上下文图注意力机制的场景图生成方法 |
CN113920302A (zh) * | 2021-09-06 | 2022-01-11 | 北京交通大学 | 基于交叉注意力机制的多头弱监督目标检测方法 |
CN114037674B (zh) * | 2021-11-04 | 2024-04-26 | 天津大学 | 一种基于语义上下文的工业缺陷图像分割检测方法及装置 |
CN113781527B (zh) * | 2021-11-10 | 2022-02-08 | 华中科技大学 | 一种基于多交互时空图网络的行人轨迹预测方法和系统 |
CN114220041A (zh) * | 2021-11-12 | 2022-03-22 | 浙江大华技术股份有限公司 | 目标识别方法、电子设备及存储介质 |
CN114078230B (zh) * | 2021-11-19 | 2023-08-25 | 西南交通大学 | 一种自适应特征融合冗余优化的小目标检测方法 |
CN116993989A (zh) * | 2023-09-26 | 2023-11-03 | 国网上海市电力公司 | 一种弱监督分割网络区域扩张参数自适应生成方法和系统 |
CN117315238B (zh) * | 2023-11-29 | 2024-03-15 | 福建理工大学 | 一种车辆目标检测的方法与终端 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110009679A (zh) * | 2019-02-28 | 2019-07-12 | 江南大学 | 一种基于多尺度特征卷积神经网络的目标定位方法 |
WO2019144575A1 (zh) * | 2018-01-24 | 2019-08-01 | 中山大学 | 一种快速行人检测方法及装置 |
CN110349148A (zh) * | 2019-07-11 | 2019-10-18 | 电子科技大学 | 一种基于弱监督学习的图像目标检测方法 |
-
2020
- 2020-01-19 CN CN202010068011.9A patent/CN111275688B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019144575A1 (zh) * | 2018-01-24 | 2019-08-01 | 中山大学 | 一种快速行人检测方法及装置 |
CN110009679A (zh) * | 2019-02-28 | 2019-07-12 | 江南大学 | 一种基于多尺度特征卷积神经网络的目标定位方法 |
CN110349148A (zh) * | 2019-07-11 | 2019-10-18 | 电子科技大学 | 一种基于弱监督学习的图像目标检测方法 |
Non-Patent Citations (1)
Title |
---|
基于深度卷积神经网络的弱监督图像语义分割;郑宝玉等;《南京邮电大学学报(自然科学版)》;20181113(第05期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111275688A (zh) | 2020-06-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111275688B (zh) | 基于注意力机制的上下文特征融合筛选的小目标检测方法 | |
Mei et al. | Semantic segmentation of 3D LiDAR data in dynamic scene using semi-supervised learning | |
CN107133569B (zh) | 基于泛化多标记学习的监控视频多粒度标注方法 | |
Alidoost et al. | A CNN-based approach for automatic building detection and recognition of roof types using a single aerial image | |
CN106650690A (zh) | 基于深度卷积‑反卷积神经网络的夜视图像场景识别方法 | |
CN106845430A (zh) | 基于加速区域卷积神经网络的行人检测与跟踪方法 | |
Liu et al. | 3D Point cloud analysis | |
CN109558823A (zh) | 一种以图搜图的车辆识别方法及系统 | |
Zhong et al. | Multiagent object-based classifier for high spatial resolution imagery | |
CN106408030A (zh) | 基于中层语义属性和卷积神经网络的sar图像分类方法 | |
CN106778687A (zh) | 基于局部评估和全局优化的注视点检测方法 | |
CN112132014A (zh) | 基于非督导金字塔相似性学习的目标重识别方法及系统 | |
Metzger et al. | A fine-grained dataset and its efficient semantic segmentation for unstructured driving scenarios | |
CN110147841A (zh) | 基于弱监督及无监督部件检测和分割的细粒度分类方法 | |
CN115393598A (zh) | 一种基于非显著区域对象挖掘的弱监督语义分割方法 | |
Naseer et al. | Multimodal Objects Categorization by Fusing GMM and Multi-layer Perceptron | |
CN115019039A (zh) | 一种结合自监督和全局信息增强的实例分割方法及系统 | |
CN110909656B (zh) | 一种雷达与摄像机融合的行人检测方法和系统 | |
CN117975167B (zh) | 弱矿斑矿石分选方法、装置、可读存储介质及设备 | |
CN116071389A (zh) | 一种基于前背景匹配的边界框弱监督图像分割方法 | |
Wang | Multi-sensor fusion module for perceptual target recognition for intelligent machine learning visual feature extraction | |
Zhao et al. | RFE-LinkNet: LinkNet with Receptive Field Enhancement for Road Extraction from High Spatial Resolution Imagery | |
Mendhe et al. | Object Detection and Tracking for Autonomous Vehicle using AI in CARLA | |
Lin et al. | SRSG and S2SG: a model and a dataset for scene graph generation of remote sensing images from segmentation results | |
CN114359493B (zh) | 一种用于无人船生成三维语义地图的方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |