CN112434723B - 一种基于注意力网络的日/夜间图像分类及物体检测方法 - Google Patents

一种基于注意力网络的日/夜间图像分类及物体检测方法 Download PDF

Info

Publication number
CN112434723B
CN112434723B CN202011163778.6A CN202011163778A CN112434723B CN 112434723 B CN112434723 B CN 112434723B CN 202011163778 A CN202011163778 A CN 202011163778A CN 112434723 B CN112434723 B CN 112434723B
Authority
CN
China
Prior art keywords
network
classification
image
feature
night
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011163778.6A
Other languages
English (en)
Other versions
CN112434723A (zh
Inventor
章依依
王军
何鹏飞
徐晓刚
朱亚光
曹卫强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Publication of CN112434723A publication Critical patent/CN112434723A/zh
Application granted granted Critical
Publication of CN112434723B publication Critical patent/CN112434723B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于注意力网络的日/夜间图像分类及物体检测方法,该方法首先采集街道摄像头监控视频处理成图像进行标注,结合开源的街道数据集共同构建图像数据集;通过基于特征金字塔的深度卷积神经网络提取图像的表观特征;在所提取特征上预测图像的日/夜属性,并捕获表征日/夜间物体的注意图;基于注意力图对提取的特征图进行加权;最后根据预测的日/夜属性将加权后的特征图输入对应日/夜间的检测头做位置回归与物体分类。本发明旨在通过注意力机制使网络关注到日/夜间的不同特征,并通过两个分支分别完成日/夜间物体的检测,能够提升日/夜间物体检测的性能,可用于街道智能监控系统。

Description

一种基于注意力网络的日/夜间图像分类及物体检测方法
技术领域
本发明属于计算机视觉识别技术领域,尤其涉及一种基于注意力网络的日/夜间图像分类及物体检测方法。
背景技术
目标检测是许多其他经典视觉问题的基础,且具有巨大的实用价值和应用前景,是智能视频监控、自动驾驶、人脸识别、机器人导航等应用领域必不可少的技术要点。随着卷积神经网络CNN的成功,深度学习已被证明是一个有效的解决方案。
目标检测需要完成以下三个任务:
1.区分出前景物体框与背景,并为它们分配适当的类别标签;
2.回归一组系数,最大化检测框和目标框之间的交并比(IoU)或其它指标;
3.通过NMS移除冗余的边界框,减少对同一目标的重复检测。
近年来,目标检测两个最主要的研究点为:更好的基础网络backbone、融合不同卷积层的特征融合feature fusion。目前目标检测主流的框架分为两类:以Faster RCNN为代表的双阶目标检测器和以Yolo为代表的单阶目标检测器。单阶目标检测器(SSD,RetinaNet,YoloV3)以速度快著称,在训练和推理过程中同时进行分类和预测框的回归。双阶目标检测器先经过RPN提取出背景框和物体框,再通过ROI Pooling将其输入检测器进行分类和框位置的回归。经过了两次的回归处理,其精度会比单阶检测器略有提升,但速度有所下降。因此在对检测速度要求较高的工业界,通常会采用单阶目标检测器作为基础模型。
在自然场景下,目标检测过程中会产生许多不确定因素,如图像中物体大小差异大,同类物体在不同场景下具有不同的外观姿态等,加之光照、遮挡等因素的干扰,导致检测算法具有一定的难度。研究结果表明,目标检测模型在夜间极端环境下的检测性能大大不如光照充足环境下的性能。其原因主要在于夜间图像像素低、信息量少、特征难以提取等。
针对该问题,现有技术主要是通过图像增强技术恢复夜间图像的亮度,使其看上去与日间图像更为接近。然而该技术产生的增强图像往往加入了许多噪声,与真实图像的特征分布产生了偏差,并不有利于目标检测的检测性能。在应用过程中,夜间图像需要先经过增强网络,再经过检测网络,时间复杂度高,检测速度慢,并不适用于工业应用场景,例如需要接近实时的智能视频监控系统。另外模型训练比较复杂,无法实现端到端的训练。
发明内容
本发明的目的在于针对现有技术的不足,提供一种基于注意力网络的日/夜间图像分类及物体检测方法。鉴于夜间图像与日间图像特征分布不同,检测器需要关注的特征也不同,本发明提出采用多分支的方法,将该问题解耦为多任务问题,实现端到端的训练。夜间图像检测任务与日间图像检测任务共享特征提取的基础网络,分不同的检测头关注不同的特征区域,从而提升各个任务的性能,且推理速度不受影响。
本发明的目的是通过以下技术方案来实现的:一种基于注意力网络的日/夜间图像分类及物体检测方法,包括以下步骤:
(1)采集图像集,包括日间图像和夜间图像,每个图像标记物体所在区域的左上角位置坐标和宽高以及物体类别;
(2)采用残差网络的Conv3_x,Conv4_x,Conv5_x对步骤(1)采集的图像进行特征提取,并使用特征金字塔网络进行多尺度特征提取,分别获得三层特征图,记为{P3、P4、P5};
(3)构建二分类头,包括以下子步骤:
(3.1)对步骤(2)得到的P3特征图下采样得到P3_down,对P5特征图上采样得到P5_up;通过下式将特征图{P3_down、P4、P5_up}进行特征融合,得到特征图P:
Figure 306088DEST_PATH_IMAGE001
其中,
Figure 754387DEST_PATH_IMAGE002
代表特征图中的每一个特征点;
(3.2)将步骤(3.1)得到的特征图P经过卷积神经网络后得到注意力图A;
(3.3)将步骤(3.2)得到的注意力图A经过全局平均池化得到
Figure 203298DEST_PATH_IMAGE003
的特征向 量,并经过一个全连接层和softmax层后输出图像为日间图像和夜间图像的概率,概率较大 的一类为二分类结果;
(4)将步骤(3.2)得到的注意力图A上采样得到A_up,下采样得到A_down;将{A、A_down、A_up}分别与步骤(2)得到的特征图{P4、P3、P5}进行加权融合得到特征图{A3、A4、A5}:
Figure 5032DEST_PATH_IMAGE004
(5)构建日间检测头与夜间检测头,两者网络结构相同,均由多分类头网络和回归头网络组成,具体为:
(5.1)构建多分类头网络:将步骤(4)得到的特征图{
Figure 350563DEST_PATH_IMAGE005
}分别经过4层卷 积后,再经过一层输出通道为C的卷积生成
Figure 438604DEST_PATH_IMAGE006
的分类结果;其中,
Figure 377741DEST_PATH_IMAGE007
表示特征图的 高,
Figure 983166DEST_PATH_IMAGE008
表示特征图的宽,
Figure 183203DEST_PATH_IMAGE006
的分类结果是对特征图中
Figure 583092DEST_PATH_IMAGE009
个特征点分别做
Figure 868580DEST_PATH_IMAGE010
个类 别的概率预测,并选择概率最高的类别作为该点的分类预测结果,并将此概率值作为该点 属于该类别的置信度;其中三层特征图共享多分类头网络,减少网络参数以提高训练效率;
(5.2)构建回归头网络:将步骤(4)得到的特征图{
Figure 277695DEST_PATH_IMAGE005
}分别经过4层卷积 后,再经过一层输出通道为4的卷积生成
Figure 332239DEST_PATH_IMAGE011
的回归结果;其中,4个通道分别为
Figure 434187DEST_PATH_IMAGE012
,代表对每个特征点预测得到的目标物体的
Figure 82337DEST_PATH_IMAGE013
坐标值及所在区域框的宽高
Figure 154199DEST_PATH_IMAGE014
, 得到每个特征点对应的目标物体检测框;其中三层特征图共享回归头网络,减少网络参数 以提高训练效率;
(5.3)将三层特征图{A3、A4、A5}经过步骤(5.1)得到的分类结果和经过步骤(5.2)得到的回归结果,进行合并得到检测结果;
(6)对步骤(3)构建的二分类头、步骤(5.1)构建的多分类头网络和步骤(5.2)构建的回归网络的损失进行加权求和得到总损失;其中,日间检测头由日间图像训练得到;夜间检测头由夜间图像训练得到;
(7)将待测图像经过步骤(2)处理后得到的{P3、P4、P5}三层特征图,输入二分类头预测为日间图像或夜间图像,再将二分类头中得到的注意力图经过步骤(4)处理得到特征图{A3、A4、A5},根据二分类头预测结果将特征图{A3、A4、A5}输入对应的日间检测头或夜间检测头,得到的检测结果为待测图像中每个特征点的目标物体检测框和所属类别;保留检测结果中目标物体检测框置信度前300的检测框,对所述300个检测框做非极大值抑制,剔除交并比大于阈值的目标物体检测框,剩余的目标物体检测框及所属类别为最终的预测结果。
进一步地,所述步骤(1)采集的图像集中日间图像和夜间图像数量相同。
进一步地,所述步骤(1)中物体类别包括行人、骑行者、轿车、公交车、货车、自行车、摩托车、交通灯、交通指示牌和火车。
进一步地,所述步骤(2)中的残差网络为ImageNet数据集预训练过的ResNet101深度残差网络。
进一步地,所述步骤(3.2)为将步骤(3.1)得到的特征图P经过四层卷积神经网络后得到注意力图A。
进一步地,所述步骤(7)中交并比的阈值为0.5。
本发明的有益效果是:
1、将街道物体检测解耦为夜间检测与日间检测两个任务进行多任务学习,使夜间检测头与日间检测头具有更明确的任务目标。本发明在BDD验证数据集下能达到32.8%的平均准确率(Mean Average Precision),其中日间图像达到34.2%,夜间图像达到31.1%,有效地提升了日夜间物体检测性能;
2、针对物体在夜间与日间环境下模型应关注的特征相差较大的特点,例如在夜间图像中,主要通过车灯及车灯附近特征来确定是否存在车辆,而日间环境下则是通过车辆轮廓来区分;利用注意力网络使分支关注到不同的特征区域,从而加强分支对各自任务的针对性;
3、夜间图像像素低、信息量少、特征难以提取,通常提取夜间图像特征需要模型输入大量的夜间图像进行训练;本发明使用日间图像与夜间图像共同训练骨干网络,有利于解决夜间图像特征难以提取的问题;
4、本发明能同时应对日间、夜间的图像检测任务,在光照变化大的场景具有突出的应用意义,例如24小时全天候智能监控系统。
附图说明
图1是基于特征融合的注意力网络结构图;
图2是基于注意力网络的日/夜间检测头网络结构图;
图3是本发明的算法流程图。
具体实施方式
下面根据附图详细说明本发明。
如图1~3所述,本发明基于注意力网络的日/夜间图像分类及物体检测方法,包括以下步骤:
步骤一:利用带有黑夜白天街道目标的伯克利大学开源街道数据集BerkeleyDeepDrive(BBD)及本地独立采集标注的图像数据共同构造数据集,并按照4:1分为训练集和测试集;其中,每个图像样本标记为日间图像或夜间图像,每个图像样本标记目标物体所在区域的目标框及目标物体的类别,包括行人、骑行者、轿车、公交车、货车、自行车、摩托车、交通灯、交通指示牌、火车共10个类别,对目标检测训练数据集进行预处理,使得训练集中日间和夜间图像比例达到基本平衡。构造数据读取器,分批次读取日间与夜间图像,并对数据进行shuffle打乱以确保数据读取的随机性。重写数据读取器Dataloader和数据采样器Sampler,使一次迭代过程中读取等数量的日间与夜间图像,从而确保两个任务在训练过程中参数更新进度平衡。
如图1所示,为步骤二~步骤三;图像经过骨干网络ResNet101的Conv3_x、Conv4_x、Conv5_x提取特征并融合后得到P3、P4、P5三层特征图,并进行特征融合得到特征P,再经过四层卷积后得到注意力图A后,经过全局平均池化输出256维度的向量,最后经过一个全连接层后进入二分类头,得到日间/夜间图像分类结果。
步骤二:通过深度卷积神经网络进行图像特征提取,并使用特征金字塔网络FPN进行多尺度特征提取:
(2.1)基础网络预训练
选择ResNet101深度残差网络作为骨干网络,并在ImageNet数据集上进行预训练,使网络具备先验知识,避免训练初始阶段损失过大,模型难以收敛的情况。其中,骨干网络ResNet101中Conv1和Conv2_x不参与参数更新。
(2.2)特征金字塔网络完成多尺度特征提取
训练集图像经过骨干网络ResNet101的Conv3_x,Conv4_x,Conv5_x提取特征,分别 经过一层
Figure 207124DEST_PATH_IMAGE015
卷积网络输出得到{P3_mid、P4_mid、P5};P5经过上采样与P4_mid融合得到 P4,P4经过上采样与P3_mid融合得到P3。不同感受野的{P3、P4、P5}三层特征图分别负责小、 中、大不同尺度的物体;P3细节信息丰富,感受野最小,用以检测小物体;P5语义信息丰富, 感受野最大,用以检测大物体。
步骤三:将步骤二提取的三层多尺度特征层做特征融合,并添加四层卷积网络获取注意力图,将注意力图经过平均全局池化后通过一个全连接层和一层softmax层,最终得到日间夜间的二分类头,用以捕获日/夜间属性:
(3.1)对P3特征图进行S倍下采样downsampled得到P3_down,每个特征值变为原特 征图
Figure 73449DEST_PATH_IMAGE016
窗口内所有特征点的均值,本实施例S=2:
Figure 208895DEST_PATH_IMAGE017
其中,
Figure 959813DEST_PATH_IMAGE018
表示下采样后特征图的每个特征点,
Figure 988949DEST_PATH_IMAGE019
表示k在原特征图上对应的S ×S窗口;
Figure 167121DEST_PATH_IMAGE002
表示原特征图中一个窗口
Figure 648918DEST_PATH_IMAGE019
内的特征点,本实施例为4个;P3 i 为原特征图P3 中特征点
Figure 937948DEST_PATH_IMAGE002
的特征值。
(3.2)对P5特征图进行S倍上采样upsampling得到P5_up。
(3.3)将{P3_down、P5_upP4}进行特征融合得到特征P,公式为:
Figure 821590DEST_PATH_IMAGE001
其中,
Figure 170663DEST_PATH_IMAGE020
P3_down i 、P5_up i P4 i 表示P、P3_down、P5_upP4中第
Figure 139756DEST_PATH_IMAGE002
个特征点的特征 值。
(3.4)特征P经过4层卷积网络,输出
Figure 966898DEST_PATH_IMAGE021
的注意力图A;其中,
Figure 970626DEST_PATH_IMAGE007
表示注意 力图的高,
Figure 756179DEST_PATH_IMAGE008
表示注意力图的宽;将该注意力图经过全局平均池化Global Average Pooling输出256维度的向量,再经过全连接层输出2维向量;经过softmax层后该向量的2个 维度分别表示输入图像为日间图像的概率和夜间图像的概率,如属于日间图像的概率较大 则预测分类结果为日间图像,属于夜间图像的概率较大则预测分类结果为夜间图像,最终 得到日间夜间二分类头。
如图2所示,为步骤四~五的流程图;特征图P3、P4、P5输入日间/夜间检测头后,先 与注意力图A进行特征融合;以特征图P4对应的夜间检测头为例,融合后的特征图A4分别进 入分类头和回归头,分类头为先经过四层卷积后经过一层输出通道为C的卷积生成
Figure 350584DEST_PATH_IMAGE006
的分类结果,回归头为先经过四层卷积后经过一层输出通道为4的卷积生成
Figure 106050DEST_PATH_IMAGE011
的回归结果;不同特征层P3、P4、P5共享日间/夜间检测头。
步骤四:将步骤三中的注意力图与步骤二提取的三层特征图逐层进行加权融合, 具体为:步骤(3.4)得到的注意力图A的大小与P4特征图大小一致,故与P3、P5融合时需要先 经过S倍的上、下采样得到A_up和A_down;将注意力图{A、A_down、A_up}分别与步骤(2.2)得 到的特征图{P4、P3、P5}进行加权融合得到特征图{A4、
Figure 574072DEST_PATH_IMAGE022
Figure 389581DEST_PATH_IMAGE023
},公式为:
Figure 208633DEST_PATH_IMAGE004
其中,i表示特征图中每个特征点位置。
步骤五:将步骤四得到的特征图{A3、A4、A5}根据真实的日间/夜间标签分别输入日间检测头和夜间检测头做位置回归与目标物体分类;其中,日间检测头与夜间检测头网络结构相同,均由多分类头网络和回归网络组成:
(5.1)构建多分类头网络:步骤四得到的融合特征图{
Figure 767790DEST_PATH_IMAGE005
}分别经过4层 卷积后,经过一层输出通道为C的卷积生成
Figure 355897DEST_PATH_IMAGE006
的分类结果;其中,
Figure 76729DEST_PATH_IMAGE007
表示融合特征图 的高,
Figure 383076DEST_PATH_IMAGE008
表示融合特征图的宽,对融合特征图的
Figure 745924DEST_PATH_IMAGE009
个特征点分别做
Figure 985276DEST_PATH_IMAGE010
个类别的概率预 测;本实施例中C=10,表示10个目标物体的类别;选择最高概率对应的类别作为该特征点的 类别预测结果,并将此概率值作为该点属于该类别的置信度。其中三层特征图共享多分类 头网络,减少网络参数以提高训练效率。
(5.2)构建回归网络:步骤四得到的融合特征图{
Figure 752375DEST_PATH_IMAGE005
}分别经过4层卷积 后,经过一层输出通道为4的卷积生成
Figure 811598DEST_PATH_IMAGE011
的回归结果,4个通道
Figure 712558DEST_PATH_IMAGE012
分别代表每 个特征点预测得到的目标物体的
Figure 24326DEST_PATH_IMAGE013
坐标值及检测框宽高
Figure 352539DEST_PATH_IMAGE014
。其中三层特征图共享回归 头网络,减少网络参数以提高训练效率。
(5.3)将三层特征图{A3、A4、A5}经过步骤(5.1)得到的分类结果和经过步骤(5.2)得到的回归结果,进行合并得到检测结果;
(5.5)网络包括三个损失:多分类损失
Figure 367900DEST_PATH_IMAGE024
oss、回归损失
Figure 806972DEST_PATH_IMAGE025
和二分类损 失
Figure 489757DEST_PATH_IMAGE026
根据步骤(3.4)构建的二分类头的预测分类结果与图像真实分类的计算二分类交 叉熵损失
Figure 723292DEST_PATH_IMAGE027
,公式为:
Figure 350582DEST_PATH_IMAGE028
其中,
Figure 468711DEST_PATH_IMAGE029
表示真实标签,
Figure 865057DEST_PATH_IMAGE030
表示预测标签,N表示训练集一个批量的样本个数,即 batch_size,本实施例为8。
步骤(5.1)构建的多分类头网络采用Focal loss解决了正负样本不平衡以及难易样本的问题,多分类损失Focal loss的计算公式为:
Figure 410439DEST_PATH_IMAGE031
其中,
Figure 525026DEST_PATH_IMAGE032
表示在
Figure 181266DEST_PATH_IMAGE013
坐标处通过分类得到的置信度,
Figure 697698DEST_PATH_IMAGE033
表示该位置上目标所属 的真实类别标签,1表示正样本,0表示负样本;
Figure 413982DEST_PATH_IMAGE034
是大于0的值,
Figure 422389DEST_PATH_IMAGE035
是[0,1]间的小数,
Figure 6954DEST_PATH_IMAGE034
Figure 250329DEST_PATH_IMAGE035
都 是固定值,不参与训练。其中
Figure 262147DEST_PATH_IMAGE035
取0.25,
Figure 961113DEST_PATH_IMAGE034
取2时效果最佳。
步骤(5.2)构建的回归网络采用IOU交并比损失IoU loss,公式为:
Figure 490314DEST_PATH_IMAGE036
其中,
Figure 715759DEST_PATH_IMAGE037
Figure 773845DEST_PATH_IMAGE038
分别表示预测及真值的目标框坐标,
Figure 350320DEST_PATH_IMAGE039
表示该目标框的面积。
对每个损失进行加权求和,并使用超参数
Figure 152054DEST_PATH_IMAGE040
调节各损失函数的权重得到总损 失,根据步骤(5.3)得到的三层特征图对应的检测结果和真值训练整个网络的总损失;
Figure 232006DEST_PATH_IMAGE041
的计算公式为:
Figure 726572DEST_PATH_IMAGE042
其中,
Figure 524764DEST_PATH_IMAGE043
为权重,本实施例中
Figure 130188DEST_PATH_IMAGE044
Figure 64646DEST_PATH_IMAGE045
表示一个批量的图 像中正样本的个数,
Figure 995693DEST_PATH_IMAGE046
是一个指示函数,当
Figure 15602DEST_PATH_IMAGE047
时为1,反之则为0。基于损失函数
Figure 162068DEST_PATH_IMAGE041
对网络进行反向传播,并通过批量梯度下降法不断更新网络参数,在90000次批量 训练后模型达到收敛。
步骤六:推理阶段将待测图像经过步骤二处理后输入步骤三构建的二分类头预测 为日间图像或夜间图像,将步骤(3.4)得到的注意力图经过步骤四处理后,根据二分类头预 测结果分别输入对应的步骤五构建的日间检测头或夜间检测头检测,得到的检测结果为待 测图像中每个特征点的目标物体检测框和对应的类别。保留检测结果中目标物体检测框置 信度前300的检测框,对所述300个检测框做非极大值抑制,根据交并比剔除冗余的检测框, 非极大值抑制的交并比阈值为
Figure 216612DEST_PATH_IMAGE048
如图3所示,为步骤一~步骤六的整个算法流程;通过筛选BDD数据集或标注独立采集获得的数据得到训练集和测试集;训练集经过骨干网络和注意力网络后日间图像用于训练日间检测头,夜间图像用于训练夜间检测头,最后根据网络预测的结果和真值训练整个网络;预测集输入训练好的骨干网络再进入注意力网络,根据日间/夜间图像的分类结果输入对应的日间/夜间检测头,最终输出分类结果与检测框的回归结果。

Claims (9)

1.一种基于注意力网络的日/夜间图像分类及物体检测方法,其特征在于,包括以下步骤:
(1)采集图像集,包括日间图像和夜间图像等,每个图像标记物体所在区域的左上角位置坐标和宽高以及物体类别等;
(2)采用残差网络的Conv3_x,Conv4_x,Conv5_x对步骤(1)采集的图像进行表观特征提取,并使用特征金字塔网络进行多尺度特征提取,分别获得三层特征图,记为{P3、P4、P5};
(3)构建二分类头:将步骤(2)提取的{P3、P4、P5}三层特征图做特征融合得到一层特征图记为P,P经过卷积网络后得到注意力图A,将注意力图A经过平均全局池化后通过一个全连接层和softmax层;
(4)将步骤(3)得到的注意力图A上采样得到A_up,下采样得到A_down;将{A、A_down、A_up}分别与步骤(2)得到的特征图{P4、P3、P5}进行加权融合得到特征图{A3、A4、A5},具体为:将A与P4融合得到A3,将A_down与P3融合得到A4,将A_up与P5融合得到A5;
(5)构建日间检测头与夜间检测头,两者网络结构相同,均由多分类头网络和回归头网络组成;其中不同特征层之间共享日间检测头及夜间检测头网络参数,日间检测头与夜间检测头之间参数不共享;所述多分类头网络将步骤(4)得到的特征图{A3、A4、A5}分别经过四层卷积后经过输出通道为C的卷积生成分类结果,C为物体类别个数;所述回归头网络将步骤(4)得到的特征图{A3、A4、A5}分别经过四层卷积后经过输出通道为4的卷积生成回归结果;将三层特征图的分类结果和回归结果合并得到检测结果;
(6)对步骤(3)构建的二分类头、步骤(5)构建的多分类头网络和回归网络的损失进行加权求和得到总损失;其中,日间检测头由日间图像训练得到;夜间检测头由夜间图像训练得到;
(7)将待测图像经过步骤(2)处理后得到的{P3、P4、P5}三层特征图,输入二分类头预测为日间图像或夜间图像,再将二分类头中得到的注意力图经过步骤(4)处理得到特征图{A3、A4、A5},根据二分类头预测结果将特征图{A3、A4、A5}输入对应的日间检测头或夜间检测头,得到的检测结果为待测图像中每个特征点的目标物体检测框和所属类别;保留检测结果中目标物体检测框置信度前300的检测框,对300个检测框做非极大值抑制,剔除交并比大于阈值的目标物体检测框,剩余的目标物体检测框及所属类别为最终的预测结果。
2.根据权利要求1所述基于注意力网络的日/夜间图像分类及物体检测方法,其特征在于,所述步骤(3)包括以下子步骤:
(3.1)对步骤(2)得到的P3特征图下采样得到P3_down,对P5特征图上采样得到P5_up;
通过下式将特征图{P3_down、P4、P5_up}进行特征融合,得到特征图P:
Figure FDA0003010187230000021
其中,i代表特征图中的每一个特征点;
(3.2)将步骤(3.1)得到的特征图P经过卷积神经网络后得到注意力图A;
(3.3)将步骤(3.2)得到的注意力图A经过全局平均池化得到1×1×256的特征向量,并经过一个全连接层和softmax层后输出图像为日间图像和夜间图像的概率,概率较大的一类为二分类结果。
3.根据权利要求2所述基于注意力网络的日/夜间图像分类及物体检测方法,其特征在于,所述步骤(3.2)为将步骤(3.1)得到的特征图P经过四层卷积神经网络后得到注意力图A。
4.根据权利要求2所述基于注意力网络的日/夜间图像分类及物体检测方法,其特征在于,所述步骤(4)中将{A、A_down、A_up}分别与步骤(2)得到的特征图{P4、P3、P5}进行加权融合得到特征图{A3、A4、A5},具体为:
Figure FDA0003010187230000022
其中,i代表特征图中的每一个特征点。
5.根据权利要求3所述基于注意力网络的日/夜间图像分类及物体检测方法,其特征在于,所述步骤(5)包括以下子步骤:
(5.1)构建多分类头网络:将步骤(4)得到的特征图{A3、A4、A5}分别经过4层卷积后,再经过一层输出通道为C的卷积生成H×W×C的分类结果;其中,H表示特征图的高,W表示特征图的宽,H×W×C的分类结果是对特征图中H×W个特征点分别做C个类别的概率预测,并选择概率最高的类别作为该点的分类预测结果,并将此概率值作为该点属于该类别的置信度;其中三层特征图共享多分类头网络,减少网络参数以提高训练效率;
(5.2)构建回归头网络:将步骤(4)得到的特征图{A3、A4、A5}分别经过4层卷积后,再经过一层输出通道为4的卷积生成H×W×4的回归结果;其中,4个通道分别为x,y,w,h,代表对每个特征点预测得到的目标物体的x,y坐标值及所在区域框的宽高w,h,得到每个特征点对应的目标物体检测框;其中三层特征图共享回归头网络,减少网络参数以提高训练效率;
(5.3)将三层特征图{A3、A4、A5}经过步骤(5.1)得到的分类结果和经过步骤(5.2)得到的回归结果,进行合并得到检测结果。
6.根据权利要求1所述基于注意力网络的日/夜间图像分类及物体检测方法,其特征在于,所述步骤(1)采集的图像集中日间图像和夜间图像数量相同。
7.根据权利要求1所述基于注意力网络的日/夜间图像分类及物体检测方法,其特征在于,所述步骤(1)中物体类别包括行人、骑行者、轿车、公交车、货车、自行车、摩托车、交通灯、交通指示牌和火车。
8.根据权利要求1所述基于注意力网络的日/夜间图像分类及物体检测方法,其特征在于,所述步骤(2)中的残差网络为ImageNet数据集预训练过的ResNet101深度残差网络。
9.根据权利要求1所述基于注意力网络的日/夜间图像分类及物体检测方法,其特征在于,所述步骤(7)中交并比的阈值为0.5。
CN202011163778.6A 2020-07-23 2020-10-27 一种基于注意力网络的日/夜间图像分类及物体检测方法 Active CN112434723B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2020107163202 2020-07-23
CN202010716320 2020-07-23

Publications (2)

Publication Number Publication Date
CN112434723A CN112434723A (zh) 2021-03-02
CN112434723B true CN112434723B (zh) 2021-06-01

Family

ID=74696194

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011163778.6A Active CN112434723B (zh) 2020-07-23 2020-10-27 一种基于注意力网络的日/夜间图像分类及物体检测方法

Country Status (1)

Country Link
CN (1) CN112434723B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112990371B (zh) * 2021-04-27 2021-09-10 之江实验室 一种基于特征扩增的无监督夜间图像分类方法
CN113421230B (zh) * 2021-06-08 2023-10-20 浙江理工大学 基于目标检测网络的车载液晶屏导光板缺陷视觉检测方法
CN113473026B (zh) * 2021-07-08 2023-04-07 厦门四信通信科技有限公司 一种摄像头的日夜切换方法、装置、设备和存储介质
CN114972976B (zh) * 2022-07-29 2022-12-20 之江实验室 基于频域自注意力机制的夜间目标检测、训练方法及装置
CN118172736A (zh) * 2024-02-07 2024-06-11 北京交通大学 一种用于智能交通的实时检测方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109829893A (zh) * 2019-01-03 2019-05-31 武汉精测电子集团股份有限公司 一种基于注意力机制的缺陷目标检测方法
CN110929578A (zh) * 2019-10-25 2020-03-27 南京航空航天大学 一种基于注意力机制的抗遮挡行人检测方法
CN111027547A (zh) * 2019-12-06 2020-04-17 南京大学 一种针对二维图像中的多尺度多形态目标的自动检测方法
CN111145170A (zh) * 2019-12-31 2020-05-12 电子科技大学 一种基于深度学习的医学影像分割方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11423651B2 (en) * 2016-02-09 2022-08-23 Hrl Laboratories, Llc System and method for the fusion of bottom-up whole-image features and top-down enttiy classification for accurate image/video scene classification
US10223611B1 (en) * 2018-03-08 2019-03-05 Capital One Services, Llc Object detection using image classification models
CN108710830B (zh) * 2018-04-20 2020-08-28 浙江工商大学 一种结合密集连接注意力金字塔残差网络和等距限制的人体3d姿势估计方法
CN110222686B (zh) * 2019-05-27 2021-05-07 腾讯科技(深圳)有限公司 物体检测方法、装置、计算机设备和存储介质
CN110659581B (zh) * 2019-08-29 2024-02-20 腾讯科技(深圳)有限公司 一种图像处理方法、装置、设备和存储介质
CN111222562B (zh) * 2020-01-02 2022-04-08 南京邮电大学 基于空间自注意力机制的目标检测方法
CN111275714B (zh) * 2020-01-13 2022-02-01 武汉大学 一种基于注意力机制的3d卷积神经网络的前列腺mr图像分割方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109829893A (zh) * 2019-01-03 2019-05-31 武汉精测电子集团股份有限公司 一种基于注意力机制的缺陷目标检测方法
CN110929578A (zh) * 2019-10-25 2020-03-27 南京航空航天大学 一种基于注意力机制的抗遮挡行人检测方法
CN111027547A (zh) * 2019-12-06 2020-04-17 南京大学 一种针对二维图像中的多尺度多形态目标的自动检测方法
CN111145170A (zh) * 2019-12-31 2020-05-12 电子科技大学 一种基于深度学习的医学影像分割方法

Also Published As

Publication number Publication date
CN112434723A (zh) 2021-03-02

Similar Documents

Publication Publication Date Title
CN112434723B (zh) 一种基于注意力网络的日/夜间图像分类及物体检测方法
CN110135366B (zh) 基于多尺度生成对抗网络的遮挡行人重识别方法
CN110163187B (zh) 基于f-rcnn的远距离交通标志检测识别方法
Zhao et al. Improved vision-based vehicle detection and classification by optimized YOLOv4
CN110263786B (zh) 一种基于特征维度融合的道路多目标识别系统及方法
CN111291809B (zh) 一种处理装置、方法及存储介质
CN111310604A (zh) 一种物体检测方法、装置以及存储介质
Lyu et al. Small object recognition algorithm of grain pests based on SSD feature fusion
CN112395951B (zh) 一种面向复杂场景的域适应交通目标检测与识别方法
CN112488025B (zh) 基于多模态特征融合的双时相遥感影像语义变化检测方法
Cao et al. MCS-YOLO: A multiscale object detection method for autonomous driving road environment recognition
CN110310241A (zh) 一种融合深度区域分割的多大气光值交通图像去雾方法
CN113657414B (zh) 一种物体识别方法
CN112488229A (zh) 一种基于特征分离和对齐的域自适应无监督目标检测方法
CN113298817A (zh) 一种准确率高的遥感图像语义分割方法
CN113408584A (zh) Rgb-d多模态特征融合3d目标检测方法
CN114973199A (zh) 一种基于卷积神经网络的轨道交通列车障碍物检测方法
CN112861931A (zh) 一种基于差异注意力神经网络的多级别变化检测方法
CN116740516A (zh) 基于多尺度融合特征提取的目标检测方法及系统
CN113870160A (zh) 一种基于变换器神经网络的点云数据处理方法
CN116258990A (zh) 一种基于跨模态亲和力的小样本参考视频目标分割方法
CN116503602A (zh) 基于多层级边缘增强的非结构化环境三维点云语义分割方法
Cygert et al. Style transfer for detecting vehicles with thermal camera
CN116596966A (zh) 一种基于注意力和特征融合的分割与跟踪方法
Khosravian et al. Multi‐domain autonomous driving dataset: Towards enhancing the generalization of the convolutional neural networks in new environments

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant