CN111723829A - 一种基于注意力掩模融合的全卷积目标检测方法 - Google Patents

一种基于注意力掩模融合的全卷积目标检测方法 Download PDF

Info

Publication number
CN111723829A
CN111723829A CN201910204836.6A CN201910204836A CN111723829A CN 111723829 A CN111723829 A CN 111723829A CN 201910204836 A CN201910204836 A CN 201910204836A CN 111723829 A CN111723829 A CN 111723829A
Authority
CN
China
Prior art keywords
feature
attention
mask
layers
convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910204836.6A
Other languages
English (en)
Other versions
CN111723829B (zh
Inventor
何小海
董潇潇
吴晓红
卿粼波
滕奇志
吴小强
余艳梅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN201910204836.6A priority Critical patent/CN111723829B/zh
Publication of CN111723829A publication Critical patent/CN111723829A/zh
Application granted granted Critical
Publication of CN111723829B publication Critical patent/CN111723829B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明公开了一种基于注意力掩模融合的全卷积目标检测方法,涉及计算机视觉与智能信息技术领域。首先,通过卷积神经网络提取特征,经过初步二分类和边界框回归后得到一系列预选框;然后,将上述预选框输入到特征金字塔结构中,同时融合注意力掩模模块得到更具表征性的特征;最后经过多分类和边界框回归,不断训练迭代模型,得到多尺度的全卷积目标检测结果。该方法不仅实现了精度的有效提升,还能保持高效的速度,可应用于机器人视觉、消费电子、自动驾驶、人机交互、智能视频监控等场所。

Description

一种基于注意力掩模融合的全卷积目标检测方法
技术领域
本发明涉及一种基于注意力掩模融合的全卷积目标检测方法,属于计算机视觉与智能信息技术领域。
背景技术
目标检测是很多计算机视觉任务的基础,其定义如下:对于给定的图像,目标检测的目的是准确地定位和正确分类尽可能多的对象实例,同时避免错误地检测背景或重复检测相同的实例。其中,类别可以是行人、小鸟、自行车等等,定位以包围框(bounding box)的形式存在。目标检测在人工智能和信息技术的诸多领域如机器人视觉、消费电子、自动驾驶、人机交互、基于内容的图像检索、智能视频监控等有着广泛的应用。
目前,基于深度学习的目标检测算法主要分为两类,一是单阶段方法,二是两阶段方法。两阶段方法将检测问题划分为两个过程,首先产生区域建议,然后对候选区域进行分类和边界框回归,这类算法的典型代表是基于区域建议的R-CNN系列算法,检测精度较高但速度难以达到实时;单阶段方法采用基于回归的思想,跳过区域建议阶段,直接产生物体的类别概率和位置坐标值,经过单次检测即可得出最终的检测结果,故在检测速度上有更好的结果,其代表性算法有:YOLO,SSD,Focal Loss等。近年来,注意力机制在计算机视觉中的应用逐渐增加,现有的视觉注意模型可分为软注意模型和强注意模型。软注意模型以确定性的方式预测注意区域,由于它是可微的,故可以使用反向传播进行训练,让神经网络学到每一张新图片中需要关注的区域,因而形成了注意力。将注意力机制结合到目标检测中,让网络自适应地关注感兴趣区域,近来受到了较多的关注。
发明内容
本发明提出了一种基于注意力掩模融合的全卷积目标检测方法,目的在于结合注意力掩模模块和特征金字塔模块得到更具表征性特征,然后进行目标检测。
本发明通过以下技术方案来实现上述目的:
(1)使用基准网络VGG16提取特征,经过6个步幅的卷积和下采样操作后,得到多尺度全卷积特征层。
(2)使用基本的卷积层conv4_3,conv5_3,fc7以及conv6_2进行初步的二分类和包围框回归操作,以得到预选框,减少负样本搜索。
(3)将注意力掩模模块Attention Mask Module(AMM)和特征金字塔结构结合起来,即将顶层特征同底层特征融合后,再辅之以注意力信息AMM,得到更加有效的特征P1,P2,P3,P4。
(4)最后将上述特征直接用于多分类和回归操作,不断训练迭代模型,得到最终的检测结果。
附图说明
图1为本发明基于注意力掩模融合的全卷积目标检测方法框架图。
图2为本发明基于注意力掩模模块结构图。
图3为本发明基于特征金字塔融合模块结构图。
具体实施方式
下面结合附图对本发明作进一步说明:
构建注意力掩模模块方法如下:
注意力掩模模块(AMM)的结构图如图2所示。在本发明中,使用基本的卷积函数(conv),激活函数(relu)和池化函数(pool)来构建基本网络。每个注意力掩模模块分为两个分支:掩模分支和主干分支。给定输入x,主干分支经过卷积后得到输出G(x),掩模分支经过卷积和反卷积操作得到相同尺寸的输出M(x)。掩模分支中,首先经过两次conv,relu,pool操作,然后经过两次deconv操作得到特征图谱S(x),最后经过sigmoid函数得到输出的掩模:
Figure BDA0001998639170000021
输出掩模类似于Highway Network中的门控单元,控制着主干分支的神经元,可以自适应地学习到有效的特征并且抑制噪声。主干分支中,经过两次conv函数得到主干输出。最后输出的注意力模型P(x)公式如下所示:
Pi,c(x)=(1+Mi,c(x))*Gi,c(x) (2)
式中,i代表神经元的空间位置,c代表神经元的通道位置。类似于残差网络中的恒等映射,M(x)的输出范围为[0,1],当M(x)接近0时,P(x)的输出接近原始的特征G(x)。
在注意力掩模模块中,注意力掩模不仅在前向传播中充当特征选择器,在反向传播中也能进行梯度更新。特征掩模的梯度如下所示:
Figure BDA0001998639170000031
其中,θ是掩模分支参数,φ是主干分支参数。
构建特征金字塔融合模块方法如下:
本发明提出了融合不同特征图谱与注意力掩模的结构,不仅能进行多尺度检测,还可以结合注意力模型关注感兴趣区域,从而有效地检测出所有尺度物体。网络结构如图3所示。
输入的特征图谱为(H×W×C),其中H和W代表高和宽,C代表通道的个数。对于底部特征L1,首先经过3×3的卷积层进行特征降维,将维度从512降到256,对于检测特征P2,经过2×2的反卷积操作,在扩大特征图谱同时也进行了降维的操作,得到的输出为(40×40×256);然后将上述输出进行eltwise sum操作,得到融合后的特征图谱T1亦为(40×40×256);最后将注意力掩模模块同T1融合以增加注意力信息,经过Relu层后得到的检测特征P1可应用于检测系统。
若图片中存在多种尺度的目标,低层的特征如P1和P2可以用来检测小目标,而高层的特征如P3和P4具有更大的感受野,负责检测大目标。
为了验证本发明所述基于注意力掩模融合的全卷积目标检测方法的有效性,在PASCAL VOC2007和PASCAL VOC2012两个数据集中开展实验。本文的实验平台为:Ubuntu16.04.5,Nvidia GTX 1080Ti GPU,Intel(R)Xeon(R)CPU E5-2686。采用的深度学习框架为Caffe,采用的精度评价指标为mAP(mean average precision),速度评价指标为fps(frames per second)。
VOC2007数据集的训练集有5011张,测试集有4952张。实验在VOC2007trainval和VOC2012trainval上进行训练,在VOC2007test数据集上测试。所有的实验在VGG16基准网络中进行预训练。使用Multistep方式来调整学习率,即在前80k次迭代中学习率设置为10-2,随后20k和40k次迭代中学习率分别设置为10-3和10-4。输入图片尺寸为320×320时,训练时batch size设置为16,GPU数量为1;当图片尺寸为512×512时,采用两块GPU进行联合训练。测试时batchsize设置为1。本发明实验结果如表1和表2所示,对于320×320的输入,mAP为81%,检测速度为60.9fps;对于512×512的输入,mAP为82.2%,检测速度为35fps,优于大部分对比算法。
VOC2012数据集的训练集有11540张,测试集有10991张。实验在VOC2007trainval和VOC2012trainval上进行训练,在VOC2012test数据集上测试。使用Multistep方式来调整学习率,即在前160k次迭代中学习率设置为10-2,随后40k和80k次迭代中学习率分别设置为10-3和10-4。对于320×320和512×512的输入,训练的batch size设置为16,并且使用两块GPU进行训练。测试时batch size设置为1。本发明实验结果如表1所示,对于320×320的输入,mAP为79%,对于512×512的输入,mAP为80.8%,精度高于所有其他对比算法,验证了本发明的有效性。
表1不同算法在VOC2007和VOC2012数据集上的测试结果
Figure BDA0001998639170000041
表2不同算法在VOC2007数据集上20类别的AP比较
Figure BDA0001998639170000042

Claims (4)

1.一种基于注意力掩模融合的全卷积目标检测方法,其特征在于包括以下步骤:
(1)使用基准网络VGG16提取特征,经过6个步幅的卷积和下采样操作后,得到多尺度全卷积特征层,然后进行初步的二分类和包围框回归操作;
(2)构建注意力掩模模块Attention Mask Module(AMM);
(3)将AMM和特征金字塔结构结合起来,即将顶层特征同底层特征融合后,再辅之以注意力信息AMM,得到更加有效的特征P1,P2,P3,P4用于多分类和回归操作。
2.根据权利要求1所述的方法,其特征在于(1)中构建多尺度全卷积特征层,构建方法如下:
通过VGG16网络得到一系列的卷积层,激活层和池化层,将全连接层fc6和fc7转变为卷积层后在其后添加卷积层和激活层,使用VGG16中的conv4_3,conv5_3,fc7以及添加的conv6_2层作为多尺度全卷积特征层,并将其输入到二分类和回归网络中。
3.根据权利要求1所述的方法,其特征在于(2)中构建注意力掩模模块,构建方法如下:
使用卷积函数(conv),激活函数(relu)和池化函数(pool)来构建基本网络;每个注意力掩模模块分为两个分支:掩模分支和主干分支,给定输入x,主干分支经过卷积后得到输出G(x),掩模分支经过卷积和反卷积操作得到相同尺寸的输出M(x);掩模分支中,首先经过两次conv,relu,pool操作,然后经过两次deconv操作得到特征图谱S(x),最后经过sigmoid函数得到输出的掩模:
Figure FDA0001998639160000011
主干分支中,经过两次conv函数得到主干输出,最后输出的注意力模型P(x),公式如下所示:
Pi,c(x)=(1+Mi,c(x))*Gi,c(x) (2)
式中,i代表神经元的空间位置,c代表神经元的通道位置。
4.根据权利要求1所述的方法,其特征在于(3)中注意力掩模模块同特征金字塔结构的融合,融合方法如下:
输入的特征图谱为(H×W×C),其中H和W代表高和宽,C代表通道的个数;对于底部特征L1,首先经过3×3的卷积层进行特征降维,将维度从512降到256,对于检测特征P2,经过2×2的反卷积操作,在扩大特征图谱同时也进行了降维的操作,得到的输出为(40×40×256);然后将上述输出进行eltwise sum操作,得到融合后的特征图谱T1亦为(40×40×256);最后将注意力掩模模块同T1融合以增加注意力信息,经过relu层后得到的检测特征P1可应用于多分类和回归操作。
CN201910204836.6A 2019-03-18 2019-03-18 一种基于注意力掩模融合的全卷积目标检测方法 Active CN111723829B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910204836.6A CN111723829B (zh) 2019-03-18 2019-03-18 一种基于注意力掩模融合的全卷积目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910204836.6A CN111723829B (zh) 2019-03-18 2019-03-18 一种基于注意力掩模融合的全卷积目标检测方法

Publications (2)

Publication Number Publication Date
CN111723829A true CN111723829A (zh) 2020-09-29
CN111723829B CN111723829B (zh) 2022-05-06

Family

ID=72563160

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910204836.6A Active CN111723829B (zh) 2019-03-18 2019-03-18 一种基于注意力掩模融合的全卷积目标检测方法

Country Status (1)

Country Link
CN (1) CN111723829B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112418271A (zh) * 2020-10-28 2021-02-26 北京迈格威科技有限公司 一种目标检测方法、装置、系统及存储介质
CN112494063A (zh) * 2021-02-08 2021-03-16 四川大学 一种基于注意力机制神经网络的腹部淋巴结分区方法
CN112819073A (zh) * 2021-02-01 2021-05-18 上海明略人工智能(集团)有限公司 分类网络训练、图像分类方法、装置和电子设备
CN112906718A (zh) * 2021-03-09 2021-06-04 西安电子科技大学 一种基于卷积神经网络的多目标检测方法
CN113076962A (zh) * 2021-05-14 2021-07-06 电子科技大学 一种基于可微神经网络搜索技术的多尺度目标检测方法
CN113255700A (zh) * 2021-06-10 2021-08-13 展讯通信(上海)有限公司 图像的特征图的处理方法及装置、存储介质、终端
CN115861855A (zh) * 2022-12-15 2023-03-28 福建亿山能源管理有限公司 一种光伏电站的运维监测方法及系统

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101651772A (zh) * 2009-09-11 2010-02-17 宁波大学 一种基于视觉注意的视频感兴趣区域的提取方法
CN103345763A (zh) * 2013-06-25 2013-10-09 西安理工大学 一种基于多尺度可变块的运动注意力计算方法
CN104050685A (zh) * 2014-06-10 2014-09-17 西安理工大学 基于粒子滤波视觉注意力模型的运动目标检测方法
US20140264034A1 (en) * 2013-03-14 2014-09-18 Qualcomm Mems Technologies, Inc. Near-field optical sensing system
CN107918776A (zh) * 2017-11-01 2018-04-17 中国科学院深圳先进技术研究院 一种基于机器视觉的用地规划方法、系统及电子设备
CN108062525A (zh) * 2017-12-14 2018-05-22 中国科学技术大学 一种基于手部区域预测的深度学习手部检测方法
CN108510012A (zh) * 2018-05-04 2018-09-07 四川大学 一种基于多尺度特征图的目标快速检测方法
CN108648197A (zh) * 2018-04-12 2018-10-12 天津大学 一种基于图像背景掩膜的目标候选区域提取方法
CN109102502A (zh) * 2018-08-03 2018-12-28 西北工业大学 基于三维卷积神经网络的肺结节检测方法
CN109145769A (zh) * 2018-08-01 2019-01-04 辽宁工业大学 融合图像分割特征的目标检测网络设计方法
CN109376576A (zh) * 2018-08-21 2019-02-22 中国海洋大学 基于交替更新密集连通从零训练网络的目标检测方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101651772A (zh) * 2009-09-11 2010-02-17 宁波大学 一种基于视觉注意的视频感兴趣区域的提取方法
US20140264034A1 (en) * 2013-03-14 2014-09-18 Qualcomm Mems Technologies, Inc. Near-field optical sensing system
CN103345763A (zh) * 2013-06-25 2013-10-09 西安理工大学 一种基于多尺度可变块的运动注意力计算方法
CN104050685A (zh) * 2014-06-10 2014-09-17 西安理工大学 基于粒子滤波视觉注意力模型的运动目标检测方法
CN107918776A (zh) * 2017-11-01 2018-04-17 中国科学院深圳先进技术研究院 一种基于机器视觉的用地规划方法、系统及电子设备
CN108062525A (zh) * 2017-12-14 2018-05-22 中国科学技术大学 一种基于手部区域预测的深度学习手部检测方法
CN108648197A (zh) * 2018-04-12 2018-10-12 天津大学 一种基于图像背景掩膜的目标候选区域提取方法
CN108510012A (zh) * 2018-05-04 2018-09-07 四川大学 一种基于多尺度特征图的目标快速检测方法
CN109145769A (zh) * 2018-08-01 2019-01-04 辽宁工业大学 融合图像分割特征的目标检测网络设计方法
CN109102502A (zh) * 2018-08-03 2018-12-28 西北工业大学 基于三维卷积神经网络的肺结节检测方法
CN109376576A (zh) * 2018-08-21 2019-02-22 中国海洋大学 基于交替更新密集连通从零训练网络的目标检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
崔康宁: "岩屑荧光系统下砂岩目标的识别与分类", 《微型机与应用》 *
张建兴: "基于注意力的目标识别算法及在移动机器人的应用研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112418271A (zh) * 2020-10-28 2021-02-26 北京迈格威科技有限公司 一种目标检测方法、装置、系统及存储介质
CN112819073A (zh) * 2021-02-01 2021-05-18 上海明略人工智能(集团)有限公司 分类网络训练、图像分类方法、装置和电子设备
CN112494063A (zh) * 2021-02-08 2021-03-16 四川大学 一种基于注意力机制神经网络的腹部淋巴结分区方法
CN112494063B (zh) * 2021-02-08 2021-06-01 四川大学 一种基于注意力机制神经网络的腹部淋巴结分区方法
CN112906718A (zh) * 2021-03-09 2021-06-04 西安电子科技大学 一种基于卷积神经网络的多目标检测方法
CN112906718B (zh) * 2021-03-09 2023-08-22 西安电子科技大学 一种基于卷积神经网络的多目标检测方法
CN113076962A (zh) * 2021-05-14 2021-07-06 电子科技大学 一种基于可微神经网络搜索技术的多尺度目标检测方法
CN113255700A (zh) * 2021-06-10 2021-08-13 展讯通信(上海)有限公司 图像的特征图的处理方法及装置、存储介质、终端
CN115861855A (zh) * 2022-12-15 2023-03-28 福建亿山能源管理有限公司 一种光伏电站的运维监测方法及系统
CN115861855B (zh) * 2022-12-15 2023-10-24 福建亿山能源管理有限公司 一种光伏电站的运维监测方法及系统

Also Published As

Publication number Publication date
CN111723829B (zh) 2022-05-06

Similar Documents

Publication Publication Date Title
CN111723829B (zh) 一种基于注意力掩模融合的全卷积目标检测方法
CN109584248B (zh) 基于特征融合和稠密连接网络的红外面目标实例分割方法
AU2019101133A4 (en) Fast vehicle detection using augmented dataset based on RetinaNet
Wang et al. Data-driven based tiny-YOLOv3 method for front vehicle detection inducing SPP-net
CN106845487B (zh) 一种端到端的车牌识别方法
CN110321910B (zh) 面向点云的特征提取方法、装置及设备
CN108898620B (zh) 基于多重孪生神经网络与区域神经网络的目标跟踪方法
CN111310861A (zh) 一种基于深度神经网络的车牌识别和定位方法
KR102224253B1 (ko) 심층 네트워크와 랜덤 포레스트가 결합된 앙상블 분류기의 경량화를 위한 교사-학생 프레임워크 및 이를 기반으로 하는 분류 방법
CN112949673A (zh) 一种基于全局注意力的特征融合目标检测与识别方法
CN111046821B (zh) 一种视频行为识别方法、系统及电子设备
CN111191583A (zh) 基于卷积神经网络的空间目标识别系统及方法
CN110929593A (zh) 一种基于细节辨别区别的实时显著性行人检测方法
CN111814874A (zh) 一种用于点云深度学习的多尺度特征提取增强方法及模块
CN116188999B (zh) 一种基于可见光和红外图像数据融合的小目标检测方法
CN111898432A (zh) 一种基于改进YOLOv3算法的行人检测系统及方法
CN111768415A (zh) 一种无量化池化的图像实例分割方法
CN111767860A (zh) 一种通过卷积神经网络实现图像识别的方法及终端
CN112418261B (zh) 一种基于先验原型注意力机制的人体图像多属性分类方法
CN113159067A (zh) 一种基于多粒度局部特征软关联聚合的细粒度图像辨识方法及装置
CN115631369A (zh) 一种基于卷积神经网络的细粒度图像分类方法
CN115294563A (zh) 一种基于Transformer的增强了局部语义学习能力的3D点云分析方法及装置
CN112329861A (zh) 一种面向移动机器人多目标检测的分层特征融合方法
EP3352112A1 (en) Architecture adapted for recognising a category of an element from at least one image of said element
CN111199255A (zh) 基于darknet53网络的小目标检测网络模型及检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant