CN110110719A - 一种基于注意层区域卷积神经网络的目标检测方法 - Google Patents

一种基于注意层区域卷积神经网络的目标检测方法 Download PDF

Info

Publication number
CN110110719A
CN110110719A CN201910238640.9A CN201910238640A CN110110719A CN 110110719 A CN110110719 A CN 110110719A CN 201910238640 A CN201910238640 A CN 201910238640A CN 110110719 A CN110110719 A CN 110110719A
Authority
CN
China
Prior art keywords
characteristic pattern
network
feature
object detection
residual error
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910238640.9A
Other languages
English (en)
Inventor
汪晓妍
钟幸宇
黄晓洁
夏明�
毛立朝
陈胜勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN201910238640.9A priority Critical patent/CN110110719A/zh
Publication of CN110110719A publication Critical patent/CN110110719A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

一种基于注意层区域卷积神经网络的目标检测方法,包括以下步骤:步骤1:数据集的采集与制作;步骤2:数据增强,增强网络的泛化能力;步骤3:将数据集输入到深度神经网络进行训练,选取深度残差网络或其变体;步骤4:输出深度残差网络前三个残差块的特征图;步骤5:对残差网络的第四个残差块后置一个权值模块,预测的结果来抑制作用不大的特征图,强化作用大的特征图;步骤6:将融合后的特征图与深度残差网络的第四个残差块叠加在一起,将感兴趣区域ROI映射到叠加的特征图上;步骤7:将感兴趣区域ROI对应的特征进行类别的分类和位置坐标的回归。本发明解决了目标的多尺度问题,目标检测的性能有了较好的提高。

Description

一种基于注意层区域卷积神经网络的目标检测方法
技术领域
本发明涉及计算机视觉人工智能技术领域。特别涉及一种基于融合特征图(Feature Map)的目标检测方法。
技术背景
随着人工智能领域深度学习的快速发展,计算机视觉越来越多的领域受到了巨大的机遇和挑战。很多计算机视觉任务如分割,分类,识别检测等在性能上取得了巨大的进步和提高,如在分类任务中,神经网络的分类准确率已经超过人类。在目标检测领域,深度学习的算法性能也远超传统的目标检测方法。
目标检测主要是由目标识别和目标定位两部分组成,然而由于目标识别更注重语义信息,其应具有移动不变性(图像中对象位置移动,其识别类别不变);而目标定位更注重位置信息,其应具有移动可变性(图像中对象位置移动,其检测到的位置也随之移动),因此目标识别和目标定位之间存在矛盾。然而深度神经网络随着下采样,特征图的尺寸变小,因此位置信息会有损失。为了弥补位置信息损失,许多目标检测的网络将不同尺度的特征图用跳跃连接(skip connection)结合起来,以此来获得更优的目标检测性能。
由于不同的特征图具有不同的特点,尺寸大的特征图主要表示低级特征,如边缘特征,尺寸小的特征图主要表示高级特征。如何融合不同尺度的特征图受到科研人员的的重视程度越来越高,因此如何融合不同尺度的特征图是一个非常有意义的的研究课题。
发明内容
为了综合利用不同特征图(Feature Map)的特点,本发明提出一种利用不同特征图特点,来获取包含更优位置信息与语义信息的特征图的方法,由于利用了不同尺度的特征图,因此也较好的解决了目标的多尺度问题,目标检测的性能有了较好的提高,整个目标检测框架主要包含两个部分,一个部分为常规的目标检测系统,另一个部分为注意力层(Attention Layer Part)模块,其中注意力层模块的作用是根据训练到的来强化有用的特征而抑制无用的特征,以此来得到更有的特征图。
本发明解决其技术问题所采用的技术方案是:
一种基于注意层区域卷积神经网络的目标检测方法,所述的方法包括以下步骤:
步骤1:数据集的采集与制作;
步骤2:数据增强,增强网络的泛化能力;
步骤3:将数据集输入到深度神经网络进行训练,选取深度残差网络(ResNet)或其变体;
步骤4:输出深度残差网络前三个残差块的特征图;
步骤5:对残差网络的第四个残差块后置一个权值模块,预测的结果来抑制作用不大的特征图,强化作用大的特征图;
步骤6:将融合后的特征图与深度残差网络的第四个残差块叠加在一起,将感兴趣区域ROI(Region Of Interesting)映射到叠加的特征图上;
步骤7:将感兴趣区域ROI对应的特征进行类别的分类和位置坐标的回归。
本发明的有益效果表现:在目标检测任务中可以利用不同特点的特征图进行融合来获取更优的特征图,提高分类与定位的精度,从而提升深度神经网络的性能。
附图说明
图1是目标检测的整体框架的示意图。
图2是权值模块的结构图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方案并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
参照图1和图2,一种基于注意层区域卷积神经网络的目标检测方法包括一下步骤:
步骤1:数据集的采集与制作,并按一定的比率进行划分训练集与测试集。然后对训练集划为K份(如K=5)进行交叉验证(Cross Validation)。
步骤2:对数据集进行数据增强,如对数据进行旋转(包括左右翻转,上下翻转),对图像随机加噪(如高斯噪音,椒盐噪音)。
步骤3:将训练集输入到深度神经网络中,提取特征;可以选取预训练的深度残差网络ResNet或其变体(如ResNeXt,DenseNet等),具体的层数可以根据实际情况选取,比如ResNet-50,ResNet-101等;比如数据集的数量比较少,则应该选取浅层的网络,这样网络的参数的数量相对比较少,可以防止过拟合;由于网络是预训练的,因此网络卷积核的初始参数(权值w和偏差b)已经给出,使用预训练模型的好处是可以加快收敛速度,提高网络的准确率。
步骤4:如图1所示,当数据输入到预训练的预训练基底网络(BackBone Network)中时,输出深度残差网络前三个残差块的特征图,为使不同大小的特征图能融合在一起,需要对这些特征图进行双线性插值,插值之后使用大小为1×1的卷积核进行卷积,其目的是对其进行正则化(Normalization),加快随机梯度下降法模型的收敛速度。
步骤5:如图1所示,深度残差网络的第四个残差块后置一个权值模块,其作用是抑制无有的特征,强化有用的特征。权值模块如图2所示:其由一个池化层(Pooling Layer),两个全连接层(Fully Connected Layer)和两个激活函数(Activation Function)组成。特征图首先经过池化层将H×W大小的的特征图下采样(subsample)到1x1大小的特征图,然后经过一个全连接层之后,使用ReLU(Rectified Linear Unit)非线性激活函数:
f(x)=max(0,x) (1)
使其具有求解线性不可分的能力。然后经过一个全连接层和Sigmoid非线性激活函数:
将最终输出为大小为[0,1]区间的值。将预测的结果与步骤4的结果相乘之后,使用Element-Wise相加,得到最终融合的特征图。
步骤6:将融合之后的特征图与深度残差网络第四个残差块叠加在一起,然后利用RPN(Region Proposal Network)得到的坐标,将对应感兴趣区域的特征进行ROIPooling操作,使得不同大小的感兴趣区域的尺寸一样。
步骤7:将步骤6的结果分别输入两个全连接层,分别进行位置的回归训练以及类别的分类操作,其中全连接层的参数设定,根据实际情况来选取。比如分类的类别为21类,则分类全连接层的数量为21,另外一个全连接层为4*21。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所做的的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (8)

1.一种基于注意层区域卷积神经网络的目标检测方法,其特征在于,所述的方法包括以下步骤:
步骤1:数据集的采集与制作;
步骤2:数据增强,增强网络的泛化能力;
步骤3:将数据集输入到深度神经网络进行训练,选取深度残差网络(ResNet)或其变体;
步骤4:输出深度残差网络前三个残差块的特征图;
步骤5:对残差网络的第四个残差块后置一个权值模块,预测的结果来抑制作用不大的特征图,强化作用大的特征图;
步骤6:将融合后的特征图与深度残差网络的第四个残差块叠加在一起,将感兴趣区域ROI(Region Of Interesting)映射到叠加的特征图上;
步骤7:将感兴趣区域ROI对应的特征进行类别的分类和位置坐标的回归。
2.如权利要求1所述的一种基于注意层区域卷积神经网络的目标检测方法,其特征在于,所述步骤1中,并按一定的比率进行划分训练集与测试集。然后对训练集划为K份进行交叉验证。
3.如权利要求1或2所述的一种基于注意层区域卷积神经网络的目标检测方法,其特征在于,所述步骤2中,对数据集进行数据增强,如对数据进行旋转,对图像随机加噪。
4.如权利要求1或2所述的一种基于注意层区域卷积神经网络的目标检测方法,其特征在于,所述步骤3:将训练集输入到深度神经网络中,提取特征;可以选取预训练的深度残差网络ResNet或其变体,层数可以根据实际情况选取;由于网络是预训练的,因此网络卷积核的初始参数已经给出。
5.如权利要求1或2所述的一种基于注意层区域卷积神经网络的目标检测方法,其特征在于,所述步骤4,当数据输入到预训练的预训练基底网络中时,输出深度残差网络前三个残差块的特征图,为使不同大小的特征图能融合在一起,需要对这些特征图进行双线性插值,插值之后使用大小为1×1的卷积核进行卷积,其目的是对其进行正则化,加快随机梯度下降法模型的收敛速度。
6.如权利要求1或2所述的一种基于注意层区域卷积神经网络的目标检测方法,其特征在于,所述步骤5,深度残差网络的第四个残差块后置一个权值模块,其作用是抑制无有的特征,强化有用的特征,权值模块由一个池化层,两个全连接层和两个激活函数组成,特征图首先经过池化层将H×W大小的的特征图下采样到1x1大小的特征图,然后经过一个全连接层之后,使用ReLU非线性激活函数:
f(x)=max(0,x) (1)
使其具有求解线性不可分的能力,然后经过一个全连接层和Sigmoid非线性激活函数:
将最终输出为大小为[0,1]区间的值,将预测的结果与步骤4的结果相乘之后,使用Element-Wise相加,得到最终融合的特征图。
7.如权利要求1或2所述的一种基于注意层区域卷积神经网络的目标检测方法,其特征在于,所述步骤6中,将融合之后的特征图与深度残差网络第四个残差块叠加在一起,然后利用RPN得到的坐标,将对应感兴趣区域的特征进行ROIPooling操作,使得不同大小的感兴趣区域的尺寸一样。
8.如权利要求1或2所述的一种基于注意层区域卷积神经网络的目标检测方法,其特征在于,所述步骤7中,将步骤6的结果分别输入两个全连接层,分别进行位置的回归训练以及类别的分类操作,其中全连接层的参数设定,根据实际情况来选取。
CN201910238640.9A 2019-03-27 2019-03-27 一种基于注意层区域卷积神经网络的目标检测方法 Pending CN110110719A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910238640.9A CN110110719A (zh) 2019-03-27 2019-03-27 一种基于注意层区域卷积神经网络的目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910238640.9A CN110110719A (zh) 2019-03-27 2019-03-27 一种基于注意层区域卷积神经网络的目标检测方法

Publications (1)

Publication Number Publication Date
CN110110719A true CN110110719A (zh) 2019-08-09

Family

ID=67484628

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910238640.9A Pending CN110110719A (zh) 2019-03-27 2019-03-27 一种基于注意层区域卷积神经网络的目标检测方法

Country Status (1)

Country Link
CN (1) CN110110719A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110544249A (zh) * 2019-09-06 2019-12-06 华南理工大学 一种面向任意角度机箱装配视觉检测的卷积神经网络质量鉴别方法
CN110826558A (zh) * 2019-10-28 2020-02-21 桂林电子科技大学 图像分类方法、计算机设备和存储介质
CN111079683A (zh) * 2019-12-24 2020-04-28 天津大学 基于卷积神经网络的遥感图像云雪检测方法
CN111126303A (zh) * 2019-12-25 2020-05-08 北京工业大学 一种面向智能停车的多车位检测方法
CN111242288A (zh) * 2020-01-16 2020-06-05 浙江工业大学 一种用于病变图像分割的多尺度并行深度神经网络模型构建方法
CN112036298A (zh) * 2020-08-28 2020-12-04 复旦大学附属华山医院北院 一种基于双段区块卷积神经网络的细胞检测方法
CN113012139A (zh) * 2021-03-29 2021-06-22 南京奥纵智能科技有限公司 一种用于液晶屏的导电粒子缺陷检测的深度学习算法
WO2021232172A1 (zh) * 2020-05-18 2021-11-25 陈永聪 一种可解释的多层信息筛选网络
CN114022745A (zh) * 2021-11-05 2022-02-08 光大科技有限公司 一种神经网络模型训练方法及装置
CN117523344A (zh) * 2024-01-08 2024-02-06 南京信息工程大学 一种基于相位质量加权卷积神经网络的干涉相位解缠方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107169421A (zh) * 2017-04-20 2017-09-15 华南理工大学 一种基于深度卷积神经网络的汽车驾驶场景目标检测方法
CN108510012A (zh) * 2018-05-04 2018-09-07 四川大学 一种基于多尺度特征图的目标快速检测方法
CN108985250A (zh) * 2018-07-27 2018-12-11 大连理工大学 一种基于多任务网络的交通场景解析方法
CN109033998A (zh) * 2018-07-04 2018-12-18 北京航空航天大学 基于注意力机制卷积神经网络的遥感影像地物标注方法
US20190019037A1 (en) * 2017-07-14 2019-01-17 Nec Laboratories America, Inc. Spatio-temporal interaction network for learning object interactions
CN109344821A (zh) * 2018-08-30 2019-02-15 西安电子科技大学 基于特征融合和深度学习的小目标检测方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107169421A (zh) * 2017-04-20 2017-09-15 华南理工大学 一种基于深度卷积神经网络的汽车驾驶场景目标检测方法
US20190019037A1 (en) * 2017-07-14 2019-01-17 Nec Laboratories America, Inc. Spatio-temporal interaction network for learning object interactions
CN108510012A (zh) * 2018-05-04 2018-09-07 四川大学 一种基于多尺度特征图的目标快速检测方法
CN109033998A (zh) * 2018-07-04 2018-12-18 北京航空航天大学 基于注意力机制卷积神经网络的遥感影像地物标注方法
CN108985250A (zh) * 2018-07-27 2018-12-11 大连理工大学 一种基于多任务网络的交通场景解析方法
CN109344821A (zh) * 2018-08-30 2019-02-15 西安电子科技大学 基于特征融合和深度学习的小目标检测方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
BIYIN ZHANG 等: "Fast new small-target detection algorithm based on a modified partial differential equation in infrared clutter", 《OPTICAL ENGINEERING》 *
JIE HU 等: "Squeeze-and-Excitation Networks", 《HTTPS://ARXIV.ORG/PDF/1709.01507V1.PDF》 *
张超 等: "残差网络下基于困难样本挖掘的目标检测", 《激光与光电子学进展》 *
涂新辉: "《智能信息处理与知识服务丛书 基于概念的信息检索方法》", 30 April 2015 *
陈雯柏: "《人工神经网络原理与实践》", 31 January 2016 *
高志强 等: "《深度学习 从入门到实战》", 30 June 2018 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110544249A (zh) * 2019-09-06 2019-12-06 华南理工大学 一种面向任意角度机箱装配视觉检测的卷积神经网络质量鉴别方法
CN110826558A (zh) * 2019-10-28 2020-02-21 桂林电子科技大学 图像分类方法、计算机设备和存储介质
CN111079683A (zh) * 2019-12-24 2020-04-28 天津大学 基于卷积神经网络的遥感图像云雪检测方法
CN111079683B (zh) * 2019-12-24 2023-12-12 天津大学 基于卷积神经网络的遥感图像云雪检测方法
CN111126303B (zh) * 2019-12-25 2023-06-09 北京工业大学 一种面向智能停车的多车位检测方法
CN111126303A (zh) * 2019-12-25 2020-05-08 北京工业大学 一种面向智能停车的多车位检测方法
CN111242288A (zh) * 2020-01-16 2020-06-05 浙江工业大学 一种用于病变图像分割的多尺度并行深度神经网络模型构建方法
CN111242288B (zh) * 2020-01-16 2023-06-27 浙江工业大学 一种用于病变图像分割的多尺度并行深度神经网络模型构建方法
WO2021232172A1 (zh) * 2020-05-18 2021-11-25 陈永聪 一种可解释的多层信息筛选网络
CN112036298A (zh) * 2020-08-28 2020-12-04 复旦大学附属华山医院北院 一种基于双段区块卷积神经网络的细胞检测方法
CN113012139A (zh) * 2021-03-29 2021-06-22 南京奥纵智能科技有限公司 一种用于液晶屏的导电粒子缺陷检测的深度学习算法
CN114022745A (zh) * 2021-11-05 2022-02-08 光大科技有限公司 一种神经网络模型训练方法及装置
CN117523344A (zh) * 2024-01-08 2024-02-06 南京信息工程大学 一种基于相位质量加权卷积神经网络的干涉相位解缠方法
CN117523344B (zh) * 2024-01-08 2024-03-19 南京信息工程大学 一种基于相位质量加权卷积神经网络的干涉相位解缠方法

Similar Documents

Publication Publication Date Title
CN110110719A (zh) 一种基于注意层区域卷积神经网络的目标检测方法
Zhang et al. A face emotion recognition method using convolutional neural network and image edge computing
Jain et al. Hybrid deep neural networks for face emotion recognition
Wang et al. Research on face recognition based on deep learning
Sargano et al. A comprehensive review on handcrafted and learning-based action representation approaches for human activity recognition
CN108875674B (zh) 一种基于多列融合卷积神经网络的驾驶员行为识别方法
CN110399821B (zh) 基于人脸表情识别的顾客满意度获取方法
CN111160350B (zh) 人像分割方法、模型训练方法、装置、介质及电子设备
CN107153810A (zh) 一种基于深度学习的手写体数字识别方法及系统
CN104281853A (zh) 一种基于3d卷积神经网络的行为识别方法
CN107742107A (zh) 人脸图像分类方法、装置及服务器
CN104866810A (zh) 一种深度卷积神经网络的人脸识别方法
CN106295591A (zh) 基于人脸图像的性别识别方法及装置
CN104063721B (zh) 一种基于语义特征自动学习与筛选的人类行为识别方法
CN109753950A (zh) 动态人脸表情识别方法
He et al. Automatic recognition of traffic signs based on visual inspection
CN111881731A (zh) 基于人体骨架的行为识别方法、系统、装置及介质
CN109886153A (zh) 一种基于深度卷积神经网络的实时人脸检测方法
Cai et al. MIFAD-net: multi-layer interactive feature fusion network with angular distance loss for face emotion recognition
CN114863572B (zh) 一种多通道异构传感器的肌电手势识别方法
CN111291713B (zh) 一种基于骨架的手势识别方法及系统
CN109508640A (zh) 一种人群情感分析方法、装置和存储介质
Liu et al. Lightweight ViT model for micro-expression recognition enhanced by transfer learning
Ding et al. Rethinking click embedding for deep interactive image segmentation
Meng et al. Facial expression recognition algorithm based on fusion of transformed multilevel features and improved weighted voting SVM

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190809

RJ01 Rejection of invention patent application after publication