CN109492636B - 基于自适应感受野深度学习的目标检测方法 - Google Patents

基于自适应感受野深度学习的目标检测方法 Download PDF

Info

Publication number
CN109492636B
CN109492636B CN201811154088.7A CN201811154088A CN109492636B CN 109492636 B CN109492636 B CN 109492636B CN 201811154088 A CN201811154088 A CN 201811154088A CN 109492636 B CN109492636 B CN 109492636B
Authority
CN
China
Prior art keywords
boxes
rois
network
anchor
pixel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811154088.7A
Other languages
English (en)
Other versions
CN109492636A (zh
Inventor
汪晓妍
钟幸宇
黄晓洁
刘震杰
顾政
祝骋路
毛立朝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN201811154088.7A priority Critical patent/CN109492636B/zh
Publication of CN109492636A publication Critical patent/CN109492636A/zh
Application granted granted Critical
Publication of CN109492636B publication Critical patent/CN109492636B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Image Analysis (AREA)

Abstract

一种基于自适应感受野深度学习的目标检测方法,包括以下步骤:步骤1:在网上采集图片作为数据集;步骤2:对采集到的图片进行预处理;步骤3:对采集到的图片按照设定的比例进行划分;步骤4:将训练集输入到网络中,进行训练;步骤5:在基底网络提取特征的基础上,用一个浅层的网络进行预测;步骤6:在基底网络提取特征的基础上,使用RPN网络提取ROIs;步骤7:将步骤5预测到结果作用到步骤6提取到的ROIs上;步骤8:将步骤7面积调整后的ROIs进行区域归一化操作;步骤9:将步骤8的结果分别输入到两个全连接层中,分别进行ROIs位置的回归训练以及ROIs的分类训练。本发明提高深度神经网络的性能。

Description

基于自适应感受野深度学习的目标检测方法
技术领域
本发明涉及计算机人工智能技术领域,特别涉及一种基于自适应感受野深度学习的目标检测方法。
技术背景
随着人工智能领域深度学习的快速发展,计算机视觉越来越多的领域受到了巨大的机遇和挑战。很多计算机视觉任务如分割,分类,识别检测等在性能上取得了巨大的进步和提高,如在分类任务中,神经网络的分类准确率已经超过人类。在目标检测领域,深度学习的算法性能也远超传统的目标检测方法。
在卷积神经网络中,感受野起着非常重要的作用。感受野是指卷积神经网络结构中,某个特征映射到输入空间的区域大小。对于某一特征的感受野,可以通过它的中心位置和它的尺寸大小来描述。感受野越大,那么其对应的全局文本信息和语义信息越丰富,这有助神经网络对物体之间的关系进行推断;但是感受野越大,那么其对应的计算量就越大。反之,感受野越小,则其对应的特征就比较局部,图像的细节特征比较丰富。
无论是在基于深度学习的语义分割任务中,还是在目标检测任务中,感受野大小的选取直接影响着深度神经网络的性能。科研人员们对感受野的重视程度越来越高,因此如何对感受野大小的进行选择也是一个热门的研究课题。
发明内容
为了克服如何选择感受野的大小使网络性能最优化这个问题,本发明提出一种基于自适应感受野深度学习的目标检测方法,在目标检测任务中可以根据具体的物体对象自适应的调整感受野的大小,从而提高深度神经网络的性能。
本发明解决其技术问题所采用的技术方案是:
一种基于自适应感受野深度学习的目标检测方法,所述的方法包括以下步骤:
步骤1:在网上采集图片作为数据集;
步骤2:对采集到的图片进行预处理,包括随机的裁剪、翻转以及尺寸的归一化;
步骤3:对采集到的图片按照设定的比例进行划分,分为训练集和验证集;
步骤4:将训练集输入到网络中,进行训练,选取ResNet,DenseNet作为基底网络进行特征的提取;
步骤5:在基底网络提取特征的基础上,用一个浅层的网络进行预测,预测的结果维数为二维(N*5)其中N为ROIS的数量,5是指1个比率r,以及左上和右下的偏移信息,比率r的作用是计算众数的区间;
步骤6:在基底网络提取特征的基础上,使用RPN网络提取ROIs;
步骤7:将步骤5预测到结果作用到步骤6提取到的ROIs上,即将步骤5预测的左上角偏移和右下角偏移作用在ROIs的左上角和右下角的的坐标上,通过调整ROIs的面积,从而调整Proposals所对应的感受野的面积;
步骤8:将步骤7面积调整后的ROIs进行区域归一化操作,选取每个区域内落在某个像素值区内像素值的平均值作为输出,区间的选取是根据区间内像素的数量,选取像素数量最多的区间作为最优的区间;
步骤9:将步骤8的结果分别输入到两个全连接层中,分别进行ROIs位置的回归训练以及ROIs的分类训练。
本发明的有益效果表现在:在目标检测任务中可以根据具体的物体对象自适应的调整感受野的大小,从而提高深度神经网络的性能。
附图说明
图1是检测的整体框的示意图。
图2是计算像素值区间流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方案并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
参照图1和图2,一种基于自适应感受野深度学习的目标检测方法,所述的方法包括以下步骤:
步骤1:在网上采集图片作为数据集;
步骤2:对采集到的图片进行预处理,包括随机的裁剪、翻转(左右翻转,上下翻转)以及图片尺寸大小的归一化处理;
步骤3:对采集到的图片,按照设定的比率进行划分,分为训练集和验证集(比如按照3:1等,这个根据实际情况进行选择);
步骤4:将训练集输入到深度神经网络中,提取特征;可以选取预训练的ResNet,DenseNet等,具体的层数可以根据实际情况选取,比如ResNet-50,ResNet-101等;比如数据集的数量比较少,则应该选取浅层的网络,这样网络的参数的数量相对比较少,可以防止过拟合;由于网络是预训练的,故网络卷积核的初始参数(权值w和偏差b)已经给出,使用预训练模型的好处是可以加快收敛速度,提高网络的准确率;
步骤5:在步骤4基底网络的基础上,加入一个浅层的网络,网络的结构为一层卷积层,一层激活层,以及池化层,其中卷积层的参数选择为3*3的卷积核大小,卷积核的权值有高斯分布给出,高斯分布的均值为0,方差为0.001;卷积核的数量为N*5,其中N为ROIs的数量,5的含义为1个比率r和Proposals的左上角和右下角的偏移坐标,以此来调整ROIs对应的感受野的大小;激活层选取的是LeakyReLU(Leaky Rectified Linear Unit)激活函数。Pooling层的作用是降维;
步骤6:将步骤4的结果输入到RPN网络中,RPN网络的主要有三个卷积,首先第一个大小为3*3数量为512的卷积进行提取特征,另外1个大小为1*1的卷积进行Anchor-box的偏移的预测,卷积核的数量为4*N(其中4指的是Anchor-boxes相对于ground-truth的偏移,N为Anchor-boxes的数量);另外一个大小为1*1的卷积核进行Anchor-boxes类别的预测,卷积核的数量为2*N(2是指类别数量,这里预测的类别为是否为背景,N是Anchor-boxes的数量)。以上3个卷积权值参数均有均值为0,方差为0.001的高斯分布给出;Anchor-boxes由如下方式产生:对featuremap每个像素点按照一定的尺寸大小和比率大小产生,比如选取3个尺寸大小,3个比率大小,则每个像素点会产生9个不同大小的Anchor-boxes;将预测到的Anchor-boxes的偏移作用到Anchor-boxes得到Proposal-boxes;根据Proposal-boxes的Score,利用非极大值抑制(NMS)筛选出最终的ROIs;其中Score的计算方法如下:根据Proposal-boxes与ground-truth的overlap(重叠面积比率)得出。NMS即为选取score保留最高的boxes,其他boxes与score最高的boxes的面积的比若大于预先设定的阈值,则去除该box,反之则保留;
步骤7:将步骤5预测的结果作用到ROIs上,其中将步骤5预测的左上角和右下角的位置偏移和ROIs的左上角和右下角的坐标相加,这样RPN(Region Proposal Network)预测的ROIs的区域就会发生改变,ROIs所对应的感受野就会进行调整,则该网络可以根据是否需要全局文本信息进行调整ROIs的面积大小;
步骤8:由与全连接层的输入是固定的大小,而每个ROIs的大小不一致,因此需要将ROIs进行归一化处理(即为ROIPooling),但与ROIPooling操作不同的是,不采取每个区域的最大值作为输出,而是选取每个区域内落在某个像素值区内像素值的平均值作为输出,区间的选取是根据区间内像素的数量,选取像素数量最多的区间作为最优的区间;
根据步骤5预测的比率r和像素值大小进行区间的选取,方法为:迭代每个像素,每个像素的区间的像素值P乘以比率r得到差值α,区间的左值为像素值减去差值α,区间的右值为像素值加上去差值α,得到像素值区间为[P-α,P+α];选择区间内像素数量最多的区间为最终的区间,对所选区间内的像素值取平均值,将该平均值作为该区域的输出。在进行反向传播时,将该平均值作为每个像素位置的像素值;
步骤9:将步骤8的结果分别输入到两个全连接层中,分别进行ROIs位置的回归训练以及ROIs的分类训练;其中全连接层的参数设定,根据实际情况来选取。比如分类的类别为21类,则分类全连接层的数量为21,另外一个全连接层为4*21。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所做的的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (2)

1.一种基于自适应感受野深度学习的目标检测方法,其特征在于,所述的方法包括以下步骤:
步骤1:在网上采集图片作为数据集;
步骤2:对采集到的图片进行预处理,包括随机的裁剪、翻转以及尺寸的归一化;
步骤3:对采集到的图片按照设定的比例进行划分,分为训练集和验证集;
步骤4:将训练集输入到网络中,进行训练,选取ResNet,DenseNet作为基底网络进行特征的提取;
步骤5:在基底网络提取特征的基础上,用一个浅层的网络进行预测,预测的结果维数为二维,即N*5;其中,N为ROIs的数量,5是指1个比率r,以及左上和右下的偏移信息,比率r的作用是计算众数的区间;
步骤6:在基底网络提取特征的基础上,使用RPN网络提取ROIs;
步骤7:将步骤5预测到结果作用到步骤6提取到的ROIs上,即将步骤5预测的左上角偏移和右下角偏移作用在ROIs的左上角和右下角的坐标上,通过调整ROIs的面积,从而调整Proposals所对应的感受野的面积;
步骤8:将步骤7面积调整后的ROIs进行区域归一化操作,选取每个区域内落在某个像素值区内像素值的平均值作为输出,区间的选取是根据区间内像素的数量,选取像素数量最多的区间作为最优的区间;
步骤9:将步骤8的结果分别输入到两个全连接层中,分别进行ROIs位置的回归训练以及ROIs的分类训练;
所述步骤6中,将步骤4的结果输入到RPN网络中,RPN网络的主要有三个卷积,首先第一个大小为3*3数量为512的卷积进行提取特征,另外1个大小为1*1的卷积进行Anchor-box的偏移的预测,卷积核的数量为4*M,其中4指的是Anchor-boxes相对于ground-truth的偏移,M为Anchor-boxes的数量;另外一个大小为1*1的卷积核进行Anchor-boxes类别的预测,卷积核的数量为2*M,2是指类别数量,这里预测的类别为是否为背景,M是Anchor-boxes的数量;以上3个卷积权值参数均由均值为0,方差为0.001的高斯分布给出;Anchor-boxes由如下方式产生:对featuremap每个像素点按照尺寸大小和比率大小产生,选取3个尺寸大小,3个比率大小,则每个像素点会产生9个不同大小的Anchor-boxes;将预测到的Anchor-boxes的偏移作用到Anchor-boxes得到Proposal-boxes;根据Proposal-boxes的Score,利用非极大值抑制(NMS)筛选出最终的ROIs;其中Score的计算方法如下:根据Proposal-boxes与ground-truth的重叠面积比率overlap得出;NMS即为选取Score保留最高的boxes,其他boxes与Score最高的boxes的面积的比若大于预先设定的阈值,则去除该box,反之则保留。
2.如权利要求1所述的一种基于自适应感受野深度学习的目标检测方法,其特征在于,所述步骤8中,根据步骤5预测的比率r和像素值大小进行区间的选取,方法为:迭代每个像素,每个像素的区间的像素值P乘以比率r得到差值α,区间的左值为像素值减去差值α,区间的右值为像素值加上去差值α,得到像素值区间为[P-α,P+α];选择区间内像素数量最多的区间为最终的区间,对所选区间内的像素值取平均值,将该平均值作为该区域的输出,在进行反向传播时,将该平均值作为每个像素位置的像素值。
CN201811154088.7A 2018-09-30 2018-09-30 基于自适应感受野深度学习的目标检测方法 Active CN109492636B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811154088.7A CN109492636B (zh) 2018-09-30 2018-09-30 基于自适应感受野深度学习的目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811154088.7A CN109492636B (zh) 2018-09-30 2018-09-30 基于自适应感受野深度学习的目标检测方法

Publications (2)

Publication Number Publication Date
CN109492636A CN109492636A (zh) 2019-03-19
CN109492636B true CN109492636B (zh) 2021-08-03

Family

ID=65689366

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811154088.7A Active CN109492636B (zh) 2018-09-30 2018-09-30 基于自适应感受野深度学习的目标检测方法

Country Status (1)

Country Link
CN (1) CN109492636B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110046572A (zh) * 2019-04-15 2019-07-23 重庆邮电大学 一种基于深度学习的地标建筑物识别与检测方法
CN112906687A (zh) * 2019-12-03 2021-06-04 上海智臻智能网络科技股份有限公司 图片文字定位方法、装置、计算机设备和存储介质
CN113569878B (zh) * 2020-04-28 2024-03-01 南京行者易智能交通科技有限公司 一种基于分数图的目标检测模型训练方法及目标检测方法
CN111860175B (zh) * 2020-06-22 2021-10-29 中国科学院空天信息创新研究院 一种基于轻量化网络的无人机影像车辆检测方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107229904A (zh) * 2017-04-24 2017-10-03 东北大学 一种基于深度学习的目标检测与识别方法
CN108520273A (zh) * 2018-03-26 2018-09-11 天津大学 一种基于目标检测的稠密小商品快速检测识别方法
CN108537775A (zh) * 2018-03-02 2018-09-14 浙江工业大学 一种基于深度学习检测的癌细胞跟踪方法
CN108550133A (zh) * 2018-03-02 2018-09-18 浙江工业大学 一种基于Faster R-CNN的癌细胞检测方法
CN108564097A (zh) * 2017-12-05 2018-09-21 华南理工大学 一种基于深度卷积神经网络的多尺度目标检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107229904A (zh) * 2017-04-24 2017-10-03 东北大学 一种基于深度学习的目标检测与识别方法
CN108564097A (zh) * 2017-12-05 2018-09-21 华南理工大学 一种基于深度卷积神经网络的多尺度目标检测方法
CN108537775A (zh) * 2018-03-02 2018-09-14 浙江工业大学 一种基于深度学习检测的癌细胞跟踪方法
CN108550133A (zh) * 2018-03-02 2018-09-18 浙江工业大学 一种基于Faster R-CNN的癌细胞检测方法
CN108520273A (zh) * 2018-03-26 2018-09-11 天津大学 一种基于目标检测的稠密小商品快速检测识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks;Shaoqing Ren等;《IEEE Transactions on Pattern Analysis and Machine Intelligence》;20170601;第39卷(第6期);第1137-1149页 *

Also Published As

Publication number Publication date
CN109492636A (zh) 2019-03-19

Similar Documents

Publication Publication Date Title
CN109492636B (zh) 基于自适应感受野深度学习的目标检测方法
CN110335290B (zh) 基于注意力机制的孪生候选区域生成网络目标跟踪方法
CN110929578B (zh) 一种基于注意力机制的抗遮挡行人检测方法
CN111027493B (zh) 一种基于深度学习多网络软融合的行人检测方法
CN108846826B (zh) 物体检测方法、装置、图像处理设备及存储介质
CN109977774B (zh) 一种基于自适应卷积的快速目标检测方法
CN110633745A (zh) 一种基于人工智能的图像分类训练方法、装置及存储介质
CN109214353B (zh) 一种基于剪枝模型的人脸图像快速检测训练方法和装置
JP2007249852A (ja) 情報処理装置および方法、記録媒体、並びにプログラム
CN107492103A (zh) 基于自适应粒子群算法的灰度阈值获取方法、图像分割方法
CN109948457B (zh) 基于卷积神经网络和cuda加速的实时目标识别方法
Wiranata et al. Investigation of padding schemes for faster R-CNN on vehicle detection
JP7215390B2 (ja) 路上障害物検知装置、路上障害物検知方法、及び路上障害物検知プログラム
CN112884033B (zh) 一种基于卷积神经网络的生活垃圾分类检测方法
WO2021238586A1 (zh) 一种训练方法、装置、设备以及计算机可读存储介质
CN111241924B (zh) 基于尺度估计的人脸检测及对齐方法、装置、存储介质
CN111046923B (zh) 一种基于边界框的图像目标检测方法、装置及存储介质
CN111104831B (zh) 一种视觉追踪方法、装置、计算机设备以及介质
CN113065379B (zh) 融合图像质量的图像检测方法、装置、电子设备
Tarasiewicz et al. Skinny: A lightweight U-Net for skin detection and segmentation
CN111950389A (zh) 一种基于轻量级网络的深度二值特征人脸表情识别方法
CN113744262A (zh) 一种基于GAN和YOLO-v5的目标分割检测方法
CN117058235A (zh) 跨多种室内场景的视觉定位方法
CN111898454A (zh) 权重二值化神经网络与迁移学习人眼状态检测方法及设备
CN114359742B (zh) 一种优化小目标检测的加权损失函数计算方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant