CN111797846B - 一种基于特征金字塔网络的反馈式目标检测方法 - Google Patents
一种基于特征金字塔网络的反馈式目标检测方法 Download PDFInfo
- Publication number
- CN111797846B CN111797846B CN201910276244.5A CN201910276244A CN111797846B CN 111797846 B CN111797846 B CN 111797846B CN 201910276244 A CN201910276244 A CN 201910276244A CN 111797846 B CN111797846 B CN 111797846B
- Authority
- CN
- China
- Prior art keywords
- target
- network
- feature map
- convolution
- prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24147—Distances to closest patterns, e.g. nearest neighbour classification
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明提出了一种新颖的、稳定的单阶段目标检测方法,以提高目标检测精确度和召回率。本方法采用了残差网络和特征金字塔等目标检测技术:利用残差网络的跳跃连接不断加深目标检测模型的深度,有效提高网络的分辨能力和优化速度;利用特征金子塔网络将深层网络和浅层网络互连,使得浅层高分辨率的特征图同样包含高层级的语义信息;同时,本方法创新性的提出了一个新的关系模块,称为L2Smodule,该模块通过将顶层特征图上对大目标精确的预测结果反馈到浅层特征图上,对不同尺度的目标间的相互关系进行有效建模,从而通过相对精确的大目标的检测结果促进小目标的检测。实验结果表明本方法实现了比目前常用的顶级目标检测方法更好的检测性能。
Description
技术领域
本发明涉及一种基于深度卷积神经网络的目标检测方法,用来提高目标检测模型对图片中目标,尤其是微小目标的识别效率以及定位精度。本方法首先在深层级的特征图上对大目标进行预测,然后将预测结果反馈到浅层特征图上,相互融合之后再对微小目标进行预测,从而更好的对图片中各种尺度的目标进行识别。属于图像处理领域。
背景技术
目标检测作为计算机视觉的一项基础性工作,在行人检测、车牌识别、无人驾驶等领域都具有重要的研究价值,因而长期受到了广泛性的关注。目前,顶级的目标检测方法几乎都采用深度卷积网络的架构,并且主要划分为两个流派:一个是以faster RCNN为主导,基于候选区域范式的两阶段目标检测方法。这类检测器首先产生候选区域(regionproposals),然后对候选区域进行目标分类以及位置精修。另一个是端到端的以RetinaNet,SSD等为主导的单阶段目标检测方法,这类方法不需要region proposal阶段,而是直接产生预测目标的类别概率和位置坐标值。无论是单阶段检测方法还是两阶段检测方法,其发展和改进都是为了获得更高的检测精度以及更快的检测速度。
单阶段检测方法不需要产生region proposals的过程,因而网络模型更加简洁高效,但精度却很低。尤其是在微小目标的检测上,其精确度和召回率都远远低于RFCN等两阶段检测方法。为此,很多单检测方法尝试采用新颖的网络结构设计和一些巧妙的训练技巧去提高目标检测的精度。YOLO的衍生模型(YOLOv2,v3)利用Batch Normalization、HighResolution Classifier等一系列技巧,并产生了显著的效果。SSD的衍生模型(也就是DSSD,FSSD,ESSD)以不同的方式将各个层的特征图进行融合,然后在融合的特征图上进行预测。尽管目标检测的模型和方法发展迅速,但目前几乎所有主流的方法都独立的预测图片中的各个目标,而忽略了目标之间的相互联系。为此,本方法创新性的提出了一个全新的模块L2S-module,该模块会将深层特征图上对大目标精确的预测结果反馈到浅层特征图上,利用神经网络对不同尺度的目标间的相互关系进行建模,从而利用相对精确的大目标的检测结果促进网络对小目标的检测,有效地缓解了单精度检测器低精确度和低召回率的弊病,并进一步提高了目标检测的性能与精度。
发明内容
本发明所要解决的技术问题是:利用卷积神经网络不断挖掘图片中不同尺度目标之间的相关性,进而大大提高单阶段目标检测方法的精度。
本发明的解决方案是:对于特征金字塔网络产生多个尺度的特征图,先在深层特征图上预测相对较大的目标,然后将预测结果整合处理后反馈到浅层特征图上,以此方式建立深层特征图上的预测结果到浅层网络的反馈链路。大目标的预测信息通过反馈链路与浅层级特征图相互融合后再预测相对较小的目标。从而提高小目标的检测效果。
本发明为实现上诉解决方案,及其方法步骤如下所示:
1.训练ResNet01目标分类网络,将其作为目标检测网络的骨架。
2.在目标分类网络上搭建特征金字塔网络。
3.引入L2S moudle。
4.在最终形成的特征图上搭建目标分类子模型和坐标回归子模型。
5.采用多任务损失函数进行网络训练。
附图说明
说明书附图图1是本发明的总体网络架构图。
说明书附图图2是 L2S module的详细结构图。特征金字塔上某一层的检测结果经处理后与下一层特征金子塔的特征图相融合,形成下一层参与预测的特征图。
说明书附图图3是目标分类子模块。对于参与预测的宽为W,高为H的特征图,使用256个卷积核特征提取3次后,使用 K×A个卷积和卷积后产生最终的目标类别得分。
说明书附图图4是坐标回归子模块。
具体实施方案
下面结合附图对方法的实施作进一步的详细描述:
1.参照说明书附图图1,因为残差(ResNet)网络通过跳跃连接的方式可以使网络更深、更容易优化,本方法首先训练ResNet101目标分类网络,然后删除分类网络最后的softmax层,将剩余部分作为本方法的目标骨架。本方法将骨架网络总体划分为{C1, C2,C3, C4, C5}5个层次,并在{C3, C4, C5}层上搭建特征金子塔网络{ FP1, FP2, FP3, FP4,FP5}。
2. 参照说明书附图图1,特征金字塔模块(feature pyramid net)以自顶向下的方式通过与残差网络进行侧向连接生成。其中,FP4由 C5经过3×3的卷积层以及2×2的最大池化层后形成; FP5由FP4经过3×3的卷积层以及2×2的最大池化层后形成;FP3由FP4进行上采样,经3×3卷积后与C5进行侧向连接后形成;FP2,FP1 与 FP3类似。
3. 除了特征金字塔结构,本方法创新性的提出了一个全新的模块:L2S(Large toSmall) module。L2S module通过将深层特征图上对大目标精确的预测结果反馈到浅层特征图上,对不同尺度的目标间的相互关系进行建模。参照说明书附图图2,L2S module的输入是特征金子塔网络的某一层FPlow以及其上一层对较大目标的预测结果Otop,这些预测结果本质上是T=4×A+K×A张特征图。其中,A是每一个层级上默认框的种类数,K为目标类别数。为了降低参数,本方法对这些预测结果进行简化处理,抽取每一个位置得分最高的预测值(4个坐标值,1个类别得分,1个类别值)形成6个特征图。经过上采样后(形成Etop),作为一种残差结构与FPlow进行融合,生成最终参与预测的特征图Flow。
4. 为了使目标定位更加准确,本方法在参与最终预测的特征图{F1,F2,F3,F4,FP5}(FP5作为特征金子塔的顶层特征图,不进行L2S的处理)上设置9种类型的默认框,对应3种不同的尺度{20,21/3,22/3}和3种不同的长宽比{1:1,1:2,2:1}。这些默认框所覆盖的面积为{322,642,1282,2562,5122},分别对应{ F1, F2, F3, F4, FP5}。本方法对目标的定位实际上是通过预测目标相对于默认框坐标的偏移值实现的。
5. 采用全卷积网络对目标的类别和默认框的坐标偏移值进行预测。参照说明书附图图3,分类子模型是使用256个3×3的卷积核进一步对参与预测的特征图F进行特征提取,再通过K×A个3×3的卷积核卷积之后,采用sigmoid激活函数得到最终的目标类别得分。回归子模型与分类子模型类似,只是在提取特征之后直接用4×A个卷积核卷积之后得到最终的坐标偏移值,参照说明书附图图4。
Claims (1)
1.一种基于特征金字塔网络的反馈式目标检测方法,具体步骤为:
(1)训练目标分类网络ResNet101,并去除最后的softmax层,将其作为整体方法的网络骨架,并将该骨架总体分为{ C1, C2, C3, C4, C5}5个层次;
(2)通过自顶向下和侧向连接的方式,在{C3, C4, C5}之上建立特征金字塔结构{FP1, FP2, FP3, FP4, FP5};其中,FP4由 C5经过3×3的卷积层以及2×2的最大池化层后形成; FP5由FP4经过3×3的卷积层以及2×2的最大池化层后形成;FP3由FP4进行上采样,经3×3卷积后与C5进行侧向连接后形成;FP2由FP3进行上采样,经3×3卷积后与C4进行侧向连接后形成;FP1由FP2进行上采样,经3×3卷积后与C3进行侧向连接后形成;
(3)搭建L2S模块,该模块通过将深层特征图上对大目标精确的预测结果反馈到浅层特征图上,对不同尺度的目标间的相互关系进行建模,具体步骤为:首先在特征金字塔网络的顶层特征图上预测大目标,对特征图上预测结果进行简化处理,抽取每一个位置得分最高的预测值形成6个特征图,对简化后的特征图上采样,使其与下一层特征图具有相同的尺寸,将上采样后的特征图与特征金字塔上同尺寸的浅一层的特征图进行融合,作为参与预测的特征图,循环进行以上步骤,直到最浅层特征图上的预测结果产生;
(4)在最终参与预测的特征图{ F1, F2, F3, F4, FP5}上建立目标分类子方法和坐标值回归子模块,采用全卷积的方式对每一个位置的目标类别和坐标值进行预测;其中,分类子模型是使用256个3×3的卷积核进一步对参与预测的特征图进行特征提取,再通过K×A个3×3的卷积核卷积之后,采用sigmoid激活函数得到最终的目标类别得分;回归子模型是使用256个3×3的卷积核进一步对参与预测的特征图进行特征提取,在提取特征之后直接用4×A个卷积核卷积之后得到最终的坐标偏移值;其中,A是每一个层级上默认框的种类数,K为目标类别数;
(5)利用多任务损失函数对整体的网络方法进行训练,训练过程中保持骨架网络的参数不变。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910276244.5A CN111797846B (zh) | 2019-04-08 | 2019-04-08 | 一种基于特征金字塔网络的反馈式目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910276244.5A CN111797846B (zh) | 2019-04-08 | 2019-04-08 | 一种基于特征金字塔网络的反馈式目标检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111797846A CN111797846A (zh) | 2020-10-20 |
CN111797846B true CN111797846B (zh) | 2022-06-21 |
Family
ID=72805101
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910276244.5A Active CN111797846B (zh) | 2019-04-08 | 2019-04-08 | 一种基于特征金字塔网络的反馈式目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111797846B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112560874B (zh) * | 2020-12-25 | 2024-04-16 | 北京百度网讯科技有限公司 | 图像识别模型的训练方法、装置、设备和介质 |
CN112766361A (zh) * | 2021-01-18 | 2021-05-07 | 山东师范大学 | 一种同色系背景下目标果实检测方法及检测系统 |
CN112950703B (zh) * | 2021-03-11 | 2024-01-19 | 无锡禹空间智能科技有限公司 | 小目标的检测方法、装置、存储介质及设备 |
CN113011442A (zh) * | 2021-03-26 | 2021-06-22 | 山东大学 | 一种基于双向自适应特征金字塔的目标检测方法及系统 |
CN113255699B (zh) * | 2021-06-10 | 2022-01-18 | 浙江华睿科技股份有限公司 | 小目标物体图像检测方法、装置、电子设备及存储介质 |
CN118552986B (zh) * | 2024-07-30 | 2024-10-25 | 杭州电子科技大学 | 一种基于云边端协同的人体关键点检测方法、系统及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102645615A (zh) * | 2012-04-26 | 2012-08-22 | 中国人民解放军海军工程大学 | 基于量子遗传算法的船舶电力系统故障诊断方法 |
CN108829826A (zh) * | 2018-06-14 | 2018-11-16 | 清华大学深圳研究生院 | 一种基于深度学习和语义分割的图像检索方法 |
CN109117876A (zh) * | 2018-07-26 | 2019-01-01 | 成都快眼科技有限公司 | 一种稠密小目标检测模型构建方法、模型及检测方法 |
CN109344821A (zh) * | 2018-08-30 | 2019-02-15 | 西安电子科技大学 | 基于特征融合和深度学习的小目标检测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10679351B2 (en) * | 2017-08-18 | 2020-06-09 | Samsung Electronics Co., Ltd. | System and method for semantic segmentation of images |
-
2019
- 2019-04-08 CN CN201910276244.5A patent/CN111797846B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102645615A (zh) * | 2012-04-26 | 2012-08-22 | 中国人民解放军海军工程大学 | 基于量子遗传算法的船舶电力系统故障诊断方法 |
CN108829826A (zh) * | 2018-06-14 | 2018-11-16 | 清华大学深圳研究生院 | 一种基于深度学习和语义分割的图像检索方法 |
CN109117876A (zh) * | 2018-07-26 | 2019-01-01 | 成都快眼科技有限公司 | 一种稠密小目标检测模型构建方法、模型及检测方法 |
CN109344821A (zh) * | 2018-08-30 | 2019-02-15 | 西安电子科技大学 | 基于特征融合和深度学习的小目标检测方法 |
Non-Patent Citations (6)
Title |
---|
Disparity Refinement Using Merged Super-Pixels for Stereo Matching;Yiguang Liu等;《Lecture Notes in Computer Science》;20171130;295-305 * |
Review: FPN — Feature Pyramid Network (Object Detection);Sik-Ho Tsang 等;《Towards Data Science》;20190118;1-10 * |
卷积神经网络的多尺度行人检测;胡葵等;《中国计量大学学报》;20171215(第04期);69-74 * |
基于深度学习的目标检测框架进展研究;寇大磊等;《计算机工程与应用》;20190326(第11期);30-39 * |
基于深度学习的航拍车辆实时检测方法;曹桂梅;《中国优秀硕士学位论文全文数据库 (信息科技辑)》;20190215;I138-2077 * |
基于粒子滤波的机车信号灯跟踪方法;李国林 等;《四川大学学报(自然科学版)》;20130328;第50卷(第2期);281-287 * |
Also Published As
Publication number | Publication date |
---|---|
CN111797846A (zh) | 2020-10-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111797846B (zh) | 一种基于特征金字塔网络的反馈式目标检测方法 | |
US10902615B2 (en) | Hybrid and self-aware long-term object tracking | |
CN107358262B (zh) | 一种高分辨率图像的分类方法及分类装置 | |
Hoang et al. | Enhanced detection and recognition of road markings based on adaptive region of interest and deep learning | |
CN110188635A (zh) | 一种基于注意力机制和多层次卷积特征的植物病虫害识别方法 | |
Chen et al. | Corse-to-fine road extraction based on local Dirichlet mixture models and multiscale-high-order deep learning | |
Chen et al. | Dr-tanet: Dynamic receptive temporal attention network for street scene change detection | |
Sharma et al. | A survey on object instance segmentation | |
Metzger et al. | A fine-grained dataset and its efficient semantic segmentation for unstructured driving scenarios | |
Nguyen et al. | Hybrid deep learning-Gaussian process network for pedestrian lane detection in unstructured scenes | |
CN113297959B (zh) | 一种基于角点注意力孪生网络的目标跟踪方法及系统 | |
CN110852199A (zh) | 一种基于双帧编码解码模型的前景提取方法 | |
Milioto et al. | Fast instance and semantic segmentation exploiting local connectivity, metric learning, and one-shot detection for robotics | |
CN116152226A (zh) | 基于可融合的特征金字塔的换向器内侧图像缺陷检测方法 | |
CN113743521B (zh) | 一种基于多尺度上下文感知的目标检测方法 | |
CN111104855A (zh) | 一种基于时序行为检测的工作流识别方法 | |
Lu et al. | An efficient fine-grained vehicle recognition method based on part-level feature optimization | |
Hu et al. | LGNet: Location-Guided Network for Road Extraction From Satellite Images | |
CN113822134A (zh) | 一种基于视频的实例跟踪方法、装置、设备及存储介质 | |
Hoanh et al. | Focus-Attention Approach in Optimizing DETR for Object Detection from High-Resolution Images | |
Yi et al. | Feature selective small object detection via knowledge-based recurrent attentive neural network | |
CN110852255A (zh) | 一种基于u型特征金字塔的交通目标检测方法 | |
Liu et al. | A coarse to fine framework for object detection in high resolution image | |
Patel | A Comprehensive Study on Object Detection Techniques in Unconstrained Environments | |
Wang et al. | Attentional single-shot network with multi-scale feature fusion for object detection in aerial images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |