CN109409443A - 一种基于深度学习的多尺度可变形卷积网络目标检测方法 - Google Patents

一种基于深度学习的多尺度可变形卷积网络目标检测方法 Download PDF

Info

Publication number
CN109409443A
CN109409443A CN201811436951.8A CN201811436951A CN109409443A CN 109409443 A CN109409443 A CN 109409443A CN 201811436951 A CN201811436951 A CN 201811436951A CN 109409443 A CN109409443 A CN 109409443A
Authority
CN
China
Prior art keywords
network
deep learning
detection method
target detection
feature extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811436951.8A
Other languages
English (en)
Inventor
曹丹阳
高磊
陈志欣
杨建�
马金锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
North China University of Technology
Original Assignee
North China University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by North China University of Technology filed Critical North China University of Technology
Priority to CN201811436951.8A priority Critical patent/CN109409443A/zh
Publication of CN109409443A publication Critical patent/CN109409443A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度学习的多尺度可变形卷积网络目标检测方法,采用了Darknet53层作为主干特征提取网络,添加包括YOLO网络框架、可变形卷积结构和特征融合操作,实现对图像内部一个或多个有效目标的识别与定位;所述主干特征提取网络是一种用于提取图像特征信息的深度残差卷积结构,使用连续的3×3和1×1卷积层进行特征提取。本发明提出的方法最终在Pascal VOC标准测试集上得到了MAP为52.55%,FPS为27帧每秒的好成绩,相比RCNN系列的目标检测算法,检测效率提高了3倍左右,比SSD、YOLO系列的目标检测算法在精确度上提高了大约7%。

Description

一种基于深度学习的多尺度可变形卷积网络目标检测方法
技术领域
本发明涉及智能监控系统领域,具体是一种基于深度学习的多尺度可变形卷积网络目标检测方法。
背景技术
目标检测是计算机视觉领域中一个富有挑战性的课题,其主要目的是从静态图像或者视频中识别并定位一个或多个有效目标。传统的目标检测任务主要通过人工提取特征模型建立,常用的特征包括:HOG(Histogram of Oriented Gradient,HOG),SIFT(Scale-invariant feature transform,SIFT)和Haar(Haar-like features,Haar)等,特征提取模型之后进行支持向量机或者Adaboost的分类任务,进而得到我们所关注的目标结果。由于这种特征模型对复杂场景多类目标的检测具有局限性,因此当前最先进的目标检测算法均引入具备更强大表征能力的深度卷积神经网络得到图像的多层特征信息,既包含前级卷积层得到的细节纹理等特征,又包含后级卷积层得到的在语义语境方面更加抽象的高层信息。在此基础上结合多种候选边框选取策略,结合区域回归算法与物体分类算法形成可端到端训练的,可应用于多种复杂场景的多目标检测统一模型。
其中,基于深度学习的两类目标检测模型更为流行。一类是含有物体边界区域建议的,比如R-CNN、Fast R-CNN、Faster R-CNN和R-FCN等模型,该类模型使用枚举法预先假设目标候选区域,再逐步微调和优化目标位置,最终实现对其分类识别,该类方法具有较高的检测精度,但是速度较慢。另一类是直接生成边界区域,比如YOLO和SSD等One-stage的检测模型,该类模型在进行目标预测时可以同时进行预测边界框和分类识别,检测速度上有非常明显的提升,但是往往存在漏检等检测低精度的问题。
发明内容
本发明的目的在于提供一种基于深度学习的多尺度可变形卷积网络目标检测方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种基于深度学习的多尺度可变形卷积网络目标检测方法,采用了Darknet53层作为主干特征提取网络,包括YOLO网络框架、可变形卷积结构和特征融合操作;所述主干特征提取网络是一种用于提取图像特征信息的深度残差卷积结构,使用连续的3×3和1×1卷积层进行特征提取;所述YOLO网络将输入图像分成7x7网格,实现对基于卷积特征的目标定位与识别。
作为本发明的进一步方案:所述可变形卷积结构和特征融合操作是基于YOLO网络框架进行增加的。
作为本发明的进一步方案:所述Darknet53层卷积网络能够在ImageNet数据集上做预训练,目标检测网络在Pascal VOC数据集上进行训练。
作为本发明的进一步方案:所述损失函数设计全部使用了均方和误差,且由坐标误差、IOU误差和分类误差三部分组成。
与现有技术相比,发明提出的方法最终在Pascal VOC标准测试集上做得到了MAP(Mean Average Precision)为52.55%,FPS为27帧每秒的好成绩,相比RCNN系列的目标检测算法,FPS(Frames Per Second)提高了3倍左右,比SSD、YOLO系列的目标检测算法在精确度上提高了大约7%,在不带有多尺度可变形卷积的同一主干网络下提高了大约4%;另外,对同一测试图像进行随意的几何形变操作,发现在经过一定旋转、缩放的图像数据上,本发明的网络结构具有最好的目标检测结果。
附图说明
图1为一种基于深度学习的多尺度可变形卷积网络目标检测方法的框架示意图。
具体实施方式
下面结合具体实施方式对本专利的技术方案作进一步详细地说明。
请参阅图1,一种基于深度学习的多尺度可变形卷积网络目标检测方法,采用了Darknet53层作为主干特征提取网络,包括YOLO网络框架、可变形卷积结构和特征融合操作;所述主干特征提取网络是一种用于提取图像特征信息的深度残差卷积结构,使用连续的3×3和1×1卷积层进行特征提取,利用残差结构避免网络层数增加带来的梯度消失问题;同时本发明方法在该网络结构相对靠后的,需要多尺度特征提取的网络层次上,分别增加一层可变形的卷积网络结构,用带有偏移的采样代替原来的固定位置采样,从而在特征图上进行目标检测时,除了卷积结构本身对位置信息的贡献外,能够通过可变形卷积的方式改变采样点的位置并学习采样点的偏置,使得采样点位置能够随着图像内容的变化而变化;
所述YOLO网络框架能够对基于卷积特征的目标定位与识别;所述YOLO网络将输入图像分成7x7网格,如果目标物体的中心位置落入某个网格内,则为每个网格预测三个具有置信度的候选边界框;同时使用3×3和1×1的卷积集合来控制网络的最后输出,即需包含20种分类信息,3个区域位置信息和相应的IOU信息;使用时,在多层高级语义特征图上通过上采样操作,实现高层特征信息与低层特征信息的融合,改进池化层位置信息的丢失问题,提高对小目标物体的检测能力。
所述可变形卷积结构和特征融合操作是基于YOLO网络框架进行增加的。
所述特征融合操作是通过对预测一、预测二的卷积结果进行上采样,并且将多个上采样的卷积数据连接,从而能够在3层特征尺度上分别进行位置检测,进一步提高目标物体的检测精度。
增加了可变形卷积结构的Darknet53层卷积网络能够在ImageNet数据集上做预训练,目标检测网络在Pascal VOC数据集上进行训练;所述损失函数设计全部使用了均方和误差,且由坐标误差、IOU误差和分类误差三部分组成。
本发明提出的方法最终在Pascal VOC标准测试集上做得到了MAP(Mean AveragePrecision)为52.55%,FPS为27帧每秒的好成绩,相比RCNN系列的目标检测算法,FPS(Frames Per Second)提高了3倍左右,比SSD、YOLO系列的目标检测算法在精确度上提高了大约7%,在不带有多尺度可变形卷积的同一主干网络下提高了大约4%;另外,对同一测试图像进行随意的几何形变操作,发现在经过一定旋转、缩放的图像数据上,本发明的网络结构具有最好的目标检测结果。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以通过具体情况理解上述术语在本发明中的具体含义。
上面对本专利的较佳实施方式作了详细说明,但是本专利并不限于上述实施方式,在本领域的普通技术人员所具备的知识范围内,还可以在不脱离本专利宗旨的前提下作出各种变化。

Claims (4)

1.一种基于深度学习的多尺度可变形卷积网络目标检测方法,采用了Darknet53层作为主干特征提取网络,包括YOLO网络框架、可变形卷积结构和特征融合操作;其特征在于,所述主干特征提取网络是一种用于提取图像特征信息的深度残差卷积结构,使用连续的3×3和1×1卷积层进行特征提取;所述YOLO网络将输入图像分成7x7网格,实现对基于卷积特征的目标定位与识别。
2.根据权利要求1所述的一种基于深度学习的多尺度可变形卷积网络目标检测方法,其特征在于,所述可变形卷积结构和特征融合操作是基于YOLO网络框架进行增加的。
3.根据权利要求1所述的一种基于深度学习的多尺度可变形卷积网络目标检测方法,其特征在于,所述Darknet53层卷积网络能够在ImageNet数据集上做预训练,目标检测网络在Pascal VOC数据集上进行训练。
4.根据权利要求1所述的一种基于深度学习的多尺度可变形卷积网络目标检测方法,其特征在于,所述损失函数设计全部使用了均方和误差,且由坐标误差、IOU误差和分类误差三部分组成。
CN201811436951.8A 2018-11-28 2018-11-28 一种基于深度学习的多尺度可变形卷积网络目标检测方法 Pending CN109409443A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811436951.8A CN109409443A (zh) 2018-11-28 2018-11-28 一种基于深度学习的多尺度可变形卷积网络目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811436951.8A CN109409443A (zh) 2018-11-28 2018-11-28 一种基于深度学习的多尺度可变形卷积网络目标检测方法

Publications (1)

Publication Number Publication Date
CN109409443A true CN109409443A (zh) 2019-03-01

Family

ID=65456162

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811436951.8A Pending CN109409443A (zh) 2018-11-28 2018-11-28 一种基于深度学习的多尺度可变形卷积网络目标检测方法

Country Status (1)

Country Link
CN (1) CN109409443A (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110188802A (zh) * 2019-05-13 2019-08-30 南京邮电大学 基于多层特征图融合的ssd目标检测算法
CN110503161A (zh) * 2019-08-29 2019-11-26 长沙学院 一种基于弱监督yolo模型的矿石泥团目标检测方法和系统
CN110751214A (zh) * 2019-10-21 2020-02-04 山东大学 一种基于轻量级可变形卷积的目标检测方法及系统
CN111126335A (zh) * 2019-12-31 2020-05-08 珠海大横琴科技发展有限公司 一种结合显著性和神经网络的sar船只识别方法及系统
CN111597941A (zh) * 2020-05-08 2020-08-28 河海大学 一种面向大坝缺陷图像的目标检测方法
CN111667493A (zh) * 2020-05-27 2020-09-15 华中科技大学 基于可变形卷积神经网络的果园果树区域分割方法和系统
CN111666871A (zh) * 2020-06-03 2020-09-15 南京航空航天大学 一种面向无人机的改进yolo与sift相结合的多小目标检测跟踪方法
CN111754531A (zh) * 2020-07-08 2020-10-09 深延科技(北京)有限公司 图像实例分割方法和装置
CN111860171A (zh) * 2020-06-19 2020-10-30 中国科学院空天信息创新研究院 一种大规模遥感图像中不规则形状目标的检测方法及系统
CN111951319A (zh) * 2020-08-21 2020-11-17 清华大学深圳国际研究生院 一种图像立体匹配方法
CN112016476A (zh) * 2020-08-31 2020-12-01 山东大学 由目标检测引导的复杂交通视觉显著性预测方法及系统
CN112651346A (zh) * 2020-12-29 2021-04-13 青海三新农电有限责任公司 一种基于深度学习的流媒体视频识别与检测方法
CN113128316A (zh) * 2020-01-15 2021-07-16 北京四维图新科技股份有限公司 目标检测方法及装置
CN113435337A (zh) * 2021-06-28 2021-09-24 中国电信集团系统集成有限责任公司 基于可变形卷积和注意力机制的视频目标检测方法及装置
CN113536829A (zh) * 2020-04-13 2021-10-22 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 无人零售货柜的货品静态识别方法
WO2021218140A1 (zh) * 2020-04-27 2021-11-04 平安科技(深圳)有限公司 基于可变形卷积的图像识别方法、装置、计算机设备
CN113901944A (zh) * 2021-10-25 2022-01-07 大连理工大学 一种基于改进的yolo算法的海洋生物目标检测方法
US11386637B2 (en) 2019-07-16 2022-07-12 Samsung Electronics Co., Ltd. Method and apparatus for detecting object
CN113536829B (zh) * 2020-04-13 2024-06-11 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 无人零售货柜的货品静态识别方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108491797A (zh) * 2018-03-22 2018-09-04 河北省科学院应用数学研究所 一种基于大数据的车辆图像精确检索方法
CN108710919A (zh) * 2018-05-25 2018-10-26 东南大学 一种基于多尺度特征融合深度学习的裂缝自动化勾画方法
CN108764137A (zh) * 2018-05-29 2018-11-06 福州大学 基于语义分割的车辆行驶车道定位方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108491797A (zh) * 2018-03-22 2018-09-04 河北省科学院应用数学研究所 一种基于大数据的车辆图像精确检索方法
CN108710919A (zh) * 2018-05-25 2018-10-26 东南大学 一种基于多尺度特征融合深度学习的裂缝自动化勾画方法
CN108764137A (zh) * 2018-05-29 2018-11-06 福州大学 基于语义分割的车辆行驶车道定位方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
JOSEPH REDMON: ""YOLOv3:An incremental Improvement"", 《IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 *
X猪: ""YOLO_v3深入理解"", 《HTTPS://WWW.JIANSHU.COM/P/D13AE1055302》 *
脑极体: ""最全技术剖析 百度视觉团队"大战"Open Images V4目标检测数"", 《HTTPS://WWW.SOHU.COM/A/253646647_99997500》 *
黎洲等: ""基于YOLO_v2模型的车辆实时检测"", 《中国机械工程》 *

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110188802A (zh) * 2019-05-13 2019-08-30 南京邮电大学 基于多层特征图融合的ssd目标检测算法
US11386637B2 (en) 2019-07-16 2022-07-12 Samsung Electronics Co., Ltd. Method and apparatus for detecting object
CN110503161A (zh) * 2019-08-29 2019-11-26 长沙学院 一种基于弱监督yolo模型的矿石泥团目标检测方法和系统
CN110751214A (zh) * 2019-10-21 2020-02-04 山东大学 一种基于轻量级可变形卷积的目标检测方法及系统
CN111126335A (zh) * 2019-12-31 2020-05-08 珠海大横琴科技发展有限公司 一种结合显著性和神经网络的sar船只识别方法及系统
CN113128316A (zh) * 2020-01-15 2021-07-16 北京四维图新科技股份有限公司 目标检测方法及装置
CN113536829B (zh) * 2020-04-13 2024-06-11 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 无人零售货柜的货品静态识别方法
CN113536829A (zh) * 2020-04-13 2021-10-22 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 无人零售货柜的货品静态识别方法
WO2021218140A1 (zh) * 2020-04-27 2021-11-04 平安科技(深圳)有限公司 基于可变形卷积的图像识别方法、装置、计算机设备
CN111597941A (zh) * 2020-05-08 2020-08-28 河海大学 一种面向大坝缺陷图像的目标检测方法
CN111667493A (zh) * 2020-05-27 2020-09-15 华中科技大学 基于可变形卷积神经网络的果园果树区域分割方法和系统
CN111666871B (zh) * 2020-06-03 2024-02-09 南京航空航天大学 一种面向无人机的改进yolo与sift相结合的多小目标检测跟踪方法
CN111666871A (zh) * 2020-06-03 2020-09-15 南京航空航天大学 一种面向无人机的改进yolo与sift相结合的多小目标检测跟踪方法
CN111860171A (zh) * 2020-06-19 2020-10-30 中国科学院空天信息创新研究院 一种大规模遥感图像中不规则形状目标的检测方法及系统
CN111754531A (zh) * 2020-07-08 2020-10-09 深延科技(北京)有限公司 图像实例分割方法和装置
CN111951319A (zh) * 2020-08-21 2020-11-17 清华大学深圳国际研究生院 一种图像立体匹配方法
CN112016476A (zh) * 2020-08-31 2020-12-01 山东大学 由目标检测引导的复杂交通视觉显著性预测方法及系统
CN112016476B (zh) * 2020-08-31 2022-11-01 山东大学 由目标检测引导的复杂交通视觉显著性预测方法及系统
CN112651346A (zh) * 2020-12-29 2021-04-13 青海三新农电有限责任公司 一种基于深度学习的流媒体视频识别与检测方法
CN113435337A (zh) * 2021-06-28 2021-09-24 中国电信集团系统集成有限责任公司 基于可变形卷积和注意力机制的视频目标检测方法及装置
CN113901944A (zh) * 2021-10-25 2022-01-07 大连理工大学 一种基于改进的yolo算法的海洋生物目标检测方法
CN113901944B (zh) * 2021-10-25 2024-04-09 大连理工大学 一种基于改进的yolo算法的海洋生物目标检测方法

Similar Documents

Publication Publication Date Title
CN109409443A (zh) 一种基于深度学习的多尺度可变形卷积网络目标检测方法
Rajendran et al. Real-time traffic sign recognition using YOLOv3 based detector
Kaur et al. A comprehensive review of object detection with deep learning
US11475681B2 (en) Image processing method, apparatus, electronic device and computer readable storage medium
CN109829467A (zh) 图像标注方法、电子装置及非暂态电脑可读取储存媒体
CN108389220B (zh) 遥感视频图像运动目标实时智能感知方法及其装置
CN108830196A (zh) 基于特征金字塔网络的行人检测方法
Wang et al. Tree leaves detection based on deep learning
CN110569782A (zh) 一种基于深度学习目标检测方法
CN111832568A (zh) 车牌识别方法、车牌识别模型的训练方法和装置
CN109165658B (zh) 一种基于Faster-RCNN的强负样本水下目标检测方法
CN107808126A (zh) 车辆检索方法及装置
CN109636788A (zh) 一种基于深度神经网络的ct图像胆结石智能检测模型
CN111126401A (zh) 一种基于上下文信息的车牌字符识别方法
CN113628245A (zh) 多目标跟踪方法、装置、电子设备和存储介质
CN113706481A (zh) 精子质量检测方法、装置、计算机设备和存储介质
CN114998748A (zh) 遥感图像目标精细识别方法、电子设备及存储介质
Arun et al. Effective and efficient multi-crop pest detection based on deep learning object detection models
CN110008899B (zh) 一种可见光遥感图像候选目标提取与分类方法
Zhang et al. Underwater target detection algorithm based on improved YOLOv4 with SemiDSConv and FIoU loss function
CN113780145A (zh) 精子形态检测方法、装置、计算机设备和存储介质
Bai et al. Multi-scale fully convolutional network for face detection in the wild
Zhu et al. Scene text relocation with guidance
Xingxin et al. Adaptive auxiliary input extraction based on vanishing point detection for distant object detection in high-resolution railway scene
Lin et al. Real-time multiple pedestrian tracking with joint detection and embedding deep learning model for embedded systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190301