CN109101932B - 基于目标检测的多任务及临近信息融合的深度学习方法 - Google Patents

基于目标检测的多任务及临近信息融合的深度学习方法 Download PDF

Info

Publication number
CN109101932B
CN109101932B CN201810947455.2A CN201810947455A CN109101932B CN 109101932 B CN109101932 B CN 109101932B CN 201810947455 A CN201810947455 A CN 201810947455A CN 109101932 B CN109101932 B CN 109101932B
Authority
CN
China
Prior art keywords
target
frame
target prediction
detection
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810947455.2A
Other languages
English (en)
Other versions
CN109101932A (zh
Inventor
胡建国
杨焕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Joint Research Institute
Sun Yat Sen University
SYSU CMU Shunde International Joint Research Institute
Original Assignee
Joint Research Institute
Sun Yat Sen University
SYSU CMU Shunde International Joint Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Joint Research Institute, Sun Yat Sen University, SYSU CMU Shunde International Joint Research Institute filed Critical Joint Research Institute
Priority to CN201810947455.2A priority Critical patent/CN109101932B/zh
Publication of CN109101932A publication Critical patent/CN109101932A/zh
Application granted granted Critical
Publication of CN109101932B publication Critical patent/CN109101932B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/54Surveillance or monitoring of activities, e.g. for recognising suspicious objects of traffic, e.g. cars on the road, trains or boats
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于目标检测的多任务及临近信息融合的深度学习方法,包括输入图片,利用卷积神经网络提取图像特征,并生成目标候选框;将所述目标候选框经过区域候选网络,提取出目标预测框;将目标预测框进行特征提取和特征池化,再进行边框回归、方向预测、目标检测分类,得到初步检测结果;将初步检测结果与目标候选框融合并进入RO I池化层和通过第二全连接层,得到最终检测结果;其中,目标检测分类是利用一个目标预测框与其临近的其他目标预测框的信息关系而重新定义该目标预测框的置信度分数;算法采用多任务输出模式。本发明在提高目标检测的速度的同时,确保了目标检测的准确性,达到实时目标检测的要求。

Description

基于目标检测的多任务及临近信息融合的深度学习方法
技术领域
本发明涉及图像信息处理领域,特别是基于目标检测的多任务及临近信息融合的深度学习方法。
背景技术
目前,目标检测一直是视觉计算应用的一个基础难题,应用于交通监测、智能驾驶等领域。而现实条件中,一方面由于目标的多样性如在道路上要检测车辆,行人,数目,栏杆等,目标的子类别数量众多如车辆中有公车,小汽车,卡车,自行车等,另一方面目标存在多种角度,不同的遮挡情况和目标显示的局部大小,给目标检测带来了巨大的难度。目标检测目前仍是一个非常具有挑战性的领域,而且在要在实时情况下做到目标检测、识别、并进行追踪,对于检测精度和检测速度都有相当高的要求。
从RCNN即Regions with CNN features开始,将卷积神经网络引入到目标检测领域,大大提高了目标检测效果;随后,SppNET、Fast-RCNN和Faster-RCNN的提出,进一步加速卷积神经网络在目标检测领域的应用,但同时也存在准确率与识别速度的矛盾,因多次重复的特征提取和计算而降低识别速度,同时需要大容量存储空间。此外,还有一种YOLO即You only look once的结构,识别速度快,但是以牺牲了一定准确率来换取的。提升目标检测的准确度与速度以使其能满足实时目标检测要求的问题迫在眉睫。
发明内容
为解决上述问题,本发明的目的在于提供基于目标检测的多任务及临近信息融合的深度学习方法,提升目标检测的准确度与速度以满足实时目标检测。
本发明解决其问题所采用的技术方案是:
基于目标检测的多任务及临近信息融合的深度学习方法,包括以下步骤:
输入经初始化带有真实框的图片,利用预训练好的卷积神经网络提取图像特征,并生成目标候选框;将所述目标候选框经过区域候选网络,提取出目标预测框;将目标预测框经过卷积层进行特征提取和经过池化层进行特征池化,再经过第一全连接层进行初步边框回归、目标预测框与真实框之间的方向预测、初步目标检测分类,得到包含经筛选后的目标预测框的初步检测结果;将所述初步检测结果和目标候选框融合并进入ROI池化层,并通过第二全连接层来进行最终边框回归和最终目标检测分类,得到包含已分类图片的最终检测结果;
其中,所述初步目标检测分类和最终目标检测分类是利用一个目标预测框与其临近的其他目标预测框的信息关系而重新定义该目标预测框的置信度分数。
进一步,所述目标预测框与真实框之间的方向预测包括以下步骤:将目标预测框的坐标与真实框的坐标对比,对目标预测框打标签。
此外,所述标签的含义为目标预测框相对于真实框的位置移动;所述标签包括Gl、Gr、Gt和Gd,分别对应目标预测框的左边界、右边界、下边界和上边界。
进一步,所述标签Gl或Gr对应的含义包括“向左移”、“向右移”、“停在此处”以及“该目标预测框没有目标”;所述标签Gt或Gd对应的含义包括“向上移”、“向下移”、“停在此处”以及“该目标预测框没有目标”。
进一步,所述初步目标检测分类和最终目标检测分类具体包括以下步骤:经过目标预测框与真实框之间的方向预测后,结合目标预测框的坐标与其对应的四个标签,得到一组其临近的目标预测框;对比目标预测框与其临近的目标预测框的位置信息和标签,结果一致则该目标预测框的置信度分数不变,结果不一致则该目标预测框的置信度分数减少;当遍历完成后,应用NMS算法得到最终的结果。
进一步,所述初步边框回归、目标预测框与真实框之间的方向预测、初步目标检测分类实现多任务输出,共享网络参数。
进一步,所述最终边框回归和最终目标检测分类实现多任务输出,共享网络参数。
进一步,所述网络参数包括真实框的分类和真实框的边框回归目标。
优选地,所述卷积神经网络是ResNet101网络。
本发明的有益效果是:本发明采用的基于目标检测的多任务及临近信息融合的深度学习方法,通过对目标预测框的置信度分数算法的改进能减少冗余的特征提取与重复的卷积计算,从而缩短目标检测的流程,提高检测的速率;同时对于目标预测框的选择精度提升了从而提高检测的准确率。
附图说明
下面结合附图和实例对本发明作进一步说明。
图1是本发明基于目标检测的多任务及临近信息融合的深度学习方法的网络结构图;
图2是本发明基于目标检测的多任务及临近信息融合的深度学习方法的步骤流程图。
具体实施方式
参照图1和图2,本发明的基于目标检测的多任务及临近信息融合的深度学习方法包括以下步骤:
步骤S1:输入经初始化带有真实框的图片,利用预训练好的卷积神经网络提取图像特征,并生成少量明显的目标候选框;
步骤S2:利用步骤S1得到的目标候选框经过区域候选网络,提取出大量的目标预测框;
步骤S3:将步骤S2得到的目标预测框经过卷积层进行特征提取和经过池化层进行特征池化,再经过第一全连接层进行初步边框回归、目标预测框与真实框之间的方向预测、初步目标检测分类,得到包含经筛选后的目标预测框的初步检测结果;
步骤S4:将步骤S3得到的初步检测结果和步骤S1得到的目标候选框融合并进入ROI池化层,并通过第二全连接层来进行最终边框回归和最终目标检测分类,得到最终检测结果。
其中,步骤S3中的初步目标检测分类和步骤S4中的最终目标检测分类是利用一个目标预测框与其临近的其他目标预测框的信息关系而重新定义该目标预测框的置信度分数;同时目标检测分类基于目标预测框与真实框之间的方向预测。
所述目标预测框与真实框之间的方向预测为将目标预测框的坐标与真实框的坐标对比,并对目标预测框打标签。所述标签的含义为目标预测框相对于真实框的位置移动;所述标签为Gl、Gr、Gt和Gd,分别对应目标预测框的左边界、右边界、下边界和上边界。标签Gl或Gr对应的含义包括“向左移”、“向右移”、“停在此处”以及“该目标预测框没有目标”;标签Gt或Gd对应的含义包括“向上移”、“向下移”、“停在此处”以及“该目标预测框没有目标”。
目标检测分类的得分算法具体为,经过目标预测框与真实框之间的方向预测后,结合目标预测框的坐标与其对应的四个标签,得到一组其临近的目标预测框;对比目标预测框与该组其临近的目标预测框的位置信息和标签,结果一致则该目标预测框的置信度分数不变,结果不一致则该目标预测框的置信度分数减少。
一个实施例中,假设一个目标预测框P有坐标系P={x1,y1,x2,y2}以及所预测的分数S。定义一系列目标预测框P临近的其他目标预测框组成集合N。假设N有n个值,假设集合N里面的第i个目标预测框的坐标为
Figure GDA0002497629070000061
对于每一组坐标,可以判断P与Ni之间的方向是否正确。计算的具体公式如下所示:
Figure GDA0002497629070000062
其中,
Figure GDA0002497629070000063
其他的Ω(P,Ni)函数的规则与Ωl(P,Ni)相同。当遍历完成后,应用NMS即NonMaximum Suppression算法得到最终的结果。
此外,本发明中,初步边框回归、预测框与真实框之间的方向预测和初步目标检测分类实现多任务输出;同时最终边框回归和最终目标检测分类也实现多任务输出。进行多任务输出能共享网络参数,多进程迭代学习,并且共享过程能够推动单个或多个任务的效果。在通过了区域候选网络产生目标预测框后,通过接入池化层对每个目标预测框的卷积特征进行池化,那么这些池化后的特征就用于上述的三个子任务。每一个用于训练的目标预测框都标上了真实框的分类和真实框的边框回归目标。这些标记的数值可以用于分类损失函数和边框回归函数。
分类损失函数具体为:
Figure GDA0002497629070000064
Figure GDA0002497629070000071
边框回归函数具体为:
Figure GDA0002497629070000072
Figure GDA0002497629070000073
本发明正是基于多任务输出以及对目标检测分类的得分算法的改进使得准确率与速度都得到明显的提高。
测试结果如下:
表1.本算法与其他方法的mAP比较表
方法名称 mAP
本发明 91.67
Faster-RCNN 82.84
3DOP 88.64
AOG 75.94
表1是在KITTI数据集上进行测试验证得到的。mAP是衡量目标检测的准确率的一个标准。由此可看出,本发明在mAP方面较其他方法得到了明显的提升。
以上所述,只是本发明的较佳实施例而已,本发明并不局限于上述实施方式,只要其以相同的手段达到本发明的技术效果,都应属于本发明的保护范围。

Claims (9)

1.基于目标检测的多任务及临近信息融合的深度学习方法,其特征在于,包括以下步骤:
输入经初始化带有真实框的图片,利用预训练好的卷积神经网络提取图像特征,并生成目标候选框;
将所述目标候选框经过区域候选网络,提取出目标预测框;
将目标预测框经过卷积层进行特征提取和经过池化层进行特征池化,再经过第一全连接层进行初步边框回归、目标预测框与真实框之间的方向预测、初步目标检测分类,得到包含经筛选后的目标预测框的初步检测结果;
将所述初步检测结果和目标候选框融合并进入ROI池化层,并通过第二全连接层来进行最终边框回归和最终目标检测分类,得到包含已分类图片的最终检测结果;
其中,所述初步目标检测分类和最终目标检测分类是利用一个目标预测框与其临近的其他目标预测框的信息关系而重新定义该目标预测框的置信度分数。
2.根据权利要求1所述的基于目标检测的多任务及临近信息融合的深度学习方法,其特征在于,所述目标预测框与真实框之间的方向预测包括以下步骤:将目标预测框的坐标与真实框的坐标对比,对目标预测框打标签。
3.根据权利要求2所述的基于目标检测的多任务及临近信息融合的深度学习方法,其特征在于:所述标签的含义为目标预测框相对于真实框的位置移动;所述标签包括Gl、Gr、Gt和Gd,分别对应目标预测框的左边界、右边界、下边界和上边界。
4.根据权利要求3所述的基于目标检测的多任务及临近信息融合的深度学习方法,其特征在于:所述标签Gl或Gr对应的含义包括“向左移”、“向右移”、“停在此处”以及“该目标预测框没有目标”;所述标签Gt或Gd对应的含义包括“向上移”、“向下移”、“停在此处”以及“该目标预测框没有目标”。
5.根据权利要求4所述的基于目标检测的多任务及临近信息融合的深度学习方法,其特征在于,所述初步目标检测分类和最终目标检测分类具体包括以下步骤:
经过目标预测框与真实框之间的方向预测后,结合目标预测框的坐标与其对应的四个标签,得到一组其临近的目标预测框;
对比目标预测框与其临近的目标预测框的位置信息和标签,结果一致则该目标预测框的置信度分数不变,结果不一致则该目标预测框的置信度分数减少;
当遍历完成后,应用NMS算法得到最终的结果。
6.根据权利要求1所述的基于目标检测的多任务及临近信息融合的深度学习方法,其特征在于:所述初步边框回归、目标预测框与真实框之间的方向预测、初步目标检测分类实现多任务输出,共享网络参数。
7.根据权利要求1所述的基于目标检测的多任务及临近信息融合的深度学习方法,其特征在于:所述最终边框回归和最终目标检测分类实现多任务输出,共享网络参数。
8.根据权利要求6或7所述的基于目标检测的多任务及临近信息融合的深度学习方法,其特征在于:所述网络参数包括真实框的分类和真实框的边框回归目标。
9.根据权利要求1所述的基于目标检测的多任务及临近信息融合的深度学习方法,其特征在于:所述卷积神经网络是ResNet101网络。
CN201810947455.2A 2018-08-17 2018-08-17 基于目标检测的多任务及临近信息融合的深度学习方法 Active CN109101932B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810947455.2A CN109101932B (zh) 2018-08-17 2018-08-17 基于目标检测的多任务及临近信息融合的深度学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810947455.2A CN109101932B (zh) 2018-08-17 2018-08-17 基于目标检测的多任务及临近信息融合的深度学习方法

Publications (2)

Publication Number Publication Date
CN109101932A CN109101932A (zh) 2018-12-28
CN109101932B true CN109101932B (zh) 2020-07-24

Family

ID=64850431

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810947455.2A Active CN109101932B (zh) 2018-08-17 2018-08-17 基于目标检测的多任务及临近信息融合的深度学习方法

Country Status (1)

Country Link
CN (1) CN109101932B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109886357B (zh) * 2019-03-13 2022-12-13 哈尔滨工程大学 一种基于特征融合的自适应权重深度学习目标分类方法
CN110288082B (zh) * 2019-06-05 2022-04-05 北京字节跳动网络技术有限公司 卷积神经网络模型训练方法、装置和计算机可读存储介质
CN111222454B (zh) * 2020-01-03 2023-04-07 暗物智能科技(广州)有限公司 训练多任务目标检测模型、多任务目标检测的方法及系统
CN111310622A (zh) * 2020-02-05 2020-06-19 西北工业大学 一种面向水下机器人智能作业的鱼群目标识别方法
CN112289021A (zh) * 2020-09-24 2021-01-29 深圳一清创新科技有限公司 一种交通信号灯的检测方法、装置及自动驾驶汽车
CN112100387B (zh) * 2020-11-13 2021-02-19 支付宝(杭州)信息技术有限公司 用于文本分类的神经网络系统的训练方法及装置
CN114283282A (zh) * 2021-12-23 2022-04-05 江西中科智鹏物联科技有限公司 一种特征层敏感的二阶段邻居非极大值抑制方法
CN114998902A (zh) * 2022-04-07 2022-09-02 讯飞智元信息科技有限公司 区域检测方法及其相关装置、设备和介质
CN117351484B (zh) * 2023-10-12 2024-08-27 深圳市前海高新国际医疗管理有限公司 基于ai的肿瘤干细胞特征提取及分类系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104881662A (zh) * 2015-06-26 2015-09-02 北京畅景立达软件技术有限公司 一种单幅图像行人检测方法
CN106934346A (zh) * 2017-01-24 2017-07-07 北京大学 一种目标检测性能优化的方法
CN107145867A (zh) * 2017-05-09 2017-09-08 电子科技大学 基于多任务深度学习的人脸及人脸遮挡物检测方法
CN107229904A (zh) * 2017-04-24 2017-10-03 东北大学 一种基于深度学习的目标检测与识别方法
CN107590489A (zh) * 2017-09-28 2018-01-16 国家新闻出版广电总局广播科学研究院 基于级联卷积神经网络的目标检测方法
CN107886117A (zh) * 2017-10-30 2018-04-06 国家新闻出版广电总局广播科学研究院 基于多特征提取和多任务融合的目标检测算法
CN107977671A (zh) * 2017-10-27 2018-05-01 浙江工业大学 一种基于多任务卷积神经网络的舌象分类方法
CN107993250A (zh) * 2017-09-12 2018-05-04 北京飞搜科技有限公司 一种快速多目标行人追踪和分析方法及其智能装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104881662A (zh) * 2015-06-26 2015-09-02 北京畅景立达软件技术有限公司 一种单幅图像行人检测方法
CN106934346A (zh) * 2017-01-24 2017-07-07 北京大学 一种目标检测性能优化的方法
CN107229904A (zh) * 2017-04-24 2017-10-03 东北大学 一种基于深度学习的目标检测与识别方法
CN107145867A (zh) * 2017-05-09 2017-09-08 电子科技大学 基于多任务深度学习的人脸及人脸遮挡物检测方法
CN107993250A (zh) * 2017-09-12 2018-05-04 北京飞搜科技有限公司 一种快速多目标行人追踪和分析方法及其智能装置
CN107590489A (zh) * 2017-09-28 2018-01-16 国家新闻出版广电总局广播科学研究院 基于级联卷积神经网络的目标检测方法
CN107977671A (zh) * 2017-10-27 2018-05-01 浙江工业大学 一种基于多任务卷积神经网络的舌象分类方法
CN107886117A (zh) * 2017-10-30 2018-04-06 国家新闻出版广电总局广播科学研究院 基于多特征提取和多任务融合的目标检测算法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Faster r-cnn:Towards real-time object detection with region proposal networks;S .Ren;《inNIPS》;20151231;论文全文 *
Object detection with discriminatively trainedpart-based models;P .Felzenszwalb;《TPAMI》;20101231;论文全文 *
You only look once:Unified ,real-time object detection;J.Redmon;《arXiv:1506.02640》;20151231;论文全文 *

Also Published As

Publication number Publication date
CN109101932A (zh) 2018-12-28

Similar Documents

Publication Publication Date Title
CN109101932B (zh) 基于目标检测的多任务及临近信息融合的深度学习方法
CN108171112B (zh) 基于卷积神经网络的车辆识别与跟踪方法
CN112750150B (zh) 基于车辆检测和多目标跟踪的车流量统计方法
CN103927526B (zh) 一种基于高斯差分多尺度边缘融合的车辆检测方法
Hoque et al. A comprehensive review on 3D object detection and 6D pose estimation with deep learning
Chen et al. Object-level motion detection from moving cameras
CN113506318B (zh) 一种车载边缘场景下的三维目标感知方法
CN108304798A (zh) 基于深度学习及运动一致性的街面秩序事件视频检测方法
CN111554105B (zh) 一种复杂交通路口的智能流量识别与统计方法
CN110348332B (zh) 一种交通视频场景下机非人多目标实时轨迹提取方法
CN112825192B (zh) 基于机器学习的对象辨识系统及其方法
CN105989334B (zh) 基于单目视觉的道路检测方法
CN113989784A (zh) 一种基于车载激光点云的道路场景类型识别方法及系统
CN108106627A (zh) 一种基于特征点在线动态标定的单目视觉车辆定位方法
CN107730889B (zh) 一种基于交通视频的目标车辆检索方法
Kavitha et al. Pothole and object detection for an autonomous vehicle using yolo
CN107909047A (zh) 一种汽车及其应用的车道检测方法及系统
Naufal et al. Preprocessed mask RCNN for parking space detection in smart parking systems
CN111915583A (zh) 复杂场景中基于车载红外热像仪的车辆和行人检测方法
CN117949942B (zh) 基于雷达数据和视频数据融合的目标跟踪方法及系统
CN103761747A (zh) 一种基于加权分布场的目标跟踪方法
CN114219936A (zh) 目标检测方法、电子设备、存储介质和计算机程序产品
Gad et al. Real-time lane instance segmentation using SegNet and image processing
CN110517285B (zh) 基于运动估计me-cnn网络的大场景极小目标跟踪
CN116310688A (zh) 基于级联融合的目标检测模型及其构建方法、装置及应用

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant