CN109242032A - 一种基于深度学习的目标检测方法 - Google Patents
一种基于深度学习的目标检测方法 Download PDFInfo
- Publication number
- CN109242032A CN109242032A CN201811107668.0A CN201811107668A CN109242032A CN 109242032 A CN109242032 A CN 109242032A CN 201811107668 A CN201811107668 A CN 201811107668A CN 109242032 A CN109242032 A CN 109242032A
- Authority
- CN
- China
- Prior art keywords
- window
- image
- training sample
- classifier
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种基于深度学习的目标检测方法,首先选取训练分类器所需训练样本;其次采用均值滤波器对训练样本进行去噪,再利用神经网络对去噪后的训练样本进行特征提取;然后用训练样本来训练分类器最后利用训练好的分类器对输入的待检测图像进行分类筛选,以检测待检测图像中是否存在想要检测的目标。本发明在RPN网络中,用掩膜的屏蔽作用,对图像上某些区域屏蔽。并针对回归边框不能准确定位,利用模拟退火算法来着重解决建议窗口与实际窗口的非线性问题。且在RPN网络前加入了池化层,使得进入RPN网络的图像是同样尺寸的,这样提高了整个Faster‑RCNN网络的实时性。
Description
技术领域
本发明涉及计算机视觉技术领域,具体涉及一种基于深度学习的目标检测方法。
背景技术
目标检测在人工智能,人脸识别,无人驾驶等领域都得到了广泛的应用。然而,在目标检测的过程中会受到各种各样干扰,比如角度、遮挡、光线强度等因素,这些因素会导致目标发生畸变,为目标检测增加了新的挑战。传统目标检测方法有3个步骤:1)使用不同大小的滑动窗口框住待测图像中的某一部分作为候选区域;2)提取该候选区域相关的视觉特征;3)使用训练完成的分类器进行分类,比如常用的支持向量机(support vectormachine,SVM)模型,Adaboost、DPM、RF(random forest)模型等。但是传统目标检测算法有两个主要的缺陷:1)滑动窗口策略进行区域选择时针对性不强,增加了时间复杂度和窗口冗余;2)手动设计的特征对于目标的多样性并没有很好的鲁棒性,模型的复杂度较高,目标检测的速度和准度较低。
发明内容
本发明提供一种基于深度学习的目标检测方法,其能够简捷有效地提取图像中待检测目标。
为解决上述问题,本发明是通过以下技术方案实现的:
一种基于深度学习的目标检测方法,包括步骤如下:
步骤1、选取训练分类器所需训练样本,其中训练样本包括正例样本和负例样本,正例样本为包含有待检目标的图片,负例样本为不包含待检目标的任意图片;上述所有训练样本都被归一化为同样的尺寸大小;
步骤2、采用均值滤波器对训练样本进行去噪,再利用神经网络对去噪后的训练样本进行特征提取;
步骤3、用训练样本来训练分类器:
步骤3.1、用预先制作的感兴趣区掩模与训练样本相乘,对于感兴趣区内的图像值保持不变,而感兴趣区外的图像值都为0,得到感兴趣区图像;
步骤3.2、采用分水岭算法对掩膜处理的图像进行语义分割;
步骤3.3、采用模糊C均值算法对语义分割后的图像进行像素聚类操作,生成建议窗口;
步骤3.4、判断生成的建议窗口与实际窗口的重叠度是否大于设定的重叠度阈值,如果是,则用线性回归的方法对建议窗口进行调整,否则采用模拟退火算法对建议窗口进行调整;
步骤3.5、将调整后的建议窗口送入到softmax分类器中进行训练,由此得到训练好的分类器;
步骤4、利用训练好的分类器对输入的待检测图像进行分类筛选,以检测待检测图像中是否存在想要检测的目标。
上述步骤4的具体步骤如下:
步骤4.1、随机预设一个扫描子窗口;
步骤4.2、用扫描子窗口在待检测图像中不断的移位滑动,扫描子窗口每到一个位置,就会计算出该区域的特征;
步骤4.3、用训练好的分类器对该特征进行分类筛选,判定该区域是否为目标窗口;
步骤4.4、当步骤4.2所得到的目标窗口与训练样本中的实际窗口尺寸不一致时,则调整扫描子窗口使其与训练样本中的实际窗口尺寸一致,并重复4.2和4.3,此时所得到的目标窗口即为所需检测的目标。
与现有技术相比,本发明具有如下特点:
(1)掩膜处理:在RPN网络中,用预先制作的感兴趣区掩膜(图像处理中掩膜一般为二维矩阵数组,有时也用多值图像)与待处理图像相乘,得到感兴趣区图像,感兴趣区内图像值保持不变,而区外图像值都为0。
(2)针对回归边框不能准确定位,本发明提出利用模拟退火算法来着重解决建议窗口与实际窗口的非线性问题。
(3)在RPN网络前加入了池化层,使得进入RPN网络的图像是同样尺寸的,这样提高了整个Faster-RCNN网络的实时性。
附图说明
图1为一种基于深度学习的目标检测方法的原理框图。
图2为建议窗口微调原理图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实例,并参照附图,对本发明进一步详细说明。
参见图1,一种基于深度学习的目标检测方法,其具体包括步骤如下:
步骤1、训练分类器所需训练样本的创建:
训练样本包括正例样本和负例样本;其中正例样本是指待检目标样本(例如人脸或汽车等),负例样本指其它不包含目标的任意图片(如背景等),所有的样本图片都被归一化为同样的尺寸大小(例如,20×20)。
步骤2、训练样本的特征提取:
(1)采用均值滤波器对图像进行去噪;
(2)利用CNN(神经网络)进行特征提取。
步骤3、用训练样本来训练分类器:
(1)用掩膜的屏蔽作用,对图像上某些区域屏蔽,使其不参与参数的计算。
掩膜的具体步骤:用预先制作的感兴趣区掩模(图像处理中掩膜一般为二维矩阵数组,有时也用多值图像)与待处理图像相乘,感兴趣区内图像值保持不变,而区外图像值都为0,得到感兴趣区图像。
(2)采用分水岭算法对掩膜处理后的图像进行语义分割。
由于分水岭算法对微弱边缘具有良好的响应,图像中的噪声、物体表面细微的灰度变化,都会产生过度分割的现象,而加入了掩膜处理后,增强了目标与背景的对比度,则有效消除分水岭算法带来的过分割问题。
(3)采用模糊C均值算法(FCM)对语义分割后的图像进行聚类操作,生成建议窗口。
根据图像的像素进行聚类操作,大大减少了生成的建议窗口与真实窗口的距离。
(4)对生成的建议窗口进行调整。
图2中实线框代表待检测目标的实际窗口(ground truth),虚线框代表提取的建议窗口(region proposal)。那么即便建议窗口被分类器识别为目标,但是由于建议窗口定位不准,即两者的IOU(重叠度)较小,那么这张图相当于没有正确的检测出目标。如果我们能对建议窗口进行调整,使得经过微调后的窗口跟实际窗口更接近,定位会更准确。当IOU较大时,此调整就是线性问题,可以用线性回归进行建模;当IOU较小时,此调整就非线性问题,这样就不能用线性回归建立模型,针对非线性问题,由于模拟退火算法具有跳出局部最优陷阱的能力,即系统落入了局部最优的陷阱,经过一段时间后,它还能再跳出来,使系统最终将往全局最优值的方向收敛;所以采用模拟退火算法对生成的建议窗口进行回归迭代,使得迭代得到的窗口与实际窗口(ground truth)相似(IOU值较大)。
(5)将调整后的建议窗口送入到softmax分类器中,对其进行训练,由此得到训练好的分类器。
步骤4、利用训练好的分类器进行目标检测:得到了分类器就可以用来对输入的图像进行分类了,也就是在图像中检测是否存在想要检测的目标。
一般的检测过程是这样的:用一个扫描子窗口在待检测的图像中不断的移位滑动,子窗口每到一个位置,就会计算出该区域的特征,然后用我们训练好的分类器对该特征进行筛选,判定该区域是否为目标。因为目标在图像的大小可能和你训练分类器时使用的样本图片大小不一样,所以就需要对这个扫描的子窗口变大或者变小(或者将图像变小),再在图像中滑动,再匹配一遍。
需要说明的是,尽管以上本发明所述的实施例是说明性的,但这并非是对本发明的限制,因此本发明并不局限于上述具体实施方式中。在不脱离本发明原理的情况下,凡是本领域技术人员在本发明的启示下获得的其它实施方式,均视为在本发明的保护之内。
Claims (2)
1.一种基于深度学习的目标检测方法,其特征是,包括步骤如下:
步骤1、选取训练分类器所需训练样本,其中训练样本包括正例样本和负例样本,正例样本为包含有待检目标的图片,负例样本为不包含待检目标的任意图片;上述所有训练样本都被归一化为同样的尺寸大小;
步骤2、采用均值滤波器对训练样本进行去噪,再利用神经网络对去噪后的训练样本进行特征提取;
步骤3、用训练样本来训练分类器:
步骤3.1、用预先制作的感兴趣区掩模与训练样本相乘,对于感兴趣区内的图像值保持不变,而感兴趣区外的图像值都为0,得到感兴趣区图像;
步骤3.2、采用分水岭算法对掩膜处理的图像进行语义分割;
步骤3.3、采用模糊C均值算法对语义分割后的图像进行像素聚类操作,生成建议窗口;
步骤3.4、判断生成的建议窗口与实际窗口的重叠度是否大于设定的重叠度阈值,如果是,则用线性回归的方法对建议窗口进行调整,否则采用模拟退火算法对建议窗口进行调整;
步骤3.5、将调整后的建议窗口送入到softmax分类器中进行训练,由此得到训练好的分类器;
步骤4、利用训练好的分类器对输入的待检测图像进行分类筛选,以检测待检测图像中是否存在想要检测的目标。
2.根据权利要求1所述的一种基于深度学习的目标检测方法,其特征是,步骤4的具体步骤如下:
步骤4.1、随机预设一个扫描子窗口;
步骤4.2、用扫描子窗口在待检测图像中不断的移位滑动,扫描子窗口每到一个位置,就会计算出该区域的特征;
步骤4.3、用训练好的分类器对该特征进行分类筛选,判定该区域是否为目标窗口;
步骤4.4、当步骤4.2所得到的目标窗口与训练样本中的实际窗口尺寸不一致时,则调整扫描子窗口使其与训练样本中的实际窗口尺寸一致,并重复4.2和4.3,此时所得到的目标窗口即为所需检测的目标。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811107668.0A CN109242032B (zh) | 2018-09-21 | 2018-09-21 | 一种基于深度学习的目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811107668.0A CN109242032B (zh) | 2018-09-21 | 2018-09-21 | 一种基于深度学习的目标检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109242032A true CN109242032A (zh) | 2019-01-18 |
CN109242032B CN109242032B (zh) | 2021-11-16 |
Family
ID=65056510
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811107668.0A Active CN109242032B (zh) | 2018-09-21 | 2018-09-21 | 一种基于深度学习的目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109242032B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109978036A (zh) * | 2019-03-11 | 2019-07-05 | 华瑞新智科技(北京)有限公司 | 目标检测深度学习模型训练方法以及目标检测方法 |
CN110782420A (zh) * | 2019-09-19 | 2020-02-11 | 杭州电子科技大学 | 一种基于深度学习的小目标特征表示增强方法 |
CN111582057A (zh) * | 2020-04-20 | 2020-08-25 | 东南大学 | 一种基于局部感受野的人脸验证方法 |
CN113362323A (zh) * | 2021-07-21 | 2021-09-07 | 中国科学院空天信息创新研究院 | 基于滑窗分块的图像检测方法 |
CN114882301A (zh) * | 2022-07-11 | 2022-08-09 | 四川大学 | 基于感兴趣区域的自监督学习医学图像识别方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170277981A1 (en) * | 2016-01-08 | 2017-09-28 | Siemens Healthcare Gmbh | Deep Image-to-Image Network Learning for Medical Image Analysis |
CN107680106A (zh) * | 2017-10-13 | 2018-02-09 | 南京航空航天大学 | 一种基于Faster R‑CNN的显著性目标检测方法 |
CN108389207A (zh) * | 2018-04-28 | 2018-08-10 | 上海视可电子科技有限公司 | 一种牙病诊断方法、诊断设备及智能图像采集装置 |
-
2018
- 2018-09-21 CN CN201811107668.0A patent/CN109242032B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170277981A1 (en) * | 2016-01-08 | 2017-09-28 | Siemens Healthcare Gmbh | Deep Image-to-Image Network Learning for Medical Image Analysis |
CN107680106A (zh) * | 2017-10-13 | 2018-02-09 | 南京航空航天大学 | 一种基于Faster R‑CNN的显著性目标检测方法 |
CN108389207A (zh) * | 2018-04-28 | 2018-08-10 | 上海视可电子科技有限公司 | 一种牙病诊断方法、诊断设备及智能图像采集装置 |
Non-Patent Citations (2)
Title |
---|
SHAOQING REN 等: "Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks", 《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》 * |
姚群力 等: "深度卷积神经网络在目标检测中的研究进展", 《计算机工程与应用》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109978036A (zh) * | 2019-03-11 | 2019-07-05 | 华瑞新智科技(北京)有限公司 | 目标检测深度学习模型训练方法以及目标检测方法 |
CN110782420A (zh) * | 2019-09-19 | 2020-02-11 | 杭州电子科技大学 | 一种基于深度学习的小目标特征表示增强方法 |
CN111582057A (zh) * | 2020-04-20 | 2020-08-25 | 东南大学 | 一种基于局部感受野的人脸验证方法 |
CN111582057B (zh) * | 2020-04-20 | 2022-02-15 | 东南大学 | 一种基于局部感受野的人脸验证方法 |
CN113362323A (zh) * | 2021-07-21 | 2021-09-07 | 中国科学院空天信息创新研究院 | 基于滑窗分块的图像检测方法 |
CN113362323B (zh) * | 2021-07-21 | 2022-09-16 | 中国科学院空天信息创新研究院 | 基于滑窗分块的图像检测方法 |
CN114882301A (zh) * | 2022-07-11 | 2022-08-09 | 四川大学 | 基于感兴趣区域的自监督学习医学图像识别方法及装置 |
CN114882301B (zh) * | 2022-07-11 | 2022-09-13 | 四川大学 | 基于感兴趣区域的自监督学习医学图像识别方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN109242032B (zh) | 2021-11-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109242032A (zh) | 一种基于深度学习的目标检测方法 | |
US11887362B2 (en) | Sky filter method for panoramic images and portable terminal | |
Khan et al. | An efficient contour based fine-grained algorithm for multi category object detection | |
CN107909081B (zh) | 一种深度学习中图像数据集的快速获取和快速标定方法 | |
CN107516316B (zh) | 一种在fcn中引入聚焦机制对静态人体图像进行分割的方法 | |
CN113592911B (zh) | 表观增强深度目标跟踪方法 | |
CN110634116B (zh) | 一种面部图像评分方法及摄像机 | |
CN112991193B (zh) | 深度图像修复方法、设备及计算机可读存储介质 | |
CN109191429B (zh) | 一种基于机器视觉的3d打印喷嘴检测方法 | |
CN104182943B (zh) | 一种融合人眼视觉特性的单幅图像去雾方法 | |
CN114926407A (zh) | 一种基于深度学习的钢材表面缺陷检测系统 | |
CN111553310B (zh) | 基于毫米波雷达的安检图像获取方法、系统及安检设备 | |
CN105046202B (zh) | 自适应的人脸识别光照处理方法 | |
CN107025442A (zh) | 一种基于颜色和深度信息的多模态融合手势识别方法 | |
CN110766016A (zh) | 一种基于概率神经网络的喷码字符识别方法 | |
CN113222938A (zh) | 芯片缺陷检测方法及系统与计算机可读存储介质 | |
KR101084594B1 (ko) | 영상 인식 시스템 및 그 방법 | |
CN111738237B (zh) | 一种基于异构卷积的多核迭代rpn的目标检测方法 | |
CN107944393B (zh) | 人脸鼻尖定位方法 | |
CN104331700B (zh) | 基于轨迹能量扩散图的组行为识别方法 | |
CN110188693B (zh) | 改进的复杂环境车辆特征提取和停车判别方法 | |
CN108205678A (zh) | 一种含有亮斑干扰的铭牌文字识别处理方法 | |
CN109145875B (zh) | 一种人脸图像中的黑框眼镜去除方法及装置 | |
Allili et al. | An approach for dynamic combination of region and boundary information in segmentation | |
CN110675416B (zh) | 基于抽象轮廓分析的瞳孔中心检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |