CN111709449B - 一种基于聚类算法的多层特征融合的小尺度目标检测方法 - Google Patents
一种基于聚类算法的多层特征融合的小尺度目标检测方法 Download PDFInfo
- Publication number
- CN111709449B CN111709449B CN202010432039.6A CN202010432039A CN111709449B CN 111709449 B CN111709449 B CN 111709449B CN 202010432039 A CN202010432039 A CN 202010432039A CN 111709449 B CN111709449 B CN 111709449B
- Authority
- CN
- China
- Prior art keywords
- layer
- feature
- feature map
- clustering algorithm
- small
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Abstract
本发明公开了一种基于聚类算法的多层特征融合的小尺度目标检测方法,过程是:在特征网络提取层中将具有高分辨率特性的底层特征和具有高语义特性的高层特征进行融合得到新的特征图,并在候选区域生成网络层中将特征网络提取层得到的特征图作为输入,然后使用了K‑means聚类算法来生成目标候选区域。将目标候选区域映射到特征图上生成建议特征图,最后使用分类层对建议特征图进行类别分类和位置回归。本发明方法,明显改善了小尺度目标检测的精度。
Description
技术领域
本发明属于计算机视觉和深度学习等领域中的目标检测技术,涉及一种基于聚类算法的多层特征融合的小尺度目标检测方法。
背景技术
随着计算机计算能力的提升,互联网产生的大数据,以及神经网络的不断优化,深度学习得到迅速的发展。从诞生以来,深度学习经过长期的发展,现在已经被应用于计算机视觉、自然语言处理、多任务学习和手写识别、艺术创作等领域。
目标检测作为计算机视觉领域的重要研究部分之一,在当今的生产生活中,目标检测已经渐渐地应用在我们的生活中,目标检测在视频监控、自动驾驶系统、人脸检测识别系统、医学图像目标检测等领域具有十分广泛的应用场景。而小尺度目标检测又是目标检测中不可忽视的一个问题,具有巨大的需求,但是由于小尺度目标本身的像素少和所包含的特征不明显等问题的存在,实现小尺度目标检测在目前仍然具有一定的难度和挑战,例如视频监控中的车牌识别、自动驾驶系统中的红绿灯和路标与医学图像检测中的早期癌症患者这些小尺度目标均存在检测精度较低的问题。
尽管当前有学者提出了一些解决方案来提高小尺度目标检测的精度,但是这些方法大部分适用于特定的应用,对于其他的小尺度目标和常规的目标的检测不如通用的目标检测算法,所以小尺度目标检测性能的提高具有重大意义。
发明内容
本发明的目的是提供一种基于聚类算法的多层特征融合的方法提高小尺度目标检测的方法,解决了现有目标检测技术对于小尺度目标检测存在的检测精度较低的问题。
本发明所采用的技术方案如下:
一种基于聚类算法的多层特征融合的小尺度目标检测方法,在特征网络提取层中将具有高分辨率特性的底层特征和具有高语义特性的高层特征进行融合并输出特征图,使得新的特征图同时具有高分辨率和高语义特性,从而提高小尺度目标的检测精度。
具体按照以下过程实施:
步骤1:确定以VGG16为特征提取网络;
步骤2:设计基于聚类算法的多层特征融合方法,在特征网络提取层中将具有高分辨率特性的底层特征和具有高语义特性的高层特征进行融合并输出特征图,使得新的特征图同时具有高分辨率和高语义特性;在候选区域网络层使用K-means聚类算法来生成锚框;
步骤3:构建目标检测网络;
步骤4:输出小尺度目标的检测结果。
步骤1中,VGG16特征提取网络包含13个卷积层、13个激活函数层和4个池化层。
步骤2中,K-means聚类算法生成锚框的过程具体为:
步骤2.1:对标注的数据集生成一个包含标注框位置和类别的TXT文件,每行都包含(xj,yj,wj,hj),即ground truth boxes相对于原图的坐标,(xj,yj)是框的中心点,(wj,hj)是框的宽和高。
步骤2.2:给定K个聚类中心点(wi,hi),wi,hi是anchor boxes的宽和高的尺寸,由于anchors boxes位置不固定,所以没有(x,y)的坐标,只有宽和高。
步骤2.3:计算每个标注框到聚类中心的距离D,将标注框分配给距离最近的聚类中心。
步骤2.4:所有标注框分配完毕之后,对每个簇重新计算聚类中心点,Ni是第i个簇的标注框的个数,距离D的表达式为D(box,centroid)=1-IOU(box,centroid)。
步骤2.5:重复步骤2.3,2.4,直至聚类中心的保持不变。
步骤3中,构建目标检测网络的具体步骤为:
将特征网络提取层的特征图和候选区域生成网络层生成的目标候选区域作为Faster R-CNN中的ROI Pooling层的输入并输出建议特征图,最后使用Faster R-CNN中的分类层进行类别分类和位置回归。
步骤4中,输出检测结果的具体步骤为:
给定输入图像,经过基于聚类算法的多层融合方法生成的特征图和目标候选区域,在ROI Pooling层中,将目标候选区域映射到特征图上,并生成建议特征图。分类层使用建议特征图使用分类函数进行目标的类别分类和位置信息的回归并输出结果。
本发明的有益效果在于,相比于常规的Faster R-CNN目标检测算法,本发明提到方法在特征网络提取层可以同时融合底层的高分辨率特征和高层的高语义特征,能够提取到更多的小尺度目标的信息,更加有利于小尺度目标的检测。在目标候选区域生成网络层使用K-means聚类算法生成锚框,鲁棒性更强。
附图说明
图1是小尺度目标检测的问题,左图中的安全帽和右图中的车辆的检测的精度较低;
图2是本发明方法中的基于聚类算法的多层特征融合方法的示意图;
图3是本发明与Faster R-CNN在改进前小尺度目标检测的实验结果对比;
图4是本发明和Faster R-CNN检测精度的对比曲线图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明提出了一种用于提高小尺度目标检测的基于聚类算法的多层特征融合的方法,网络结构图如图2所示,在特征网络提取层中将具有高分辨率特性的底层特征和具有高语义特性的高层特征进行融合并输出特征图,使得新的特征图同时具有高分辨率和高语义特性。可以使用Tensorflow中的tf.concat()函数将对应的底层特征和高层特征进行融合。在候选区域生成网络层使用K-means聚类算法来生成锚框,不需要手动设置锚框的尺寸和比例,鲁棒性更强。K-means聚类算法生成锚框的过程:
(1)对标注的数据集生成一个包含标注框位置和类别的TXT文件,每行都包含(xj,yj,wj,hj),即ground truth boxes相对于原图的坐标,(xj,yj)是框的中心点,(wj,hj)是框的宽和高。
(2)给定K个聚类中心点(wi,hi),wi,hi是anchor boxes的宽和高的尺寸,由于anchors boxes位置不固定,所以没有(x,y)的坐标,只有宽和高。
(3)计算每个标注框到聚类中心的距离D,将标注框分配给距离最近的聚类中心。
(4)所有标注框分配完毕之后,对每个簇重新计算聚类中心点,Ni是第i个簇的标注框的个数,距离D的表达式为D(box,centroid)=1-IOU(box,centroid)。
(5)重复3,4步,直至聚类中心的改变量很小。
通过这两者的结合来提高小尺度目标的检测性能。
实施例
第一、实验准备
首先选择深度学习框架,从github上得到3个维度用于评价各个深度学习框架,分别是关注人数、拷贝到自己仓库的人数和贡献人数,最终选择Tensorflow作为本文的深度学习框架。
其次选择数据集,将KITTI数据集和安全帽数据集作为自己实验的两个数据集,一个用来测试,另外一个用来验证。两个数据集的都分为三个部分,训练集,验证集和测试集,三者的比例为8:1:1。
然后进行网络初始化和训练参数的设置,我们使用vgg_16_2016预处理模型作为网络的初始值,将学习率设置为0.001,最大迭代次数设置为40000次,当迭代到30000次的时候将学习率设置为原来的1/10,将批处理大小设置为256。
最后,开始训练,在训练的过程中画出loss的曲线图,直至loss的值较小且趋于平稳,表明模型达到一定的精度。
第二、验证对比
得到改进前后的训练模型之后,分别在两个数据集中的测试集进行测试,测试结果如表格1,可以看出本发明所提出的基于聚类算法的多层特征融合方法对于小尺度目标的检测精度有一定的提升。其中Faster R-CNN表示改进前的算法,CMFR R-CNN表示改进后的算法,即基于聚类算法的多层特征的融合方法。根据表格1,然后绘制出图4,能够更加直观的比较各个算法的检测性能。其中,横坐标为各个数据集以及类别,纵坐标为小尺度目标的检测精度,然后用不同的线的形式来画出不同的算法的检测性能。
表格1在KITTI数据集和安全帽数据集上的检测性能对比
通过上表可以得出使用了基于聚类的多层特征融合算法之后,KITTI和安全帽数据集在“2+3+4+5”、“3+4+5”和“3+5”的特征融合的总体mAP和各个类别的mAP要优于原始算法的检测模型。在“4+5”的基于聚类的多层特征融合的模型远远不如原来的模型的检测效果,而“2+3+4+5”这个改进算法是最优的。同时可知,低层和高层的融合有利于小尺度目标的检测,而较高层和高层的融合不利于小尺度目标的检测。
如图1所示为原始算法的检测结果,如图3所示为应用了“2+3+4+5”融合的算法的检测结果。通过对比图1和图3可以发现,改进后的算法检测框的位置比改进前的更为精确,同时小尺度目标的检测精度都有一定的提升。
Claims (3)
1.一种基于聚类算法的多层特征融合的小尺度目标检测方法,其特征在于,在特征网络提取层中将具有高分辨率特性的底层特征和具有高语义特性的高层特征进行融合并输出特征图,使得新的特征图同时具有高分辨率和高语义特性,从而提高小尺度目标的检测精度;
具体按照以下过程实施:
步骤1:确定以VGG16为特征提取网络;
步骤2:设计基于聚类算法的多层特征融合方法,在特征网络提取层中将具有高分辨率特性的底层特征和具有高语义特性的高层特征进行融合并输出特征图,使得新的特征图同时具有高分辨率和高语义特性;在候选区域网络层使用K-means聚类算法来生成锚框;
所述步骤2中,K-means聚类算法生成锚框的过程具体为:
步骤2.1:对标注的数据集生成一个包含标注框位置和类别的TXT文件,每行都包含(xj,yj,wj,hj),即ground truth boxes相对于原图的坐标,(xj,yj)是框的中心点,(wj,hj)是框的宽和高;
步骤2.2:给定K个聚类中心点(wi,hi),wi,hi是anchor boxes的宽和高的尺寸,由于anchors boxes位置不固定,所以没有(x,y)的坐标,只有宽和高;
步骤2.3:计算每个标注框到聚类中心的距离D,将标注框分配给距离最近的聚类中心;
步骤2.4:所有标注框分配完毕之后,对每个簇重新计算聚类中心点,Ni是第i个簇的标注框的个数,距离D的表达式为D(box,centroid)=1-IOU(box,centroid);
步骤2.5:重复步骤2.3,2.4,直至聚类中心的保持不变;
步骤3:构建目标检测网络;
步骤4:输出小尺度目标的检测结果;
所述步骤4中,输出检测结果的具体步骤为:
给定输入图像,经过基于聚类算法的多层融合方法生成的特征图和目标候选区域,在ROI Pooling层中,将目标候选区域映射到特征图上,并生成建议特征图;分类层使用建议特征图使用分类函数进行目标的类别分类和位置信息的回归并输出结果。
2.根据权利要求1所述的一种基于聚类算法的多层特征融合的小尺度目标检测方法,其特征在于,所述步骤1中,VGG16特征提取网络包含13个卷积层、13个激活函数层和4个池化层。
3.根据权利要求1所述的一种基于聚类算法的多层特征融合的小尺度目标检测方法,其特征在于,所述步骤3中,构建目标检测网络的具体步骤为:将特征网络提取层的特征图和候选区域生成网络层生成的目标候选区域作为Faster R-CNN中的ROI Pooling层的输入并输出建议特征图,最后使用Faster R-CNN中的分类层进行类别分类和位置回归。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010432039.6A CN111709449B (zh) | 2020-05-20 | 2020-05-20 | 一种基于聚类算法的多层特征融合的小尺度目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010432039.6A CN111709449B (zh) | 2020-05-20 | 2020-05-20 | 一种基于聚类算法的多层特征融合的小尺度目标检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111709449A CN111709449A (zh) | 2020-09-25 |
CN111709449B true CN111709449B (zh) | 2023-08-18 |
Family
ID=72537636
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010432039.6A Active CN111709449B (zh) | 2020-05-20 | 2020-05-20 | 一种基于聚类算法的多层特征融合的小尺度目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111709449B (zh) |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108399362B (zh) * | 2018-01-24 | 2022-01-07 | 中山大学 | 一种快速行人检测方法及装置 |
CN109255375A (zh) * | 2018-08-29 | 2019-01-22 | 长春博立电子科技有限公司 | 基于深度学习的全景图像对象检测方法 |
CN110909800B (zh) * | 2019-11-26 | 2023-08-08 | 浙江理工大学 | 一种基于Faster R-CNN改进算法的车辆检测方法 |
-
2020
- 2020-05-20 CN CN202010432039.6A patent/CN111709449B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN111709449A (zh) | 2020-09-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111191583B (zh) | 基于卷积神经网络的空间目标识别系统及方法 | |
Chen et al. | Inception-SSD: An improved single shot detector for vehicle detection | |
CN110543906B (zh) | 基于Mask R-CNN模型的肤质自动识别方法 | |
CN114898327B (zh) | 一种基于轻量化深度学习网络的车辆检测方法 | |
Wei et al. | Accurate facial image parsing at real-time speed | |
CN113239753A (zh) | 基于YOLOv4改进的交通标志检测与识别方法 | |
Zhao-zhao et al. | Research on application of improved YOLO V3 algorithm in road target detection | |
CN111582339A (zh) | 一种基于深度学习的车辆检测与识别的方法 | |
Fan et al. | Multi-system fusion based on deep neural network and cloud edge computing and its application in intelligent manufacturing | |
Chen et al. | An effective approach of vehicle detection using deep learning | |
Wang et al. | Pedestrian detection in infrared image based on depth transfer learning | |
Qian et al. | Partner learning: A comprehensive knowledge transfer for vehicle re-identification | |
Yu et al. | 3D reconstruction for multi-view objects | |
CN117274388B (zh) | 基于视觉文本关系对齐的无监督三维视觉定位方法及系统 | |
Li et al. | Caption generation from road images for traffic scene modeling | |
CN117079276B (zh) | 一种基于知识蒸馏的语义分割方法、系统、设备及介质 | |
CN111709449B (zh) | 一种基于聚类算法的多层特征融合的小尺度目标检测方法 | |
CN117237643A (zh) | 一种点云语义分割方法及系统 | |
Li et al. | Semantic segmentation of urban street scene based on convolutional neural network | |
CN116704511A (zh) | 设备清单文字识别方法和装置 | |
CN114241470A (zh) | 一种基于注意力机制的自然场景文字检测方法 | |
An et al. | SP-Det: Leveraging Saliency Prediction for Voxel-based 3D Object Detection in Sparse Point Cloud | |
Chen et al. | Point-attention Net: a graph attention convolution network for point cloudsegmentation | |
Ma et al. | An attention-based progressive fusion network for pixelwise pavement crack detection | |
Wang | Improved facial expression recognition method based on gan |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |