CN111709449B

CN111709449B - 一种基于聚类算法的多层特征融合的小尺度目标检测方法

Info

Publication number: CN111709449B
Application number: CN202010432039.6A
Authority: CN
Inventors: 孙钦东; 薛琦; 白文鹏; 王倩; 张景鹏
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2020-05-20
Filing date: 2020-05-20
Publication date: 2023-08-18
Anticipated expiration: 2040-05-20
Also published as: CN111709449A

Abstract

本发明公开了一种基于聚类算法的多层特征融合的小尺度目标检测方法，过程是：在特征网络提取层中将具有高分辨率特性的底层特征和具有高语义特性的高层特征进行融合得到新的特征图，并在候选区域生成网络层中将特征网络提取层得到的特征图作为输入，然后使用了K‑means聚类算法来生成目标候选区域。将目标候选区域映射到特征图上生成建议特征图，最后使用分类层对建议特征图进行类别分类和位置回归。本发明方法，明显改善了小尺度目标检测的精度。

Description

一种基于聚类算法的多层特征融合的小尺度目标检测方法

技术领域

本发明属于计算机视觉和深度学习等领域中的目标检测技术，涉及一种基于聚类算法的多层特征融合的小尺度目标检测方法。

背景技术

随着计算机计算能力的提升，互联网产生的大数据，以及神经网络的不断优化，深度学习得到迅速的发展。从诞生以来，深度学习经过长期的发展，现在已经被应用于计算机视觉、自然语言处理、多任务学习和手写识别、艺术创作等领域。

目标检测作为计算机视觉领域的重要研究部分之一，在当今的生产生活中，目标检测已经渐渐地应用在我们的生活中，目标检测在视频监控、自动驾驶系统、人脸检测识别系统、医学图像目标检测等领域具有十分广泛的应用场景。而小尺度目标检测又是目标检测中不可忽视的一个问题，具有巨大的需求，但是由于小尺度目标本身的像素少和所包含的特征不明显等问题的存在，实现小尺度目标检测在目前仍然具有一定的难度和挑战，例如视频监控中的车牌识别、自动驾驶系统中的红绿灯和路标与医学图像检测中的早期癌症患者这些小尺度目标均存在检测精度较低的问题。

尽管当前有学者提出了一些解决方案来提高小尺度目标检测的精度，但是这些方法大部分适用于特定的应用，对于其他的小尺度目标和常规的目标的检测不如通用的目标检测算法，所以小尺度目标检测性能的提高具有重大意义。

发明内容

本发明的目的是提供一种基于聚类算法的多层特征融合的方法提高小尺度目标检测的方法，解决了现有目标检测技术对于小尺度目标检测存在的检测精度较低的问题。

本发明所采用的技术方案如下：

一种基于聚类算法的多层特征融合的小尺度目标检测方法，在特征网络提取层中将具有高分辨率特性的底层特征和具有高语义特性的高层特征进行融合并输出特征图，使得新的特征图同时具有高分辨率和高语义特性，从而提高小尺度目标的检测精度。

具体按照以下过程实施：

步骤1：确定以VGG16为特征提取网络；

步骤2：设计基于聚类算法的多层特征融合方法，在特征网络提取层中将具有高分辨率特性的底层特征和具有高语义特性的高层特征进行融合并输出特征图，使得新的特征图同时具有高分辨率和高语义特性；在候选区域网络层使用K-means聚类算法来生成锚框；

步骤3：构建目标检测网络；

步骤4：输出小尺度目标的检测结果。

步骤1中，VGG16特征提取网络包含13个卷积层、13个激活函数层和4个池化层。

步骤2中，K-means聚类算法生成锚框的过程具体为：

步骤2.1：对标注的数据集生成一个包含标注框位置和类别的TXT文件，每行都包含(x_j,y_j,w_j,h_j)，即ground truth boxes相对于原图的坐标，(x_j,y_j)是框的中心点，(w_j,h_j)是框的宽和高。

步骤2.2：给定K个聚类中心点(w_i,h_i)，w_i，h_i是anchor boxes的宽和高的尺寸，由于anchors boxes位置不固定，所以没有(x,y)的坐标，只有宽和高。

步骤2.3：计算每个标注框到聚类中心的距离D，将标注框分配给距离最近的聚类中心。

步骤2.4：所有标注框分配完毕之后，对每个簇重新计算聚类中心点，N_i是第i个簇的标注框的个数，距离D的表达式为D(box,centroid)＝1-IOU(box,centroid)。

步骤2.5：重复步骤2.3,2.4，直至聚类中心的保持不变。

步骤3中，构建目标检测网络的具体步骤为：

将特征网络提取层的特征图和候选区域生成网络层生成的目标候选区域作为Faster R-CNN中的ROI Pooling层的输入并输出建议特征图，最后使用Faster R-CNN中的分类层进行类别分类和位置回归。

步骤4中，输出检测结果的具体步骤为：

给定输入图像，经过基于聚类算法的多层融合方法生成的特征图和目标候选区域，在ROI Pooling层中，将目标候选区域映射到特征图上，并生成建议特征图。分类层使用建议特征图使用分类函数进行目标的类别分类和位置信息的回归并输出结果。

本发明的有益效果在于，相比于常规的Faster R-CNN目标检测算法，本发明提到方法在特征网络提取层可以同时融合底层的高分辨率特征和高层的高语义特征，能够提取到更多的小尺度目标的信息，更加有利于小尺度目标的检测。在目标候选区域生成网络层使用K-means聚类算法生成锚框，鲁棒性更强。

附图说明

图1是小尺度目标检测的问题，左图中的安全帽和右图中的车辆的检测的精度较低；

图2是本发明方法中的基于聚类算法的多层特征融合方法的示意图；

图3是本发明与Faster R-CNN在改进前小尺度目标检测的实验结果对比；

图4是本发明和Faster R-CNN检测精度的对比曲线图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明提出了一种用于提高小尺度目标检测的基于聚类算法的多层特征融合的方法，网络结构图如图2所示，在特征网络提取层中将具有高分辨率特性的底层特征和具有高语义特性的高层特征进行融合并输出特征图，使得新的特征图同时具有高分辨率和高语义特性。可以使用Tensorflow中的tf.concat()函数将对应的底层特征和高层特征进行融合。在候选区域生成网络层使用K-means聚类算法来生成锚框，不需要手动设置锚框的尺寸和比例，鲁棒性更强。K-means聚类算法生成锚框的过程：

(1)对标注的数据集生成一个包含标注框位置和类别的TXT文件，每行都包含(x_j,y_j,w_j,h_j)，即ground truth boxes相对于原图的坐标，(x_j,y_j)是框的中心点，(w_j,h_j)是框的宽和高。

(2)给定K个聚类中心点(w_i,h_i)，w_i，h_i是anchor boxes的宽和高的尺寸，由于anchors boxes位置不固定，所以没有(x,y)的坐标，只有宽和高。

(3)计算每个标注框到聚类中心的距离D，将标注框分配给距离最近的聚类中心。

(4)所有标注框分配完毕之后，对每个簇重新计算聚类中心点，N_i是第i个簇的标注框的个数，距离D的表达式为D(box,centroid)＝1-IOU(box,centroid)。

(5)重复3,4步，直至聚类中心的改变量很小。

通过这两者的结合来提高小尺度目标的检测性能。

实施例

第一、实验准备

首先选择深度学习框架，从github上得到3个维度用于评价各个深度学习框架，分别是关注人数、拷贝到自己仓库的人数和贡献人数，最终选择Tensorflow作为本文的深度学习框架。

其次选择数据集，将KITTI数据集和安全帽数据集作为自己实验的两个数据集，一个用来测试，另外一个用来验证。两个数据集的都分为三个部分，训练集，验证集和测试集，三者的比例为8:1:1。

然后进行网络初始化和训练参数的设置，我们使用vgg_16_2016预处理模型作为网络的初始值，将学习率设置为0.001，最大迭代次数设置为40000次，当迭代到30000次的时候将学习率设置为原来的1/10，将批处理大小设置为256。

最后，开始训练，在训练的过程中画出loss的曲线图，直至loss的值较小且趋于平稳，表明模型达到一定的精度。

第二、验证对比

得到改进前后的训练模型之后，分别在两个数据集中的测试集进行测试，测试结果如表格1，可以看出本发明所提出的基于聚类算法的多层特征融合方法对于小尺度目标的检测精度有一定的提升。其中Faster R-CNN表示改进前的算法，CMFR R-CNN表示改进后的算法，即基于聚类算法的多层特征的融合方法。根据表格1，然后绘制出图4，能够更加直观的比较各个算法的检测性能。其中，横坐标为各个数据集以及类别，纵坐标为小尺度目标的检测精度，然后用不同的线的形式来画出不同的算法的检测性能。

表格1在KITTI数据集和安全帽数据集上的检测性能对比

通过上表可以得出使用了基于聚类的多层特征融合算法之后，KITTI和安全帽数据集在“2+3+4+5”、“3+4+5”和“3+5”的特征融合的总体mAP和各个类别的mAP要优于原始算法的检测模型。在“4+5”的基于聚类的多层特征融合的模型远远不如原来的模型的检测效果，而“2+3+4+5”这个改进算法是最优的。同时可知，低层和高层的融合有利于小尺度目标的检测，而较高层和高层的融合不利于小尺度目标的检测。

如图1所示为原始算法的检测结果，如图3所示为应用了“2+3+4+5”融合的算法的检测结果。通过对比图1和图3可以发现，改进后的算法检测框的位置比改进前的更为精确，同时小尺度目标的检测精度都有一定的提升。

Claims

1.一种基于聚类算法的多层特征融合的小尺度目标检测方法，其特征在于，在特征网络提取层中将具有高分辨率特性的底层特征和具有高语义特性的高层特征进行融合并输出特征图，使得新的特征图同时具有高分辨率和高语义特性，从而提高小尺度目标的检测精度；

具体按照以下过程实施：

步骤1：确定以VGG16为特征提取网络；

所述步骤2中，K-means聚类算法生成锚框的过程具体为：

步骤2.1：对标注的数据集生成一个包含标注框位置和类别的TXT文件，每行都包含(x_j,y_j,w_j,h_j)，即ground truth boxes相对于原图的坐标，(x_j,y_j)是框的中心点，(w_j,h_j)是框的宽和高；

步骤2.2：给定K个聚类中心点(w_i,h_i)，w_i，h_i是anchor boxes的宽和高的尺寸，由于anchors boxes位置不固定，所以没有(x,y)的坐标，只有宽和高；

步骤2.3：计算每个标注框到聚类中心的距离D，将标注框分配给距离最近的聚类中心；

步骤2.4：所有标注框分配完毕之后，对每个簇重新计算聚类中心点，N_i是第i个簇的标注框的个数，距离D的表达式为D(box,centroid)＝1-IOU(box,centroid)；

步骤2.5：重复步骤2.3,2.4，直至聚类中心的保持不变；

步骤3：构建目标检测网络；

步骤4：输出小尺度目标的检测结果；

所述步骤4中，输出检测结果的具体步骤为：

给定输入图像，经过基于聚类算法的多层融合方法生成的特征图和目标候选区域，在ROI Pooling层中，将目标候选区域映射到特征图上，并生成建议特征图；分类层使用建议特征图使用分类函数进行目标的类别分类和位置信息的回归并输出结果。

2.根据权利要求1所述的一种基于聚类算法的多层特征融合的小尺度目标检测方法，其特征在于，所述步骤1中，VGG16特征提取网络包含13个卷积层、13个激活函数层和4个池化层。

3.根据权利要求1所述的一种基于聚类算法的多层特征融合的小尺度目标检测方法，其特征在于，所述步骤3中，构建目标检测网络的具体步骤为：将特征网络提取层的特征图和候选区域生成网络层生成的目标候选区域作为Faster R-CNN中的ROI Pooling层的输入并输出建议特征图，最后使用Faster R-CNN中的分类层进行类别分类和位置回归。