CN113011389B

CN113011389B - 一种基于聚类思想的道路行人小目标检测方法

Info

Publication number: CN113011389B
Application number: CN202110445493.XA
Authority: CN
Inventors: 袁国慧; 叶涛; 王卓然
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2021-04-23
Filing date: 2021-04-23
Publication date: 2022-07-26
Anticipated expiration: 2041-04-23
Also published as: CN113011389A

Abstract

本发明公开了一种基于聚类思想的道路行人小目标检测方法，涉及图像处理、目标检测及深度学习技术领域；其包括S1：构建行人聚类标签，训练一个基于通用深度学习目标检测框架的聚类模型；S2：输入待检测图像；S3：使用聚类模型提取待检测图像中的行人聚类区域；S4：对所有的行人聚类区域进行预处理，调整聚类区域大小，使其与行人检测模型的输入尺寸相匹配；S5：基于通用目标检测模型训练一个行人检测模型，对调整后的行人聚类区域进行精细检测，得到所有聚类区域内的行人检测结果；S6：使用非极大值抑制对所有的行人检测结果进行处理，并将所有聚类区域内的行人检测结果位置信息映射到待检测原图像上；S7：输出待检测图像中所有的行人检测结果。

Description

一种基于聚类思想的道路行人小目标检测方法

技术领域

本发明涉及图像处理、目标检测及深度学习技术领域，尤其是一种基于聚类思想的道路行人小目标检测方法。

背景技术

行人小目标检测问题在行人检测任务中一直是难点，主要是行人小目标在图像中模糊、分辨率低和携带的信息少，因此导致特征表达能力弱，在特征提取的过程中，能提取到的特征非常少，所以行人小目标的检测精度通常只有行人大目标的一半。一般的小目标检测方案主要包括：采用图像金字塔和多尺度滑动窗口，如MTCNN、FPN和Feature-FusedSSD等；采用数据增强手段，如过采样和复制粘贴小目标；采用不同的训练策略，如SNIP、SNIPER和SAN等；采用先放大特征再检测的检测策略，如GAN网络去检测小目标。这几种策略一般都是针对COCO或ImageNet等通用数据集或图片原始尺寸较小下进行的，如典型的Faster R-CNN模型输入通常是1000×600像素的图像，SSD模型的输入通常是300×300或512×512像素的图像，YOLO模型通常是在416×416或608×608像素的图像上运行。因此如果目标数据集的像素过大，直接使用上述方法一样很难检测到小目标，主要是由于小目标的尺寸一般小于32×32像素或其宽高是原图宽高的十分之一以下。

由于图像过大，因此通常也可以将一幅大图像分割成几个小图像，然后对每个图像进行行人检测再拼接结果。尽管这样在一定程度上减轻了图像过大行人小目标易漏检的问题，但是由于忽略了行人目标的稀疏性，该方案在执行检测时效率很低，需要对每个小图像执行检测。因此，大量计算资源被低效地应用于对象稀疏甚至没有对象的区域。

发明内容

本发明的目的在于：本发明提供了一种基于聚类思想的道路行人小目标检测方法，克服现有方法在将大图像分割成小图像检测小目标行人时，检测效率低的问题，提高大图像中小目标行人检测的能力和效率。

本发明采用的技术方案如下：

一种基于聚类思想的道路行人小目标检测方法，包括如下步骤：

步骤1：构建行人聚类标签，训练一个基于通用深度学习目标检测框架的聚类模型。

步骤2：输入待检测图像。

步骤3：使用聚类模型提取待检测图像中的行人聚类区域。

步骤4：对所有的行人聚类区域进行预处理，调整聚类区域大小，使其与行人检测模型的输入尺寸相匹配。

步骤5：基于通用目标检测模型训练一个行人检测模型，对调整后的行人聚类区域进行精细检测，得到所有聚类区域内的行人检测结果。

步骤6：使用非极大值抑制对所有的行人检测结果进行处理，并将所有聚类区域内的行人检测结果位置信息映射到1024×2048的待检测原图像上。

步骤7：输出待检测图像中所有的行人检测结果。

优选地，所述步骤1包括如下步骤：

步骤1.1：对现有行人检测数据集CityPersons所有标签进行聚类转换得到行人聚类标签，首先，获取每张图像中所有的行人边界框标注信息

其中，i表示图像中每一个物体的索引，而g_i＝{x_1i，y_1i，x_2i，y_2i}，(x₁，y₁)和(x₂，y₂)分别表示物体的标注框的左上角横纵坐标和右下角横纵坐标；其次，计算所有标注框的中心点

其中，c_i＝{center_x_i，center_y_i}，center_x_i和center_y_i分别表示第i个标注框的中心横纵坐标点；利用基于密度聚类的DBSCAN聚类算法对所有标注框的中心点C进行聚类，获得聚类中心点C_c；最后，结合聚类中心点和行人边界标注框信息，得到聚类标注信息

，其中，g_cj＝{x_c1j，y_c1j，x_c2j，y_c2j}表示所有标注框的中心点属于C_c中第j类下的标注框聚类合并后的坐标信息，(x_c1j，y_c1j)和(x_c2j，y_c2j)分别表示所有标注框的中心点属于C_c中第j个聚类中心点下，标注框合并后的左上角横纵坐标和右下角横纵坐标，也即聚类后的行人标注框信息；x_c1j、y_c1j、x_c2j和y_c2j分别由min({x_c1|i∈G_cj})、min({y_c1|i∈G_cj})、max({x_c2|i∈G_cj})和max({y_c2|i∈G_cj})计算得到，其中i∈G_cj表示在第j个聚类框G_cj下的第i个标注框，min({x_c1|i∈G_cj})表示在第j个聚类框下的所有标注框中找到最小的左上角横坐标x_c1得到x_c1j，min({y_c1|i∈G_cj})表示在第j个聚类框下的所有标注框中找到最小的左上角纵坐标y_c1得到y_c1j，max({x_c2|i∈G_cj})表示在第j个聚类框下的所有标注框中找到最大的右下角横坐标x_c2得到x_c2j，max({y_c2|i∈G_cj})表示在第j个聚类框下的所有标注框中找到最大的右下角纵坐标y_c2得到y_c2j；

步骤1.2：采用基于通用的深度学习目标检测框架对步骤1.1中的行人聚类单标签进行样本学习得到一个行人聚类模型，且聚类anchor尺寸大小通过K-Means均值聚类对行人聚类标签进行聚类得到，其大小为[[7，25]，[11，39]，[16，62]，[23，94]，[38，138]，[38，451，[70，233]，[73，77]，[170，131]]。

步骤1.3：聚类模型训练过程中，图像大小为1024×2048，聚类模型输入大小为608×608，输入图像将被不失真的填充调整到聚类模型输入大小，模型参数初始化使用所采用目标检测框架官方预训练权重，其他实验参数设置包括：总的训练epoch为1000；BatchSize为8；初始学习率为0.001；学习率按照epoch进行衰减，下降间隔数为1个epoch，调整倍数为0.9；优化器为Adam。

优选地，所述步骤3的具体实施步骤如下：

步骤3.1：在待检测图像大小为1024×2048，模型输入大小为608×608时，输入图像将被不失真的填充调整到行人聚类模型输入大小，在置信度阈值为0.5，非极大值抑制阈值为0.5下，输出待检测图像的行人聚类结果。

优选地，所述步骤4的行人聚类区域调整具体实施步骤如下：

步骤4.1：由于获得的行人聚类区域并不是标准化的，与检测器的输入大小差异较大。因此，在送入检测器之前，需要基于行人检测模型输入的大小，对每个聚类区域执行分区和填充操作再进行检测。但步骤3的聚类模型生成的聚类区域可能密集而杂乱，若直接对其进行分区和填充，将极大的增加计算负担，所以在执行分区和填充之前，需要先对聚类区域进行迭代合并操作。

将所有聚类区域边界框表示为集合

N_B表示聚类区域数量，

表示对应聚类区域的聚类得分集合，在迭代合并时，设定最大重叠阈值τ_max，通过迭代合并算法得到聚类区域边界框集合

N_B′表示迭代合并后的聚类区域数量，其具体迭代合并算法流程如下：

输入：初始聚类边界框

初始聚类分数

最大重叠阈值τ_max设为0.3；

输出：迭代合并后的聚类边界框

1.对聚类分数

从高到低进行排序，初始化空的B′；

2.取出最高得分的B_i，选择与集合B中剩余聚类区域边界框IOU大于τ_max的聚类区域进行非极大值合并操作，将合并后的区域加入集合B′，并从

中删除所有合并后的聚类区域，并删除对应的得分子集；

3.重复步骤2，直至删除集合B中所有的子集；

输出集合B′。

步骤4.2：迭代合并过程中的非极大值合并操作是指找到两个将要合并子集B_a和B_b两者中左上角最小值和右下角最大值，得到x_min、y_min、x_max和y_max，将其作为合并区域边界框的左上角和右下角坐标点，得到最终的合并区域。

步骤4.3：进一步，对迭代合并后的聚类区域进行分区和填充，使其能与检测模型输入大小相匹配，得到待检测图像中608×608大小与检测模型相匹配的所有行人聚类区域。

优选地，所述步骤5的精细检测具体实施步骤如下：

步骤5.1：使用CityPersons行人数据集训练通用的目标检测模型得到一个行人检测模型，其训练图像大小为1024×2048，检测模型输入大小为608×608。采用K-means均值聚类对CityPersons数据集的行人标注框进行聚类，得到anchor为[[2，13]，[4，21]，[6，30]，[8，37]，[9，46]，[12，59]，[16，78]，[22，111]，[38，187]]，其他实验参数设置包括：总的训练epoch为1000；Batch Size为8；初始学习率为0.001；学习率按照epoch进行衰减，下降间隔数为1个epoch，调整倍数为0.9；优化器为Adam。

步骤5.2：将行人聚类区域送入训练好的行人检测模型中，得到每个聚类区域内的行人检测结果。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

1.本发明由于采用了图像先聚类再检测合并的思路，避免了传统直接检测大图像，小目标易漏检的问题；同时，提升了算法针对不同小目标检测的鲁棒性，如行人、车辆、道路标识牌和信号灯等，可适用范围更广；

2.本发明利用聚类思想，构建了一种全新的目标聚类标签，进而训练一种目标聚类模型，从大图像中提取出目标聚类区域，再对目标聚类区域进行精细化检测，能够增强小目标的检测能力，有效地抑制非目标区域重复检测；

3.由于使用了聚类剔除了非目标区域，因此整体算法的检测速度更快，运行时间降低。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明的行人先聚类再检测流程图；

图2为本发明所采用数据集的行人标注框及标注框中心点；

图3为本发明为图2的行人聚类中心点；

图4为本发明由图2和图3求得的行人聚类标注框；

图5为本发明针对CityPersons数据集所构建的行人聚类标签；

图6为本发明由聚类模型得到的聚类结果；

图7为本发明聚类模型生成的密集而杂乱的聚类区域；

图8为本发明由图7在迭代合并后的聚类区域；

图9为本发明聚类区域调整在x方向填充聚类区域；

图10为本发明聚类区域调整在y方向填充聚类区域；

图11为本发明对聚类区域分区；

图12为本发明对聚类区域先填充y方向再分区；

图13为本发明对聚类区域先填充x方向再分区；

图14为本发明对聚类结果调整后的聚类区域；

图15为本发明先聚类后检测下最终的行人检测结果。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明，即所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以下结合实施例对本发明的特征和性能作进一步的详细描述。

实施例1

如图1-15所示，一种基于聚类思想的道路行人小目标检测方法，实施流程如图1所示，具体包括如下步骤：

步骤1：构建行人聚类标签，训练一个基于通用深度学习目标检测框架的聚类模型；

进一步，所述步骤1的具体实施步骤如下：

其中，c_i＝{center_x_i，center_y_i}，center_x_i和center_y_i分别表示第i个标注框的中心横纵坐标点如图2白色圆点；进一步，利用基于密度聚类的DBSCAN聚类算法对所有标注框的中心点C进行聚类，获得聚类中心点C_c，如图3白色点；；最后，结合聚类中心点和行人边界标注框信息，如图4所示，得到聚类标注信息

如图5所示，其中，g_cj＝{x_c1j，y_c1j，x_c2j，y_c2j}表示所有标注框的中心点属于C_c中第j类下的标注框聚类合并后的坐标信息，(x_c1j，y_c1j)和(x_c2j，y_c2j)分别表示所有标注框的中心点属于C_c中第j个聚类中心点下，标注框合并后的左上角横纵坐标和右下角横纵坐标，也即聚类后的行人标注框信息；x_c1j、y_c1j、x_c2j和y_c2j分别由min({x_c1|i∈G_cj})、min({y_e1|i∈G_cj})、max({x_c2|i∈G_cj})和max({y_c2|i∈G_cj})计算得到，其中i∈G_cj表示在第j个聚类框G_cj下的第i个标注框，min({x_c1|i∈G_cj})表示在第j个聚类框下的所有标注框中找到最小的左上角横坐标x_c1得到x_c1j，min({y_c1|i∈G_cj})表示在第i个聚类框下的所有标注框中找到最小的左上角纵坐标y_c1得到y_c1j，max({x_c2|i∈G_cj})表示在第j个聚类框下的所有标注框中找到最大的右下角横坐标x_c2得到x_c2j，max({y_c2|i∈G_cj})表示在第j个聚类框下的所有标注框中找到最大的右下角纵坐标y_c2得到y_c2j；

步骤1.2：采用基于通用的深度学习目标检测框架对步骤1.1中的行人聚类单标签进行样本学习得到一个行人聚类模型，且聚类anchor尺寸大小通过K-Means均值聚类对行人聚类标签进行聚类得到，其大小为[[7，25]，[11，39]，[16，62]，[23，94]，[38，138]，[38，45]，[70，233]，[73，77]，[170，131]]。

步骤13：聚类模型训练过程中，图像大小为1024×2048，聚类模型输入大小为608×608，输入图像将被不失真的填充调整到聚类模型输入大小，模型参数初始化使用所采用目标检测框架官方预训练权重，其他实验参数设置包括：总的训练epoch为1000；BatchSize为8；初始学习率为0.001；学习率按照epoch进行衰减，下降间隔数为1个epoch，调整倍数为0.9；优化器为Adam。

步骤2：输入待检测图像；

步骤3：使用聚类模型提取待检测图像中的行人聚类区域；

进一步，所述步骤3的具体实施步骤如下：

步骤3.1：在待检测图像大小为1024×2048，模型输入大小为608×608时，输入图像将被不失真的填充调整到行人聚类模型输入大小，在置信度阈值为0.5，非极大值抑制阈值为0.5下，输出待检测图像的行人聚类结果，如图6所示。

步骤4：对所有的行人聚类区域进行预处理，调整聚类区域大小，使其与行人检测模型的输入尺寸相匹配；

进一步，所述步骤4的行人聚类区域调整具体实施步骤如下：

步骤4.1：由于获得的行人聚类区域并不是标准化的，与检测器的输入大小差异较大。因此，在送入检测器之前，需要基于行人检测模型输入的大小，对每个聚类区域执行分区和填充操作再进行检测。但步骤3的聚类模型生成的聚类区域可能密集而杂乱，如图7所示，图中，灰色区域为检测区域，图中黑色边界框为生成的聚类区域边界框，若直接对其进行分区和填充，将极大的增加计算负担，所以在执行分区和填充之前，需要先对聚类区域进行迭代合并操作。

将所有聚类区域边界框表示为集合

N_B表示聚类区域数量，

输入：初始聚类边界框

初始聚类分数

最大重叠阈值τ_max设为0.3；

输出：迭代合并后的聚类边界框

1.对聚类分数

从高到低进行排序，初始化空的B′；

中删除所有合并后的聚类区域，并删除对应的得分子集；

3.重复步骤2，直至删除集合B中所有的子集；

输出集合B′。

步骤4.2：迭代合并过程中的非极大值合并操作是指找到两个将要合并子集B_a和B_b两者中左上角最小值和右下角最大值，得到x_min、y_min、x_max和y_max，将其作为合并区域边界框的左上角和右下角坐标点，得到最终的合并区域如图8所示。

步骤4.3：进一步，对迭代合并后的聚类区域进行分区和填充，使其能与检测模型输入大小相匹配。其具体的分区及填充流程如下：

1.遍历待检测图像中聚类模型检测出的所有聚类区域；

2.得到每个聚类区域的坐标值x₁、y₁、x₂和y₂，其分别表示聚类区域的左上角和右下角的横纵坐标值，进一步，计算聚类区域的中心坐标值center_x和center_y，最后计算坐标差值diff_x和diff_y，其中，diff_x＝x₂-x₁，diff_y＝y₂-y₁；

3.当聚类区域坐标差值diff_x和diff_y都小于608时：

针对坐标x，根据center_x在图像中的位置，如图9所示，其中黑色圆点为聚类区域中心，黑色框为聚类区域，灰色框为调整后的聚类区域。通过判断黑色点的center_x是落在图像中左侧边界加上304像素区域内(左边浅色区域)，右侧边界减去304像素区域内(右边深色区域)还是两者之间(灰色区域)；若center_x在左边浅色或右边深色区域，则将x₁或x₂调整为0或图像的宽，相反的将对应的点x₂或x₁调整为x₁加608或x₂减608；若在灰色区域，则x₁和x₂分别为center_x-304和center_x+304；

针对坐标y，根据centery在图像中的位置，对聚类区域进行调整，如图10所示，此时聚类区域的调整将一起考虑到center_x的位置，如图中调整后的黑色最粗聚类边界框。

4.当聚类区域坐标差值diff_x和diff_y都超过608时，采用608×608的滑动窗，滑动窗裁剪重叠比例为0.2，如图11所示，其中深黑色区域表示重叠区域，实线和虚线框表示不同状态下的滑动窗口；

5.当聚类区域坐标差值diff_x超过608且diff_y小于608时，如图12所示，先根据center_y在图像中的位置将实线聚类边界框调整为虚线边界框，再对虚线边界框执行步骤4；

6.当聚类区域坐标差值diff_x小于608且diff_y超过608时，如图13所示，先根据center_x在图像中的位置将实线聚类边界框调整为虚线边界框，再对虚线边界框执行步骤4；

最终经过迭代合并和分区及填充之后，可得到待检测图像中608×608大小与检测模型相匹配的所有行人聚类区域，如图14所示，其中绿色边界框为调整后的聚类区域。

步骤5：基于通用目标检测模型训练一个行人检测模型，对调整后的行人聚类区域进行精细检测，得到所有聚类区域内的行人检测结果；

进一步，所述步骤5的精细检测具体实施步骤如下：

步骤5.1：使用CityPersons行人数据集训练通用的目标检测模型得到一个行人检测模型，其训练图像大小为1024×2048，检测模型输入大小为608×608。采用K-means均值聚类对CityPersons数据集的行人标注框进行聚类，得到anchor为[[2，13]，[4，21].[6，30]，[8，37]，[9，46]，[12，59]，[16，78]，[22，111]，[38，187]]，其他实验参数设置包括：总的训练epoch为1000；Batch Size为8；初始学习率为0.001；学习率按照epoch进行衰减，下降间隔数为1个epoch，调整倍数为0.9；优化器为Adam。

步骤6：使用非极大值抑制对所有的行人检测结果进行处理，并将所有聚类区域内的行人检测结果位置信息映射到1024×2048的待检测原图像上，如图15所示。

步骤7：输出待检测图像中所有的行人检测结果。

综上，利用图像先聚类再检测合并的思路，即提高小目标的检测能力；避免了传统直接检测大图像，小目标易漏检的问题；同时，提升了算法针对不同小目标检测的鲁棒性，如行人、车辆、道路标识牌和信号灯等，可适用范围更广；如图15所示，通过本发明利用聚类思想的方法，从大图像中提取出目标区域，再对目标区域进行精细化检测，能够增强小目标的检测能力，有效地抑制非目标区域重复检测；由于使用了聚类剔除了非目标区域，因此整体算法的检测速度更快，运行时间降低。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于聚类思想的道路行人小目标检测方法，其特征在于：包括如下步骤：

步骤2：输入待检测图像；

步骤3：使用聚类模型提取待检测图像中的行人聚类区域；

步骤4：对所有的行人聚类区域进行预处理，调整聚类区域大小，使聚类区域大小与行人检测模型的输入尺寸相匹配；

步骤6：使用非极大值抑制对所有的行人检测结果进行处理，并将所有聚类区域内的行人检测结果位置信息映射到m’×n’的待检测原图像上；

步骤7：输出待检测图像中所有的行人检测结果；所述步骤4的行人聚类区域调整具体实施步骤如下：

步骤4.1：在送入检测器之前，基于行人检测模型输入的大小，对每个聚类区域执行分区和填充操作再进行检测，在执行分区和填充之前，先对聚类区域进行迭代合并操作；

将行人聚类模型在待检测图像上产生的所有聚类区域边界框表示为集合

N_B表示聚类区域数量，B_i表示所有聚类区域中的第i个聚类边界框，

表示对应聚类区域的聚类置信度得分集合，S_i表示行人聚类模型输出第i个聚类边界框的聚类置信度得分，在迭代合并时，设定最大重叠阈值τ_max，通过迭代合并算法得到聚类区域边界框集合

N_B'表示迭代合并后的聚类区域数量，B′_i表示迭代合并后的第i个聚类边界框，其具体迭代合并算法流程如下：

输入：初始聚类区域边界框集合

初始聚类分数

最大重叠阈值τ_max设为0.3；

输出：迭代合并后的聚类区域边界框集合

a.对聚类分数

从高到低进行排序，初始化空的B'；

b.取出集合B中最高得分的聚类边界框B_a后选择聚类边界框B_a与集合B中剩余聚类区域边界框IOU大于τ_max的聚类区域B_b进行非极大值合并操作得到合并后的聚类区域，将合并后的聚类区域加入集合B'，并从集合

中删除所有合并后的聚类区域，并删除对应的得分子集，删除所有合并后的聚类区域是指删除一个合并区域在极大值合并过程中用到的所有聚类边界框；

c.重复步骤b，直至删除集合B中所有的子集，输出集合B'；

步骤4.2：迭代合并过程中的非极大值合并操作是指找到两个将要合并子集B_a和B_b两者中左上角最小值和右下角最大值，得到x_min、y_min、x_max和y_max，将其作为合并区域边界框的左上角和右下角坐标点，得到最终的迭代的合并后的聚类区域；

步骤4.3：进一步，对迭代的合并后的聚类区域B'内的所有聚类边界框进行分区和填充，使其能与检测模型输入大小相匹配，得到待检测图像中n×n大小与检测模型相匹配的所有行人聚类区域。

2.根据权利要求1所述的一种基于聚类思想的道路行人小目标检测方法，其特征在于：所述步骤1包括如下步骤：

其中，i表示图像中每一个物体的索引，而g_i＝{x_1i,y_1i,x_2i,y_2i}，(x₁，y₁)和(x₂，y₂)分别表示物体的标注框的左上角横纵坐标和右下角横纵坐标；其次，计算所有标注框的中心点

其中，c_i＝{center_x_i,center_y_i}，center_x_i和center_y_i分别表示第i个标注框的中心横纵坐标点；利用基于密度聚类的DBSCAN聚类算法对所有标注框的中心点C进行聚类，获得聚类中心点C_c；最后，结合聚类中心点和行人边界标注框信息，得到聚类标注信息

其中，g_cj＝{x_c1j,y_c1j,x_c2j,y_c2j}表示所有标注框的中心点属于C_c中第j类下的标注框聚类合并后的坐标信息，(x_c1j,y_c1j)和(x_c2j,y_c2j)分别表示所有标注框的中心点属于C_c中第j个聚类中心点下，标注框合并后的左上角横纵坐标和右下角横纵坐标，也即聚类后的行人标注框信息；x_c1j、y_c1j、x_c2j和y_c2j分别由min({x_c1|i∈G_cj})、min({y_c1|i∈G_cj})、max({x_c2|i∈G_cj})和max({y_c2|i∈G_cj})计算得到，其中i∈G_cj表示在第j个聚类框G_cj下的第i个标注框，min({x_c1|i∈G_cj})表示在第j个聚类框下的所有标注框中找到最小的左上角横坐标x_c1得到x_c1j，min({y_c1|i∈G_cj})表示在第j个聚类框下的所有标注框中找到最小的左上角纵坐标y_c1得到y_c1j，max({x_c2|i∈G_cj})表示在第j个聚类框下的所有标注框中找到最大的右下角横坐标x_c2得到x_c2j，max({y_c2|i∈G_cj})表示在第j个聚类框下的所有标注框中找到最大的右下角纵坐标y_c2得到y_c2j；

步骤1.2：采用基于通用的深度学习目标检测框架对步骤1.1中的行人聚类单标签进行样本学习得到一个行人聚类模型，且聚类anchor尺寸大小通过K-Means均值聚类对行人聚类标签进行聚类得到；

步骤1.3：聚类模型训练过程中，图像大小为m’×n’，聚类模型输入大小为n×n，输入图像将被不失真的填充调整到聚类模型输入大小，模型参数初始化使用所采用目标检测框架官方预训练权重。

3.根据权利要求1所述的一种基于聚类思想的道路行人小目标检测方法，其特征在于：所述步骤3包括如下步骤：

步骤3.1：在待检测图像大小为m’×n’，模型输入大小为n×n时，输入图像将被不失真的填充调整到行人聚类模型输入大小，在置信度阈值为0.5，非极大值抑制阈值为0.5下，输出待检测图像的行人聚类结果。

4.根据权利要求1或3所述的一种基于聚类思想的道路行人小目标检测方法，其特征在于：所述步骤5的精细检测具体实施步骤如下：

步骤5.1：使用CityPersons行人数据集训练通用的目标检测模型得到一个行人检测模型，其训练图像大小为m’×n’，检测模型输入大小为n×n，采用K-means均值聚类对CityPersons数据集的行人标注框进行聚类；