CN113011389B - 一种基于聚类思想的道路行人小目标检测方法 - Google Patents

一种基于聚类思想的道路行人小目标检测方法 Download PDF

Info

Publication number
CN113011389B
CN113011389B CN202110445493.XA CN202110445493A CN113011389B CN 113011389 B CN113011389 B CN 113011389B CN 202110445493 A CN202110445493 A CN 202110445493A CN 113011389 B CN113011389 B CN 113011389B
Authority
CN
China
Prior art keywords
clustering
pedestrian
image
model
detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110445493.XA
Other languages
English (en)
Other versions
CN113011389A (zh
Inventor
袁国慧
叶涛
王卓然
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202110445493.XA priority Critical patent/CN113011389B/zh
Publication of CN113011389A publication Critical patent/CN113011389A/zh
Application granted granted Critical
Publication of CN113011389B publication Critical patent/CN113011389B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/53Recognition of crowd images, e.g. recognition of crowd congestion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于聚类思想的道路行人小目标检测方法,涉及图像处理、目标检测及深度学习技术领域;其包括S1:构建行人聚类标签,训练一个基于通用深度学习目标检测框架的聚类模型;S2:输入待检测图像;S3:使用聚类模型提取待检测图像中的行人聚类区域;S4:对所有的行人聚类区域进行预处理,调整聚类区域大小,使其与行人检测模型的输入尺寸相匹配;S5:基于通用目标检测模型训练一个行人检测模型,对调整后的行人聚类区域进行精细检测,得到所有聚类区域内的行人检测结果;S6:使用非极大值抑制对所有的行人检测结果进行处理,并将所有聚类区域内的行人检测结果位置信息映射到待检测原图像上;S7:输出待检测图像中所有的行人检测结果。

Description

一种基于聚类思想的道路行人小目标检测方法
技术领域
本发明涉及图像处理、目标检测及深度学习技术领域,尤其是一种基于聚类思想的道路行人小目标检测方法。
背景技术
行人小目标检测问题在行人检测任务中一直是难点,主要是行人小目标在图像中模糊、分辨率低和携带的信息少,因此导致特征表达能力弱,在特征提取的过程中,能提取到的特征非常少,所以行人小目标的检测精度通常只有行人大目标的一半。一般的小目标检测方案主要包括:采用图像金字塔和多尺度滑动窗口,如MTCNN、FPN和Feature-FusedSSD等;采用数据增强手段,如过采样和复制粘贴小目标;采用不同的训练策略,如SNIP、SNIPER和SAN等;采用先放大特征再检测的检测策略,如GAN网络去检测小目标。这几种策略一般都是针对COCO或ImageNet等通用数据集或图片原始尺寸较小下进行的,如典型的Faster R-CNN模型输入通常是1000×600像素的图像,SSD模型的输入通常是300×300或512×512像素的图像,YOLO模型通常是在416×416或608×608像素的图像上运行。因此如果目标数据集的像素过大,直接使用上述方法一样很难检测到小目标,主要是由于小目标的尺寸一般小于32×32像素或其宽高是原图宽高的十分之一以下。
由于图像过大,因此通常也可以将一幅大图像分割成几个小图像,然后对每个图像进行行人检测再拼接结果。尽管这样在一定程度上减轻了图像过大行人小目标易漏检的问题,但是由于忽略了行人目标的稀疏性,该方案在执行检测时效率很低,需要对每个小图像执行检测。因此,大量计算资源被低效地应用于对象稀疏甚至没有对象的区域。
发明内容
本发明的目的在于:本发明提供了一种基于聚类思想的道路行人小目标检测方法,克服现有方法在将大图像分割成小图像检测小目标行人时,检测效率低的问题,提高大图像中小目标行人检测的能力和效率。
本发明采用的技术方案如下:
一种基于聚类思想的道路行人小目标检测方法,包括如下步骤:
步骤1:构建行人聚类标签,训练一个基于通用深度学习目标检测框架的聚类模型。
步骤2:输入待检测图像。
步骤3:使用聚类模型提取待检测图像中的行人聚类区域。
步骤4:对所有的行人聚类区域进行预处理,调整聚类区域大小,使其与行人检测模型的输入尺寸相匹配。
步骤5:基于通用目标检测模型训练一个行人检测模型,对调整后的行人聚类区域进行精细检测,得到所有聚类区域内的行人检测结果。
步骤6:使用非极大值抑制对所有的行人检测结果进行处理,并将所有聚类区域内的行人检测结果位置信息映射到1024×2048的待检测原图像上。
步骤7:输出待检测图像中所有的行人检测结果。
优选地,所述步骤1包括如下步骤:
步骤1.1:对现有行人检测数据集CityPersons所有标签进行聚类转换得到行人聚类标签,首先,获取每张图像中所有的行人边界框标注信息
Figure BDA0003034958590000021
其中,i表示图像中每一个物体的索引,而gi={x1i,y1i,x2i,y2i},(x1,y1)和(x2,y2)分别表示物体的标注框的左上角横纵坐标和右下角横纵坐标;其次,计算所有标注框的中心点
Figure BDA0003034958590000022
其中,ci={center_xi,center_yi},center_xi和center_yi分别表示第i个标注框的中心横纵坐标点;利用基于密度聚类的DBSCAN聚类算法对所有标注框的中心点C进行聚类,获得聚类中心点Cc;最后,结合聚类中心点和行人边界标注框信息,得到聚类标注信息
Figure BDA0003034958590000023
,其中,gcj={xc1j,yc1j,xc2j,yc2j}表示所有标注框的中心点属于Cc中第j类下的标注框聚类合并后的坐标信息,(xc1j,yc1j)和(xc2j,yc2j)分别表示所有标注框的中心点属于Cc中第j个聚类中心点下,标注框合并后的左上角横纵坐标和右下角横纵坐标,也即聚类后的行人标注框信息;xc1j、yc1j、xc2j和yc2j分别由min({xc1|i∈Gcj})、min({yc1|i∈Gcj})、max({xc2|i∈Gcj})和max({yc2|i∈Gcj})计算得到,其中i∈Gcj表示在第j个聚类框Gcj下的第i个标注框,min({xc1|i∈Gcj})表示在第j个聚类框下的所有标注框中找到最小的左上角横坐标xc1得到xc1j,min({yc1|i∈Gcj})表示在第j个聚类框下的所有标注框中找到最小的左上角纵坐标yc1得到yc1j,max({xc2|i∈Gcj})表示在第j个聚类框下的所有标注框中找到最大的右下角横坐标xc2得到xc2j,max({yc2|i∈Gcj})表示在第j个聚类框下的所有标注框中找到最大的右下角纵坐标yc2得到yc2j
步骤1.2:采用基于通用的深度学习目标检测框架对步骤1.1中的行人聚类单标签进行样本学习得到一个行人聚类模型,且聚类anchor尺寸大小通过K-Means均值聚类对行人聚类标签进行聚类得到,其大小为[[7,25],[11,39],[16,62],[23,94],[38,138],[38,451,[70,233],[73,77],[170,131]]。
步骤1.3:聚类模型训练过程中,图像大小为1024×2048,聚类模型输入大小为608×608,输入图像将被不失真的填充调整到聚类模型输入大小,模型参数初始化使用所采用目标检测框架官方预训练权重,其他实验参数设置包括:总的训练epoch为1000;BatchSize为8;初始学习率为0.001;学习率按照epoch进行衰减,下降间隔数为1个epoch,调整倍数为0.9;优化器为Adam。
优选地,所述步骤3的具体实施步骤如下:
步骤3.1:在待检测图像大小为1024×2048,模型输入大小为608×608时,输入图像将被不失真的填充调整到行人聚类模型输入大小,在置信度阈值为0.5,非极大值抑制阈值为0.5下,输出待检测图像的行人聚类结果。
优选地,所述步骤4的行人聚类区域调整具体实施步骤如下:
步骤4.1:由于获得的行人聚类区域并不是标准化的,与检测器的输入大小差异较大。因此,在送入检测器之前,需要基于行人检测模型输入的大小,对每个聚类区域执行分区和填充操作再进行检测。但步骤3的聚类模型生成的聚类区域可能密集而杂乱,若直接对其进行分区和填充,将极大的增加计算负担,所以在执行分区和填充之前,需要先对聚类区域进行迭代合并操作。
将所有聚类区域边界框表示为集合
Figure BDA0003034958590000031
NB表示聚类区域数量,
Figure BDA0003034958590000032
表示对应聚类区域的聚类得分集合,在迭代合并时,设定最大重叠阈值τmax,通过迭代合并算法得到聚类区域边界框集合
Figure BDA0003034958590000033
NB′表示迭代合并后的聚类区域数量,其具体迭代合并算法流程如下:
输入:初始聚类边界框
Figure BDA0003034958590000034
初始聚类分数
Figure BDA0003034958590000035
最大重叠阈值τmax设为0.3;
输出:迭代合并后的聚类边界框
Figure BDA0003034958590000036
1.对聚类分数
Figure BDA0003034958590000037
从高到低进行排序,初始化空的B′;
2.取出最高得分的Bi,选择与集合B中剩余聚类区域边界框IOU大于τmax的聚类区域进行非极大值合并操作,将合并后的区域加入集合B′,并从
Figure BDA0003034958590000038
中删除所有合并后的聚类区域,并删除对应的得分子集;
3.重复步骤2,直至删除集合B中所有的子集;
输出集合B′。
步骤4.2:迭代合并过程中的非极大值合并操作是指找到两个将要合并子集Ba和Bb两者中左上角最小值和右下角最大值,得到xmin、ymin、xmax和ymax,将其作为合并区域边界框的左上角和右下角坐标点,得到最终的合并区域。
步骤4.3:进一步,对迭代合并后的聚类区域进行分区和填充,使其能与检测模型输入大小相匹配,得到待检测图像中608×608大小与检测模型相匹配的所有行人聚类区域。
优选地,所述步骤5的精细检测具体实施步骤如下:
步骤5.1:使用CityPersons行人数据集训练通用的目标检测模型得到一个行人检测模型,其训练图像大小为1024×2048,检测模型输入大小为608×608。采用K-means均值聚类对CityPersons数据集的行人标注框进行聚类,得到anchor为[[2,13],[4,21],[6,30],[8,37],[9,46],[12,59],[16,78],[22,111],[38,187]],其他实验参数设置包括:总的训练epoch为1000;Batch Size为8;初始学习率为0.001;学习率按照epoch进行衰减,下降间隔数为1个epoch,调整倍数为0.9;优化器为Adam。
步骤5.2:将行人聚类区域送入训练好的行人检测模型中,得到每个聚类区域内的行人检测结果。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
1.本发明由于采用了图像先聚类再检测合并的思路,避免了传统直接检测大图像,小目标易漏检的问题;同时,提升了算法针对不同小目标检测的鲁棒性,如行人、车辆、道路标识牌和信号灯等,可适用范围更广;
2.本发明利用聚类思想,构建了一种全新的目标聚类标签,进而训练一种目标聚类模型,从大图像中提取出目标聚类区域,再对目标聚类区域进行精细化检测,能够增强小目标的检测能力,有效地抑制非目标区域重复检测;
3.由于使用了聚类剔除了非目标区域,因此整体算法的检测速度更快,运行时间降低。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明的行人先聚类再检测流程图;
图2为本发明所采用数据集的行人标注框及标注框中心点;
图3为本发明为图2的行人聚类中心点;
图4为本发明由图2和图3求得的行人聚类标注框;
图5为本发明针对CityPersons数据集所构建的行人聚类标签;
图6为本发明由聚类模型得到的聚类结果;
图7为本发明聚类模型生成的密集而杂乱的聚类区域;
图8为本发明由图7在迭代合并后的聚类区域;
图9为本发明聚类区域调整在x方向填充聚类区域;
图10为本发明聚类区域调整在y方向填充聚类区域;
图11为本发明对聚类区域分区;
图12为本发明对聚类区域先填充y方向再分区;
图13为本发明对聚类区域先填充x方向再分区;
图14为本发明对聚类结果调整后的聚类区域;
图15为本发明先聚类后检测下最终的行人检测结果。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明,即所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以下结合实施例对本发明的特征和性能作进一步的详细描述。
实施例1
如图1-15所示,一种基于聚类思想的道路行人小目标检测方法,实施流程如图1所示,具体包括如下步骤:
步骤1:构建行人聚类标签,训练一个基于通用深度学习目标检测框架的聚类模型;
进一步,所述步骤1的具体实施步骤如下:
步骤1.1:对现有行人检测数据集CityPersons所有标签进行聚类转换得到行人聚类标签,首先,获取每张图像中所有的行人边界框标注信息
Figure BDA0003034958590000061
其中,i表示图像中每一个物体的索引,而gi={x1i,y1i,x2i,y2i},(x1,y1)和(x2,y2)分别表示物体的标注框的左上角横纵坐标和右下角横纵坐标;其次,计算所有标注框的中心点
Figure BDA0003034958590000062
其中,ci={center_xi,center_yi},center_xi和center_yi分别表示第i个标注框的中心横纵坐标点如图2白色圆点;进一步,利用基于密度聚类的DBSCAN聚类算法对所有标注框的中心点C进行聚类,获得聚类中心点Cc,如图3白色点;;最后,结合聚类中心点和行人边界标注框信息,如图4所示,得到聚类标注信息
Figure BDA0003034958590000063
如图5所示,其中,gcj={xc1j,yc1j,xc2j,yc2j}表示所有标注框的中心点属于Cc中第j类下的标注框聚类合并后的坐标信息,(xc1j,yc1j)和(xc2j,yc2j)分别表示所有标注框的中心点属于Cc中第j个聚类中心点下,标注框合并后的左上角横纵坐标和右下角横纵坐标,也即聚类后的行人标注框信息;xc1j、yc1j、xc2j和yc2j分别由min({xc1|i∈Gcj})、min({ye1|i∈Gcj})、max({xc2|i∈Gcj})和max({yc2|i∈Gcj})计算得到,其中i∈Gcj表示在第j个聚类框Gcj下的第i个标注框,min({xc1|i∈Gcj})表示在第j个聚类框下的所有标注框中找到最小的左上角横坐标xc1得到xc1j,min({yc1|i∈Gcj})表示在第i个聚类框下的所有标注框中找到最小的左上角纵坐标yc1得到yc1j,max({xc2|i∈Gcj})表示在第j个聚类框下的所有标注框中找到最大的右下角横坐标xc2得到xc2j,max({yc2|i∈Gcj})表示在第j个聚类框下的所有标注框中找到最大的右下角纵坐标yc2得到yc2j
步骤1.2:采用基于通用的深度学习目标检测框架对步骤1.1中的行人聚类单标签进行样本学习得到一个行人聚类模型,且聚类anchor尺寸大小通过K-Means均值聚类对行人聚类标签进行聚类得到,其大小为[[7,25],[11,39],[16,62],[23,94],[38,138],[38,45],[70,233],[73,77],[170,131]]。
步骤13:聚类模型训练过程中,图像大小为1024×2048,聚类模型输入大小为608×608,输入图像将被不失真的填充调整到聚类模型输入大小,模型参数初始化使用所采用目标检测框架官方预训练权重,其他实验参数设置包括:总的训练epoch为1000;BatchSize为8;初始学习率为0.001;学习率按照epoch进行衰减,下降间隔数为1个epoch,调整倍数为0.9;优化器为Adam。
步骤2:输入待检测图像;
步骤3:使用聚类模型提取待检测图像中的行人聚类区域;
进一步,所述步骤3的具体实施步骤如下:
步骤3.1:在待检测图像大小为1024×2048,模型输入大小为608×608时,输入图像将被不失真的填充调整到行人聚类模型输入大小,在置信度阈值为0.5,非极大值抑制阈值为0.5下,输出待检测图像的行人聚类结果,如图6所示。
步骤4:对所有的行人聚类区域进行预处理,调整聚类区域大小,使其与行人检测模型的输入尺寸相匹配;
进一步,所述步骤4的行人聚类区域调整具体实施步骤如下:
步骤4.1:由于获得的行人聚类区域并不是标准化的,与检测器的输入大小差异较大。因此,在送入检测器之前,需要基于行人检测模型输入的大小,对每个聚类区域执行分区和填充操作再进行检测。但步骤3的聚类模型生成的聚类区域可能密集而杂乱,如图7所示,图中,灰色区域为检测区域,图中黑色边界框为生成的聚类区域边界框,若直接对其进行分区和填充,将极大的增加计算负担,所以在执行分区和填充之前,需要先对聚类区域进行迭代合并操作。
将所有聚类区域边界框表示为集合
Figure BDA0003034958590000071
NB表示聚类区域数量,
Figure BDA0003034958590000072
表示对应聚类区域的聚类得分集合,在迭代合并时,设定最大重叠阈值τmax,通过迭代合并算法得到聚类区域边界框集合
Figure BDA0003034958590000073
NB′表示迭代合并后的聚类区域数量,其具体迭代合并算法流程如下:
输入:初始聚类边界框
Figure BDA0003034958590000074
初始聚类分数
Figure BDA0003034958590000075
最大重叠阈值τmax设为0.3;
输出:迭代合并后的聚类边界框
Figure BDA0003034958590000076
1.对聚类分数
Figure BDA0003034958590000077
从高到低进行排序,初始化空的B′;
2.取出最高得分的Bi,选择与集合B中剩余聚类区域边界框IOU大于τmax的聚类区域进行非极大值合并操作,将合并后的区域加入集合B′,并从
Figure BDA0003034958590000081
中删除所有合并后的聚类区域,并删除对应的得分子集;
3.重复步骤2,直至删除集合B中所有的子集;
输出集合B′。
步骤4.2:迭代合并过程中的非极大值合并操作是指找到两个将要合并子集Ba和Bb两者中左上角最小值和右下角最大值,得到xmin、ymin、xmax和ymax,将其作为合并区域边界框的左上角和右下角坐标点,得到最终的合并区域如图8所示。
步骤4.3:进一步,对迭代合并后的聚类区域进行分区和填充,使其能与检测模型输入大小相匹配。其具体的分区及填充流程如下:
1.遍历待检测图像中聚类模型检测出的所有聚类区域;
2.得到每个聚类区域的坐标值x1、y1、x2和y2,其分别表示聚类区域的左上角和右下角的横纵坐标值,进一步,计算聚类区域的中心坐标值center_x和center_y,最后计算坐标差值diff_x和diff_y,其中,diff_x=x2-x1,diff_y=y2-y1
3.当聚类区域坐标差值diff_x和diff_y都小于608时:
针对坐标x,根据center_x在图像中的位置,如图9所示,其中黑色圆点为聚类区域中心,黑色框为聚类区域,灰色框为调整后的聚类区域。通过判断黑色点的center_x是落在图像中左侧边界加上304像素区域内(左边浅色区域),右侧边界减去304像素区域内(右边深色区域)还是两者之间(灰色区域);若center_x在左边浅色或右边深色区域,则将x1或x2调整为0或图像的宽,相反的将对应的点x2或x1调整为x1加608或x2减608;若在灰色区域,则x1和x2分别为center_x-304和center_x+304;
针对坐标y,根据centery在图像中的位置,对聚类区域进行调整,如图10所示,此时聚类区域的调整将一起考虑到center_x的位置,如图中调整后的黑色最粗聚类边界框。
4.当聚类区域坐标差值diff_x和diff_y都超过608时,采用608×608的滑动窗,滑动窗裁剪重叠比例为0.2,如图11所示,其中深黑色区域表示重叠区域,实线和虚线框表示不同状态下的滑动窗口;
5.当聚类区域坐标差值diff_x超过608且diff_y小于608时,如图12所示,先根据center_y在图像中的位置将实线聚类边界框调整为虚线边界框,再对虚线边界框执行步骤4;
6.当聚类区域坐标差值diff_x小于608且diff_y超过608时,如图13所示,先根据center_x在图像中的位置将实线聚类边界框调整为虚线边界框,再对虚线边界框执行步骤4;
最终经过迭代合并和分区及填充之后,可得到待检测图像中608×608大小与检测模型相匹配的所有行人聚类区域,如图14所示,其中绿色边界框为调整后的聚类区域。
步骤5:基于通用目标检测模型训练一个行人检测模型,对调整后的行人聚类区域进行精细检测,得到所有聚类区域内的行人检测结果;
进一步,所述步骤5的精细检测具体实施步骤如下:
步骤5.1:使用CityPersons行人数据集训练通用的目标检测模型得到一个行人检测模型,其训练图像大小为1024×2048,检测模型输入大小为608×608。采用K-means均值聚类对CityPersons数据集的行人标注框进行聚类,得到anchor为[[2,13],[4,21].[6,30],[8,37],[9,46],[12,59],[16,78],[22,111],[38,187]],其他实验参数设置包括:总的训练epoch为1000;Batch Size为8;初始学习率为0.001;学习率按照epoch进行衰减,下降间隔数为1个epoch,调整倍数为0.9;优化器为Adam。
步骤5.2:将行人聚类区域送入训练好的行人检测模型中,得到每个聚类区域内的行人检测结果。
步骤6:使用非极大值抑制对所有的行人检测结果进行处理,并将所有聚类区域内的行人检测结果位置信息映射到1024×2048的待检测原图像上,如图15所示。
步骤7:输出待检测图像中所有的行人检测结果。
综上,利用图像先聚类再检测合并的思路,即提高小目标的检测能力;避免了传统直接检测大图像,小目标易漏检的问题;同时,提升了算法针对不同小目标检测的鲁棒性,如行人、车辆、道路标识牌和信号灯等,可适用范围更广;如图15所示,通过本发明利用聚类思想的方法,从大图像中提取出目标区域,再对目标区域进行精细化检测,能够增强小目标的检测能力,有效地抑制非目标区域重复检测;由于使用了聚类剔除了非目标区域,因此整体算法的检测速度更快,运行时间降低。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种基于聚类思想的道路行人小目标检测方法,其特征在于:包括如下步骤:
步骤1:构建行人聚类标签,训练一个基于通用深度学习目标检测框架的聚类模型;
步骤2:输入待检测图像;
步骤3:使用聚类模型提取待检测图像中的行人聚类区域;
步骤4:对所有的行人聚类区域进行预处理,调整聚类区域大小,使聚类区域大小与行人检测模型的输入尺寸相匹配;
步骤5:基于通用目标检测模型训练一个行人检测模型,对调整后的行人聚类区域进行精细检测,得到所有聚类区域内的行人检测结果;
步骤6:使用非极大值抑制对所有的行人检测结果进行处理,并将所有聚类区域内的行人检测结果位置信息映射到m’×n’的待检测原图像上;
步骤7:输出待检测图像中所有的行人检测结果;所述步骤4的行人聚类区域调整具体实施步骤如下:
步骤4.1:在送入检测器之前,基于行人检测模型输入的大小,对每个聚类区域执行分区和填充操作再进行检测,在执行分区和填充之前,先对聚类区域进行迭代合并操作;
将行人聚类模型在待检测图像上产生的所有聚类区域边界框表示为集合
Figure FDA0003658186440000011
NB表示聚类区域数量,Bi表示所有聚类区域中的第i个聚类边界框,
Figure FDA0003658186440000012
表示对应聚类区域的聚类置信度得分集合,Si表示行人聚类模型输出第i个聚类边界框的聚类置信度得分,在迭代合并时,设定最大重叠阈值τmax,通过迭代合并算法得到聚类区域边界框集合
Figure FDA0003658186440000013
NB'表示迭代合并后的聚类区域数量,B′i表示迭代合并后的第i个聚类边界框,其具体迭代合并算法流程如下:
输入:初始聚类区域边界框集合
Figure FDA0003658186440000014
初始聚类分数
Figure FDA0003658186440000015
最大重叠阈值τmax设为0.3;
输出:迭代合并后的聚类区域边界框集合
Figure FDA0003658186440000016
a.对聚类分数
Figure FDA0003658186440000017
从高到低进行排序,初始化空的B';
b.取出集合B中最高得分的聚类边界框Ba后选择聚类边界框Ba与集合B中剩余聚类区域边界框IOU大于τmax的聚类区域Bb进行非极大值合并操作得到合并后的聚类区域,将合并后的聚类区域加入集合B',并从集合
Figure FDA0003658186440000018
中删除所有合并后的聚类区域,并删除对应的得分子集,删除所有合并后的聚类区域是指删除一个合并区域在极大值合并过程中用到的所有聚类边界框;
c.重复步骤b,直至删除集合B中所有的子集,输出集合B';
步骤4.2:迭代合并过程中的非极大值合并操作是指找到两个将要合并子集Ba和Bb两者中左上角最小值和右下角最大值,得到xmin、ymin、xmax和ymax,将其作为合并区域边界框的左上角和右下角坐标点,得到最终的迭代的合并后的聚类区域;
步骤4.3:进一步,对迭代的合并后的聚类区域B'内的所有聚类边界框进行分区和填充,使其能与检测模型输入大小相匹配,得到待检测图像中n×n大小与检测模型相匹配的所有行人聚类区域。
2.根据权利要求1所述的一种基于聚类思想的道路行人小目标检测方法,其特征在于:所述步骤1包括如下步骤:
步骤1.1:对现有行人检测数据集CityPersons所有标签进行聚类转换得到行人聚类标签,首先,获取每张图像中所有的行人边界框标注信息
Figure FDA0003658186440000021
其中,i表示图像中每一个物体的索引,而gi={x1i,y1i,x2i,y2i},(x1,y1)和(x2,y2)分别表示物体的标注框的左上角横纵坐标和右下角横纵坐标;其次,计算所有标注框的中心点
Figure FDA0003658186440000022
其中,ci={center_xi,center_yi},center_xi和center_yi分别表示第i个标注框的中心横纵坐标点;利用基于密度聚类的DBSCAN聚类算法对所有标注框的中心点C进行聚类,获得聚类中心点Cc;最后,结合聚类中心点和行人边界标注框信息,得到聚类标注信息
Figure FDA0003658186440000023
其中,gcj={xc1j,yc1j,xc2j,yc2j}表示所有标注框的中心点属于Cc中第j类下的标注框聚类合并后的坐标信息,(xc1j,yc1j)和(xc2j,yc2j)分别表示所有标注框的中心点属于Cc中第j个聚类中心点下,标注框合并后的左上角横纵坐标和右下角横纵坐标,也即聚类后的行人标注框信息;xc1j、yc1j、xc2j和yc2j分别由min({xc1|i∈Gcj})、min({yc1|i∈Gcj})、max({xc2|i∈Gcj})和max({yc2|i∈Gcj})计算得到,其中i∈Gcj表示在第j个聚类框Gcj下的第i个标注框,min({xc1|i∈Gcj})表示在第j个聚类框下的所有标注框中找到最小的左上角横坐标xc1得到xc1j,min({yc1|i∈Gcj})表示在第j个聚类框下的所有标注框中找到最小的左上角纵坐标yc1得到yc1j,max({xc2|i∈Gcj})表示在第j个聚类框下的所有标注框中找到最大的右下角横坐标xc2得到xc2j,max({yc2|i∈Gcj})表示在第j个聚类框下的所有标注框中找到最大的右下角纵坐标yc2得到yc2j
步骤1.2:采用基于通用的深度学习目标检测框架对步骤1.1中的行人聚类单标签进行样本学习得到一个行人聚类模型,且聚类anchor尺寸大小通过K-Means均值聚类对行人聚类标签进行聚类得到;
步骤1.3:聚类模型训练过程中,图像大小为m’×n’,聚类模型输入大小为n×n,输入图像将被不失真的填充调整到聚类模型输入大小,模型参数初始化使用所采用目标检测框架官方预训练权重。
3.根据权利要求1所述的一种基于聚类思想的道路行人小目标检测方法,其特征在于:所述步骤3包括如下步骤:
步骤3.1:在待检测图像大小为m’×n’,模型输入大小为n×n时,输入图像将被不失真的填充调整到行人聚类模型输入大小,在置信度阈值为0.5,非极大值抑制阈值为0.5下,输出待检测图像的行人聚类结果。
4.根据权利要求1或3所述的一种基于聚类思想的道路行人小目标检测方法,其特征在于:所述步骤5的精细检测具体实施步骤如下:
步骤5.1:使用CityPersons行人数据集训练通用的目标检测模型得到一个行人检测模型,其训练图像大小为m’×n’,检测模型输入大小为n×n,采用K-means均值聚类对CityPersons数据集的行人标注框进行聚类;
步骤5.2:将行人聚类区域送入训练好的行人检测模型中,得到每个聚类区域内的行人检测结果。
CN202110445493.XA 2021-04-23 2021-04-23 一种基于聚类思想的道路行人小目标检测方法 Active CN113011389B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110445493.XA CN113011389B (zh) 2021-04-23 2021-04-23 一种基于聚类思想的道路行人小目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110445493.XA CN113011389B (zh) 2021-04-23 2021-04-23 一种基于聚类思想的道路行人小目标检测方法

Publications (2)

Publication Number Publication Date
CN113011389A CN113011389A (zh) 2021-06-22
CN113011389B true CN113011389B (zh) 2022-07-26

Family

ID=76389158

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110445493.XA Active CN113011389B (zh) 2021-04-23 2021-04-23 一种基于聚类思想的道路行人小目标检测方法

Country Status (1)

Country Link
CN (1) CN113011389B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108062757A (zh) * 2018-01-05 2018-05-22 北京航空航天大学 一种利用改进直觉模糊聚类算法提取红外目标的方法
CN108985186A (zh) * 2018-06-27 2018-12-11 武汉理工大学 一种基于改进YOLOv2的无人驾驶中行人检测方法
CN109241914A (zh) * 2018-09-11 2019-01-18 广州广电银通金融电子科技有限公司 一种针对复杂场景下的小目标行人检测方法
WO2019196130A1 (zh) * 2018-04-12 2019-10-17 广州飒特红外股份有限公司 面向车载热成像行人检测的分类器训练方法和装置
CN110427979A (zh) * 2019-07-10 2019-11-08 广东工业大学 基于K-Means聚类算法的道路水坑识别方法
CN111027493A (zh) * 2019-12-13 2020-04-17 电子科技大学 一种基于深度学习多网络软融合的行人检测方法
CN111652836A (zh) * 2020-03-19 2020-09-11 天津大学 一种基于聚类算法和神经网络的多尺度目标检测方法
CN111914935A (zh) * 2020-08-03 2020-11-10 哈尔滨工程大学 一种基于深度学习的船舶图像目标检测方法
CN112132005A (zh) * 2020-09-21 2020-12-25 福州大学 一种基于聚类分析与模型压缩的人脸检测方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108062757A (zh) * 2018-01-05 2018-05-22 北京航空航天大学 一种利用改进直觉模糊聚类算法提取红外目标的方法
WO2019196130A1 (zh) * 2018-04-12 2019-10-17 广州飒特红外股份有限公司 面向车载热成像行人检测的分类器训练方法和装置
CN108985186A (zh) * 2018-06-27 2018-12-11 武汉理工大学 一种基于改进YOLOv2的无人驾驶中行人检测方法
CN109241914A (zh) * 2018-09-11 2019-01-18 广州广电银通金融电子科技有限公司 一种针对复杂场景下的小目标行人检测方法
CN110427979A (zh) * 2019-07-10 2019-11-08 广东工业大学 基于K-Means聚类算法的道路水坑识别方法
CN111027493A (zh) * 2019-12-13 2020-04-17 电子科技大学 一种基于深度学习多网络软融合的行人检测方法
CN111652836A (zh) * 2020-03-19 2020-09-11 天津大学 一种基于聚类算法和神经网络的多尺度目标检测方法
CN111914935A (zh) * 2020-08-03 2020-11-10 哈尔滨工程大学 一种基于深度学习的船舶图像目标检测方法
CN112132005A (zh) * 2020-09-21 2020-12-25 福州大学 一种基于聚类分析与模型压缩的人脸检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《YOLOv4:Optimal Speed and Accuracy of Object Detection》;Alexey Bochkovskiy et al.;《https://arxiv.org/abs/2004.10934》;20200423;1-17 *
《基于YOLOv3的红外行人小目标检测技术研究》;李慕锴 等;《红外技术》;20200608;第42卷(第2期);176-181 *

Also Published As

Publication number Publication date
CN113011389A (zh) 2021-06-22

Similar Documents

Publication Publication Date Title
CN110543837B (zh) 一种基于潜在目标点的可见光机场飞机检测方法
CN112966691B (zh) 基于语义分割的多尺度文本检测方法、装置及电子设备
CN111753828B (zh) 一种基于深度卷积神经网络的自然场景水平文字检测方法
WO2017020723A1 (zh) 一种字符分割方法、装置及电子设备
CN111027511B (zh) 基于感兴趣区块提取的遥感图像舰船检测方法
CN102968637B (zh) 一种复杂背景图像文字分割方法
CN109086714A (zh) 表格识别方法、识别系统及计算机装置
CN109784290B (zh) 一种目标检测方法、装置、设备及可读存储介质
CN109840483B (zh) 一种滑坡裂缝检测与识别的方法及装置
CN109360179B (zh) 一种图像融合方法、装置及可读存储介质
CN104050478A (zh) 烟雾检测方法与系统
CN105825212A (zh) 一种基于Hadoop的分布式车牌识别方法
CN113128442A (zh) 基于卷积神经网络的汉字书法风格识别方法和评分方法
CN113673298B (zh) 一种基于时序门控循环单元模型的溢出监测方法
CN111027475A (zh) 一种基于视觉的实时交通信号灯识别方法
CN116030396B (zh) 一种用于视频结构化提取的精确分割方法
CN113011390A (zh) 一种基于图像分区的道路行人小目标检测方法
CN106778777B (zh) 一种车辆匹配方法及系统
CN108765463B (zh) 一种结合区域提取与改进纹理特征的运动目标检测方法
CN115457044B (zh) 基于类激活映射的路面裂缝分割方法
Fengping et al. Road extraction using modified dark channel prior and neighborhood FCM in foggy aerial images
CN111860679A (zh) 一种基于YOLO v3改进算法的车辆检测方法
CN115131590A (zh) 目标检测模型的训练方法、目标检测方法及相关设备
CN113011389B (zh) 一种基于聚类思想的道路行人小目标检测方法
CN109117841B (zh) 基于笔画宽度变换与卷积神经网络的场景文本检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant