CN113989744A - 一种基于超大尺寸高分辨图像的行人目标检测方法及系统 - Google Patents
一种基于超大尺寸高分辨图像的行人目标检测方法及系统 Download PDFInfo
- Publication number
- CN113989744A CN113989744A CN202111277201.2A CN202111277201A CN113989744A CN 113989744 A CN113989744 A CN 113989744A CN 202111277201 A CN202111277201 A CN 202111277201A CN 113989744 A CN113989744 A CN 113989744A
- Authority
- CN
- China
- Prior art keywords
- detection
- target
- image
- graph
- cutting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明公开了一种基于超大尺寸高分辨图像的行人目标检测方法及系统,以行人的目标框为中心,采用不同的固定尺寸对训练集的超大尺寸高分辨图像进行多次切图,得到多尺度的训练数据;采用滑动窗口切图法对测试集的超大尺寸高分辨图像进行多次切图,得到测试集的子图,使用多尺度训练数据对目标检测网络进行训练,然后利用目标检测网络对测试集的子图进行检测,获得子图的预检测结果;将子图检测结果的目标框坐标换转为对应原始大图的坐标作为预检测标签,利用预检测标签对数据以行人目标为中心切图,设定多个切图尺寸得到多尺度的子图,得到多尺度的检测结果;使用区域NMS方法对多尺度的检测结果进行融合,得到最终的检测结果。提高了检测准确率。
Description
技术领域
本发明属于图像识别技术领域,具体涉及一种基于超大尺寸高分辨图像的行人目标检测方法及系统。
背景技术
行人检测是计算机视觉研究的热点问题之一,具有广泛的实际应用前景。通常结合行人跟踪、行人识别等技术,应用于智能驾驶辅助系统、智能视频监控、高级人机界面等应用领域。行人检测的目的是确定图像中是否存在行人,如果确实存在行人,则定位并标记行人的位置,以获取行人的位置和动作等信息。
而特征提取是行人检测的重要组成部分,主要包括基于手工制作的特征(如面向梯度直方图(HOG)结合支持向量机(SVM))和基于卷积神经网络(CNN)的方法。由于CNN学习判别特征的能力较强,基于CNN的方法在这一领域占主导地位,并且在公共基准上的结果显著提高。
但是,由于受行人外观相似、距离摄像机的距离、能见度条件等因素的影响,导致目前的行人检测算法在更复杂的场景下鲁棒性较差,在行人检测的过程中会出现错检,漏检的情况。其中一个具有挑战性的任务是宽视场监控视频的行人检测。首先,很难从宽视场监控中直接区分行人。在高分辨率视频中,图像尺寸非常大。但由于目前的计算资源只支持1000*1000像素大小的输入图像,如果将十亿像素级的图像直接输入到网络中,图像可能会丢失大量的对象信息,极大地影响结果的准确性。因此,我们使用滑动窗口对所有原始图像进行裁剪,获得预检测结果。其次,宽视场监控视频中可能包含数千名行人,且规模变化过大。因此,我们使用预检测结果来寻找面积小的行人和高行人密度的区域,再次裁剪。第三,在修剪过程中不可避免会有被修剪的行人。为此,我们在NMS的基础上,设计了一种区域NMS方法来去除冗余的预测框。
现有的大多数行人数据集都面临着宽视场和高分辨率之间的权衡。以足球比赛为例,广角摄像机可能覆盖全景场景,但空间分辨率太低,无法清楚地看到每个球员。如果使用长焦镜头的相机来捕捉特定玩家的细节,但视野将被限制在一个小空间内。综上所述,现有的行人数据集仍然受到有限空间信息的限制,这不可避免的对理解人群的复杂行为和交互产生了影响。为了解决上述问题,清华大学提出了一个新的10亿像素视频数据集:PANDA。该数据集是在各种自然场景中收集得到,旨在贡献一个标准化数据集,用于研究新的算法。PANDA中的图像是由一个10亿像素的摄像头拍摄的,包括广场、学校和购物中心等真实世界的场景,具有宽视场(1平方公里面积)和高分辨率的细节(10亿像素级/帧),同一场景可能可能包含4000名行人,尺寸变化超过100倍。
发明内容
本发明所要解决的技术问题在于针对上述现有技术中的不足,提供一种基于超大尺寸高分辨图像的行人目标检测方法及系统,通过裁剪将原始超大尺寸高分辨图像切割为普通尺寸的图像得到网络输入,然后通过检测模块得到预检测标签,最后提出一个融合模块将小图的检测结果映射到原始大图,在去除冗余框的同时保留完整的检测框进而获取最终的检测结果。
本发明采用以下技术方案:
一种基于超大尺寸高分辨图像的行人目标检测方法,包括以下步骤:
S1、以行人的目标框为中心,采用不同的固定尺寸对训练集的超大尺寸高分辨图像进行多次切图,得到多尺度的训练数据;
S2、采用滑动窗口切图法对测试集的超大尺寸高分辨图像进行多次切图,得到测试集的子图,使用步骤S1得到的多尺度训练数据对目标检测网络进行训练,然后利用目标检测网络对测试集的子图进行检测,获得子图的预检测结果;
S3、将步骤S2获得的子图检测结果的目标框坐标换转为对应原始大图的坐标作为预检测标签,利用预检测标签对数据以行人目标为中心切图,设定多个切图尺寸得到多尺度的子图,得到多尺度的检测结果;
S4、使用区域NMS方法对步骤S3获得的多尺度的检测结果进行融合,得到最终的检测结果。
具体的,步骤S1中,对每一张训练集原始图,以一个目标框为中心固定尺寸大小确定子图的左上角及右下角坐标并进行裁剪,保留子图内部完整的目标框,对于不完整被截断的目标,判断中心是否在区域内,在区域内则保留框并将越界的框限制到图像区域内;然后对目标框坐标进行变换转为子图坐标作为子图标签,标记中保留的完整边界框;随后以没有标记过的目标框为中心进行切图。
进一步的,训练数据切图的尺寸为(2500,2500)及(5000,5000)。
具体的,步骤S2具体为:
对每一张测试集大图,使用固定尺寸的窗口从原始图左上角开始以一定的步长从上到下从左到右进行滑动切图,使用尺寸(5000,5000)的滑动窗口,对测试集进行切图,得到测试集的子图。
进一步的,滑动窗口的步长设置为窗口的一半大小。
具体的,步骤S3中,根据预检测结果对从测试集超大尺寸高分辨图像以行人为中心进行固定尺寸切图,保留子图的内部完整的目标框,对于不完整被截断的目标,判断中心是否在区域内,在区域内则保留框并将越界的框限制到图像区域内,以行人目标为中心将原图裁剪为(2500,2500)的子图,再次进行检测得到检测结果。
具体的,步骤S3中,坐标变换具体为:
(X,W)=(x,w)+left
(Y,H)=(y,h)+up
其中,(X,Y,W,H)为目标框在原始图上的坐标,(x,y,w,h)为子图检测得到的目标框坐标,(left,up)为子图左上角在原始图上的坐标。
具体的,步骤S4中,使用区域NMS方法去除冗余框具体为:
根据目标框的位置设定目标框的置信度阈值;根据目标框得分降序排列候选框列表;选取目标框得分最高的框A添加到输出列表,并将框A从候选框列表中删除;计算框A与候选框列表中的所有框的IoU值,删除大于自身置信度阈值的候选框;重复上述过程,直到候选框列表为空,返回输出列表。
具体的,步骤S4中,置信度阈值为0.6。
本发明的另一技术方案是,一种基于超大尺寸高分辨图像的行人目标检测系统,包括:
切图模块,以行人的目标框为中心,采用不同的固定尺寸对训练集的超大尺寸高分辨图像进行多次切图,得到多尺度的训练数据;
训练模块,采用滑动窗口切图法对测试集的超大尺寸高分辨图像进行多次切图,得到测试集的子图,使用切图模块得到的多尺度训练数据对目标检测网络进行训练,然后利用目标检测网络对测试集的子图进行检测,获得子图的预检测结果;
转换模块,将训练模块获得的子图检测结果的目标框坐标换转为对应原始大图的坐标作为预检测标签,利用预检测标签对数据以行人目标为中心切图,设定多个切图尺寸得到多尺度的子图,得到多尺度的检测结果;
检测模块,使用区域NMS方法对转换模块获得的多尺度的检测结果进行融合,得到最终的检测结果。
与现有技术相比,本发明至少具有以下有益效果:
本发明一种基于超大尺寸高分辨图像的行人目标检测方法,实现了在大尺度高分辨率图像中,对尺度变化大的行人进行检测定位;首先利用滑动窗口对测试集中图像进行切割,进而获得预检测结果;然后,同一场景中共享的标签文件,利用此标签文件以目标为中心对原始大图进行裁剪,得到多尺度子图;最后,提出了一种区域NMS算法,即子图检测结果映射到原始大图的融合策略,以去除由于图像裁剪产生的冗余检测框。
进一步的,对训练集,以一个行人目标为中心对原始大图进行裁剪得到子图,保留子图内部完整的目标框,保证训练集中每个行人目标都完整出现至少一次,同时避免重复切割背景,大大提升训练效率。
进一步的,将训练集数据切为多个尺寸,保证每个行人都可以清晰完整的出现在子图中,同时模拟多尺度行人,进而实现多尺度的训练,降低因为行人尺寸变化较大对于检测结果带来的影响,大大提升检测的准确率。
进一步的,将测试集数据利用滑动窗口切为子图进行检测,切图时滑动窗口的步长设置为窗口的一半大小,可以保证每个行人都可以完整出现至少一次,检测网络可以提取足够的特征,进而提升检测准确率。
进一步的,同一场景中的原始大图的检测结果整合为一幅新图像,该图像的标签文件由该场景中所有图像共享作为预检测标签,可以尽可能保证每个行人都出现在子图中,避免因切割导致行人漏检。
进一步的,利用预检测标签以目标为中心进行多尺度切图,可以在避免重复切割背景的同时得到多尺度的测试集,大大提升检测的效率。
进一步的,区域NMS将切割边缘的框给予较小的NMS阈值,据目标框的位置设定目标框的置信度阈值,可以在保留边缘检测结果的同时去除冗余的检测框,进而提升检测准确率。
综上所述,本发明通过两步切图和区域NMS方法实现超大超大尺寸高分辨图像行人目标检测。该方法通过滑窗切图和以目标为中心切图得到多尺度数据,在避免重复切割背景的同时得到多尺度的数据,使模型对于各个尺度的行人都鲁棒,最后通过区域NMS方法去除冗余框的同时保留完整的检测框,大大提高检测准确率。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1为本发明流程图;
图2为本发明训练集数据准备示意图;
图3为本发明多尺度训练集数据示意图,其中,(a)为以目标为中心切图得到的(5000,5000)子图,(b)为为以目标为中心切图得到的(2500,2500)子图;
图4为本发明测试集数据准备示意图;
图5为本发明区域NMS方法示意图,其中,(a)为左上角子图的切割边缘示意图,(b)为右上角子图的切割边缘示意图,(c)为左下角子图的切割边缘示意图,(d)为右下角子图的切割边缘示意图;
图6为结果融合效果图具体实施方式示意图,其中,(a)为原始检测结果,(b)为使用NMS算法融合的检测结果,(c)为使用区域NMS算法融合的检测结果。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要理解的是,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
在附图中示出了根据本发明公开实施例的各种结构示意图。这些图并非是按比例绘制的,其中为了清楚表达的目的,放大了某些细节,并且可能省略了某些细节。图中所示出的各种区域、层的形状及它们之间的相对大小、位置关系仅是示例性的,实际中可能由于制造公差或技术限制而有所偏差,并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。
本发明提供了一种基于超大尺寸高分辨图像的行人目标检测方法,针对大视场高分辨率视频监控中行人数量多、尺度变化大的问题,本发明采用两步裁剪方法,使用滑动窗口对所有原始图像进行裁剪,获得预检测结果,并在同一场景中集成共享标签文件;然后,利用标签文件再次以目标为中心裁切原始图像,同时设计区域NMS方法去除冗余的检测框;在切图过程中不可避免会有行人被切碎,由于切碎行人的特征与遮挡的行人非常相似,因此被切碎的行人也有相同的高分。将子图像的这些检测结果映射回原始图像后,在单个目标上可能存在多个整体和部分检测框;然而,由于破碎的检测框与完整检测框之间的IOU(Intersection over Union)很小,使得普通的NMS方法难以去除部分冗余框。在此基础上,设计一个区域NMS方法去除冗余检测框。
请参阅图1,本发明一种基于超大尺寸高分辨图像的行人目标检测方法,包括以下步骤:
S1、准备训练数据;
对训练集超大尺寸高分辨图像以目标为中心进行固定尺寸切图。基于超大尺寸高分辨率图像中的行人全身标注框,对超大尺寸高分辨率图像及标签进行裁剪得到适合于网络训练大小的子图。使得每张子图中都包含完整的人及标注框,减少训练集数据中出现目标被切碎的概率。以此得到训练数据进而对目标检测网络进行训练。
请参阅图2,对每一张训练集中的原始图,以一个目标框为中心固定尺寸大小确定子图的左上角及右下角坐标并进行裁剪。保留子图内部完整的目标框,其中不完整被截断的目标判断其中心是否在区域内,在区域内则保留框并将越界的框限制到图像区域内;之后对目标框坐标进行变换转为子图坐标作为子图标签。标记子图中保留的完整边界框;随后以没有标记过的为中心进行切图。
请参阅图3,采用不同的固定尺寸进行多次以行人目标为中心的切图,得到多尺度的训练数据,使用不同尺寸,以行人目标为中心进行切图,增加训练数据的多尺度信息,使模型对于尺度变化大的人更加鲁棒,训练数据切图的尺寸为(2500,2500)及(5000,5000)。
S2、滑窗法裁剪测试集
由于计算资源的限制,网络无法直接将原始的大规模图像作为输入,但是,如果简单地将原始图像尺寸缩小会丢失大量的目标信息。为了克服计算资源与超大尺寸图像之间的矛盾,通常将大图像裁剪成子图像作为网络输入。对于测试集,在宽视场下,同一幅图像中行人的大小变化甚至超过100倍。为了检测大大小小的行人,本发明对原始图像进行了不同大小的裁剪。简单地像以前的滑动窗口方法一样裁剪会导致背景被重复检测,进一步增加了推理时间。基于这一问题,提出两步切割策略。
对测试集的超大尺寸高分辨图像首先采用滑动窗口切图的方法,并保留一定的重叠区域。具体来说参照图4,对每一张测试集大图,使用固定尺寸的窗口从原始图左上角开始以一定的步长从上到下从左到右进行滑动切图。以保证测试集大图中的每一个目标不受切图的影响,即使在某一张子图中有目标被切碎,但在另一张子图中存在一个完整的目标;使用尺寸(5000,5000)的滑动窗口,对测试集进行多次切图,从而得到初步的测试集子图。
其中,滑动窗口的步长设置为窗口的一半大小。切割得到的子图命名中包含原始图名称及其左上角在原始图上的坐标,以便于测试结果融合时能够将子图的检测结果坐标映射到对应原始图中。
使用步骤S1准备好的多尺度训练数据对Faster Rcnn,Cascade Rcnn,IterDet等目标检测网络进行训练;对上述得到的中等大小测试集子图种中的行人进行检测,获得预检测结果。
S3、以目标为中心裁剪测试数据
将步骤S2得到的子图预检测结果的目标框坐标进行变换转为原始大图坐标作为预检测标签。测试集由三个场景组成。在每个场景中,选择了30个有代表性的帧,涵盖了不同的人群分布和活动。将同一场景中30幅图像的检测结果整合为一幅新图像,该图像的标签文件由该场景中所有图像共享。由于背景的原因,在同一场景中没有行人目标的区域是相同的。S3中利用以行人目标为中心的共享标签文件对原始图像进行裁剪,确保所有行人在子图像中可以完全出现一次,避免重复裁剪背景。两步裁剪策略不仅可以检测到多尺度的行人,而且避免重复裁剪背景,加快检测过程。
根据预检测标签对从测试集超大尺寸高分辨图像以行人目标为中心进行固定尺寸切图,保留子图的内部完整的目标框,其中不完整被截断的目标判断其中心是否在区域内,在区域内则保留框并将越界的框限制到图像区域内。以行人目标为中心将原图裁剪为(2500,2500)的子图,再次进行检测得到最终的检测结果。
S4、目标检测结果融合
将测试集的子图检测框整合映射为测试集原始大图目标框。根据子图的图片名称,得到子图对应的原始大图及子图左上角在原始大图上的坐标(left,up),对子图检测得到的目标框(x,y,w,h)进行坐标变换得到该目标框在原始大图上的坐标(X,Y,W,H)。具体变换公式如下:
(X,W)=(x,w)+left
(Y,H)=(y,h)+up
使用区域NMS方法去除冗余框。由于测试集使用滑动窗口重叠切图的方法,导致检测结果中的单个目标可能存在多个检测框。如图5所示,测试集大图中的一块区域被滑动窗口切图的方法切分成了四个子图,四个子图的检测结果是有重复及碎框的。
使用区域NMS方法去除冗余框的具体实现步骤如下:
S401、如前所述根据目标框的位置设定目标框的置信度阈值;
S402、根据目标框得分降序排列候选框列表;
S403、选取目标框得分最高的框A添加到输出列表,并将其从候选框列表中删除;
S404、计算目标框A与候选框列表中的所有框的IoU值,删除大于自身置信度阈值的候选框;
S405、重复上述过程,直到候选框列表为空,返回输出列表。
其中,IoU(Intersection over Union)为交并比,IoU相当于两个区域交叉的部分除以两个区域的并集部分得出的结果。
对不同尺度的测试集子图整合得到的多个原始大图结果进行融合,将多个不同尺度切出的测试集子图送入深度学习网络进行测试然后映射到对应原始大图,得到测试集原始大图的多个结果,将这些测试集检测结果使用区域NMS方法进行融合。从而去除冗余的检测框,保留得分最高的一个。其中阈值(重叠区域面积比例IOU)设定为0.6。从而得到更准确的定位和分类,作为最终预测结果。
本发明再一个实施例中,提供一种基于超大尺寸高分辨图像的行人目标检测系统,该系统能够用于实现上述基于超大尺寸高分辨图像的行人目标检测方法,具体的,该基于超大尺寸高分辨图像的行人目标检测系统包括切图模块、训练模块、转换模块以及检测模块。
其中,切图模块,以行人的目标框为中心,采用不同的固定尺寸对训练集的超大尺寸高分辨图像进行多次切图,得到多尺度的训练数据;
训练模块,采用滑动窗口切图法对测试集的超大尺寸高分辨图像进行多次切图,得到测试集的子图,使用切图模块得到的多尺度训练数据对目标检测网络进行训练,然后利用目标检测网络对测试集的子图进行检测,获得子图的预检测结果;
转换模块,将训练模块获得的子图检测结果的目标框坐标换转为对应原始大图的坐标作为预检测标签,利用预检测标签对数据以行人目标为中心切图,设定多个切图尺寸得到多尺度的子图,得到多尺度的检测结果;
检测模块,使用区域NMS方法对转换模块获得的多尺度的检测结果进行融合,得到最终的检测结果。
本发明再一个实施例中,提供了一种终端设备,该终端设备包括处理器以及存储器,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器用于执行所述计算机存储介质存储的程序指令。处理器可能是中央处理单元(Central ProcessingUnit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor、DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其是终端的计算核心以及控制核心,其适于实现一条或一条以上指令,具体适于加载并执行一条或一条以上指令从而实现相应方法流程或相应功能;本发明实施例所述的处理器可以用于基于超大尺寸高分辨图像的行人目标检测方法的操作,包括:
以行人的目标框为中心,采用不同的固定尺寸对训练集的超大尺寸高分辨图像进行多次切图,得到多尺度的训练数据;采用滑动窗口切图法对测试集的超大尺寸高分辨图像进行多次切图,得到测试集的子图,使用多尺度训练数据对目标检测网络进行训练,然后利用目标检测网络对测试集的子图进行检测,获得子图的预检测结果;将子图检测结果的目标框坐标换转为对应原始大图的坐标作为预检测标签,利用预检测标签对数据以行人目标为中心切图,设定多个切图尺寸得到多尺度的子图,得到多尺度的检测结果;使用区域NMS方法对多尺度的检测结果进行融合,得到最终的检测结果。
本发明再一个实施例中,本发明还提供了一种存储介质,具体为计算机可读存储介质(Memory),所述计算机可读存储介质是终端设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机可读存储介质既可以包括终端设备中的内置存储介质,当然也可以包括终端设备所支持的扩展存储介质。计算机可读存储介质提供存储空间,该存储空间存储了终端的操作系统。并且,在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令,这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是,此处的计算机可读存储介质可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。
可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令,以实现上述实施例中有关基于超大尺寸高分辨图像的行人目标检测方法的相应步骤;计算机可读存储介质中的一条或一条以上指令由处理器加载并执行如下步骤:
以行人的目标框为中心,采用不同的固定尺寸对训练集的超大尺寸高分辨图像进行多次切图,得到多尺度的训练数据;采用滑动窗口切图法对测试集的超大尺寸高分辨图像进行多次切图,得到测试集的子图,使用多尺度训练数据对目标检测网络进行训练,然后利用目标检测网络对测试集的子图进行检测,获得子图的预检测结果;将子图检测结果的目标框坐标换转为对应原始大图的坐标作为预检测标签,利用预检测标签对数据以行人目标为中心切图,设定多个切图尺寸得到多尺度的子图,得到多尺度的检测结果;使用区域NMS方法对多尺度的检测结果进行融合,得到最终的检测结果。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中的描述和所示的本发明实施例的组件可以通过各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实验结果
使用NMS方法进行处理可以去掉重叠率高的框,但是还存在很多碎框,如图6(a)所示(阈值设定为0.6)。
故此基于NMS方法设计了区域NMS方法去除冗余框,实现的总体思路为:首先确定在测试集子图上确定重叠区域,根据重叠区域,确定NMS分割区域见图6阴影区域(重叠区域的一半),在边界到重叠区域内部的目标框,即图6中的蓝色目标框,赋予较小的NMS阈值(0.1)。而其他目标框,即图6中的黄色目标框赋予较大的NMS阈值(0.6)。不能直接去掉在该范围内的框,会出现丢失目标框的问题,如图6(b)所示。
图6(c)展示了使用区域NMS方法得到的融合检测结果,在保证不丢目标框的前提下很好的解决碎框问题。
请参阅图6,为本实验方法的检测结果图,可以看到,本发明的确能够准确检测到行人。
综上所述,本发明一种基于超大尺寸高分辨图像的行人目标检测方法,具有以下优点:
(1)该方法可以将超大尺寸高分辨图像的目标检测问题转化为传统目标检测问题,适用于所有目标检测网络,并能显著提高目标检测网络在大图上的检测精度。
(2)通过对超大尺寸高分辨的训练集及测试集图像进行切图,将大尺寸数据转换为普通图像使得能够有效地将数据送入深度学习网络训练及测试,可以有效的保留图像的高分辨率信息,使得网络获得的信息更加丰富。
(3)使用不同尺寸进行切图,可以增加数据的多尺度信息,使模型对于尺度变化大的人更加鲁棒。
(4)针对测试结果由于切图产生的碎框问题,设计区域NMS方法合理地将子图结果融合为大图结果。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上内容仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明权利要求书的保护范围之内。
Claims (10)
1.一种基于超大尺寸高分辨图像的行人目标检测方法,其特征在于,包括以下步骤:
S1、以行人的目标框为中心,采用不同的固定尺寸对训练集的超大尺寸高分辨图像进行多次切图,得到多尺度的训练数据;
S2、采用滑动窗口切图法对测试集的超大尺寸高分辨图像进行多次切图,得到测试集的子图,使用步骤S1得到的多尺度训练数据对目标检测网络进行训练,然后利用目标检测网络对测试集的子图进行检测,获得子图的预检测结果;
S3、将步骤S2获得的子图检测结果的目标框坐标换转为对应原始大图的坐标作为预检测标签,利用预检测标签对数据以行人目标为中心切图,设定多个切图尺寸得到多尺度的子图,得到多尺度的检测结果;
S4、使用区域NMS方法对步骤S3获得的多尺度的检测结果进行融合,得到最终的检测结果。
2.根据权利要求1所述的方法,其特征在于,步骤S1中,对每一张训练集原始图,以一个目标框为中心固定尺寸大小确定子图的左上角及右下角坐标并进行裁剪,保留子图内部完整的目标框,对于不完整被截断的目标,判断中心是否在区域内,在区域内则保留框并将越界的框限制到图像区域内;然后对目标框坐标进行变换转为子图坐标作为子图标签,标记中保留的完整边界框;随后以没有标记过的目标框为中心进行切图。
3.根据权利要求2所述的方法,其特征在于,训练数据切图的尺寸为(2500,2500)及(5000,5000)。
4.根据权利要求1所述的方法,其特征在于,步骤S2具体为:
对每一张测试集大图,使用固定尺寸的窗口从原始图左上角开始以一定的步长从上到下从左到右进行滑动切图,使用尺寸(5000,5000)的滑动窗口,对测试集进行切图,得到测试集的子图。
5.根据权利要求4所述的方法,其特征在于,滑动窗口的步长设置为窗口的一半大小。
6.根据权利要求1所述的方法,其特征在于,步骤S3中,根据预检测结果对从测试集超大尺寸高分辨图像以行人为中心进行固定尺寸切图,保留子图的内部完整的目标框,对于不完整被截断的目标,判断中心是否在区域内,在区域内则保留框并将越界的框限制到图像区域内,以行人目标为中心将原图裁剪为(2500,2500)的子图,再次进行检测得到检测结果。
7.根据权利要求1所述的方法,其特征在于,步骤S3中,坐标变换具体为:
(X,W)=(x,w)+left
(Y,H)=(y,h)+up
其中,(X,Y,W,H)为目标框在原始图上的坐标,(x,y,w,h)为子图检测得到的目标框坐标,(left,up)为子图左上角在原始图上的坐标。
8.根据权利要求1所述的方法,其特征在于,步骤S4中,使用区域NMS方法去除冗余框具体为:
根据目标框的位置设定目标框的置信度阈值;根据目标框得分降序排列候选框列表;选取目标框得分最高的框A添加到输出列表,并将框A从候选框列表中删除;计算框A与候选框列表中的所有框的IoU值,删除大于自身置信度阈值的候选框;重复上述过程,直到候选框列表为空,返回输出列表。
9.根据权利要求1所述的方法,其特征在于,步骤S4中,置信度阈值为0.6。
10.一种基于超大尺寸高分辨图像的行人目标检测系统,其特征在于,包括:
切图模块,以行人的目标框为中心,采用不同的固定尺寸对训练集的超大尺寸高分辨图像进行多次切图,得到多尺度的训练数据;
训练模块,采用滑动窗口切图法对测试集的超大尺寸高分辨图像进行多次切图,得到测试集的子图,使用切图模块得到的多尺度训练数据对目标检测网络进行训练,然后利用目标检测网络对测试集的子图进行检测,获得子图的预检测结果;
转换模块,将训练模块获得的子图检测结果的目标框坐标换转为对应原始大图的坐标作为预检测标签,利用预检测标签对数据以行人目标为中心切图,设定多个切图尺寸得到多尺度的子图,得到多尺度的检测结果;
检测模块,使用区域NMS方法对转换模块获得的多尺度的检测结果进行融合,得到最终的检测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111277201.2A CN113989744A (zh) | 2021-10-29 | 2021-10-29 | 一种基于超大尺寸高分辨图像的行人目标检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111277201.2A CN113989744A (zh) | 2021-10-29 | 2021-10-29 | 一种基于超大尺寸高分辨图像的行人目标检测方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113989744A true CN113989744A (zh) | 2022-01-28 |
Family
ID=79744909
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111277201.2A Pending CN113989744A (zh) | 2021-10-29 | 2021-10-29 | 一种基于超大尺寸高分辨图像的行人目标检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113989744A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114332456A (zh) * | 2022-03-16 | 2022-04-12 | 山东力聚机器人科技股份有限公司 | 大分辨率图像的目标检测和识别方法及装置 |
CN116071556A (zh) * | 2023-03-28 | 2023-05-05 | 之江实验室 | 一种基于目标框的大尺寸图像自适应裁剪方法和装置 |
WO2023207073A1 (zh) * | 2022-04-29 | 2023-11-02 | 浪潮电子信息产业股份有限公司 | 一种目标检测方法、装置、设备及介质 |
-
2021
- 2021-10-29 CN CN202111277201.2A patent/CN113989744A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114332456A (zh) * | 2022-03-16 | 2022-04-12 | 山东力聚机器人科技股份有限公司 | 大分辨率图像的目标检测和识别方法及装置 |
WO2023207073A1 (zh) * | 2022-04-29 | 2023-11-02 | 浪潮电子信息产业股份有限公司 | 一种目标检测方法、装置、设备及介质 |
CN116071556A (zh) * | 2023-03-28 | 2023-05-05 | 之江实验室 | 一种基于目标框的大尺寸图像自适应裁剪方法和装置 |
CN116071556B (zh) * | 2023-03-28 | 2023-07-07 | 之江实验室 | 一种基于目标框的大尺寸图像自适应裁剪方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111461245B (zh) | 一种融合点云和图像的轮式机器人语义建图方法及系统 | |
CN113989744A (zh) | 一种基于超大尺寸高分辨图像的行人目标检测方法及系统 | |
Geng et al. | Using deep learning in infrared images to enable human gesture recognition for autonomous vehicles | |
WO2012139228A1 (en) | Video-based detection of multiple object types under varying poses | |
CN111767878B (zh) | 嵌入式设备中基于深度学习的交通标志检测方法及系统 | |
CN112825192B (zh) | 基于机器学习的对象辨识系统及其方法 | |
CN113076871A (zh) | 一种基于目标遮挡补偿的鱼群自动检测方法 | |
CN109492583A (zh) | 一种基于深度学习的车辆重识别方法 | |
CN113408584B (zh) | Rgb-d多模态特征融合3d目标检测方法 | |
CN111353544A (zh) | 一种基于改进的Mixed Pooling-YOLOV3目标检测方法 | |
CN110555420A (zh) | 一种基于行人区域特征提取和重识别融合模型网络及方法 | |
CN112836657A (zh) | 一种基于轻量化YOLOv3的行人检测方法及系统 | |
CN113850136A (zh) | 基于yolov5与BCNN的车辆朝向识别方法及系统 | |
CN111295666A (zh) | 一种车道线检测方法、装置、控制设备及存储介质 | |
Helmer et al. | Multiple viewpoint recognition and localization | |
CN115841649A (zh) | 一种用于城市复杂场景的多尺度人数统计方法 | |
CN114049572A (zh) | 识别小目标的检测方法 | |
CN114519819B (zh) | 一种基于全局上下文感知的遥感图像目标检测方法 | |
CN111523494A (zh) | 一种人体图像检测方法 | |
CN115019274A (zh) | 一种融合追踪与检索算法的路面病害识别方法 | |
CN114463713A (zh) | 一种车辆在3d空间的信息检测方法、装置及电子设备 | |
CN104463962A (zh) | 基于gps信息视频的三维场景重建方法 | |
Huang et al. | Overview of LiDAR point cloud target detection methods based on deep learning | |
CN113570615A (zh) | 一种基于深度学习的图像处理方法、电子设备及存储介质 | |
Chen et al. | Stingray detection of aerial images with region-based convolution neural network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |