CN111832515A - 一种密集行人检测方法、介质、终端和装置 - Google Patents

一种密集行人检测方法、介质、终端和装置 Download PDF

Info

Publication number
CN111832515A
CN111832515A CN202010705325.5A CN202010705325A CN111832515A CN 111832515 A CN111832515 A CN 111832515A CN 202010705325 A CN202010705325 A CN 202010705325A CN 111832515 A CN111832515 A CN 111832515A
Authority
CN
China
Prior art keywords
pedestrian detection
pedestrian
detection
layer
target image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010705325.5A
Other languages
English (en)
Inventor
揭择群
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Yogo Robot Co Ltd
Original Assignee
Shanghai Yogo Robot Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Yogo Robot Co Ltd filed Critical Shanghai Yogo Robot Co Ltd
Priority to CN202010705325.5A priority Critical patent/CN111832515A/zh
Publication of CN111832515A publication Critical patent/CN111832515A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种密集行人检测方法、介质、终端和装置,方法包括以下步骤:对目标图像进行行人检测生成多个第一行人检测框,并对得分高于预设阈值的第一行人检测框进行遮盖;对遮盖后的目标图像再次进行行人检测,生成用于识别被遮挡行人的第二行人检测框;采用非极大值抑制法对第一行人检测框和第二行人检测框进行筛选,并在目标图像中显示筛选结果。本发明通过检测‑遮盖‑再检测的方式,有效消除人群中未被遮挡人对被遮挡人的检测识别干扰,大幅提升行密集人群中行人检测的召回率和平均精度,从而精确识别视线范围内行人的位置及数量,可以在自动驾驶汽车以及机器人等智能载体上广泛应用。

Description

一种密集行人检测方法、介质、终端和装置
【技术领域】
本发明涉及图像识别技术领域,尤其涉及一种密集行人检测方法、介质、终端和装置。
【背景技术】
机器人或无人车在移动过程中,往往需要利用视觉感知方法对摄像头拍摄的周围环境图像进行分析理解,从而实现对周围物体,特别是行人的感知,从而指导机器人以及无人车导航过程中的路径规划和运动策略,例如避障等等。现有技术通常采用Faster-RCNN等神经网络的区域目标检测方法,该方法直接对Faster-RCNN的结果进行处理,比如使用非极大值抑制(NMS)进行邻近框的筛选过滤,此时NMS阈值一般为0.5,这会导致图片里若有两个目标框之间的IoU(Intersectionover Union)大于0.5时,通过NMS后其中一个框必定不会被检测到。而室内机器人或无人车又经常面对周围人流密集且重叠的场景,该场景下由于密集人群互相遮挡或者其他障碍物的遮挡不仅会导致被遮挡物的视觉特征信息量少且不准确,而且采用现有技术的Faster-RCNN区域目标检测方法会有大量的被遮挡目标实际被识别出,却被NMS抑制掉,从而出现漏检或者误检,难以满足机器人精准检测的需求。
【发明内容】
本发明提供了一种密集行人检测方法、介质、终端和装置,解决了以上所述的技术问题。
本发明解决上述技术问题的技术方案如下:一种密集行人检测方法,包括以下步骤:
S1,采用Faster-RCNN方法对目标图像进行行人检测生成多个第一行人检测框,并对得分高于预设阈值的第一行人检测框进行遮盖;
S2,采用基于ROI Pooling层或RoI Align层的Faster-RCNN方法对遮盖后的目标图像再次进行行人检测,生成用于识别被遮挡行人的第二行人检测框;
S3,采用非极大值抑制法对所述第一行人检测框和所述第二行人检测框进行筛选,并在目标图像中显示筛选结果。
在一个优选实施方式中,所述采用Faster-RCNN方法对目标图像进行行人检测生成多个第一行人检测框,并对得分高于预设阈值的第一行人检测框进行遮盖包括以下步骤:
S101,采用训练完成的第一Faster-RCNN模型对目标图像进行行人检测,生成多个第一行人检测框以及每个第一行人检测框的得分;
S102,按照得分高低对所述第一行人检测框排序,并从所述第一行人检测框中筛选出得分大于预设阈值的首要目标框;
S103,在目标图像的第一卷积特征图上对所述首要目标框覆盖掩码,生成目标图像的第二卷积特征图;所述掩码的白色部分对应第一卷积特征图区域的激活值设为0。
在一个优选实施方式中,所述第一Faster-RCNN模型包括依次连接的第一RPN层、第一RoI Pooling层和第一全连接层,训练所述第一Faster-RCNN模型具体包括以下步骤:
S1001,采集大量包含行人的训练图像,并采用第一方框标记出训练图像中行人部分,构成包含行人的训练集;
S1002,构建VGG-16卷积神经网络并输入所述训练集,提取所述训练图像中的行人特征,输出训练图像的第一卷积特征图;
S1003,将所述第一卷积特征图输入到第一RPN层,通过所述第一RPN层生成第一感兴趣区域proposals;
S1004,将所述第一卷积特征图和所述第一感兴趣区域proposals输入到所述第一RoI Pooling层,通过所述第一RoI Pooling层输出固定尺寸的第一RoI特征图;
S1005,综合所述第一卷积特征图与所述第一RoI特征图,通过第一全连接层与softmax函数计算每个第一感兴趣区域proposals属于行人的概率向量,同时用平滑函数进行边框回归,获得每个第一感兴趣区域proposals的位置偏移量,以回归物体的精确位置,完成对所述第一Faster-RCNN模型的训练。
在一个优选实施方式中,所述采用基于ROI Pooling层的Faster-RCNN方法对遮盖后的目标图像再次进行行人检测,生成用于识别被遮挡行人的第二行人检测框具体包括以下步骤:
S201,采用训练完成的所述第一Faster-RCNN模型对训练集中的训练图像进行行人检测,并在训练图像的第一卷积特征图上对首要目标框覆盖掩码,生成训练图像的第二卷积特征图;
S202,构建包括依次连接的第二RPN层、第二RoI Pooling层和第二全连接层的第二Faster-RCNN模型,将训练图像的第二卷积特征图输入到所述第二RPN层,以未检测出的被遮挡行人作为检测目标并通过所述第二RPN层生成第二感兴趣区域proposals;
S203,将所述第二卷积特征图和所述第二感兴趣区域proposals输入到第二RoIPooling层,通过所述第二RoI Pooling层输出固定尺寸的第二RoI特征图;
S204,综合所述第二卷积特征图与所述第二RoI特征图,通过第二全连接层与softmax函数计算每个第二感兴趣区域proposals属于行人的概率向量,同时用平滑函数进行边框回归,获得每个第二感兴趣区域proposals的位置偏移量,以回归物体的精确位置,完成对所述第二Faster-RCNN模型的训练;
S205,将目标图像的第二卷积特征图输入训练完成的第二Faster-RCNN模型,生成用于识别被遮挡行人的第二行人检测框。
在一个优选实施方式中,用于筛选首要目标框的预设阈值设置为0.6;采用第二RPN层生成第二感兴趣区域proposals时以0.7为正负样本阈值。
在一个优选实施方式中,所述采用非极大值抑制法述第一行人检测框和第二行人检测框进行筛选具体为:将所述第一行人检测框和所述第二行人检测框按照行人概率从大到小的顺序排列,删除与行人概率最大的检测框的交叠率大于70%的第一检测框和第二检测框,再删除与行人概率次大的检测框的交叠率大于70%的第一检测框和第二检测框,以此类推,最后留下的检测框即为采用非极大值抑制法筛选得到的检测框。
本发明实施例的第二方面提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,实现以上所述的密集行人检测方法。
本发明实施例的第三方面提供了一种密集行人检测终端,包括所述的计算机可读存储介质和处理器,所述处理器执行所述计算机可读存储介质上的计算机程序时实现以上所述密集行人检测方法的步骤。
本发明实施例的第四方面提供了一种密集行人检测装置,包括第一检测模块、第二检测模块和筛选模块,
所述第一检测模块用于采用Faster-RCNN方法对目标图像进行行人检测,并对检测结果中得分高于预设阈值的第一行人检测框进行遮盖;
所述第二检测模块用于采用基于ROI Pooling层或RoI Align层的Faster-RCNN方法对遮盖后的目标图像再次进行行人检测,以生成用于识别被遮挡行人的第二行人检测框;
所述筛选模块用于采用非极大值抑制法对所述第一行人检测框和所述第二行人检测框进行筛选,并在目标图像中显示筛选结果。
在一个优选实施方式中,所述第一检测模块具体包括:
第一检测单元,用于采用训练完成的第一Faster-RCNN模型对目标图像进行行人检测,生成多个第一行人检测框以及每个第一行人检测框的得分;
筛选单元,用于按照得分高低对所述第一行人检测框排序,并从所述第一行人检测框中筛选出得分大于预设阈值的首要目标框;
遮盖单元,用于在目标图像的第一卷积特征图上对所述首要目标框覆盖掩码,生成目标图像的第二卷积特征图;所述掩码的白色部分对应第一卷积特征图区域的激活值设为0。
在一个优选实施方式中,所述密集行人检测装置还包括第一训练模块,所述第一训练模块具体包括:
采集单元,用于采集大量包含行人的训练图像,并采用第一方框标记出训练图像中行人部分,构成包含行人的训练集;
特征提取单元,用于构建VGG-16卷积神经网络并输入所述训练集,提取所述训练图像中的行人特征,输出训练图像的第一卷积特征图;
第一训练单元,用于将所述第一卷积特征图输入到第一RPN层,通过所述第一RPN层生成第一感兴趣区域proposals,并将所述第一卷积特征图和所述第一感兴趣区域proposals输入到所述第一RoI Pooling层,通过所述第一RoI Pooling层输出固定尺寸的第一RoI特征图;以及综合所述第一卷积特征图与所述第一RoI特征图,通过第一全连接层与softmax函数计算每个第一感兴趣区域proposals属于行人的概率向量,同时用平滑函数进行边框回归,获得每个第一感兴趣区域proposals的位置偏移量,以回归物体的精确位置,完成对所述第一Faster-RCNN模型的训练。
在一个优选实施方式中,所述第二检测模块具体包括:
第二检测单元,用于采用训练完成的所述第一Faster-RCNN模型对训练集中的训练图像进行行人检测,并在训练图像的第一卷积特征图上对首要目标框覆盖掩码,生成训练图像的第二卷积特征图;
第二训练单元,用于构建包括依次连接的第二RPN层、第二RoI Pooling层和第二全连接层的第二Faster-RCNN模型,将训练图像的第二卷积特征图输入到所述第二RPN层,以未检测出的被遮挡行人作为检测目标并通过所述第二RPN层生成第二感兴趣区域proposals;以及将所述第二卷积特征图和所述第二感兴趣区域proposals输入到第二RoIPooling层,通过所述第二RoI Pooling层输出固定尺寸的第二RoI特征图,并综合所述第二卷积特征图与所述第二RoI特征图,通过第二全连接层与softmax函数计算每个第二感兴趣区域proposals属于行人的概率向量,同时用平滑函数进行边框回归,获得每个第二感兴趣区域proposals的位置偏移量,以回归物体的精确位置,完成对所述第二Faster-RCNN模型的训练;
第三检测单元,用于将目标图像的第二卷积特征图输入训练完成的第二Faster-RCNN模型,生成用于识别被遮挡行人的第二行人检测框。
在一个优选实施方式中,所述筛选模块具体用于将所述第一行人检测框和所述第二行人检测框按照行人概率从大到小的顺序排列,删除与行人概率最大的检测框的交叠率大于70%的第一检测框和第二检测框,再删除与行人概率次大的检测框的交叠率大于70%的第一检测框和第二检测框,以此类推,最后留下的检测框即为采用非极大值抑制法筛选得到的检测框。
本发明为行人高度重叠的场景设计了一种密集行人检测方法、介质、装置和终端,通过检测-遮盖-再检测的方式,有效消除人群中未被遮挡人对被遮挡人的检测识别干扰,大幅提升行密集人群中行人检测的召回率(Recall)和平均精度(Average Precision),从而精确识别视线范围内行人的位置及数量,可以在自动驾驶汽车以及机器人等智能载体上广泛应用。
为使发明的上述目的、特征和优点能更明显易懂,下文特举本发明较佳实施例,并配合所附附图,作详细说明如下。
【附图说明】
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是实施例1提供的密集行人检测方法的流程示意图;
图2是实施例1提供的密集行人检测方法中掩码的示意图;
图3是实施例1提供的密集行人检测方法的检测框架图;
图4是采用标准Faster-RCNN方法和本密集行人检测方法的检测结果对比图;
图5是实施例2提供的密集行人检测装置的结构示意图;
图6是实施例3提供的密集行人检测终端的结构示意图。
【具体实施方式】
为了使本发明的目的、技术方案和有益技术效果更加清晰明白,以下结合附图和具体实施方式,对本发明进行进一步详细说明。应当理解的是,本说明书中描述的具体实施方式仅仅是为了解释本发明,并不是为了限定本发明。
图1是本发明实施例1提供的一种密集行人检测方法的流程示意图,如图1所示,包括以下步骤:
S1,采用Faster-RCNN方法对目标图像进行行人检测生成多个第一行人检测框,并对得分高于预设阈值的第一行人检测框进行遮盖。Faster-RCNN方法是Ross Girshick2015年提出的检测方法,它将传统的选择性搜索(Selective Search)提取目标的方法替换成基于RPN网络(Region Proposal Networks)生成候选区域的方法,使得全流程的检测、分类速度大幅提升。具体来说,首先要训练生成第一Faster-RCNN模型,第一Faster-RCNN模型包括依次连接的第一RPN层、第一RoI Pooling层和第一全连接层,具体的训练方法包括以下步骤:
S1001,通过汽车行驶过程中行车记录仪等设备采集大量包含行人的训练图像,并采用第一方框标记出训练图像中行人部分,构成包含行人的训练集。
S1002,构建VGG-16卷积神经网络并输入训练集,通过一系列卷积、池化步骤提取训练图像中的行人特征,输出训练图像的第一卷积特征图。在其他实施例中还可以采用ResNet、Inception等其他常见的结构(只使用全连接层之前的部分)提取行人特征,这部分不再详述。
S1003,将第一卷积特征图输入到第一RPN层,通过第一RPN层生成第一感兴趣区域proposals。具体来说,每个第一卷积特征图的像素点生成9个锚点anchor,第一RPN层分为分类层和回归层2条路线,分类层和回归层的输出均连接到Proposal层,在分类层中,通过softmax函数分类anchor获得检测目标foreground和图像背景background,即是物体或者不是物体。在回归层中,通过回归anchor得到候选框位置,最后Proposal层综合检测目标foreground和侯选框位置生成第一感兴趣区域proposals,即ROI。
S1004,将第一卷积特征图和第一感兴趣区域proposals输入到第一RoI Pooling层,通过第一RoI Pooling层从第一卷积特征图中“抠出”第一感兴趣区域proposals,并把“抠出”的第一感兴趣区域proposals池化成固定长度的输出,即输出固定尺寸的第一RoI特征图。这是因为RPN网络提取出的proposals大小是会变化的,而分类用的全连接层输入必须固定长度,所以必须有个从可变尺寸变换成固定尺寸输入的过程。在较早的R-CNN和FastR-CNN结构中都通过对proposal进行拉升(warp)或裁减(crop)到固定尺寸来实现,拉升、裁减的副作用就是原始的输入发生变形或信息量丢失,以致分类不准确。而ROI Pooling就完全规避掉了这个问题,proposals能完整的池化成全连接的输入,而且没有变形,长度也固定。
S1005,综合第一卷积特征图与第一RoI特征图,通过第一全连接层与softmax函数计算每个第一感兴趣区域proposals属于行人的概率向量,同时用平滑函数进行边框回归,获得每个第一感兴趣区域proposals的位置偏移量,以回归物体的精确位置,完成对第一Faster-RCNN模型的训练。具体训练过程在Ross Girshick的论文中进行了详细介绍,在此不进行详细说明。
然后即可采用训练完成的第一Faster-RCNN模型对目标图像进行行人检测生成多个第一行人检测框,并对得分高于预设阈值的第一行人检测框进行遮盖,具体包括以下步骤:
S101,采用训练完成的第一Faster-RCNN模型对目标图像进行行人检测,生成多个第一行人检测框以及每个第一行人检测框的得分。
S102,按照得分高低对第一行人检测框排序,并从第一行人检测框中筛选出得分大于预设阈值的首要目标框。
S103,在目标图像的第一卷积特征图上对首要目标框覆盖掩码,生成目标图像的第二卷积特征图;掩码的白色部分对应第一卷积特征图区域的激活值设为0。
在标准的Faster-RCNN方法中,阶段一的RCNN的输出即为算法的最终结果。而在本发明中,阶段一RCNN的结果仅为了检测出清晰、首要的行人目标,所以可以选取0.6作为首要目标框对应的预设阈值,即假设一阶段RCNN输出n个第一行人检测框,其中有m个第一行人检测框的得分大于0.6,则将这m个第一行人检测框保留,作为一阶段检测出的首要目标框。接着对每一个被检测出的首要目标框,在第一卷积特征图上为其覆盖一个人形掩码,具体操作为:使掩码内部白色对应的第一卷积特征图区域里的激活值为0,即对检测出的首要目标框进行遮盖,白色人形掩码如图2所示。这样,第一卷积特征图上有m个区域被掩码遮盖/擦除,在二阶段不会被重复检测出。阶段一完成。
然后执行S2,采用基于ROI Pooling层或RoI Align层的Faster-RCNN方法对遮盖后的目标图像再次进行行人检测,生成用于识别被遮挡行人的第二行人检测框。一个实施例中,具体包括以下步骤:
S201,采用训练完成的第一Faster-RCNN模型对训练集中的训练图像进行行人检测,并在训练图像的第一卷积特征图上对首要目标框覆盖如上的掩码,生成训练图像的第二卷积特征图。
S202,构建包括依次连接的第二RPN层、第二RoI Pooling层和第二全连接层的第二Faster-RCNN模型,将训练图像的第二卷积特征图输入到第二RPN层,以未检测出的被遮挡行人作为检测目标并通过第二RPN层生成第二感兴趣区域proposals。
S203,将第二卷积特征图和第二感兴趣区域proposals输入到第二RoI Pooling层,通过第二RoI Pooling层输出固定尺寸的第二RoI特征图。
S204,综合第二卷积特征图与第二RoI特征图,通过第二全连接层与softmax函数计算每个第二感兴趣区域proposals属于行人的概率向量,同时用平滑函数进行边框回归,获得每个第二感兴趣区域proposals的位置偏移量,以回归物体的精确位置,完成对第二Faster-RCNN模型的训练。
S205,将目标图像的第二卷积特征图输入训练完成的第二Faster-RCNN模型,生成用于识别被遮挡行人的第二行人检测框。
经过阶段一,被检测出的首要目标框在卷积特征图上已被掩码完全擦除,等价于从二阶段开始,一阶段里被检测出的目标已从特征图中完全消失,不会被重复检测,这样二阶段可以专注检测一阶段漏检的目标。如图3所示,卷积特征图中比较容易检测的目标被擦除后,原来被高度遮挡的目标便会暴露出来,成为二阶段的首要目标。二阶段训练阶段,首先采用第二方框标记未被检测出的行人,并将其作为二阶段的待检测目标,重新对一阶段的第一感兴趣区域proposals进行分配(Assign)和采集(Sample),以筛选出二阶段的第二感兴趣区域proposals。Assign步骤中,与传统做法以0.5为正负样本阈值有所区别,二阶段的阈值换为0.7,从而能够在只暴露部分目标的情况下获得更加稀疏的预测结果。随后通过roialign层或者roi pooling层将第二感兴趣区域proposals的特征提取出来,这里需要注意的是,在使用FPN网络时,特征提取应在特征图最大的一层进行,以获得清晰的目标激活模式。通过具体的训练过程即可完成对第二Faster-RCNN模型的训练,然后将目标图像的第二卷积特征图直接送入第二Faster-RCNN模型得到输出结果。因为训练阶段与测试阶段的一致性,二阶段RCNN网络对只露出部分区域的人体目标(即被高度遮挡的目标)很敏感,能够给出较为精准的回归框。
然后执行S3,采用非极大值抑制法对第一行人检测框和第二行人检测框进行筛选,并设置NMS的阈值为0.7,从而在目标图像中显示筛选结果。具体来说,将第一行人检测框和第二行人检测框按照行人概率从大到小的顺序排列,删除与行人概率最大的检测框的交叠率大于70%的第一检测框和第二检测框,再删除与行人概率次大的检测框的交叠率大于70%的第一检测框和第二检测框,以此类推,最后留下的检测框即为采用非极大值抑制法筛选得到的检测框。实验证明,本发明的方法可以找回大部分与其他目标的IoU(Intersection over Union)在0.5-0.7之间的目标,而此类目标在标准Faster-RCNN网络里会被NMS抑制,导致检测不出。如图4所示,为采用标准Faster-RCNN方法和本发明密集行人检测方法的检测结果对比图,左边为采用标准Faster-RCNN方法的检测结果,右边为采用本发明密集行人检测方法的检测结果,明显可以看出左边存在高遮挡的漏检目标,而右边可以检测出目标图像的所有行人。
本发明主要基于Faster-RCNN深度神经网络的目标检测结构,先对原Faster-RCNN的输出结果取置信度高于预设阈值的检测框作为一阶段“高置信度”目标框,然后通过人形掩码分割出“高置信度”目标框内目标的像素级位置,并用人形掩码在特征图上将这些“高置信度”目标擦除/遮盖,然后送入专门训练的二阶段RCNN网络进行识别和定位,最后将一、二阶段的检测结果进行整合得到最终的人体检测结果。这样,先确保主要的、易识别的目标在一阶段被识别,然后在二阶段把这些已识别目标遮盖住防止重复识别,同时通过专门训练的RCNN模块提升被一阶段目标框里行人严重遮挡的其他行人的识别率,最后将一阶段和二阶段的识别结果进行融合,有效避免NMS带来的高交叠目标行人被抑制从而出现漏检的情况,提高交叠场景下行人检测技术的精度。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
本发明实施例还提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时,实现以上的密集行人检测方法。
图5是本发明实施例2提供的一种密集行人检测装置的结构示意图,如图5所示,包括第一检测模块100、第二检测模块200和筛选模块300,
第一检测模块100用于采用Faster-RCNN方法对目标图像进行行人检测,并对检测结果中得分高于预设阈值的第一行人检测框进行遮盖;
第二检测模块200用于采用基于ROI Pooling层或RoI Align层的Faster-RCNN方法对遮盖后的目标图像再次进行行人检测,以生成用于识别被遮挡行人的第二行人检测框;
筛选模块300用于采用非极大值抑制法对第一行人检测框和第二行人检测框进行筛选,并在目标图像中显示筛选结果。
在一个优选实施方式中,第一检测模块100具体包括:
第一检测单元101,用于采用训练完成的第一Faster-RCNN模型对目标图像进行行人检测,生成多个第一行人检测框以及每个第一行人检测框的得分;
筛选单元102,用于按照得分高低对第一行人检测框排序,并从第一行人检测框中筛选出得分大于预设阈值的首要目标框;
遮盖单元103,用于在目标图像的第一卷积特征图上对首要目标框覆盖掩码,生成目标图像的第二卷积特征图;掩码的白色部分对应第一卷积特征图区域的激活值设为0。
在一个优选实施方式中,密集行人检测装置还包括第一训练模块400,第一训练模块400具体包括:
采集单元401,用于采集大量包含行人的训练图像,并采用第一方框标记出训练图像中行人部分,构成包含行人的训练集;
特征提取单元402,用于构建VGG-16卷积神经网络并输入训练集,提取训练图像中的行人特征,输出训练图像的第一卷积特征图;
第一训练单元403,用于将第一卷积特征图输入到第一RPN层,通过第一RPN层生成第一感兴趣区域proposals,并将第一卷积特征图和第一感兴趣区域proposals输入到第一RoI Pooling层,通过第一RoI Pooling层输出固定尺寸的第一RoI特征图;以及综合第一卷积特征图与第一RoI特征图,通过第一全连接层与softmax函数计算每个第一感兴趣区域proposals属于行人的概率向量,同时用平滑函数进行边框回归,获得每个第一感兴趣区域proposals的位置偏移量,以回归物体的精确位置,完成对第一Faster-RCNN模型的训练。
在一个优选实施方式中,第二检测模块200具体包括:
第二检测单元201,用于采用训练完成的第一Faster-RCNN模型对训练集中的训练图像进行行人检测,并在训练图像的第一卷积特征图上对首要目标框覆盖掩码,生成训练图像的第二卷积特征图;
第二训练单元202,用于构建包括依次连接的第二RPN层、第二RoI Pooling层和第二全连接层的第二Faster-RCNN模型,将训练图像的第二卷积特征图输入到第二RPN层,以未检测出的被遮挡行人作为检测目标并通过第二RPN层生成第二感兴趣区域proposals;以及将第二卷积特征图和第二感兴趣区域proposals输入到第二RoI Pooling层,通过第二RoI Pooling层输出固定尺寸的第二RoI特征图,并综合第二卷积特征图与第二RoI特征图,通过第二全连接层与softmax函数计算每个第二感兴趣区域proposals属于行人的概率向量,同时用平滑函数进行边框回归,获得每个第二感兴趣区域proposals的位置偏移量,以回归物体的精确位置,完成对第二Faster-RCNN模型的训练;
第三检测单元203,用于将目标图像的第二卷积特征图输入训练完成的第二Faster-RCNN模型,生成用于识别被遮挡行人的第二行人检测框。
在一个优选实施方式中,筛选模块300具体用于将第一行人检测框和第二行人检测框按照行人概率从大到小的顺序排列,删除与行人概率最大的检测框的交叠率大于70%的第一检测框和第二检测框,再删除与行人概率次大的检测框的交叠率大于70%的第一检测框和第二检测框,以此类推,最后留下的检测框即为采用非极大值抑制法筛选得到的检测框。
本发明实施例还提供了一种密集行人检测终端,包括的计算机可读存储介质和处理器,处理器执行计算机可读存储介质上的计算机程序时实现以上密集行人检测方法的步骤。图6是本发明实施例3提供的密集行人检测终端的结构示意图,如图6所示,该实施例的密集行人检测终端8包括:处理器80、可读存储介质81以及存储在可读存储介质81中并可在处理器80上运行的计算机程序82。处理器80执行计算机程序82时实现上述各个方法实施例中的步骤,例如图1所示的步骤1至步骤3。或者,处理器80执行计算机程序82时实现上述各装置实施例中各模块的功能,例如图5所示模块100至300的功能。
示例性的,计算机程序82可以被分割成一个或多个模块,一个或者多个模块被存储在可读存储介质81中,并由处理器80执行,以完成本发明。一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序82在密集行人检测终端8中的执行过程。
密集行人检测终端8可包括,但不仅限于,处理器80、可读存储介质81。本领域技术人员可以理解,图6仅仅是密集行人检测终端8的示例,并不构成对密集行人检测终端8的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如密集行人检测终端还可以包括电源管理模块、运算处理模块、输入输出设备、网络接入设备、总线等。
所称处理器80可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
可读存储介质81可以是密集行人检测终端8的内部存储单元,例如密集行人检测终端8的硬盘或内存。可读存储介质81也可以是密集行人检测终端8的外部存储设备,例如密集行人检测终端8上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,可读存储介质81还可以既包括密集行人检测终端8的内部存储单元也包括外部存储设备。可读存储介质81用于存储计算机程序以及密集行人检测终端所需的其他程序和数据。可读存储介质81还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及方法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端设备实施例仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
本发明并不仅仅限于说明书和实施方式中所描述,因此对于熟悉领域的人员而言可容易地实现另外的优点和修改,故在不背离权利要求及等同范围所限定的一般概念的精神和范围的情况下,本发明并不限于特定的细节、代表性的设备和这里示出与描述的图示示例。

Claims (10)

1.一种密集行人检测方法,其特征在于,包括以下步骤:
S1,采用Faster-RCNN方法对目标图像进行行人检测生成多个第一行人检测框,并对得分高于预设阈值的第一行人检测框进行遮盖;
S2,采用基于ROI Pooling层或RoI Align层的Faster-RCNN方法对遮盖后的目标图像再次进行行人检测,生成用于识别被遮挡行人的第二行人检测框;
S3,采用非极大值抑制法对所述第一行人检测框和所述第二行人检测框进行筛选,并在目标图像中显示筛选结果。
2.根据权利要求1所述密集行人检测方法,其特征在于,所述采用Faster-RCNN方法对目标图像进行行人检测生成多个第一行人检测框,并对得分高于预设阈值的第一行人检测框进行遮盖包括以下步骤:
S101,采用训练完成的第一Faster-RCNN模型对目标图像进行行人检测,生成多个第一行人检测框以及每个第一行人检测框的得分;
S102,按照得分高低对所述第一行人检测框排序,并从所述第一行人检测框中筛选出得分大于预设阈值的首要目标框;
S103,在目标图像的第一卷积特征图上对所述首要目标框覆盖掩码,生成目标图像的第二卷积特征图;所述掩码的白色部分对应第一卷积特征图区域的激活值设为0。
3.根据权利要求2所述密集行人检测方法,其特征在于,所述第一Faster-RCNN模型包括依次连接的第一RPN层、第一RoI Pooling层和第一全连接层,训练所述第一Faster-RCNN模型具体包括以下步骤:
S1001,采集大量包含行人的训练图像,并采用第一方框标记出训练图像中行人部分,构成包含行人的训练集;
S1002,构建VGG-16卷积神经网络并输入所述训练集,提取所述训练图像中的行人特征,输出训练图像的第一卷积特征图;
S1003,将所述第一卷积特征图输入到第一RPN层,通过所述第一RPN层生成第一感兴趣区域proposals;
S1004,将所述第一卷积特征图和所述第一感兴趣区域proposals输入到所述第一RoIPooling层,通过所述第一RoI Pooling层输出固定尺寸的第一RoI特征图;
S1005,综合所述第一卷积特征图与所述第一RoI特征图,通过第一全连接层与softmax函数计算每个第一感兴趣区域proposals属于行人的概率向量,同时用平滑函数进行边框回归,获得每个第一感兴趣区域proposals的位置偏移量,以回归物体的精确位置,完成对所述第一Faster-RCNN模型的训练。
4.根据权利要求3所述密集行人检测方法,其特征在于,所述采用基于ROI Pooling层的Faster-RCNN方法对遮盖后的目标图像再次进行行人检测,生成用于识别被遮挡行人的第二行人检测框具体包括以下步骤:
S201,采用训练完成的所述第一Faster-RCNN模型对训练集中的训练图像进行行人检测,并在训练图像的第一卷积特征图上对首要目标框覆盖掩码,生成训练图像的第二卷积特征图;
S202,构建包括依次连接的第二RPN层、第二RoI Pooling层和第二全连接层的第二Faster-RCNN模型,将训练图像的第二卷积特征图输入到所述第二RPN层,以未检测出的被遮挡行人作为检测目标并通过所述第二RPN层生成第二感兴趣区域proposals;
S203,将所述第二卷积特征图和所述第二感兴趣区域proposals输入到第二RoIPooling层,通过所述第二RoI Pooling层输出固定尺寸的第二RoI特征图;
S204,综合所述第二卷积特征图与所述第二RoI特征图,通过第二全连接层与softmax函数计算每个第二感兴趣区域proposals属于行人的概率向量,同时用平滑函数进行边框回归,获得每个第二感兴趣区域proposals的位置偏移量,以回归物体的精确位置,完成对所述第二Faster-RCNN模型的训练;
S205,将目标图像的第二卷积特征图输入训练完成的第二Faster-RCNN模型,生成用于识别被遮挡行人的第二行人检测框。
5.根据权利要求4所述密集行人检测方法,其特征在于,用于筛选首要目标框的预设阈值设置为0.6;采用第二RPN层生成第二感兴趣区域proposals时以0.7为正负样本阈值。
6.根据权利要求1-5任一所述密集行人检测方法,其特征在于,所述采用非极大值抑制法述第一行人检测框和第二行人检测框进行筛选具体为:将所述第一行人检测框和所述第二行人检测框按照行人概率从大到小的顺序排列,删除与行人概率最大的检测框的交叠率大于70%的第一检测框和第二检测框,再删除与行人概率次大的检测框的交叠率大于70%的第一检测框和第二检测框,以此类推,最后留下的检测框即为采用非极大值抑制法筛选得到的检测框。
7.一种计算机可读存储介质,其特征在于,存储有计算机程序,所述计算机程序被处理器执行时,实现权利要求1-6任一项所述的密集行人检测方法。
8.一种密集行人检测终端,其特征在于,包括权利要求7所述的计算机可读存储介质和处理器,所述处理器执行所述计算机可读存储介质上的计算机程序时实现如权利要求1-6任一项所述的密集行人检测方法的步骤。
9.一种密集行人检测装置,其特征在于,包括第一检测模块、第二检测模块和筛选模块,
所述第一检测模块用于采用Faster-RCNN方法对目标图像进行行人检测生成多个第一行人检测框,并对得分高于预设阈值的第一行人检测框进行遮盖;
所述第二检测模块用于采用基于ROI Pooling层或RoI Align层的Faster-RCNN方法对遮盖后的目标图像再次进行行人检测,生成用于识别被遮挡行人的第二行人检测框;
所述筛选模块用于采用非极大值抑制法对所述第一行人检测框和所述第二行人检测框进行筛选,并在目标图像中显示筛选结果。
10.根据权利要求9所述密集行人检测装置,其特征在于,所述第一检测模块具体包括:
第一检测单元,用于采用训练完成的第一Faster-RCNN模型对目标图像进行行人检测,生成多个第一行人检测框以及每个第一行人检测框的得分;
筛选单元,用于按照得分高低对所述第一行人检测框排序,并从所述第一行人检测框中筛选出得分大于预设阈值的首要目标框;
遮盖单元,用于在目标图像的第一卷积特征图上对所述首要目标框覆盖掩码,生成目标图像的第二卷积特征图;所述掩码的白色部分对应第一卷积特征图区域的激活值设为0。
CN202010705325.5A 2020-07-21 2020-07-21 一种密集行人检测方法、介质、终端和装置 Pending CN111832515A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010705325.5A CN111832515A (zh) 2020-07-21 2020-07-21 一种密集行人检测方法、介质、终端和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010705325.5A CN111832515A (zh) 2020-07-21 2020-07-21 一种密集行人检测方法、介质、终端和装置

Publications (1)

Publication Number Publication Date
CN111832515A true CN111832515A (zh) 2020-10-27

Family

ID=72923776

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010705325.5A Pending CN111832515A (zh) 2020-07-21 2020-07-21 一种密集行人检测方法、介质、终端和装置

Country Status (1)

Country Link
CN (1) CN111832515A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112308045A (zh) * 2020-11-30 2021-02-02 深圳集智数字科技有限公司 一种密集人群的检测方法、装置及电子设备
CN112488165A (zh) * 2020-11-18 2021-03-12 杭州电子科技大学 一种基于深度学习模型的红外行人识别方法及系统
CN113610037A (zh) * 2021-08-17 2021-11-05 北京计算机技术及应用研究所 一种基于头部和可见区域线索的遮挡行人检测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150310624A1 (en) * 2014-04-24 2015-10-29 Xerox Corporation Method and system for partial occlusion handling in vehicle tracking using deformable parts model
CN108898047A (zh) * 2018-04-27 2018-11-27 中国科学院自动化研究所 基于分块遮挡感知的行人检测方法及系统
CN109766796A (zh) * 2018-12-20 2019-05-17 西华大学 一种面向密集人群的深度行人检测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150310624A1 (en) * 2014-04-24 2015-10-29 Xerox Corporation Method and system for partial occlusion handling in vehicle tracking using deformable parts model
CN108898047A (zh) * 2018-04-27 2018-11-27 中国科学院自动化研究所 基于分块遮挡感知的行人检测方法及系统
CN109766796A (zh) * 2018-12-20 2019-05-17 西华大学 一种面向密集人群的深度行人检测方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112488165A (zh) * 2020-11-18 2021-03-12 杭州电子科技大学 一种基于深度学习模型的红外行人识别方法及系统
CN112308045A (zh) * 2020-11-30 2021-02-02 深圳集智数字科技有限公司 一种密集人群的检测方法、装置及电子设备
CN112308045B (zh) * 2020-11-30 2023-11-24 深圳集智数字科技有限公司 一种密集人群的检测方法、装置及电子设备
CN113610037A (zh) * 2021-08-17 2021-11-05 北京计算机技术及应用研究所 一种基于头部和可见区域线索的遮挡行人检测方法

Similar Documents

Publication Publication Date Title
CN108681994B (zh) 一种图像处理方法、装置、电子设备及可读存储介质
CN111832515A (zh) 一种密集行人检测方法、介质、终端和装置
CN112528878A (zh) 检测车道线的方法、装置、终端设备及可读存储介质
CN110163188B (zh) 视频处理以及在视频中嵌入目标对象的方法、装置和设备
CN110705405A (zh) 目标标注的方法及装置
CN109726678B (zh) 一种车牌识别的方法及相关装置
CN112801158A (zh) 基于级联融合和注意力机制的深度学习小目标检测方法及装置
CN111932596B (zh) 摄像头遮挡区域的检测方法、装置、设备和存储介质
CN111507327A (zh) 一种目标检测方法及装置
CN112801235A (zh) 模型训练方法、预测方法、装置、重识别模型及电子设备
CN108875500B (zh) 行人再识别方法、装置、系统及存储介质
CN115100469A (zh) 一种基于分割算法的目标属性识别方法、训练方法和装置
CN113160272B (zh) 目标跟踪方法、装置、电子设备及存储介质
CN111292331B (zh) 图像处理的方法与装置
CN110222576B (zh) 拳击动作识别方法、装置和电子设备
CN110880003B (zh) 一种图像匹配方法、装置、存储介质及汽车
CN114267076B (zh) 一种图像识别方法、装置、设备及存储介质
CN112241736A (zh) 一种文本检测的方法及装置
CN116259021A (zh) 一种车道线检测方法、存储介质和电子设备
CN114419564B (zh) 车辆位姿检测方法、装置、设备、介质及自动驾驶车辆
CN114359915A (zh) 图像处理方法、装置和可读存储介质
CN111709377B (zh) 特征提取方法、目标重识别方法、装置及电子设备
CN114359332A (zh) 基于深度图像的目标跟踪方法、装置、设备和介质
CN114359572A (zh) 多任务检测模型的训练方法、装置及终端设备
CN115019055A (zh) 一种图像匹配方法、装置、智能设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination