CN110309792A - 基于部件模板的室内人物检测方法 - Google Patents

基于部件模板的室内人物检测方法 Download PDF

Info

Publication number
CN110309792A
CN110309792A CN201910599633.1A CN201910599633A CN110309792A CN 110309792 A CN110309792 A CN 110309792A CN 201910599633 A CN201910599633 A CN 201910599633A CN 110309792 A CN110309792 A CN 110309792A
Authority
CN
China
Prior art keywords
detection
subregion
model
picture
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910599633.1A
Other languages
English (en)
Other versions
CN110309792B (zh
Inventor
许林峰
丁济生
代胜选
孟凡满
吴庆波
李宏亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201910599633.1A priority Critical patent/CN110309792B/zh
Publication of CN110309792A publication Critical patent/CN110309792A/zh
Application granted granted Critical
Publication of CN110309792B publication Critical patent/CN110309792B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/53Recognition of crowd images, e.g. recognition of crowd congestion

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于部件模板的室内人物检测方法,属于目标检测领域和深度学习领域,首先收集数据集,再对数据集进行特征提取和构建特征金字塔,基于部件模板的子区域得到每个候选框的前景置信分数,并通过池化和全连接层得到定位框位置,完成检测模型的搭建;然后根据数据集的图片采用Xavier方法对检测模型进行初始化,基于检测模型的损失函数进行迭代到预设迭代次数,完成检测模型的训练,最后使用新的图片进行推理测试,得到检测结果。本发明解决了目前通用的目标检测方法在对室内场景的人物检测方面定位和识别的准确率较低的问题。

Description

基于部件模板的室内人物检测方法
技术领域
本发明属于目标检测领域和深度学习领域,涉及基于部件模板的室内人物检测方法。
背景技术
目标检测任务是一个在计算机视觉领域中备受关注的研究方向,其目的旨在图像中识别并定位所关心的对象,因此被认为是帮助获取对场景和物体深度理解的一个重要任务。近些年来,随着计算机运算能力的提升,深度卷积神经网络的发展使目标检测任务获得了诸多显著的成果。
现如今,性能优越的目标检测模型都是基于深度卷积神经网络,其强大的特征提取能力给计算机视觉的各种任务带来了巨大的发展。较于传统的目标检测算法,基于深度学习的目标检测算法在检测精度和效率上有了突破性进步,在各种数据集上都表现出了强劲的性能和优势,但目标检测任务仍然面临着一些挑战,例如目标的多尺度问题,提升卷积神经网络的旋转不变性以及模型复杂度等。
比如,以检测室内场景中的人为例,在教室、会堂等人员较密集的室内场景中,存在待检测目标尺度多样性、尺度分布广、分布密集且数目多,以及相互间遮挡严重的问题,但目前通用的目标检测方法在该场景下无法获得很好的检测效果,定位和识别的准确率较低,不能满足在复杂室内场景中的实际需求。
因此,针对上述问题,本发明提出了一种基于部件模板的室内人物检测方法。
发明内容
本发明的目的在于:提供了基于部件模板的室内人物检测方法,解决了在室内场景的人物检测方面,由于待检测目标尺度多样性、尺度分布广、分布密集且数目多,以及相互间遮挡严重的原因,目前通用的目标检测方法在该场景下定位和识别的准确率较低的问题。
本发明采用的技术方案如下:
基于部件模板的室内人物检测方法,包括以下步骤:
收集数据集:收集人员较密集的室内场景图片,并标注其中的人物对象;
搭建检测模型:对数据集进行特征提取和构建特征金字塔,基于部件模板的子区域得到每个候选框的前景置信分数,并通过池化和全连接层得到定位框位置,完成检测模型的搭建;
训练检测模型:根据数据集的图片采用Xavier方法对检测模型进行初始化,基于检测模型的损失函数进行迭代到预设迭代次数,完成检测模型的训练;
使用新的图片进行推理测试,得到检测结果:使用新的图片,基于训练好的检测模型得到检测框,再根据非极大值抑制算法滤除掉重叠的检测框,提升检测精度,得到最终检测结果。
进一步地,所述对数据集进行特征提取包括:使用骨干网络对数据集进行特征提取,并保留该过程中各层特征谱的输出结果。
进一步地,所述构建特征金字塔包括:
使用空洞卷积和1×1卷积将最顶层特征谱的通道数下降,作为特征金字塔的最顶层p6;利用1×1卷积将最顶层特征谱的通道数下降,作为特征金字塔的p5;横向链接最顶层下一层特征谱的输出结果并使用1×1卷积降低通道数后,与p5逐像素相加得到p4;以此类推,从上到下,构建出特征金字塔Φp={p6,p5,p4,p3,p2,p1}。
进一步地,所述基于部件模板的子区域得到每个候选框的前景置信分数,并通过池化和全连接层得到定位框位置包括:
在特征金字塔Φp的每层pi(i∈{1,2,3,4,5,6})上预设锚框,然后在特征金字塔Φp的每一层pi(i∈{1,2,3,4,5})后,通过候选框生成网络进行预测,得到预测候选框;
将每个预测候选框分成4个子区域,把每个子区域对应的特征谱单独提取出来,经过RoI池化模块,得到尺度统一的特征谱,分别将这些特征谱输入对应的评分单元,得到每个子区域的预测分数,以评估每个子区域的遮挡程度,再使用公式(1)计算得到每个预测候选框的前景置信分数:
其中,Sold为原输出的前景置信分数,Snew使用公式(2)计算得到:
其中,Neff为子区域预测分数si,i∈[1,4]大于阈值的个数;
构建全连接层,进行预测得到定位框的位置。
进一步地,所述根据数据集的图片采用Xavier方法对检测模型进行初始化包括:
对训练集的图片进行预处理:将训练集的图片随机翻转,减去整个数据集的均值并除以方差,归一化处理后调整到固定尺度大小,作为训练图片;
对训练图片划分部件子区域,获得每个部件子区域的训练标签[p1,p2,p3,p4]。
更进一步地,所述对训练图片划分部件子区域,获得每个部件子区域的训练标签[p1,p2,p3,p4]的方式具体为:
标注出训练图片中每个目标的完整定位框和可见区域,用公式(3)计算得到每个子区域的训练标签[p1,p2,p3,p4]:
其中,U(subi)为第i个子区域,V(ti)为可见区域落在子区域i的区域,area(·)为计算面积的函数。
更进一步地,所述对训练图片划分部件子区域,获得每个部件子区域的训练标签[p1,p2,p3,p4]的方式具体为:
直接设置每个子区域的训练标签分别为[1,1,1,p4],如果该目标的检测框高宽比大于2,则p4=0.5,否则取0.2。
进一步地,所述基于检测模型的损失函数进行迭代到预设迭代次数包括:
所述检测模型的损失函数lossrpn为:
lossrpn=λ1losscls2lossreg3losssub (4)
其中,losscls为二分类的交叉熵损失,用来判断该定位框是否含有目标;lossreg为采用smooth l1的回归损失,用来回归定位框的坐标信息;losssub为每个子区域分数和标签值的交叉熵损失;λ123为平衡系数,用来调整每部分对总损失的贡献;
再对检测模型进行网络训练,直到达到预设的迭代次数。
进一步地,所述使用新的图片,基于训练好的检测模型得到检测框包括:
将整个候选框的特征谱和子区域的特征谱,分别输入每个预测单元来预测两个分数spi和ssubi,i∈{1,2,3,4},用这两个分数来决定当前候选框最终的置信分数;如果任意spi都大于子区域的分数ssubi,则将Snew=max(spi),i∈{1,2,3,4},否则,采用公式(2)得到Snew;再通过公式(1)计算得到最终置信分数Sc;取置信分数Sc从高到低排序后的前N个候选框送下一级全连接层,回归得到更加精确的检测框。
进一步地,所述根据非极大值抑制算法滤除掉重叠的检测框,提升检测精度,得到最终检测结果包括:
对传统NMS算法进行优化,得到修改后的非极大值抑制算法ANMS(Area-NMS),再通过非极大值抑制算法ANMS根据置信分数剔除掉一部分检测框,然后在剩下的这些框中,以面积为判断标准,通过两个阈值,滤除一些与周围检测框重叠面积较大的小检测框,从而得到最终的检测结果。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
1.基于部件模板的室内人物检测方法,主要针对室内场景,实现在该场景下对人物的检测任务,通过两阶段来实现目标检测,通过构建有效的特征金字塔结构,保留了更多的细节信息,实现语义增强和特征谱优化,缓解了混叠效应,有助于小目标的检测;同时使用基于部件模板的特征选择模块(FSM),将每一个候选框划分为若干子区域,对判别性高的子区域进行进一步的特征提取,使用局部特征来增强候选框的可判别性,缓解了原来方法因为遮挡而可能造成的漏检问题,提升了检测结果的召回率和准确率。
2.本发明对NMS算法进行了优化,得到去除重叠框的非极大值抑制算法ANMS,有效且合理地剔除了重叠检测框,有效提升了本发明在室内场景中对人物目标的检测效果和检测准确率,因此本发明能够有效地检测出教室、会堂等复杂场景中的人物目标,实用性和鲁棒性都能得到很好的保证。
3.本发明中将训练集的图片随机翻转,以扩充训练数据集,减去整个数据集的均值并除以方差,归一化处理后调整到固定尺度大小,作为训练图片,方便放入检测模型进行训练。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图,其中:
图1是基于部件模板的室内人物检测方法的流程示意图;
图2是本发明基于部件模板的子区域划分示意图;
图3是本发明评分单元Unit的流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明,即所描述的实施例只是本发明的一部分实施例,而不是全部的实施例。通常在此处描述和附图中示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
基于部件模板的室内人物检测方法,解决了在室内场景的人物检测方面,由于待检测目标尺度多样性、尺度分布广、分布密集且数目多,以及相互间遮挡严重的原因,目前通用的目标检测方法在该场景下定位和识别的准确率较低的问题。
基于部件模板的室内人物检测方法,包括以下步骤:
收集数据集:收集人员较密集的室内场景图片,并标注其中的人物对象;
搭建检测模型:对数据集进行特征提取和构建特征金字塔,基于部件模板的子区域得到每个候选框的前景置信分数,并通过池化和全连接层得到定位框位置,完成检测模型的搭建;
训练检测模型:根据数据集的图片采用Xavier方法对检测模型进行初始化,基于检测模型的损失函数进行迭代到预设迭代次数,完成检测模型的训练;
使用新的图片进行推理测试,得到检测结果:使用新的图片,基于训练好的检测模型得到检测框,再根据非极大值抑制算法滤除掉重叠的检测框,提升检测精度,得到最终检测结果。
本发明通过两阶段来实现目标检测,通过构建有效的特征金字塔结构,保留了更多的细节信息,实现语义增强和特征谱优化,缓解了混叠效应,有助于小目标的检测;同时使用基于部件模板的特征选择模块(FSM),将每一个候选框划分为若干子区域,对判别性高的子区域进行进一步的特征提取,使用局部特征来增强候选框的可判别性,缓解了原来方法因为遮挡而可能造成的漏检问题,提升了检测结果的召回率和准确率。
下面结合实施例对本发明的特征和性能作进一步的详细描述。
实施例一
本发明的较佳实施例,提供了基于部件模板的室内人物检测方法,如图1所示,包括以下步骤:
步骤1、收集数据集:
收集人员较密集的室内场景图片,并标注其中的人物对象,所述数据集为自行收集的数据集,通过在互联网上下载,截取视频,以及使用手持移动设备拍摄等方式收集获得,获取途径合理可靠,并满足任务要求;
步骤2、搭建检测模型:
对数据集进行特征提取和构建特征金字塔,基于部件模板的子区域得到每个候选框的前景置信分数,并通过池化和全连接层得到定位框位置,完成检测模型的搭建;
步骤2.1、对数据集进行特征提取:
使用骨干网络对数据集进行特征提取,所述骨干网络为Resnet50或VGG16,本实施例中采用Resnet50,并保留该过程中各层特征谱的输出结果,本实施例中保留最后四层{layer1,layer2,layer3,layer4}的输出结果;
步骤2.2、构建特征金字塔:
使用空洞卷积和1×1卷积将最顶层特征谱layer4的通道数下降为256,作为特征金字塔的最顶层p6;利用1×1卷积将最顶层特征谱layer4的通道数下降为256,作为特征金字塔的p5;横向链接最顶层下一层特征谱layer3的输出结果并使用1×1卷积降低通道数至256后,与p5逐像素相加得到p4;以此类推,从上到下,构建出特征金字塔Φp={p6,p5,p4,p3,p2,p1};
步骤2.3、基于部件模板的子区域得到每个候选框的前景置信分数,并通过池化和全连接层得到定位框位置:
步骤2.3.1、由于p5和p6的分辨率相同,因此在特征金字塔Φp的每层pi(i∈{1,2,3,4,5,6})上按照中心点间隔为4、8、16、32、32、32,长宽比分别为0.5、1、2,尺度分别为16、32、64、128、256、256,预设锚框(Anchor Box),然后在特征金字塔Φp的每一层pi(i∈{1,2,3,4,5})后,通过候选框生成网络(RPN)进行预测,得到预测候选框(proposal);
步骤2.3.2、将每个预测候选框(proposal)分成4个子区域,如图2所示,把每个子区域对应的特征谱单独提取出来,经过RoI池化模块,得到尺度统一的7×7×256维的特征谱,分别将这些特征谱输入对应的评分单元,如图3所示,图3中使用的激活函数为ReLu,在图中未特意注明,只用箭头表示,得到每个子区域的预测分数,以评估每个子区域的遮挡程度,再使用公式(1)计算得到每个预测候选框(proposal)的前景置信分数:
其中,Sold为原输出的前景置信分数,Snew使用公式(2)计算得到:
其中,Neff为子区域预测分数si,i∈[1,4]大于阈值的个数;
步骤2.3.3、构建全连接层(FC),进行预测得到定位框的位置,提升了定位框准确性;
步骤3、训练检测模型:
根据数据集的图片采用Xavier方法对检测模型进行初始化,基于检测模型的损失函数进行迭代到预设迭代次数,完成检测模型的训练;
步骤3.1、根据数据集的图片采用Xavier方法对检测模型进行初始化:
步骤3.1.1、对训练集的图片进行预处理:
将训练集的图片随机翻转,以扩充训练数据集,减去整个数据集的均值并除以方差,归一化处理后调整到固定尺度大小,作为训练图片,方便放入检测模型进行训练;
步骤3.1.2、对训练图片划分部件子区域,获得每个部件子区域的训练标签[p1,p2,p3,p4]:
标注出训练图片中每个目标的完整定位框和可见区域,用公式(3)计算得到每个子区域的训练标签[p1,p2,p3,p4]:
其中,U(subi)为第i个子区域,V(ti)为可见区域落在子区域i的区域,area(·)为计算面积的函数;
步骤3.2、基于检测模型的损失函数进行迭代到预设迭代次数:
所述检测模型的损失函数lossrpn为:
lossrpn=λ1losscls2lossreg3losssub (4)
其中,losscls为二分类的交叉熵损失,用来判断该定位框是否含有目标;lossreg为采用smooth l1的回归损失,用来回归定位框的坐标信息;losssub为每个子区域分数和标签值的交叉熵损失;λ123为平衡系数,用来调整每部分对总损失的贡献,以保证训练的稳定,本实施例中分别取1,1,0.5;
由于本发明是端到端的模型结构,所以不需要再进行其他人为干预,再对检测模型进行网络训练,直到达到预设的迭代次数;
步骤4、使用新的图片进行推理测试,得到检测结果:
使用新的图片,基于训练好的检测模型得到检测框,再根据非极大值抑制算法滤除掉重叠的检测框,提升检测精度,得到最终检测结果;
步骤4.1、使用新的图片,基于训练好的检测模型得到检测框:
将整个候选框的特征谱和子区域的特征谱,分别输入每个预测单元来预测两个分数spi和ssubi,i∈{1,2,3,4},用这两个分数来决定当前候选框最终的置信分数;如果任意spi都大于子区域的分数ssubi,则将Snew=max(spi),i∈{1,2,3,4},否则,采用公式(2)得到Snew;再通过公式(1)计算得到最终置信分数Sc;取置信分数Sc从高到低排序后的前N个候选框送下一级全连接层,回归得到更加精确的检测框;
步骤4.2、根据非极大值抑制算法滤除掉重叠的检测框,提升检测精度,得到最终检测结果:
对传统NMS算法进行优化,得到修改后的非极大值抑制算法ANMS(Area-NMS),其伪代码如下:
再通过非极大值抑制算法ANMS根据置信分数剔除掉一部分检测框,然后在剩下的这些框中,以面积为判断标准,通过两个阈值,滤除一些与周围检测框重叠面积较大的小检测框,以此来降低重复检测的几率,提升检测精度,从而得到最终的检测结果,其中,所述检测结果包括位置信息的检测框box(即每个定位框的左上角和右下角信息)和Sc对应的置信分数(Sc∈[0,1],R为两个框相交面积占小框的面积之比;T为判断阈值。
对NMS算法进行了优化,得到去除重叠框的非极大值抑制算法ANMS,有效且合理地剔除了重叠检测框,有效提升了本发明在室内场景中对人物目标的检测效果和检测准确率,因此本发明能够有效地检测出教室、会堂等复杂场景中的人物目标,实用性和鲁棒性都能得到很好的保证。
进一步地,所述步骤3.1.2中,对训练图片划分部件子区域,获得每个部件子区域的训练标签[p1,p2,p3,p4]的方式还可以为:
直接设置每个子区域的训练标签分别为[1,1,1,p4],如果该目标的检测框高宽比大于2,则p4=0.5,否则取0.2。
本发明主要针对室内场景,实现在该场景下对人物的检测任务,通过两阶段来实现目标检测,通过构建有效的特征金字塔结构,保留了更多的细节信息,实现语义增强和特征谱优化,缓解了混叠效应,有助于小目标的检测;同时使用基于部件模板的特征选择模块(FSM),将每一个候选框划分为若干子区域,对判别性高的子区域进行进一步的特征提取,使用局部特征来增强候选框的可判别性,缓解了原来方法因为遮挡而可能造成的漏检问题,提升了检测结果的召回率和准确率。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明的保护范围,任何熟悉本领域的技术人员在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.基于部件模板的室内人物检测方法,其特征在于,包括以下步骤:
收集数据集:收集人员较密集的室内场景图片,并标注其中的人物对象;
搭建检测模型:对数据集进行特征提取和构建特征金字塔,基于部件模板的子区域得到每个候选框的前景置信分数,并通过池化和全连接层得到定位框位置,完成检测模型的搭建;
训练检测模型:根据数据集的图片采用Xavier方法对检测模型进行初始化,基于检测模型的损失函数进行迭代到预设迭代次数,完成检测模型的训练;
使用新的图片进行推理测试,得到检测结果:使用新的图片,基于训练好的检测模型得到检测框,再根据非极大值抑制算法滤除掉重叠的检测框,提升检测精度,得到最终检测结果。
2.根据权利要求1所述的基于部件模板的室内人物检测方法,其特征在于,所述对数据集进行特征提取包括:使用骨干网络对数据集进行特征提取,并保留该过程中各层特征谱的输出结果。
3.根据权利要求1所述的基于部件模板的室内人物检测方法,其特征在于,所述构建特征金字塔包括:
使用空洞卷积和1×1卷积将最顶层特征谱的通道数下降,作为特征金字塔的最顶层p6;利用1×1卷积将最顶层特征谱的通道数下降,作为特征金字塔的p5;横向链接最顶层下一层特征谱的输出结果并使用1×1卷积降低通道数后,与p5逐像素相加得到p4;以此类推,从上到下,构建出特征金字塔Φp={p6,p5,p4,p3,p2,p1}。
4.根据权利要求1所述的基于部件模板的室内人物检测方法,其特征在于,所述基于部件模板的子区域得到每个候选框的前景置信分数,并通过池化和全连接层得到定位框位置包括:
在特征金字塔Φp的每层pi(i∈{1,2,3,4,5,6})上预设锚框,然后在特征金字塔Φp的每一层pi(i∈{1,2,3,4,5})后,通过候选框生成网络进行预测,得到预测候选框;
将每个预测候选框分成4个子区域,把每个子区域对应的特征谱单独提取出来,经过RoI池化模块,得到尺度统一的特征谱,分别将这些特征谱输入对应的评分单元,得到每个子区域的预测分数,以评估每个子区域的遮挡程度,再使用公式(1)计算得到每个预测候选框的前景置信分数:
其中,Sold为原输出的前景置信分数,Snew使用公式(2)计算得到:
其中,Neff为子区域预测分数si,i∈[1,4]大于阈值的个数;
构建全连接层,进行预测得到定位框的位置。
5.根据权利要求1所述的基于部件模板的室内人物检测方法,其特征在于,所述根据数据集的图片采用Xavier方法对检测模型进行初始化包括:
对训练集的图片进行预处理:将训练集的图片随机翻转,减去整个数据集的均值并除以方差,归一化处理后调整到固定尺度大小,作为训练图片;
对训练图片划分部件子区域,获得每个部件子区域的训练标签[p1,p2,p3,p4]。
6.根据权利要求5所述的基于部件模板的室内人物检测方法,其特征在于,所述对训练图片划分部件子区域,获得每个部件子区域的训练标签[p1,p2,p3,p4]的方式具体为:
标注出训练图片中每个目标的完整定位框和可见区域,用公式(3)计算得到每个子区域的训练标签[p1,p2,p3,p4]:
其中,U(subi)为第i个子区域,V(ti)为可见区域落在子区域i的区域,area(·)为计算面积的函数。
7.根据权利要求5所述的基于部件模板的室内人物检测方法,其特征在于,所述对训练图片划分部件子区域,获得每个部件子区域的训练标签[p1,p2,p3,p4]的方式具体为:
直接设置每个子区域的训练标签分别为[1,1,1,p4],如果该目标的检测框高宽比大于2,则p4=0.5,否则取0.2。
8.根据权利要求1所述的基于部件模板的室内人物检测方法,其特征在于,所述基于检测模型的损失函数进行迭代到预设迭代次数包括:
所述检测模型的损失函数lossrpn为:
lossrpn=λ1losscls2lossreg3losssub (4)
其中,losscls为二分类的交叉熵损失,用来判断该定位框是否含有目标;lossreg为采用smooth l1的回归损失,用来回归定位框的坐标信息;losssub为每个子区域分数和标签值的交叉熵损失;λ123为平衡系数,用来调整每部分对总损失的贡献;
再对检测模型进行网络训练,直到达到预设的迭代次数。
9.根据权利要求1所述的基于部件模板的室内人物检测方法,其特征在于,所述使用新的图片,基于训练好的检测模型得到检测框包括:
将整个候选框的特征谱和子区域的特征谱,分别输入每个预测单元来预测两个分数spi和ssubi,i∈{1,2,3,4},用这两个分数来决定当前候选框最终的置信分数;如果任意spi都大于子区域的分数ssubi,则将Snew=max(spi),i∈{1,2,3,4},否则,采用公式(2)得到Snew;再通过公式(1)计算得到最终置信分数Sc;取置信分数Sc从高到低排序后的前N个候选框送下一级全连接层,回归得到更加精确的检测框。
10.根据权利要求1所述的基于部件模板的室内人物检测方法,其特征在于,所述根据非极大值抑制算法滤除掉重叠的检测框,提升检测精度,得到最终检测结果包括:
对传统NMS算法进行优化,得到修改后的非极大值抑制算法ANMS(Area-NMS),再通过非极大值抑制算法ANMS根据置信分数剔除掉一部分检测框,然后在剩下的这些框中,以面积为判断标准,通过两个阈值,滤除一些与周围检测框重叠面积较大的小检测框,从而得到最终的检测结果。
CN201910599633.1A 2019-07-04 2019-07-04 基于部件模板的室内人物检测方法 Active CN110309792B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910599633.1A CN110309792B (zh) 2019-07-04 2019-07-04 基于部件模板的室内人物检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910599633.1A CN110309792B (zh) 2019-07-04 2019-07-04 基于部件模板的室内人物检测方法

Publications (2)

Publication Number Publication Date
CN110309792A true CN110309792A (zh) 2019-10-08
CN110309792B CN110309792B (zh) 2022-07-01

Family

ID=68079088

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910599633.1A Active CN110309792B (zh) 2019-07-04 2019-07-04 基于部件模板的室内人物检测方法

Country Status (1)

Country Link
CN (1) CN110309792B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112580450A (zh) * 2020-12-03 2021-03-30 天津大学 一种基于快进策略的视频中动物状态快速检测方法
CN113095288A (zh) * 2021-04-30 2021-07-09 浙江吉利控股集团有限公司 障碍物漏检修复方法、装置、设备及存储介质
CN115410060A (zh) * 2022-11-01 2022-11-29 山东省人工智能研究院 面向公共安全视频的全局感知小目标智能检测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105678231A (zh) * 2015-12-30 2016-06-15 中通服公众信息产业股份有限公司 一种基于稀疏编码和神经网络的行人图片检测方法
CN109344821A (zh) * 2018-08-30 2019-02-15 西安电子科技大学 基于特征融合和深度学习的小目标检测方法
US20190147245A1 (en) * 2017-11-14 2019-05-16 Nuro, Inc. Three-dimensional object detection for autonomous robotic systems using image proposals

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105678231A (zh) * 2015-12-30 2016-06-15 中通服公众信息产业股份有限公司 一种基于稀疏编码和神经网络的行人图片检测方法
US20190147245A1 (en) * 2017-11-14 2019-05-16 Nuro, Inc. Three-dimensional object detection for autonomous robotic systems using image proposals
CN109344821A (zh) * 2018-08-30 2019-02-15 西安电子科技大学 基于特征融合和深度学习的小目标检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ASIM LQBAL等: "developing a brain atlas through deep learning", 《NATURE MACHINE INTELLIGENCE》 *
韦皓瀚等: "改进星型级联可形变部件模型的行人检测", 《中国图象图形学报》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112580450A (zh) * 2020-12-03 2021-03-30 天津大学 一种基于快进策略的视频中动物状态快速检测方法
CN113095288A (zh) * 2021-04-30 2021-07-09 浙江吉利控股集团有限公司 障碍物漏检修复方法、装置、设备及存储介质
CN115410060A (zh) * 2022-11-01 2022-11-29 山东省人工智能研究院 面向公共安全视频的全局感知小目标智能检测方法

Also Published As

Publication number Publication date
CN110309792B (zh) 2022-07-01

Similar Documents

Publication Publication Date Title
Li et al. RSI-CB: A large scale remote sensing image classification benchmark via crowdsource data
CN106127204B (zh) 一种全卷积神经网络的多方向水表读数区域检测算法
Berger et al. Multi-modal and multi-temporal data fusion: Outcome of the 2012 GRSS data fusion contest
CN110309792A (zh) 基于部件模板的室内人物检测方法
CN104700099B (zh) 识别交通标志的方法和装置
CN108229425A (zh) 一种基于高分辨率遥感图像的水体识别方法
CN109165582A (zh) 一种城市街道垃圾检测和清洁度评估方法
CN110222787A (zh) 多尺度目标检测方法、装置、计算机设备及存储介质
CN108648169A (zh) 高压输电塔绝缘子缺陷自动识别的方法及装置
CN110163836A (zh) 基于深度学习用于高空巡检下的挖掘机检测方法
CN109325947A (zh) 一种基于深度学习的sar图像铁塔目标检测方法
CN109815770A (zh) 二维码检测方法、装置及系统
CN107239790A (zh) 一种基于深度学习的服务机器人目标检测与定位方法
CN108764269A (zh) 一种基于时空约束增量学习的跨数据集行人再识别方法
CN107665498A (zh) 基于典型示例挖掘的全卷积网络飞机检测方法
CN110348437A (zh) 一种基于弱监督学习与遮挡感知的目标检测方法
CN109583366B (zh) 一种基于视频图像和WiFi定位的体育建筑疏散人群轨迹生成方法
CN105279769A (zh) 一种联合多特征的层次粒子滤波跟踪方法
CN110458128A (zh) 一种姿态特征获取方法、装置、设备及存储介质
Liu et al. Extended faster R-CNN for long distance human detection: Finding pedestrians in UAV images
CN112836590A (zh) 洪涝灾害监测方法、装置、电子设备及存储介质
CN111897993A (zh) 一种基于行人再识别的高效目标人物轨迹生成方法
CN106228553A (zh) 高分辨率遥感图像阴影检测装置与方法
Li et al. Low-cost 3D building modeling via image processing
CN112200698A (zh) 一种基于人工智能的校园社交关系大数据分析系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant