CN110309792B - 基于部件模板的室内人物检测方法 - Google Patents

基于部件模板的室内人物检测方法 Download PDF

Info

Publication number
CN110309792B
CN110309792B CN201910599633.1A CN201910599633A CN110309792B CN 110309792 B CN110309792 B CN 110309792B CN 201910599633 A CN201910599633 A CN 201910599633A CN 110309792 B CN110309792 B CN 110309792B
Authority
CN
China
Prior art keywords
detection
sub
training
detection model
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910599633.1A
Other languages
English (en)
Other versions
CN110309792A (zh
Inventor
许林峰
丁济生
代胜选
孟凡满
吴庆波
李宏亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201910599633.1A priority Critical patent/CN110309792B/zh
Publication of CN110309792A publication Critical patent/CN110309792A/zh
Application granted granted Critical
Publication of CN110309792B publication Critical patent/CN110309792B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/53Recognition of crowd images, e.g. recognition of crowd congestion

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于部件模板的室内人物检测方法,属于目标检测领域和深度学习领域,首先收集数据集,再对数据集进行特征提取和构建特征金字塔,基于部件模板的子区域得到每个候选框的前景置信分数,并通过池化和全连接层得到定位框位置,完成检测模型的搭建;然后根据数据集的图片采用Xavier方法对检测模型进行初始化,基于检测模型的损失函数进行迭代到预设迭代次数,完成检测模型的训练,最后使用新的图片进行推理测试,得到检测结果。本发明解决了目前通用的目标检测方法在对室内场景的人物检测方面定位和识别的准确率较低的问题。

Description

基于部件模板的室内人物检测方法
技术领域
本发明属于目标检测领域和深度学习领域,涉及基于部件模板的室内人物检测方法。
背景技术
目标检测任务是一个在计算机视觉领域中备受关注的研究方向,其目的旨在图像中识别并定位所关心的对象,因此被认为是帮助获取对场景和物体深度理解的一个重要任务。近些年来,随着计算机运算能力的提升,深度卷积神经网络的发展使目标检测任务获得了诸多显著的成果。
现如今,性能优越的目标检测模型都是基于深度卷积神经网络,其强大的特征提取能力给计算机视觉的各种任务带来了巨大的发展。较于传统的目标检测算法,基于深度学习的目标检测算法在检测精度和效率上有了突破性进步,在各种数据集上都表现出了强劲的性能和优势,但目标检测任务仍然面临着一些挑战,例如目标的多尺度问题,提升卷积神经网络的旋转不变性以及模型复杂度等。
比如,以检测室内场景中的人为例,在教室、会堂等人员较密集的室内场景中,存在待检测目标尺度多样性、尺度分布广、分布密集且数目多,以及相互间遮挡严重的问题,但目前通用的目标检测方法在该场景下无法获得很好的检测效果,定位和识别的准确率较低,不能满足在复杂室内场景中的实际需求。
因此,针对上述问题,本发明提出了一种基于部件模板的室内人物检测方法。
发明内容
本发明的目的在于:提供了基于部件模板的室内人物检测方法,解决了在室内场景的人物检测方面,由于待检测目标尺度多样性、尺度分布广、分布密集且数目多,以及相互间遮挡严重的原因,目前通用的目标检测方法在该场景下定位和识别的准确率较低的问题。
本发明采用的技术方案如下:
基于部件模板的室内人物检测方法,包括以下步骤:
收集数据集:收集人员较密集的室内场景图片,并标注其中的人物对象;
搭建检测模型:对数据集进行特征提取和构建特征金字塔,基于部件模板的子区域得到每个候选框的前景置信分数,并通过池化和全连接层得到定位框位置,完成检测模型的搭建;
训练检测模型:根据数据集的图片采用Xavier方法对检测模型进行初始化,基于检测模型的损失函数进行迭代到预设迭代次数,完成检测模型的训练;
使用新的图片进行推理测试,得到检测结果:使用新的图片,基于训练好的检测模型得到检测框,再根据非极大值抑制算法滤除掉重叠的检测框,提升检测精度,得到最终检测结果。
进一步地,所述对数据集进行特征提取包括:使用骨干网络对数据集进行特征提取,并保留该过程中各层特征谱的输出结果。
进一步地,所述构建特征金字塔包括:
使用空洞卷积和1×1卷积将最顶层特征谱的通道数下降,作为特征金字塔的最顶层p6;利用1×1卷积将最顶层特征谱的通道数下降,作为特征金字塔的p5;横向链接最顶层下一层特征谱的输出结果并使用1×1卷积降低通道数后,与p5逐像素相加得到p4;以此类推,从上到下,构建出特征金字塔Φp={p6,p5,p4,p3,p2,p1}。
进一步地,所述基于部件模板的子区域得到每个候选框的前景置信分数,并通过池化和全连接层得到定位框位置包括:
在特征金字塔Φp的每层pi(i∈{1,2,3,4,5,6})上预设锚框,然后在特征金字塔Φp的每一层pi(i∈{1,2,3,4,5})后,通过候选框生成网络进行预测,得到预测候选框;
将每个预测候选框分成4个子区域,把每个子区域对应的特征谱单独提取出来,经过RoI池化模块,得到尺度统一的特征谱,分别将这些特征谱输入对应的评分单元,得到每个子区域的预测分数,以评估每个子区域的遮挡程度,再使用公式(1)计算得到每个预测候选框的前景置信分数:
Figure BDA0002118840800000021
其中,Sold为原输出的前景置信分数,Snew使用公式(2)计算得到:
Figure BDA0002118840800000022
其中,Neff为子区域预测分数si,i∈[1,4]大于阈值的个数;
构建全连接层,进行预测得到定位框的位置。
进一步地,所述根据数据集的图片采用Xavier方法对检测模型进行初始化包括:
对训练集的图片进行预处理:将训练集的图片随机翻转,减去整个数据集的均值并除以方差,归一化处理后调整到固定尺度大小,作为训练图片;
对训练图片划分部件子区域,获得每个部件子区域的训练标签[p1,p2,p3,p4]。
更进一步地,所述对训练图片划分部件子区域,获得每个部件子区域的训练标签[p1,p2,p3,p4]的方式具体为:
标注出训练图片中每个目标的完整定位框和可见区域,用公式(3)计算得到每个子区域的训练标签[p1,p2,p3,p4]:
Figure BDA0002118840800000031
其中,U(subi)为第i个子区域,V(ti)为可见区域落在子区域i的区域,area(·)为计算面积的函数。
更进一步地,所述对训练图片划分部件子区域,获得每个部件子区域的训练标签[p1,p2,p3,p4]的方式具体为:
直接设置每个子区域的训练标签分别为[1,1,1,p4],如果该目标的检测框高宽比大于2,则p4=0.5,否则取0.2。
进一步地,所述基于检测模型的损失函数进行迭代到预设迭代次数包括:
所述检测模型的损失函数lossrpn为:
lossrpn=λ1losscls2lossreg3losssub (4)
其中,losscls为二分类的交叉熵损失,用来判断该定位框是否含有目标;lossreg为采用smooth l1的回归损失,用来回归定位框的坐标信息;losssub为每个子区域分数和标签值的交叉熵损失;λ123为平衡系数,用来调整每部分对总损失的贡献;
再对检测模型进行网络训练,直到达到预设的迭代次数。
进一步地,所述使用新的图片,基于训练好的检测模型得到检测框包括:
将整个候选框的特征谱和子区域的特征谱,分别输入每个预测单元来预测两个分数spi和ssubi,i∈{1,2,3,4},用这两个分数来决定当前候选框最终的置信分数;如果任意spi都大于子区域的分数ssubi,则将Snew=max(spi),i∈{1,2,3,4},否则,采用公式(2)得到Snew;再通过公式(1)计算得到最终置信分数Sc;取置信分数Sc从高到低排序后的前N个候选框送下一级全连接层,回归得到更加精确的检测框。
进一步地,所述根据非极大值抑制算法滤除掉重叠的检测框,提升检测精度,得到最终检测结果包括:
对传统NMS算法进行优化,得到修改后的非极大值抑制算法ANMS(Area-NMS),再通过非极大值抑制算法ANMS根据置信分数剔除掉一部分检测框,然后在剩下的这些框中,以面积为判断标准,通过两个阈值,滤除一些与周围检测框重叠面积较大的小检测框,从而得到最终的检测结果。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
1.基于部件模板的室内人物检测方法,主要针对室内场景,实现在该场景下对人物的检测任务,通过两阶段来实现目标检测,通过构建有效的特征金字塔结构,保留了更多的细节信息,实现语义增强和特征谱优化,缓解了混叠效应,有助于小目标的检测;同时使用基于部件模板的特征选择模块(FSM),将每一个候选框划分为若干子区域,对判别性高的子区域进行进一步的特征提取,使用局部特征来增强候选框的可判别性,缓解了原来方法因为遮挡而可能造成的漏检问题,提升了检测结果的召回率和准确率。
2.本发明对NMS算法进行了优化,得到去除重叠框的非极大值抑制算法ANMS,有效且合理地剔除了重叠检测框,有效提升了本发明在室内场景中对人物目标的检测效果和检测准确率,因此本发明能够有效地检测出教室、会堂等复杂场景中的人物目标,实用性和鲁棒性都能得到很好的保证。
3.本发明中将训练集的图片随机翻转,以扩充训练数据集,减去整个数据集的均值并除以方差,归一化处理后调整到固定尺度大小,作为训练图片,方便放入检测模型进行训练。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图,其中:
图1是基于部件模板的室内人物检测方法的流程示意图;
图2是本发明基于部件模板的子区域划分示意图;
图3是本发明评分单元Unit的流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明,即所描述的实施例只是本发明的一部分实施例,而不是全部的实施例。通常在此处描述和附图中示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
基于部件模板的室内人物检测方法,解决了在室内场景的人物检测方面,由于待检测目标尺度多样性、尺度分布广、分布密集且数目多,以及相互间遮挡严重的原因,目前通用的目标检测方法在该场景下定位和识别的准确率较低的问题。
基于部件模板的室内人物检测方法,包括以下步骤:
收集数据集:收集人员较密集的室内场景图片,并标注其中的人物对象;
搭建检测模型:对数据集进行特征提取和构建特征金字塔,基于部件模板的子区域得到每个候选框的前景置信分数,并通过池化和全连接层得到定位框位置,完成检测模型的搭建;
训练检测模型:根据数据集的图片采用Xavier方法对检测模型进行初始化,基于检测模型的损失函数进行迭代到预设迭代次数,完成检测模型的训练;
使用新的图片进行推理测试,得到检测结果:使用新的图片,基于训练好的检测模型得到检测框,再根据非极大值抑制算法滤除掉重叠的检测框,提升检测精度,得到最终检测结果。
本发明通过两阶段来实现目标检测,通过构建有效的特征金字塔结构,保留了更多的细节信息,实现语义增强和特征谱优化,缓解了混叠效应,有助于小目标的检测;同时使用基于部件模板的特征选择模块(FSM),将每一个候选框划分为若干子区域,对判别性高的子区域进行进一步的特征提取,使用局部特征来增强候选框的可判别性,缓解了原来方法因为遮挡而可能造成的漏检问题,提升了检测结果的召回率和准确率。
下面结合实施例对本发明的特征和性能作进一步的详细描述。
实施例一
本发明的较佳实施例,提供了基于部件模板的室内人物检测方法,如图1所示,包括以下步骤:
步骤1、收集数据集:
收集人员较密集的室内场景图片,并标注其中的人物对象,所述数据集为自行收集的数据集,通过在互联网上下载,截取视频,以及使用手持移动设备拍摄等方式收集获得,获取途径合理可靠,并满足任务要求;
步骤2、搭建检测模型:
对数据集进行特征提取和构建特征金字塔,基于部件模板的子区域得到每个候选框的前景置信分数,并通过池化和全连接层得到定位框位置,完成检测模型的搭建;
步骤2.1、对数据集进行特征提取:
使用骨干网络对数据集进行特征提取,所述骨干网络为Resnet50或VGG16,本实施例中采用Resnet50,并保留该过程中各层特征谱的输出结果,本实施例中保留最后四层{layer1,layer2,layer3,layer4}的输出结果;
步骤2.2、构建特征金字塔:
使用空洞卷积和1×1卷积将最顶层特征谱layer4的通道数下降为256,作为特征金字塔的最顶层p6;利用1×1卷积将最顶层特征谱layer4的通道数下降为256,作为特征金字塔的p5;横向链接最顶层下一层特征谱layer3的输出结果并使用1×1卷积降低通道数至256后,与p5逐像素相加得到p4;以此类推,从上到下,构建出特征金字塔Φp={p6,p5,p4,p3,p2,p1};
步骤2.3、基于部件模板的子区域得到每个候选框的前景置信分数,并通过池化和全连接层得到定位框位置:
步骤2.3.1、由于p5和p6的分辨率相同,因此在特征金字塔Φp的每层pi(i∈{1,2,3,4,5,6})上按照中心点间隔为4、8、16、32、32、32,长宽比分别为0.5、1、2,尺度分别为16、32、64、128、256、256,预设锚框(Anchor Box),然后在特征金字塔Φp的每一层pi(i∈{1,2,3,4,5})后,通过候选框生成网络(RPN)进行预测,得到预测候选框(proposal);
步骤2.3.2、将每个预测候选框(proposal)分成4个子区域,如图2所示,把每个子区域对应的特征谱单独提取出来,经过RoI池化模块,得到尺度统一的7×7×256维的特征谱,分别将这些特征谱输入对应的评分单元,如图3所示,图3中使用的激活函数为ReLu,在图中未特意注明,只用箭头表示,得到每个子区域的预测分数,以评估每个子区域的遮挡程度,再使用公式(1)计算得到每个预测候选框(proposal)的前景置信分数:
Figure BDA0002118840800000061
其中,Sold为原输出的前景置信分数,Snew使用公式(2)计算得到:
Figure BDA0002118840800000062
其中,Neff为子区域预测分数si,i∈[1,4]大于阈值的个数;
步骤2.3.3、构建全连接层(FC),进行预测得到定位框的位置,提升了定位框准确性;
步骤3、训练检测模型:
根据数据集的图片采用Xavier方法对检测模型进行初始化,基于检测模型的损失函数进行迭代到预设迭代次数,完成检测模型的训练;
步骤3.1、根据数据集的图片采用Xavier方法对检测模型进行初始化:
步骤3.1.1、对训练集的图片进行预处理:
将训练集的图片随机翻转,以扩充训练数据集,减去整个数据集的均值并除以方差,归一化处理后调整到固定尺度大小,作为训练图片,方便放入检测模型进行训练;
步骤3.1.2、对训练图片划分部件子区域,获得每个部件子区域的训练标签[p1,p2,p3,p4]:
标注出训练图片中每个目标的完整定位框和可见区域,用公式(3)计算得到每个子区域的训练标签[p1,p2,p3,p4]:
Figure BDA0002118840800000071
其中,U(subi)为第i个子区域,V(ti)为可见区域落在子区域i的区域,area(·)为计算面积的函数;
步骤3.2、基于检测模型的损失函数进行迭代到预设迭代次数:
所述检测模型的损失函数lossrpn为:
lossrpn=λ1losscls2lossreg3losssub (4)
其中,losscls为二分类的交叉熵损失,用来判断该定位框是否含有目标;lossreg为采用smooth l1的回归损失,用来回归定位框的坐标信息;losssub为每个子区域分数和标签值的交叉熵损失;λ123为平衡系数,用来调整每部分对总损失的贡献,以保证训练的稳定,本实施例中分别取1,1,0.5;
由于本发明是端到端的模型结构,所以不需要再进行其他人为干预,再对检测模型进行网络训练,直到达到预设的迭代次数;
步骤4、使用新的图片进行推理测试,得到检测结果:
使用新的图片,基于训练好的检测模型得到检测框,再根据非极大值抑制算法滤除掉重叠的检测框,提升检测精度,得到最终检测结果;
步骤4.1、使用新的图片,基于训练好的检测模型得到检测框:
将整个候选框的特征谱和子区域的特征谱,分别输入每个预测单元来预测两个分数spi和ssubi,i∈{1,2,3,4},用这两个分数来决定当前候选框最终的置信分数;如果任意spi都大于子区域的分数ssubi,则将Snew=max(spi),i∈{1,2,3,4},否则,采用公式(2)得到Snew;再通过公式(1)计算得到最终置信分数Sc;取置信分数Sc从高到低排序后的前N个候选框送下一级全连接层,回归得到更加精确的检测框;
步骤4.2、根据非极大值抑制算法滤除掉重叠的检测框,提升检测精度,得到最终检测结果:
对传统NMS算法进行优化,得到修改后的非极大值抑制算法ANMS(Area-NMS),其伪代码如下:
Figure BDA0002118840800000081
再通过非极大值抑制算法ANMS根据置信分数剔除掉一部分检测框,然后在剩下的这些框中,以面积为判断标准,通过两个阈值,滤除一些与周围检测框重叠面积较大的小检测框,以此来降低重复检测的几率,提升检测精度,从而得到最终的检测结果,其中,所述检测结果包括位置信息的检测框box(即每个定位框的左上角和右下角信息)和Sc对应的置信分数(Sc∈[0,1],R为两个框相交面积占小框的面积之比;T为判断阈值。
对NMS算法进行了优化,得到去除重叠框的非极大值抑制算法ANMS,有效且合理地剔除了重叠检测框,有效提升了本发明在室内场景中对人物目标的检测效果和检测准确率,因此本发明能够有效地检测出教室、会堂等复杂场景中的人物目标,实用性和鲁棒性都能得到很好的保证。
进一步地,所述步骤3.1.2中,对训练图片划分部件子区域,获得每个部件子区域的训练标签[p1,p2,p3,p4]的方式还可以为:
直接设置每个子区域的训练标签分别为[1,1,1,p4],如果该目标的检测框高宽比大于2,则p4=0.5,否则取0.2。
本发明主要针对室内场景,实现在该场景下对人物的检测任务,通过两阶段来实现目标检测,通过构建有效的特征金字塔结构,保留了更多的细节信息,实现语义增强和特征谱优化,缓解了混叠效应,有助于小目标的检测;同时使用基于部件模板的特征选择模块(FSM),将每一个候选框划分为若干子区域,对判别性高的子区域进行进一步的特征提取,使用局部特征来增强候选框的可判别性,缓解了原来方法因为遮挡而可能造成的漏检问题,提升了检测结果的召回率和准确率。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明的保护范围,任何熟悉本领域的技术人员在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.基于部件模板的室内人物检测方法,其特征在于,包括以下步骤:
收集数据集:收集人员较密集的室内场景图片,并标注其中的人物对象;
搭建检测模型:对数据集进行特征提取和构建特征金字塔,基于部件模板的子区域得到每个候选框的前景置信分数,并通过池化和全连接层得到定位框位置,完成检测模型的搭建;
训练检测模型:根据数据集的图片采用Xavier方法对检测模型进行初始化,基于检测模型的损失函数进行迭代到预设迭代次数,完成检测模型的训练;
使用新的图片进行推理测试,得到检测结果:使用新的图片,基于训练好的检测模型得到检测框,再根据非极大值抑制算法滤除掉重叠的检测框,提升检测精度,得到最终检测结果;
所述基于部件模板的子区域得到每个候选框的前景置信分数,并通过池化和全连接层得到定位框位置包括:
在特征金字塔
Figure 385032DEST_PATH_IMAGE001
的每层
Figure 148719DEST_PATH_IMAGE002
上预设锚框,然后在特征金字塔
Figure 31225DEST_PATH_IMAGE001
的每一层
Figure 383709DEST_PATH_IMAGE003
后,通过候选框生成网络进行预测,得到预测候选框;
将每个预测候选框分成4个子区域,把每个子区域对应的特征谱单独提取出来,经过RoI池化模块,得到尺度统一的特征谱,分别将这些特征谱输入对应的评分单元,得到每个子区域的预测分数,以评估每个子区域的遮挡程度,再使用公式(1)计算得到每个预测候选框的前景置信分数:
Figure 388574DEST_PATH_IMAGE004
(1)
其中,
Figure 826508DEST_PATH_IMAGE005
为原输出的前景置信分数,
Figure 247125DEST_PATH_IMAGE006
使用公式(2)计算得到:
Figure 719695DEST_PATH_IMAGE007
(2)
其中,
Figure 144729DEST_PATH_IMAGE008
为子区域预测分数
Figure 69960DEST_PATH_IMAGE009
大于阈值的个数;
构建全连接层,进行预测得到定位框的位置;
所述使用新的图片,基于训练好的检测模型得到检测框包括:
将整个候选框的特征谱和子区域的特征谱,分别输入每个预测单元来预测两个分数
Figure 294268DEST_PATH_IMAGE010
Figure 355765DEST_PATH_IMAGE011
,用这两个分数来决定当前候选框最终的置信分数;如果任意
Figure 702432DEST_PATH_IMAGE012
都大于子区域的分数
Figure 114959DEST_PATH_IMAGE013
,则将
Figure 142958DEST_PATH_IMAGE014
,否则,采用公式(2)得到
Figure 324541DEST_PATH_IMAGE015
;再通过公式(1)计算得到最终置信分数
Figure 327263DEST_PATH_IMAGE016
;取置信分数
Figure 227086DEST_PATH_IMAGE016
从高到低排序后的前N个候选框送下一级全连接层,回归得到更加精确的检测框。
2.根据权利要求1所述的基于部件模板的室内人物检测方法,其特征在于,所述对数据集进行特征提取包括:使用骨干网络对数据集进行特征提取,并保留该过程中各层特征谱的输出结果。
3.根据权利要求1所述的基于部件模板的室内人物检测方法,其特征在于,所述构建特征金字塔包括:
使用空洞卷积和
Figure 793196DEST_PATH_IMAGE017
卷积将最顶层特征谱的通道数下降,作为特征金字塔的最顶层p6;利用
Figure 157181DEST_PATH_IMAGE018
卷积将最顶层特征谱的通道数下降,作为特征金字塔的p5;横向链接最顶层下一层特征谱的输出结果并使用
Figure 517756DEST_PATH_IMAGE019
卷积降低通道数后,与p5逐像素相加得到p4;以此类推,从上到下,构建出特征金字塔
Figure 904875DEST_PATH_IMAGE020
4.根据权利要求1所述的基于部件模板的室内人物检测方法,其特征在于,所述根据数据集的图片采用Xavier方法对检测模型进行初始化包括:
对训练集的图片进行预处理:将训练集的图片随机翻转,减去整个数据集的均值并除以方差,归一化处理后调整到固定尺度大小,作为训练图片;
对训练图片划分部件子区域,获得每个部件子区域的训练标签
Figure 274676DEST_PATH_IMAGE021
5.根据权利要求4所述的基于部件模板的室内人物检测方法,其特征在于,所述对训练图片划分部件子区域,获得每个部件子区域的训练标签
Figure 473926DEST_PATH_IMAGE022
的方式具体为:
标注出训练图片中每个目标的完整定位框和可见区域,用公式(3)计算得到每个子区域的训练标签
Figure 270981DEST_PATH_IMAGE023
Figure 879817DEST_PATH_IMAGE024
(3)
其中,
Figure 53309DEST_PATH_IMAGE025
为第i个子区域,
Figure 126308DEST_PATH_IMAGE026
为可见区域落在子区域i的区域,
Figure 94264DEST_PATH_IMAGE027
为计算面积的函数。
6.根据权利要求4所述的基于部件模板的室内人物检测方法,其特征在于,所述对训练图片划分部件子区域,获得每个部件子区域的训练标签
Figure 190396DEST_PATH_IMAGE028
的方式具体为:
直接设置每个子区域的训练标签分别为
Figure 902000DEST_PATH_IMAGE029
,如果该目标的检测框高宽比大于2,则
Figure 580237DEST_PATH_IMAGE030
=0.5,否则取0.2。
7.根据权利要求1所述的基于部件模板的室内人物检测方法,其特征在于,所述基于检测模型的损失函数进行迭代到预设迭代次数包括:
所述检测模型的损失函数
Figure 719094DEST_PATH_IMAGE031
为:
Figure 302522DEST_PATH_IMAGE032
(4)
其中,
Figure 552238DEST_PATH_IMAGE033
为二分类的交叉熵损失,用来判断该定位框是否含有目标;
Figure 599828DEST_PATH_IMAGE034
为采用smooth l1的回归损失,用来回归定位框的坐标信息;
Figure 909587DEST_PATH_IMAGE035
为每个子区域分数和标签值的交叉熵损失;
Figure 980311DEST_PATH_IMAGE036
为平衡系数,用来调整每部分对总损失的贡献;
再对检测模型进行网络训练,直到达到预设的迭代次数。
8.根据权利要求1所述的基于部件模板的室内人物检测方法,其特征在于,所述根据非极大值抑制算法滤除掉重叠的检测框,提升检测精度,得到最终检测结果包括:
对传统NMS算法进行优化,得到修改后的非极大值抑制算法ANMS(Area-NMS),再通过非极大值抑制算法ANMS根据置信分数剔除掉一部分检测框,然后在剩下的这些框中,以面积为判断标准,通过两个阈值,滤除一些与周围检测框重叠面积较大的小检测框,从而得到最终的检测结果。
CN201910599633.1A 2019-07-04 2019-07-04 基于部件模板的室内人物检测方法 Active CN110309792B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910599633.1A CN110309792B (zh) 2019-07-04 2019-07-04 基于部件模板的室内人物检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910599633.1A CN110309792B (zh) 2019-07-04 2019-07-04 基于部件模板的室内人物检测方法

Publications (2)

Publication Number Publication Date
CN110309792A CN110309792A (zh) 2019-10-08
CN110309792B true CN110309792B (zh) 2022-07-01

Family

ID=68079088

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910599633.1A Active CN110309792B (zh) 2019-07-04 2019-07-04 基于部件模板的室内人物检测方法

Country Status (1)

Country Link
CN (1) CN110309792B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112580450B (zh) * 2020-12-03 2022-11-18 天津大学 一种基于快进策略的视频中动物状态快速检测方法
CN113095288A (zh) * 2021-04-30 2021-07-09 浙江吉利控股集团有限公司 障碍物漏检修复方法、装置、设备及存储介质
CN115410060B (zh) * 2022-11-01 2023-02-28 山东省人工智能研究院 面向公共安全视频的全局感知小目标智能检测方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105678231A (zh) * 2015-12-30 2016-06-15 中通服公众信息产业股份有限公司 一种基于稀疏编码和神经网络的行人图片检测方法
CN109344821A (zh) * 2018-08-30 2019-02-15 西安电子科技大学 基于特征融合和深度学习的小目标检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10824862B2 (en) * 2017-11-14 2020-11-03 Nuro, Inc. Three-dimensional object detection for autonomous robotic systems using image proposals

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105678231A (zh) * 2015-12-30 2016-06-15 中通服公众信息产业股份有限公司 一种基于稀疏编码和神经网络的行人图片检测方法
CN109344821A (zh) * 2018-08-30 2019-02-15 西安电子科技大学 基于特征融合和深度学习的小目标检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
developing a brain atlas through deep learning;asim lqbal等;《nature machine intelligence》;20190610;277-287 *
改进星型级联可形变部件模型的行人检测;韦皓瀚等;《中国图象图形学报》;20170216;第22卷(第02期);28-36 *

Also Published As

Publication number Publication date
CN110309792A (zh) 2019-10-08

Similar Documents

Publication Publication Date Title
CN110598610B (zh) 一种基于神经选择注意的目标显著性检测方法
CN110309792B (zh) 基于部件模板的室内人物检测方法
CN113065558A (zh) 一种结合注意力机制的轻量级小目标检测方法
US9626585B2 (en) Composition modeling for photo retrieval through geometric image segmentation
CN111160407B (zh) 一种深度学习目标检测方法及系统
CN107909033A (zh) 基于监控视频的嫌疑人快速追踪方法
CN111753828A (zh) 一种基于深度卷积神经网络的自然场景水平文字检测方法
CN112926453B (zh) 基于运动特征增强和长时时序建模的考场作弊行为分析方法
CN113591968A (zh) 一种基于非对称注意力特征融合的红外弱小目标检测方法
CN107609575A (zh) 书法评价方法、书法评价装置和电子设备
WO2013091370A1 (zh) 基于三维深度图像信息的并行统计学习人体部位检测方法
CN112001282A (zh) 一种图像识别方法
CN109360179B (zh) 一种图像融合方法、装置及可读存储介质
CN105760472A (zh) 视频检索方法及系统
CN110188694B (zh) 一种基于压力特征的穿鞋足迹序列识别方法
CN112068555A (zh) 一种基于语义slam方法的语音控制型移动机器人
WO2022141145A1 (zh) 面向对象的高分辨率遥感影像多尺度分割方法及系统
CN112001394A (zh) 基于ai视觉下的听写交互方法、系统、装置
CN112364747B (zh) 一种有限样本下的目标检测方法
CN112287802A (zh) 人脸图像检测方法、系统、存储介质及设备
CN111680759B (zh) 一种电网巡检绝缘子检测分类方法
CN111310566A (zh) 一种静动态多特征融合的山火检测方法及系统
CN105469099B (zh) 基于稀疏表示分类的路面裂缝检测和识别方法
CN106570878A (zh) 一种基于灰度差分的稠油微观界面检测方法
CN111898589B (zh) 一种基于gpu+特征识别的无人机影像快速配准方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant