CN110309792B

CN110309792B - 基于部件模板的室内人物检测方法

Info

Publication number: CN110309792B
Application number: CN201910599633.1A
Authority: CN
Inventors: 许林峰; 丁济生; 代胜选; 孟凡满; 吴庆波; 李宏亮
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-07-04
Filing date: 2019-07-04
Publication date: 2022-07-01
Anticipated expiration: 2039-07-04
Also published as: CN110309792A

Abstract

本发明公开了基于部件模板的室内人物检测方法，属于目标检测领域和深度学习领域，首先收集数据集，再对数据集进行特征提取和构建特征金字塔，基于部件模板的子区域得到每个候选框的前景置信分数，并通过池化和全连接层得到定位框位置，完成检测模型的搭建；然后根据数据集的图片采用Xavier方法对检测模型进行初始化，基于检测模型的损失函数进行迭代到预设迭代次数，完成检测模型的训练，最后使用新的图片进行推理测试，得到检测结果。本发明解决了目前通用的目标检测方法在对室内场景的人物检测方面定位和识别的准确率较低的问题。

Description

基于部件模板的室内人物检测方法

技术领域

本发明属于目标检测领域和深度学习领域，涉及基于部件模板的室内人物检测方法。

背景技术

目标检测任务是一个在计算机视觉领域中备受关注的研究方向，其目的旨在图像中识别并定位所关心的对象，因此被认为是帮助获取对场景和物体深度理解的一个重要任务。近些年来，随着计算机运算能力的提升，深度卷积神经网络的发展使目标检测任务获得了诸多显著的成果。

现如今，性能优越的目标检测模型都是基于深度卷积神经网络，其强大的特征提取能力给计算机视觉的各种任务带来了巨大的发展。较于传统的目标检测算法，基于深度学习的目标检测算法在检测精度和效率上有了突破性进步，在各种数据集上都表现出了强劲的性能和优势，但目标检测任务仍然面临着一些挑战，例如目标的多尺度问题，提升卷积神经网络的旋转不变性以及模型复杂度等。

比如，以检测室内场景中的人为例，在教室、会堂等人员较密集的室内场景中，存在待检测目标尺度多样性、尺度分布广、分布密集且数目多，以及相互间遮挡严重的问题，但目前通用的目标检测方法在该场景下无法获得很好的检测效果，定位和识别的准确率较低，不能满足在复杂室内场景中的实际需求。

因此，针对上述问题，本发明提出了一种基于部件模板的室内人物检测方法。

发明内容

本发明的目的在于：提供了基于部件模板的室内人物检测方法，解决了在室内场景的人物检测方面，由于待检测目标尺度多样性、尺度分布广、分布密集且数目多，以及相互间遮挡严重的原因，目前通用的目标检测方法在该场景下定位和识别的准确率较低的问题。

本发明采用的技术方案如下：

基于部件模板的室内人物检测方法，包括以下步骤：

收集数据集：收集人员较密集的室内场景图片，并标注其中的人物对象；

搭建检测模型：对数据集进行特征提取和构建特征金字塔，基于部件模板的子区域得到每个候选框的前景置信分数，并通过池化和全连接层得到定位框位置，完成检测模型的搭建；

训练检测模型：根据数据集的图片采用Xavier方法对检测模型进行初始化，基于检测模型的损失函数进行迭代到预设迭代次数，完成检测模型的训练；

使用新的图片进行推理测试，得到检测结果：使用新的图片，基于训练好的检测模型得到检测框，再根据非极大值抑制算法滤除掉重叠的检测框，提升检测精度，得到最终检测结果。

进一步地，所述对数据集进行特征提取包括：使用骨干网络对数据集进行特征提取，并保留该过程中各层特征谱的输出结果。

进一步地，所述构建特征金字塔包括：

使用空洞卷积和1×1卷积将最顶层特征谱的通道数下降，作为特征金字塔的最顶层p6；利用1×1卷积将最顶层特征谱的通道数下降，作为特征金字塔的p5；横向链接最顶层下一层特征谱的输出结果并使用1×1卷积降低通道数后，与p5逐像素相加得到p4；以此类推，从上到下，构建出特征金字塔Φ_p＝{p₆,p₅,p₄,p₃,p₂,p₁}。

进一步地，所述基于部件模板的子区域得到每个候选框的前景置信分数，并通过池化和全连接层得到定位框位置包括：

在特征金字塔Φ_p的每层p_i(i∈{1,2,3,4,5,6})上预设锚框，然后在特征金字塔Φ_p的每一层p_i(i∈{1,2,3,4,5})后，通过候选框生成网络进行预测，得到预测候选框；

将每个预测候选框分成4个子区域，把每个子区域对应的特征谱单独提取出来，经过RoI池化模块，得到尺度统一的特征谱，分别将这些特征谱输入对应的评分单元，得到每个子区域的预测分数，以评估每个子区域的遮挡程度，再使用公式(1)计算得到每个预测候选框的前景置信分数：

其中，S_old为原输出的前景置信分数，S_new使用公式(2)计算得到：

其中，N_eff为子区域预测分数s_i,i∈[1,4]大于阈值的个数；

构建全连接层，进行预测得到定位框的位置。

进一步地，所述根据数据集的图片采用Xavier方法对检测模型进行初始化包括：

对训练集的图片进行预处理：将训练集的图片随机翻转，减去整个数据集的均值并除以方差，归一化处理后调整到固定尺度大小，作为训练图片；

对训练图片划分部件子区域，获得每个部件子区域的训练标签[p₁,p₂,p₃,p₄]。

更进一步地，所述对训练图片划分部件子区域，获得每个部件子区域的训练标签[p₁,p₂,p₃,p₄]的方式具体为：

标注出训练图片中每个目标的完整定位框和可见区域，用公式(3)计算得到每个子区域的训练标签[p₁,p₂,p₃,p₄]：

其中，U(subⁱ)为第i个子区域，V(tⁱ)为可见区域落在子区域i的区域，area(·)为计算面积的函数。

直接设置每个子区域的训练标签分别为[1,1,1,p₄]，如果该目标的检测框高宽比大于2，则p₄＝0.5，否则取0.2。

进一步地，所述基于检测模型的损失函数进行迭代到预设迭代次数包括：

所述检测模型的损失函数loss_rpn为：

loss_rpn＝λ₁loss_cls+λ₂loss_reg+λ₃loss_sub (4)

其中，loss_cls为二分类的交叉熵损失，用来判断该定位框是否含有目标；loss_reg为采用smooth l1的回归损失，用来回归定位框的坐标信息；loss_sub为每个子区域分数和标签值的交叉熵损失；λ₁,λ₂,λ₃为平衡系数，用来调整每部分对总损失的贡献；

再对检测模型进行网络训练，直到达到预设的迭代次数。

进一步地，所述使用新的图片，基于训练好的检测模型得到检测框包括：

将整个候选框的特征谱和子区域的特征谱，分别输入每个预测单元来预测两个分数s_pi和s_subi,i∈{1,2,3,4}，用这两个分数来决定当前候选框最终的置信分数；如果任意s_pi都大于子区域的分数s_subi，则将S_new＝max(s_pi),i∈{1,2,3,4}，否则，采用公式(2)得到S_new；再通过公式(1)计算得到最终置信分数S_c；取置信分数S_c从高到低排序后的前N个候选框送下一级全连接层，回归得到更加精确的检测框。

进一步地，所述根据非极大值抑制算法滤除掉重叠的检测框，提升检测精度，得到最终检测结果包括：

对传统NMS算法进行优化，得到修改后的非极大值抑制算法ANMS(Area-NMS)，再通过非极大值抑制算法ANMS根据置信分数剔除掉一部分检测框，然后在剩下的这些框中，以面积为判断标准，通过两个阈值，滤除一些与周围检测框重叠面积较大的小检测框，从而得到最终的检测结果。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

1.基于部件模板的室内人物检测方法，主要针对室内场景，实现在该场景下对人物的检测任务，通过两阶段来实现目标检测，通过构建有效的特征金字塔结构，保留了更多的细节信息，实现语义增强和特征谱优化，缓解了混叠效应，有助于小目标的检测；同时使用基于部件模板的特征选择模块(FSM)，将每一个候选框划分为若干子区域，对判别性高的子区域进行进一步的特征提取，使用局部特征来增强候选框的可判别性，缓解了原来方法因为遮挡而可能造成的漏检问题，提升了检测结果的召回率和准确率。

2.本发明对NMS算法进行了优化，得到去除重叠框的非极大值抑制算法ANMS，有效且合理地剔除了重叠检测框，有效提升了本发明在室内场景中对人物目标的检测效果和检测准确率，因此本发明能够有效地检测出教室、会堂等复杂场景中的人物目标，实用性和鲁棒性都能得到很好的保证。

3.本发明中将训练集的图片随机翻转，以扩充训练数据集，减去整个数据集的均值并除以方差，归一化处理后调整到固定尺度大小，作为训练图片，方便放入检测模型进行训练。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图，其中：

图1是基于部件模板的室内人物检测方法的流程示意图；

图2是本发明基于部件模板的子区域划分示意图；

图3是本发明评分单元Unit的流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明，即所描述的实施例只是本发明的一部分实施例，而不是全部的实施例。通常在此处描述和附图中示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

基于部件模板的室内人物检测方法，解决了在室内场景的人物检测方面，由于待检测目标尺度多样性、尺度分布广、分布密集且数目多，以及相互间遮挡严重的原因，目前通用的目标检测方法在该场景下定位和识别的准确率较低的问题。

基于部件模板的室内人物检测方法，包括以下步骤：

本发明通过两阶段来实现目标检测，通过构建有效的特征金字塔结构，保留了更多的细节信息，实现语义增强和特征谱优化，缓解了混叠效应，有助于小目标的检测；同时使用基于部件模板的特征选择模块(FSM)，将每一个候选框划分为若干子区域，对判别性高的子区域进行进一步的特征提取，使用局部特征来增强候选框的可判别性，缓解了原来方法因为遮挡而可能造成的漏检问题，提升了检测结果的召回率和准确率。

下面结合实施例对本发明的特征和性能作进一步的详细描述。

实施例一

本发明的较佳实施例，提供了基于部件模板的室内人物检测方法，如图1所示，包括以下步骤：

步骤1、收集数据集：

收集人员较密集的室内场景图片，并标注其中的人物对象，所述数据集为自行收集的数据集，通过在互联网上下载，截取视频，以及使用手持移动设备拍摄等方式收集获得，获取途径合理可靠，并满足任务要求；

步骤2、搭建检测模型：

对数据集进行特征提取和构建特征金字塔，基于部件模板的子区域得到每个候选框的前景置信分数，并通过池化和全连接层得到定位框位置，完成检测模型的搭建；

步骤2.1、对数据集进行特征提取：

使用骨干网络对数据集进行特征提取，所述骨干网络为Resnet50或VGG16，本实施例中采用Resnet50，并保留该过程中各层特征谱的输出结果，本实施例中保留最后四层{layer₁,layer₂,layer₃,layer₄}的输出结果；

步骤2.2、构建特征金字塔：

使用空洞卷积和1×1卷积将最顶层特征谱layer₄的通道数下降为256，作为特征金字塔的最顶层p6；利用1×1卷积将最顶层特征谱layer₄的通道数下降为256，作为特征金字塔的p5；横向链接最顶层下一层特征谱layer₃的输出结果并使用1×1卷积降低通道数至256后，与p5逐像素相加得到p4；以此类推，从上到下，构建出特征金字塔Φ_p＝{p₆,p₅,p₄,p₃,p₂,p₁}；

步骤2.3、基于部件模板的子区域得到每个候选框的前景置信分数，并通过池化和全连接层得到定位框位置：

步骤2.3.1、由于p5和p6的分辨率相同，因此在特征金字塔Φ_p的每层p_i(i∈{1,2,3,4,5,6})上按照中心点间隔为4、8、16、32、32、32，长宽比分别为0.5、1、2，尺度分别为16、32、64、128、256、256，预设锚框(Anchor Box)，然后在特征金字塔Φ_p的每一层p_i(i∈{1,2,3,4,5})后，通过候选框生成网络(RPN)进行预测，得到预测候选框(proposal)；

步骤2.3.2、将每个预测候选框(proposal)分成4个子区域，如图2所示，把每个子区域对应的特征谱单独提取出来，经过RoI池化模块，得到尺度统一的7×7×256维的特征谱，分别将这些特征谱输入对应的评分单元，如图3所示，图3中使用的激活函数为ReLu，在图中未特意注明，只用箭头表示，得到每个子区域的预测分数，以评估每个子区域的遮挡程度，再使用公式(1)计算得到每个预测候选框(proposal)的前景置信分数：

其中，N_eff为子区域预测分数s_i,i∈[1,4]大于阈值的个数；

步骤2.3.3、构建全连接层(FC)，进行预测得到定位框的位置，提升了定位框准确性；

步骤3、训练检测模型：

根据数据集的图片采用Xavier方法对检测模型进行初始化，基于检测模型的损失函数进行迭代到预设迭代次数，完成检测模型的训练；

步骤3.1、根据数据集的图片采用Xavier方法对检测模型进行初始化：

步骤3.1.1、对训练集的图片进行预处理：

将训练集的图片随机翻转，以扩充训练数据集，减去整个数据集的均值并除以方差，归一化处理后调整到固定尺度大小，作为训练图片，方便放入检测模型进行训练；

步骤3.1.2、对训练图片划分部件子区域，获得每个部件子区域的训练标签[p₁,p₂,p₃,p₄]：

其中，U(subⁱ)为第i个子区域，V(tⁱ)为可见区域落在子区域i的区域，area(·)为计算面积的函数；

步骤3.2、基于检测模型的损失函数进行迭代到预设迭代次数：

所述检测模型的损失函数loss_rpn为：

loss_rpn＝λ₁loss_cls+λ₂loss_reg+λ₃loss_sub (4)

其中，loss_cls为二分类的交叉熵损失，用来判断该定位框是否含有目标；loss_reg为采用smooth l1的回归损失，用来回归定位框的坐标信息；loss_sub为每个子区域分数和标签值的交叉熵损失；λ₁,λ₂,λ₃为平衡系数，用来调整每部分对总损失的贡献，以保证训练的稳定，本实施例中分别取1，1，0.5；

由于本发明是端到端的模型结构，所以不需要再进行其他人为干预，再对检测模型进行网络训练，直到达到预设的迭代次数；

步骤4、使用新的图片进行推理测试，得到检测结果：

使用新的图片，基于训练好的检测模型得到检测框，再根据非极大值抑制算法滤除掉重叠的检测框，提升检测精度，得到最终检测结果；

步骤4.1、使用新的图片，基于训练好的检测模型得到检测框：

将整个候选框的特征谱和子区域的特征谱，分别输入每个预测单元来预测两个分数s_pi和s_subi,i∈{1,2,3,4}，用这两个分数来决定当前候选框最终的置信分数；如果任意s_pi都大于子区域的分数s_subi，则将S_new＝max(s_pi),i∈{1,2,3,4}，否则，采用公式(2)得到S_new；再通过公式(1)计算得到最终置信分数S_c；取置信分数S_c从高到低排序后的前N个候选框送下一级全连接层，回归得到更加精确的检测框；

步骤4.2、根据非极大值抑制算法滤除掉重叠的检测框，提升检测精度，得到最终检测结果：

对传统NMS算法进行优化，得到修改后的非极大值抑制算法ANMS(Area-NMS)，其伪代码如下：

再通过非极大值抑制算法ANMS根据置信分数剔除掉一部分检测框，然后在剩下的这些框中，以面积为判断标准，通过两个阈值，滤除一些与周围检测框重叠面积较大的小检测框，以此来降低重复检测的几率，提升检测精度，从而得到最终的检测结果，其中，所述检测结果包括位置信息的检测框box(即每个定位框的左上角和右下角信息)和S_c对应的置信分数(S_c∈[0,1]，R为两个框相交面积占小框的面积之比；T为判断阈值。

对NMS算法进行了优化，得到去除重叠框的非极大值抑制算法ANMS，有效且合理地剔除了重叠检测框，有效提升了本发明在室内场景中对人物目标的检测效果和检测准确率，因此本发明能够有效地检测出教室、会堂等复杂场景中的人物目标，实用性和鲁棒性都能得到很好的保证。

进一步地，所述步骤3.1.2中，对训练图片划分部件子区域，获得每个部件子区域的训练标签[p₁,p₂,p₃,p₄]的方式还可以为：

本发明主要针对室内场景，实现在该场景下对人物的检测任务，通过两阶段来实现目标检测，通过构建有效的特征金字塔结构，保留了更多的细节信息，实现语义增强和特征谱优化，缓解了混叠效应，有助于小目标的检测；同时使用基于部件模板的特征选择模块(FSM)，将每一个候选框划分为若干子区域，对判别性高的子区域进行进一步的特征提取，使用局部特征来增强候选框的可判别性，缓解了原来方法因为遮挡而可能造成的漏检问题，提升了检测结果的召回率和准确率。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明的保护范围，任何熟悉本领域的技术人员在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。