CN115393892A

CN115393892A - 一种基于改进双候选框交叉替换策略和损失函数的拥挤场景行人检测方法

Info

Publication number: CN115393892A
Application number: CN202210863953.5A
Authority: CN
Inventors: 周欣欣; 孟炫宇; 张龙; 衣雪婷; 郭月晨; 薛青常; 李茂源; 杨峰
Original assignee: Northeast Dianli University
Current assignee: Northeast Electric Power University
Priority date: 2022-07-20
Filing date: 2022-07-20
Publication date: 2022-11-25
Anticipated expiration: 2042-07-20
Also published as: CN115393892B

Abstract

本发明提供了一种基于改进双候选框交叉替换策略和损失函数的拥挤场景行人检测方法，包括以下步骤：S1：将图像输入到主干网络，提取不同尺度下的特征；S2：将步骤S1提取的特征输入到基于简化CIoU和K‑means聚类算法的锚框优化方法的双锚框区域建议网络中获取候选框；S3：采用改进的双候选框交叉替换策略对步骤S2生成的候选框对进行比对、替换，生成高质量候选框对；S4：将经过RoI Align后的头部和全身候选框对应的特征输入全连接层进行融合，并得到特征图信息；S5：采用改进的损失函数对融合后的特征图信息进行分类和回归处理，预测行人的位置和类别信息；S6：剔除冗余预测框，输出带有最优预测框的图像。该方法有效降低了拥挤场景下行人检测的误检率和漏检率。

Description

一种基于改进双候选框交叉替换策略和损失函数的拥挤场景行人检测方法

技术领域

本发明涉及目标检测技术领域，具体涉及一种基于改进双候选框交叉替换策略和损失函数的拥挤场景行人检测方法。

背景技术

行人检测这些年一直受到众多研究者的关注，可以为一些现实场景提供重要的技术支持。例如，在车辆驾驶系统中，帮助车辆在行驶过程中检测行人，从而辅助车辆行驶规避行人，减少交通事故发生；在智能监控系统中，通过监控视频或图片的内容，识别罪犯、拥挤行人等潜在的安全隐患，从而及时采取行动，提高居民和城市安全；在机器人以及高级人机交互系统中，赋予机器智能，解放工人双手。此外，行人检测也是多目标追踪、人体姿态估计和人像搜索的前提。

近年来，随着人民物质生活水平的逐渐提高和城市化进程的不断加快，城市居民数量得到了迅速的增长，导致许多场景经常会出现人群拥挤情况，如商场、车站、街道、医院、景区等场景，这些拥挤场景存在着较大的安全隐患。尽管现有行人检测模型在KITTI、CityPersons 和Caltech等经典行人检测数据集上取得了不错的结果，但是在拥挤场景数据集上依然表现不佳。与一般行人检测相比，在拥挤场景下，行人检测除了受到图像中光照强度不一、背景复杂多样、不同拍摄角度等因素的影响外，人体结构之间的相似性、姿态的多样性、尺度大小在图像中多变以及行人着装各异等因素，也大大增加了人体检测的难度。更困难的是人体之间还普遍存在高度遮挡，这些遮挡的模式多样且属于同类别遮挡，使得行人检测模型提取的每个目标的特征区分性不高，导致模型无法区分各目标之间的边界，以致将多个目标看作一个整体，或者某些目标的预测边界框有较大偏差，或者预测的边界框被非极大值抑制剔除，进而导致检测模型存在漏检和误检情况，使模型检测效果严重下降。因此，研究拥挤场景行人检测方法，提高行人识别的准确性及定位的精确性，具有较好的理论意义以及实际应用价值。

发明内容

本发明提供了一种基于改进双候选框交叉替换策略和损失函数的拥挤场景行人检测方法，其目的在于解决在拥挤场景下由于人体间的遮挡导致行人检测模型存在漏检和误检的问题。

为实现上述目的，本发明提供了如下的技术方案：

一种基于改进双候选框交叉替换策略和损失函数的拥挤场景行人检测方法，具体步骤如下：

S1：将图像输入到主干网络，提取不同尺度下的特征；

S2：将步骤S1中提取的特征输入到基于简化CIoU和K-means聚类算法的锚框优化方法的双锚框区域建议网络中获取候选框；

S3：采用改进的双候选框交叉替换策略对步骤S2生成的候选框对进行比对、替换，生成包含头部和全身候选框的高质量候选框对；

S4：将经过RoI Align后的头部和全身候选框对应的特征输入全连接层进行融合，生成融合后的特征图信息；

S5：根据目标内容对融合后的特征图信息，采用基于改进的损失函数对融合后的特征图信息进行分类和回归处理，获得多个预测框，预测行人的位置和类别信息，其中改进的回归损失函数计算公式见公式(1)：

L_E-RepLoss＝L_E-Attr-α*L_E-RepGT-β*L_E-RepBox (1)

公式(1)中，L_E-RepLoss是改进的损失函数，L_E-Attr是吸引力损失，L_E-RepGT、L_E-RepBox是排斥力损失，α和β为平衡系数；

公式(1)中，吸引力损失L_E-Attr的计算方法见公式(2)，其作用是使目标的预测边界框尽可能靠近自己的真实框：

公式(2)中，b和

分别表示行人的预测边界框和与之对应的真实框，而w表示预测边界框的宽，h表示预测边界框的高，

表示真实框的宽，

表示真实框的高，c表示两个边界框最小外接矩形的对角线，ρ表示两个边界框最小外接矩形的中心点的距离，C_w和C_h为两个边界框最小外接矩形的宽和高；

公式(1)中，L_E-RepGT为预测边界框与相邻目标真实框的排斥力损失函数，计算方法见公式 (3)：

公式(3)中，

是b与所有真实框交并比值第二大时的真实框，

和

是其对应的宽和高；

公式(1)中，L_E-RepBox为行人预测边界框与相邻行人预测边界框损失函数，计算方法见公式(4)：

公式(4)中，bⁱ和b^j表示行人i跟行人j的预测边界框，wⁱ、hⁱ表示行人i的预测边界框的宽跟高，w^j、h^j表示行人j的预测边界框的宽跟高；

S6：剔除冗余预测框，输出带有最优预测框的图像。

进一步的，所述步骤S1具体包括步骤S11至步骤S12：

S11：加载在ImageNet分类数据集上预训练后生成的深度残差卷积神经网络模型ResNet50；

S12：将待检测的图像输入到深度残差卷积神经网络ResNet50中提取不同尺度下的深度卷积特征；

进一步的，所述步骤S2具体包括步骤S21至步骤S22：

S21：采用基于简化CIoU和K-means聚类算法的锚框优化方法对双锚框区域建议网络进行锚框优化，进一步包括步骤S211至步骤S215：

S211：将数据集中所有全身标注框的宽和高(x_i，y_i)作为待聚类样本，其中，i∈(1，2，...N)， N为样本个数，x_i为第i个标注框的宽，y_i为第i个标注框的高；

S212：给定K个聚类中心点的坐标(SW_j，SH_j)，其中，(SW_j，SH_j)为第j个聚类中心点的坐标， j∈(1，2，...K)，K为聚类中心点的数量；

S213：根据L_S-CIoU计算每个标注框到每个聚类中心的距离，计算公式见公式(5)，将标注框分配给距离最近的聚类中心；

d＝L_S-CIoU[(sw_i，sh_i)，(SW_j，SH_j)] (5)

公式(5)中，d表示标注框到聚类中心的距离，i∈(1，2，…，N)，j∈(1，2，…K)，L_S-CIoU为 K-means聚类算法中距离计算公式，(sw_i，sh_i)为第i个标注框中心位置坐标，L_S-CIoU计算公式见公式(6)：

L_S-CIoU＝1-IoU+αν (6)

公式(6)中，v是宽高比，a是动态权重因子，其中，α的计算方法见公式(7)：

公式(7)中，宽高比v的计算方法见公式(8)：

公式(8)中，(sw^gt,sh^gt)为真实框中心位置坐标，(sw,sh)为标注框中心位置坐标；

S214：所有标注框分配完毕以后，对每个簇重新计算聚类中心，计算方法见公式(9)：

公式(9)中，(SW’,SH’)为重新计算的第i个类簇的聚类中心位置坐标，N_i为第i个类簇中对象个数，∑SW_i为第i个类簇中所有对象横坐标SW向量的和，∑SH_i为第i个类簇中所有对象纵坐标SH向量的和；

S215：重复步骤S213、S214，直到聚类中心不再改变；

S22：将步骤S1中提取的特征输入到基于简化CIoU和K-means聚类算法的锚框优化方法的双锚框区域建议网络中，由RPN-H和RPN-B生成符合数据集的头部和全身候选框对。

进一步的，所述步骤S3具体包括步骤S31至步骤S32：

S31：设定第一阈值；

S32：对RPN-B的低质量头部候选框和RPN-H高质量头部候选框计算交并比，若交并比值大于步骤S31所述的第一阈值，则将RPN-B的头部候选框替换为RPN-H的头部候选框；将替换后头部候选框与RPN-B中身体候选框拼接，最终形成一对高质量候选框对。

进一步的，所述步骤S6具体包括步骤S61至步骤S62：

S61：通过非极大值抑制法筛选出所述最优预测框；

S62：通过Open CV将带有最优预测框的图像绘制到操作界面的结果输出框，并进行输出。

进一步的，所述步骤S61具体包括步骤S611至步骤S615：

S611：通过联合非极大值抑制的方法，同时利用输出的头部和全身边界框的信息，加权两种边界框的类别得分作为边界框排序的置信度；

S612：将置信度最高的预测框记录到最终输出列表中，并将步骤S611所述置信度最高的预测框从预测框列表中删除；

S613：计算所述预测框列表中剩余预测框的面积；并根据所述剩余预测框的面积，计算所述置信度最高的预测框与剩余预测框的重叠度；

S614：将所述剩余预测框中大于阈值的预测框，从所述预测框列表中删除；

S615：重复步骤S612-S614，直到所述预测框列表为空。

本发明与现有技术相比，具体有以下优点：

(1)采用基于简化CIoU和K-means聚类算法的锚框优化方法，设计符合数据集的锚框大小和比例从而提升了模型检测效果。

(2)采用改进的双候选框交叉替换策略，将候选框交叉替换策略中全身框选择替换改为头部框选择替换，若RPN-B和RPN-H中的头部框候选框之间的交并比大于指定阈值，则将 RPN-B的头部候选框替换为RPN-H的头部候选框，然后再将替换后头部候选框与RPN-B中全身候选框融合，从而提高候选框的质量。

(3)提出一种适用于遮挡更严重场景的回归损失函数E-RepLoss。该函数将EIoU损失函数与RepLoss相结合，使RepLoss完全以EIoU损失函数实现吸引和排斥损失内容。该函数包含的两个函数以不同的方式都可以使边界框更好地覆盖自身目标的同时，与基于锚框(anchor-based)的CrowdDet模型更适配，RepLoss可以使预测的边界框远离相邻行人真实框和预测边界框，提高了检测模型在遮挡更严重的场景的检测性能。

附图说明

图1是本发明的流程图；

图2是基于简化CIoU和K-means聚类算法的锚框优化方法流程图；

图3是改进的双候选框交叉替换策略的示意图；

具体实施方式

为了更清楚地理解本发明的上述方案，下面结合附图对本发明进行进一步的详细描述。需要说明的是，此处所描述的具体实施仅用于解释本申请，并不用于限定本申请。

图1是本发明一种基于改进双候选框交叉替换策略和损失函数的拥挤场景行人检测方法流程图，具体步骤如下：

S1：将图像输入到主干网络，提取不同尺度下的特征；

L_E-RepLoss＝L_E-Attr-α*L_E-RepGT-β*L_E-RepBox (1)

公式(2)中，b和

表示真实框的宽，

公式(3)中，

是b与所有真实框交并比值第二大时的真实框，

和

是其对应的宽和高；

S6：剔除冗余预测框，输出带有最优预测框的图像。

具体的，所述步骤S1具体包括如下步骤：

图2为基于简化CIoU和K-means聚类算法的锚框优化方法的流程图，具体的，所述步骤S2具体包括步骤S21至步骤S22：

S211：将数据集中所有全身标注框的宽和高(x_i,y_i)作为待聚类样本，其中，i∈(1,2,...N)， N为样本个数，x_i为第i个标注框的宽，y_i为第i个标注框的高；

S212：给定K个聚类中心点的坐标(SW_j,SH_j)，其中，(SW_j,SH_j)为第j个聚类中心点的坐标， j∈(1,2,...K)，K为聚类中心点的数量；

d＝L_S-CIoU[(sw_i,sh_i),(SW_j,SH_j)] (5)

公式(5)中，d表示标注框到聚类中心的距离，i∈(1，2，…，N)，j∈(1，2，…K)，L_S-CIoU为 K-means聚类算法中距离计算公式，(sw_i,sh_i)为第i个标注框中心位置坐标，L_S-CIoU计算公式见公式(6)：

L_S-CIoU＝1-IoU+αν (6)

公式(7)中，宽高比v的计算方法见公式(8)：

S215：重复步骤S213、S214，直到聚类中心不再改变；

图3是改进的双候选框交叉替换策略的示意图，具体的，所述步骤S3具体包括步骤S31 至步骤S32：

S31：设定第一阈值；

具体的，所述步骤S6具体包括步骤S61至步骤S62：

S61：通过非极大值抑制法筛选出所述最优预测框；

具体的，所述步骤S61具体包括如下步骤：

S615：重复步骤S612-S614，直到所述预测框列表为空。

本发明公开了一种基于改进双候选框交叉替换策略和损失函数的拥挤场景行人检测方法，解决了拥挤造成行人检测模型普遍面临NMS阈值设定敏感问题，以及由于遮挡导致模型预测的边界框发生较大偏移和最优边界框被非极大值抑制误删的问题，拥挤场景下准确检测行人目标提供了一种基于深度学习的新方法，有效提高行人检测模型的检测性能。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所做的任何修改、同等替换、改进等，均应包含在本发明的保护范围之内。