CN115761646A

CN115761646A - 一种面向工业园区的行人跟踪方法、设备及存储介质

Info

Publication number: CN115761646A
Application number: CN202211555900.3A
Authority: CN
Inventors: 姜明华; 刘姝晴; 余锋; 黄国强; 周昌龙; 宋坤芳
Original assignee: Wuhan Textile University
Current assignee: Wuhan Textile University
Priority date: 2022-12-06
Filing date: 2022-12-06
Publication date: 2023-03-07
Anticipated expiration: 2042-12-06
Also published as: CN115761646B

Abstract

本发明公开了一种面向工业园区的行人跟踪方法，包括以下步骤S100、获取待检测的视频帧；S200、通过目标检测模块得到所述视频帧中的行人检测框信息；S300、通过目标跟踪模块对行人进行跟踪；S400、通过人流量统计模块对工业园区的行人进行计数。本发明提升了对非线性运动行人目标位置的预测和行人目标的匹配能力，提高了行人跟踪的检测效率和准确度，通过行人跟踪技术对工业园区的人员进行监控，并统计进出工业园区的人数，避免人群聚集，有效保障了工业园区的安全。

Description

一种面向工业园区的行人跟踪方法、设备及存储介质

技术领域

本发明涉及图像处理技术领域，尤其涉及一种面向工业园区的行人跟踪方法、设备及存储介质。

背景技术

随着现代科学技术的不断进步，生活服务、工业生产、安全监测等工作正在迈向无人化、智能化的时代，视频监控技术也迈入了全新的领域。特别是近些年，人们日益注重减少人与人之间的接触，追求无人化生产服务，这使得在工业园区进行人群活动的监测跟踪变得尤为重要。

面向工业园区的行人跟踪技术有着广阔的应用前景，许多学者也相继对其展开了研究，并涌现出了几个经典架构，较为流行的包括采用候选区分类的二阶段算法 RCNN系列、基于多尺度的 SSD系列以及基于回归预测的YOLO系列。但当前的算法普遍存在着对小目标检测率有限，容易受到行人目标运动状态遮挡以及尺度变化的影响，容易漏检误检，跟踪检测框准确率也比较低，且对于多目标检测的行人跟踪技术仍面临一定的挑战。因此，在保持实时性的前提下如何能够最大程度的解决这些问题成为了研究的重点。

发明内容

有鉴于此，本发明提供了一种面向工业园区的行人跟踪方法、设备及存储介质，目的在于，提高行人跟踪的检测效率和准确度，提升对非线性运动行人目标位置的预测和行人目标的匹配能力，在工业园区对人群进行高精度的实时跟踪，避免人群聚集，有效保障工业园区的安全。

为实现上述目的，本发明提供了一种面向工业园区的行人跟踪方法，包括以下步骤：

S100、获取待检测的视频帧；

S200、通过目标检测模块得到所述视频帧中的行人检测框信息；

S300、通过目标跟踪模块对行人进行跟踪；

S400、通过人流量统计模块对工业园区的行人进行计数。

进一步的，所述目标检测模块包括特征提取网络、特征融合和结果输出网络，所述特征提取网络经过四次下采样获取所述视频帧的卷积特征，具体步骤为：

S211、使用所述视频帧作为所述特征提取网络的输入，通过3×3的卷积层进行第一次下采样，再通过瓶颈结构进行特征提取，将提取到的特征图作为第一分支输出给所述特征融合和结果输出网络；

S212、使用所述步骤S211中提取的特征图作为输入，通过3×3的卷积层进行第二次下采样，再通过瓶颈结构进行特征提取，将提取到的特征图作为第二分支输出给所述特征融合和结果输出网络；

S213、使用所述步骤S212中提取的特征图作为输入，通过3×3的卷积层进行第三次下采样，再通过瓶颈结构进行特征提取，将提取到的特征图作为第三分支输出给所述特征融合和结果输出网络；

S214、使用所述步骤S213中提取的特征图作为输入，通过3×3的卷积层进行第四次下采样，再进行三次级联最大池化操作，对所述三次级联最大池化操作与所述第四次下采样输出的结果进行通道方向的拼接，并再通过1×1的卷积层进行特征提取，将提取到的特征图作为第四分支输出给所述特征融合和结果输出网络。

进一步的，所述步骤S200中搭建所述特征融合和结果输出网络包括上采样操作，具体为以下步骤：

S221、使用第四分支输出的特征图作为输入，通过1×1、3×3和1×1的卷积层操作后，进行第一次上采样，将所述第一次上采样的结果与所述第三分支输出的特征图进行通道方向上的拼接；

S222、使用所述步骤S221中拼接的特征图作为输入，通过1×1卷积层、瓶颈结构操作后，进行第二次上采样，将所述第二次上采样的结果与所述第二分支输出的特征图进行通道方向上的拼接；

S223、使用所述步骤S222中拼接的特征图作为输入，通过1×1卷积层、瓶颈结构操作后，进行第三次上采样，将所述第三次上采样的结果与所述第一分支输出的特征图进行通道方向上的拼接。

进一步的，所述步骤S200中搭建所述特征融合和结果输出网络还包括下采样操作，具体为以下步骤：

S231、使用所述步骤S223中拼接的特征图作为输入，通过逆投影注意力模块将所输入的特征图分为两路输出：一路分支通过1×1卷积层与所述步骤S223中的瓶颈结构操作后的特征图进行通道上的拼接；另一路分支通过1×1卷积层后输出特征层，用于预测大物体；

S232、使用所述步骤S231中拼接的特征图作为输入，通过逆投影注意力模块将所输入的特征图分为两路输出：一路分支通过1×1卷积层与所述步骤S222中的进行瓶颈结构操作后的特征图进行通道上的拼接；另一路分支通过1×1卷积层后输出特征层，用于预测中等物体；

S233、使用所述步骤S232中拼接的特征图作为输入，通过逆投影注意力模块将所输入的特征图分为两路输出：一路分支通过1×1卷积层与所述步骤S221中的的最后一个1×1卷积层操作后的特征图进行通道上的拼接；另一路分支通过1×1卷积层后输出特征层，用于预测小物体；

S234、使用所述步骤S233中拼接的特征图作为输入，通过逆投影注意力模块和1×1卷积层后输出特征层，用于预测小物体；

S235、通过所述步骤S231、S232、S233和S234输出的四个不同大小的特征层，完成对行人目标的检测，得到所述行人检测框信息。

进一步的，所述逆投影注意力模块的具体操作包括以下步骤：

S241、对输入的特征图分别进行最大池化和平均池化操作；

S242、对最大池化和平均池化后的结果分别进行重复叠加，保持重复叠加后的维度与输入的特征图的维度相同，得到特征图F_最大池化和F_平均池化；

S243、将输入的特征图分别与特征图F_最大池化和特征图F_平均池化进行特征相减，得到特征图

_最大池化和特征图

_平均池化；

S244、将特征图

_最大池化和特征图

_平均池化进行特征相加，得到输出特征图。

在一种实施方式中，所述目标检测模块通过设置定位损失函数来减小不可观测的误差和预测变量的相关性和增加模型对噪声的鲁棒性，所述定位损失函数的具体计算公式为：

其中，β表示超参数，超参数通过实验所获得，A，B分别为锚框和检测框，

为锚框和检测框的交并比，即重叠面积的比例，

为预测框和检测框的中心点的欧式距离，A表示预测框的中心点，B表示检测框的中心点；

为能够包含预测框和检测框的最小闭包区域的对角线距离，

为预测框和检测框的宽度的欧式距离，W 表示预测框的宽度，

表示检测框的宽度，

为能够包含预测框和检测框最小外接框的宽度，

为预测框和检测框的高度的欧式距离，H表示预测框的高度，

表示检测框的高度，

为能够包含预测框和检测框最小外接框的高度。

进一步的，所述目标跟踪模块的具体操作包括以下步骤：

S301、输入第K-1帧的行人检测框信息，通过扩展卡尔曼滤波得到第K帧的预测框；

S302、输入第K帧的行人检测框信息；

S303、计算步骤S301中预测框和步骤S302中检测框的余弦距离；

S304、计算步骤S301中预测框和步骤S302中检测框的马氏距离；

S305、将步骤S303和步骤S304的结果通过赋值不同的权值进行组合，为匹配阶段提供参数；

S306、使用匈牙利匹配算法进行匹配，判断是否匹配成功，若是，则直接输出跟踪结果，若否，进入下一步骤；

S307、根据CIOU匹配算法再次进行匹配，判断是否匹配成功，若是，则进行参数更新，并返回至步骤S306，若否，则删除再次没有成功匹配的轨迹，而对于没有完成匹配的检测结果则将其设置为新目标。

进一步的，所述人流量统计模块用于对进出工业园区的行人进行统计，当进工业园区的行人总数超过出工业园区的行人总数并达到一定值时，调用语音播报功能进行报警。

本发明还提供了一种面向工业园区的行人跟踪设备，包括视频输入接口、处理器、存储器，所述存储器用于存储一个或多个程序，所述处理器执行所述一个或多个程序时，实现上述面向工业园区的行人跟踪方法。

本发明还提供了一种计算机可读存储介质，其存储有至少一个程序，所述至少一个程序被处理器执行时，实现上述面向工业园区的行人跟踪方法。

与现有技术相比，本发明具有如下有益效果：

1、本发明通过目标检测模块得到行人检测框信息，再通过目标跟踪模块对行人目标位置进行预测与匹配，能够实现高精度的实时行人跟踪，最后通过人流量统计模块统计进出工业园区的人数，避免了人群聚集，有效保障了工业园区的安全。

2、本发明通过搭建四次下采样、三次级联最大池化操作的特征提取网络和三个阶段上采样、四个阶段下采样操作的特征融合和结果输出网络，使用多个小目标检测头和逆投影注意力模块，并在定位损失函数中引入β参数，提升了网络的小目标检测能力，获取了更多与目标有关的细节信息，减小了不可观测的误差和预测变量的相关性，增加了模型对噪声的鲁棒性。

3、本发明的在目标跟踪模块中通过扩展卡尔曼滤波得到预测框，并利用级联融合的方式对前后帧检测框进行关联，再融合匈牙利匹配算法和CIOU匹配算法，有效的提升了对非线性运动行人目标位置的预测和行人目标的匹配能力。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的一种工业园区行人跟踪方法的流程图；

图2是根据本发明实施例的目标检测模块的网络结构图；

图3是根据本发明实施例的逆投影注意力模块的网络结构图；

图4是根据本发明实施例的目标跟踪模块的流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地说明，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例提供了一种面向工业园区的行人跟踪方法，其特征在于，包括以下步骤：

S100、获取待检测的视频帧；

S200、通过目标检测模块得到视频帧中的行人检测框信息；

S300、通过目标跟踪模块对行人进行跟踪；

S400、通过人流量统计模块对工业园区的行人进行计数。

其中，获取待检测的视频帧是从摄像头实时拍摄的视频中获取视频帧。通过目标检测网络得到行人检测框信息，再通过目标跟踪模块对行人目标位置进行预测与匹配，能够实现高精度的实时行人跟踪。

在本发明一实施例中，如图2所示，目标检测模块包括特征提取网络、特征融合和结果输出网络，步骤S200具体包括包括搭建特征提取网络、搭建特征融合和结果输出网络的步骤。其中，搭建特征提取网络的过程中，特征提取网络经过四次下采样获取视频帧的卷积特征，具体步骤为：

S211、使用视频帧作为特征提取网络的输入，通过3×3的卷积层进行第一次下采样，再通过瓶颈结构进行特征提取，将提取到的特征图作为第一分支输出给特征融合和结果输出网络；

S212、使用步骤S211中提取的特征图作为输入，通过3×3的卷积层进行第二次下采样，再通过瓶颈结构进行特征提取，将提取到的特征图作为第二分支输出给特征融合和结果输出网络；

S213、使用步骤S212中提取的特征图作为输入，通过3×3的卷积层进行第三次下采样，再通过瓶颈结构进行特征提取，将提取到的特征图作为第三分支输出给特征融合和结果输出网络；

S214、使用步骤S213中提取的特征图作为输入，通过3×3的卷积层进行第四次下采样，再进行三次级联最大池化操作，对所述三次级联最大池化操作与所述第四次下采样输出的结果进行通道方向的拼接，并再通过1×1的卷积层进行特征提取，将提取到的特征图作为第四分支输出给特征融合和结果输出网络。

进一步的，每个瓶颈结构的具体操作均包括：将输入的特征图分为两路分支，一路分支通过1×1卷积层，另一路分支通过1×1、3×3和1×1的卷积层，然后将两路分支得到的特征层进行通道维度上的拼接，最后再通过1×1卷积层操作。每个卷积层均由多个网络层组成，且每个卷积层在卷积操作完成后都进行批量归一化操作，再送入SILU激活函数。

进一步的，步骤S200中搭建特征融合和结果输出网络包括上采样操作，具体为以下步骤：

S221、使用第四分支输出的特征图作为输入，通过1×1、3×3和1×1的卷积层操作后，进行第一次上采样，将第一次上采样的结果与第三分支输出的特征图进行通道方向上的拼接；

S222、使用步骤S221中拼接的特征图作为输入，通过1×1卷积层、瓶颈结构操作后，进行第二次上采样，将第二次上采样的结果与第二分支输出的特征图进行通道方向上的拼接；

S223、使用步骤S222中拼接的特征图作为输入，通过1×1卷积层、瓶颈结构操作后，进行第三次上采样，将第三次上采样的结果与第一分支输出的特征图进行通道方向上的拼接。

进一步的，步骤S200中搭建特征融合和结果输出网络还包括下采样操作，具体为以下步骤：

S231、使用步骤S223中拼接的特征图作为输入，通过逆投影注意力模块将所输入的特征图分为两路输出：一路分支通过1×1卷积层与步骤S223中的瓶颈结构操作后的特征图进行通道上的拼接；另一路分支通过1×1卷积层后输出特征层，用于预测大物体；

S232、使用步骤S231中拼接的特征图作为输入，通过逆投影注意力模块将所输入的特征图分为两路输出：一路分支通过1×1卷积层与步骤S222中的进行瓶颈结构操作后的特征图进行通道上的拼接；另一路分支通过1×1卷积层后输出特征层，用于预测中等物体；

S233、使用步骤S232中拼接的特征图作为输入，通过逆投影注意力模块将所输入的特征图分为两路输出：一路分支通过1×1卷积层与步骤S221中的的最后一个1×1卷积层操作后的特征图进行通道上的拼接；另一路分支通过1×1卷积层后输出特征层，用于预测小物体；

S234、使用步骤S233中拼接的特征图作为输入，通过逆投影注意力模块和1×1卷积层后输出特征层，用于预测小物体；

S235、通过步骤S231、S232、S233和S234输出的四个不同大小的特征层，完成对行人目标的检测，得到行人检测框信息。

进一步的，行人检测框信息为[x,y,u,h,x´,y´,u´,h´]的8维数据，x,y表示行人检测框的中心坐标，u表示宽高比，h表示高，x´,y´,u´,h´为它们对应的一阶导数。

在本发明一实施例中，如图3所示，逆投影注意力模块的具体操作包括以下步骤：

S241、对输入的特征图分别进行最大池化和平均池化操作；

_最大池化和特征图

_平均池化；

S244、将特征图

_最大池化和特征图

_平均池化进行特征相加，得到输出特征图。

本发明逆投影注意力模块的使用，减少了无用信息的影响，使网络结构更关注所需要关注的信息。

在本发明一实施例中，目标检测模块设置有定位损失函数，定位损失函数的具体计算公式为：

为锚框和检测框的交并比，即重叠面积的比例，

为能够包含预测框和检测框的最小闭包区域的对角线距离，

表示检测框的宽度，

为能够包含预测框和检测框最小外接框的宽度，

为预测框和检测框的高度的欧式距离，H表示预测框的高度，

表示检测框的高度，

为能够包含预测框和检测框最小外接框的高度。

本申请目标检测模块的定位损失函数引入β参数，可减小不可观测的误差和预测变量的相关性，增加模型对噪声的鲁棒性。

在本发明一实施例中，如图4所示，目标跟踪模块的具体操作包括以下步骤：

S302、输入第K帧的行人检测框信息；

S303、计算步骤S301中预测框和步骤S302中检测框的余弦距离；

S304、计算步骤S301中预测框和步骤S302中检测框的马氏距离；

在本发明一实施例中，步骤S400中通过人流量统计模块对工业园区的行人进行计数具体是指，人流量统计模块对进出工业园区的行人进行统计，当进工业园区的行人总数超过出工业园区的行人总数并达到一定值时，调用语音播报功能进行报警。

进一步的，人流量统计模块采用拌线计数的方式进行人流量统计，预先在工业园区门口设定一条计数线，然后通过行人起始位置与计数线的相对位置关系, 判断行人运动方向为进工业园区还是出工业园区，若为进工业园区，则在进工业园区的总数上进行计数，若为出工业园区，则在出工业园区的总数上进行计数。

本发明通过人流量统计模块统计进出工业园区的人数，避免人群聚集，有效保障了工业园区的安全。

本发明实施例还提供了一种面向工业园区的行人跟踪系统，包括：

信息采集模块，用于获取待检测的视频帧；

目标检测模块，用于获取视频帧中的行人检测框信息；

目标跟踪模块，用于对行人进行跟踪；

人流量统计模块，用于对工业园区的行人进行计数。

进一步的，目标检测模块包括特征提取网络、特征融合和结果输出网络。

进一步的，目标检测模块还包括逆投影注意力模块。

本发明实施例还提供了一种面向工业园区的行人跟踪设备，包括视频输入接口、处理器、存储器，存储器用于存储一个或多个程序，处理器执行一个或多个程序时，实现上述面向工业园区的行人跟踪方法。

本发明实施例还提供了一种计算机可读存储介质，其存储有至少一个程序，至少一个程序被处理器执行时，实现上述面向工业园区的行人跟踪方法。

值得注意的是，上述系统实施例中，所包括的各个单元只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

前述对本发明的具体示例性实施方案的描述是为了说明和例证的目的。这些描述并非想将本发明限定为所公开的精确形式，并且很显然，根据上述教导，可以进行很多改变和变化。对示例性实施例进行选择和描述的目的在于解释本发明的特定原理及其实际应用，从而使得本领域的技术人员能够实现并利用本发明的各种不同的示例性实施方案以及各种不同的选择和改变。本发明的范围意在由权利要求书及其等同形式所限定。