CN110688987B

CN110688987B - 一种行人位置检测与跟踪方法及系统

Info

Publication number: CN110688987B
Application number: CN201910984848.5A
Authority: CN
Inventors: 曹建荣; 武欣莹; 张旭; 杨红娟; 吕俊杰; 张玉婷; 朱亚琴
Original assignee: Shandong Jianzhu University
Current assignee: Shandong Jianzhu University
Priority date: 2019-10-16
Filing date: 2019-10-16
Publication date: 2022-03-25
Anticipated expiration: 2039-10-16
Also published as: CN110688987A

Abstract

本公开提供了行人位置检测与跟踪方法及系统。其中，行人位置检测与跟踪方法，包括获取预设场景内的视频流，将视频流中逐帧图像依次输入至人脸检测模型中，输出视频流中行人的人脸位置和人脸大小目标框；根据行人的形体特征结合人脸大小目标框，估计出行人目标框并与背景减除法检测出的行人目标框的结果融合进行修正，得到修正后的行人目标框；根据行人目标对象与预设场景地理位置的映射关系，得到修正后的行人目标框对应的位置；计算修正后的行人目标框的质心，作为相应帧图像行人目标质心，对预处理后的视频流中每帧图像的行人目标质心进行跟踪，实现行人跟踪。其具有良好的检测和跟踪效果，避免了多目标重叠造成的影响。

Description

一种行人位置检测与跟踪方法及系统

技术领域

本公开属于图像处理领域，尤其涉及一种行人位置检测与跟踪方法及系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

智能监控视频分析技术是计算机视觉领域一个新兴的应用方向和备受关注的前沿课题。伴随着网络技术和数字视频技术的飞速发展，监控技术正向着智能化、网络化方向不断发展。智能监控系统的优势在于使用计算机视觉算法自动获取监控视频中的关键信息，最大限度地减少人力物力。运动目标检测与运动目标跟踪作为智能监控技术的一个重要基础，在人流统计、人员定位、入侵报警等方面都发挥着重要作用，在工业方面也有着广阔的应用场景。

运动目标检测技术在多年的研究与发展中，新的算法不断被提出，使得运动目标检测技术日趋成熟。如H Wang等人提出了一种利用邻域帧间差分提取可能的运动像素，将新像素与背景模型比较，判断新像素是否满足样本一致性的算法；K Kim等人提出了一种码本模型，其为每一个像素点建立一个码本，每个码本又由多个码字组成，根据码字的匹配程度判断像素点的归属；卢章平等人针对混合高斯背景建模算法对光照突变敏感的问题，提出了一种三帧间差分法与混合高斯背景差分法相结合的检测算法。运动目标跟踪算法以卡尔曼滤波算法、均值漂移算法和粒子滤波算法影响最为广泛。发明人发现，这些算法在一定程度上达到了运动目标检测和跟踪的效果，但是单独使用这些传统的检测跟踪算法，不仅计算量大，鲁棒性不够，且不能在线学习，从而不能达到目标随时间变化的跟踪效果。伴随着机器学习的发展，样本的训练和分类也逐渐引入到了运动目标检测和跟踪中，这就增加了模型训练的复杂性，使得检测的时间消耗较高，不能满足后续目标跟踪的实时性要求。另外，现有技术没有充分发挥人的形体特征在运动目标检测和跟踪技术中具有的自适应性优势，大多不能同时权衡实时性和鲁棒性两个要求。

发明内容

为了解决上述问题，本公开的第一个方面提供一种行人位置检测与跟踪方法，其不仅提高了行人位置检测与跟踪的实时性和鲁棒性，降低了成本，且避免了多目标重叠造成的影响。

为了实现上述目的，本公开采用如下技术方案：

一种行人位置检测与跟踪方法，包括：

获取预设场景内的视频流，将视频流中逐帧图像依次输入至人脸检测模型中，输出视频流中行人的人脸位置和人脸大小目标框；其中，人脸检测模型由预设神经网络事先训练完成；

根据行人的形体特征结合人脸大小目标框，估计出行人目标框并与背景减除法检测出的行人目标框的结果融合进行修正，得到修正后的行人目标框；

根据行人目标对象与预设场景地理位置的映射关系，得到修正后的行人目标框对应的位置；

计算修正后的行人目标框的质心，作为相应帧图像行人目标质心，对预处理后的视频流中每帧图像的行人目标质心进行跟踪，实现行人跟踪。

进一步地，将视频流中逐帧图像依次输入至人脸检测模型之前，还包括：对视频流中的每一帧图像进行预处理，其过程为：

对每一帧图像进行灰度变换，然后通过中值滤波去除噪声干扰，减少光照对检测的影响；最后通过图像增强的方法突出感兴趣的区域。

本公开通过对图像进行预处理，能够提高行人位置检测与跟踪的精度。

进一步地，所述人脸检测模型由TTCNN网络构成，TTCNN网络以CNN为共享网络结构，依次实现三个功能模块的调用；其中，第一个功能模块用于筛选出人脸候选区域，采用非极大值抑制算法合并人脸候选框，整理合并后的人脸图像；第二功能模块用于接收合并后的人脸图像，并采用非极大值抑制算法进一步合并后保留预设数量的人脸候选框；第二功能模块用于筛选概率值大于或等于预设概率阈值的人脸候选框，输出精确的人脸框和人脸特征点信息。

其中，TTCNN(Three-task convolutional neural network)网络以卷积神经网络(Convolutional Neural Networks,CNN)为共享网络结构，能够依次实现三个子功能模块的调用，完成人脸检测。

此处CNN网络作为三个子功能模块的共享网络结构，包含卷积层、池化层和全连接层。CNN通过结合局部感知区域、共享权重、空间或者时间上的降采样来充分利用数据本身包含的局部性等特征来优化网络结构。TTCNN网络的三个功能模块能共享CNN网络结构，依次实现各自功能。

进一步地，将预处理后的视频流逐帧输入至人脸检测模型中，输出视频流中行人的人脸位置和人脸大小目标框的过程为：

将预处理后的图像按照一定比例进行缩放，形成多尺度的金字塔结构并输入至共享CNN网络中，同时调用第一个功能模块，筛选出人脸候选区域，采用非极大值抑制算法合并人脸候选框，整理合并后的人脸图像输入到第二个功能模块；

第二个功能模块通过采用非极大值抑制算法进一步合并后保留预设数量的人脸候选框；

第二个功能模块输出的图像数据再输入至第三个功能模块中，筛选概率值大于或等于预设概率阈值的人脸候选框，输出精确的人脸框和人脸特征点信息。

本公开的人脸检测模型由TTCNN网络构成。该网络结构是以CNN网络为共享结构，能够依次实现三个功能模块的调用，完成人脸检测。

进一步地，在估计出行人目标框并与背景减除法检测出的行人目标框的结果融合进行修正的过程中，首先将估计出行人目标框与背景减除法检测出的行人目标框分别进行像素值修正平均运算，再对得到的像素值修正平均运算处理的图像进行对应的像素值加权平均运算，得到融合图像，即修正后的行人目标框。

本公开根据人的形体特征获取目标框然后与背景减除法检测结果融合进行修正，改进了目标行人检测的精度，增强了模型的自适应性能力，提高了目标框检测和分割的准确性。

进一步地，对预处理后的视频流中每帧图像的行人目标质心进行跟踪的过程，包括：

根据行人目标对象与预设场景地理位置的映射关系，判断行人目标的运动方向，根据运动方向判断下一帧中待匹配的目标框；

获取待匹配的目标框后，计算目标框的质心坐标；

采取中心区域匹配的方法来计算当前帧质心区域与搜索下一帧目标框质心区域的颜色直方图信息,当两质心相似性超过预先设置的阈值时，质心区域匹配成功，表明两个质心区域是同一目标，进而绘制出该目标框质心轨迹，完成对运动目标的跟踪。

本公开利用颜色直方图的质心匹配法实现目标跟踪的过程，不仅降低了匹配时间和由运动目标重叠遮挡带来的跟踪误差，而且保证了匹配的准确性，使目标跟踪的结果更加精确。

为了解决上述问题，本公开的第二个方面提供一种行人位置检测与跟踪系统，其不仅提高了行人位置检测与跟踪的实时性和鲁棒性，降低了成本，且避免了多目标重叠造成的影响。

为了实现上述目的，本公开采用如下技术方案：

一种行人位置检测与跟踪系统，包括：

人脸检测模块，其用于获取预设场景内的视频流，将视频流中逐帧图像依次输入至人脸检测模型中，输出视频流中行人的人脸位置和人脸大小目标框；其中，人脸检测模型由预设神经网络事先训练完成；

行人目标框修正模块，其用于根据行人的形体特征结合人脸大小目标框，估计出行人目标框并与背景减除法检测出的行人目标框的结果融合进行修正，得到修正后的行人目标框；

行人位置检测模块，其用于根据行人目标对象与预设场景地理位置的映射关系，得到修正后的行人目标框对应的位置；

行人跟踪模块，其用于计算修正后的行人目标框的质心，作为相应帧图像行人目标质心，对预处理后的视频流中每帧图像的行人目标质心进行跟踪，实现行人跟踪。

进一步地，所述行人跟踪模块，包括：

行人目标运动判断模块，其用于根据行人目标对象与预设场景地理位置的映射关系，判断行人目标的运动方向，根据运动方向判断下一帧中待匹配的目标框；

质心坐标计算模块，其用于获取待匹配的目标框后，计算目标框的质心坐标；

质心轨迹绘制模块，其用于采取中心区域匹配的方法来计算当前帧质心区域与搜索下一帧目标框质心区域的颜色直方图信息,当两质心相似性超过预先设置的阈值时，质心区域匹配成功，表明两个质心区域是同一目标，进而绘制出该目标框质心轨迹，完成对运动目标的跟踪。

本公开的第三方面提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述所述的行人位置检测与跟踪方法中的步骤。

本公开的第四方面提供一种计算机设备。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述所述的行人位置检测与跟踪方法中的步骤。

本公开的有益效果是：

(1)本公开根据人的形体特征获取目标框然后与背景减除法检测结果融合进行修正，改进了目标行人检测的精度，增强了方法的自适应性能力，提高了目标框检测和分割的准确性。

(2)本公开根据行人目标对象与预设场景地理位置的映射关系，得到修正后的行人目标框对应的位置，利用行人与地理信息之间的坐标关系确定行人具体的位置，可以预测行人的运动方向，大大缩短了目标检测和跟踪的时间。

(3)本公开由TTCNN网络构成人脸检测模型。该网络结构是以CNN网络为共享结构，能够依次实现三个功能模块的调用，完成人脸检测。

(4)本公开利用颜色直方图的质心匹配法实现目标跟踪的过程，不仅降低了匹配时间和由运动目标重叠遮挡带来的跟踪误差，而且保证了匹配的准确性，使目标跟踪的结果更加精确。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。

图1是本公开实施例的一种行人位置检测与跟踪方法流程图；

图2是本公开实施例的梯形区域到矩形区域的映射图；

图3是本公开实施例的一种行人位置检测与跟踪系统结构示意图。

具体实施方式

下面结合附图与实施例对本公开作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在本公开中，术语如“上”、“下”、“左”、“右”、“前”、“后”、“竖直”、“水平”、“侧”、“底”等指示的方位或位置关系为基于附图所示的方位或位置关系，只是为了便于叙述本公开各部件或元件结构关系而确定的关系词，并非特指本公开中任一部件或元件，不能理解为对本公开的限制。

本公开中，术语如“固接”、“相连”、“连接”等应做广义理解，表示可以是固定连接，也可以是一体地连接或可拆卸连接；可以是直接相连，也可以通过中间媒介间接相连。对于本领域的相关科研或技术人员，可以根据具体情况确定上述术语在本公开中的具体含义，不能理解为对本公开的限制。

实施例1

如图1所示，本实施例的一种行人位置检测与跟踪方法，包括：

S101：获取预设场景内的视频流，将视频流中逐帧图像依次输入至人脸检测模型中，输出视频流中行人的人脸位置和人脸大小目标框；其中，人脸检测模型由预设神经网络事先训练完成。

在具体实施中，将视频流中逐帧图像依次输入至人脸检测模型之前，还包括：对视频流中的每一帧图像进行预处理，其过程为：

本实施例通过对图像进行预处理，能够提高行人位置检测与跟踪的精度。

在本实施例中，所述人脸检测模型由TTCNN网络构成。该网络结构是以CNN网络为共享结构，能够依次实现三个功能模块的调用，完成人脸检测。

人脸检测模型由TTCNN网络构成，TTCNN网络以CNN为共享网络结构，依次实现三个功能模块的调用；其中，第一个功能模块用于筛选出人脸候选区域，采用非极大值抑制算法合并人脸候选框，整理合并后的人脸图像；第二功能模块用于接收合并后的人脸图像，并采用非极大值抑制算法进一步合并后保留预设数量的人脸候选框；第二功能模块用于筛选概率值大于或等于预设概率阈值的人脸候选框，输出精确的人脸框和人脸特征点信息。

具体地，训练人脸检测模型之前，包括制作人脸检测训练数据集，其过程为：首先采用Caleb人脸数据集作为人脸特征点训练数据集，将其应用于视频中采集到的含有人脸的图像中；然后用目标检测标注工具IabelImg在图像中标注出人脸的位置。

下面给出训练人脸检测模型的具体过程：

将训练数据集分为4类，随机在训练数据集上生成一些候选框，用来提取正样本、中间样本、负样本和人脸特征点样本。人脸检测采用交叉熵损失函数对其进行分类。本实施例的人脸检测模型网络的损失函数包含为人脸分类损失函数、人脸框损失函数和人脸特征点损失函数。

人脸检测采用交叉熵损失函数对其进行分类，损失函数的计算公式如下所示：

式中：

表示网络预测为人脸的概率，y_i为标记的真实值。

人脸回归框的计算采用欧式距离，即平方损失函数。损失函数的计算公式如下所示：

对于人脸特征点的检测，与人脸回归框的计算类似，同样采用平方损失函数。

将损失函数联合起来，最终的目标函数如下所示：

式中：N代表训练样本的总数，α_j代表各个损失函数所占的权重，

表示样本类型，

表示不同的损失函数。在第一个功能模块和第二个功能模块中，根据训练效果和经验，令α_det＝1，α_box＝0.5，α_mark＝0.5。为了人脸特征点坐标更高的准确率，在进行第三个功能模块时，令α_det＝0.5，α_box＝0.5，α_mark＝1。

具体地，将预处理后的视频流逐帧输入至人脸检测模型中，输出视频流中行人的人脸位置和人脸大小目标框的过程为：

本实施例中的人脸模型由TTCNN网络构成。该网络以CNN网络为共享结构，能够依次实现三个功能模块的调用，完成人脸检测。

S102：根据行人的形体特征结合人脸大小目标框，估计出行人目标框并与背景减除法检测出的行人目标框的结果融合进行修正，得到修正后的行人目标框。

具体地，在估计出行人目标框并与背景减除法检测出的行人目标框的结果融合进行修正的过程中，首先将估计出行人目标框与背景减除法检测出的行人目标框分别进行像素值修正平均运算，再对得到的像素值修正平均运算处理的图像进行对应的像素值加权平均运算，得到融合图像，即修正后的行人目标框。

例如：(1)根据人的形体特征如人的头部高度和人体身高与宽度的比例，利用上一步骤检测到的人脸目标框的宽度和高度估计出行人目标框的大小，获得目标框A₁；

(2)利用背景减除法检测分割行人目标框。从视频帧选取一张不含有行人的楼宇内视频场景作为背景图像B，背景图像和当前帧图像中的(x,y)处的像素值用B(x,y)和f_n(x,y)表示，按照下式进行差分运算，然后用阈值T将差分图像二值化，得到最终图像R_n′。

前景提取分割出行人所在的区域，获得目标框为A₂；

(3)分别对目标框A₁和目标框A₂进行像素值修正平均运算分别得到A′₁、A′₂，对A′₁、A′₂进行对应的像素值加权平均运算，得到融合图像A。则A为修正后的精确的目标框。

本实施例根据人的形体特征获取目标框然后与背景减除法检测结果融合进行修正，改进了目标行人检测的精度，增强了模型的自适应性能力，提高了目标框检测和分割的准确性。

S103：根据行人目标对象与预设场景地理位置的映射关系，得到修正后的行人目标框对应的位置。

在具体实施中，结合视频拍摄的建筑物标注的位置，得到行人具体的位置。

步骤如下：

(1)首先获取建筑物楼层平面图，在建筑物平面图上获取门、走廊、楼道口和房间等的位置信息，将这些地理信息融入到监控系统中并进行标注；

(2)以楼道地面为投影的水平面建立坐标系，Z轴为0。然后完成图像楼道地面到建筑物楼层平面图的映射，即将图像坐标下的一个梯形区域映射到图像坐标系下的一个矩形区域。具体如下：

如图2所示：假设在坐标系中存在梯形区域ABCD和其映射矩形区域A′、B′、C′、D′。A、B、C、D为梯形每条边的中点，A′、B′、C′、D′为矩形每条边的中点。其中梯形区域ABCD的四个顶点坐标分别为：a(x₁,y₁)，b(x₂,y₂)，c(x₃,y₃)，d(x₄,y₄)，且AD与BC的交点为O；矩形区域A′B′C′D′的四个顶点坐标分别为：a′(x′₁,y′₁)，b′(x′₂,y′₂)，c′(x′₃,y′₃)，d′(x′₄,y′₄)，且A′D′与B′C′的交点为O′。假设(x,y)为梯形区域的任意一点(此处令其为O点),则在矩形区域的映射点为(x′,y′)；并设线段AO、AD、BO、BC、A′O′、A′D′、B′O′、C′B′的长度分别为k₁、k、v₁、v、k′₁、k′、v′₁、v′。

按照比例映射的方法，满足以下关系式为：

经推导，得出：

在图像坐标系下，距离单位均为像素；

(3)以行人框下边线的中心点作为目标的脚点，根据比例映射关系将脚点映射在监控区域示意图中，完成目标对象在建筑物楼层平面图上的映射，标记出行人的具体位置。

S104：计算修正后的行人目标框的质心，作为相应帧图像行人目标质心，对预处理后的视频流中每帧图像的行人目标质心进行跟踪，实现行人跟踪。

在具体实施中，对预处理后的视频流中每帧图像的行人目标质心进行跟踪的过程，包括：

获取待匹配的目标框后，计算目标框的质心坐标；目标框的质心坐标(x₀，y₀)为：

其中，I(x,y)表示像素点(x,y)接收到的光强。

本实施例利用颜色直方图的质心匹配法实现目标跟踪的过程，不仅降低了匹配时间和由运动目标重叠遮挡带来的跟踪误差，而且保证了匹配的准确性，使目标跟踪的结果更加精确。

实施例2

如图3所示，本实施例提供一种行人位置检测与跟踪系统，其包括：

(1)人脸检测模块，其用于获取预设场景内的视频流，将视频流中逐帧图像依次输入至人脸检测模型中，输出视频流中行人的人脸位置和人脸大小目标框；其中，人脸检测模型由预设神经网络事先训练完成；

在本实施例中，所述人脸检测模型由TTCNN网络构成。该网络结构是以CNN网络为共享结构，能够依次实现三个功能模块的调用。

其中，人脸检测模型的训练如实施例1所述，此处不再累述。

本公开的人脸检测模型由TTCNN网络构成。该网络以CNN为共享网络结构，依次实现三个功能模块的调用，该模型可以同时满足人脸检测鲁棒性和实时性的要求。

(2)行人目标框修正模块，其用于根据行人的形体特征结合人脸大小目标框，估计出行人目标框并与背景减除法检测出的行人目标框的结果融合进行修正，得到修正后的行人目标框。

(3)行人位置检测模块，其用于根据行人目标对象与预设场景地理位置的映射关系，得到修正后的行人目标框对应的位置；

在具体实施中，行人目标对象与预设场景地理位置的映射关系的构建与实施例1的步骤S103中的步骤相同。

(4)行人跟踪模块，其用于计算修正后的行人目标框的质心，作为相应帧图像行人目标质心，对预处理后的视频流中每帧图像的行人目标质心进行跟踪，实现行人跟踪。

在具体实施中，所述行人跟踪模块，还包括：

实施例3

本实施例提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如实施例1所述的行人位置检测与跟踪方法中的步骤。

本实施例根据人的形体特征获取目标框然后与背景减除法检测结果融合进行修正，改进了目标行人检测的精度，增强了方法的自适应性能力，提高了目标框检测和分割的准确性。

本实施例根据行人目标对象与预设场景地理位置的映射关系，得到修正后的行人目标框对应的位置，利用行人与地理信息之间的坐标关系确定行人具体的位置，可以预测行人的运动方向，大大缩短了目标检测和跟踪的时间。

实施例4

本实施例的一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如实施例1所述的行人位置检测与跟踪方法中的步骤。

本实施例以TTCNN网络构建人脸检测模型。该网络以CNN为共享网络结构，依次实现三个功能模块的调用，该模型可以同时满足人脸检测鲁棒性和实时性的要求。

本领域内的技术人员应明白，本公开的实施例可提供为方法、系统、或计算机程序产品。因此，本公开可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种行人位置检测与跟踪方法，其特征在于，包括：

计算修正后的行人目标框的质心，作为相应帧图像行人目标质心，对预处理后的视频流中每帧图像的行人目标质心进行跟踪，实现行人跟踪；

行人目标对象与预设场景地理位置的映射关系，结合视频拍摄的建筑物标注的位置，将建筑物楼层平面图中门、走廊等位置信息标注在监控系统中，建立以楼道地面为投影的水平面，完成图像楼道地面到建筑物楼层平面图的映射，以行人框下边线的中心点作为目标的脚点，根据比例映射关系将脚点映射在监控区域示意图中，完成目标对象在建筑物楼层平面图上的映射，标记出行人的具体位置。

2.如权利要求1所述的行人位置检测与跟踪方法，其特征在于，将视频流中逐帧图像依次输入至人脸检测模型之前，还包括：对视频流中的每一帧图像进行预处理，其过程为：

3.如权利要求1所述的行人位置检测与跟踪方法，其特征在于，所述人脸检测模型由TTCNN网络构成，TTCNN网络以CNN为共享网络结构，依次实现三个功能模块的调用；其中，第一个功能模块用于筛选出人脸候选区域，采用非极大值抑制算法合并人脸候选框，整理合并后的人脸图像；第二功能模块用于接收合并后的人脸图像，并采用非极大值抑制算法进一步合并后保留预设数量的人脸候选框；第二功能模块用于筛选概率值大于或等于预设概率阈值的人脸候选框，输出精确的人脸框和人脸特征点信息。

4.如权利要求3所述的行人位置检测与跟踪方法，其特征在于，将预处理后的视频流逐帧输入至人脸检测模型中，输出视频流中行人的人脸位置和人脸大小目标框的过程为：

5.如权利要求1所述的行人位置检测与跟踪方法，其特征在于，在估计出行人目标框并与背景减除法检测出的行人目标框的结果融合进行修正的过程中，首先将估计出行人目标框与背景减除法检测出的行人目标框分别进行像素值修正平均运算，再对得到的像素值修正平均运算处理的图像进行对应的像素值加权平均运算，得到融合图像，即修正后的行人目标框。

6.如权利要求1所述的行人位置检测与跟踪方法，其特征在于，对预处理后的视频流中每帧图像的行人目标质心进行跟踪的过程，包括：

获取待匹配的目标框后，计算目标框的质心坐标；

7.一种行人位置检测与跟踪系统，其特征在于，包括：

行人跟踪模块，其用于计算修正后的行人目标框的质心，作为相应帧图像行人目标质心，对预处理后的视频流中每帧图像的行人目标质心进行跟踪，实现行人跟踪；

8.如权利要求7所述的行人位置检测与跟踪系统，其特征在于，所述行人跟踪模块，包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-6中任一项所述的行人位置检测与跟踪方法中的步骤。

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-6中任一项所述的行人位置检测与跟踪方法中的步骤。