CN112200021B

CN112200021B - 基于有限范围场景内的目标人群跟踪监控方法

Info

Publication number: CN112200021B
Application number: CN202011005357.0A
Authority: CN
Inventors: 张立国; 刘博�; 金梅; 李枫; 孙胜春; 张少阔; 张子豪; 郎梦园; 张勇
Original assignee: Yanshan University
Current assignee: Yanshan University
Priority date: 2020-09-22
Filing date: 2020-09-22
Publication date: 2022-07-01
Anticipated expiration: 2040-09-22
Also published as: CN112200021A

Abstract

本发明公开了一种基于有限范围场景内的目标人群跟踪监控方法，其包括：S1：基于有限视野范围，设计实现整套相机安放采集装置，以适应目标人群活动场景及视野全覆盖的需要；S2：依据目标人群的体型及脸型比例修改检测网络模型的锚框大小及比例，修改检测网络的损失函数，以提高检测的准确性；S3：检测人脸的同时对人脸采用具体的识别网络进行识别，使检测网络与人脸识别网络同时使用的情形下，既能提高检测识别精度，又不降低速度；S4：改进多目标跟踪监控模型，通过具体特征的提取以及具体场景的剪枝提高在目标人群跟踪监控的模型适应性。本设计方案在目标人群看护与预防意外的视觉方案中，实现了无漏、实时的同时，提高了监控的准确性及定位的速度。

Description

基于有限范围场景内的目标人群跟踪监控方法

技术领域

本发明涉及一种基于有限范围场景内的目标人群跟踪监控方法，属于目标识别跟踪监控领域。

背景技术

人工智能技术在计算机视觉领域取得的突破性进展，使得人工智能迎来一轮爆发，而深度学习是实现这些突破性进展的关键技术。其中，基于深度卷积网络的图像分类和识别技术已超过人眼的准确率，基于深度神经网络的图像识别技术已达到95％的准确率。在一些如托儿所、养老院、医院、疗养院等有限场景范围内，目标人群需要实时监控和援助，而在现有的技术条件下，存在援助不及时和不易定位目标人群的位置等缺陷，所以将深度学习的检测与跟踪监控技术应用于目标人群的重识别及跟踪监控势在必行。应用本发明方法，可以明显提高在目标人群防跌、跟踪监控、监护领域检测的快速性，大幅提高识别的准确性，在有限范围场景的融合可以进一步拓展算法在遮挡等情况下的使用，从而更加突出的提高目标人群监控识别及防跌的能力。

压缩和扩张Squeeze-and-ExcitationNetworks是Momenta胡杰团队(WMW)提出的新的网络结构。这种结构虽然能够有效的提取有用的特征信息和抑制无效信息，但其模型复杂度较高，不利于实时的场景应用。

目标检测的方法包括单步one-stage方法和多步two-stage方法。one-stage方法包括检测网络YOLO系列及检测网络SSD系列，虽然速度较快，但是精度略低。其中多步two-stage方法包括RCNN系列，如RCNN、FastRCNN、DenseNet，由于前向传播经过了两个阶段，所以其预测的实时性较低。

人脸识别网络FaceNet直接学习图像到欧式空间上点的映射，两张图像所对应的特征的欧式空间上的点的距离也就直接对应着两个图像是否相似。

多目标跟踪监控MOT网络DeepSort是在Sort目标跟踪监控基础上的改进。在做实时目标追踪的过程中，提取目标的表观特征进行最近邻匹配，可以显著提升防遮挡效果。但是其所采用的数据关联方法是简单的二部图进行关联，不能够很好的串其所有的检测框，容易出现跟踪监控轨迹混串的情况。

发明内容

本发明的目的是通过对已有目标检测和跟踪监控算法的改进生成专门针对于目标人群人脸部位检测与人脸识别和跟踪监控相结合的算法，可以有效地避免遮挡和身份ID不稳定变化等问题。

一种基于有限范围场景内的目标人群跟踪监控方法，该方法包括以下步骤：S1：在目标人群活动的各场合中放置相机系统，通过跨相机数据关联技术恢复视野，实现目标人群活动范围场景的全覆盖；S2：按照目标人群的身体形态和脸部形态，将端到端检测网络模型Tiny-Yolov3中锚框的选择方式进行改进，通过新的锚框生成方法，结合实际的场景，选用1：1和1：5的比例，以提高识别的速度和精度；S3：改进端到端检测网络的网络结构，改变输出尺度，并嵌入通道压缩和扩张结构，提高通道注意力，通过缩小版端到端检测网络的图像特征金字塔结构使用锚框推荐网络，提高空间注意力；S4：将端到端检测网络改进，加入人脸检测，在人脸的尺度上级连人脸识别网络的头部网络，提高检测精度的同时保证检测速度；S5：修改检测网络的损失函数，以适应目标人群及目标人群脸部检测的快速性需要；S6：改进多目标跟踪监控模型，通过具体特征的提取以及具体场景的剪枝，提高在目标人群跟踪监控的模型适应性；S7：对多目标跟踪监控网络进行冗余网络优化，提高跟踪监控每秒帧数；S8：将修改好的端到端检测网络进行修剪，嵌入目标跟踪监控网络，用作深度特征生成，端到端的实现目标人群跟踪监控。

优选地，所述S3包括以下步骤：

S31、将网络的骨干网络嵌入压缩扩张结构，在残差后加入全连接层，增加在识别目标上的通道注意力；

S32、在端到端检测网络回归之后的检测框中增加锚框推荐网络，在大尺度的图像特征金字塔对应层，采用弱监督的方式，将锚框推荐网络的上采样形成的特征图进行3×3的反卷积形成单通道的特征图，将回归的检测框映射过来，进行如下计算：

其中，

表示生成的空间注意力图、F_k是原特征图、v_c是反卷积核、*表示反卷积；得到单通道的特征图，去掉与回归的锚框IOU小于0.5的锚框推荐，将空间注意力集中到有锚框回归的部分，进一步提高检测的精度。

优选地，所述S4中，将人脸尺度的那一层特征图经过卷积，使用全局池化，接入全连接层，得到人脸向量，然后使用FaceNet头部网络映射到欧式空间，在训练和预测时将人脸特征作用于前面的特征层，更加准确地识别目标人群身份。

优选地，所述S5中，将端到端检测网络提出的预测是人脸的锚框进行全局自适应池化，再将特征从原始图片到欧氏空间映射，加入相似度的损失，提高识别精度，最终得到的损失函数如下：

其中，loss₁是中心点坐标回归损失、loss₂表示有预测框处置信度损失、loss₃是锚框类别预测损失、loss₄是人脸相似度比较的损失、λ_coord是中心点损失系数、k是最终预测的网格数、M表示该尺度锚框数量、

表示第i个锚框中第j层有物体obj、classes表示锚框的类别，x_i、

y_i、

分别表示横坐标的标注值、横坐标的预测、纵坐标的标注值、纵坐标的预测，w与h分别表示回归之后锚框的宽和高、x与y分别表示回归之后锚框的中心点坐标、c表示类别；λ_noobj表示没有目标的格子对应的损失系数，w_i与h_i分别表示标注的宽和高、

与

分别表示预测的宽和高、C_i表示当前单元是否负责某个对象，如果是则为1，不是则为0，

表示预测的类别置信度、p_i(c)、

分别表示类别的标注值和类别的预测值、N表示一张图上的人脸总数、

表示人脸的锚框、

表示预测为人脸的框；

总的损失loss为：

其中，contain表示包含人脸框，取值为{0,1}，从损失能得出不包含人脸框时，相似度比较损失。

优选地，所述S6中，将端到端检测模型的推理阶段嵌入到多目标跟踪监控模型中，使用深度特征作为目标人群身份的识别信息，使用以下公式平衡检测的结果和人脸识别的结果：

id＝β*face_similar+(1-β)*v*P(v)

其中，id表示识别目标人群的身份、β是平衡预测系数、v为标注框的类别，表示是否为人脸信息的置信度，P(v)为检测结果预测为该身份的概率、face_similar表示人脸的相似度。

与现有技术相比，本发明具有以下有益效果：

(1)实现在固定场景的密集监控，从而在养老院等特定环境中，实现无死角识别跟踪监控；

(2)具有较高的身份识别率，较低的误报和漏报；

(3)具有一定的错误跟踪监控的纠正能力，并且速度不会降低。

附图说明

图1是本发明的基本流程图；

图2是室内外相机摆放示意图；

图3是微调Tiny-YOLOv3结构图；

图4是SENet结构示意图；以及

图5是基于改进Tiny-Yolov3与FaceNet和DeepSort融合图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要注意的为，除非另有说明，本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。

本发明旨在提出一种改进Tiny-YOLOv3与DeepSort结合的目标识别和跟踪监控方法，包括一些下面的步骤，如图1所示：

步骤S1：如图2所示，室内外各个目标人群有可能活动的场景，使各个视场角都相互交叉涵盖，以用于数据关联，能重新建立目标人群的活动范围信息，按照不同的场景需要放置相机系统，通过空间数据关联技术恢复场景，根据实际场景中不共线的三个点两两相机之间进行投影变换，实现目标人群活动范围场景的全覆盖；

步骤S2：将检测网络Tiny-YOLOv3模型中锚框的选择方式按照目标人群的身体形态，脸部形态进行改进，通过新的锚框生成方法，结合实际的场景，选用正确的比例，提高识别的速度和精度；

步骤S3：改进Tiny-YOLOv3的网络结构，改变输出尺度，并嵌入压缩与扩张SENet结构，提高通道注意力，通过Tiny-YOLOv3的图像特征金字塔结构使用锚框推荐网络和反卷积生成空间注意力；具体操作步骤为，SE模块首先对卷积得到的特征图用全局平均池化实现压缩Squeeze操作，假设原始特征图的维度为H×W×C，其中H是高度，W是宽度，C是通道数。Squeeze把H×W×C压缩成1×1×C，相当于把H×W压缩成一维了，这样每个通道就有了全局感受野。得到Squeeze的1×1×C表示后，加入两个FC全连接层，一个用于降维，一个用于升维，首先用FC把C通道的维度降C/r，本实践过程中r设为16，然后经过一个激活函数RELU，再将得到的经过一个FC得到C的维度，最后再经过一个激活函数sigmoid得到权重，将其与输入的每个通道相乘，然后将对每个通道的重要性进行预测，得到不同通道的重要性大小后再乘到之前的特征图的对应通道上。这样通过不同的注意力在通道上就直接间接的提高了检测的精度。通过反卷积得到H×W×1的特征图，在这张单通道特征图上取锚框对应的部分的锚框推荐形成空间注意力，将回归的检测框映射过来，进行如下计算：

得到单通道的特征图，去掉与回归的锚框IOU小于某个阈值的锚框推荐，其中，

表示生成的空间注意力图、F_k是原特征图、v_c是反卷积核、*表示反卷积将空间注意力集中到有锚框回归的部分，去掉与回归的锚框IOU小于0.5的锚框推荐，将空间注意力集中到有锚框回归的部分，进一步提高检测的精度。然后将其加权到检测网络Tiny-YOLO3拼接后的特征图。如图3所示，首先在特征提取层嵌入如图4所示的SENet网络结构，提高通道注意力，得到mid层，然后将mid层在不同的特征层进行提取，其中中间的mid层是检测人脸的层。

步骤S4：如图3所示，将检测网络Tiny-YOLOv3改进，加入人脸检测，在人脸的尺度上级连人脸识别网络FaceNet的头部网络，提高检测精度的同时保证检测速度，在中间最后的mid层欧式距离映射就是使用FaceNet来训练；其中CONV表示卷积层，POOL表示池化层，mid表示中间的特征图层，在Input输入和第一个mid层之间的“特征提取层使用SENet结构”，SENet结构如图4所示，表示前面5个卷积层和4个池化层用于提取特征图时嵌入SENet结构。图中spatial表示中间特征图经过反卷积形成的单层空间注意力图，其后的*表示单张特征图上的元素与整张特征图上的元素对应相乘。由于中间层对应的锚框尺度是人脸的尺度，所以要将特征图使用人脸识别网络的FaceNet进行特征归一化及欧式映射以比较相似度。在最后要进行特征归一化及欧式映射，去做相似度匹配，并加入相应的损失函数，最后人脸识别公式中β设为0.9，相似度比较使用余弦距离，即：

id_p＝face_feature1[P(c)∈face]

其中，Siamilar为检测到的人脸与存储的图片特征存储库中的人脸欧式特征的最终的相似度，face_feature为人脸的欧式空间的特征，c为检测框类别估计经样本统计，当P(c)的预测属于人脸时为1，否则为0。

代表预测人脸特征的转置，

是图片特征存储库的人脸特征。因实测比较中，相似度都在0.6以上，所以本实践过程将阈值设为0.6。而spatial是用于增加空间注意力的特征图，本发明中尺度分别为32×32、64×128、128×200。

步骤S5：修改检测网络的损失函数，以适应目标人群及目标人群脸部检测的快速性需要。

将端到端检测网络提出的预测是人脸的锚框进行全局自适应池化，再将特征从原始图片到欧氏空间映射，加入相似度的损失，提高识别精度，最终得到的损失函数如下：

表示第i个锚框中第j层有物体obj、λcoord表示锚框的类别，x_i、

y_i、

与

表示预测的类别置信度、p_i(c)、

表示人脸的锚框、

表示预测为人脸的框；

总的损失loss为：

其中，contain表示包含人脸框，取值为{0,1}，从损失可以得出不包含人脸框时，相似度比较损失。

步骤S6：改进多目标跟踪监控模型，通过具体特征的提取以及具体场景的剪枝提高在目标人群跟踪监控的模型适应性。原始的DeepSort算法是用卡尔曼滤波基于常速度从上一帧估计当前帧的位置，计算预测位置和当前检测位置运动特征motion的马氏距离作为轨迹有没有丢失的一部分评价标准。同时，设定一个人脸的特征图片存储库，给每个跟踪监控目标设置100个特征向量用于和当前检测框计算表观特征余弦距离，把当前检测框与图片库中最近的特征向量对应的轨迹关联。最后用一个公式平衡运动特征和表观特征，构建检测框和轨迹的距离关系。用MatchingCascade先匹配失去关联数据最少的帧数的轨迹，解决因遮挡出现的identityswitch。但在本发明的实际应用过程中，因为是从空间数据关联中获得的，所以不太可能出现检测过程遗漏的情况，而在多相机中，因不会存在遮挡造成错误匹配，为降低算法的复杂度，不用DeepSort中的MatchingCascade，而使用匈牙利匹配的方法将轨迹和检测出的对象尽可能多的匹配。但这样做的缺点是会引入一些错误匹配，为了解决这个问题，使用人脸作为强关联信息，进行目标人群的身份识别，同时使用深度特征作为目标人群身份的识别信息，使用以下公式平衡检测的结果和人脸识别的结果：

id＝β*face_similar+(1-β)*c*P(c)

其中，id表示识别目标人群的身份、β是平衡预测系数、c为标注框的类别，表示是否为人脸信息的置信度，P(v)为检测结果预测为该身份的概率、face_similar表示人脸的相似度。

步骤S7：对多目标跟踪监控网络进行冗余网络优化，提高跟踪监控FPS。按照S6的做法，将图片特征存储库改为人脸的存储特征，只根据S6中提到的卡尔曼滤波得到的运动特征和检测网络得到的表观特征进行前后帧关联，构建关联矩阵，同步的加入人脸相似度关联信息，进行优化得到最终结果。

步骤S8：将修改好的Tiny-YOLOv3进行修剪，嵌入目标跟踪监控网络，用作深度特征生成，端到端的实现目标人群跟踪监控。

以下详细说明检测网络和匹配算法进行端到端的实现过程：

如图5所示，以检测结果作为图片信息输入:检测框、置信度、特征图用于进行一部分的检测框的筛选，检测框与特征图用于后面与跟踪监控器的匹配计算；首先用卡尔曼滤波器提取运动特征，先是预测模块，对跟踪监控器使用卡尔曼滤波器进行预测，使用一个8维空间去刻画轨迹在某时刻的状态，

分别表示预测框中心的位置(u,v)、纵横比(γ)、高度(h)、以及基于这一帧图像在下一帧的预测中心位置

纵横比

高度

可以使用卡尔曼滤波器的匀速运动和线性观测模型。使用检测和跟踪监控在卡尔曼滤波器预测的位置之间的马氏距离刻画运动匹配程度：

d⁽¹⁾(m，n)＝(d_n-y_m)^TS^-1(d_n-y_m)

其中，d⁽¹⁾(m,n)表示真实点m预测n马氏距离，d_n表示预测下一帧的信息、y_m表示下一帧实际的标注信息、T表示矩阵的转置、S^-1表示协方差矩阵。将d⁽¹⁾(m,n)逐帧串联表示第n个检测框和第m条轨迹之间的运动匹配度,考虑到运动的连续性，可以通过该马氏距离对检测进行筛选，本发明中使用卡方分布的0.95分位点作为阈值t⁽¹⁾，定义如下示性函数：

其中，

表示筛选的结果，如果d⁽¹⁾(m,n)>1就表示为正，否则就表示为负，其次是更新模块，其中包括匹配，追踪器更新与特征集更新。在更新模块的部分，根本的方法还是使用交并比来进行匈牙利算法的匹配，因为当一个目标长时间被遮挡之后，卡尔曼滤波预测的不确定性就会大大增加，状态空间内的可观察性就会大大降低。假如此时两个追踪器竞争同一个检测结果的匹配权，往往遮挡时间较长的那条轨迹的马氏距离更小，使得检测结果更可能和遮挡时间较长的那条轨迹相关联，这种不理想的效果往往会破坏追踪的持续性。所以针对每一个检测器都会分配一个跟踪监控器，每个跟踪监控器会设定一个时间参数。如果跟踪监控器完成匹配并进行更新，那么参数会重置为0，否则就会加1。

仅有运动特征是不够的，还要添加深度学习表观特征，这一部分也就是Tiny-Yolov3检测的模块，将所有确定的追踪器，每次完成匹配对应的检测的人脸特征图存储进一个列表。从而在每次匹配之后都会更新这个特征图的列表，去除掉一些已经出镜头的目标的人脸特征图片存储库，保留最新的特征将老的特征弹出，而这个人脸特征图片存储库在欧式空间进行余弦距离计算的时候将会发挥作用。实际上，在当前帧，会计算前一个物体跟踪监控的所有特征向量和后一个物体检测之间的最小余弦距离。最后按照人脸作为特征的提取的外观特征为准进行识别，这样就实现了目标人群位置和实时跟踪监控的效果。

在特征匹配方面，二部图匹配算法的根本目的并不是在于匹配的准不准，而是在于尽量多的匹配上，但仅仅使用匈牙利算法进行匹配特别容易造成身份变化，缺乏准确性与鲁棒性所以综合以上提出的马氏距离与余弦距离，并使用交并比进行衡量，计算检测器与跟踪监控器的交并比，将这个作为置信度的高低。具体实施的步骤为:利用CNN的相似度识别网络FaceNet来提取人脸特征，CNN之后接一个L2标准化，这样图像的所有特征会被映射到一个超球面上，再接入一个嵌入函数，嵌入过程可以表达为一个函数，即把图像x通过函数f映射到d维欧式空间，然后将嵌入层归一化到超球面上。在实际训练中，选取一个batch中的所有正样本和锚框对，使得在训练中更稳定，而且训练的初始阶段收敛的也更快。而人脸训练的骨干网络采用直接用Tiny-YOLOV3的骨干网络，使用不同尺度的Gabor过滤器来处理多尺度问题。同一个人脸图像的空间距离比较小，不同人脸图像的空间距离比较大，这样通过人脸图像的空间映射就可以实现人脸识别。

将目标人群所有保存在图片库中的特征与检测到的人脸进行对比即可，计算不同图片人脸特征的距离。通过相同人脸的距离总是小于不同人脸的距离，这一先验知识训练网络，进而可以直接对比2个人脸经过它的网络映射之后的欧式距离：

face_similar＝||f₁-f₂||²

判断是否为同一人，其中，face_similar为人脸的相似度，f₁为检测出人脸特征的特征向量，f₂为图片库中的特征向量，由于图片库中目标人群的人脸信息不唯一，所以采用KNN算法，取得票高者识别的人脸，如果图片库中的人脸特征不足(小于100张)或者face_similar都低于阈值0.55，则不计算人脸相似度特征。

基于以上的由卡尔曼滤波与检测网络预测得到的融合信息与上一帧的图像信息构建初始化，当然也必须考虑存储到图片库的强关联信息，所以得到距离公式：

d＝(λ₁motion+λ₂appearance)face_similar

本发明实践过程中认为表观特征距离更加可靠，因为图像中如果出现目标人群之间的相互遮挡问题，会使卡尔曼滤波过程中的协方差减小，造成预测错误，所以将运动特征motion对应的系数设为0.2，表观特征，即改进版Tiny-Yolov3检测生成的特征appearance对应的系数设为0.8，如果face_similar越小表示这两个样本是可以匹配的，所以是否能够匹配完全取决于前面的运动特征和表观特征。如果face_similar越大表示两个样本不能匹配，则会直接影响关联矩阵中的d。

根据以上矩阵构建带权无环无向图，进行二部图匹配，使用核心的匈牙利算法，尽可能多的找到可以关联的通路，最后在跟踪监控器上一帧的预测特征图和下一帧的标注信息距离的衡量方面平衡马氏距离与余弦距离，实际上也是针对运动信息与外观信息的计算，其中马氏距离规避了欧氏距离中对于数据特征方差不同的风险，在计算中添加了协方差矩阵，其目的就是进行方差归一化，从而使所谓的“距离”更加符合数据特征以及实际意义。不同于马氏距离，余弦距离则是一种相似度度量。同样的余弦距离也使用相似度阈值分离正负样本，这个阈值由训练集得到，使用余弦距离的时候，可以用来衡量不同个体在维度之间的差异，而一个个体中，维度与维度的差异却不好判断，可以使用马氏距离进行弥补，从而在整体上可以达到一个相对于全面的差异性衡量。

本发明相比单一使用检测的Tiny-YOLOv3模型：精度是最明显的优势，因为提特征图时权重是不同的，在实践过程中，使用显卡GTX1660Ti，CPU-i59400F的条件下跟直接使用DeepSort相比，FPS是最明显的优势，可以达到25.0FPS，DeepSort最快是7.3FPS，所以证实基于本发明的方法建立的模型结构有效、实用。同时采用FaceNet将人脸的识别融入DeepSort，提高了跟踪监控的确定性。

此外，在目标人群防跌倒的视觉领域，尚且没有将检测、人脸识别和目标跟踪监控等算法进行较为系统的融合算法，所以本发明使用的方法无论从性能指标还是系统综合性能，都是目标人群追踪定位领域最优。

以上所述各实施例仅用于说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应该理解：其依然能对前述实施例所记载的技术方案进行修改，或者对其中部分或全部技术特征进行等同替换；而这些修改或替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于有限范围场景内的目标人群跟踪监控方法，其特征在于，该方法包括以下步骤：

S1：在目标人群活动的各场合中放置相机系统，通过跨相机数据关联技术恢复视野，实现目标人群活动范围场景的全覆盖；

S2：按照目标人群的身体形态和脸部形态，将端到端检测网络模型Tiny-Yolov3中锚框的选择方式进行改进，通过新的锚框生成方法，结合实际的场景，选用1：1和1：5的比例，以提高识别的速度和精度；

S3：改进端到端检测网络的网络结构，改变输出尺度，并嵌入通道压缩和扩张结构，提高通道注意力，通过缩小版端到端检测网络的图像特征金字塔结构使用锚框推荐网络，提高空间注意力；

S4：将端到端检测网络改进，加入人脸检测，在人脸的尺度上级连人脸识别网络的头部网络，提高检测精度的同时保证检测速度；

S5：修改检测网络的损失函数，以适应目标人群及目标人群脸部检测的快速性需要；

将端到端检测网络提出的预测是人脸的锚框进行全局自适应池化，再将特征从原始图片到欧氏空间映射，加入相似度的损失，最终得到的损失函数如下：

y_i、

与

表示预测的类别置信度、p_i(c)、

表示人脸的锚框、

表示预测为人脸的框；

总的损失loss为：

其中，contain表示包含人脸框，取值为{0,1}，从损失能得出不包含人脸框时，相似度比较损失；

S6：改进多目标跟踪监控模型，通过具体特征的提取以及具体场景的剪枝，提高在目标人群跟踪监控的模型适应性，将端到端检测模型的推理阶段嵌入到多目标跟踪模型中，使用深度特征作为体弱群体身份的识别信息，使用以下表达式平衡检测的结果和人脸识别的结果：

id＝β*face_similar+(1-β)*v*P(v)

其中，id表示识别体弱群体的身份、β是平衡预测系数、v为标注框的类别，表示是否为人脸信息的置信度，P(v)为检测结果预测为该身份的概率、face_similar表示人脸的相似度；

S7：对多目标跟踪监控网络进行冗余网络优化，提高跟踪监控每秒帧数；

根据卡尔曼滤波得到的运动特征和检测网络得到的表观特征进行前后帧关联，构建关联矩阵，同步的加入人脸相似度关联信息，进行优化得到最终结果；

S8：将修改好的端到端检测网络进行修剪，嵌入目标跟踪监控网络，用作深度特征生成，端到端的实现目标人群跟踪监控。

2.根据权利要求1所述的基于有限范围场景内的目标人群跟踪监控方法，其特征在于，所述S3包括以下步骤：

其中，

3.根据权利要求1所述的基于有限范围场景内的目标人群跟踪监控方法，其特征在于，所述S4中，将人脸尺度的那一层特征图经过卷积，使用全局池化，接入全连接层，得到人脸向量，然后使用FaceNet头部网络映射到欧式空间，在训练和预测时将人脸特征作用于前面的特征层，准确地识别目标人群身份。