CN112801018A

CN112801018A - 一种跨场景目标自动识别与追踪方法及应用

Info

Publication number: CN112801018A
Application number: CN202110174437.7A
Authority: CN
Inventors: 伍冯洁; 陈江涛; 吕明瑞; 王婷玉; 陈晓斌; 何唐梅; 朱静; 韩晓英
Original assignee: Guangzhou University
Current assignee: Guangzhou University
Priority date: 2021-02-07
Filing date: 2021-02-07
Publication date: 2021-05-14
Anticipated expiration: 2041-02-07
Also published as: CN112801018B

Abstract

本发明公开了一种跨场景目标自动识别与追踪方法及应用，该方法包括下述步骤：在监控场景中对跟踪目标进行跟踪；当所跟踪的目标丢失时，提取模型检测所跟踪的行为人；计算行为人序列特征与跟踪目标特征之间的欧式距离，进行行为人重识别；对多路场景进行行为人检测与行为人重识别，进行跨场景行为人识别与追踪；应用FACENET卷积网络人脸识别技术识别行为人，进行跟踪目标的身份识别；采用CSRnet对人群密度进行估计,根据人群密度阈值分配计算资源，对超出设定的阈值的监控区域进行预警；根据检索条件在视频监控所有场景中查找及匹配关键目标，并框选出所有符合条件的目标。本发明提高了行为人重识别模型在不同场景下的泛化能力。

Description

一种跨场景目标自动识别与追踪方法及应用

技术领域

本发明涉及智能识别追踪技术领域，具体涉及一种跨场景目标自动识别与追踪方法及应用。

背景技术

随着计算机技术、网络技术及图像处理技术的发展，不少视频监控场所已由传统的人工监控方式升级为自动监控方式。根据调研，目前的视频自动监控方式往往只是定性的检测出异常事件，及实现对异常事件进行简单判定与分类，但却缺乏对异常事件发生过程、或事后的定量分析。特别是对异常事件(及紧急情况)中的跨摄像头关键人物(及事物)的自动搜寻与识别，及公共场所人群密集区域的安全预警自动检测等。而且，市面上常用的自动监控往往只能对异常行为进行简单判定与分类，事件发生后，通常由人工对后续目标的追踪，缺少对事件后续的分析与关键目标查找，工作量十分巨大、繁琐。因此，寻求一种能对关键目标进行自动化识别与跟踪的监控方法，迫在眉睫。

发明内容

为了克服现有技术存在的缺陷与不足，本发明提供一种跨场景目标自动识别与追踪方法，利用Siammask神经网络进行目标跟踪，当行为人由于遮挡或其他原因导致的目标丢失问题，则使用yolov3对当前所有视频下进行行为人检测，随后将行为人序列与所跟踪的行为人目标使用strong baseline ReID与IBN-Net相结合模型，实现在不同场景下的行为人再识别任务，同时IBN-Net通过学习不变性特征大大提高了行为人重识别模型在不同场景下的泛化能力，使得即便没有相关场景的预训练集下极大的降低了误判率。

为了达到上述目的，本发明采用以下技术方案：

本发明提供一种跨场景目标自动识别与追踪方法，包括下述步骤：

在视频中给出跟踪目标感兴趣区域，利用Siammask神经网络在监控场景中对该跟踪目标进行跟踪；

当所跟踪的目标丢失时，通过yolov3神经网络特征提取模型检测所跟踪的行为人；

将监控场景行为人序列与跟踪目标输入到strong baseline ReID神经网络进行特征提取，计算行为人序列特征与跟踪目标特征之间的欧式距离，若小于设定的欧式距离阈值，则判定该行为人为跟踪目标，实现行为人重识别；

对多路场景进行行为人检测与行为人重识别，找出行为人，完成跨场景行为人识别与追踪；

应用FACENET卷积网络人脸识别技术识别行为人，进行跟踪目标的身份识别；

采用CSRnet对人群密度进行估计,根据人群密度阈值分配系统计算资源，对超出设定的阈值的监控区域进行预警；

设定检索条件，利用yolov5特征提取模型根据检索条件在视频监控所有场景中查找及匹配关键目标，并框选出所有符合条件的目标。

作为优选的技术方案，所述利用Siammask神经网络在多个监控场景中对该跟踪目标进行跟踪，具体步骤包括：

由目标位置得到目标区域以及下一帧中的搜索区域；

提取目标区域特征与搜索区域特征，并进行两者的深度互相关，得到响应图；

对目标区域与搜索区域特征深度互相关后得到的每一个响应图进行像素级的Mask预测，并对每一个响应图的相似度进行预测，得出相似度最高的Mask预测所在位置，同时进行相似度阈值判断，若小于设定的相似度阈值，则进行行为人检测与重识别，从而重新得到目标位置；

通过Mask预测得到下一帧中目标的目标位置框，并作为当前目标位置构建下下帧中的search区域；

构造损失函数，并迭代训练以最小化损失函数，最终得到目标跟踪模型。

作为优选的技术方案，所述通过yolov3神经网络特征提取模型检测所跟踪的行为人，具体步骤包括：

利用yolov3神经网络的卷积层对监控场景行为人进行识别，获取图片中的目标框，实现对所检测的人物或物体进行框定；

对目标框进行多标签分类，并利用FPN网络提取目标框特征，去除掉不需要的目标框；

采用yolov3检测算法进行预测，迭代训练以最小化损失函数，最终得到yolov3特征提取模型。

作为优选的技术方案，所述将监控场景行为人序列与跟踪目标输入到strongbaseline ReID神经网络进行特征提取，具体步骤包括：

将跟踪行为人目标与行为人图像序列进行归一化处理；

将得到的特征直接输入到Triplet loss损失函数中，使其在超平面空间中进行特征的约束分布，再将特征进行归一化到超球面上，ID loss用于分类；

所述归一化公式为：

其中，x^(k)表示输入特征值，E[x^(k)]为输入特征值的均值，Var[x^(k)]为输入特征值的方差；

在对特征进行归一化后，将特征进行变换重构；

将IN与BN结合，得到IBN-Net，通过将ResNet的block块中前端部分的BN网络层替换为一半IN一半BN的网络结构；

通过Warmup Learing策略使用梯度下降的方式迭代训练ID loss与TriHardloss，得到一个用于行为人重识别模型；

将目标图片与行为人序列图片处理后输入到训练好的行为人重识别模型中，得到特征；

计算行为人序列特征与跟踪目标特征之间的欧式距离，若小于设定的欧式距离阈值，则判定该行为人为跟踪目标。

作为优选的技术方案，所述进行跟踪目标的身份识别，具体步骤包括：

通过卷积计算得到待检测图像的编码；

对于一个卷积神经网络结构，去掉最后的Softmax层，将一个图片样本输入网络，由网络输出一个N维的向量，表示整个图片的编码；

将待检测图像的编码与数据库人脸图片编码一起输入人脸识别神经网络模型，并进行欧氏距离的计算，识别预测出人脸对应的身份。

作为优选的技术方案，所述采用CSRnet对人群密度进行估计，具体步骤包括：

针对要识别的各种人群密度情况，提取图片中的人数作为训练集；

计算视野中的透视特征：

s_j＝U_bi(F_j(P_ave(f_v,j),_j))

c_j＝s_j-f_v

其中，f_v表示空间位置原有的特征数据，w_j表示特定尺寸的权重，s_j是特征图权重，[|表示通道级联操作，⊙是权重图和特征图的元素乘积，U_bi表示双线性插值，F_j是一个核大小为1的卷积网络，P_ave表示将VGG特征平均分块，θ_j表示不同大小的卷积核，

表示1×1卷积层，

表示权重，c_j表示对比特征；

定义损失函数：

其中，

代表密度图，

代表实际密度，B代表不同的尺度；

最终得到目标学习一个估计的密度图：

其中μ,σ代表正态分布的均值和方差，N^gt(.|.)是高斯核函数，I_i是每一张图片，c_i代表将图片分为的各个部分，

是最后得到的密度图；

得到密度图后，通过计算得到人群密度的估计值，通过密度估计值结合分布式计算，将更多的计算资源分配到人群密集的监控区域，并设置人群密度阈值，当超过阈值，则进行区域预警。

作为优选的技术方案，所述利用yolov5特征提取模型根据检索条件在视频监控所有场景中查找及匹配关键目标，具体步骤包括：

将图片输入，运用Mosaic数据增强进行预处理，将图片以随机缩放、随机裁剪、随机排布的方式进行拼接，确定锚框，图片自适应缩放，输入Backbone,再由Focus结构进行切片操作，通过CSP1_X卷积神经网络得到特征图，将特征图送入Neck结构中，先用CSP2_X进一步学习梯度信息，更新权重，融合特征图，再运用FPN+PAN结构进行特征聚合，将多次特征张量进行拼接后，最后经过一次卷积，得到大小不同的输出框与类别标签。

为了达到上述第二目的，本发明采用以下技术方案：

一种跨场景目标自动识别与追踪系统，包括：摄像头、系统服务器和系统客户端；

所述摄像头安装在每个监控场景，用于采集每个监控场景的视频图像，并将所采集到的视频流传输至系统服务器；

所述系统服务器设有目标跟踪模块、目标重识别模块、跨场景目标跟踪模块、关键目标身份识别模块、人群密度估计模块和特定目标检测模块；

所述目标跟踪模块用于根据视频中给出跟踪目标，利用Siammask神经网络在监控场景中对该跟踪目标进行跟踪；

所述目标重识别模块用于当所跟踪的目标丢失时，通过yolov3神经网络特征提取模型检测所跟踪的行为人，将监控场景行为人序列与跟踪目标输入到strong baselineReID神经网络进行特征提取，计算行为人序列特征与跟踪目标特征之间的欧式距离，完成行为人重识别；

所述跨场景目标跟踪模块用于通过目标重识别模块，对多路场景进行行为人检测与行为人重识别，识别出行为人，再结合目标跟踪模块完成跨场景行为人的自动识别与追踪；

所述关键目标身份识别模块用于在监控摄像头获取到关键目标的人脸图像时，利用FACENET卷积网络人脸识别技术对所追踪的关键目标进行人脸识别，完成该追踪目标的身份识别；

所述人群密度估计模块用于采用CSRnet对人群密度进行估计,根据人群密度阈值分配系统计算资源，对超出设定的阈值的监控区域进行预警；

所述特定目标检测模块用于设定检索条件，利用yolov5特征提取模型根据检索条件在视频监控所有场景中查找及匹配关键目标，并框选出所有符合条件的目标；

所述系统客户端用于实时显示跨场景目标识别与追踪情况。

为了达到上述第三目的，本发明采用以下技术方案：

一种存储介质，存储有程序，所述程序被处理器执行时实现上述跨场景目标自动识别与追踪方法。

为了达到上述第四目的，本发明采用以下技术方案：

一种计算设备，包括处理器和用于存储处理器可执行程序的存储器，所述处理器执行存储器存储的程序时，实现上述跨场景目标自动识别与追踪方法。

本发明与现有技术相比，具有如下优点和有益效果：

(1)本发明考虑到了行为人的移动性以及传统目标跟踪方法的局限性，利用Siammask神经网络进行目标跟踪，当行为人由于遮挡或其他原因导致的目标丢失问题，则使用yolov3对当前所有视频下进行行为人检测，随后将行为人序列与所跟踪的行为人目标使用strong baseline ReID与IBN-Net相结合模型，实现在不同场景下的行为人再识别任务，同时IBN-Net通过学习不变性特征大大提高了行为人重识别模型在不同场景下的泛化能力，使得即便没有相关场景的预训练集下极大的降低了误判率。

(2)本发明通过视频监控的硬件设备获取待检测视频后，由于摆脱了对其他外来设备的依赖性，依靠算法即可实现实时的目标跟踪与识别，并可使用分布式结构进行多目标的跨场景识别跟踪任务。

(3)本发明直接处理并识别监控视频中的行为人目标，从现有的人工监视和事后录像分析发展至实时对关键目标进行跟踪与识别，即对异常事件中关键人物进行目标跟踪，为后续事件处理提供重要线索。

(4)本发明使用人群密度检测算法，可以帮助多路视频进行计算力分配，使更多的计算资源分配到人群密度更大的监控场所，进一步提高视频监控效率，根据人群密度阈值大小，进行人流量预警，提早布置安防措施，以预防踩踏等公共安全事件发生。

(5)本发明选用yolov5算法，除了实现自动目标跟踪与识别外，还能完成自定义搜索关键人物与事物，为海量视频监控查找关键人物/物品提高效率，还进一步识别视频监控中异常行为人的身份，以完善视频监控中异常事件预警信息。

附图说明

图1为本实施例1的跨场景目标自动识别与追踪方法的流程示意图；

图2为本实施例1的Siammask网络backbone；

图3为本实施例1的yolov3卷积网络结构示意图；

图4为本实施例1的yolov3的目标框预测坐标分类示意图；

图5为本实施例1的ResNet50网络结构示意图；

图6为本实施例1的IBN-Net卷积结构示意图；

图7为本实施例1的人脸识别流程示意图；

图8为本实施例1的人脸检测流程示意图；

图9为本实施例1的人脸特征内聚效果示意图；

图10为本实施例1的yolov5结构示意图；

图11是本实施例1的PAN结构示意图；

图12是本实施例1的图片随机缩放、随机裁剪、随机排布后效果图；

图13是本实施例1的视频监控关键目标自动识别与跟踪系统工作示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例1

如图1所示，本实施例提供一种跨场景目标自动识别与追踪方法，包括下述步骤：

S1：在视频中由系统自动给出或手动给出跟踪目标(即行为人)感兴趣区域ROI，利用Siammask神经网络在多个监控场景中对该目标进行跟踪；

在本实施例中，目标跟踪模型建立的具体步骤包括：

S11：由目标位置得到目标区域(template)以及下一帧中的搜索区域(search)；

S12：如图2所示，利用Siamese作为Siammask网络的主干backbone提取template区域特征与search区域特征，并进行两者的深度互相关，从而得到响应图；

所述template区域由以下得到：可由人工输入或系统输入ROI，使用opencv中setMouseCallback函数使用鼠标手工进行框图绘制，获得目标的左上角坐标(x,y)以及宽高(w,h)，由此获得目标位置，也可系统自动输入由再识别所得到的目标位置与目标图片，然后将目标截取的目标框进行放大，放大的Size关系为：

其中w为ROI的宽，h为ROI的高。

最后以原目标框中心为中心，截取长宽为Size大小的正方形，并resize为(127，127，3)大小。

所述下一帧的search区域由以下得到：

以template区域在原图的位置，以template为中心，进行截取，截取的宽与高为template的2倍，即以2*Size为宽高的正方形。若截取范围超出原图像外，则进行padding操作，再进行截取，最后resize为(255，255，3)大小的图片。

所述template区域特征与search区域特征进行深度互相关步骤为：

由于同一类物体在同一个channe上有较高响应，并且深度互相关能够降低计算代价与内存的使用。在template与search传输的两个具有相同channels的特征图上，对每一个channels分别进行互相关操作。互相关的计算公式为：

其中，I与K为特征矩阵，(i,j)为特征矩阵I中的数值的位置，m与n为两个特征矩阵中需要进行互相关操作的范围。

S13、通过branch分支网络，用于对template与search深度互相关后得到的每一个响应图进行像素级的Mask预测，并对每一个响应图的相似度进行预测，得出相似度最高的Mask预测所在位置，同时进行相似度阈值判断，若小于阈值，则进行行为人检测与重识别，从而重新得到目标位置。

所述Mask预测使用Sigmoid函数对每一个像素点进行预测，并由最高得分的RoW作为预测Mask，其中Sigmoid函数公式为：

其中z为输入的每个需要预测的像素点。

S14、通过Mask得到下一帧中目标的目标位置框，并作为当前目标位置构建下下帧中的search区域。

S15、重复进行上述步骤，实现目标跟踪。

S16、构造损失函数，并迭代训练以最小化损失函数，最终得到目标跟踪模型。

所述损失函数为L₂，来判定Mask与score预测的优劣性，其中Mask部分损失函数为：

其中，y_n为RoW的label∈{±1,w，h为mask矩阵的宽与高，

为RoW预测出的mask中像素点的label，

是第n个RoW预测出的mask中第(i，j)位置的值。

Score损失函数为cross-entropy：

cross-entropy计算不仅简单，并且cross-entropy是一个凸优化问题，意味着当使用梯度下降去最小化函数时，cross-entropy总是能够收敛。

则总的损失函数为：

L₂＝L_mask+L_score

在构建完模型的损失函数后，使用迭代优化算法进行训练，最小化L₂损失函数，得到目标跟踪模型。

S2、当所跟踪的目标由于遮挡、或离开监控范围导致目标丢失时，通过yolov3神经网络特征提取模型检测所跟踪的行为人；

在本实施例中，检测行为人模型建立的具体步骤包括：

S21、利用yolov3神经网络的卷积层对监控场景行为人进行识别，获取图片中的目标框，实现对所检测的人物/物体进行框定；

所述yolov3特征提取模型包括上采样层、75个卷积层，通过步幅为2的卷积层对特征图进行下采样；

如图3所示，yolov3特征提取模型所使用的残差网络(Darknet-53)大量使用3*3与1*1卷积层依次连接的形式，有53个卷积层，；

上述yolov3特征提取模型还包括shortcut connection结构；

该yolov3卷积层使用残差的跳层连接，为了降低梯度负面效果，没有池化层和全连接层，而采用步长为2的卷积来进行下采样，通过改变卷积核的步长实现张量尺寸的变换；

S22、对目标框进行多标签分类，并利用FPN网络提取目标框特征，去除掉不需要的目标框；

所述获取目标框的具体步骤为：

在三个不同的预测支路预测boxes，如图4所示，对每个边界框(bounding box)预测四个坐标值分别是tx,ty,tw和th；

将每张输入待检测的图片划分成网格cell，根据偏差因子和权重，得到特征的残差块；

在三次预测中，分别在32倍下采样、16倍下采样、8倍下采样同时进行检测，得到13*13*255、26*26*255、52*52*255三种尺度的输出边界框；

上述三个预测支路中，y1(13*13*255)是直接卷积获得的，y2(26*26*255)是在y1的基础上进行上采样，与低层特征残差块进行拼接(concat)后卷积得到，y3(53*53*255)在y2的基础上与更低层特征进行拼接(concat)卷积得到；

上述三个预测支路得到的输出结果，因感受野的不同，y1更适合大目标的检测，y3更适合小目标的检测，实现了多种目标的适应性检测；

对所述目标进行多标签分类时，tw和th采用总方误差的损失函数，其他部分采用二值交叉熵损失；

在深度方面，以COCO数据集(80类)为例，其输出深度计算式为：3*(80+4+1)＝255，“3”表示输出的3个预测结果，即边界框(bounding box)，“4”表示的4个坐标信息，“1”表示目标有无的置信度；

最后提取3层特征图，在每个特征图上分别独立做预测的同时将小特征图上采样到与大特征图相同大小，接着与大的特征图拼接做进一步预测。用k-Means维度聚类的思想，聚类出9种尺度的anchor box，将9种尺度的anchor box均匀的分配给3种尺度的特征图，提高了IOU(交并比)；

S23、进行预测(例如边界框的坐标、类别标签、目标框的重合度等)，迭代训练以最小化损失函数，最终得到yolov3特征提取模型。

采用yolov3检测算法进行预测时，采用logistic回归，在上述9个anchor box中找到目标存在可能性得分最高的一个进行预测操作，而不会对其他目标再做预测，这样提高了算法速度，增进了算法效率。

S3、将监控场景行为人序列与跟踪目标输入到strong baseline ReID神经网络进行特征提取，计算行为人序列特征与跟踪目标特征之间的欧式距离，若小于特定阈值，则判定该行为人为跟踪目标，从而实现行为人重识别。

在本实施例中，strong baseline ReID行为人重识别模型建立的主要步骤包括：

将跟踪行为人目标与行为人图像序列进行归一化的预处理后，输入到已经训练好的行为人重识别特征提取模型进行特征提取，得到目标与行为人序列的特征，进行欧式距离度量，取距离最小的索引，并判断索引对应的值是否小于阈值，若小于阈值，则判定改行为人为跟踪目标，否则再次进行行为人检测，并重复上述步骤。

在本实施例中，strong baseline ReID行为人重识别模型建立的具体步骤包括：

S31、由于行为人重识别的特殊性，需要实现对未知目标的再识别，因此需要模型学习如何提取行为人在不同场景下的特征用于再识别，通常将重识别问题转化为分类或聚类，基于特征的分类模型通过对数据集中一定数量的不同行为人，使用额外的全连接层使用逻辑回归预测分类，从而学习如何提取在不同场景下不同行为人的特征用于重识别。另一种则是将其化为聚类或是排序问题，输入一对正样本与一个负样本，正样本为相同行为人，负样本为不同行为人，通过三元损失函数(triplet loss),将正样本与负样本推开，并拉近正样本之间的距离，由于该损失函数导致训练的时候受正样本影响较大，因此通常采用TriHard loss损失函数，通过学习困难样本的方式改善泛化能力。本实施例同时采用两种损失函数，从而得到更好的特征提取模型。

ID loss采用Cross_entropy损失函数：

其中y为真实值，a为预测值。

交叉熵描述了两个概率分布之间的距离，当交叉熵越小说明二者之间越接近。即学习的是行为人重识别的概率分布。

TriHard loss的核心思想是：对于每一个训练batch，随机挑选P个ID的行为人，每个行为人随机挑选K张不同的图片，即一个batch含有P×K张图片，之后对于batch中的每一张图片a，可以挑选一个最难的正样本和一个最难的负样本和a组成一个三元组。

其中，α是人为设定的阈值参数。TriHard损失会计算a和batch中的每一张图片在特征空间的欧式距离，然后选出与a距离最远(最不像)的正样本p和距离最近(最像)的负样本n来计算三元组损失。通常TriHard损失效果比传统的三元组损失要好。

如图5所示，首先使用ResNet50作为网络的Backbone，同时，将Backbone的每一个block最后一层的步长(stride)改为1，由此得到的特征图尺寸扩大为16*8，通过增大特征图，本实施例能够提取到更加细粒度的特征，从而提升模型的性能。

同时，由于特征被归一化后约束到超球面上时，tiplet loss能够划分的区域大大减小，导致正负样本间推开的难度增加，同时对于分类损失函数来说(ID loss)，在超球面上则是较为清晰的，但这会导致两者梯度方向不一致的问题。

因此，将得到的特征直接输入到Triplet loss损失函数中，使其在超平面空间中进行特征的约束分布，再将特征进行归一化到超球面上，ID loss用于分类。

其中所述将输入值归一化公式为：

其中E[x^(k)]为输入特征值的均值，Var[x^(k)]为输入特征值的方差。

在对特征进行归一化后，需要将特征进行变换重构，并且其中的γ、β需要有网络训练得出，变换重构的公式为：

S32、由于行为人重识别需要对不同场景下拥有良好的泛化能力，并且对于大多数场景，并没有一个预训练集用于模型的微调，考虑到这个问题，本实施例加入了IBN-Net。与BN不同IN(Instance Normalization)是用单个样本统计信息，并且将同样的标准化既用于训练，又用于推断，并且IN能够使得模型学习到不随外观变化而改变的特征，而要保留与内容相关的信息，就需要BN。如图6所示，通过将IN与BN结合，得到IBN-Net，通过将ResNet的block块中前端部分的BN网络层替换为一半IN一半BN的网络结构，能够明显提升模型在不同场景下的泛化能力。

S33、至此所述重识别模型搭建完毕，本实施例通过Warmup Learing策略使用梯度下降的方式迭代训练ID loss与TriHard loss，即初期用一个逐渐递增的学习率去初始化网络，渐渐初始化到一个更优的搜索空间，得到一个用于行为人重识别模型。

S34、最后通过将目标图片与行为人序列图片处理后输入到训练好的行为人重识别模型中，得到特征，使用欧氏距离计算目标图片特征与行为人序列特征，并判断最小值是否小于阈值，阈值由实际多次测试得出，若小于阈值，则判定该行为人为跟踪目标。

欧氏距离公式：

S4、当所跟踪的行为人丢失时，对多路监控场景进行上述S2与S3步骤，对多路场景进行行为人检测与行为人重识别，从而找出行为人，实现跨场景行为人识别与追踪。

S5、特定条件下，应用FACENET卷积网络人脸识别技术识别行为人，从而实现跟踪目标/关键目标的身份识别；

在本实施例中，行为人的人脸识别主要步骤包括：

通过卷积计算得到待检测图像的编码；对于一个卷积神经网络结构，去掉最后的Softmax层，将一个图片样本输入网络，最后由网络输出一个N维的向量，这N维向量则代表整个图片的编码；将待检测图像的编码与数据库人脸图片编码一起输入人脸识别神经网络模型，以提高系统预测的效率，节省计算时间。

在本实施例中，行为人的人脸识别具体步骤包括：

S51、待检测图像进行人脸检测；

所述人脸识别神经网络模型由以下步骤训练得出：

如图7所示，通过卷积计算得到待检测图像的embedding特征向量；对于一个MTCNN-FACENET网络，将图片输入后由MTCNN网络对图片进行人脸检测，将检测数据进行FACENET卷积网络将人脸图片embedding转换为numpy可以识别的二进制数据，如图8所示，将该数据通过与人脸数据库中所有数据进行欧氏距离的计算，得到一个距离值，该值越小，代表着两张人脸相识度越高。

S52、识别图片中的人脸并生成人脸数据；

人脸数据由以下步骤得出：

第一层P-Net的结果经过bounding box regression和NMS处理之后变为24x24的大小放入第二层进行处理，第二层R-Net处理后的结果同样经过bounding box regression和NMS处理之后变成48x48的大小放入第三层O-Net网络进行处理，结果同样经过boundingbox regression和NMS处理变成人脸框和面部标签输出。

S53、识别预测出人脸对应的身份；

所述人脸识别神经网络模型由以下步骤训练得出：

定义Center损失函数,以加快模型收敛速度、不需要使用特别的采样方法，而且利用较少的图像就可以达到与单元组损失相似的效果；

设输入的人脸图像为x_i，该人脸对应的类别是yi，对每个类别都规定一个类别中心，记作c_yi。希望每个人脸图像对应的特征f(x_i)都尽可能接近中心c_yi。其中心损失函数公式：

而对于每个类别yi其最佳中心应该为它对应所有图片的特征的平均值，但每次梯度下降时对所有图片计算c_yi的时间代价太高了。本实施例使用一种近似方法，在初始阶段，先随机确定c_yi，接着在每个batch内，对当前batch内的c_yi也计算梯度，并使得该梯度更新c_yi，此外，还需要加入softmax损失。

其中Lsoftmax为softmax损失函数，它可以学习到可分类特征，但无法保证特征类内间距，而Lc通过约束特征到其中心点的距离来提高特征的内聚性，两者结合可以保证特征的可分性和内聚性，λ是一个超参数。当权重λ越大时，生成的特征就会具有越明显的“内聚性”，如图9所示，得到其内聚效果。

S6、利用CSRnet实现对人群密度进行估计,根据人群密度阈值合理分配系统计算资源，对阈值过高的监控区域进行预警。

总体上，本实施例的目标是通过特征金字塔的方式考虑到图片透视关系的方法，通过回归方法完成的密度估计图。

在本实施例中，使用CSRnet实现对人群密度估计的具体步骤包括：

S61、针对想要识别的各种人群密度情况，提取图片中的人数作为训练集；

将一张图片分成四个部分，多线程加快计算的速度。

先通过截断的10层为预训练的VGG-16网络输出一个特征。

根据特征图计算出一个透视事业特征图来修正特征金字塔的方法计算透视关系，计算公式如下：

s_j＝U_bi(F_j(P_ave(f_v,h),θ_j))

P_ave将VGG特征平均为k(j)×k(j)个块；F_j是一个核大小为1的卷积网络，用于在不改变信道维数的情况下合并信道的上下文特征，θ_j是不同大小的卷积核，U_bi表示双线性插值，以向上采样得到与f_v大小相同的透视特征数组。

对透视图进行了归一化，与RGB图片的范围一致，加快了收敛的速度；

其中，将VGG特征平均为k(j)*k(j)块。通过一个卷积核尺寸等于1的卷积网络，它将不同通道的特征，在不改变维度的情况下啊，连接在一起。

以双线性插值方式进行上采样，使得特征图与透视图具有相同的维度。

在每个空间位置设置每个尺度感知特征的相对影响。

此处，定义对比特征：

c_j＝s_j-f_v

其中s_j是透视特征数据，f_v是该位置原有的特征数据

它可以捕捉到在特定空间位置和邻域的特征的不同，是一个显著的视觉线索；

利用它们作为具有权重

的辅助网络的输入，这个辅助网络可以计算权重每个S的尺度。

每个网络会输出一个特定尺寸的权重：

是一个1×1卷积层，后面跟了一个sigmoid函数来避免被0除，c_j是对比特征，

辅助网络可以计算权重每个S的尺度。

S62、为了进一步地将几何信息传播到后续网络，将上述的VGG特征输入辅助网络，其本质上包含几何信息。

然后，根据这些权重可以得到视野中的透视特征；

其中[|]代表通道级联操作，⊙是权重图和特征图的元素乘积，w_j是上文提到的对特定尺寸的权重，s_j是特征图权重。

定义损失函数：

其中

代表密度图，

代表实际密度，B代表不同的尺度。

S63、最终得到目标学习一个估计的密度图

其中μ,σ代表正态分布的均值和方差，N^gt(.|.)是高斯核函数，I_i是每一张图片，c_i代表将图片分为的各个部分。

是最后得到的密度图。

得到密度图后，通过计算得到人群密度的估计值。通过密度估计值结合分布式计算，将更多的计算资源分配到人群密集的监控区域，并设置人群密度阈值，当超过阈值，则进行区域预警。

S7、在视频监控中，由用户自定义检索条件(支持颜色、名称等检索条件)，系统利用yolov5特征提取模型根据检索条件在视频监控所有场景中查找及匹配关键目标，并框选出所有符合条件的目标；

在本实施例中，利用yolov5进行视频标签检索的主要步骤包括：

将图片输入，运用Mosaic数据增强进行预处理，将图片以随机缩放、随机裁剪、随机排布的方式进行拼接，确定锚框，图片自适应缩放，如图10所示，输入Backbone,再由Focus结构进行切片操作，通过CSP1_X卷积神经网络得到特征图，将特征图送入Neck结构中，先用CSP2_X进一步学习梯度信息，更新权重，融合特征图，如图11所示，再运用FPN+PAN结构进行特征聚合，将多次特征张量进行拼接后，最后经过一次卷积，得到大小不同的输出框与类别标签。

在本实施例中，利用yolov5进行视频标签检索的具体步骤包括：

S71、预处理：将不同大小的目标所在图片自适应缩放，计算缩放比例以及缩放尺寸后，采用numpy中np.mod取余数的方式，得到图片高度两端需要进行黑边填充的数值，进行黑边填充，获得大小一样的图片；如图12所示，接着使用Mosaic数据增强，运用随机缩放、随机裁剪、随机排布的方式进行拼接检测；。

在初始锚框的基础上输出预测框进而和真实框进行比对，计算两者差距，再反向更新，迭代网络参数；每次训练时，能够自适应的计算不同训练集中的最佳锚框值，接着将图片送入检测网络。

第一层将图像送入Backbone结构，进入Focus结构进行切片操作，经过32个卷积核的卷积操作，得到特征图，如原始608×608×3的图像输入Focus结构，采用切片操作，先变成304×304×12的特征图，再经过一次32个卷积核的卷积操作，最终变成304×304×32的特征图。

第二层送入CSPNet网络，将每一层输入特征图拆成两个部分，一部分进行卷积操作，另一部分再与其他卷积结果在进行卷积操作，把梯度的变化集成到特征图中，在减少了计算量的同时可以保证准确率进行多次深度卷积融合。

第三层预测层(Neck)采用FPN+PAN的结构，FPN结构是先自顶向下进行特征的上采样，较高层特征2倍上采样，较低层特征通过1×1卷积改变一下低层特征的通道数，然后简单地把将上采样和1×1卷积后的结果对应元素相加，如图11所示，PAN结构缩短了底层尺寸大的特征到高层尺寸小的特征之间的距离，让特征融合更加有效；FPN层自顶向下传达强语义特征，而特征金字塔中PAN结构则自底向上传达强定位特征，从不同的主干层对不同的检测层进行特征聚合，在head函数中对上一步输出的3个分支，通过卷积输出预测head，采用coco数据集，有80个类别。

S72、运用Concat函数将张量拼接，输出之前最后进行一次卷积，得到最终的特征图片。

运用GIOU_Loss做Bounding box的损失函数，计算方法是对于任意的两个A、B框，找到一个能够包住它们的最小方框C，计算C\(A∪B)的面积与C的面积的比值，再用A、B的IoU值减去这个比值，得到GIoU。

S73、通过迭代训练最小化损失函数，得到yolov5模型用于视频目标检测。将检测结果根据用户需要，选择性显示目标标签。

实施例2

如图13所示，一种跨场景目标自动识别与追踪系统，包括安装在每个监控场景的摄像头、系统服务器、系统客户端；将各个监控场景的视频上传至系统服务器端进行分析处理及实时监控，再将视频监控结果推送至系统客户端进行实时显示和控制，以实现关键目标的自动识别与跟踪。

在本实施例中，摄像头用于采集系统每个监控场景的视频图像，并通过网络(有线或无线)将所采集到的视频流传输至系统服务器；

在本实施例中，系统服务器用于集成和实现本发明的跨场景目标自动识别与追踪方法，主要包括目标跟踪模块、目标重识别模块、跨场景目标跟踪模块、关键目标身份识别模块、人群密度估计模块及特定目标检测模块；

在本实施例中，目标跟踪模块根据系统自动给出或手动给出的跟踪目标(即行为人)，利用Siammask神经网络在监控场景中对该关键目标进行跟踪；

在本实施例中，目标重识别模块对由于遮挡或离开监控范围导致系统跟踪的关键目标丢失时，利用yolov3神经网络特征提取模型检测所跟踪的行为人，实现行为人重识别；

在本实施例中，跨场景目标跟踪模块通过目标重识别模块，对多路场景进行行为人检测与行为人重识别，识别出行为人，再结合系统的目标跟踪模块，实现跨场景行为人的自动识别与追踪；

在本实施例中，关键目标身份识别模块在监控摄像头获取到关键目标的人脸图像时，利用FACENET卷积网络人脸识别技术对所追踪的关键目标进行人脸识别，以实现该追踪目标的身份识别；

在本实施例中，人群密度估计模块在系统运行跨场景目标跟踪模块时，采用CSRnet对各路视频进行人群密度估计,根据人群密度阈值合理分配系统计算资源，分配更多的计算资源到人群密度大的监控场所，同时对超出设定阈值的监控区域进行预警；

在本实施例中，特定目标检测模块用于用户通过在系统自定义检索条件(支持颜色、名称等检索条件)，利用yolov5特征提取模型根据检索条件在视频监控所有场景中查找及匹配关键目标，并框选出所有符合条件的目标；

在本实施例中，系统客户端用于实时显示跨场景目标识别与追踪情况，客户端包括本地客户端与移动客户端；

在本实施例中，本地客户端通过网络(有线或无线)与服务器端相连，将系统实时监控结果显示在本地电视墙或显示屏；

在本实施例中，移动客户端通过无线网络(支持4G)与服务器相连，用于显示系统跨场景目标识别与追踪的结果。

实施例3

本实施例提供一种存储介质，存储介质可以是ROM、RAM、磁盘、光盘等储存介质，该存储介质存储有一个或多个程序，所述程序被处理器执行时，实现实施例1的跨场景目标自动识别与追踪方法。

实施例4

本实施例提供一种计算设备，所述的计算设备可以是台式电脑、笔记本电脑、智能手机、PDA手持终端、平板电脑或其他具有显示功能的终端设备，该计算设备包括处理器和存储器，存储器存储有一个或多个程序，处理器执行存储器存储的程序时，实现实施例1的跨场景目标自动识别与追踪方法。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种跨场景目标自动识别与追踪方法，其特征在于，包括下述步骤：

采用CSRnet对人群密度进行估计，根据人群密度阈值分配系统计算资源，对超出设定的阈值的监控区域进行预警；

2.根据权利要求1所述的跨场景目标自动识别与追踪方法，其特征在于，所述利用Siammask神经网络在多个监控场景中对该跟踪目标进行跟踪，具体步骤包括：

由目标位置得到目标区域以及下一帧中的搜索区域；

3.根据权利要求1所述的跨场景目标自动识别与追踪方法，其特征在于，所述通过yolov3神经网络特征提取模型检测所跟踪的行为人，具体步骤包括：

4.根据权利要求1所述跨场景目标自动识别与追踪方法，其特征在于，所述将监控场景行为人序列与跟踪目标输入到strong baseline ReID神经网络进行特征提取，具体步骤包括：

将跟踪行为人目标与行为人图像序列进行归一化处理；

所述归一化公式为：

在对特征进行归一化后，将特征进行变换重构；

通过Warmup Learing策略使用梯度下降的方式迭代训练ID loss与TriHard loss，得到一个用于行为人重识别模型；

5.根据权利要求1所述跨场景目标自动识别与追踪方法，其特征在于，所述进行跟踪目标的身份识别，具体步骤包括：

通过卷积计算得到待检测图像的编码；

6.根据权利要求1所述跨场景目标自动识别与追踪方法，其特征在于，所述采用CSRnet对人群密度进行估计，具体步骤包括：

计算视野中的透视特征：

s_j＝U_bi(F_j(P_ave(f_v，j)，θ_j))

c_j＝s_j-f_v

其中，f_v表示空间位置原有的特征数据，w_j表示特定尺寸的权重，s_j是特征图权重，[|]表示通道级联操作，⊙是权重图和特征图的元素乘积，U_bi表示双线性插值，F_j是一个核大小为1的卷积网络，P_ave表示将VGG特征平均分块，θ_j表示不同大小的卷积核，

表示1×1卷积层，

表示权重，c_j表示对比特征；

定义损失函数：

其中，

代表密度图，

代表实际密度，B代表不同的尺度；

最终得到目标学习一个估计的密度图：

其中μ，σ代表正态分布的均值和方差，N^gt(.|.)是高斯核函数，I_i是每一张图片，c_i代表将图片分为的各个部分，

是最后得到的密度图；

7.根据权利要求1所述跨场景目标自动识别与追踪方法，其特征在于，所述利用yolov5特征提取模型根据检索条件在视频监控所有场景中查找及匹配关键目标，具体步骤包括：

将图片输入，运用Mosaic数据增强进行预处理，将图片以随机缩放、随机裁剪、随机排布的方式进行拼接，确定锚框，图片自适应缩放，输入Backbone，再由Focus结构进行切片操作，通过CSP1_X卷积神经网络得到特征图，将特征图送入Neck结构中，先用CSP2_X进一步学习梯度信息，更新权重，融合特征图，再运用FPN+PAN结构进行特征聚合，将多次特征张量进行拼接后，最后经过一次卷积，得到大小不同的输出框与类别标签。

8.一种跨场景目标自动识别与追踪系统，其特征在于，包括：摄像头、系统服务器和系统客户端；

所述目标重识别模块用于当所跟踪的目标丢失时，通过yolov3神经网络特征提取模型检测所跟踪的行为人，将监控场景行为人序列与跟踪目标输入到strong baseline ReID神经网络进行特征提取，计算行为人序列特征与跟踪目标特征之间的欧式距离，完成行为人重识别；

所述人群密度估计模块用于采用CSRnet对人群密度进行估计，根据人群密度阈值分配系统计算资源，对超出设定的阈值的监控区域进行预警；

所述系统客户端用于实时显示跨场景目标识别与追踪情况。

9.一种存储介质，存储有程序，其特征在于，所述程序被处理器执行时实现如权利要求1-7任一项所述跨场景目标自动识别与追踪方法。

10.一种计算设备，包括处理器和用于存储处理器可执行程序的存储器，其特征在于，所述处理器执行存储器存储的程序时，实现如权利要求1-7任一项所述跨场景目标自动识别与追踪方法。