CN116631008A

CN116631008A - 基于OSNet的可疑人员跟踪定位方法

Info

Publication number: CN116631008A
Application number: CN202310596858.8A
Authority: CN
Inventors: 彭曦霆; 赵乃贤; 张笑宇; 杨海波; 徐乐西
Original assignee: Shenyang University of Technology
Current assignee: Shenyang University of Technology
Priority date: 2023-05-25
Filing date: 2023-05-25
Publication date: 2023-08-22

Abstract

本发明涉及一种基于OSNet的可疑人员跟踪定位方法，步骤为：获取视频数据，切割成图像；使用YOLOV5网络结构对图像进行检测，特征提取，最终输出行人图像结果；使用宽度学习系统对行人图像进行分类，排除没有行人或者多个行人的图像，保留只有单一行人的图像，输出矩阵标签Y，将标签矩阵Y对应的单一行人图像保存；使用CycleGAN网络对输出单一行人图像进行图片风格的统一；被识别人有图像的情况，使用OSNet网络对行人图像进行重识别，输出特征相似度高的行人图像，以实现人员的跟踪；被识别人无图像的情况，使用OSNet网络先进行属性识别，接着对行人图像进行重识别，输出特征相似度高的行人图像，以实现人员的跟踪。本发明公共场所中对可疑人员跟踪定位困难的问题。

Description

基于OSNet的可疑人员跟踪定位方法

技术领域

本发明属于计算机视觉和深度学习领域，涉及行人检测、行人筛选、数据预处理、行人属性识别以及行人重识别技术。具体来说涉及一种基于OSNet的可疑人员跟踪定位方法。

背景技术

近年来公共场所的人流量在逐年递增，特别是在节假日期间，火车站、商城、游乐园等公共场所人员更加密集，环境更加复杂，想在这种复杂的场景下对可疑人员进行跟踪定位是十分困难的，传统的广播和人工寻找等方式不仅十分耗时，而且效率很低，对于该情况考虑使用神经网络辅助我们在复杂场景下完成可疑人员跟踪定位的工作。

通过使用行人重识别技术可以满足我们的需求，因为其广泛的应用而受到越来越多的人的关注，它能够应用于许多真实的场景，如火车站、商城、游乐园等。一般情况下，行人重识别被看作是图片检索问题：通过给定一个可疑人员，查询此人是否在不同摄像机的不同时间内出现。在实践中，首先获取几份视频监控数据作为原始数据，利用行人检测技术生成相应的检测框，接着对获得的行人数据进行标注，最后通过行人重识别模型的训练对可疑人员进行检索，找到其所在的位置与时间信息。

行人重识别技术在最近几年得到了快速的发展，但是应用在实际场景还是存在一些问题和挑战。例如由于环境而引发的光照变化，同一行人在不同摄像机的拍摄下出现颜色不匹配问题。具体来说，相同行人身穿红色上衣在不同的摄像头下由于光照影响，呈现出的图像中行人的上衣颜色出现差异，并且公共场所的环境比较复杂，行人的背景信息会存在干扰问题。这使得行人重识别从理论研究落实到实际应用仍存在较大的差异。

发明内容

发明目的：针对目前公共场所迅速准确的寻找可疑人员的需求以及行人重识别技术在光照不同的情况下存在的问题，本发明提供了一种基于OSNet的可疑人员跟踪定位方法，其中包括行人检测、行人筛选、数据预处理、行人属性识别以及行人重识别。

本发明所采用的技术方案如下：

本发明提出一种基于OSNet的可疑人员跟踪定位方法，步骤为：

步骤一：获取公共场所的监控视频数据，并切割成图像；

步骤二：使用YOLOV5网络结构对步骤一获得的图像进行检测，YOLOV5网络结构对图像中的行人进行特征提取，根据提取的特征计算出行人的位置坐标以及类别，通过损失函数调整YOLOV5网络结构，最终输出行人图像结果；

步骤三：使用宽度学习系统对步骤二检测出的行人图像进行分类，排除没有行人或者多个行人的图像，保留只有单一行人的图像，输出矩阵Y；

步骤四：使用CycleGAN网络对输出矩阵Y中的图像进行图片风格的统一；

步骤五：被识别人有图像的情况，使用OSNet网络对步骤四得到的风格统一的行人图像进行重识别，得到待识别人图像和被识别人图像的特征，将待识别人图像与被识别人图像进行特征匹配，输出特征相似度高的行人图像，以实现人员的跟踪；

步骤六：被识别人无图像的情况，使用OSNet网络对步骤四得到的风格统一的行人图像进行重识别，得到待识别人图像的特征，将待识别人图像与被识别人进行特征匹配，输出特征相似度高的行人图像，以实现人员的跟踪。

进一步的，步骤二中YOLOV5网络结构检测的步骤为：

步骤2-1：获取步骤一中的监控图像作为输入图像，对输入图像进行自适应图片放缩，将输入图像的尺寸统一调整成N_i×M_i×J；其中N_i代表图像的长度尺寸，M_i代表图像的宽度尺寸；

步骤2-2：特征融合，输入图像为N_i×M_i×J，经卷积获取到尺寸为N_c×M_c×J_c的特征图，将多个特征进行融合；

步骤2-3：通过步骤2-2得到的尺寸为N_c×M_c×J_c的特征图与真实框之间的矩形框损失函数，以及置信度损失函数和分类损失函数计算损失；

步骤2-4：通过损失函数调整YOLOV5网络结构，最终输出行人图像结果。

进一步的，步骤2-3中，

矩形框损失函数为：

式中，L_c为损失值，d为真实框和预测框到中心点距离，l为真实框和预测框所包围矩形最小的对角线长度，h为真实框和预测框的宽高比相似度，IOU为S₁和S₂为两个矩形框的面积之比，w_l、h_l、w_p、h_p为真实框和预测框的宽、高，α为h的影响因子；

置信度损失函数为：

L_d(z,x,y)＝-C(z,x,y)*logV(z,x,y)-(1-C9z,x,y))*log(1-V(z,x,y))

式中，C为置信度标签矩阵，V为预测置信度矩阵，其中x、y、z代表置信度矩阵的维度；

分类损失函数为：

L_f(z,x,y,t)＝-L_m(z,x,y,t)*logV(z,x,y,t)-(1-L_m(z,x,y,t))*log(1

-V(z,x,y,t))

L_m＝L(1-τ)+τ/G

式中，L_m为置信度标签矩阵，V为预测置信度矩，x、y、z、t代表置信度矩阵的维度，G代表类别数，τ为平滑系数，取值范围0～1。

进一步的，步骤三中宽度学习系统的分类方法为：

步骤3-1：获取步骤二中获得的行人图像结果作为输入图形数据X，将X在宽度学习系统中进行特征映射，并得到全部映射特征Z^s；

步骤3-2：根据Z^s，随机生成的矩阵W_tj和β_tj，非线性函数ξ_j计算对应的增强节点H^l；

步骤3-3：将映射特征Z^s和增强节点H^l合并在一起成为一个矩阵，将合并后矩阵和送入宽度学习系统计算输出Y。

进一步的，步骤3-3中输出Y的表达式为：

Y＝[Z^s|H^l]W＝PW

其中P为映射特征Z^s和增强节点H^l合并后的矩阵P＝[Z^s|H^l]，W作为连接网络的权重，表示为：

式中，γ→0，I为单位矩阵，lim_γ→0(γI+P^TP)^-1P^T计算矩阵P的伪逆。进一步的，步骤四中CycleGAN网络对图像进行图片风格统一的步骤为：

步骤4-1：准备两个数据集B₁、B₂，其中B₁用于存放弱光照的图像，B₂用于存放强光照的图像；两个生成器分别为G₁、G₂，两个判别器分别为D₁、D₂；

步骤4-2：训练生成器，对于生成器G₁，输入一个弱光照背景图像b₁，输出一个强光照背景图像b₂′，即G₁(b₁)＝b₂′b₁∈B₁对于生成器G₂，输入一个强光照背景图像b₂，生成一个弱光照背景图像b₁′，即G₂(b₂)＝b₁′b₂∈B₂；

步骤4-3：训练判别器，对于判别器D₂，要对生成器G₁生成的图像进行打分，记为D₂(G₁(b₁))，对于判别器D₁，对生成器G₂生成的图像进行打分，记为D₁(G₂(b₂))；

步骤4-4：输出结果，判别器无法分辨生成器生成的图像和真实图像的区别，此时网络达到最优，生成器生成能力最大化，最后输出生成器生成图像。

进一步的，步骤4-2和步骤4-4中训练的损失函数包括第一损失函数Loss_G和第二损失函数Loss_C，

Loss_G＝L_G(G₁,D₂,B₁,D₂)+L_H(H₂,D₁,B₁,B₂)

式中，B₁表示用于存放弱光照背景图像的数据集，B₂表示用于存放强光照背景图像的数据集，G₁、G₂为两个生成器，D₁、D₂为两个判别器，b₁代表输入的弱光照背景图像，b₂代表输入的强光照背景图像。

进一步的，步骤五和步骤六中OSNet网络对行人图像进行重识别的方法如下：步骤(1)通过深度可分离卷积，将OSNet网络的参数计算量从h_o·w_o·a_o ²·d_o·d_o′下降到h_o·w_o·(a_o ²+d_o)·d_o′；

步骤(2)通过多尺度特征学习步骤四中得到的风格统一的图像结果的特征；

步骤(3)采用动态尺度融合对步骤(2)中学习的特征进行组合。

进一步的，步骤(2)中多尺度特征学习表示如下：

式中，x是输入数据，F^t(x)代表深度可分离卷积的结果，p表示不同感受野的数量。

进一步的，步骤(3)中动态尺度融合是根据统一聚合门实现的；

式中，Q代表一个子网络包含一个全局平均池化层和两个全连接层，x_o ^p表示的是深度可分离卷积的结果F^t(x_o)，⊙表示阿达玛乘积，通过累加的方式对特征进行组合。

有益效果：

本发明为一种基于OSNet的可疑人员跟踪定位方法，引入CycleGAN网络消除行人背景信息存在干扰的问题，使用YOLOV5对消除背景干扰信息后的行人进行检测，最后使用OSNet对检测到的行人进行重识别，本发明可以解决以火车站为例的公共场所中对可疑人员跟踪定位困难的问题。

附图说明

图1为本发明监控视频切割成图像结果图；

图2为本发明行人检测结果图；

图3为本发明切割行人结果图；

图4为本发明统一图片风格结果图；

图5为行人重识别结果图；

图6为本发明的流程图；

图7为YOLOV5的网络模型图；

图8为CycleGAN的网络模型图。

具体实施方式

下文将结合附图对本发明的具体实施方式进行详细说明。

本发明为一种基于OSNet的可疑人员跟踪定位方法，先对行人进行检测，然后通过宽度学习系统和CycleGAN网络对数据进行预处理工作，最后使用OSNet进行行人属性识别和重识别。整个流程如图6所示，本实施例中的公共场所以火车站为例进行说明，其他如商场、游乐场等同样适用。

一种基于OSNet的可疑人员跟踪定位方法，主要步骤如下：

步骤一：获取公共场所的监控视频数据，并切割成图像；

获取目标以火车站为例的公共场所的若干摄像头的监控视频数据，并切割成图像；摄像头的覆盖位置要相对较多，例如安检前、安检后、候车大厅等。对获取到的监控视频按照固定的帧率，切割成图像，如附图1所示，图中为火车站安检前后和候车大厅不同位置摄像头视频切割成图像后的结果。

使用YOLOV5网络结构如图7所示，将步骤1中切割出的火车站图像送入YOLOV5网络，对行人进行特征提取，根据提取的特征计算出行人的位置坐标以及类别，通过损失函数调整网络，最终输出行人图像结果。如附图2所示，类别主要包括两部分：行人、非行人。将检测到的行人从整张监控图像中切割下来，得到如附图3所示的图像，一个行人为一张图像，将时间戳作为图像的标注信息。

YOLOV5网络结构对行人进行检测，其检测过程如下：

步骤2-1：获取步骤一中的监控图像作为输入图像，对输入图像进行自适应图片放缩，将输入图像的尺寸统一调整成N_i×M_i×J；其中N_i代表图像的长度尺寸，M_i图像的宽度尺寸；

初始输入图像信息包括图像尺寸N×M×J，其中N代表图像的长度尺寸，M代表图像的宽度尺寸，J代表图像的通道数量。

所述自适应图片放缩计算方法：

为了统一输入图像的大小，对图像进行自适应放缩，具体步骤如下：

A：首先计算自适应缩放的比例，原始尺寸为N×M，自适应缩放的原始目标尺寸为N₁×M₁，缩放系数Z₁，Z₂通过如下公式计算；

B：如果Z₁<Z₂我们选择Z₁作为最终的缩放系数Z，反之选择Z₂作为最终的缩放系数Z；

C：计算自适应缩放后的尺寸，使用原始图像的长宽和缩放系数Z相乘得到待填充图像的长宽N₂和M₂；

D：如果N₂＝N₁，选择M₂作为待填充位置，反之选择N₂作为待填充位置；

E：计算黑边填充数值，以M₂作为待填充位置为例，计算原本需要填充的高度，在计算图片两端需要填充的数组a，最终计算图像缩放后的尺寸N_i和M_i；

N_i＝N₁＝N₂(3)

步骤2-2：特征融合，输入图像为N_i×M_i×J，通过此步骤获取到尺寸为N_c×M_c×J_c的特征图，将多个特征进行融合；

在此步骤中，获取输入的图像，其尺寸为N_i×M_i×J，使用切片操作得到尺寸为的特征图；

其中网络的卷积核为b，通过卷积得到新的尺寸为N_c×M_c×J_c的特征图， J_c＝b。

步骤2-3：计算损失，计算预测框与真实框的重叠面积和中心点距离，当真实框包裹预测框的时候，直接度量两个框的距离，在此基础上增加一个影响因子，以此计算网络的损失；

本发明在行人检测阶段时的损失包含三部分，矩形框损失、置信度损失和分类损失。用如下的损失函数定义矩形框损失，该损失函数在考虑到预测框和真实框的堆叠面积基础上增加了一个影响因子将预测框和真实框的长宽比也考虑了进来，其中L_c为损失值，IOU为S₁和S₂为两个矩形框的面积之比，d为真实框和预测框到中心点距离，l为真实框和预测框所包围矩形最小的对角线长度，h为真实框和预测框的宽高比相似度，w_l、h_l、w_p、h_p为真实框和预测框的宽、高，α为h的影响因子；

矩形框损失函数为：

用如下损失函数定义置信度损失，C为置信度标签矩阵，V为预测置信度矩阵其中x、y、z代表置信度矩阵的维度。置信度损失函数为：

L_d(z,x,y)＝-C(z,x,y)*logV(z,x,y)-(1-C(z,x,y))*log(1-V(z,x,y)) (9)

用如下损失函数定义分类损失，L_m为置信度标签矩阵，V为预测置信度矩，x、y、z、t代表置信度矩阵的维度，G代表类别数，τ为平滑系数，取值范围0～1。分类损失函数为：

L_f(z,x,y,t)＝-L_m(z,x,y,t)*logV(z,x,y,t)-(1-L_m(z,x,y,t))*log(1-V(z,x,y,t)) (10)

L_m＝L(1-τ)+τ/G (11)

步骤2-4：输出结果，通过损失函数调整网络，最终输出行人图像结果。步骤三：火车站行人分类：使用宽度学习系统对上一步骤检测出的行人进行分类，排除没有行人或者多个行人的图像，保留只有单一行人的图像：

宽度学习系统的分类方法，如下：

步骤3-1：获取步骤二中获得的行人图像结果作为输入图形数据X，其中X是一个R*E的矩阵，R代表输入数据的样本数量，E代表每个样本数量的维数。将X在宽度学习系统中进行特征映射，并得到全部映射特征Z^s；

用如下公式对输入数据X进行特征映射Z；

其中和/>均为我们随机生成的矩阵。/>是线性函数，这里不唯一，可以根据不同的输入数据X或者不同的特征映射Z组合选择不同的线性函数。我们将得到s个不同的Z组合起来得到s组特征节点，Z^s＝[Z₁,Z₂,Z₃,…,Z_s]，它代表我们通过网络映射从输入X中提取到的全部映射特征。

步骤3-2：接着根据Z^s，随机生成的矩阵W_tj和β_tj，非线性函数ξ_j计算对应的增强节点H^l；

用如下公式计算增强节点H；

和/>依然是我们随机生成的矩阵，ξ_j代表非线性函数，这里同样也可以选择不同的ξ，通过上式我们得到的H_j也是矩阵形式，将不同的l个H组合在一起我们可以得到最终的l组增强节点H^l＝[H₁,H₂,H₃,…,H_l]，它代表我们从映射特征中得到的所有增强节点。

步骤3-3：将映射特征Z^s和增强节点H^l合并在一起成为一个矩阵，将合并后矩阵和送入宽度学习系统计算输出Y；

Y是一个R*P的矩阵，P代表样本的类别数量。

将映射特征Z^s和增强节点H^l合并后矩阵与网络连接的权值相乘就可以得出最后的输出Y；

Y＝[Z^s|H^l]W＝PW (14)

其中P为Z^s和H^l合并后的矩阵P＝[Z^s|H^l]，W作为连接网络的权重，它可以表示为：

W＝lim_γ→0(γI+P^TP)^-1P^TY (15)

其中我们通常需要让γ→0，I为单位矩阵，lim_γ→0(γI+P^TP)^-1P^T计算矩阵P的伪逆(matrix)，P的伪逆乘以输出矩阵Y得到网络的连接权重W，我们将计算得到的W代入(14)中即可得到网络最终的输出Y。

步骤四：统一图片风格：由于采集数据的摄像头位置不同，导致所处位置的光照不同，图像的背景环境不同，进而导致相同行人在不同摄像头下的图像风格会出现差异，使用CycleGAN网络对图像进行图片风格的统一，其网络模型图如图8所示，输入为两部分：(1)强光照背景风格图像(2)弱光照背景风格图像，网络的生成器根据输入图像的风格生成相同风格的噪声数据，判别器对输入的原图和生成器生成的图像进行分类，二者相互对抗。输出的结果也为两部分：(1)由强光照背景风格图像转换为弱光照背景风格图像(2)由弱光照背景风格图像转换为强光照背景风格图像。结果如图4所示，其中(a)为未使用CycleGAN的原始图像，(b)、(c)为使用CycleGAN后两种不同的风格图片。

CycleGAN网络对图像进行图片风格统一的步骤为：

步骤4-1：准备两个数据集B₁、B₂，其中B₁用于存放弱光照的图像，B₂用于存放强光照的图像。两个生成器分别为G₁、G₂，两个判别器分别为D₁、D₂；

步骤4-2：训练生成器，通过训练生成器使生成的图像质量越高，对于生成器G₁，输入一个弱光照背景图像b₁，输出一个强光照背景图像b₂′，即G₁(b₁)＝b₂′b₁∈B₁对于生成器G₂，输入一个强光照背景图像b₂，生成一个弱光照背景图像b₁′，即G₂(b₂)＝b₁′b₂∈B₂；

在训练生成器G₁、G₂的时候，固定判别器D₁、D₂的参数，调整生成器G₁的参数，希望生成器G₁生成的图像质量更好，与之对抗的判别器D₂对生成器G₁所产生的图像G₁(b₁)的评分D₂(G₁(b₁))越高，调整生成器G₂的参数，希望生成器G₂生成的图像质量更好，与之对抗的判别器D₁对生成器G₂所产生的图像G₂(b₂)的评分D₁(G₂(b₂))越高。

步骤4-3：训练判别器，通过训练判别器使其更好的判断图像生成质量，对于判别器D₂，要对生成器G₁生成的图像进行打分，记为D₂(G₁(b₁))，对于判别器D₁，对生成器G₂生成的图像进行打分，记为D₁(G₂(b₂))；

训练判别器使D₁、D₂可以更好的区分生成器G₁、G₂产生图像的优劣，判别器输出的是输入图像为真实图像的概率，1为真实图像，0为生成图像，0.5为理想状态下无法判别真假图像，如果生成器G₁所生成的b₂′和数据集B₂中的图像b₂相似度不高，此时的判别器D₂输出的概率值应该更小，反之则输出的概率值更大，同理，如果生成器G₂所产生的b₁′和数据集B₁中的图像b₁相似度不高，此时判别器D₁输出的概率值应该更小，反之则输出的概率值更大，最高分为1。

训练判别器D₁，生成器G₁、G₂和判别器D₂参数固定，在训练判别器D₁的时候应该最大化D₁(b₁)的值，让判别器D₁输出的概率值给更大，极小化D₁(G₂(b₂))的值，使判别器给G₂输出的概率值更小，进而提升判别器的能力。

训练判别器D₂，生成器G₁、G₂和判别器D₁参数固定，在训练判别器D₂的时候应该最大化D₂(b₂)的值，让判别器D₂输出的概率值更大，极小化D₂(G₁(b₁))的值，使判别器给G₁输出的概率值更小，进而提升判别器的能力。

网络训练的损失函数由两部分构成，第一部分的损失要保证生成器和判别器之间相互学习、相互对抗，进而保证生成器可以生成更加优质的图像，这一部分损失记为第一损失函数Loss_G，第二部分是保证生成器的输入图像和输出图像只有亮度的不同，而图像内容要相同，这一部分损失记为第二损失函数Loss_C具体表示如下公式，其中B₁表示用于存放弱光照背景图像的数据集，B₂表示用于存放强光照背景图像的数据集，G₁、G₂为两个生成器，D₁、D₂为两个判别器，b₁代表输入的弱光照背景图像，b₂代表输入的强光照背景图像。

Loss_G＝L_G(G₁,D₂,B₁,B₂)+L_G(G₂,D₁,B₁,B₂) (16)

步骤五：火车站行人属性识别以及有图像数据的行人重识别：通过步骤四获取到图片风格统一的行人图像数据，使用OSNet对行人进行行人属性分析，输出待识别人的属性。

使用OSNet对步骤四得到的风格统一的行人图像进行重识别，对待识别人进行特征匹配，输出图像按照特征相似度进行排序，由于在本发明的使用场景中，前十张图像匹配成功的概率比较高所以选择相似度排名前十的行人图像，根据不同的使用场景可以动态调整输出图像的数量。行人重识别结果如图5所示。

步骤5-1：准备两个数据集X、Y，其中X存放待识别人图像，Y存放被识别人的图像；

步骤5-2：特征提取，使用深度可分离卷积以及多尺度特征学习对数据集X、Y中的待识别人和被识别人作特征提取；

步骤5-3：输出待识别人的特征，获取每个行人的特征，并且将每个行人的特征转化为特征标签进行输出；

步骤5-4：匹配被识别人并输出重识别结果，将得到的X和Y进行特征匹配，输出特征重合率较高的前几名图像。

步骤六：火车站行人属性识别以及无图像数据的行人重识别：使用OSNet对步骤四得到的风格统一的行人图像属性分析，将行人属性和待识别行人输入特征进行匹配，获取到待识别人的图像数据，使用OSNet对行人图像进行重识别，对待识别人进行特征匹配，输出特征相似度排名靠前的行人图像。

步骤6-1：准备数据集两个数据集Y和Z，其中Y存放被识别人的图像，Z存放待识别人特征数据；

步骤6-2：特征提取，使用深度可分离卷积以及多尺度特征学习对数据集Y中的被识别人作特征提取；

步骤6-3：输出被识别人的特征，获取每个行人的特征，并且将每个行人的特征转化为特征标签进行输出；

步骤6-4：匹配待识别人的特征，将上一步得到的行人特征标签和该待识别人的行人特征数据进行匹配，并将相匹配的行人图像作为数据集X；

步骤6-5：匹配被待识别人并输出重识别结果，将得到的X和Y进行特征匹配，输出特征重合率较高的前几名图像。

步骤五和步骤六中OSNet对行人图像进行重识别的方法如下：

(1)通过深度可分离卷积，将OSNet网络的参数计算量从h_o·w_o·a_o ²·d_o·d_o′下降到h_o·w_o·(a_o ²+d_o)·d_o′；

为了降低网络的复杂性，减少计算所需要的参数量，这里使用深度可分离卷积的方法，主要思想就是将原来的卷积层ReLU(r*x_o)拆分为两个独立的其中*表示卷积，a_o表示卷积核大小，d_o表示输入通道宽度，d_o′表示输出通道宽度。/>h_o和w_o分别为输入张量的高度和宽度，最终网络的参数计算量从h_o·w_o·a_o ²·d_o·d_o′下降到h_o·w_o·(a_o ²+d_o)·d_o′，达到了减少计算量的目的。

(2)通过多尺度特征学习步骤四结果的行人的特征

我们对行人进行重识别也就是希望找到某一个行人在不同摄像头下的图像，这个时候我们需要更多的特征去描述这个行人，可能该行人与另一行人的特征差异很小，表现在鞋子颜色不同等等，所以我们需要尽可能多的搜集行人的特征，多尺度特征学习表示如下：

x是输入数据，F^t(x)代表深度可分离卷积的结果，p表示不同感受野的数量。

(3)采用动态尺度融合进行组合。

到目前为止，我们得到不同卷积中学习到的特征，为了学习到更多的特征，使用动态组合的方式将这些特征进行组合，即根据输入图像给不同的尺度分配不同的权重，而不是训练后固定权重。具体来说，动态尺度融合是根据统一聚合门实现的；

Q代表一个子网络包含一个全局平均池化层和两个全连接层，x_o ^p表示的是深度可分离卷积的结果F^t(x_o)，⊙表示阿达玛乘积，通过累加的方式对特征进行组合。

实验结果

本发明做了如下两种对比实验：(1)有无CycleGAN网络对比，(2)和不同的重识别模型对比，实验结果如下表1所示，

表1对比实验结果

从表1中可知，本发明引入CycleGAN网络重识别的全类平均正确率(mAP)、命中率(Rank)均有所提高，同时和其他重识别方法对比，本发明所采用的技术方案效果为最佳。通过实验结果可以证明本发明在以火车站为例的公共场所可疑人员跟踪定位方法具有良好的效果。

Claims

1.一种基于OSNet的可疑人员跟踪定位方法，其特征在于：步骤为：

步骤一：获取公共场所的监控视频数据，并切割成图像；

步骤六：被识别人无图像的情况，使用OSNet网络对步骤四得到的风格统一的行人图像进行属性识别，得到待识别人图像的特征，将待识别人图像与被识别人进行特征匹配，输出特征相似度高的行人图像，以实现人员的跟踪。

2.根据权利要求1中所述的一种基于OSNet的可疑人员跟踪定位方法，其特征在于：步骤二中YOLOV5网络结构检测的步骤为：

3.根据权利要求2中所述的一种基于OSNet的可疑人员跟踪定位方法，其特征在于：步骤2-3中，

矩形框损失函数为：

式中，L_c为损失值，d为真实框和预测框到中心点距离，1为真实框和预测框所包围矩形最小的对角线长度，h为真实框和预测框的宽高比相似度，IOU为S₁和S₂为两个矩形框的面积之比，w_l、h_l、w_p、h_p为真实框和预测框的宽、高，α为h的影响因子；

置信度损失函数为：

L_d(z，x，y)＝-C(z，x，y)*log V(z，x，y)-(1-C(z，x，y))*log(1-V(z，x，y))

分类损失函数为：

L_f(z，x，y，t)＝-L_m(z，x，y，t)*log V(z，x，y，t)-(1-L_m(z，x，y，t))*log(1-V(z，x，y，t))

L_m＝L(1-τ)+τ/G

4.根据权利要求1中所述的一种基于OSNet的可疑人员跟踪定位方法，其特征在于：步骤三中宽度学习系统的分类方法为：

5.根据权利要求4中所述的一种基于OSNet的可疑人员跟踪定位方法，其特征在于：步骤3-3中输出Y的表达式为：

Y＝[Z^s|H^l]W＝PW

式中，γ→0，I为单位矩阵，lim_γ→0(γI+P^TP)^-1P^T计算矩阵P的伪逆。

6.根据权利要求1中所述的一种基于OSNet的可疑人员跟踪定位方法，其特征在于：步骤四中CycleGAN网络对图像进行图片风格统一的步骤为：

步骤4-2：训练生成器，对于生成器G₁，输入一个弱光照背景图像b₁，输出一个强光照背景图像b₂′，即G₁(b₁)＝b₂′b₁∈B₁对于生成器G₂，输入一个强光照背景图像b₂，生成一个弱光照背景图像b₁′，即G₂(b₂)＝b₁，b₂∈B₂；

7.根据权利要求6中所述的一种基于OSNet的可疑人员跟踪定位方法，其特征在于：步骤4-2和步骤4-4中训练的损失函数包括第一损失函数Loss_G和第二损失函数Loss_C，

Loss_G＝L_G(G₁，D₂，B₁，B₂)+L_G(G₂，D₁，B₁，B₂)

8.根据权利要求1中所述的一种基于OSNet的可疑人员跟踪定位方法，其特征在于：步骤五和步骤六中OSNet网络对行人图像进行重识别的方法如下：

步骤(1)通过深度可分离卷积，将OSNet网络的参数计算量从h_o·w_o·a_o ²·d_o·d_o′下降到h_o·w_o·(a_o ²+d_o)·d_o′；

步骤(3)采用动态尺度融合对步骤(2)中学习的特征进行组合。

9.根据权利要求8中所述的一种基于OSNet的可疑人员跟踪定位方法，其特征在于：步骤(2)中多尺度特征学习表示如下：

10.根据权利要求8中所述的一种基于OSNet的可疑人员跟踪定位方法，其特征在于：步骤(3)中动态尺度融合是根据统一聚合门实现的；