CN114972429A

CN114972429A - 云边协同自适应推理路径规划的目标追踪方法和系统

Info

Publication number: CN114972429A
Application number: CN202210581878.3A
Authority: CN
Inventors: 姚楠; 刘子全; 王真; 秦剑华; 朱雪琼; 路永玲; 胡成博; 薛海; 高超; 吴奇伟
Original assignee: State Grid Jiangsu Electric Power Co Ltd; Electric Power Research Institute of State Grid Jiangsu Electric Power Co Ltd
Current assignee: State Grid Jiangsu Electric Power Co Ltd; Electric Power Research Institute of State Grid Jiangsu Electric Power Co Ltd
Priority date: 2022-05-26
Filing date: 2022-05-26
Publication date: 2022-08-30

Abstract

本发明公开了云边协同自适应推理路径规划的目标追踪方法和系统，云端接收边端上传的图像，基于所述图像利用预先获取的RetinaNet网络模型得到图像中目标的特征图、类别以及位置信息；云端对RetinaNet网络模型的推理路径进行优化获得优化后的RetinaNet网络模型参数；云端将目标的特征图、类别、优化后的RetinaNet网络模型参数以及所述RetinaNet网络模型下发到边端，以使得边端基于获取的图像，利用目标的特征图、类别、优化后的RetinaNet网络模型参数以及RetinaNet网络模型确定目标及其类别。边端结合云端下发的目标位置及追踪场景下背景模型信息，实现对监控场景下目标的实时追踪。

Description

云边协同自适应推理路径规划的目标追踪方法和系统

技术领域

本发明涉及边缘计算和云计算技术领域，具体涉及基于云边协同分层的目标追踪方法和系统。

背景技术

在物联网、云计算等技术被广泛应用的背景下，越来越多的终端设备数量加入网络。海量的终端数量以及用户要求的低延迟使得集中式云计算不再满足现有需求，边缘计算应运而生。边缘计算指在数据源头一侧，拥有网络、计算、存储、应用核心能力的开放式平台。云计算指的是通过网络“云”将巨大的数据计算处理程序分解成无数个小程序，然后，通过多部服务器组成的系统进行处理和分析这些小程序得到结果并返回给用户。

目标跟踪的任务是根据初始帧所给定的目标信息，对目标进行持续跟踪并对目标轨迹进行预测。目前在目标追踪过程中，通过图像视频进行智能识别时，基本上是云计算或边缘计算二者取其一，但是在实际目标追踪过程中，需要实时同步大量真实场景的建模数据以及目标追踪数据，对设备间通讯的带宽和延迟有着极高的要求。占主导地位的方法要么受到端到端视频对象检测响应时间长的影响，要么受到其离线特性的影响，使得它们不适用于对延迟敏感的视频流分析。传统集中式云计算常用于训练高精度深度学习模型，例如深层神经网络，然而，数据上云的时延造成云上检测速度慢。使用分布式边缘计算范式，边缘服务器从附近的终端节点获取图像、视频等原始数据，在没有大规模原始数据上传的情况下进行本地学习，选择数据上云，以减少边缘和云端之间的时延消耗，但目标检测的精度却得不到保障，无法进行大型计算。因此，如何平衡低延迟、高精度计算成为了目前最重要的问题。

发明内容

本发明旨在针对现有技术存在的以上不足，提供一种低延迟、高精度的基于云边协同的目标追踪方法和系统。

为实现上述技术目的，本发明采用以下技术方案。

一方面，本发明提供云边协同自适应推理路径规划的目标追踪方法，包括：1.云边协同自适应推理路径规划的目标追踪方法，其特征在于，包括：云端接收边端上传的图像，基于所述图像利用预先获取的RetinaNet网络模型得到图像中目标的特征图、类别以及位置信息；云端对RetinaNet网络模型的推理路径进行优化获得优化后的 RetinaNet网络模型参数；

云端将目标的特征图、类别、优化后的RetinaNet网络模型参数以及所述RetinaNet网络模型下发到边端，以使得边端基于获取的图像，利用目标的特征图、类别、优化后的RetinaNet网络模型参数以及RetinaNet网络模型确定目标及其类别。

进一步地，所述RetinaNet网络模型包括：主干网络、分类子网络和边框预测子网络，所述主干网络包括残差网络和特征金字塔网络FPN，所述残差网络包括第一残差层Res3、第二残差层Res4以及第三层残差层Res5，所述特征金字塔网络FPN包括P3层到P7层的金字塔；

其中自下而上设置第一残差层Res3、第二残差层Res4以及第三层残差层Res5、p6层和p7层，由第一残差层Res3、第二残差层Res4 以及第三层残差层Res5分别计算得到自下而上的P3层、P4层、P5 层；P3层、P4层、P5层、P6层和P7层分别用于生成特征图；

将当前滑动窗口的中心在输入图像的映射点作为Anchor，在金字塔的P3层-P7层设置锚框anchor，锚框anchor的面积分别为32 ×32-512×512；每个金字塔层，使用三种纵横比(1:2,1:1,2:1)的锚框 anchor，并对每种纵横比的anchor应用{2^0,2^1,2^2}3种尺度的缩放，最终每层总共有9个默认anchor；

以anchor为中心，在特征金字塔网络FPN的P3层、P4层、P5 层、p6层、p7层这5个层每个层生成9个候选区域作为特征图；

所述分类子网络和边框预测子网络均输入特征图和其各金字塔层的锚框anchor；

所述分类子网络为一个附加在特征金字塔网络FPN上的全卷积网络FCN，在每个层级的特征图上叠加4个3*3卷积，每个卷积层有C个过滤器并且跟随ReLU激活，最终附加一个K*A个过滤器的 3*3卷积层，A为锚框anchor的数量，K为类别数据；最后使用交叉熵损失函数进行目标类别的预测；

边框预测子网络与分类子网络并行处理，同样是在每个层级的特征图上叠加4个3*3卷积，每个卷积层有C个过滤器并且跟随ReLU 激活，最终附加一个4*A个过滤器的3*3卷积层。

再进一步地，所述交叉熵损失函数表示如下：

其中CE_α为交叉熵损失函数，p_i,c表示真实场景下第i个样本属于类别c的概率,N是样本总数，C是类别总数，y_i,c表示输出的第i 个样本属于类别c的概率，α表示权重。

再进一步地，云端对RetinaNet网络模型的推理路径优化获得优化后的RetinaNet网络模型参数，包括：

根据先验的目标位置和类别大小预测获得目标位置和类别；

根据预测获得的目标位置和类别确定其所属的金字塔的层级，并冻结其他金字塔的层级；

进一步确定所述预测获得的目标位置和类别在其所述金字塔的层级的锚框anchor，并冻结这个金字塔的层级上的其他锚框。

进一步地，边端基于获取的图像，利用目标的特征图、类别、优化后的RetinaNet网络模型参数以及RetinaNet网络模型确定目标及其类别，包括：

边端获取图像，基于图像进行前景图像检测；

基于获取的前景图像，将所述前景图像与云端下发的目标的位置信息进行交并比，获得初步判定的目标；

将获得的初步判定的目标输入到RetinaNet网络模型获得特征值，计算获得的特征值与云端下发的特征值之间的余弦距离，将余弦距离大于设定阈值的前景目标确定为待跟踪目标，并确定该待跟踪目标对应的类别。

再进一步地，基于图像结合云端下发的目标的位置信息进行前景目标检测，包括：

获取图像中各像素点在设定时间内的观测值，表示为：

{X₁,…,X_t}＝{I(x₀,y₀,i):1≤i≤t}

其中X₁,…,X_t为初始时刻到t时刻各时刻对应的观测值， I(x₀,y₀,i)为(x₀,y₀)的像素点在t时刻内的观测值；

利用多个高斯分布对每个观测值进行建模，得到当前像素点的颜色值概率为：

，

其中，K为高斯分布的个数；w_i,t为权重的估计值，μ_i,t,为t时刻第i 个高斯分布的均值；Σ_i,t为第i个高斯分布的协方差矩阵；η为高斯分布概率密度函数；

对于图像中的每个像素点，将它的颜色值与已存在的K个高斯分布相比较，判断其是否和已经存在的高斯分布相匹配，如果匹配，则该像素点为背景点；

将根据图像中各个像素点X_i依次与K个高斯分布的均值进行匹配，匹配条件为：

|X_i-μ_i，t-1|≤2.5σ_i，t-1

其中，μ_i,t-1第i个高斯分布在t-1时刻的均值，σ_i,t-1为第i个高斯分布在t-1时刻的标准偏差；

如果满足该匹配条件则判定图像中像素点X_i为前景图像。

另一方面，本发明还提供了云边协同自适应推理路径规划的目标追踪系统，包括：

云端，所述云端用于接收边端上传的图像，基于所述图像利用预先获取的RetinaNet网络模型得到图像中目标的特征图、类别以及位置信息；对RetinaNet网络模型的推理路径进行优化获得优化后的 RetinaNet网络模型参数；将目标的特征图、类别、优化后的RetinaNet 网络模型参数以及所述RetinaNet网络模型下发到边端，以使得边端基于获取的图像，利用目标的特征图、类别、优化后的RetinaNet网络模型参数以及RetinaNet网络模型确定目标及其类别。

进一步地，所述RetinaNet网络模型包括：主干网络、分类子网络和边框预测子网络，所述主干网络包括残差网络和特征金字塔网络 FPN，所述残差网络包括第一残差层Res3、第二残差层Res4以及第三层残差层Res5，所述特征金字塔网络FPN包括P3层到P7层的金字塔；

将当前滑动窗口的中心在输入图像的映射点作为Anchor，在金字塔的P3层-P7层设置锚框anchor，锚框anchor的面积分别为32 ×32-512×512；每个金字塔层，使用三个纵横比(1:2,1:1,2:1)的锚框 anchor，并在每一层分别对每个anchor添加了3个纵横比{2^0,2^1,2^2} 的anchor，每层总共有9个默认anchor；

所述分类子网络为一个附加在特征金字塔网络FPN上的全卷积网络FCN，在每个层级的特征图上叠加4个3*3卷积，每个卷积层有C个过滤器并且跟随ReLU激活，最终附加一个K*A个过滤器的 3*3卷积层，A为锚框anchor的数量，K为类别；最后使用交叉熵损失函数进行目标类别的预测；

边框预测子网络与分类子网络并行处理，同样是在每个层级的特征图上叠加4个3*3卷积，每个卷积层有C个过滤器并且跟随ReLU 激活，最终附加一个K*A个过滤器的3*3卷积层。

根据先验的目标位置和类别大小预测获得目标位置和类别；

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面任意一种可能的实施方式所提供的方法的步骤。

本发明所取得的有益技术效果：

在实时目标追踪场景下，云边协同分层架构下通过在云端事先对关键帧检测分析实现对监控背景进行建模，同时结合深度学习中的 RetinaNet网络模型实现对监控目标追踪，并将数据下发对应边端设备。在边端采用自适应裁减深度学习中的RetinaNet网络模型，结合云端下发的目标位置及追踪场景下背景模型信息，实现对监控场景下目标的实时追踪。RetinaNet通过多层的Block采样设计来不断扩大感受野范围。通过FPN结构设计实现单张图片中有效地构建多尺度的特征图，使金字塔的每一层均可被用于不同尺寸的目标检测。通过在FCN的基础上设计分类子网络和边框预测子网络实现目标的检测和追踪。通过设置不同尺寸和大小的anchor,实现对更密集目标的预测。从而实现对复杂场景下存在各种尺度的目标准确判别以及位置的精准定位。同时这些操作同时也伴随着更加复杂的计算。

本发明中通过在云端基于RetinaNet完成一次目标检测的位置和类别预测，在边缘端基于先验的目标位置大小下RetinaNet网络模型推理路径规划，原输出类别的维度为W*H*KA和目标位置的维度为 W*H*4A(W是特征图对应的宽度，H是特征图对应的高度)，根据预测结果冻结了W*H*(K-1)(A-1)和W*H*4(A-1)的类别和位置，获取优化后的RetinaNet网络模型参数，这样可以极大减少计算量，提高模型的推理速度。从而实现在边缘端对目标的实时计算。

本发明所取得的有益技术效果：本发明根据云、边特点，云端计算能力强，带宽要求高，传输速率低。而边端恰恰相反，边端计算能力弱，带宽要求低，传输速率高，为此将目标追踪划分成云端、边缘端两块处理功能，通过通信协议实现两端协同处理，在云端实现目标识别、目标追踪处理，边端实现目标追踪处理。在不同传输速度下，平衡了图像在边上和云上运算时间，通过云边协作减少目标追踪处理的运行时间，达到目标追踪的最优化处理。

附图说明

图1为本发明实施例中采用的云边协同流程示意图；

图2为本发明实施例中采用的RetinaNet的网络结构；

图3为本发明实施例中路径规划说明示意图。

具体实施方式

实施例：云边协同自适应推理路径规划的目标追踪方法(如下图 1所示)，在实时目标追踪场景下，云边协同分层架构下通过在云端事先对关键帧检测分析实现对监控背景进行建模，同时结合深度学习中的RetinaNet网络模型实现对监控目标追踪，并将数据下发对应边端设备。在边端采用自适应裁减深度学习中的RetinaNet网络模型，结合云端下发的目标位置及追踪场景下背景模型信息，实现对监控场景下目标的实时追踪。

RetinaNet通过多层的Block采样设计来不断扩大感受野范围。通过FPN结构设计实现单张图片中有效地构建多尺度的特征图，使金字塔的每一层均可被用于不同尺寸的目标检测。通过在FCN的基础上设计分类子网络和边框预测子网络实现目标的检测和追踪。通过设置不同尺寸和大小的anchor,实现对更密集目标的预测。从而实现对复杂场景下存在各种尺度的目标准确判别以及位置的精准定位。同时这些操作同时也伴随着更加复杂的计算。本专利中通过在云端基于 RetinaNet完成一次目标检测的位置和类别预测，在边缘端基于先验的目标位置大小下RetinaNet网络模型推理路径规划，获取优化后的推理模型的参数，这样可以极大减少计算量，提高模型的推理速度。从而实现在边缘端对目标的实时计算。

整个云边协作步骤如下：

步骤1：云端构建RetinaNet网络模型(网络结构如图2所示):

RetinaNet网络是利用深度卷积神经网络构建的一个Two-Stage 目标检测网络，借鉴FasterRcnn的区域候选网络(Region Proposal Network,RPN)以及通过Renet残差网络可以再加深网络深度同时提升网络学习能力的思想，首先通过主干网络学习图像高维特征并产生候选区域(Region Proposal)，再通过分类子网络和边框预测子网络通过分类和回归的方式最终确定目标的类别和位置信息。具体步骤如下：

构建主干网络ResNet50残差网络，基于H(x)＝F(x)+x的残差映射方法，依次构建Res1、Res2、Res3、Res4、Res5这5个Block，他们的下采样率分别为2^1、2^2、2^3、2^4、2^5，通常RetinaNet会选取3个模块来作为初始的检测层，分别为Res3、Res4、Res5。

使用特征金字塔网络FPN通过自下而上、自上而下的连接以及横向连接将ResNet50不同特征层进行融合。自上而下和自下而上的线路分别生成Res3、Res4、Res5和P3、P4、P4、P5、P6、P7等特征图，其中P3到P5由Res3到Res5计算得到，而P6到P7是为了让模型更好的检测大物体。得益于更大的感受野，这样的操作可以保证每一层都有合适的分辨率以及强语义特征，配合目标检测算法以及Focal Loss，从而提升物体的检测性能。

Retinanet借鉴了Faster R-CNN中区域候选网络(Region Proposal Network,RPN)的思想，在P3、P4、P5、p6、p7这5个level上都对应着anchor的尺寸分别为32^2到512^2，每个金字塔层级的长度宽度比均为{1:2,1:1,2:1}，为了能够预测出更密集的目标，每个长宽比的anchor又进一步加入{2^0,2^1,2^2}三种不同的尺寸，每个level总共有9个anchor，每个anchor被赋予长度为K的one-hot向量和长度为4的向量，其中K为类别数，4位box的坐标，与RPN类似，IoU 大于0.5的anchor视为正样本。

将当前滑动窗口的中心在原图的映射点称为Anchor，以此 Anchor为中心，可在FPN的三个不同层级生成候选区域。Retinanet 模型在生成Anchor时加入{2^0,2^1/3,2^2/3}三种不同的尺度和 {1:2,1:1,2:1}三种不同的长宽比，即可产生9种Anchor,其面积大小在 P3、P4、P5、p6、p7上分别为32^2到512^2，如图1的C所示。

分类子网络可为每个Anchor预测目标出现的概率。分类子网络为一个附加在FPN上的小型FCN(全卷积网络)。它在每个层级的 feature上叠加4个3*3卷积，每个卷积层有C个filter并且跟随ReLU 激活，最终附加一个K*A个filter的3*3卷积层，KA表示的是锚框分别为K个类别的概率，其中A为锚框的数量。最后使用交叉熵损失(CrossEntropy Loss)进行类别的预测。针对正负样本不平衡现象，引入超参数α用来控制正负样本对总体分类损失的贡献权重，新的损失函数CE_α定义如下：

进一步地，在其他具体实施例中，可选地，针对难分样本问题，在CE_α的基础之上增加了一个调节因子(1-y_i,c)^γ，其中γ是超参数， Focal Loss函数定义如下：

边框预测子网络用于定位，其能够预测每个Anchor生成候选区域的坐标偏移量。边框预测子网络与分类子网络并行处理，两者结构类似，同样是在每个层级的feature上叠加4个3*3卷积，每个卷积层有C个filter并且跟随ReLU激活，最终附加一个4*A个filter的3*3卷积层，这里4为边框回归4个坐标的预测。在边框回归任务中，损失函数通常使用Smooth L1Loss。假设ti表示第i个预测区域与 Anchor参考区域相对位置的坐标向量

表示第i个目标真实区域与Anchor参考区域相对位置的坐标向量

其中，(x,y)表示中心坐标，(h,w)表示区域边框的高和宽， x、xa、x*分别表示预测区域、Anchor、人工标注区的真实区域中心横坐标，y、ya、y*分别表示预测区域、Anchor、人工标注区的真实区域中心纵坐标。定义Smooth L1 Loss如下：

步骤2：云端训练RetinaNet网络模型

2-1:采用人工标注数据集对模型进行训练。

2-2:对标注样本采取光照畸变、几何畸变、图像遮挡增强策略。

2-3:训练的batch-size大小为8，迭代次数50k,并采用SGD作为迭代优化器。

2-4:初始化学习率为le-5，模型的初始化采用迁移学习的方式，即模型在COCO数据集中训练好的模型用于初始化的RetinaNet模型进行特征提取。

2-5:损失函数采用smooth-L1损失结合Focal损失相结合的方式，网络开始迭代，进行训练。

2-6:下发训练好的模型到边端。

步骤3：云端进行目标检测

3-1:云端接收边端上传的监控图像。

3-2:将图像输入到训练好的RetinaNet模型，模型进行前向传播计算。

3-3:图像经过RetinaNet的主干网络前向传播生成的不同尺度的特征图，基于FCN(全卷积网络)结构进行高层和底层的语义融合，生成5个不同的尺度的特征图。

3-4:在5个不同特征图中生成对应的9个锚点信息。

3-5:特征图和锚点信息分别进入分类子网络和边框预测子网络，分类子网络进行锚点的类别信息预测，边框预测子网络进行被检测目标的位置信息预测。

3-6:对所有的目标位置预测框进行非极大值抑制，提取最佳的目标位置预测框，其余的忽略。

3-7:输出RetinaNet最终预测的目标和位置信息。

步骤4：云端对RetinaNet推理路径优化

云端在t时刻通过RetinaNet推理过程可以概括为以下5个level，分别是res3、res4、res5、res6、res7来进行不同尺度特征提取，通过每个level下对应9个anchor来实现不同形状的目标特征的提取，并通过Fcn实现语义融合，通过分类子网络和边框预测子网络实现目标类别和坐标预测。

RetinaNet网络模型最终获得得检测目标的数量是远远小于其分类子网络和边框预测子网络的预测值数量，如果已知检测目标位置和类别，基于先验的目标位置和类别下RetinaNet网络模型推理路径规划，这样可以极大减少计算量，提高模型的推理速度。因此RetinaNet 网络模型推理路径规划具体步骤(如图3所示)为：

4-1:首先根据先验的目标位置和类别大小确定在W*H*KA和大小为W*H*4A的分类子网络和边框预测子网络中的预测参数位置，并冻结其它W*H*(K-1)(A-1)和W*H*4(A-1)位置参数。

4-2:根据分类子网络和边框预测子网络中的预测参数位置进一步确定其所属Fcn中特征图，同时冻结其他4个金字塔层级对应的特征图。

4-3:根据分类子网络中的冻结W*H*(K-1)(A-1)个参数位置，进一步冻结当前确定的金字塔层级特征图中对应anchor中的其它8个 anchor。

4-4:针对当前金字塔层级对应的尺度特征进一步向下确定当前目标的感受野范围，并冻结当前感受野范围之外的参数。

步骤5：

云端下发检测到的目标位置、特征及针对该目标进行优化的 RetinaNet网络模型的参数下发至边端。

通过步骤4优化后的RetinaNet结构，极大的简化计算步骤，减少计算量从而实现在边端的实时特征提取。

步骤6：边端构建混合高斯模型

使用混合高斯模型对监控场景中的背景信息建模，目标是从场景中分离出运动前景目标，同时尽可能降低噪声、阴影等环境变化的影响。

基本思想：对图像中每一个像素点的颜色值建立混合高斯模型，通过一段时间的采样观测，根据各个高斯分布的持续性和变动性的差异，判断哪一个分布更加接近于真实背景，该高斯分布就作为背景模型。如果图像中像素点的颜色值不符合该高斯分布，则被认为是目标点。

设图像中位置为(x0,y0)的像素点在一段时间内的观测值为：

{X₁,…,X_t}＝{I(x₀,y₀,i):1≤i≤t}

利用多个高斯分布对式中的观测值进行建模，可以得到当前像素点的颜色值概率为：

其中，K为高斯分布的个数(通常取3-5)；w_i,t为权重的估计值，即t时刻该像素点属于第i个高斯分布的可能性的大小；μ_i,t,为t时刻第i个高斯分布的均值；Σ_i,t为第i个高斯分布的协方差矩阵；η为高斯分布概率密度函数：

为了计算简便，假定像素点颜色值的三个分量(R,G,B)相互独立，并且具有相同的方差，则上式中的协方差矩阵可以写为：

就建立起了被观察像素点(x0,y0)颜色值的高斯混合模型。对于输入图像中的像素点(x₀，y₀，t)，将它的颜色值与已存在的K个高斯分布相比较，判断其是否和已经存在的高斯分布相匹配，如果匹配，则该像素点为背景点。所谓“匹配”，即满足下式。

|(X_i-μ_i，t-1)|＜TH×σ_i，t-1

其中，μ_i，t-1第i个高斯分布在t-1时刻的均值，TH通常取2.5，σ_i，t-1，为第i个高斯分布在t-1时刻的标准偏差。

步骤7：边端通过混合高斯模型实现前景目标检测。

(1)模型匹配与更新

将新读入像素点X_i依次与K个高斯分布进行匹配，匹配条件为：

|X_i-μ_i，t-₁|≤2.5σ_i，t-1

如果存在匹配高斯分布，则背景模型中各个参数进行如下更新：

w_k，t＝(1-α)w_k，t-1+α(M_k，t)

μ_t＝(1-ρ)μ_t-1+ρX_t

其中，α是模型学习速率，1/α表征了模型参数变化的速率；对于匹配的高斯分布M_k，t为1，其余不匹配的高斯分布，M_k，t为0；后两式只针对于匹配的高斯分布，其余不匹配的高斯分布对应的参数保持不变；ρ为参数学习速率，定义为：

ρ＝αη(X_t|μ_k，σ_k)

这样，通过上式，就实现了高斯混合模型的更新。

(2)背景估计与前景检测

按照优先级

由高到低对高斯模型进行排序，满足下式的前B个高斯分布组合用来描述背景：

在进行前景检测时，如果所检测的像素点Xt与描述背景的B个高斯模型中的任一个相匹配，则该像素点属于背景，否则属于前景。

步骤8：边端前景特征提取及距离计算

具体步骤如下：首先将当前帧作为输入将其输入该模型中，接着通过分类子网络实时获取前景的具体特征值，计算当前特征值和云端分类子网络提取的目标的特征值之间的欧式距离。如果欧式距离小于 1,则判定为同一个目标，如果欧式距离大于1则不判定为同一个目标。

最终，首先在云端检测出目标，通过网络通信的方式下发目标类别位置信息、特征及推理路径至边端；边端结合混合高斯模型和目标位置信息主要是区域面积进行前景分析，提取前景特征，通过度量方式判定是否属于同一目标，最终通过对实时帧的逐帧预测分析，实现对目标的动态追踪。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.云边协同自适应推理路径规划的目标追踪方法，其特征在于，包括：

云端接收边端上传的图像，基于所述图像利用预先获取的RetinaNet网络模型得到图像中目标的特征图、类别以及位置信息；云端对RetinaNet网络模型的推理路径进行优化获得优化后的RetinaNet网络模型参数；

2.根据权利要求1所述的云边协同自适应推理路径规划的目标追踪方法，其特征在于，所述RetinaNet网络模型包括：主干网络、分类子网络和边框预测子网络，所述主干网络包括残差网络和特征金字塔网络FPN，所述残差网络包括第一残差层Res3、第二残差层Res4以及第三层残差层Res5，所述特征金字塔网络FPN包括P3层到P7层的金字塔；

其中自下而上设置第一残差层Res3、第二残差层Res4以及第三层残差层Res5、p6层和p7层，由第一残差层Res3、第二残差层Res4以及第三层残差层Res5分别计算得到自下而上的P3层、P4层、P5层；P3层、P4层、P5层、P6层和P7层分别用于生成特征图；

将当前滑动窗口的中心在输入图像的映射点作为Anchor，在金字塔的P3层-P7层设置锚框anchor，锚框anchor的面积分别为32×32、64×64、128×128、256×256、512×512；每个金字塔层，使用三种纵横比(1:2,1:1,2:1)的锚框anchor，并对每种纵横比的anchor应用{2^0,2^1,2^2}3种尺度的缩放，最终每层总共有9个默认anchor；

以anchor为中心，在特征金字塔网络FPN的P3层、P4层、P5层、p6层、p7层这5个层每个层生成9个候选区域作为特征图；

所述分类子网络为一个附加在特征金字塔网络FPN上的全卷积网络FCN，在每个层级的特征图上叠加4个3*3卷积，每个卷积层有C个过滤器并且跟随ReLU激活，最终附加一个K*A个过滤器的3*3卷积层，A为锚框anchor的数量，K为类别数据；最后使用交叉熵损失函数进行目标类别的预测；

边框预测子网络与分类子网络并行处理，同样是在每个层级的特征图上叠加4个3*3卷积，每个卷积层有C个过滤器并且跟随ReLU激活，最终附加一个4*A个过滤器的3*3卷积层。

3.根据权利要求2所述的云边协同自适应推理路径规划的目标追踪方法，其特征在于，所述交叉熵损失函数表示如下：

4.根据权利要求2所述的云边协同自适应推理路径规划的目标追踪方法，其特征在于，云端对RetinaNet网络模型的推理路径优化获得优化后的RetinaNet网络模型参数，包括：

根据先验的目标位置和类别大小预测获得目标位置和类别；

5.根据权利要求1所述的云边协同自适应推理路径规划的目标追踪方法，其特征在于，边端基于获取的图像，利用目标的特征图、类别、优化后的RetinaNet网络模型参数以及RetinaNet网络模型确定目标及其类别，包括：

边端获取图像，基于图像进行前景图像检测；

6.根据权利要求5所述的云边协同自适应推理路径规划的目标追踪方法，其特征在于，基于图像结合云端下发的目标的位置信息进行前景目标检测，包括：

获取图像中各像素点在设定时间内的观测值，表示为：

{X₁，…，X_t}＝{I(x₀，y₀，i)：1≤i≤t}

其中X₁，…，X_t为初始时刻到t时刻各时刻对应的观测值，I(x₀，y₀，i)为(x₀，y₀)的像素点在t时刻内的观测值；

，

其中，K为高斯分布的个数；w_i，t为权重的估计值，μ_i，t，为t时刻第i个高斯分布的均值；∑_i，t为第i个高斯分布的协方差矩阵；η为高斯分布概率密度函数；

|X_i-μ_i，t-1|≤2.5σ_i，t-1

其中，μ_i，t-1第i个高斯分布在t-1时刻的均值，σ_i，t-1为第i个高斯分布在t-1时刻的标准偏差；

如果满足该匹配条件则判定图像中像素点X_i为前景图像。

7.云边协同自适应推理路径规划的目标追踪系统，其特征在于，包括：云端，所述云端用于接收边端上传的图像，基于所述图像利用预先获取的RetinaNet网络模型得到图像中目标的特征图、类别以及位置信息；对RetinaNet网络模型的推理路径进行优化获得优化后的RetinaNet网络模型参数；将目标的特征图、类别、优化后的RetinaNet网络模型参数以及所述RetinaNet网络模型下发到边端，以使得边端基于获取的图像，利用目标的特征图、类别、优化后的RetinaNet网络模型参数以及RetinaNet网络模型确定目标及其类别。

8.根据权利要求7所述的云边协同自适应推理路径规划的目标追踪系统，其特征在于，所述RetinaNet网络模型包括：主干网络、分类子网络和边框预测子网络，所述主干网络包括残差网络和特征金字塔网络FPN，所述残差网络包括第一残差层Res3、第二残差层Res4以及第三层残差层Res5，所述特征金字塔网络FPN包括P3层到P7层的金字塔；

将当前滑动窗口的中心在输入图像的映射点作为Anchor，在金字塔的P3层-P7层设置锚框anchor，锚框anchor的面积分别为、64×64、128×128、256×256、512×512；每个金字塔层，使用三个纵横比(1:2,1:1,2:1)的锚框anchor，并在每一层分别对每个anchor添加了3个纵横比{2^0,2^1,2^2}的anchor，每层总共有9个默认anchor；

所述分类子网络为一个附加在特征金字塔网络FPN上的全卷积网络FCN，在每个层级的特征图上叠加4个3*3卷积，每个卷积层有C个过滤器并且跟随ReLU激活，最终附加一个K*A个过滤器的3*3卷积层，A为锚框anchor的数量，K为类别；最后使用交叉熵损失函数进行目标类别的预测；

边框预测子网络与分类子网络并行处理，同样是在每个层级的特征图上叠加4个3*3卷积，每个卷积层有C个过滤器并且跟随ReLU激活，最终附加一个K*A个过滤器的3*3卷积层。

9.根据权利要求7所述的云边协同自适应推理路径规划的目标追踪系统，其特征在于，云端对RetinaNet网络模型的推理路径优化获得优化后的RetinaNet网络模型参数，包括：

根据先验的目标位置和类别大小确定在大小W*H*KA和大小为W*H*4A的分类子网络和边框预测子网络中的预测目标位置，

根据先验的目标位置和类别大小预测获得目标位置和类别；

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1～6任意一项权利要求所述方法的步骤。