CN112817755B

CN112817755B - 基于目标追踪加速的边云协同深度学习目标检测方法

Info

Publication number: CN112817755B
Application number: CN202110091011.5A
Authority: CN
Inventors: 杨树森; 赵鹏; 郭思言; 高远方; 王归秦; 赵聪; 贾根龙
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2021-01-22
Filing date: 2021-01-22
Publication date: 2023-12-19
Anticipated expiration: 2041-01-22
Also published as: CN112817755A

Abstract

本发明提供的一种基于目标追踪加速的边云协同深度学习目标检测方法，解决了目标检测问题实时性不能得到保障的问题。通过三阶段的处理，第一阶段，在边缘节点上，使用自适应关键帧算法提供关键帧的选择方法，并且做到在同一深度学习模型中选择关键帧只需极小的计算资源代价。第二阶段，在云端，利用边缘筛选的数据，使用高精度的分类模型，进行高精度的目标检测。第三阶段，在边缘端，利用孪生网络，通过关键帧的分类和标框结果进行快速追踪，该方法在利用自适应关键帧算法实现针对视频目标检测的数据筛选，同时实现模型精度和时延消耗的折中，给解决边云协同深度学习模型视频目标检测问题提供了可靠的方案。

Description

基于目标追踪加速的边云协同深度学习目标检测方法

技术领域

本发明属于人工智能领域，具体涉及一种快速的在线视频对象检测方法，它以协作的方式利用云上的精确对象检测器和系统边缘资源有限的设备上的轻量级对象跟踪器。

背景技术

视频对象检测在越来越多需要智能视频分析的智能城市应用中发挥着重要作用。然而，占主导地位的方法要么受到端到端视频对象检测响应时间长的影响，要么受到其离线特性的影响，使得它们不适用于对延迟敏感的视频流分析。传统集中式云计算常用于训练高精度深度学习模型，例如深层神经网络，然而，数据上云的时延造成云上检测速度慢。使用分布式边缘计算范式，边缘服务器从附近的终端节点获取图像、视频等原始数据，在没有大规模原始数据上传的情况下进行本地学习，选择数据上云，以减少边缘和云端之间的时延消耗，因此，基于边缘服务器上的本地学习和云上的协作是必要的，同时需要实现在时延消耗和模型精度之间进行权衡的方案。

发明内容

本发明的目的在于克服上述现有技术的缺点，为了解决这个问题本发明提出了ECC-Detect，一种快速的在线视频对象检测方法，它以协作的方式利用云上的精确对象检测器和系统边缘资源有限的设备上的轻量级对象跟踪器。本发明提出了一种新的分支深层网络架构，通过目标检测器和目标跟踪器共享同一个特征提取器，大大降低了协同目标检测的计算和通信成本。使用大规模视频数据集在真实原型上进行的大量实验结果表明，与仅云部署和仅边缘部署以及最先进的方法相比，ECC-Detect能够实现高达21倍的在线视频对象检测速度，134倍的较低边缘云带宽消耗，并且精度损失最多不超过15％。

为达到上述目的，本发明采用如下技术方案来实现的：

1.基于边云协同深度网络的视频实时目标检测，其特征在于，用于分类模型训练的数据先在边缘节点中进行特征图提取，通过对比相似度，确定特征图是进行目标检测或追踪，包括选择器，检测器，追踪器三个阶段：

阶段一：

1)利用边缘节点上的终端数据，使用深度学习中的卷积网络，提取特征图，通过使用自适应的关键帧选取算法实现选择器功能；

2)在稀疏处理视频时，有多种启发式方法来选择关键帧。由于更关心帧中的时间语义信息变化，所以只在当前帧和最后一个关键帧之间的内容有重大差异时才选择关键帧，即自适应的关键帧选取算法；

3)将选中的关键帧，经过边云间的通信网络，由边缘端上传到云端，在云端进行处理，为第二阶段进行准备；将非关键帧继续留在边缘设备，为第三阶段进行准备；

阶段二：

4)云端汇聚边缘端的数据，由检测网络的剩余部分对其进行处理，这里使用了高精度的检测算法进行目标检测；

5)检测算法作为目标检测的部分，主要关注特定的物体目标，要求同时获得这一目标的类别信息和位置信息，即需要从背景中分离出感兴趣的目标，并确定这一目标的描述(类别和位置)，因而，检测模型的输出是一个列表，列表的每一项使用一个数据组给出检出目标的类别和位置(常用矩形检测框的坐标表示)；

6)从云返回检测结果，包括当前帧边界框和类别预测。在第二阶段的最后，更新关键帧和目标的位置，经过边云间的通信网络，由云端上传到边缘端，这将是第三阶段所需要的；

阶段三：

7)对于第二阶段传输的结果，利用第二阶段获取的目标位置信息裁剪更新后的关键帧，得到只包含目标对象的图像，这就是新的结果。然后将这个结果和当前帧(也是一个非关键帧)传入到Siamese-RPN网络，获取当前帧中对象的坐标，并从检测器继承分类结果；

8)对于第一阶段判断出的非关键帧，采用孪生网络，一种重量轻和有效的方法，用于跟踪从第二阶段获得的更新后的结果。

步骤1)的具体操作为：利用边缘节点上汇聚的终端数据，在这里使用ImageNetvid数据集的视频数据，对于每个视频帧{I_i}，通过以下步骤生成一个该帧的表示向量：

a.将图像调整到较小的尺寸，虽然d-Hash通常将图像大小调整为9*8，但使用更大的尺寸是因为分辨率更高，这有利于细粒度的比较，在细粒度的比较中，连贯视频帧中的信息变化很小；

b.灰度化图像，为了简化信息需要将RGB转换为0到255之间的整数值；

c.生成相应的表示向量，对于当前帧，位置p处的d-Hash索引表示为D(p)＝(D₀(p)，D₁(p)，…，D₇(p))，如果位置p的颜色强度强于相邻位置(上、下、左、右、左上、右上、左下、下)，则设置它的分量D_k(p)＝1(k＝0，1，2，...7)，因此，对于每个位置p将得到一个8位向量V(p)，并将它们全部排列成一个二进制表示向量V。

本发明的进一步改进在于，提出基于边云协同的架构的检测方法(ECC-Detect)，使用自适应关键帧选择算法选取关键帧，通过计算最后一个关键帧I_key和当前帧I_i对应的向量V之间的汉明距离d(x，y)，得到一个对于每个不同位置p的值：

其中，表示关键帧在p位置的d-hash索引，而H(p)反映不同的程度，该值越高，两个帧越不相似。通过设置阈值τ和δ来设计关键帧的鉴别：

步骤3)的具体操作为：将选中的关键帧，经过边云间的通信网络，由边缘端上传到云端，在云端进行检测处理；将非关键帧继续留在边缘设备，进行追踪检测。

步骤4)的具体操作为：云端汇聚边缘端的数据，由检测网络的剩余部分对其进行处理，这里采用了高精度的检测算法SSD进行目标检测，SSD在主干卷积网络末尾添加了卷积特征层，这些特征层提取不同的特征图，检测得到多个尺度的目标信息。

步骤5)的具体操作为：检测算法为获得这一目标的类别信息和位置信息，使用9个锚点(3个比例和3个纵横比比率)以利用不同的形状和NMS减少每个图像的区域提议，检测算法利用SSD提取的中间特征图作为输入，最终输出对象的位置，类别和类别分数。

步骤6)的具体操作为：从云返回检测结果，包括当前帧的位置，类别和类别分数，将其作为模板，利用坐标信息的左上角和右下角的坐标裁剪关键帧，得到目标信息，同时需要将模板调整为固定大小作为更新后的模板。

步骤7)的具体操作为：对于步骤6传输的结果，利用其获取的目标位置信息和更新后的模板，将其与当前模板进行比较并找到当前模板对象的位置，利用对象位置信息更新的关键帧，然后得到仅包含目标对象的图像，即新模板。然后将这个结果和当前帧(也是一个非关键帧)传入到Siamese-RPN网络，获取当前帧中对象的坐标，并从检测器继承分类结果。

步骤8)的具体操作为：对于步骤2判断出的非关键帧采用孪生网络，将当前帧作为输入将其馈入特征网络以获取其特征图，在追踪网络中得到分类结果并进行回归以获得目标的位置和类别。

本发明的进一步改进在于，为了减少检测耗时，提出了边云架构下的边云协同检测算法，算法流程：

本发明具有如下有益的技术效果：

本发明提供的一种基于目标追踪加速的边云协同深度学习目标检测方法，给了边云协同模型进行目标检测问题提供了一种高可用性的解决方案。在边缘节点上，使用少量的计算资源完成数据针对分类任务的特征图提取，自适应关键帧算法提供关键帧的选择方法，并且做到在同一深度学习模型中选择关键帧只需极小的计算资源代价。在云端，利用边缘筛选的数据，使用高精度的分类模型，进行高精度的目标检测。在边缘端，利用孪生网络，通过关键帧的分类和标框结果进行快速追踪，该方法在利用自适应关键帧算法实现针对视频目标检测的数据筛选，同时实现模型精度和时延消耗的折中，给解决边云协同深度学习模型视频目标检测问题提供了可靠的方案。

附图说明

图1为边云协同目标检测过程整体框架及流程示意图；

图2为边缘-云端网络结构图(以Siamese RPN-SSD为例)；

图3为边缘-云端网络模型部署图(以Siamese RPN-SSD为例)；

图4为自适应关键帧提取视觉结果对照图

图5为不同传输速率下在不同模型分支的运行时间

具体实施方式

下面结合附图对本发明作进一步详细描述。

参考图1，考虑数据直接上云进行目标检测带来的时延对视频难以达到实时的效果。因此提出基于目标追踪加速的边云协同深度学习目标检测方法。包括三个阶段，阶段一，在边缘端训练简单的特征图提取，并将视频当前帧进行关键帧判别。阶段二，在云端上使用具有高分类精度的模型，进行高精度的目标检测，对边缘的特征图进行分类和标框，保持检测精度。阶段三，在边缘端，使用孪生网络以关键帧上云的检测结果作为模板进行追踪，保证检测速度的提升，具体包括以下步骤：

阶段一：

1)利用边缘节点上汇聚的终端数据，在这里使用ImageNet vid数据集的视频数据，对于每个视频帧{I_i}，通过以下步骤生成一个该帧的表示向量。

a.将图像调整到较小的尺寸。虽然d-Hash通常将图像大小调整为9*8，但使用更大的尺寸是因为分辨率更高，这有利于细粒度的比较，在细粒度的比较中，连贯视频帧中的信息变化很小。

b.灰度化图像。为了简化信息，将RGB转换为0到255之间的整数值。

c.生成相应的表示向量。对于当前帧，位置p处的d-Hash索引表示为D(p)＝(D₀(p)，D₁(p)，…，D₇(p))，如果位置p的颜色强度强于相邻位置(上、下、左、右、左上、右上、左下、下)，则设置它的分量D_k(p)＝1(k＝0，1，2，...7)。因此，对于每个位置p，得到一个8位向量V(p)，并将它们全部排列成一个二进制表示向量V。

2)自适应关键帧选取算法，在稀疏处理视频时，有多种启发式方法来选择关键帧。由于更关心帧中的时间语义信息变化，所以只在当前帧和最后一个关键帧之间的内容有重大差异时才选择关键帧，即自适应的关键帧选取算法；

阶段二：

阶段三：

参考图2，本发明设计了边云协同架构下的深度学习目标检测模型结构，重点在于在检测精度损失可接受的前提下，为了加速检测，以达到实时的效果，提出了边云协同架构下的目标检测方案，视频的每一帧会被判为关键帧或非关键帧，关键帧和非关键帧共有block1和block2层，通过第一阶段的自适应关键帧筛选算法进行判别上云检测或进端检测。

参考图3，本发明部署了边云协同架构下的深度学习目标检测模型，重点在于选择模型检测和追踪的共用部分，选择基于mobilenet-v2的SSD的检测算法和基于mobilenet-v2的Siamese RPN算法进行部署，拆分前四个卷积层作为公共部分部署在端进行特征图提取，使用自适应关键帧筛选算法在端进行分支判断，在云上部署SSD算法剩下的卷积层进行高精度目标检测，在端上部署Siamese RPN算法剩余部分进行追踪。

参考图4，可以发现目标检测的对象通常不是均匀分布在视频中的。很容易观察到，固定速率选择的关键帧在开始时几乎是相同的，因为在视频的早期阶段没有内容变化，因此这些关键帧是多余的和没有意义的。此外，固定速率策略不能及时发现帧中的变化，例如新对象出现(从第274帧开始)和对象外观变化(在第381帧)。图4通过关键帧的数量绘制了两种方法的精度变化，表明该方法筛选到更合适的关键帧更可靠。

参考图5，在不同传输速度下，平衡了不同切割点部署模型在端上和云上运算时间，通过计算进行视频目标检测总的运行时间，选择最优的分支层。从结果中还可以注意到边缘云协作在速度上优于仅边缘和仅云协作。通过将检测网络分支划分为云，检测任务的运行时间在不损失准确性的情况下获得了惊人的减少。需要传输的中间特征图的量化将进一步减少运行时间，同时精度略有下降，这是根据应用需要在精度和速度之间进行的权衡。

Claims

1.基于目标追踪加速的边云协同深度学习目标检测方法，其特征在于，用于分类模型训练的数据先在边缘节点中进行特征图提取，通过对比相似度，确定特征图是进行目标检测或追踪，包括选择器，检测器，追踪器三个阶段：

阶段一：

2)在稀疏处理视频时有多种启发式方法来选择关键帧，然而，考虑到视频帧间的时间语义信息变化，当前帧和最后一个关键帧之间的内容有重大差异时才应被选择为关键帧，即选择器的自适应的关键帧选取算法；

阶段二：

4)云端汇聚边缘端的数据，由检测网络的剩余部分对其进行处理，这里采用高精度的目标检测网络SSD作为检测器进行目标检测；

5)目标检测模型主要关注特定的物体目标，要求同时获得这一目标的类别信息和位置信息，即从背景中分离出感兴趣的目标，并确定这一目标的描述类别和位置；因而，检测模型的输出是一个列表，列表的每一项使用一个数据组给出检出目标的类别，即分类索引，和位置，即矩形检测框的坐标表示；

6)从云返回检测结果，包括当前帧中目标的类别和位置预测，在第二阶段的最后，更新关键帧和目标信息，经过边云间的通信网络从云端下发到边缘端，为第三阶段做准备；

阶段三：

7)对于前序阶段传输的结果，利用第二阶段获取的目标位置信息裁剪更新后的关键帧，得到只包含目标对象的图像，然后将这个结果和当前帧，即第一阶段获取的非关键帧，传入到追踪器，获取当前帧中目标的位置信息，并从检测器结果继承分类信息；

8)对于第一阶段判断出的非关键帧采用孪生网络追踪算法SiameseRPN，一种重量轻和有效的方法，用于跟踪从第二阶段获得的更新后的结果。

2.根据权利要求1所述的基于目标追踪加速的边云协同深度学习目标检测方法，其特征在于，步骤1)的具体操作为：利用边缘节点上汇聚的终端数据，在这里使用ImageNet VID数据集的视频数据，对于每个视频帧{I_i}，通过以下步骤生成一个该帧的表示向量:

c.生成相应的表示向量，对于当前帧，位置p处的d-Hash索引表示为D(p)＝(D₀(p)，D₁(p)，…，D₇(p))，如果位置p的颜色强度强于相邻位置，即上、下、左、右、左上、右上、左下、下，则设置它的分量D_k(p)＝1，当k＝0,1,2,...7，因此，对于每个位置p将得到一个8位向量V(p)，并将它们全部排列成一个二进制表示向量V。

3.根据权利要求1所述的基于目标追踪加速的边云协同深度学习目标检测方法，其特征在于，步骤2)的具体操作为：适应关键帧选择算法选取关键帧，通过计算最后一个关键帧I_key和当前帧I_i对应的向量V之间的Hamming distance d(x，y)，得到一个对于每个不同位置的p值：

其中，表示关键帧在p位置的d-hash索引，D_k(p)表示关键帧在p位置的d-hash索引；而H(p)反映不同的程度，该值越高，两个帧越不相似；对于关键帧的选择可通过

设置相似度阈值δ来设计关键帧的鉴别，一般情况下，阈值δ越低选取的关键帧越多，检测准确率越高但速度也越慢，反之亦然，因此实际操作时可根据视频内容变化速度和设备计算通信资源调节阈值δ进行关键帧选取。

4.根据权利要求1所述的基于目标追踪加速的边云协同深度学习目标检测方法，其特征在于，步骤3)的具体操作为：将选中的关键帧，经过边云间的通信网络，由边缘端上传到云端，在云端进行检测处理；将非关键帧继续留在边缘设备，进行追踪检测。

5.根据权利要求1所述的基于目标追踪加速的边云协同深度学习目标检测方法，其特征在于，步骤4)的具体操作为：云端汇聚边缘端的数据，由检测网络的剩余部分对其进行处理，这里采用了高精度的检测算法SSD进行目标检测，SSD在主干卷积网络末尾添加了卷积特征层，这些特征层提取不同的特征图，检测得到多个尺度的目标信息。

6.根据权利要求1所述的基于目标追踪加速的边云协同深度学习目标检测方法，其特征在于，步骤5)的具体操作为：检测算法为获得这一目标的类别信息和位置信息，使用9个锚点，由3个比例和3个纵横比比率组合得到，以利用不同的形状和NMS减少每个图像的区域提议，检测算法利用SSD提取的中间特征图作为输入，最终输出对象的位置，类别和类别分数。

7.根据权利要求1所述的基于目标追踪加速的边云协同深度学习目标检测方法，其特征在于，步骤6)的具体操作为：从云返回检测结果，包括当前帧的位置，类别和类别分数，将其作为模板，利用坐标信息的左上角和右下角的坐标裁剪关键帧，得到目标信息，同时需要将模板调整为固定大小作为更新后的模板。

8.根据权利要求1所述的基于目标追踪加速的边云协同深度学习目标检测方法，其特征在于，步骤7)的具体操作为：对于步骤6)传输的结果，利用其获取的目标位置信息和更新后的模板，将其与当前模板进行比较并找到当前模板对象的位置，利用对象位置信息更新的关键帧，然后得到仅包含目标对象的图像，即新模板；然后将这个结果和当前帧，即非关键帧，传入到追踪网络Siamese-RPN中，获取当前帧中对象的坐标，并从检测器继承分类结果。

9.根据权利要求1所述的基于目标追踪加速的边云协同深度学习目标检测方法，其特征在于，步骤8)的具体操作为：对于步骤2)判断出的非关键帧采用基于孪生网络的追踪算法，将当前帧作为输入将其馈入特征网络以获取其特征图，在追踪网络中得到分类结果并进行回归以获得目标的位置和类别。