CN115661712A

CN115661712A - 一种轻量级多任务视频流实时推理方法及系统

Info

Publication number: CN115661712A
Application number: CN202211348871.3A
Authority: CN
Inventors: 戴凌飞; 刁博宇; 李超; 宫禄齐; 徐勇军
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2022-10-31
Filing date: 2022-10-31
Publication date: 2023-01-31

Abstract

本发明提出一种轻量级多任务视频流实时推理方法及系统，采用推理效率更高的目标检测模型作为检测基准模型，在其基础上增加可行驶区域分割头网络和多物体跟踪头网络来分别完成可行驶区域分割任务和多物体跟踪任务，通过共享主干网络和特征金字塔网络的方式减少参数量和计算量的冗余，通过级联知识蒸馏的端到端结构化迭代剪枝算法，进一步降低模型的计算量，有效提高了模型在边缘芯片硬件上的加速比，最终模型能够保证精度的同时在边缘端做到实时推理。

Description

一种轻量级多任务视频流实时推理方法及系统

技术领域

本发明涉及计算机视觉和自动辅助驾驶技术领域，尤其涉及一种轻量级多任务视频流实时推理方法。

背景技术

随着人工智能技术发展和智能设备的普及，越来越多的设备需要在无法访问云平台的情况下使用人工智能技术，使得边缘人工智能变得越来越重要。尤其，在自动化机器人或配备计算机视觉算法的智能汽车的应用中，数据传输的滞后可能是灾难性的。自动驾驶汽车在检测道路的人员或障碍时不能受到延迟的影响，由于快速响应时间是如此重要，必须采用边缘人工智能系统，允许实时分析和分类图像，而不依赖云计算连接。而自动驾驶的实现主要依靠各种传感器对车身四周的环境进行感知，通过目标检测、分割，识别与跟踪等计算机视觉处理技术来评估安全性。

现阶段比较常用的处理道路物体检测任务、可行驶区域分割任务和多物体跟踪任务的方式主要是分别用三种神经网络模型处理。例如，单阶段目标检测模型和双阶段目标检测模型专门处理目标检测任务，UNet和PSPNet被用来处理语义分割任务。这种将多任务模型解耦，用多个神经网络模型分开处理的方法比较容易实现，但多模型必然导致重复提取图像数据特征和模型训练困难的问题，并且多个模型的总参数量和总计算量庞大，边缘端芯片受算力资源限制而运行速度慢，难以在精度和时延中间取得一个平衡。

因此，如何通过一个模型解决多个感知任务并且能做到精度和时延的平衡是亟需解决的问题。目前存在以下几种代表性的方法。

采用编码器-解码器结构，一个共享编码器和三个独立解码器用于分类任务、目标检测任务和语义分割任务。该算法在这些任务上都取得了较好的效果，并在KITTI可驾驶区域分割任务上取得了较好的效果。然而，在控制车辆方面，分类任务并不像多物体跟踪任务那么重要。

将交通目标检测、可行驶区域分割和车道检测结合在一起，并提出结合上下文张量来融合解码器之间的特征映射以实现信息共享。虽然在精度上有很强的表现，但它的时延较高，不能做到实时推理。

通过总结现有研究，发现以上几种多任务学习技术存在以下几点不足：(1)不能够很好的契合自动驾驶场景下对于车辆控制的需求。(2)不能够做到精度和时延之间的良好平衡，即不能够保证精度的同时做到实时推理。

发明内容

针对以上问题，采用推理效率更高的目标检测模型YOLOv5作为检测基准模型，在其基础上增加可行驶区域分割头网络和多物体跟踪头网络来分别完成可行驶区域分割任务和多物体跟踪任务，通过共享主干网络和特征金字塔网络的方式减少参数量和计算量的冗余，通过级联知识蒸馏的端到端结构化迭代剪枝算法，进一步降低模型的计算量，有效提高了模型在边缘芯片硬件上的加速比，最终模型能够保证精度的同时在边缘端做到实时推理。本发明应用场景是自动辅助驾驶。本发明可以完成道路物体检测、可行驶区域分割和道路多物体跟踪三种辅助驾驶场景的感知任务。预测或规避属于辅助驾驶场景的规划控制相关的任务。需要基于我们的感知结果进行规划控制算法的设计。

具体来说，本发明提出了一种轻量级多任务视频流实时推理方法，其中包括：

步骤1、获取包含驾驶场景的视频数据集，该视频数据集中包括多个视频流，视频流中视频帧具有标签文件，该标签文件包括目标锚框类别标签、行驶区域标签以及物体跟踪标签；

步骤2、获取具有主干网络和特征金字塔网络的原目标检测模型，在该特征金字塔网络的目标检测头网络增加两个分支网络，分别作为分割行驶区域头网络和物体跟踪头网络，得到多任务检测模型；

步骤3、以该视频数据集作为训练数据输入该多任务检测模型，并基于该多任务检测模型输出的目标锚框类别、行驶区域和物体跟踪结果，和该标签文件构建损失函数，以训练该多任务检测模型，得到教师模型，对该教师模型进行级联知识蒸馏的端到端结构化迭代剪枝处理，得到学生模型；

步骤4、将车辆行驶时采集的待识别的实时驾驶场景视频流输入该学生模型，得到包含目标检测结果、可行驶区域和目标跟踪结果的推理结果；根据该推理结果，控制该车辆执行辅助驾驶相关的控制任务。

所述的轻量级多任务视频流实时推理方法，其中该目标锚框类别标签包括类别、锚框中心点坐标、锚框宽度以及锚框高度；该行驶区域标签包括可行驶区域和不可行驶区域；该物体跟踪标签包括视频流的帧位、锚框编号、锚框中心点坐标、锚框宽度、锚框高度、锚框包含物体的置信度。

所述的轻量级多任务视频流实时推理方法，其中该步骤3中训练该多任务检测模型具体包括：

多任务检测模型通过该主干网络对视频帧进行特征提取，得到不同尺度的特征图，通过该特征金字塔网络对不同尺度的特征图进行融合，通过不同任务的头网络进行解码得到输出并与标签计算损失函数binary-cross-entropy和CIOU Loss，所述binary-cross-entropy具体为：

L_BCE(y′_i,y_i)＝-w_i[y_i*logy′_i+(1-y_i)*log(1-y′_i)]

所述CIOU Loss的公式具体为：

其中L_BCE为binary-cross-entropy公式计算出的损失值，n为样本总数，a为预测输出，y为真实输出；L_CIoU为CIOU Loss公式计算出的损失值，IoU为预测框A和标签框B的交并集，b^gt为标签框中心点位置，b为预测框中心点位置，ρ²(b,b^gt)为预测框A和标注框B中心点之间的欧几里得距离，c为预测框A和标注框B之间最小外接矩形测对角线的长度，α为权重，为预测框A和标注框B之间长宽比的距离；A为预测框，B为标注框；w^gt为标注框的宽，h^gt为标注框的长，w为预测框的宽，h为预测框的长；

当总损失值达到预设标准时，得到目标模型，所述目标模型用于获取待识别视频帧并输出所述目标模型识别出的检测目标标签和可行驶区域分割标签，其中检测目标标签作为该物体跟踪头网络的输入；该物体跟踪头网络采用马氏距离与余弦距离度量跟踪目标与检测目标之间的损失函数；其中，马氏距离关联度为：

该余弦距离关联度量：

综合马氏距离和余弦关联度量的损失函数如下：

c_i,j＝λd⁽¹⁾(i,j)+(1-λ)d⁽²⁾(i,j)

其中，d_j表示检测锚框的位置，y_i表示对目标的预测位置，S_i表示d_j与y_i之间的协方差矩阵，r_j表示检测目标的特征向量，

表示跟踪目标的特征向量，λ表示马氏距离度量的权重；

当损失c_i,j达到预设标准时，得到该教师网络。

所述的轻量级多任务视频流实时推理方法，其中该步骤3中剪枝处理包括：

对于该多任务检测模型的训练过程，在损失函数L_BCE(y'_i,y_i)中添加惩罚因子，对卷积层的权重和BN层的缩放系数进行约束，约束项λR(w)采用L1范数，对于卷积核和BN层缩放系数的约束公式如下：

R(w)＝|α|

训练上述端到端该多任务检测模型至损失函数收敛后，对滤波器的绝对值进行求和，然后结合缩放系数和滤波器的绝对值之和做计算重要性函数，再根据预设剪枝率对重要性进行升序排序，通过预设剪枝率计算剪枝阈值，将低于阈值的滤波器剪枝；其中，滤波器绝对值求和公式、重要性判断函数和剪枝阈值计算公式如下：

m_i＝α_i*E_i

θ＝sort_p(M)

将剪枝前的网络作为教师网络，将剪枝后的网络作为该学生网络。

本发明还提出了一种轻量级多任务视频流实时推理系统，其中包括：

模块1、获取包含驾驶场景的视频数据集，该视频数据集中包括多个视频流，视频流中视频帧具有标签文件，该标签文件包括目标锚框类别标签、行驶区域标签以及物体跟踪标签；

模块2、获取具有主干网络和特征金字塔网络的原目标检测模型，在该特征金字塔网络的目标检测头网络增加两个分支网络，分别作为分割行驶区域头网络和物体跟踪头网络，得到多任务检测模型；

模块3、以该视频数据集作为训练数据输入该多任务检测模型，并基于该多任务检测模型输出的目标锚框类别、行驶区域和物体跟踪结果，和该标签文件构建损失函数，以训练该多任务检测模型，得到教师模型，对该教师模型进行级联知识蒸馏的端到端结构化迭代剪枝处理，得到学生模型；

模块4、将车辆行驶时采集的待识别的实时驾驶场景视频流输入该学生模型，得到包含目标检测结果、可行驶区域和目标跟踪结果的推理结果；根据该推理结果，控制该车辆执行辅助驾驶相关的控制任务。

所述的轻量级多任务视频流实时推理系统，其中该目标锚框类别标签包括类别、锚框中心点坐标、锚框宽度以及锚框高度；该行驶区域标签包括可行驶区域和不可行驶区域；该物体跟踪标签包括视频流的帧位、锚框编号、锚框中心点坐标、锚框宽度、锚框高度、锚框包含物体的置信度。

所述的轻量级多任务视频流实时推理系统，其中该模块3中训练该多任务检测模型具体包括：

L_BCE(y′_i,y_i)＝-w_i[y_i*logy′_i+(1-y_i)*log(1-y′_i)]

所述CIOU Loss的公式具体为：

该余弦距离关联度量：

综合马氏距离和余弦关联度量的损失函数如下：

c_i,j＝λd⁽¹⁾(i,j)+(1-λ)d⁽²⁾(i,j)

表示跟踪目标的特征向量，λ表示马氏距离度量的权重；

当损失c_i,j达到预设标准时，得到该教师网络。

所述的轻量级多任务视频流实时推理系统，其中该模块3中剪枝处理包括：

R(w)＝|α|

m_i＝α_i*E_i

θ＝sort_p(M)

本发明还提出了一种存储介质，用于存储执行所述任意一种轻量级多任务视频流实时推理方法的程序。

本发明还提出了一种客户端，用于所述的任意一种轻量级多任务视频流实时推理系统。

由以上方案可知，本发明的优点在于：

本发明提供的一种轻量级多任务视频流实时推理方法、一种基于YOLOv5的多感知任务共享的端到端神经网络设计方法，能够在边缘端芯片实现实时处理视频流数据并完成道路物体检测、可行驶区域分割和多物体跟踪三个感知任务，做到精度和时延的平衡。

附图说明

图1为本发明实施例提供的一种轻量级多任务视频流实时推理方法流程图；

图2为本发明实施例提供的一种基于YOLOv5的多感知任务共享的端到端神经网络模型结构示意图。

具体实施方式

本发明提供一种轻量级多任务视频流实时推理方法、基于YOLOv5的多感知任务共享的端到端神经网络设计方法，能够实现边缘芯片实时处理视频流数据并完成道路物体检测、可行驶区域分割和多物体跟踪三个感知任务。

本发明能提供一种轻量级多任务视频流实时推理方法，包括如下步骤：

1)获取公开边缘端场景数据集；

2)对数据集进行预处理；

3)基于YOLOv5的多感知任务共享的端到端神经网络模型设计方法；

4)基于级联知识蒸馏的端到端结构化迭代剪枝技术；

进一步的，所述步骤1)中搜集并下载公开边缘端场景数据集，以自动驾驶场景数据集为例，将多个数据集集成为一个数据集。数据集标签包括：目标检测任务的锚框类别标签、可行驶区域分割任务的标签以及多物体跟踪任务的物体重识别ReID标签，且在本发明中“物体”也包括行人，即包括对人进行跟踪。

进一步的，所述步骤2)中对数据集进行预处理,将不同数据集的不同格式的标签文件转换为标准格式的txt文件，转换后的txt文件包括：

目标检测任务标签：类别、锚框中心点坐标x、锚框中心点坐标y、锚框宽度w以及锚框高度h；可行驶区域分割标签：可直接行驶区域、可替换区域、背景(不可行驶区域)；多物体跟踪任务标签：图片位于视频流的帧位frame、锚框分配的ID、锚框中心点坐标x、锚框中心点坐标y、锚框宽度w、锚框高度h、锚框包含物体的置信度conf。

进一步的，所述步骤3)中基于YOLOv5的多感知任务共享的端到端神经网络模型设计具体为：保留了YOLOv5原模型的主干网络和特征金字塔网络，在检测头网络处增加一个分支网络作为负责可行驶区域分割的头网络，以实现不同任务头网络结构共享主干网络和特征金字塔网络的参数权重；多物体跟踪任务的输入依赖于目标检测任务的输出，因此，在检测头网络后增加多物体跟踪的ReID头网络，以完成多物体跟踪任务。

训练阶段需要将同一张图片的目标检测标签、可行驶区域分割标签以及多物体跟踪标签进行拼接，一并作为输入，模型通过主干网络对原图片进行特征提取，通过特征金字塔网络对不同尺度的特征图进行融合，最后通过不同任务的头网络进行解码得到输出并与原图片标签计算损失函数。其中，损失函数包括binary-cross-entropy和CIOU Loss，所述binary-cross-entropy和CIOU Loss的公式具体为：

L_BCE(y′_i，y_i)＝-w_i[y_i*logy′_i+(1-y_i)*log(1-y′_i)]

当总损失值达到预设标准时，得到目标模型，所述目标模型用于获取待识别图像并输出所述目标模型识别出的检测目标标签和可行驶区域分割标签，其中，可行驶区域分割标签直接进行后处理与存储，检测目标标签作为多物体跟踪任务的输入。多物体跟踪分支采用马氏距离与余弦距离度量跟踪目标与检测目标之间的损失函数。其中，马氏距离关联度量计算公式和余弦距离关联度量公式具体如下：

综合马氏距离和余弦关联度量的损失函数如下：

c_i,j＝λd⁽¹⁾(i,j)+(1-λ)d⁽²⁾(i,j)

当损失值达到预设标准时，得到多物体跟踪分支模型，所述分支模型用于将检测目标与跟踪目标进行匹配，完成多物体跟踪任务，输出多物体跟踪标签并存储。

进一步的，所述步骤4)中基于级联知识蒸馏的端到端结构化迭代剪枝，具体过程为：对于步骤3)中所述的端到端神经网络模型训练过程，在损失函数中添加惩罚因子，对卷积层的权重和BN层的缩放系数进行约束，约束项λR(w)采用L1范数，对于卷积核和BN层缩放系数的约束公式如下：

R(w)＝|α|

训练上述端到端神经网络模型至收敛后，对滤波器的绝对值进行求和，然后结合缩放系数和滤波器的绝对值之和做计算重要性函数，再根据预设剪枝率对重要性进行升序排序，通过预设剪枝率计算剪枝阈值，将低于阈值的滤波器剪枝。其中，滤波器绝对值求和公式、重要性判断函数和剪枝阈值计算公式如下：

m_i＝α_i*E_i

θ＝sort_p(M)

将剪枝前的网络作为教师网络，将剪枝后的网络作为学生网络进行重训练微调，分别从中间层Feature maps、RPN/RCN中分类层的暗知识和RPN/RCN中回归层的暗知识三个维度提取蒸馏网络信息，提升学生网络精度。迭代执行上述步骤，减少最终端到端神经网络模型的计算量约40％，模型表现浮动1％以内。

为让本发明的上述特征和效果能阐述的更明确易懂，下文特举实施例，并配合说明书附图作详细说明如下。

请结合参看图1，其为本发明实施例提供的一种轻量级多任务视频流实时推理方法流程图。其中，本发明实施例提供的一种轻量级多任务视频流实时推理方法具体包括下面步骤。

步骤S101，搜集并下载公开边缘端场景数据集，此实施例以自动驾驶场景为例，将多个数据集集成为一个数据集。数据集标签包括：目标检测任务的锚框类别标签、可行驶区域分割任务的标签以及多物体跟踪任务的ReID标签。

步骤S102，对数据集进行预处理,将不同数据集的不同格式的标签文件转换为标准格式的txt文件，转换后的txt文件包括：

多物体跟踪任务与目标检测任务的不同之处在于：多物体跟踪任务需要给每一个锚框赋予一个ID编号，如果在后面的视频画面中该锚框的内容ID相同，那么判定是同一个物体。即目标检测只需要输出该锚框中是“一个人”，但跟踪任务需要输出当前画面帧中的该锚框是“某一个人”，并且与前面帧的同一个人有所关联。

步骤S103，基于YOLOv5的多感知任务共享的端到端神经网络模型设计具体为：保留了YOLOv5原模型的主干网络和特征金字塔网络，在检测头网络处增加一个分支网络作为负责可行驶区域分割的头网络，以实现不同任务头网络结构共享主干网络和特征金字塔网络的参数权重；多物体跟踪任务的输入依赖于目标检测任务的输出，因此，在检测头网络后增加多物体跟踪的ReID头网络，以完成多物体跟踪任务。其中，上述基于YOLOv5的多感知任务共享的端到端神经网络模型结构示意图请结合参看图2。检测头网络是YOLOv5原模型自带的。YOLOv5原模型依次由主干网络、特征金字塔网络和检测头网络组成。三者的关系是：一张预处理后的图片输入到主干网络，主干网络提取图像的多尺度特征信息；将多尺度特征信息输入特征金字塔网络，特征金字塔网络对多尺度特征进行融合；将融合结果输入检测头网络，检测头网络再进行锚框的预测和匹配，输出结果。图2中neck网络代表特征金字塔网络，模型的主干网络称作backbone，特征金字塔网络即为neck，检测头网络就是head。重ID网络即ReID头网络，实现的功能是：对检测头网络的输出结果进行物体重识别，完成多物体跟踪任务。主干网络和neck网络提供视频图像提取后的特征信息，可行驶区域分割头网络输出可行驶区域分割的结果，检测头网络输出道路物体检测任务的结果，并将该结果输入到重ID网络完成多物体跟踪任务。

训练阶段需要将同一张图片的目标检测标签、可行驶区域分割标签以及多物体跟踪标签进行拼接，一并作为输入，模型通过主干网络对原图片进行特征提取，通过特征金字塔网络对不同尺度的特征图进行融合，最后通过不同任务的头网络进行解码得到输出并与原图片标签计算损失函数。其中，损失函数包括binary-cross-entropy和CIOU Loss，所述binary-cross-entropy的公式具体为：

L_BCE(y′_i,y_i)＝-w_i[y_i*logy′_i+(1-y_i)*log(1-y′_i)]

所述CIOU Loss的公式具体为：

α的定义如下：

IoU的定义如下：

v的定义如下：

其中L_BCE为binary-cross-entropy公式计算出的损失值，n为样本总数，a为预测输出，y为真实输出；L_CIoU为CIOU Loss公式计算出的损失值，IoU为预测锚框A和标签框B的交并集，b^gt为标签框中心点位置，b为预测锚框中心点位置，ρ²(b,b^gt)为预测锚框A和标注框B中心点之间的欧几里得距离，c为预测框A和标注框B之间最小外接矩形测对角线的长度，α为权重，v为预测框A和标注框B之间长宽比的距离；A为预测框，B为标注框；w^gt为标注框的宽，h^gt为标注框的长，w为预测框的宽，h为预测框的长；

当binary-cross-entropy和CIOU Loss达到预设标准时，得到目标模型，所述目标模型用于获取待识别视频帧并输出所述目标模型识别出的检测目标标签和行驶区域分割标签，可行驶区域分割标签直接进行后处理与存储，检测目标标签作为多物体跟踪任务的输入。多物体跟踪分支采用马氏距离与余弦距离度量跟踪目标与检测目标之间的损失函数。其中，马氏距离关联度量计算公式具体为：

余弦距离关联度量公式的定义如下：

综合马氏距离和余弦关联度量的损失函数如下：

c_i,j＝λd⁽¹⁾(i,j)+(1-λ)d⁽²⁾(i,j)

表示跟踪目标的特征向量，λ表示马氏距离度量的权重；

步骤S104，基于级联知识蒸馏的端到端结构化迭代剪枝，具体过程为：对于步骤S103中所述的端到端神经网络模型训练过程，在binary-cross-entropy损失函数后乘以惩罚因子R(w)，对卷积层的权重和批归一化BN层的缩放系数进行约束，约束项λR(w)采用L1范数，对于卷积核和BN层缩放系数的约束公式如下：

R(w)＝|α|

式中，α为批归一化层中参数，表示批归一化层的缩放系数。训练上述端到端神经网络模型至收敛后，对滤波器(指每一个channel的卷积核。数值其实就是每一个channel的卷积核的权重)的绝对值进行求和，然后结合缩放系数和滤波器的绝对值之和做计算重要性函数，再根据预设剪枝率对重要性进行升序排序，通过预设剪枝率计算剪枝阈值，将低于阈值的滤波器剪枝。其中，滤波器绝对值求和公式、重要性判断函数和剪枝阈值计算公式如下：

m_i＝α_i*E_i

θ＝sort_p(M)

式中W是滤波器的权重，E是滤波器权重的和，α是缩放系数，m是通过缩放系数和权重计算所得到的重要性，p是剪枝率，θ就是在p剪枝率下对重要性进行排序保留前p％的阈值。

以下为与上述方法实施例对应的系统实施例，本实施方式可与上述实施方式互相配合实施。上述实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在上述实施方式中。

L_BCE(y′_i,y_i)＝-w_i[y_i*logy′_i+(1-y_i)*log(1-y′_i)]

所述CIOU Loss的公式具体为：

该余弦距离关联度量：

综合马氏距离和余弦关联度量的损失函数如下：

c_i,j＝λd⁽¹⁾(i,j)+(1-λ)d⁽²⁾(i,j)

表示跟踪目标的特征向量，λ表示马氏距离度量的权重；

当损失c_i,j达到预设标准时，得到该教师网络。

R(w)＝|α|

m_i＝α_i*E_i

θ＝sort_p(M)