CN117854028A

CN117854028A - 一种自动驾驶多任务场景分析方法及系统

Info

Publication number: CN117854028A
Application number: CN202410260801.5A
Authority: CN
Inventors: 叶续缘; 杜川; 刘阳; 张俊逸
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2024-03-07
Filing date: 2024-03-07
Publication date: 2024-04-09
Anticipated expiration: 2044-03-07
Also published as: CN117854028B

Abstract

本发明公开了一种自动驾驶多任务场景分析方法及系统，方法包括：获取自动驾驶系统拍摄到的实时道路场景图像；将实时道路场景图像输入改进后的CenterNet模型中，输出多任务合并后的分析检测结果图像；该方法使得自动驾驶系统具备同时进行目标检测，人体姿态估计，语义分割三个视觉任务的能力，改进的CenterNet模型的主干网络输出的同一特征图同时被三个用于进行不同视觉任务的head拷贝使用。原CenterNet模型得到简化，并可以同时处理三个视觉任务，加快了推理时间，节省了自动驾驶系统的计算资源，使得自动驾驶系统对复杂道路场景的分析能力提高。

Description

一种自动驾驶多任务场景分析方法及系统

技术领域

本发明涉及一种自动驾驶多任务场景分析方法及系统，属于人工智能和自动驾驶技术领域。

背景技术

如今交通越来越发达，自动驾驶的场景也变得复杂。自动驾驶系统主要包括感知系统和决策系统，在面对如此复杂的交通环境，要保证决策系统能做出精准的判断，构造一个灵敏的感知系统是重要的前提条件。视觉感知在自动驾驶领域中被广泛利用。

随着深度学习的快速发展，基于深度学习的视觉感知成为可能，使自动驾驶系统分析道路场景的能力大大提升。虽然深度学习在自动驾驶的视觉感知中已经表现出显著的进步，但是这些进步仅仅表现在进行单个任务时。当道路目标类别与目标数量增多时，基于深度学习的目标检测模型需要极大的计算资源，且计算时间随着路况复杂度增大而增大。

实时性是自动驾驶系统的关键特性，这需要车辆能够较快的分析道路场景做出决策和操作。为了保障系统的实时性，可以采取多任务处理技术。在复杂的交通环境中，可以将道路场景分为多个视觉任务进行分析，不仅要对道路场景的各类目标进行检测识别以及语义分割，还要进行对行人的人体姿态估计。由于自动驾驶的实时性要求高，要同时进行这些任务需要极大的计算资源，还需要较快的计算速度。因此，仅仅使用进行单任务的深度神经网络难以达到要求，如何在自动驾驶的视觉感知中利用深度学习进行多任务的复杂场景分析是一项有挑战性的问题。

发明内容

本发明的目的在于提供一种自动驾驶多任务场景分析方法及系统，解决了自动驾驶在复杂场景下视觉感知任务中计算资源浪费，速度慢的问题。

第一方面：

一种自动驾驶多任务场景分析方法，所述方法包括：

获取自动驾驶系统拍摄到的实时道路场景图像；

将实时道路场景图像输入改进后的CenterNet模型中，输出多任务合并后的分析检测结果图像；

其中，改进后的所述CenterNet模型包括检测头，所述检测头包括并行处理任务的目标检测头、语义分割头和姿态估计头，所述目标检测头用于预测每个目标的中心点，进一步回归得到目标对应的矩形检测框；所述语义分割头使用softmax 层对特征图的每个像素点进行所有类别对应概率预测，从而进行语义分割；所述姿态估计头用于提取特征图中人体关节点进行估计人类姿态。

进一步地，改进后的所述CenterNet模型还包括编码器和主干网络，所述编码器用于将图像缩小到能够直接输入主干网络，所述编码器包括两个下采样层，下采样使用步长为2的最大池化层实现；所述主干网络用于为检测头输出特征图。

进一步地，所述目标检测头的训练方法包括：

根据道路场景数据集中的标注信息得到基于真实中心点的热力图Y，将热力图Y经过下采样后，得到基于中心点的真实热力图；

使用高斯核对真实热力图Y进行处理，将高斯核映射到热力图的每个目标中心点上，得到处理过的真实热力图Y，其中为目标尺寸自适应标准差，x，y为高斯核函数中的坐标，c为目标类别，为真实中心点坐标的x轴坐标值，为真实中心点坐标的y轴坐标值；

根据处理过的真实热力图Y与预先检测到的热力图训练目标检测头；

所述根据处理过的真实热力图Y与目标检测头预测的热力图训练目标检测头，包括：

目标检测头预测的中心点热力图的损失函数采用Focal loss，记为，公式如下：

；

其中，α和β是Focal loss的超参数，Ncenter是图像I中的中心点数量，是预测到的中心点热力图上坐标(x,y)关于类别c中心点的预测值，Yxyc是真实热力图上坐标(x,y)关于类别c中心点的值；

采用L1 loss作为中心点偏移量的损失函数预测下采样导致的中心点偏移量，记为，公式如下：

；

其中，为预测的目标中心点偏移量；

在下采样后的数据集图片中，设是类别c的第k个目标的检测框，计算得到目标k的尺寸为,尺寸的损失函数采用L1 loss，记为，公式如下：

；

其中，是预测的目标尺寸大小，所有类别目标共享。

进一步地，所述姿态估计头的训练方法包括：

根据道路场景数据集中的标注信息得到真实人体关节点的热力图；

将得到的真实人体关节点的热力图经过下采样后，得到处理后的真实人体关节点的热力图，根据处理后的真实人体关节点的热力图，得到原始图像中关节点坐标为，图像经过下采样后关节点坐标转换为；

根据得到处理过的真实人体关节点的热力图与预先检测到的人体关节点热力图，对姿态估计头进行训练；

所述根据得到处理过的真实人体关节点的热力图与预先检测到的人体关节点热力图，对姿态估计头进行训练包括：

使用Focal loss作为人体关节点热力图损失函数，公式为：

；

其中，α为超参数，表示下采样后的原始图像上坐标为(x,y)的点是否存在关节点，存在则为，反之不为1；Nkeypoint为图像I中的关节点数量；

用于训练关节点偏移量的损失函数为L1 loss，公式为：

；

其中，为预测的目标中心点偏移量；

若预测的关节点在人类目标检测框内，则保留该关节点，否则省略；同时省略置信度小于0.1的关键点，将在同一个人类目标检测框内的关节点合为一组，将关节点相连，则得到人体姿态的预测结果，完成姿态估计头训练。

进一步地，所述语义分割头使用softmax loss作为损失函数，用表示，公式如下：

；

其中，为点(x,y)真实的概率分布，Npixel为图像I的像素点总数。

进一步地，所述CenterNet模型的函数公式为：

；

其中，为目标检测头中的中心点热力图损失函数，为目标检测头中的目标检测框大小损失函数，为目标检测头中的中心点偏移量损失函数；为姿态估计头中的人体关节点热力图损失函数，为姿态估计头中的人体关节点偏移量损失函数；为语义分割头中的像素点类别概率分布训练函数；为目标检测框大小损失函数的权重，为像素点类别概率分布训练函数的权重。

进一步地，所述CenterNet模型训练方法包括：

构建初始CenterNet模型；

采集道路场景图像，创建道路场景数据集；

对道路图像中的每一个目标进行标注，获得其位置、类别信息，对行人目标进行关键点标注，关键点位置为行人的关节处，对图像进行预处理，并将数据集分为训练集和验证集；

将训练集和验证集输入改进后的CenterNet模型进行训练，等待训练完成，得到改进后的CenterNet模型。

进一步地，所述主干网络为DLA-34网络。

进一步地，所述编码器用于将512*512像素大小的数据集图像缩小到128*128的像素大小的图像。

第二方面：

一种自动驾驶多任务场景分析系统，所述系统包括：

获取模块，获取自动驾驶系统拍摄到的实时道路场景图像；

检测模块，将实时道路场景图像输入改进后的CenterNet模型中，输出多任务合并后的分析检测结果图像；

与现有技术相比，本发明所达到的有益效果：本发明的提出一种改进的CenterNet模型，与以往的只能进行单任务的网络模型不同，改进的CenterNet模型具备同时进行多视觉感知任务的能力，在面对复杂道路场景时，可以提高系统对路况的分析能力，加快了推理时间，有利于自动驾驶系统更快的决策与控制车辆，同时简化了网络结构，节省了计算资源；

本发明改进的CenterNet模型可以同时进行三个不同的视觉分析任务，并且简化了模型结构，解决了自动驾驶在复杂场景下视觉感知任务中计算资源浪费，速度慢的问题。本发明提出的方法，基于改进的CenterNet网络结构同时进行道路目标检测、道路目标语义分割、行人姿势估计三个视觉任务，减小了网络大小，加快了推理速度，节省了计算资源，大大提高了自动驾驶系统的实时性。

附图说明

图1为本发明方法流程图；

图2是本发明CenterNet模型训练流程图；

图3为本发明改进的CenterNet模型的结构示意图。

具体实施方式

为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，下面结合具体实施方式，进一步阐述本发明。

本发明旨在一种基于改进CenterNet的自动驾驶多任务场景分析方法，将自动驾驶系统的视觉感知任务分为多任务同时进行，满足了自动驾驶的实时性要求。相较于只能用于单任务的神经网络模型，改进的CenterNet模型可以同时进行三个不同的视觉分析任务，并且简化了模型结构，解决了自动驾驶在复杂场景下视觉感知任务中计算资源浪费，速度慢的问题。本发明提出的方法，基于改进的CenterNet网络结构同时进行道路目标检测、道路目标语义分割、行人姿势估计三个视觉任务，减小了网络大小，加快了推理速度，节省了计算资源，大大提高了自动驾驶系统的实时性。

实施例1

如图1所示，本发明公开了一种自动驾驶多任务场景分析方法，所述方法包括：

步骤1、获取自动驾驶系统拍摄到的实时道路场景图像；

步骤2、将实时道路场景图像输入改进后的CenterNet模型中，输出多任务合并后的分析检测结果图像；

其中，本发明改进后的CenterNet模型包括检测头，所述检测头并行处理任务的包括目标检测头、语义分割头和姿态估计头，所述目标检测头用于预测每个目标的中心点，进一步回归得到目标对应的矩形检测框；所述语义分割头使用softmax 层对特征图的每个像素点进行所有类别对应概率预测，从而进行语义分割；所述姿态估计头用于提取特征图中人体关节点进行估计人类姿态。

改进后的CenterNet模型还包括编码器和主干网络，所述编码器用于将图像缩小到能够直接输入主干网络，所述编码器包括两个下采样层，下采样使用步长为2的最大池化层实现；所述主干网络用于为检测头输出特征图；所述检测头用于同时对特征图进行不同视觉任务。

在本实施例中，所述目标检测头的训练方法包括：

根据道路场景数据集中的标注信息得到基于真实中心点的热力图Y，将热力图Y经过下采样后，得到基于中心点的真实热力图，真实热力图中目标中心点坐标为，图像经过下采样后中心点坐标转换为；

使用高斯核对真实热力图Y进行处理，将高斯核映射到热力图的每个目标中心点上，得到处理过的真实热力图Y，其中为目标尺寸自适应标准差，x，y为高斯核函数中的坐标，c为目标类别；为真实中心点坐标的x轴坐标值，为真实中心点坐标的y轴坐标值；

将得到处理过的真实热力图Y与目标检测头预测的热力图后，采用如下训练方法对目标检测头进行训练：

；

其中，为预测的目标中心点偏移量；

；

其中，是预测的目标尺寸大小，所有类别目标共享；

在上述实施例中，需要说明的是，目标检测头预测的热力图是通过将主干网络输出的特征图转化为热力图，其中C是目标的类别数量，热力图的最大值作为中心点回归；

当预测结果时，表示在热力图中坐标为(,)的点被检测为目标c，而当时，代表该点不存在目标c，被检测为背景。

在本发明中的实施例中，所述姿态估计头的训练方法包括：

根据道路场景数据集中的标注信息得到基于真实人体关节点的热力图，将得到的基于真实人体关节点的热力图经过下采样后，得到基于中心点的热力图，根据基于中心点的热力图，得到原始图像中关节点坐标为，图像经过下采样后关节点坐标转换为；

得到处理过的真实热力图与目标检测头预测的人体关节点热力图，采用如下训练方法对姿态估计头进行训练：

使用Focal loss作为关键点热力图损失函数，公式为：

；

其中，α为超参数，表示真实关节点热力图上坐标为(x,y)的点是否存在类别k关节点，存在则为，反之不为1；表示预测的关节点热力图上坐标为(x,y)的点关于类别k关节点的预测值；Nkeypoint为图像I中的关节点数量；

用于训练关节点偏移量的损失函数为L1 loss，公式为：

；

其中，为预测的目标中心点偏移量；

若预测的关节点在人类目标检测框内，则保留该关节点，否则省略；同时省略置信度小于0.1的关键点，将在同一个人类目标检测框内的关键点合为一组，将关节点相连则得到人体姿态的预测结果；

在上述一个实施例中，目标检测头预测的人体关节点热力图通过将主干网络输出的特征图转化为人体关节点热力图，其中K为人体关节点类别数，取热力图上的峰值为人体关节点，当预测结果时，表示在热力图中坐标为(,)的点被检测为人体关节点k，而当时，代表该点不存在人体关节点k。

在本发明的一个实施例中，所述语义分割头使用softmax loss作为损失函数，用表示，公式如下：

；

本发明中所述CenterNet模型的函数公式为：

；

其中，为目标检测头中的中心点热力图损失函数，为目标检测头中的目标检测框大小损失函数，为目标检测头中的中心点偏移量损失函数；为姿态估计头中的人体关节点热力图损失函数，为姿态估计头中的人体关节点偏移量损失函数；为语义分割头中的像素点类别概率分布训练函数。为目标检测框大小损失函数的权重，为像素点类别概率分布训练函数的权重。

本实施例中，所述CenterNet模型训练方法包括：

构建初始CenterNet模型；

采集道路场景图像，创建道路场景数据集；

如图2所示，针对模型具体训练方法包括如下：

步骤一：采集道路场景图像，建立道路场景数据集，对图像中的道路目标数据进行标注。

标注细节如下：

1）标注目标的矩形检测框位置和类别，用于目标检测任务；

2）标注目标的Polygons框与类别，用于目标的语义分割任务；

3）标注行人目标的关节处作为关键点，用作行人目标的人体姿态估计；

4）将图像缩放为尺寸512*512像素大小的图像，并且分为训练集和验证集。

步骤二：创建改进的CenterNet模型，使目标检测，目标语义分割与人体姿态估计三个视觉任务可以同时进行。

新的CenterNet模型按顺序依次包括encoder编码器，backbone主干网络和三个并行的head检测头。如图3所示，具体结构如下：

(1)编码器（encoder）:

encoder编码器的作用是将512*512像素大小的数据集图像缩小到128*128的像素大小，使图像能够直接输入backbone主干网络，同时减少图像大小能更快的提取特征。encoder编码器包括两个下采样层，下采样使用stride为2的Max-pooling层实现。因为Max-pooling计算简单，并且能够较好的保留图像的纹理特征。

(2)主干网络（backbone）:

在网络结构中，一个backbone主干网络一般只能同时供一个head检测头进行单视觉任务。然而，在改进的CenterNet模型中，多head检测头共享backbone主干网络,backbone主干网络输出的特征图可以供三个head检测头使用，同时进行三个不同视觉任务。

backbone为DLA-34。

(3)检测头（head）:

head检测头分为目标检测头（Object Detection Head），语义分割头（SemanticSegmentation Head），姿态估计头（Pose Estimation Head）三个并行的模块，主干网络（backbone）输出的特征图同时拷贝到三个模块中。

Object Detection Head目标检测头用于进行目标检测任务。将backbone主干网络输出的特征图转化为热力图，其中C是目标的类别数量，热力图的最大值作为中心点回归。当预测结果时，表示在热力图中坐标为(,)的点被检测为目标c，而当时，代表该点不存在目标c，被检测为背景。

根据道路场景数据集中的标注信息，得到原始图像中目标中心点坐标为，图像经过encoder编码器下采样后中心点坐标转换为。然后，使用高斯核将下采样后的图像映射为基于中心点的热力图，其中，为目标尺寸自适应标准差，x，y为高斯核函数中的坐标，c为目标类别，为真实中心点坐标的x轴坐标值，为真实中心点坐标的y轴坐标值；

中心点的损失函数采用Focal loss，记为，公式如下：

；

其中，α和β是Focal loss的超参数，实验中设置α=2，β=4，N是图像I中的中心点数量。

为了预测下采样导致的中心点偏移量，采用L1 loss作为中心点偏移量的损失函数，记为。公式如下：

；

其中，为预测的目标中心点偏移量，所有类别目标共享一个偏移量。

；

其中，是预测的目标尺寸大小，所有类别目标共享。

通过Object Detection Head目标检测头可以预测出中心点热力图，偏移量和目标尺寸。

Pose Estimation Head姿态估计头用于进行人体姿态估计任务。

人体姿态估计本质上是把人体的关节处作为目标，进行关键点检测。此处的姿态估计使用bottom-up方法，bottom-up方法的思路是先将图像中所有的关键点检测出来，再对关键点进行分组，使属于同一个人的多个关键点为一组，进而组装为多个人。bottom-up方法的好处是受人数影响小，且速度快，可以提高自动驾驶系统的实时性。关键点检测推理过程类似于Object Detection Head目标检测头中的中心点检测。将backbone主干网络输出的特征图转化为关键点热力图，其中K为关键点类别数，取热力图上的峰值为关键点。当预测结果时，表示在热力图中坐标为(,)的点被检测为关键点k，而当时，代表该点不存在关键点k。在使用Focal loss作为关键点热力图损失函数，公式为：

；

其中α为超参数，表示真实关节点热力图上坐标为(x,y)的点是否存在类别k关节点，存在则为，反之不为1；表示预测的关节点热力图上坐标为(x,y)的点关于类别k关节点的预测值；Nkeypoint为图像I中的关节点数量；

根据道路场景数据集中的标注信息，得到原始图像中关键点坐标为，图像经过encoder编码器下采样后关键点坐标转换为。预测得到的关键点偏移量为，用于训练关键点偏移量的损失函数为L1 loss，公式为：

；

最后，若关键点在人类目标检测框内，则保留该关键点，否则省略。同时省略置信度小于0.1的关键点。将在同一个人类目标检测框内的关键点合为一组，即该组关键点为对应人类的所有关节点，将关节点相连则得到人体姿态的预测结果。

Semantic Segmentation Head用于进行语义分割任务，在语义分割架构中，来自backbone的特征图被上采样为各类别的分割图，尺寸为512*512像素大小。然后使用softmax 层对每个像素点进行所有类别对应概率预测，预测点(x,y)的概率分布为，其中C为目标类别数量，从而进行图像的语义分割。使用softmax loss作为损失函数，用表示。公式如下：

；

并行训练的三个视觉任务（目标检测，语义分割，人体姿态估计），目标检测通过、、训练，人体姿态估计通过、训练，语义分割通过训练。改进的CenterNet模型总的loss可以描述为：

；

本发明选择和以保证每个head对总loss的均匀影响。

步骤三：将数据集的训练集和验证集输入创建好的CenterNet模型，进行训练，等待训练完成。

步骤四：对训练好的CenterNet模型进行结果验证，将未检测的道路场景数据集输入改进的CenterNet模型，得到预测结果，并评估模型性能。

评估模型的指标使用F1-Score和mAP。首先需要引入精度(Precision)和召回率(Recall)的概念，精度(Precision)是被正确识别的正样本数与识别到的正样本总数的比例，召回率(Recall)是被正确识别的正样本数与真实正样本总数的比例。计算公式为：

；

其中，TP表示被分为正样本且正确分配的样本数量，FP表示被分为正样本且错误分配的样本数量，FN表示被分为负样本且错误分配的样本数量。

F1-Score作为分类任务的一个评价指标，是Precision和Recall的调和平均数。计算公式如下：

；

AP(Average Precision)值是综合考虑Precision和Recall的评价指标，假设验证集的图像数量为N，第n张图像的Precision值为Precision(n)，第n-1到第n张图像的Recall值的变化量为,则AP的计算公式如下:

。

实施例2：

本实施例公开了一种自动驾驶多任务场景分析系统，所述系统包括：

获取模块，获取自动驾驶系统拍摄到的实时道路场景图像；

检测模块，将实时道路场景图像输入预先训练的CenterNet模型中，输出多任务合并后的分析检测结果图像；

其中，所述检测模块包括检测头，所述检测头包括并行处理任务的目标检测头、语义分割头和姿态估计头，所述目标检测头用于预测每个目标的中心点，进一步回归得到目标对应的矩形检测框；所述语义分割头使用softmax 层对特征图的每个像素点进行所有类别对应概率预测，从而进行语义分割；所述姿态估计头用于提取特征图中人体关节点进行估计人类姿态。

车辆行驶速度较快，因此为了保证安全性，自动驾驶系统需要具备良好的实行性。本系统的提出一种改进的CenterNet模型，与以往的只能进行单任务的网络模型不同，改进的CenterNet模型具备同时进行多视觉感知任务的能力，在面对复杂道路场景时，可以提高系统对路况的分析能力，加快了推理时间，有利于自动驾驶系统更快的决策与控制车辆，同时简化了网络结构，节省了计算资源。

本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种自动驾驶多任务场景分析方法，其特征在于，所述方法包括：

获取自动驾驶系统拍摄到的实时道路场景图像；

2.根据权利要求1所述的自动驾驶多任务场景分析方法，其特征在于，改进后的所述CenterNet模型还包括编码器和主干网络，所述编码器用于将图像缩小到能够直接输入主干网络，所述编码器包括两个下采样层，下采样使用步长为2的最大池化层实现；所述主干网络用于为检测头输出特征图。

3.根据权利要求1所述的自动驾驶多任务场景分析方法，其特征在于，所述目标检测头的训练方法包括：

使用高斯核对真实热力图Y进行处理，将高斯核映射到热力图Y的每个目标中心点上，得到处理过的真实热力图Y，其中为目标尺寸自适应标准差，x、y为高斯核函数中的坐标，c为目标类别，为真实中心点坐标的x轴坐标值，为真实中心点坐标的y轴坐标值；

根据处理过的真实热力图Y与预先检测到的热力图训练目标检测头，包括：

预先检测到的热力图的损失函数采用Focal loss，记为，公式如下：

；

其中，α和β是Focal loss的超参数， Ncenter是图像I中的中心点数量，是预测到的中心点热力图上坐标(x,y)关于类别c中心点的预测值，Yxyc是真实热力图上坐标(x,y)关于类别c中心点的值；

；

其中，为预测的目标中心点偏移量；

；

其中，是预测的目标尺寸大小，所有类别目标共享。

4.根据权利要求1所述的自动驾驶多任务场景分析方法，其特征在于，所述姿态估计头的训练方法包括：

根据得到处理过的真实人体关节点的热力图与预先检测到的人体关节点热力图，对姿态估计头进行训练,包括：

使用Focal loss作为人体关节点热力图损失函数，公式为：

；

用于训练关节点偏移量的损失函数为L1 loss，公式为：

；

其中，为预测的目标中心点偏移量；

5.根据权利要求1所述的自动驾驶多任务场景分析方法，其特征在于，所述语义分割头使用softmax loss作为损失函数，用表示，公式如下：

；

6.根据权利要求1所述的自动驾驶多任务场景分析方法，其特征在于，所述CenterNet模型的函数公式为：

；

7.根据权利要求1所述的自动驾驶多任务场景分析方法，其特征在于，改进后的所述CenterNet模型的训练方法包括：

构建初始CenterNet模型；

采集道路场景图像，创建道路场景数据集；

8.根据权利要求2所述的自动驾驶多任务场景分析方法，其特征在于，所述主干网络为DLA-34网络。

9.根据权利要求2所述的自动驾驶多任务场景分析方法，其特征在于，所述编码器用于将512*512像素大小的数据集图像缩小到128*128的像素大小的图像。

10.一种自动驾驶多任务场景分析系统，其特征在于，所述系统包括：

获取模块，获取自动驾驶系统拍摄到的实时道路场景图像；