CN117786520A

CN117786520A - 目标感知模型的训练方法和应用、无人车和存储介质

Info

Publication number: CN117786520A
Application number: CN202410200788.4A
Authority: CN
Inventors: 高营; 李炜良
Original assignee: Neolix Technologies Co Ltd
Current assignee: Neolix Technologies Co Ltd
Priority date: 2024-02-23
Filing date: 2024-02-23
Publication date: 2024-03-29
Anticipated expiration: 2044-02-23
Also published as: CN117786520B

Abstract

本申请公开了一种目标感知模型的训练方法和应用、无人车和存储介质，目标感知模型包括前后连接的骨干网络、颈部网络以及头部网络，头部网络包括并联的检测头和分类头；该方法包括获取样本图像，并输入目标感知模型；基于联合损失函数对目标感知模型进行训练，确定目标感知模型的模型参数，其中，联合损失函数包括检测任务子损失函数和属性分类任务子损失函数，检测任务子损失函数基于检测头识别目标锚框的概率构建，属性分类任务子损失函数基于分类头对目标锚框的属性分类概率构建。这样，可以加速检测任务和属性分类任务的推理速度。

Description

目标感知模型的训练方法和应用、无人车和存储介质

技术领域

本申请属于自动驾驶技术领域，具体涉及一种目标感知模型的训练方法和应用、无人车和存储介质。

背景技术

在自动驾驶领域中，对环境中目标的感知是重要的基础功能，在此过程中，感知目标的速度、检测精度以及所需的计算资源，都是衡量目标感知功能的重要指标。

公开于该背景技术部分的信息仅仅旨在增加对本申请的总体背景的理解，而不应当被视为承认或以任何形式暗示该信息构成已为本领域一般技术人员所公知的现有技术。

发明内容

本申请的目的在于提供一种目标感知模型的训练方法，其用于解决现有的目标感知模型不能兼顾感知速度、检测精度以及计算资源需求的问题。

为实现上述目的，本申请提供了一种目标感知模型的训练方法，所述目标感知模型包括前后连接的骨干网络、颈部网络以及头部网络，所述头部网络包括并联的检测头和分类头；所述方法包括：

获取样本图像，并输入所述目标感知模型，其中，所述骨干网络用于对所述样本图像进行特征提取以获得多尺寸特征图，所述颈部网络用于融合所述多尺寸特征图的特征以获得多尺寸融合特征图，所述头部网络用于对所述多尺寸融合特征图生成锚框，所述锚框被分配为正样本和负样本；

基于联合损失函数对所述目标感知模型进行训练，确定所述目标感知模型的模型参数，其中，所述联合损失函数包括检测任务子损失函数和属性分类任务子损失函数，所述检测任务子损失函数基于所述检测头识别目标锚框的概率构建，所述属性分类任务子损失函数基于所述分类头对目标锚框的属性分类概率构建。

一实施例中，在基于联合损失函数对所述目标感知模型进行训练前，所述方法还包括：

基于所述检测任务子损失函数对所述目标感知模型进行训练，确定所述目标感知模型中检测头的模型参数。

一实施例中，所述方法具体包括：

在基于所述检测任务子损失函数对所述目标感知模型进行训练时，基于锚框与先验框的交并比，将所述锚框分配为正样本和负样本；

在基于所述联合损失函数对所述目标感知模型进行训练时，基于锚框与先验框的交并比、以及锚框的属性分类的误差，将所述锚框分配为正样本和负样本。

一实施例中，所述检测任务子损失函数包括物体识别损失子项、目标分类损失子项和回归损失子项，所述检测任务子损失函数被构造为使得所述物体识别损失子项基于所述正样本和负样本计算损失，所述目标分类损失子项和回归损失子项基于所述正样本计算损失；和/或，

所述属性分类任务子损失函数被构造为基于所述正样本计算损失。

一实施例中，基于联合损失函数对所述目标感知模型进行训练，确定所述目标感知模型的模型参数，具体包括：

为所述检测任务子损失函数和属性分类任务子损失函数分别配置训练权重；

基于检测任务和属性分类任务对应的任务准确率和/或损失值，以预设规则调整对应的所述训练权重，其中，所述预设规则包括所述训练权重与任务准确率负相关、与损失值正相关。

一实施例中，所述检测头用于识别图像中的交通信号灯；

所述属性分类任务子损失函数包括颜色预测任务损失子项、朝向预测任务损失子项、以及形状预测任务损失子项中的至少一个；

和/或，从至少两个所述多尺寸融合特征图中截取包含正样本的区域进行拼接，获得拼接样本图像；

对所述拼接样本图像分配锚框以获得新的正样本。

一实施例中，所述方法还包括：

选取目标样本图像进行左右镜像的翻转，其中，所述目标样本图像为样本图像中左转向的交通信号灯图像。

本申请还提供一种目标感知方法，所述方法包括：

获取待识别图像；

基于上述的方法训练获得的目标感知模型，从所述待识别图像中识别目标及其属性，其中所述识别的目标及其属性由所述目标感知模型的头部网络同时输出；

在所述识别的目标的置信度小于预设置信度阈值时，对所述待识别图像中包含识别的目标的区域进行切片，并再次基于所述目标感知模型识别目标及其属性。

本申请还提供一种目标感知模型的训练装置，所述目标感知模型包括前后连接的骨干网络、颈部网络以及头部网络，所述头部网络包括并联的检测头和分类头；所述训练装置包括：

第一获取模块，用于获取样本图像，并输入所述目标感知模型，其中，所述骨干网络用于对所述样本图像进行特征提取以获得多尺寸特征图，所述颈部网络用于融合所述多尺寸特征图的特征以获得多尺寸融合特征图，所述多尺寸融合特征图被锚框分割为正样本和负样本；

模型参数确定模块，用于基于联合损失函数对所述目标感知模型进行训练，确定所述目标感知模型的模型参数，其中，所述联合损失函数包括检测任务子损失函数和属性分类任务子损失函数，所述检测任务子损失函数基于所述检测头识别目标锚框的概率构建，所述属性分类任务子损失函数基于所述分类头对目标锚框的属性分类概率构建。

本申请还提供一种目标感知装置，包括：

第二获取模块，用于获取待识别图像；

识别模块，用于基于上述的方法训练获得的目标感知模型，从所述待识别图像中识别目标及其属性，其中所述识别的目标及其属性由所述目标感知模型的头部网络同时输出；

切片模块，用于在所述识别的目标的置信度小于预设置信度阈值时，对所述待识别图像中包含识别的目标的区域进行切片，并再次通过所述识别模块基于所述目标感知模型识别目标及其属性。

本申请还提供一种无人车，包括：

至少一个处理器；以及

存储器，所述存储器存储指令，当所述指令被所述至少一个处理器执行时，使得所述至少一个处理器执行如上所述的目标感知模型的训练方法、或目标感知方法。

本申请还提供一种机器可读存储介质，其存储有可执行指令，所述指令当被执行时使得所述机器执行如上所述的目标感知模型的训练方法、或目标感知方法。

与现有技术相比，根据本申请的目标感知模型的训练方法，通过设置前后连接的骨干网络、颈部网络以及头部网络，以及并联的检测头和分类头，训练过程中，利用样本图像进行多尺寸的特征提取和特征融合，并对获得的多尺寸融合特征图生成锚框以分配正负样本；同时，基于检测任务子损失函数和属性分类任务子损失函数构建的联合损失函数对目标感知模型进行训练，确定模型参数，这样，检测头和分类头的并联结构将检测任务和属性分类任务分离，检测任务可以视为单一回归问题，属性分类任务不再依赖于检测任务的结果，从而加速检测任务和属性分类任务的推理速度，且由于考虑了多尺寸的特征融合，模型可以利用上下文信息，从而更好地“理解”图像中目标的背景和语义信息，提高模型对不同尺寸目标的感知能力。

另一个方面，针对模型的结构调整进行了配套训练方法改进，针对性地构建联合损失函数，动态调整损失函数的训练权重，先后执行侧重检测头收敛和模型整体收敛的训练策略以及在这两个阶段对正负样本分配规则的调整等，提升了模型训练速度和模型的精度。

附图说明

图1是根据本申请一实施例目标感知模型的训练方法和目标感知方法的应用场景图；

图2是根据本申请一实施例目标感知模型的训练方法的流程图；

图3是根据本申请一实施例目标感知模型的架构图；

图4是根据本申请一实施例目标感知方法的流程图；

图5是根据本申请一实施例目标感知模型和非并联检测头的目标检测模型，对图像中目标检测的耗时对比图；

图6根据本申请一实施例目标感知模型的训练装置的模块图；

图7根据本申请一实施例目标感知装置的模块图；

图8是根据本申请一实施例无人车的硬件结构图。

具体实施方式

以下将结合附图所示的各实施方式对本申请进行详细描述。但该等实施方式并不限制本申请，本领域的普通技术人员根据该等实施方式所做出的结构、方法、或功能上的变换均包含在本申请的保护范围内。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等（如果存在）是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“对应于”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在介绍本申请实施例之前，对本申请实施例涉及的基础技术和一些技术术语进行示意性的解释：

自动驾驶：指不需要测试驾驶员执行物理性驾驶操作的情况下，能够对车辆行驶任务进行指导与决策，并代替测试驾驶员操控行为使车辆完成安全行驶的功能。自动驾驶技术通常包括高精地图、环境感知、行为决策、路径规划、运动控制等技术。

自动驾驶系统：实现车辆的不同级别的自动驾驶功能的系统，例如辅助驾驶系统(L2)、需要人监管的高速自动驾驶系统(L3)和高度/完全自动驾驶系统(L4/L5)。

人工智能(Artificial Intelligence, AI)：利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision, CV)：计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

人工标注：指训练神经网络模型前，通过人工对训练数据集中的训练样本进行真实值（ground-truth）标注的过程。人工标注得到的标注标签作为模型训练过程中对模型输出结果的监督，相应的，模型训练的过程即通过调整模型参数，使模型输出结果趋向于标注标签的过程。本申请实施例中涉及的人工标注过程包括对被锚框分割的多尺寸融合特征图进行正样本和负样本标注。

损失函数(loss function)：又被称为代价函数(cost function)，是一种用于评价神经网络模型的预测值与真实值之间差异程度的函数，损失函数越小，表明神经网络模型的性能越好，模型的训练过程即通过调整模型参数，最小化损失函数的过程。对于不同的神经网络模型，所采用的损失函数也不同，常见的损失函数包括0-1损失函数、绝对值损失函数、对数损失函数、指数损失函数、感知损失函数、交叉熵损失函数等等。

本申请各实施例提供的方案，涉及基于人工智能的图像处理、图像识别等技术。具体将通过以下一个示范的场景进行说明。

终端通过网络与服务器进行通信。数据存储系统可以存储服务器需要处理的数据，数据存储系统可以单独存在，也可以集成在服务器上。服务器获取终端上传的样本图像和对应的样本标签，输入到目标感知模型进行目标感知，并基于感知结果和样本标签进行损失计算；服务器基于计算得到的损失更新目标感知模型的模型参数，直至损失函数收敛或达到其它预设的训练完成条件。训练完成的目标感知模型可以部署于服务器上，在终端获取需要感知目标的图像时，将图像上传至服务器，调用服务器上的目标感知模型针对该图像进行目标感知，服务器并将感知结果回传至终端。

上述场景中，终端可以包括车载终端和用户终端。车载终端可以包括行车电脑或车载单元(On Board Unit，OBU)等。车载终端还可以是终端上的应用程序(application，APP)、智能后视镜上的APP、手机上的APP或小程序等，在此不作限定。用户终端(userequipment，UE)可以是无线终端设备也可以是有线终端设备，无线终端设备可以是指一种具有无线收发功能的设备，用户终端可以是手机(mobilephone)、平板电脑(Pad)、带无线收发功能的电脑、虚拟现实(Virtual Reality，VR)用户设备、增强现实(Augmented Reality，AR)用户设备、智能语音交互设备、智能家电、车载终端、飞行器等，在此不作限定。

可以理解，以上只是以服务器为例，示范性地解释本申请各实施例提供方法的一可能执行主体。换言之，在算力足够的情形下，目标感知模型的训练也可以是由终端直接执行，又或者，由服务器训练完成的目标感知模型可以部署于终端上，并由终端直接调用该目标感知模型对获取的图像进行目标感知，本申请对此不作限制。并且，无论是何种类型的服务器/终端，本申请实施例提供的目标感知模型的训练方法/目标感知方法都可以适配于无人车的自动驾驶系统，包括L2、L3、L4及以上级别的自动驾驶系统。

在自动驾驶应用目标感知的一个示范场景中，无人车可以通过车载摄像头或者其它传感器，获取当前行驶环境中的图像或视频流数据；接着，应用物体检测算法，如基于深度学习的目标检测器（YOLO、SSD等）对这些图像或视频流数据进行处理，以检测出其中可能是交通信号灯的物体，也即位置信息；最后，进行特征提取和分类，对检测到可能是交通信号灯的物体提取特征，如颜色、形状和纹理等，使用分类器获取高维的语义信息。可以看出，在此过程中对交通信号灯的感知分为串联的两个阶段，第一个阶段用检测模型获取交通信号灯的位置信息，第二个阶段将包含交通信号灯的区域裁剪后送入分类模型，获取具体的颜色、朝向和形状的信息。这样的处理方式一方面会导致感知速度较慢，另一方面分类模型的精度高度依赖于检测模型的检测精度，且分类模型缺少全局视野，只能感受到交通信号灯的局部信息。

为了应对以上挑战，本申请实施例提供的目标感知模型的训练方法中，首先对目标感知模型的模型架构进行改进，将前后串联的检测头和分类头设置为并联，在此基础上，针对性地构建损失函数，动态调整损失函数的训练权重，并先后执行侧重检测头收敛和模型整体收敛的训练策略。本申请实施例还提供基于以上训练方法训练获得的目标感知模型进行目标感知的方法，其中，针对模型识别的目标的置信度可能小于预设置信度阈值的情形，对图像中包含该目标的区域进行切片后再次识别，这将在本申请实施例的可应用场景中体现出独特的优势。以下，将通过本申请的具体实施例解释以上概述。

具体参图2，介绍本申请目标感知模型的训练方法的一实施例。在本实施例中，该方法包括：

S111、获取样本图像，并输入目标感知模型。

S112、基于联合损失函数对目标感知模型进行训练，确定目标感知模型的模型参数。

配合参图3，首先介绍本申请各实施例对于目标感知模型的改进。具体地，目标感知模型包括前后连接的骨干网络、颈部网络以及头部网络，其中，头部网络包括并联的检测头（一个或多个）和分类头（一个或多个）。

①骨干网络

骨干网络可以用于特征的提取，通常可以由一个或多个卷积层、归一化层、激活函数、池化层等网络层组成。本申请各实施例中，骨干网络可以是基于一种或几种神经网络构建，例如VGG卷积神经网络、ResNet残差网络、Swin-Transformer网络、DenseNet经典网络等。以下示范性地介绍这些神经网络的基本结构和特点，但本申请对具体采用的骨干网络并不作限制。

VGG网络是卷积神经网络CNN的一种，其采用的是一种预训练（Pre-training）的方式，即先训练浅层的简单网络VGG11，再复用VGG11 的权重来初始化VGG13，如此反复训练并初始化 VGG19，能够使训练时收敛的速度更快。整个网络都使用卷积核尺寸为 3×3 和最大池化尺寸 2×2。比较常用的VGG-16的16指的是卷积层加全连接层（conv+fc）的总层数是16，是不包括最大池化层（max pool）的层数。

ResNet网络的结构通常是进行一个大尺度的卷积，再接一个池化层；随后接上连续几个子模块(DenseBlock和TransitinLayer)；最后接上一个池化层和全连接层。以ResNet101为例，ResNet101的层数为3+4+23+3=33个buildingblock，每个block为3层，所以有33x3=99层，再加上第一层的卷积conv1，以及最后的全连接层（用于分类），一共是99+1+1=101层。

Swin-Transformer网络是基于Transformer（转换器架构）和Shifted Window（移动窗口）的视觉处理模型，Swin-Transformer网络模型引入了PatchPartition（分块处理）和Patch Merging（块合并）的机制。

DenseNet网络是在ResNet之后的一个分类网络。其网络结构一开始与ResNet类似，先进行一个大尺度的卷积，再接一个池化层；随后接上连续几个子模块(DenseBlock和TransitinLayer)；最后接上一个池化层和全连接层。以DenseNet-121为例，DenseNet-121由121层权重层组成，其中4个Denseblock，共计2×(6+12+24+16)＝116层权重，加上初始输入的1卷积层+3过渡层+最后输出的全连接层，共计121层；训练时采用了DenseNet-BC结构，压缩因子0.5，增长率k＝32；初始卷积层有2k个通道数，经过7×7卷积将224×224的输入图片缩减至112×112；Denseblock块由layer堆叠而成，layer的尺寸都相同：1×1+3×3的两层conv(每层conv＝BN+ReLU+Conv)；Denseblock间由过渡层构成，过渡层通过1×1卷积层来减小通道数，并使用步幅为2的平均池化层减半高和宽。最后经过全局平均池化+全连接层的1000路softmax得到输出。

本实施例中，骨干网络用于对样本图像进行特征提取以获得多尺寸特征图。示范性地，骨干网络可以包括三个连续的3×3卷积层(卷积层对应的卷积核尺寸为3×3)、一个归一化层、一个激活函数以及一个步长(stride)为2的池化层；其中，该激活函数可以为ReLU函数、Sigmoid函数、LeakyReLU函数、PReLU函数、ELU(Exponential Linear Unit)函数等；池化层可以为最大池化层，也可以为平均池化层。骨干网络的卷积层(具体可以为3个连续的3×3卷积层)对输入的样本图像进行卷积操作，得到该样本图像对应的图像卷积结果；进而可以利用归一化层对图像卷积结果进行归一化处理，得到图像归一化特征，利用激活函数对图像归一化特征进行激活处理，得到图像激活特征；利用池化层对图像激活特征进行池化操作，得到样本图像对应的初始图像特征。例如，原始的样本图像为A，经过骨干网络后得到为原样本图像{1/2³，1/2⁴，1/2⁵}的特征图{C3，C4，C5}。

需要说明的是，这样的特征提取过程可以降低输入数据的维度，过滤掉样本图像中的一些非关键信息，进而减小后续计算的复杂度。并且，在本实施例中，通过多尺寸特征图的提取，可以在后续感知时，对不同尺寸的检测目标都能有一个较好的检测精度。因此，在提取多尺寸特征图时，可以根据具体实施例中的检测目标确定具体的下采样比例。总体而言，如果检测目标为可能占图片比较大的物体，如交通汽车，则可能设置相对较小的下采样比例，反之，如果检测目标为可能占图片比较小的物体，如交通信号灯，则可能设置相对较大的下采样比例，本申请对下采样的具体比例不作限制。

并且，在一些实施例中，可以通过根据检测目标占样本图像的预期占比，自适应的调整下采样的比例，这样，可以使得目标感知模型中网络层数最优，避免模型的冗余。例如，原始的样本图像为A，如果模型任务是从图像中识别交通汽车，认为这类识别目标在样本图像中的占比范围通常在15%~40%，并自适应地调用3层卷积层对该样本图像进行特征提取，得到原样本图像A{1/2³，1/2⁴，1/2⁵}的特征图{C3，C4，C5}；而如果模型任务是从图像中识别交通信号灯，认为这类识别目标在样本图像中占比范围通常在5%~20%，并自适应地调用5层卷积层对该样本图像进行特征提取，得到原样本图像A{1/2³，1/2⁴，1/2⁵，1/2⁶，1/2⁷}的特征图{C3，C4，C5，C6，C7}。

②颈部网络

颈部网络用于融合多尺寸特征图的特征以获得多尺寸融合特征图，也即，颈部网络用于对骨干网络提取的初始图像特征进行处理。本申请各实施例中，骨干网络可以是基于一种或几种神经网络构建，例如FPN、PAFPN等。

FPN(Feature Pyramid Networks，特征图金字塔网络)主要解决的是物体检测中的多尺度问题，通过简单的网络连接改变，在基本不增加原有模型计算量的情况下，大幅度提升了小物体检测的性能。FPN是自上而下的一个特征金字塔网络，把高层的强语义特征传递下来，由高维度向低维度传递语义信息。

PAFPN(Path Aggregation FeaturePyramid Network，路径聚合特征金字塔网络)架构通过有效地聚合不同层次的特征图，提高了模型对于不同尺度目标的检测性能。PAFPN架构主要由两部分组成：自顶向下的路径和自底向上的路径。自顶向下的路径主要是通过高层特征图上采样的方式来生成更高分辨率的特征图，而自底向上的路径则是通过低层特征图的汇聚来生成更具语义信息的特征图。

本实施例中，颈部网络连接在骨干网络和头部网络之间，并将输出的多尺寸融合特征图作为头部网络的输入。

③头部网络

本申请各实施例中，头部网络按照功能可以分为检测头和分类头，其中检测头用于处理检测任务，分类头用于处理属性分类任务。具体地，检测头和分类头都可以包括一些卷积模块，检测头的卷积模块可以对输入的多尺寸融合特征图进行目标锚框的识别，而分类头的卷积模块可以对目标锚框进行属性分类。

检测头和分类头的并联结构将检测任务和属性分类任务分离，检测任务可以视为单一回归问题，属性分类任务不再依赖于检测任务的结果，从而加速检测任务和属性分类任务的推理速度。在利用模型进行目标感知时，可以通过在多尺寸融合特征图上划分网格，并在每个网格上同时预测一个或多个锚框及其相应的置信度和属性类别概率。

例如，对于融合特征图C3，可以将其划分为M×N个网格，每个网格单元可以视为一个特征区域，每个特征区域可以对应一个或多个锚框，即一个网格单元内可以预测一个或多个锚框。具体到每个特征区域，可以将锚框中置信度最高的一个作为最终的锚框。

在目标感知模型的训练过程中，样本图像输入后，骨干网络对样本图像进行特征提取以获得多尺寸特征图，颈部网络融合多尺寸特征图的特征以获得多尺寸融合特征图，头部网络对多尺寸融合特征图生成锚框，并且锚框被分配为正样本和负样本，以供目标感知模型训练。

一些实施例中，还可以从至少两个多尺寸融合特征图中截取包含正样本的区域进行拼接，获得拼接样本图像，并对拼接样本图像分配锚框以获得新的正样本。在较多的场景中，样本图像中期望检测目标的占比区域可能较小，对应到样本分配时，可能导致正样本的图像数据来源不足。本实施例中通过对包含正样本区域的拼接，获得原始样本图像不具备的数据分布，扩充了正样本的图像数据来源，且进一步提升模型的泛化能力。

例如，多尺寸融合特征图{C3，C4，C5，C6}中分别包括对应正样本的锚框A3、A4、A5、A6，可以基于这些锚框分别截取包含锚框A3的区域R3、包含锚框A4的区域R4、包含锚框A5的区域R5、包含锚框A6的区域R6，再将区域R3、R4、R5、R6进行拼接获得拼接样本图像C-new，进而再次对该拼接样本图像分配锚框，从而获得新的正样本。

本实施例中，联合损失函数包括检测任务子损失函数和属性分类任务子损失函数，检测任务子损失函数基于检测头识别目标锚框的概率构建，属性分类任务子损失函数基于分类头对目标锚框的属性分类概率构建。在训练过程中，可以以最小化联合损失函数值的方向训练目标感知模型，直至模型收敛或者达到设定的训练轮数，本申请对此不作限制。

本实施例提出，对图像中目标的检测任务分为三个步骤：第一个步骤从图像中检测是否存在物体，例如，融合特征图{P3，P4，P5}在第一个步骤的检测结果是P3中存在物体A（花坛）、P4中存在物体B（交通信号灯）、P5为背景；第二个步骤进一步判断检测出的物体A和B是目标的概率；第三个步骤判断检测出的目标的位置偏差。对应地，检测子损失函数包括物体识别损失子项、目标分类损失子项和回归损失子项。

在基于联合损失函数进行模型训练时，由于需要兼顾属性分类任务子损失函数，在属性分类子损失函数中包括的子项较多时，可能会导致联合损失函数收敛较慢。为此，本实施例在基于联合损失函数对目标感知模型进行训练前，可以先基于检测任务子损失函数对目标感知模型进行训练，确定目标感知模型中检测头的模型参数。这里，将基于检测任务子损失函数的训练称为第一个阶段的训练，将基于联合损失函数的训练称为第二个阶段的训练。在第一个阶段的训练中，模型可以专注于检测任务子损失函数的收敛，在第二个阶段的训练中，模型在检测任务子损失函数收敛状态良好的基础上，关注联合损失函数的收敛。需要说明的是，在第二个阶段的训练中，第一个阶段训练确定的检测头的模型参数可以是非冻结的状态。

在具体的损失函数构造中，检测任务子损失函数被构造为使得物体识别损失子项基于正样本和负样本计算损失，目标分类损失子项和回归损失子项基于正样本计算损失，属性分类任务子损失函数被构造为基于正样本计算损失。如此，检测任务对应正样本和负样本，可用于帮助模型区分包含物体和不包含物体（例如背景）的图像，其余任务则以确定包含物体的正样本进行训练，加速模型的训练过程。

对应于上述两个阶段的训练，本申请实施例还对正样本和负样本的分配策略进行改进。具体地，在基于检测任务子损失函数对目标感知模型进行训练时，基于锚框与先验框的交并比，将锚框分配为正样本和负样本；在基于联合损失函数对目标感知模型进行训练时，基于锚框与先验框的交并比、以及锚框的属性分类的误差，将锚框分配为正样本和负样本。

先验框为样本图像中预先标注真实检测目标的图形框。在第一个阶段训练时，由于关注的是检测任务子损失函数的收敛，锚框与先验框的交并比越高，说明锚框中包含真实检测目标的信息越多，可以直接以此为依据，进行正负样本的划分。当然，也可以根据锚框偏移先验框的情况进行正负样本的划分，例如锚框的中心点是否在先验框中、锚框的中心点是否在先验框中心点向周围扩充的一定像素范围内等，本申请对此不作限制。

在第二个阶段训练时，关注的是联合损失函数的收敛，除锚框与先验框的交并比外，锚框属性分类的误差也应当被视为判断是否为真实检测目标信息的因素，进而提升模型的最终检测精度。

例如，融合特征图P3中包括锚框O1、O2、O3和O4，其中，锚框O1至O4与先验框的交并比IOU分别为25%、32%、4%、48%。第一个阶段训练时，可以假定一个交并比阈值25%，大于等于该阈值的为正样本，反之则为负样本，因此，正样本包括O1、O2和O4，负样本包括O3。

第二个阶段训练时，锚框属性分类的误差可以体现为属性的真实标签和属性分类标签的误差，并可以表示为：

Loss2=-(ylogp(x)+(1-y)log(1-p(x))

其中，y是属性的真实标签，p(x)是属性的分类标签，当y=p(x)时误差loss2取到最小值0。

应当理解，可以根据检测目标具体的属性分类的不同，综合地考虑这些属性分类的误差。例如，检测目标的属性分类包括颜色、朝向和形状，则对应的锚框属性分类误差可以包括颜色分类误差、朝向分类误差和形状分类误差，各项分类误差还可以对应相同或不同的误差权重，从而综合计算获得锚框属性分类误差。类似地，在第二个阶段训练时，也可以将正负样本的划分依据整体确定为误差的形式：

Loss1=a(1-IOU)+bLoss2

其中，IOU为锚框与先验框的交并比，a、b为预设的权重，Loss2为锚框属性分类的误差。类似地，可以为Loss1确定一个参考阈值，小于该参考阈值时，将对应的锚框分配为正样本，反之将对应的锚框分配为负样本。

在模型的训练中，损失函数的值反应了模型在训练集上的表现，损失值越小表明对应的任务在训练集上表现越好。除此之外，模型在验证集上的表现同样可以体现模型的好坏，如泛化能力等。本实施例提出，在模型训练时，为检测任务子损失函数和属性分类任务子损失函数分别配置训练权重，并基于检测任务和属性分类任务对应的任务准确率和/或损失值，以预设规则调整对应的所述训练权重，预设规则包括训练权重与任务准确率负相关、与损失值正相关。

例如，联合损失函数可以表示为：

Loss=w1×Loss A+w2×Loss B

其中，LossA为检测任务子损失函数，LossB为属性分类任务子损失函数，w1和w2为对应的训练权重。

训练时，如果检测任务对应的损失过大，则表明检测任务在训练集上表现较差，可以对应增大w1的值，使得模型训练更专注于检测任务；类似地，如果属性分类任务对应的任务准确率过小，则表明属性分类任务在验证集上表现较差，可以对应增大w2的值，使得模型训练更专注于属性分类任务。可以理解，Loss A对应的检测任务可以包括多项子任务如物体识别、目标分类和回归，Loss B对应的属性分类任务也可以包括多项子任务如颜色预测、朝向预测和形状预测，在配置训练权重时，可以是分别为这些子任务分别配置对应的训练权重，并同样基于上述的预设规则在训练过程中进行自适应调整，在此不再赘述。

一实施例中，训练权重可以是在每批次(epoch)的训练后进行自适应调整，训练权重自适应调整的预设规则可以表示为：

wi=min(e^{1-precision i}+Loss i,10)

其中，wi为任务i的训练权重，precision i为任务i的准确率，Loss i为任务i的损失值，precision i最大值取1，Loss i最小值取0。

以下以目标感测模型的检测头用于识别图像中的交通信号灯为例，对本申请目标感知模型的训练方法进行场景说明。

联合损失函数包括检测任务子损失函数和属性分类任务子损失函数，检测任务子损失函数对应物体识别、目标分类和回归三项子任务，属性分类任务子损失函数对应颜色预测、朝向预测和形状预测三项子任务。这样，联合损失函数可以表示为：

其中，L^obj、L^cls、L^reg、L^color、L^orientation、L^shape分别为物体识别、目标分类、回归、颜色预测、朝向预测和形状预测子任务的损失函数，w₀至w₆分别为物体识别、目标分类、回归、颜色预测、朝向预测和形状预测子任务的损失函数权重。

针对真实场景下右转向的交通信号灯较少的情况，本实施例中，还选取目标样本图像进行左右镜像的翻转以用于训练数据的增强，这里的目标样本图像即为样本图像中左转向的交通信号灯图像。

具体训练过程中，先基于w₀L^obj+w₁L^cls+w₂L^reg构成的检测任务子损失函数对目标感知模型进行训练，确定检测头的模型参数；再基于联合损失函数Cost_joint对目标感知模型进行训练，确定目标感知模型的模型参数。

参图4，介绍本申请目标感知方法的一实施例。在本实施例中，该方法包括：

S121、获取待识别图像。

S122、基于目标感知模型，从待识别图像中识别目标及其属性；

S123、在识别的目标的置信度小于预设置信度阈值时，对待识别图像中包含识别的目标的区域进行切片，并再次基于目标感知模型识别目标及其属性。

以待识别图像为无人车拍摄的前方场景为例，当前任务为在该待识别图像中识别目标及其属性。目标感知模型为通过本申请上述实施例的训练方法获得，具体训练过程以及目标感知模型的结构可以部分或者全部地参考上述实施例所述，在此不再赘述。

目标感知模型识别的目标及其属性由其头部网络同时输出。例如，目标感知模型从当前的待识别图像中识别出交通信号灯，并以锚框的形式在待识别图像中进行标注，锚框可以标注有表征识别目标为交通信号灯的置信度值。

一些情况下，由于交通信号灯的距离较远，在待识别图像中表现为区域占比较小，进而可能在初次识别时，标注该交通信号灯的置信度值不高。此时，将包含该交通信号灯的区域进行切片，并再次进行模型推理可以帮助更好地预测这些目标。例如，初次识别时，待识别图像中有锚框A标注交通信号灯L的置信度为65%，再次模型推理时，可以将锚框A的区域再次切片，并最终以锚框B标注交通信号灯L的置信度为90%，这样提高了目标检测的可靠性。

在具体的目标感知中，还可以在识别出目标后进行后处理来过滤和优化识别结果。例如，后处理步骤可以包括非极大值抑制(NMS)和阈值过滤等，以去除重叠的锚框，并根据置信度阈值筛选出最终的识别目标结果。

图5为根据本申请各实施例中目标感知模型和传统非并联检测头的目标感知模型，对图像中目标检测的耗时对比图。其中，横轴为迭代的次数，纵轴为迭代一次的耗时(ms)。图中所示为预热100次迭代后，推理500次迭代的结果。可以从图中观察到，并联检测头结构的模型平均检测耗时为14.25毫秒，非并联检测头结构的模型平均检测耗时为57.78毫秒，并联检测头结构的模型检测耗时更短且稳定。

参图6，介绍本申请目标感知模型的训练装置的一实施例。在本实施例中，该目标感知模型的训练装置包括第一获取模块211和模型参数确定模块212。

所述目标感知模型包括前后连接的骨干网络、颈部网络以及头部网络，所述头部网络包括并联的检测头和分类头；第一获取模块211用于获取样本图像，并输入所述目标感知模型，其中，所述骨干网络用于对所述样本图像进行特征提取以获得多尺寸特征图，所述颈部网络用于融合所述多尺寸特征图的特征以获得多尺寸融合特征图，所述多尺寸融合特征图被锚框分割为正样本和负样本；模型参数确定模块212用于基于联合损失函数对所述目标感知模型进行训练，确定所述目标感知模型的模型参数，其中，所述联合损失函数包括检测任务子损失函数和属性分类任务子损失函数，所述检测任务子损失函数基于所述检测头识别目标锚框的概率构建，所述属性分类任务子损失函数基于所述分类头对目标锚框的属性分类概率构建。

一实施例中，在基于联合损失函数对所述目标感知模型进行训练前，模型参数确定模块212还用于基于所述检测任务子损失函数对所述目标感知模型进行训练，确定所述目标感知模型中检测头的模型参数。

一实施例中，第一获取模块211具体用于在基于所述检测任务子损失函数对所述目标感知模型进行训练时，基于锚框与先验框的交并比，将所述锚框分配为正样本和负样本；在基于所述联合损失函数对所述目标感知模型进行训练时，基于锚框与先验框的交并比、以及锚框的属性分类的误差，将所述锚框分配为正样本和负样本。

一实施例中，模型参数确定模块212具体用于为所述检测任务子损失函数和属性分类任务子损失函数分别配置训练权重；基于检测任务和属性分类任务对应的任务准确率和/或损失值，以预设规则调整对应的所述训练权重，其中，所述预设规则包括所述训练权重与任务准确率负相关、与损失值正相关。

一实施例中，所述检测头用于识别图像中的交通信号灯；所述属性分类任务子损失函数包括颜色预测任务损失子项、朝向预测任务损失子项、以及形状预测任务损失子项中的至少一个；

一实施例中，第一获取模块211还用于从至少两个所述多尺寸融合特征图中截取包含正样本的区域进行拼接，获得拼接样本图像；对所述拼接样本图像分配锚框以获得新的正样本。

一实施例中，第一获取模块211还用于选取目标样本图像进行左右镜像的翻转，其中，所述目标样本图像为样本图像中左转向的交通信号灯图像。

参图7，介绍本申请目标感知装置的一实施例。在本实施例中，该目标感知装置包括第二获取模块221、识别模块222和切片模块223。

第二获取模块221用于获取待识别图像；识别模块222用于基于上述的方法训练获得的目标感知模型，从所述待识别图像中识别目标及其属性，其中所述识别的目标及其属性由所述目标感知模型的头部网络同时输出；切片模块223用于在所述识别的目标的置信度小于预设置信度阈值时，对所述待识别图像中包含识别的目标的区域进行切片，并再次通过所述识别模块基于所述目标感知模型识别目标及其属性。

如上参照图1至图5，对根据本说明书实施例目标感知模型的训练方法和目标感知方法进行了描述。在以上对方法实施例的描述中所提及的细节，同样适用于本说明书实施例的目标感知模型的训练装置和目标感知装置。上面的目标感知模型的训练装置和目标感知装置可以采用硬件实现，也可以采用软件或者硬件和软件的组合来实现。

图8示出了根据本说明书的实施例的无人车的硬件结构图。如图8所示，无人车30可以包括至少一个处理器31、存储器32（例如非易失性存储器）、内存33和通信接口34，并且至少一个处理器31、存储器32、内存33和通信接口34经由内部总线35连接在一起。至少一个处理器31执行在存储器32中存储或编码的至少一个计算机可读指令。

应该理解，在存储器32中存储的计算机可执行指令当执行时使得至少一个处理器31进行本说明书的各个实施例中以上结合图1至图5描述的各种操作和功能。

在本说明书的实施例中，无人车30可以配置功能终端承载上述的硬件结构，该终端可以包括但不限于：个人计算机、服务器计算机、工作站、桌面型计算机、膝上型计算机、笔记本计算机、移动电子设备、智能电话、平板计算机、蜂窝电话、个人数字助理（PDA）、手持装置、消息收发设备、可佩戴电子设备、消费电子设备等等。

根据一个实施例，提供了一种比如机器可读介质的程序产品。机器可读介质可以具有指令（即，上述以软件形式实现的元素），该指令当被机器执行时，使得机器执行本说明书的各个实施例中以上结合图1-图7描述的各种操作和功能。具体地，可以提供配有可读存储介质的系统或者装置，在该可读存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码，且使该系统或者装置的计算机或处理器读出并执行存储在该可读存储介质中的指令。

在这种情况下，从可读介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能，因此机器可读代码和存储机器可读代码的可读存储介质构成了本说明书的一部分。

可读存储介质的实施例包括软盘、硬盘、磁光盘、光盘（如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD-RW）、磁带、非易失性存储卡和ROM。可选择地，可以由通信网络从服务器计算机上或云上下载程序代码。

本领域技术人员应当理解，上面公开的各个实施例可以在不偏离发明实质的情况下做出各种变形和修改。因此，本说明书的保护范围应当由所附的权利要求书来限定。

需要说明的是，上述各流程和各系统结构图中不是所有的步骤和单元都是必须的，可以根据实际的需要忽略某些步骤或单元。各步骤的执行顺序不是固定的，可以根据需要进行确定。上述各实施例中描述的装置结构可以是物理结构，也可以是逻辑结构，即，有些单元可能由同一物理客户实现，或者，有些单元可能分由多个物理客户实现，或者，可以由多个独立设备中的某些部件共同实现。

以上各实施例中，硬件单元或模块可以通过机械方式或电气方式实现。例如，一个硬件单元、模块或处理器可以包括永久性专用的电路或逻辑（如专门的处理器，FPGA或ASIC）来完成相应操作。硬件单元或处理器还可以包括可编程逻辑或电路（如通用处理器或其它可编程处理器），可以由软件进行临时的设置以完成相应操作。具体的实现方式（机械方式、或专用的永久性电路、或者临时设置的电路）可以基于成本和时间上的考虑来确定。

上面结合附图阐述的具体实施方式描述了示例性实施例，但并不表示可以实现的或者落入权利要求书的保护范围的所有实施例。在整个本说明书中使用的术语“示例性”意味着“用作示例、实例或例示”，并不意味着比其它实施例“优选”或“具有优势”。出于提供对所描述技术的理解的目的，具体实施方式包括具体细节。然而，可以在没有这些具体细节的情况下实施这些技术。在一些实例中，为了避免对所描述的实施例的概念造成难以理解，公知的结构和装置以框图形式示出。

本公开内容的上述描述被提供来使得本领域任何普通技术人员能够实现或者使用本公开内容。对于本领域普通技术人员来说，对本公开内容进行的各种修改是显而易见的，并且，也可以在不脱离本公开内容的保护范围的情况下，将本文所对应的一般性原理应用于其它变型。因此，本公开内容并不限于本文所描述的示例和设计，而是与符合本文公开的原理和新颖性特征的最广范围相一致。

Claims

1.一种目标感知模型的训练方法，其特征在于，所述目标感知模型包括前后连接的骨干网络、颈部网络以及头部网络，所述头部网络包括并联的检测头和分类头；所述方法包括：

2.根据权利要求1所述的目标感知模型的训练方法，其特征在于，在基于联合损失函数对所述目标感知模型进行训练前，所述方法还包括：

3.根据权利要求2所述的目标感知模型的训练方法，其特征在于，所述方法具体包括：

4.根据权利要求1或2所述的目标感知模型的训练方法，其特征在于，所述检测任务子损失函数包括物体识别损失子项、目标分类损失子项和回归损失子项，所述检测任务子损失函数被构造为使得所述物体识别损失子项基于所述正样本和负样本计算损失，所述目标分类损失子项和回归损失子项基于所述正样本计算损失；和/或，

5.根据权利要求1所述的目标感知模型的训练方法，其特征在于，基于联合损失函数对所述目标感知模型进行训练，确定所述目标感知模型的模型参数，具体包括：

6.根据权利要求1所述的目标感知模型的训练方法，其特征在于，所述检测头用于识别图像中的交通信号灯；

对所述拼接样本图像分配锚框以获得新的正样本。

7.根据权利要求6所述的目标感知模型的训练方法，其特征在于，所述方法还包括：

8.一种目标感知方法，其特征在于，所述方法包括：

获取待识别图像；

基于权利要求1至7任一项所述的方法训练获得的目标感知模型，从所述待识别图像中识别目标及其属性，其中所述识别的目标及其属性由所述目标感知模型的头部网络同时输出；

9.一种目标感知模型的训练装置，其特征在于，所述目标感知模型包括前后连接的骨干网络、颈部网络以及头部网络，所述头部网络包括并联的检测头和分类头；所述训练装置包括：

10.一种目标感知装置，其特征在于，包括：

第二获取模块，用于获取待识别图像；

识别模块，用于基于权利要求1至7任一项所述的方法训练获得的目标感知模型，从所述待识别图像中识别目标及其属性，其中所述识别的目标及其属性由所述目标感知模型的头部网络同时输出；

11. 一种无人车，包括：

至少一个处理器；以及

存储器，所述存储器存储指令，当所述指令被所述至少一个处理器执行时，使得所述至少一个处理器执行如权利要求1至7任一项所述的目标感知模型的训练方法、或权利要求8所述的目标感知方法。

12.一种机器可读存储介质，其存储有可执行指令，所述指令当被执行时使得所述机器执行如权利要求1至7任一项所述的目标感知模型的训练方法、或权利要求8所述的目标感知方法。