CN115546601B

CN115546601B - 一种多目标识别模型及其构建方法、装置及应用

Info

Publication number: CN115546601B
Application number: CN202211506606.3A
Authority: CN
Inventors: 毛云青; 韩致远; 来佳飞; 王国梁; 张香伟
Original assignee: CCI China Co Ltd
Current assignee: CCI China Co Ltd
Priority date: 2022-11-29
Filing date: 2022-11-29
Publication date: 2023-02-17
Anticipated expiration: 2042-11-29
Also published as: CN115546601A

Abstract

本方案提出了一种多目标识别模型及其构建方法、装置及应用，包括以下步骤：获取训练样本，将所述训练样本送入所述多目标检测模型中进行训练，所述多目标检测模型有共享特征提取模块、融合特征提取模块、识别模块组成，所述共享特征提取模块结合所述融合特征提取模块对所述训练样本进行编码融合，得到融合结果，再将所述融合结果与最后一层编码特征图输入到所述识别模块，得到所述训练样本中待检测车辆图像。本方案使用较小的时间开销、模型参数量以及计算开销实现了端到端的目标预测，为后续特征比对、车辆跟踪及重识别校验提供了数据基础。

Description

一种多目标识别模型及其构建方法、装置及应用

技术领域

本申请涉及目标检测、目标跟踪领域，尤其是涉及一种多目标识别模型及其构建方法、装置及应用。

背景技术

多目标根据简称MOT（Multiple Object Tracking）或MTT（Multiple TargetTracking），多目标跟踪的主要解决的问题是在一个图像序列中，找到序列中所需要跟踪的目标，并将不同帧的目标一一对应，从而从一贯图像序列中，获得多个目标独立的移动路径，整个任务主要分成目标检测及目标跟踪两个阶段。

在目标检测方面，针对目标检测这一经典问题，已经有很多现有技术来进行解决，比如按照检测阶段数量分有基于二阶段的目标检测系列Faster-Rcnn及其变种，基于单阶段的SSD、YOLO系列及其变种，但是这类基于卷积神经网络（CNN）的检测方法没法做到端到端的处理，通常在单张检测结果产出时，会伴随非常多的无用框，因此在检测后还需要在CPU上对检测冗余目标框结果进行进一步的筛选，比如说使用非极大值抑制的方法来处理额外的冗余框，这种非端到端的检测方法无疑增加了检测的时间开销，一个更为理想的解决方案是将所有的检测过程在GPU端一次性产出，避免预算效率低下的CPU参与到这个计算过程当中。

Transformer作为一种基于注意力的编码器-解码器结构，最初作用于自然语言处理领域，相对于卷积神经网络在计算机视觉领域每次只能学习一小块区域的特征，视觉Transformer（ViT）能够在第一层就学习到图像的全局信息，目前已有将Transformer应用在目标检测中的方法，比如DETR（Detection with transformer）算法，DETR算法最大的优势是解决了目标检测任务的端到端的问题，通过解码器输出的特征向量经过共享参数的前馈神经网络中（FFN），直接输出最终目标框的位置及类别，省去了纯卷积目标检测算法的非极大值抑制过程。

经典的DETR目标检测网络主要由四部分组成：骨干网络、编码器、解码器和目标检测器。其中：1、骨干网络将输入图像转换为单张或多张特征矩阵；2、编码器部分主要提供自注意力机制，以获得特征图像像素点之间的注意力信息；3、夹带注意力信息的特征被送往解码器，解码器有着和编码器类似的额外交叉注意力提取模块；4、最终解码器输出的特征向量被送入FNN模块以产出最终的目标检测结果。但是，虽然DETR作为第一个完全端到端的检测器，虽然有着无需后处理即可预测最终的预测集的优势，但也存在预测性能低、网络训练收敛速度慢等问题，但由于Transformer中复杂的编码器-解码器结构，使得计算成本难以下降，从而较难在高检测频率的目标跟踪任务重使用。

在目标跟踪方面，针对多目标跟踪（MOT）预测连续图像序列中实例的轨迹这一任务，大多数现有跟踪方法是将目标关联逻辑拆分为外观匹配和运动匹配；外观匹配通常通过不同帧之间的目标进行相似性测量，常用的方式是通过三元组损失训练单独的目标重识别网络（Reid）来对不同帧之间的目标进行归类；运动匹配是通过不同帧之间的目标框重合度（IOU）匹配和卡尔曼滤波启发式建模的方式，从前几帧的信息中预测后一帧的位置信息，然而这些已有的技术手段还存在许多问题。

首先是运动匹配法，基于目标框重合度方法在实现时首先会对两张前后关联的图像帧进行检测，对两张图片中的所有目标框进行一对一的重合度计算，如果目标框的重合度足够大，则认为两张图像中的相应目标框表达的是同一个物体，在高速场景的跟踪任务中，以高速公路上的车辆120km/h的移动速度为例，普通的摄像头每秒能产出25帧图像帧，即使对每帧目标进行检测，车辆在两帧之间的移动距离也会接近2米，而由于设备性能开销的原因，跟踪任务处理频率在每秒10帧左右较为合理，如此一来，同一目标的帧间距离将超过6-8米，在对比时这样的距离直接会导致重合度为零而无法关联，卡尔曼滤波虽然可以预测一个比前者表现更好的一个框，但由于位移距离过大而预测效果变差。

而目标重识别网络的加入则能够通过对前后两帧中的目标车辆特征值进行比对从而减少目标位移距离过大对匹配逻辑造成的影响，但是目前现有的重识别网络都是独立于目标检测网络，整体的实现流程是先通过目标监测网络对场景中需要跟踪的目标进行逐帧检测，再将检测到的目标从原图中截取后重新输入目标重识别网络提取对应的特征，最后在匹配阶段对两张图中目标的特征向量进行距离比对，通过位置距离和特征距离共同完成目标框的归类，这种匹配方法虽然有较高的跟踪正确率，但是由于串行使用了两个独立的神经网络，在整个任务数据流行过程中，需要进行如下步骤：1、将数据从CPU拷贝到GPU；2、通过目标检测网络获取目标位置信息；3、将目标位置信息从GPU拷贝到CPU；4、在图像中截取目标图像，重新将目标图像数据从CPU拷贝到GPU中；5、将目标图像特征从GPU拷贝到CPU进行后续比对操作。这种流式处理图像的方法往往增大了工程化的复杂度，同时频繁地将数据在CPU与GPU之间拷贝也造成了额外的时间开销，考虑到跟踪任务的精度受到处理性能的影响较大，因此应尽量避免这种多阶段调用GPU的操作发生。

发明内容

本申请方案提供一种多目标识别模型的构建方法，提出了一种端到端的网络结构，并可以对路上车辆进行多目标检测进而进行重识别。

第一方面，本申请提供一种多目标识别模型的构建方法，包括：

获取标记有多个待检测车辆的至少一待检测图像作为训练样本送入多目标识别模型中进行训练；

所述多目标识别模型由共享特征提取模块、融合特征提取模块、识别模块组成，所述共享特征提取模块和所述融合特征提取模块并行设置，所述训练样本输入到包含有多层Transformer层依层级串联组成的共享特征提取模块中进行特征提取，得到与每一所述Transformer层对应的编码特征图；

所述融合特征提取模块包括融合层和目标检测头层，每一层级的编码特征图和上一层级的编码拼接图进行拼接得到当前层级的编码拼接图，其中第一层级的编码特征图定义为编码拼接图，每一层级的编码特征图和上一层级的编码拼接图在融合层中融合得到融合特征，将多个融合特征进行输出拼接得到融合特征图，将所述融合特征图进行解码操作后输入目标检测头层得到目标位置信息；

将所述共享特征提取模块中最后一层编码特征图与所述融合特征提取模块的目标位置信息进行合并作输入到所述识别模块，得到所述训练样本中的多个待检测车辆图像。

第二方面，本申请实施例提供了一种多目标检测模型，使用第一方面所提出的方法进行构建得到。

第三方面，本申请实施例提供了一种多目标检测方法，包括：

获取至少一待检测图片，将所述待检测图片输入到所述多目标识别模型中，所述多目标识别模型由共享特征提取模块、融合特征提取模块、识别模块组成，所述多目标识别模型中的共享特征提取模块的多层串联的Transformer对所述待检测图片进行特征提取，得到与每一Transformer层对应的编码特征图，所述融合特征提取模块对每一层级的编码特征图和上一层级的编码拼接图进行拼接得到当前层级的编码拼接图，其中第一层级的编码特征图定义为编码拼接图，每一层级的编码特征图和上一层级的编码拼接图在融合层中融合得到融合特征，将多个融合特征进行输出拼接得到融合特征图，将所述融合特征图进行解码操作后输入目标检测头层得到待检测图片中的车辆位置信息。

第四方面，本申请实施例提供了一种多目标检测模型的构建装置，包括：

获取模块：获取标记有多个待检测车辆的至少一待检测图像作为训练样本送入多目标识别模型中进行训练；

编码模块：所述多目标识别模型由共享特征提取模块、融合特征提取模块、识别模块组成，所述共享特征提取模块和所述融合特征提取模块并行设置，所述训练样本输入到包含有多层Transformer层依层级串联组成的共享特征提取模块中进行特征提取，得到与每一所述Transformer层对应的编码特征图；

融合模块：所述融合特征提取模块包括融合层和目标检测头层，每一层级的编码特征图和上一层级的编码拼接图进行拼接得到当前层级的编码拼接图，其中第一层级的编码特征图定义为编码拼接图，每一层级的编码特征图和上一层级的编码拼接图在融合层中融合得到融合特征，将多个融合特征进行输出拼接得到融合特征图，将所述融合特征图进行解码操作后输入目标检测头层得到目标位置信息；

提取模块：将所述共享特征提取模块中最后一层编码特征图与所述融合特征提取模块的目标位置信息进行合并作输入到所述识别模块，得到所述训练样本中的多个待检测车辆图像。

第五方面，本申请实施例提供了一种电子装置，包括存储器与处理器，所述所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行一种多目标识别模型的构建方法或一种多目标识别方法。

第六方面，本申请实施例提供了一种可读存储介质，所述可读存储介质中存储有计算机程序，所述计算机程序包括用于控制过程以执行过程的程序代码，所述过程包括一种多目标识别模型的构建方法或一种多目标识别方法。

相较现有技术，本技术方案具有以下特点和有益效果：

本方案采用端到端的形式，将目标检测与特征向量提取相结合，且将Transformer直接作用于训练样本上，使得在编码过程中获取无损耗的图像全局信息，并且使用融合层代替传统的特征金字塔结构，使得自注意力机制在多级特征图像上进行直接作用，使得网络在训练时获得更高的收敛准确率以及更快的收敛速度，在解码器不变的情况下，实现了模型预测速度的提升和模型预测精度的提升；由于本方案时使用了端到端的结构，所以无需将整个数据在CPU于GPU之间进行来回拷贝，也无需使用极大值抑制算法来判断最后的检测框，不仅节省了模型的计算开销，还解决了目标跟踪领域重识别和目标检测过程分离的痛点，提升了目标跟踪算法的性能；在模型的训练方式上，本申请实施例采用分步训练，根据模型不同模块的重要程度和关联程度进行分步训练，实现了模型训练过程中的快速收敛。

本申请的一个或多个实施例的细节在以下附图和描述中提出，以使本申请的其他特征、目的和优点更加简明易懂。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种多目标识别模型的构建方法的流程图；

图2是根据本申请实施例的一种所述多目标识别模型的结构示意图；

图3是根据本申请实施例的一种融合层的结构示意图；

图4是根据本申请实施例的一种卷积结构的结构示意图；

图5是传统的重识别任务处理的流程图；

图6是根据本申请实施例的重识别任务处理流程图

图7是根据本申请实施例的多目标识别模型的训练方式流程图；

图8是根据本申请实施例的一种多目标识别模型的构建装置的结构框图；

图9是根据本申请实施例的电子装置的硬件结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书一个或多个实施例相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本说明书一个或多个实施例的一些方面相一致的装置和方法的例子。

需要说明的是：在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中，其方法所包括的步骤可以比本说明书所描述的更多或更少。此外，本说明书中所描述的单个步骤，在其他实施例中可能被分解为多个步骤进行描述；而本说明书中所描述的多个步骤，在其他实施例中也可能被合并为单个步骤进行描述。

实施例一

本申请方案提供了一种多目标识别模型的构建方法，参考图1，所述方法包括：

所述融合特征提取模块包括融合层和目标检测头层，每一层级的编码特征图和上一层级的编码拼接图进行拼接得到当前层级的编码拼接图，其中第一层级的编码特征图定义为编码拼接图，每一层级的编码特征图和上一层级的编码拼接图在融合层中融合得到融合特征，

将多个融合特征进行输出拼接得到融合特征图，将所述融合特征图进行解码操作后输入目标检测头层得到目标位置信息；

示例性的，编码器的常规做法为通过堆叠多个多头自注意力机制和编码器，以及利用尺度内和尺度间特征交互的组合来实现多尺度融合的目的，而编码器的堆叠往往伴随着海量可训练参数的引入，导致训练过程中整体模型训练周期过长、落地过程中模型预测时间过长、模型体量过大等问题，因此，本方案提出一个新的网络结构来替代传统视觉Transformer中的冗余结构，以四层Transformer层为例，所述多目标识别模型的结构图如图2所示。

具体的，传统的Transformer网络先使用多层卷积网络对训练样本提取特征矩阵，再将特征矩阵输入到Transformer中，这样会导致所述训练样本的全局信息遭到破坏，当特征矩阵传输到Transformer中时，全局信息已经不复存在了，全局信息的丢失会导致整体收敛效果变差，为了使用图像无损耗的全局信息，本文使用Transformer直接作用于训练样本上，使得模型的收敛效果更好，但是因为纯Transformer结构无法对图像实现降维操作，会导致模型的计算开销急剧增大，因此使用特征金字塔思想，即从第二层开始的每一层级所述编码特征图与前面所有层级编码特征图进行融合的方法在所述融合特征提取模块中实现维度缩减的目的。

在一些实施例中，如图3所示，所述融合层包括两个输入端，其输入分别为当前层级编码特征图和上一层级的编码拼接图，所述当前层级编码特征图输入后经过线性拉伸与初步归一后，再与所述编码拼接图进行二次归一，分别得到当前层级的所述编码特征图的归一结果和所述编码拼接图的归一结果，将所述当前层级编码特征图的归一结果和所述编码特征图的归一结果进行第一融合拼接后输入到多组卷积结构中，得到卷积结果，将所述卷积结果与所述当前层级编码特征图的归一结果输入到多头注意力层，分别得到编码特征图的注意力结果和卷积注意力结果，将所述编码特征图的注意力结果、卷积注意力结果和当前层级编码特征图的归一结果进行第二融合拼接，得到第二拼接结果，对所述第二拼接结果进行归一化后通过前馈神经网络进行输出，得到融合结果。

进一步的，因为本方案的Transformer直接作用于所述训练样本上，所以通过将当前层级编码特征图的归一结果在所述融合层中多次使用来使得所述多目标识别模型的收敛效果更好。

具体的，将所述当前层级编码特征图和编码拼接图进行融合的目的是防止在逐层信息融合的过程中，深层结构丢失掉浅层的高级特征，且为了降低计算开销，在所述融合层中加入了卷积结构，根据不同层级的编码特征图将所述编码拼接图进行降维处理以满足最后拼接所需要的矩阵规格，并且本方案使用融合层代替了传统的特征图像金字塔结构。

具体的，如图4所示，所述卷积结构为池化层、卷积层、归一层依次串联组成，将所述当前层级编码特征图的归一结果和所述编码拼接图的归一结果进行第一融合拼接后输入到多组卷积结构中，目的是减少所述多目标识别模型的模型参数，减少模型预测的时间开销。

进一步的，所述融合层的作用是将所述当前层级的编码特征图与前面所有层级编码特征图的编码拼接图进行融合，对所述编码特征图与所述编码拼接图进行归一的目的是为了使得所述多目标识别模型更好收敛，并且在所述融合层中引入多头注意力层来实现所述编码特征图与所述编码拼接图之间的特征交换。

具体的，在所述融合层中，所述编码特征图的归一结果被复制为三份，分别在所述卷积结构前与所述编码拼接图进行拼接；在所述多头注意力层内与所述编码拼接图进行特征交换；在多头注意力层之后与所述编码特征图的注意力结果、卷积注意力结果进行拼接。

具体的，所述编码特征图的归一结果在所述卷积结构前与所述编码拼接图进行拼接的作用是扩增所述编码拼接图的特征维度；所述编码特征图的归一结果在所述多头注意力层内与所述编码拼接图进行特征交换的目的是防止所述编码拼接图在所述卷积结构中进行卷积操作所带来的信息丢失；所述编码特征图的归一结果在多头注意力层之后与所述编码特征图的注意力结果、卷积注意力结果进行拼接的目的是为了保留所述编码特征图的注意力结果、卷积注意力结果的高层原始特征信息。

在一些实施例中，在“将所述融合特征图进行解码操作后输入目标检测头层得到目标位置信息”步骤中，所述目标检测头层为一个前馈神经网络连接一个目标检测头，所述目标位置信息为所述训练样本中待检测车辆目标框的位置信息。

具体的，在大部分卷积神经网络进行目标检测的任务当中，都需要以深层特征图像的像素点作为锚点，并以此为中心按照不同比例设定锚框作为目标的候选框，无论是单阶段还是双阶段的检测方法，他们都依赖锚框，唯一的不同只有对于锚框是否是动态地生成，而锚框在训练过程中的主要作用是和真实的标注框进行匹配以获取损失，因此，相对同一个物体，在训练中会有很多不同的锚框同时和一个目标物体拥有满足阈值要求的一个预测标准，而模型本身是无法分辨这些锚框到底哪一个才是最优的结果，这时，通常会使用非极大值抑制法来对这些锚框进行对应的预测框筛选，非极大值抑制法会根据每一锚框的置信度和互相之间的预测标准选举出最有检测结果，并抑制掉其他多余的结果。在一具体实施例中，在所述Transformer过程中加入信息交换，在所述解码操作中添加自注意力机制。

而在本方案的解码操作和目标检测头层中，引入了二分匹配的思想，并且在Transformer中加入了信息交换，也就是通过解码操作中的自注意力机制来防止多个查询任务收敛到同一目标，对每一所述训练样本都进行信息交换则可以剔除非极大值抑制法，使得输出结果为所述训练样本中的目标框以及目标框的位置信息。

在一些实施例中，在“所述识别模块得到所述训练样本中的多个待检测车辆，并对得到的多个待检测车辆进行特征提取”步骤中，根据所述输出结果直接在所述最后一层编码特征图上进行截取，得到所述训练样本中的多个待检测车辆图像。

在一些实施例中，将具有时序性的多个待测图像输入到所述多目标识别模型中，得到每一所述待测图像的多个待检测车辆图像，对每一待检测车辆图像进行特征提取，得到每一待检测车辆图像的特征向量，分别将每一待检测车辆图像的特征向量与其他待检测车辆的特征向量进行比对，得到比对结果，根据所述比对结果来判断不同待测图像中的车辆是否为同一车辆。

在一具体实施例中，可以使用卷积神经网络对每一待检测车辆图像进行特征提取。具体的，传统的重识别模型与本方案模型的区别如图5、图6所示，本方案的所述多目标识别模型在进行特征向量提取时，采用端到端的方式，即直接在所述多目标识别模型中完成特征向量提取，在常规的重识别算法中，需要根据目标检测模型的输出结果，根据检测出来的目标位置在原图中进行裁剪，再通过将裁剪结果送入另一个特征提取模型提取特征向量并进行重识别匹配，整个过程需要在GPU和CPU之间来回进行拷贝，并且非极大值抑制法也需要在CPU中进行计算，增加了整个过程的时间开销，但是本方案提出的多目标识别模型采用端到端的方式，不需要对检测位置进行后续处理及拷贝操作，而且根据所述输出结果直接在所述最后一层编码特征图上进行截取使得模型实现了浅层参数的共享，减少网络复杂度的同时提升了预测性能，又因为浅层特征提取已在前面完成，所以在进行特征向量提取时只需要简单的卷积即可完成不同目标特征向量的转换工作，极大的节省了模型的计算开销。

示例性的，以四层Transformer层为例，输入一个训练样本，其图像尺寸为（高H*宽W*通道C），经过第一层Transformer后其图像尺寸变为（高H*宽W*通道C）），经过第二层Transformer后其图像尺寸变为（高H/2*宽W/2*通道C*4），经过第三层Transformer后其图像尺寸变为（高H/4*宽W/4*通道C*16），经过第四层Transformer后其图像尺寸变为（高H/8*宽W/8*通道C*256），将其经过融合层处理后与第四层的编码特征图一起输入到识别模块中，便可直接得到所述训练样本中每一待检测车辆的特征向量。

所以，本发明提出的多目标识别模型可以用较小的时间开销、模型参数量以及计算开销实现了端到端的目标检测及特征提取，从而达到重识别的目的。

在一些实施例中，所述多目标识别模型的训练方式为，将所述共享特征提取模块、融合特征提取模块、识别模块进行分步训练，首先固定识别模块的参数，对所述多目标识别模型进行第一批训练，再固定融合特征提取模块的参数对所述多目标识别模型进行第二批训练，通过所述第一批训练和所述第二批训练完成对共享特征提取模型的训练，之后将所述共享特征提取模块的参数和识别模块的参数进行固定，对所述多目标识别模型进行第三批训练，通过所述第三批训练完成对所述融合特征提取模块的训练，最后将所述融合特征提取模块和所述共享特征提取模块的参数固定，对所述多目标识别模型进行第四批训练，通过所述第四批训练完成所述识别模块的训练。

在训练所述共享特征提取模块时，分别固定所述识别模块和融合特征提取模块的参数对所述多目标跟踪模型进行训练。

具体的，在训练所述共享特征提取模块时，先对所述识别模块的参数进行固定，对所述共享特征提取模块与所述融合特征提取模块进行训练，之后再对所述融合特征提取模块的参数进行固定，对所述共享特征提取模块与所述识别模块进行训练，当训练完成后，则说明所述共享特征提取模块训练完成，再将所述训练完成的共享特征提取模块和所述识别模块的参数进行固定，对所述融合特征提取模块进行训练，完成对所述融合特征提取模块的训练，最后将所述训练完成的共享特征提取模块与融合特征提取模块的参数进行固定，对所述识别模块进行训练，最终完成整个所述多目标识别模型的训练。

具体的，在训练过程中，由于所述识别模块与所述融合特征提取模块的逻辑意义相互独立，而融合特征提取模块的输出又是所述识别模块的输入，因此使用识别模块产出的误差函数来更新所述融合特征提取模块的过程并不合理，且误差较大，而所述共享特征提取模块的参数又同时会影响所述融合特征提取模块和所述识别模块的效果，因此所述多目标识别模型中模块参数训练更新的优先级关系应为共享特征提取模块大于融合特征提取模块大于识别模块。

相对于所述识别模块，融合特征提取模块优先级更大的原因是：所述重识别特征模块提取依赖于所述融合特征提取模块所得到的检测框位置信息，同时所述融合特征提取模块的参数量更大，因此在训练中应该尽可能的优先训练所述融合特征提取模块。

进一步的，当所述识别模块的参数被固定时，对所述共享特征提取模块和融合特征提取模块的参数进行训练，使用损失函数判断第一目标检测损失，若所述第一目标检测损失的损失值小于第一设定阈值，则进行下一步训练，若所述第一目标检测损失的损失值大于第一设定阈值，则继续进行训练，直到所述第一目标检测损失的损失值小于第一设定阈值；当上一步训练完成时，固定所述融合特征提取模块参数，对所述共享特征提取模块和识别模块的参数进行训练，使用损失函数判断第一重识别损失，若所述第一重识别损失的损失值小于第二设定阈值，则进行下一步训练，若所述第一重识别损失的损失值大于第一设定阈值，则继续进行训练，直到所述第一重识别损失的损失值小于第一设定阈值，完成对所述共享特征提取模块的参数训练。

由于所述共享特征提取模块的参数已经训练完成，无需对其进行变动，所以固定所述共享特征提取模块和所述识别模块的参数，单独对所述融合特征提取模块的参数进行训练，使用损失函数判断第二目标检测损失，若所述第二目标检测损失的损失值大于第三设定阈值，则继续进行训练，若所述第二目标检测损失的损失值小于第三设定阈值，则完成对所述融合特征提取模块的参数训练。

当所述共享特征提取模块与所述融合特征提取模块的参数都已训练完成时，对所述共享特征提取模块与所述融合特征提取模块的参数进行固定，单独对所述识别模块的参数进行训练，使用损失函数判断第二重识别损失，若所述第二重识别损失的损失值大于第四设定阈值，则继续进行训练，若所述第二重识别损失的损失值小于第四设定阈值，则完成对所述识别模块的参数训练。

具体的，损失函数可以使用任意损失函数，其训练完成的判定标准也可以人工设定。

在一具体实施例中，如图7所示，所述多目标识别模型的训练分为步骤一、步骤二、步骤三、步骤四，首先步骤一和步骤二的目的是训练所述共享特征提取模块的模块参数，由于所述共享特征提取模块的参数主要作用是用于提取训练样本的浅层特征，所以步骤一和步骤二的损失阈值L1、L2无需太低，而当训练阶段进入步骤三之后，则表明所述共享特征提取模块已经具备较好的提取图像浅层特征的能力，从而对该模块的参数予以固定，分别独立的去训练所述融合特征提取模块以及识别模块，又因为所述融合特征提取模块的训练结果会影响所述识别模块，故先对所述融合特征提取模块进行训练，最后再对所述识别模块进行训练，其分别使用L3、L4作为训练时的损失阈值，L1、L2、L3、L4之间的关系为，L3>L1，L4>L2。

实施例二

基于相同构思，本申请实施例还提出了一种多目标识别模型，使用实施例一所述的方法进行构建得到。

实施例三

实施例二

基于相同构思，参考图8，本申请还提出了一种多目标检测模型的构建装置，包括：

获取模块：获取标记有多个待检测车辆的至少一待检测图像作为训练样本送入所述多目标识别模型中进行训练；

识别模块：将所述共享特征提取模块中最后一层编码特征图与所述融合特征提取模块的目标位置信息进行合并作输入到所述识别模块，得到所述训练样本中的多个待检测车辆图像。

实施例三

本实施例还提供了一种电子装置，参考图9，包括存储器404和处理器402，该存储器404中存储有计算机程序，该处理器402被设置为运行计算机程序以执行上述任一多目标检测模型的构建方法实施例中的步骤。

具体地，上述处理器402可以包括中央处理器（CPU），或者特定集成电路（ApplicationSpecificIntegratedCircuit，简称为ASIC），或者可以被配置成实施本申请实施例的一个或多个集成电路。

其中，存储器404可以包括用于数据或指令的大容量存储器404。举例来说而非限制，存储器404可包括硬盘驱动器（HardDiskDrive，简称为HDD）、软盘驱动器、固态驱动器（SolidStateDrive，简称为SSD）、闪存、光盘、磁光盘、磁带或通用串行总线（UniversalSerialBus，简称为USB）驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器404可包括可移除或不可移除（或固定）的介质。在合适的情况下，存储器404可在数据处理装置的内部或外部。在特定实施例中，存储器404是非易失性（Non-Volatile）存储器。在特定实施例中，存储器404包括只读存储器（Read-OnlyMemory，简称为ROM）和随机存取存储器（RandomAccessMemory，简称为RAM）。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM（ProgrammableRead-OnlyMemory，简称为PROM）、可擦除PROM（ErasableProgrammableRead-OnlyMemory，简称为EPROM）、电可擦除PROM（ElectricallyErasableProgrammableRead-OnlyMemory，简称为EEPROM）、电可改写ROM（ElectricallyAlterableRead-OnlyMemory，简称为EAROM）或闪存（FLASH）或者两个或更多个以上这些的组合。在合适的情况下，该RAM可以是静态随机存取存储器（StaticRandom-AccessMemory，简称为SRAM）或动态随机存取存储器（DynamicRandomAccessMemory，简称为DRAM），其中，DRAM可以是快速页模式动态随机存取存储器404（FastPageModeDynamicRandomAccessMemory，简称为FPMDRAM）、扩展数据输出动态随机存取存储器（ExtendedDateOutDynamicRandomAccessMemory，简称为EDODRAM）、同步动态随机存取内存（SynchronousDynamicRandom-AccessMemory，简称SDRAM）等。

存储器404可以用来存储或者缓存需要处理和/或通信使用的各种数据文件，以及处理器402所执行的可能的计算机程序指令。

处理器402通过读取并执行存储器404中存储的计算机程序指令，以实现上述实施例中的任意一种多目标识别模型的构建方法的实施过程。

可选地，上述电子装置还可以包括传输设备406以及输入输出设备408，其中，该传输设备406和上述处理器402连接，该输入输出设备408和上述处理器402连接。

传输设备406可以用来经由一个网络接收或者发送数据。上述的网络具体实例可包括电子装置的通信供应商提供的有线或无线网络。在一个实例中，传输设备包括一个网络适配器（Network Interface Controller，简称为NIC），其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输设备406可以为射频（Radio Frequency，简称为RF）模块，其用于通过无线方式与互联网进行通讯。

输入输出设备408用于输入或输出信息。在本实施例中，输入的信息可以是待检测图像等，输出的信息可以是待检测车辆的特征向量，待检测车辆特征向量的比对结果等。

可选地，在本实施例中，上述处理器402可以被设置为通过计算机程序执行以下步骤：

S101、获取标记有多个待检测车辆的至少一待检测图像作为训练样本送入多目标识别模型中进行训练；

S102、所述多目标识别模型由共享特征提取模块、融合特征提取模块、识别模块组成，所述共享特征提取模块和所述融合特征提取模块并行设置，所述训练样本输入到包含有多层Transformer层依层级串联组成的共享特征提取模块中进行特征提取，得到与每一所述Transformer层对应的编码特征图；

S103、所述融合特征提取模块包括融合层和目标检测头层，每一层级的编码特征图和上一层级的编码拼接图进行拼接得到当前层级的编码拼接图，其中第一层级的编码特征图定义为编码拼接图，每一层级的编码特征图和上一层级的编码拼接图在融合层中融合得到融合特征，将多个融合特征进行输出拼接得到融合特征图，将所述融合特征图进行解码操作后输入目标检测头层得到目标位置信息；

S104、将所述共享特征提取模块中最后一层编码特征图与所述融合特征提取模块的目标位置信息进行合并作输入到所述识别模块，得到所述训练样本中的多个待检测车辆图像。

需要说明的是，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

通常，各种实施例可以以硬件或专用电路、软件、逻辑或其任何组合来实现。本发明的一些方面可以以硬件来实现，而其他方面可以以可以由控制器、微处理器或其他计算设备执行的固件或软件来实现，但是本发明不限于此。尽管本发明的各个方面可以被示出和描述为框图、流程图或使用一些其他图形表示，但是应当理解，作为非限制性示例，本文中描述的这些框、装置、系统、技术或方法可以以硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备或其某种组合来实现。

本发明的实施例可以由计算机软件来实现，该计算机软件由移动设备的数据处理器诸如在处理器实体中可执行，或者由硬件来实现，或者由软件和硬件的组合来实现。包括软件例程、小程序和/或宏的计算机软件或程序(也称为程序产品)可以存储在任何装置可读数据存储介质中，并且它们包括用于执行特定任务的程序指令。计算机程序产品可以包括当程序运行时被配置为执行实施例的一个或多个计算机可执行组件。一个或多个计算机可执行组件可以是至少一个软件代码或其一部分。另外，在这一点上，应当注意，如图9中的逻辑流程的任何框可以表示程序步骤、或者互连的逻辑电路、框和功能、或者程序步骤和逻辑电路、框和功能的组合。软件可以存储在诸如存储器芯片或在处理器内实现的存储块等物理介质、诸如硬盘或软盘等磁性介质、以及诸如例如DVD及其数据变体、CD等光学介质上。物理介质是非瞬态介质。

本领域的技术人员应该明白，以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种多目标识别模型的构建方法，其特征在于，包括：

所述融合特征提取模块包括融合层和目标检测头层，所述目标检测头层为一个前馈神经网络连接一个目标检测头，每一层级的编码特征图和上一层级的编码拼接图进行拼接得到当前层级的编码拼接图，其中第一层级的编码特征图定义为编码拼接图，每一层级的编码特征图和上一层级的编码拼接图在融合层中融合得到融合特征，所述融合层包括两个输入端，其输入分别为当前层级编码特征图和上一层级的编码拼接图，所述当前层级编码特征图输入后经过线性拉伸与初步归一后，再与所述上一层级编码拼接图进行二次归一，分别得到当前层级编码特征图的归一结果和所述上一层级编码拼接图的归一结果，将所述当前层级编码特征图的归一结果和所述上一层级编码拼接图的归一结果进行第一融合拼接后输入到多组卷积结构中得到卷积结果，将所述卷积结果与所述当前层级编码特征图的归一结果输入到多头注意力层，分别得到当前层级编码特征图的注意力结果和卷积注意力结果，将所述当前层级编码特征图的注意力结果、卷积注意力结果和当前层级编码特征图的归一结果进行第二融合拼接，得到第二拼接结果，对所述第二拼接结果进行归一化后通过前馈神经网络进行输出，得到融合特征，将多个融合特征进行输出拼接得到融合特征图，将所述融合特征图进行解码操作后输入目标检测头层得到目标位置信息，所述目标位置信息为所述训练样本中待检测车辆目标框的位置信息；

将所述共享特征提取模块中最后一层编码特征图与所述融合特征提取模块的目标位置信息进行合并输入到所述识别模块，得到所述训练样本中的多个待检测车辆图像。

2.根据权利要求1所述的一种多目标识别模型的构建方法，其特征在于，所述卷积结构为池化层、卷积层、归一层依次串联组成，将所述当前层级编码特征图的归一结果和所述编码拼接图的归一结果进行第一融合拼接后输入到多组卷积结构中。

3.根据权利要求1所述的一种多目标识别模型的构建方法，其特征在于，在“将所述共享特征提取模块中最后一层编码特征图与所述融合特征提取模块的目标位置信息进行合并作输入到所述识别模块，得到所述训练样本中的多个待检测车辆图像”步骤中，根据识别模块的输出结果直接在所述最后一层编码特征图上进行截取，得到所述训练样本中的多个待检测车辆图像。

4.根据权利要求1所述的一种多目标识别模型的构建方法，其特征在于，将具有时序性的多个待测图像输入到所述多目标识别模型中，得到每一所述待测图像的多个待检测车辆图像，对每一待检测车辆图像进行特征提取，得到每一待检测车辆图像的特征向量，分别将每一待检测车辆图像的特征向量与其他待检测车辆的特征向量进行比对，得到比对结果，根据所述比对结果来判断不同待测图像中的车辆是否为同一车辆。

5.根据权利要求1所述的一种多目标识别模型的构建方法，其特征在于，所述多目标识别模型的训练方式为，将所述共享特征提取模块、融合特征提取模块、识别模块进行分步训练，首先固定识别模块的参数，对所述多目标识别模型进行第一批训练，再固定融合特征提取模块的参数对所述多目标识别模型进行第二批训练，通过所述第一批训练和所述第二批训练完成对共享特征提取模型的训练，之后将所述共享特征提取模块的参数和识别模块的参数进行固定，对所述多目标识别模型进行第三批训练，通过所述第三批训练完成对所述融合特征提取模块的训练，最后将所述融合特征提取模块和所述共享特征提取模块的参数固定，对所述多目标识别模型进行第四批训练，通过所述第四批训练完成所述识别模块的训练。

6.一种多目标识别方法，其特征在于，包括：

获取至少一待检测图片，将所述待检测图片输入到所述多目标识别模型中，所述多目标识别模型由共享特征提取模块、融合特征提取模块、识别模块组成，所述多目标识别模型中的共享特征提取模块的多层串联的Transformer对所述待检测图片进行特征提取，得到与每一Transformer层对应的编码特征图，所述融合特征提取模块包括融合层和目标检测头层，所述目标检测头层为一个前馈神经网络连接一个目标检测头，每一层级的编码特征图和上一层级的编码拼接图进行拼接得到当前层级的编码拼接图，其中第一层级的编码特征图定义为编码拼接图，每一层级的编码特征图和上一层级的编码拼接图在融合层中融合得到融合特征，所述融合层包括两个输入端，其输入分别为当前层级编码特征图和上一层级的编码拼接图，所述当前层级编码特征图输入后经过线性拉伸与初步归一后，再与所述上一层级编码拼接图进行二次归一，分别得到当前层级编码特征图的归一结果和所述上一层级编码拼接图的归一结果，将所述当前层级编码特征图的归一结果和所述上一层级编码拼接图的归一结果进行第一融合拼接后输入到多组卷积结构中得到卷积结果，将所述卷积结果与所述当前层级编码特征图的归一结果输入到多头注意力层，分别得到编码特征图的注意力结果和卷积注意力结果，将所述编码特征图的注意力结果、卷积注意力结果和当前层级编码特征图的归一结果进行第二融合拼接，得到第二拼接结果，对所述第二拼接结果进行归一化后通过前馈神经网络进行输出，得到融合特征，将多个融合特征进行输出拼接得到融合特征图，将所述融合特征图进行解码操作后输入目标检测头层得到待检测图片中的车辆位置信息，所述车辆位置信息为训练样本中待检测车辆目标框的位置信息；

将所述共享特征提取模块中最后一层编码特征图与所述融合特征提取模块的车辆位置信息进行合并输入到所述识别模块，得到所述训练样本中的多个待检测车辆图像。

7.一种多目标识别模型的构建装置，其特征在于，包括：

融合模块：所述融合特征提取模块包括融合层和目标检测头层，所述目标检测头层为一个前馈神经网络连接一个目标检测头，每一层级的编码特征图和上一层级的编码拼接图进行拼接得到当前层级的编码拼接图，其中第一层级的编码特征图定义为编码拼接图，每一层级的编码特征图和上一层级的编码拼接图在融合层中融合得到融合特征，所述融合层包括两个输入端，其输入分别为当前层级编码特征图和上一层级的编码拼接图，所述当前层级编码特征图输入后经过线性拉伸与初步归一后，再与所述上一层级编码拼接图进行二次归一，分别得到当前层级编码特征图的归一结果和所述上一层级编码拼接图的归一结果，将所述当前层级编码特征图的归一结果和所述上一层级编码拼接图的归一结果进行第一融合拼接后输入到多组卷积结构中得到卷积结果，将所述卷积结果与所述当前层级编码特征图的归一结果输入到多头注意力层，分别得到编码特征图的注意力结果和卷积注意力结果，将所述编码特征图的注意力结果、卷积注意力结果和当前层级编码特征图的归一结果进行第二融合拼接，得到第二拼接结果，对所述第二拼接结果进行归一化后通过前馈神经网络进行输出，得到融合特征，将多个融合特征进行输出拼接得到融合特征图，将所述融合特征图进行解码操作后输入目标检测头层得到目标位置信息，所述目标位置信息为所述训练样本中待检测车辆目标框的位置信息；

识别模块：将所述共享特征提取模块中最后一层编码特征图与所述融合特征提取模块的目标位置信息进行合并输入到所述识别模块，得到所述训练样本中的多个待检测车辆图像。

8.一种电子装置，包括存储器与处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行权利要求1到5任一所述的一种多目标识别模型的构建方法或权利要求6所述的一种多目标识别方法。

9.一种可读存储介质，其特征在于，所述可读存储介质中存储有计算机程序，所述计算机程序包括用于控制过程以执行过程的程序代码，所述过程包括根据权利要求1到5任一所述的一种多目标识别模型的构建方法或权利要求6所述的一种多目标识别方法。