CN113129338A

CN113129338A - 基于多目标跟踪算法的图像处理方法、装置、设备及介质

Info

Publication number: CN113129338A
Application number: CN202110430470.1A
Authority: CN
Inventors: 张玉琪
Original assignee: Ping An International Smart City Technology Co Ltd
Current assignee: Ping An International Smart City Technology Co Ltd
Priority date: 2021-04-21
Filing date: 2021-04-21
Publication date: 2021-07-16
Anticipated expiration: 2041-04-21
Also published as: CN113129338B

Abstract

本申请涉及人工智能领域，公开了一种基于多目标跟踪算法的图像处理方法，包括：利用JDE算法提取视频帧对应的特征图，JDE算法的检测头中的卷积单元为可变形卷积单元；利用可变形卷积单元，从特征图中提取每个检测框对应的偏移量；根据每个检测框对应的偏移量，确定每个检测框的位置信息；根据每个检测框对应的偏移量，提取每个检测框中的初始锚点对应的特征向量；将每个检测框的位置信息与对应的特征向量进行关联，以基于关联后的特征向量执行图像跟踪处理。本申请还涉及区块链技术领域。本申请还公开了一种基于多目标跟踪算法的图像处理装置、计算机设备以及计算机可读存储介质。本申请提高了利用JDE算法进行图像跟踪处理的准确率。

Description

基于多目标跟踪算法的图像处理方法、装置、设备及介质

技术领域

本申请涉及人工智能技术领域，尤其涉及一种基于多目标跟踪算法的图像处理方法、基于多目标跟踪算法的图像处理装置、计算机设备以及计算机可读存储介质。

背景技术

JDE(Joint Learning of Detection and Embedding)是一种基于实时的多目标跟踪算法，与传统的多目标跟踪算法相比，其目标匹配的速度更快，因此JDE更适合应用于对实时反馈要求高的检测场景。

但由于JDE算法转换的特征向量(Embedding)只与初始锚点(anchor)一一匹配，而与初始锚点对应的检测框并没有强相关性，导致在JDE算法中可能会出现特征向量和检测框不匹配的情况，从而影响JDE算法进行图像跟踪处理的准确率。

上述内容仅用于辅助理解本申请的技术方案，并不代表承认上述内容是现有技术。

发明内容

本申请的主要目的在于提供一种基于多目标跟踪算法的图像处理方法、基于多目标跟踪算法的图像处理装置、计算机设备以及计算机可读存储介质，旨在解决如何避免使用JDE多目标跟踪算法时出现特征向量与检测框不匹配的情况，以提高利用JDE多目标跟踪算法进行图像跟踪处理的准确率的问题。

为实现上述目的，本申请提供一种基于多目标跟踪算法的图像处理方法，包括以下步骤：

获取待处理的视频帧，并利用JDE多目标跟踪算法提取所述视频帧对应的特征图，其中，所述JDE多目标跟踪算法的检测头中的卷积单元为可变形卷积单元；

利用所述可变形卷积单元，从所述特征图中提取每个检测框中的特征点对应的偏移量；

根据每个所述检测框中的特征点对应的偏移量，确定每个所述检测框的位置信息；以及，

根据每个所述检测框中的特征点对应的偏移量，提取每个所述检测框中的初始锚点对应的特征向量；

将每个所述检测框的所述位置信息，与每个所述检测框中的初始锚点对应的特征向量进行关联，并将关联后的所述特征向量作为所述检测头的输出，以基于关联后的所述特征向量执行所述视频帧对应的图像跟踪处理。

进一步地，所述根据每个所述检测框中的特征点对应的偏移量，确定每个所述检测框的位置信息的步骤包括：

根据每个所述检测框中的各个特征点对应的偏移量，确定每个所述检测框中的各个所述特征点对应的X轴方向上的第一分量，以及Y轴方向上的第二分量；

确定每个所述检测框对应的数值最小的所述第一分量、数值最大的所述第一分量、数值最小的所述第二分量和数值最大的所述第二分量，并获取每个所述检测框对应的中心点坐标；

根据每个所述检测框对应的数值最小的所述第一分量、数值最大的所述第一分量、数值最小的所述第二分量、数值最大的所述第二分量和所述中心点坐标，确定每个所述检测框对应的位置信息。

进一步地，所述将关联后的所述特征向量作为所述检测头的输出的步骤之后，还包括：

在执行所述视频帧对应的图像跟踪处理时，根据每个所述初始锚点对应的关联后的所述特征向量，计算特征向量损失；以及，

获取每个所述初始锚点对应的检测框位置回归和检测框类别，并根据每个所述初始锚点对应的检测框位置回归，计算检测框位置回归损失，以及根据每个所述初始锚点对应的检测框类别，计算检测框类别损失；

根据所述特征向量损失、所述检测框位置回归损失和所述检测框类别损失，计算所述JDE多目标跟踪算法对应的模型总损失。

进一步地，所述获取待处理的视频帧，并利用JDE多目标跟踪算法提取所述视频帧对应的特征图的步骤之前，还包括：

基于所述JDE多目标跟踪算法构建多目标跟踪模型；

所述根据所述特征向量损失、所述检测框位置回归损失和所述检测框类别损失，计算所述JDE多目标跟踪算法对应的模型总损失的步骤之后，还包括：

检测所述模型总损失是否满足预设条件；

若是，判定所述多目标跟踪模型训练完成，并将训练完成的所述多目标跟踪模型存储至区块链网络；

若否，返回执行所述获取待处理的视频帧，并利用JDE多目标跟踪算法提取所述视频帧对应的特征图的步骤。

进一步地，所述判定所述多目标跟踪模型训练完成的步骤之后，还包括：

接收到目标视频时，将所述目标视频切分为多个目标视频帧；

将多个所述目标视频帧输入到训练完成的所述多目标跟踪模型中进行分析，以预测所述目标视频对应的多目标跟踪结果；

根据所述多目标跟踪结果对所述目标视频进行标注。

进一步地，所述根据所述多目标跟踪结果对所述目标视频进行标注的步骤之后，还包括：

接收到标注后的所述目标视频的确认操作时，根据多个所述目标视频帧和所述多目标跟踪结果生成训练样本；

根据所述训练样本更新所述多目标跟踪模型。

进一步地，所述预设条件包括：

所述模型总损失小于预设阈值；

所述模型总损失对应的变化率小于预设变化率。

为实现上述目的，本申请还提供一种基于多目标跟踪算法的图像处理装置，所述基于多目标跟踪算法的图像处理装置包括：

处理模块，用于获取待处理的视频帧，并利用JDE多目标跟踪算法提取所述视频帧对应的特征图，其中，所述JDE多目标跟踪算法的检测头中的卷积单元为可变形卷积单元；

卷积模块，用于利用所述可变形卷积单元，从所述特征图中提取每个检测框中的特征点对应的偏移量；

定位模块，用于根据每个所述检测框中的特征点对应的偏移量，确定每个所述检测框的位置信息；以及，

提取模块，用于根据每个所述检测框中的特征点对应的偏移量，提取每个所述检测框中的初始锚点对应的特征向量；

关联模块，用于将每个所述检测框的所述位置信息，与每个所述检测框中的初始锚点对应的特征向量进行关联，并将关联后的所述特征向量作为所述检测头的输出，以基于关联后的所述特征向量执行所述视频帧对应的图像跟踪处理。

为实现上述目的，本申请还提供一种计算机设备，所述计算机设备包括：

所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上述基于多目标跟踪算法的图像处理方法的步骤。

为实现上述目的，本申请还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述基于多目标跟踪算法的图像处理方法的步骤。

本申请提供的基于多目标跟踪算法的图像处理方法、基于多目标跟踪算法的图像处理装置、计算机设备以及计算机可读存储介质，通过在JDE多目标跟踪算法中，利用可变形卷积提取各检测框关联的偏移量，以此确定检测框的位置信息，并通过检测框与初始锚点的对应关系，以及初始锚点与特征向量的对应关系，可以快速地将检测框的位置信息与特征向量关联输出，从而避免在JDE后续进行图像跟踪并提取图像特征的过程中，出现特征向量与检测框不匹配的情况，进而提高了利用JDE算法进行图像跟踪处理的准确率。

附图说明

图1为本申请一实施例中基于多目标跟踪算法的图像处理方法步骤示意图；

图2为本申请一实施例的基于多目标跟踪算法的图像处理装置示意框图；

图3为本申请一实施例的计算机设备的结构示意框图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

参照图1，在一实施例中，所述基于多目标跟踪算法的图像处理方法包括：

步骤S10、获取待处理的视频帧，并利用JDE多目标跟踪算法提取所述视频帧对应的特征图，其中，所述JDE多目标跟踪算法的检测头中的卷积单元为可变形卷积单元；

步骤S20、利用所述可变形卷积单元，从所述特征图中提取每个检测框中的特征点对应的偏移量；

步骤S30、根据每个所述检测框中的特征点对应的偏移量，确定每个所述检测框的位置信息；以及，

步骤S40、根据每个所述检测框中的特征点对应的偏移量，提取每个所述检测框中的初始锚点对应的特征向量；

步骤S50、将每个所述检测框的所述位置信息，与每个所述检测框中的初始锚点对应的特征向量进行关联，并将关联后的所述特征向量作为所述检测头的输出，以基于关联后的所述特征向量执行所述视频帧对应的图像跟踪处理。

本实施例中，实施例终端可以是计算机设备，也可以是一种基于多目标跟踪算法的特征提取装置。

如步骤S10所述：终端基于JDE(Joint Learning of Detection and Embedding)多目标跟踪算法构建有多目标跟踪模型；而且，本实施例所采用的JDE多目标跟踪算法的检测头(Prediction Head)中的卷积单元为可变形卷积单元；其中，本实施例方法的应用，可以是应用在对所述多目标跟踪模型进行训练的场景，也可以是应用在利用训练完成的多目标跟踪模块识别目标图像的场景。

需要说明的是，目标跟踪要求在给定的视频中，对指定的物体——有时会指定某些类别的所有物体，确定其在每一视频帧上的位置，并将不同视频帧上的相同物体进行关联，从而得到每个指定物体的完整运动轨迹。而多目标跟踪，则是在同一视频帧或视频中对多个目标进行跟踪。

可选的，当终端检测到有视频输入后，则将该视频切分为多个视频帧(或称图像帧)，这些视频帧即为待处理的视频帧。

可选的，终端将每个视频帧均输入到多目标跟踪模型中，然后输入的视频帧会经过基于JDE的backbone网络模块进行正向传递，以获得三个比例的特征图，即分别对应为1/32、1/16和1/8的下采样率的比例。其中，将最小尺寸的特征图记为第一特征图，将尺寸最大的特征图记为第三特征图，将尺寸处于第一特征图和第三特征图之间的特征图记为第二特征图。

进一步地，多目标跟踪模型会将第一特征图(语义上的最强特征图)进行上采样处理，以增大第一特征图的尺寸(使第一特征图变得和第二特征图一样大)，然后将处理后的第一特征图与第二特征图通过跳跃式传递(skip connection)进行融合，得到第一融合特征图。

进一步地，将第一融合特征图进行上采样处理，以增大第一融合特征图的尺寸(使第一融合特征图变得和第二特征图一样大)，然后将处理后的第一融合特征图与第三特征图通过跳跃式传递(skip connection)进行融合，得到第二融合特征图。

然后，将同一视频帧对应的第一特征图、第一融合特征图和第二融合特征图，作为同一特征图集合，且将该集合中的特征图用于执行步骤S20。

如步骤S20所述：在JDE的检测头中，由多个堆叠的卷积层组成，而在本实施例中，每个卷积层中的卷积单元为可变形卷积单元。而且所述检测头中一般设置有多个检测框(Bounding-Box)。需要说明的是，可变形卷积或者称为变形卷积。

当然，终端可以是在检测头原有的卷积层的基础上，将标准卷积单元升级为可变形卷积单元。

可选的，当终端得到每个视频帧对应的特征图集合后，则将检测头加到每个特征图集合中的每个特征图上，利用每个检测框对每个特征图进行特征提取(或称特征预测)，并利用可变形卷积单元，对每个特征图进行可变形卷积操作，从而得到每个检测框对应的偏移量(offset)。

可选的，对于一个检测框，一般包括多个特征点(或称采样点)，且与检测框中心点重合的特征点一般称为初始锚点(anchor)。例如，对于3*3卷积核的采样方式，对应有3*3个特征点的检测框，而且在这样一个九宫格样式的检测框中，其九宫格中心的特征点即为初始锚点。

可选的，在可变形卷积单元中，可提供用于提取偏移量的第一卷积操作，以及提供一种普通的卷积操作(或称标准卷积操作，记为第二卷积操作)。

可选的，在利用可变形卷积单元对特征图执行可变形卷积操作的过程中，通过对特征图执行第一卷积操作，可从特征图中学习并提取得到每个检测框中的每个特征点对应的偏移量(即每个特征点即可得到一个与之对应的偏移量)，而同一检测框对应的所有特征点的偏移量的集合，均为该检测框对应的偏移量。

如步骤S30所述：可选的，对于每个偏移量，均可拆分为X轴方向上的第一分量和Y轴方向上的第二分量。应当理解的是，X轴和Y轴均为以视频帧(或特征图)为平面构建的平面直角坐标系中的坐标轴。

可选的，根据每个所述检测框中的各个特征点对应的偏移量，确定每个所述检测框中的各个所述特征点对应的X轴方向上的第一分量，以及Y轴方向上的第二分量；确定每个所述检测框对应的数值最小的所述第一分量、数值最大的所述第一分量、数值最小的所述第二分量和数值最大的所述第二分量，并获取每个所述检测框对应的中心点坐标；根据每个所述检测框对应的数值最小的所述第一分量、数值最大的所述第一分量、数值最小的所述第二分量、数值最大的所述第二分量和所述中心点坐标，确定每个所述检测框对应的位置信息。

其中，根据每个检测框对应的每个特征点的偏移量，分别确定每个特征点对应的第一分量和第二分量，并将每个特征点对应的第一分量和第二分量，与每个特征点对应的检测框关联。

进一步地，分别确定每个检测框关联的第一分量中，数值最小的第一分量X_min，以及确定数值最大的第一分量X_max；分别确定每个检测框关联的第二分量中，数值最小的第二分量Y_min，以及确定数值最大的第二分量Y_max。

同时，获取每个检测框对应的中心点坐标(X0，Y0)。其中，检测框的中心点坐标，即为该检测框对应的初始锚点的检测位置坐标，而且一般初始锚点的检测位置坐标，是在检测框对特征图进行特征提取时即已知的，因此该检测位置坐标可直接获取得到。

可选的，根据每个检测框对应的数值最小的第一分量X_min、数值最大的第一分量X_max、数值最小的第二分量Y_min、数值最大的第二分量Y_max和中心点坐标(X0，Y0)，即可分别计算每个检测框对应的四个边框角点的坐标。

其中，第一个边框角点的坐标为(X_min+X0，Y_min+Y0)；第二个边框角点的坐标为(X_min+X0，Y_max+Y0)；第三个边框角点的坐标为(X_max+X0，Y_max+Y0)；第四个边框角点的坐标为(X_max+X0，Y_min+Y0)。

可选的，终端在得到每个检测框对应的四个边框角点的坐标后，即可将四个边框角点的坐标的集合，作为检测框对应的位置信息。当然，每个检测框对应的位置信息还可以包括每个检测框对应的中心点坐标。

或者，终端也可以是利用每个检测框对应的四个边框角点，计算每个检测框对应的各边长度，进而得到每个检测框对应的边框矩形；然后任选一个边框角点作为标志点，并将标志点的坐标，以及标志点与边框矩形之间的相对位置关系，共同作为位置信息。应当理解的是，标志点必定位于边框矩形的其中一个边角上。

或者，终端也可以是直接利用每个检测框对应的数值最小的第一分量X_min、数值最大的第一分量X_max、数值最小的第二分量Y_min和数值最大的第二分量Y_max，确定每个检测框对应的边框矩形；以及，利用每个检测框对应的中心点坐标，以及数值最小的第一分量X_min、数值最大的第一分量X_max、数值最小的第二分量Y_min和数值最大的第二分量Y_max中的至少一个，确定每个检测框对应的任一边框角点的坐标，并将该边框角点作为标志点；然后，基于每个检测框对应的标志点的坐标，以及标志点与边框矩形之间的相对位置关系，生成每个检测框对应的位置信息。

如步骤S40所述：在利用可变形卷积单元对特征图执行可变形卷积操作，以提取每个检测框中的特征点对应的偏移量的同时，还会对原始输入到可变形卷积单元的特征图执行普通的卷积操作(即第二卷积操作)。即第一卷积操作和第二卷积操作，均是针对原始输入的同一特征图并行执行的。

可选的，在检测头中，对于检测网络的每一个检测框对应的初始锚点，JDE都需要相应产生一个对应的检测框类别(Box classification，分为前景和背景，或称前景和背景分类)、检测框位置回归(Box regression)以及与图像跟踪强相关的特征向量(Embedding)，作为检测头的输出。

其中，对于每个初始锚点对应的特征向量的生成过程为：在对特征图执行第二卷积操作得到相应的卷积结果后，利用卷积结果与卷积核之间的第一对应关系，以及检测框与卷积核之间的第二对应关系，建立每个卷积核中的各特征点与卷积结果的第三对应关系；再基于第三对应关系，将每个检测框中的所有特征点对应的偏移量，分别加到卷积结果中各特征点对应的卷积特征上，即可分别得到每个检测框对应的特征向量；然后再将每个检测框对应的特征向量，与每个检测框对应的初始锚点关联，即可得到每个初始锚点对应的特征向量(记为第一特征向量)。

如步骤S50所述：在终端得到每个检测框对应的位置信息，以及每个检测框中的初始锚点对应的特征向量后，则将每个检测框对应的位置信息，与每个检测框中的初始锚点对应的特征向量进行关联，得到与相应的初始锚点对应的检测框的位置信息关联后的特征向量(记为第二特征向量)，然后输出每个初始锚点对应的第二特征向量。

其中，当终端将检测框的位置信息与相应的特征向量进行关联时，可以是生成相应的关联信息，并关联信息中记录每个特征向量(即第二特征向量)对应的检测框的位置信息，当检测头将第二特征向量输出后，当终端需要查询并调用任一第二特征向量对应的检测框的位置信息时，则可以基于关联信息进行查询；或者，在将每个检测框对应的位置信息，与每个检测框中的初始锚点对应的特征向量进行关联后，得到第二特征向量时，当检测头输出第二特征向量时，则将第二特征向量与第二特征向量对应的检测框的位置信息，作为同一数据组，并以数据组为单位，将第二特征向量与对应的位置信息进行关联输出。

进一步地，由于检测头除了输出与检测框的位置信息关联后的特征向量(即第二特征向量)外，还会并行输出每个初始锚点对应的检测框类别和检测框位置回归，然后终端基于每个初始锚点对应的第二特征向量、检测框类别和检测框位置回归，执行后续的对所述视频帧对应的图像跟踪处理(即执行传统JDE算法在检测头处理特征图之后的算法步骤，且具体算法步骤的执行，本实施例对此不作赘述，可直接参考传统JDE算法)。

其中，所述检测框类别一般包括检测图像属于前景图像的置信值，以及检测图像属于背景图像的置信值；所述检测框位置回归一般包括了检测框的位置信息，因此所述检测框位置回归可以基于步骤S30的执行得到，也可以是沿用常规的JDE计算检测框位置回归的方式计算得到。

需要说明的是，虽然一般的JDE网络架构能够同时完成检测框相应的预测操作，以及提取相应的特征向量，但是这样得到的特征向量只与初始锚点相关，并没有与检测框强相关，这样在JDE后续进行图像跟踪并提取相应的图像特征的过程中，就可能会出现特征向量与检测框不匹配的情况，进而影响图像特征提取的准确率。而在本实施例中，通过加入可变形卷积操作，虽然将特征向量提取的操作后置在检测框相应的预测操作之后，将原来一个步骤拆分为两个步骤，但却能使得最终得到的特征向量与相应的检测框的位置信息关联起来，这样在JDE后续进行图像跟踪并提取图像特征的过程中，就可以避免出现特征向量与检测框不匹配的情况，进而提高了JDE算法提取图像特征的准确率。

此外，虽然在JDE网络架构中采用ROI Align方法或ROI Pooling方法做特征匹配，从直观上来看也能起到匹配检测框的特征区域的作用，进而避免出现特征向量与检测框不匹配的情况，但所需的计算量却很大，而本实施例进行特征匹配所需的计算量就相应比较少。以3*3的卷积核为例，ROI Align方法(或ROI Pooling方法)在特征层面上一般需要进行49(即72)次插值，而本实施例方案的实施只需在特征层面上进行9次插值，因此相应的运算速度更快，更适合应用于实时多目标跟踪中完成特征匹配。故，本申请实施例的实施，还有利于提高在多目标跟踪中完成特征匹配的效率。

在一实施例中，通过在JDE多目标跟踪算法中，利用可变形卷积提取各检测框关联的偏移量，以此确定检测框的位置信息，并通过检测框与初始锚点的对应关系，以及初始锚点与特征向量的对应关系，可以快速地将检测框的位置信息与特征向量关联输出，从而避免在JDE后续进行图像跟踪并提取图像特征的过程中，出现特征向量与检测框不匹配的情况，进而提高了利用JDE算法进行图像跟踪处理的准确率。

在一实施例中，在上述实施例基础上，所述将关联后的所述特征向量作为所述检测头的输出的步骤之后，还包括：

步骤S60、在执行所述视频帧对应的图像跟踪处理时，根据每个所述初始锚点对应的关联后的所述特征向量，计算特征向量损失；以及，

步骤S61、获取每个所述初始锚点对应的检测框位置回归和检测框类别，并根据每个所述初始锚点对应的检测框位置回归，计算检测框位置回归损失，以及根据每个所述初始锚点对应的检测框类别，计算检测框类别损失；

步骤S62、根据所述特征向量损失、所述检测框位置回归损失和所述检测框类别损失，计算所述JDE多目标跟踪算法对应的模型总损失。

本实施例中，所述基于多目标跟踪算法的图像处理方法，应用在对基于JDE构建的多目标跟踪模型进行训练的场景。

可选的，在步骤S10之前，在终端上训练多目标跟踪模型的相关工程师，可以根据多目标跟踪模型的应用场景，收集相关类型的视频样本作为多目标跟踪模型的训练样本，并对训练样本进行标注。

例如，对于用于行人检测的多目标跟踪模型，相关工程师可以收集多个个关于行人检测和人员搜索的公开可用数据集，以形成统一的大规模多标签数据集。并在这个统一的数据集中，标注出行人边界框，以及一部分(或全部)行人的身份，以此形成标注完成的训练样本。

然后，当工程师将多个训练样本输入到终端时，终端将各训练样本对应的视频切分为多个视频帧，然后基于每个视频帧均执行步骤S10-S50，以对多个视频帧(或视频)进行图像跟踪处理，并在此过程中，不断训练和优化多目标跟踪模型的模型参数。

可选的，在检测头中对特征图执行相应的卷积操作时，除了生成与检测框的位置信息关联后的特征向量(即第二特征向量)外，还会并行生成每个初始锚点对应的检测框类别和检测框位置回归。一般地，预测头在对特征图执行相应的卷积操作后，会相应得到大小为(6A+D)×H×W的密集预测图，其中A为初始锚点的模板数量，D是嵌入的维数(与初始锚点采样的特征图的厚度一致)，H和W分别是输出图像的长度和宽度(与初始锚点采样的特征图的尺寸一致)；在密集预测图中分为三部分，一般2A×H×W部分即为检测框类别、4A×H×W部分即为检测框位置回归、D×H×W部分即为特征向量，而本申请实施例中，密集预测图中的特征向量已预先关联有相应的检测框的位置信息，即本申请密集预测图中的特征向量已是第二特征向量。

可选的，终端基于检测头输出的密集预测图，即可获取得到每个初始锚点对应的第二特征向量、检测框类别和检测框位置回归。

进一步地，终端每次获取得到每个初始锚点对应的关联后的特征向量(即第二特征向量)、检测框类别和检测框位置回归时，都会相应计算出特征向量损失、检测框位置回归损失和检测框类别损失。

可选的，当终端在计算特征向量损失时，可以是利用全连结层根据每个初始锚点对应的第二特征向量，以及根据第二特征向量对应的检测框的位置信息，提取每个第二特征向量对应的的高级语义信息(track ID，或称高级语义特征)；然后将每个初始锚点对应的第二特征向量的高级语义信息，代入到预设的用于分类任务的交叉熵损失函数中进行计算，以计算特征向量损失。其中，由于第二特征向量与相应的检测框的位置信息一一对应，因此全连接层在提取第二特征向量对应的高级语义信息时，可直接获取第二特征向量对应的检测框的位置信息；而无需再通过先查询特征向量(即未关联位置信息的特征向量)对应的初始锚点，然后再查询初始锚点对应的检测框，最后再获取查询得到的检测框对应的位置信息与特征向量匹配，从而避免在这过程中可能出现查询得到的位置信息与特征向量不匹配的情况。

可选的，当终端根据每个初始锚点对应的检测框位置回归，计算检测框位置回归损失时，直接采用常规的JDE计算检测框类别损失的方式即可，即将每个初始锚点对应的检测框位置回归，代入到预设的smooth_L1损失函数中进行计算，以计算检测框类别损失。

可选的，当终端根据每个初始锚点对应的检测框类别，计算检测框类别损失时，直接采用常规的JDE计算检测框类别损失的方式即可，即将每个初始锚点对应的检测框类别，代入到预设的softmax损失函数中进行计算，以计算检测框类别损失。

可选的，由于JDE中每个预测头的学习目标可以建模为多任务学习问题，因此根据所述特征向量损失、所述检测框位置回归损失和所述检测框类别损失，计算加权线性损失总和，即可得到基于所述JDE多目标跟踪算法构建的多目标跟踪模型的模型总损失。

其中，所述模型总损失是用于优化所述多目标跟踪模型的模型参数的，终端通过利用训练样本不断训练多目标跟踪模型，以不断减少模型总损失，其过程即是对多目标跟踪模型进行不断优化的过程。而且当模型总损失减少至预设阈值后，即可判定多目标跟踪模型达到收敛，并判定多目标跟踪模型训练完成。

需要说明的是，在常规的JDE中，由于检测头一般是直接并行输出每个初始锚点对应的第一特征向量(该特征向量未关联有检测框的位置信息)、检测框类别和检测框位置回归(即作为同一密集预测图进行输出)，因此在检测头的检测之后，需要通过卡尔曼滤波和匈牙利算法进行目标匹配，以将检测图像(即视频帧)对应的检测框位置和检测框内物体(如在行人检测中，该物体即为行人)的特征向量进行匹配，因此可能会存在多个检测框(或初始锚点)对应一个物体的情况，甚至可能会出现同一个检测框可能会对应不同的物体的情况，假如一张图像中有两个相邻的人，并且存在一个检测框和这两个人的交集都很大，在前后两个不同的时刻对应的视频帧中，因为人或相机微小的运动，可能导致该检测框需要输出两个截然不同的身份标识，从而在很大程度上增加了网络学习的难度。

而在本实施例对JDE算法进行改进后的方案中，检测头会并行输出每个初始锚点对应的第二特征向量(该特征向量关联有检测框的位置信息)、检测框类别和检测框位置回归，而根据检测框的位置信息即可得到检测框位置，相当于第二特征向量已与检测框位置进行匹配，可以避免JDE算法后续进行目标匹配时会出现特征向量与检测框不匹配的情况，因此在此基础上利用第二特征向量计算得到的模型总损失也更为准确，进而能基于模型总损失更好地对基于JDE算法构建的多目标跟踪模型进行优化，故而最终可以训练得到高准确率的多目标跟踪模型。

这样，在提高了计算基于JDE算法构建的多目标跟踪模型的模型总损失的准确率，进而基于模型总损失优化多目标跟踪模型时，可以得到高准确率的多目标跟踪模型。

在一实施例中，在上述实施例基础上，所述获取待处理的视频帧，并利用JDE多目标跟踪算法提取所述视频帧对应的特征图的步骤之前，还包括：

步骤S70、基于所述JDE多目标跟踪算法构建多目标跟踪模型；

步骤S80、检测所述模型总损失是否满足预设条件；

步骤S81、若是，判定所述多目标跟踪模型训练完成；

步骤S82、若否，返回执行所述获取待处理的视频帧，并利用JDE多目标跟踪算法提取所述视频帧对应的特征图的步骤。

本实施例中，所述基于多目标跟踪算法的图像处理方法，应用在对基于JDE构建的多目标跟踪模型进行训练的场景。其中，在步骤S10之后，终端基于JDE多目标跟踪算法构建有多目标跟踪模型。

可选的，当终端利用多个训练样本对多目标跟踪模型进行训练的过程中，当终端计算得到模型总损失(JDE多目标跟踪算法对应的模型总损失，即为多目标跟踪模型的模型总损失)时，则进一步检测模型总损失是否满足预设条件。

其中，所述预设条件可以是模型总损失小于预设阈值(具体取值可根据实际情况需要设)；例如，当终端检测到模型总损失小于预设阈值，则判定模型总损失满足预设条件；当终端检测到模型总损失大于或等于预设阈值，则判定模型总损失不满足预设条件。

可选的，所述预设条件除了包括模型总损失小于预设阈值之外，还包括当次模型总损失大于或等于上一次模型总损失；若终端检测到这两个条件均满足(说明模型总损失已经达到最优值)，则判定模型总损失满足预设条件；若终端检测到这两个条件有至少一个不满足，则判定模型总损失不满足预设条件。

可选的，所述预设条件除了包括模型总损失小于预设阈值之外，还包括所述模型总损失对应的变化率小于预设变化率；其中，所述模型总损失对应的变化率，根据当次计算得到的模型总损失，与上一次计算得到的模型总损失，共同计算得到；所述预设变化率，用于衡量多目标跟踪模型是否达到收敛(即当模型总损失对应的变化率小于预设变化率时，判定模型达到收敛；当模型总损失对应的变化率大于或等于预设变化率时，判定模型未达到收敛)，可根据实际情况需要设置。若终端检测到这两个条件有至少一个不满足，则判定模型总损失不满足预设条件。

可选的，当终端检测到模型总损失小于预设阈值时，可以进一步根据当次计算得到的模型总损失，与上一次计算得到的模型总损失，计算模型总损失对应的变化率，并在检测到该变化率小于预设变化率时，判定预设条件满足；子啊检测到该变化率大于或等于预设变化率时，判定预设条件不满足。这样，可以提高终端训练多目标跟踪模型的模型精度，同时提高训练多目标跟踪模型的效率。

可选的，当终端检测到当前的模型总损失满足预设条件时，则判定多目标跟踪模型训练完成，且训练完成的多目标跟踪模型可应用于与训练样本同一类型的待处理视频中，进行多目标检测。

可选的，当终端检测到当前的模型总损失不满足预设条件时，则判定多目标跟踪模型未训练完成，并返回执行所述获取待处理的视频帧，并利用JDE多目标跟踪算法提取所述视频帧对应的特征图的步骤(即步骤S10)，以通过循环执行步骤S10-S50，以及步骤S60-S62，以对模型总损失进行优化，并优化多目标跟踪模型的模型参数。

这样，可以提高训练得到的多目标跟踪模型进行多目标跟踪的准确率。

在一实施例中，在上述实施例基础上，所述判定所述多目标跟踪模型训练完成的步骤之后，还包括：

步骤S90、接收到目标视频时，将所述目标视频切分为多个目标视频帧；

步骤S91、将多个所述目标视频帧输入到训练完成的所述多目标跟踪模型中进行分析，以预测所述目标视频对应的多目标跟踪结果；

步骤S92、根据所述多目标跟踪结果对所述目标视频进行标注。

本实施例中，当终端得到训练完成的多目标跟踪模型之后，当接收到待进行多目标跟踪处理的目标视频时，则将目标视频切分为多个目标视频帧。

进一步地，终端将目标视频对应的多个目标视频帧输入到训练完成的多目标跟踪模型中进行分析。当多目标跟踪模型接收到输入的多个目标视频帧时，针对每个目标视频帧，均会执行步骤S10-S50，以基于此对每个目标视频帧执行图像跟踪处理，进而追踪得到目标视频帧中各个检查目标在图中的位置，作为多目标跟踪结果进行输出。

当然，多目标跟踪模型除了识别已有目标视频中的多个检测目标的位置之外，还可以基于已有的目标视频学习各个检测目标的位置的变化趋势，进而预测各个目标未来的位置，并将位置预测一同作为多目标跟踪结果进行输出。

可选的，当终端利用多目标跟踪模型得到目标视频对应的多目标跟踪结果后，则可以在目标视频中标注出各个检测目标的位置。若目标视频为即时视频，终端可以还可以基于位置预测，在即时更新的目标视频中对检测目标进行实时标注。即对于目标视频中最新帧画面，无需将其输入到多目标跟踪模型中进行预测，即可标注出该帧画面上各个检测目标的位置，只需在最新帧画面更新后，再将原最新帧画面输入到多目标跟踪模型中进行学习，以加强多目标跟踪模型对各个检测目标的位置的变化趋势的预测。

这样，基于本实施例改进后JDE算法构建的多目标检测模型，来对视频进行多目标跟踪时，可以提高多目标跟踪的准确性的同时，基于多目标跟踪中完成特征匹配的效率的提高，还可以满足在视频中进行多目标跟踪所需的高实时性的需求。

在一实施例中，在上述实施例基础上，所述根据所述多目标跟踪结果对所述目标视频进行标注的步骤之后，还包括：

步骤S100、接收到标注后的所述目标视频的确认操作时，根据多个所述目标视频帧和所述多目标跟踪结果生成训练样本；

步骤S101、根据所述训练样本更新所述多目标跟踪模型。

本实施例中，当终端基于多目标跟踪模型输出的多目标跟踪结果对目标视频进行标注后，若相关工作人员发现终端标注有误，则可以通过与终端关联的设备或终端的控制面板，向终端输入针对标注后的目标视频的否认操作。当终端接收到标注后的目标视频对应的否认操作时，则将当前多目标跟踪模型重新更新为未训练完成的多目标跟踪模型，并基于此返回执行步骤S10，在现有模型的基础上重新对多目标跟踪模型进行训练更新。

可选的，当终端基于多目标跟踪模型输出的多目标跟踪结果对目标视频进行标注后，若相关工作人员发现终端标注无误，则可以通过与终端关联的设备或终端的控制面板，向终端输入针对标注后的目标视频的确认操作。或者，当终端对目标视频进行标注后的预设时长之内，未接收到标注后的目标视频对应的否认操作时，则判定接收到标注后的目标视频对应的确认操作。

可选的，接收到标注后的所述目标视频的确认操作时，则根据所述目标视频对应的多个所述目标视频帧，以及所述目标视频对应的所述多目标跟踪结果，生成训练样本(即新的训练样本)，并根据相应的多目标跟踪结果对样本中的每个目标视频帧进行标注。

进一步地，当终端检测到多目标跟踪模型处于空闲状态时，则可以利用新生成的训练样本对多目标跟踪模型进行训练更新，以优化多目标跟踪模型的模型参数。

这样，可以进一步提高多目标跟踪模型进行多目标跟踪的准确率。

步骤S110、将训练完成的所述多目标跟踪模型存储至区块链网络。

本实施例中，终端与区块链网络(Blockchain Network)建立有通信连接。区块链网络是通过共识的方式将新区块纳入区块链的一系列的节点的集合。

区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。

区块链底层平台可以包括用户管理、基础服务、智能合约以及运营监控等处理模块。其中，用户管理模块负责所有区块链参与者的身份信息管理，包括维护公私钥生成(账户管理)、密钥管理以及用户真实身份和区块链地址对应关系维护(权限管理)等，并且在授权的情况下，监管和审计某些真实身份的交易情况，提供风险控制的规则配置(风控审计)；基础服务模块部署在所有区块链节点设备上，用来验证业务请求的有效性，并对有效请求完成共识后记录到存储上，对于一个新的业务请求，基础服务先对接口适配解析和鉴权处理(接口适配)，然后通过共识算法将业务信息加密(共识管理)，在加密之后完整一致的传输至共享账本上(网络通信)，并进行记录存储；智能合约模块负责合约的注册发行以及合约触发和合约执行，开发人员可以通过某种编程语言定义合约逻辑，发布到区块链上(合约注册)，根据合约条款的逻辑，调用密钥或者其它的事件触发执行，完成合约逻辑，同时还提供对合约升级注销的功能；运营监控模块主要负责产品发布过程中的部署、配置的修改、合约设置、云适配以及产品运行中的实时状态的可视化输出，例如：告警、监控网络情况、监控节点设备健康状态等。

可选的，当终端得到训练完成的所述多目标跟踪模型后，则可以将多目标跟踪模型上传至区块链网络中进行存储。

这样，不仅可以提高多目标跟踪模型存储的安全性和节约本地存储空间，而且还可以方便各合法终端从区块链模块中获取多目标跟踪模型，以快速将多目标跟踪模型投入到实际应用中。各合法终端只需接入到任一区块链网络节点，即可获取得到同一多目标跟踪模型，十分方便高效。

而且当任一合法终端本地的多目标跟踪模型有更新时，该合法终端即可将更新后的多目标跟踪模型(或者只上传更新部分的模型参数即可)同步更新到区块链网络中，使得多目标跟踪模型的性能可以得到更好的优化。

参照图2，本申请实施例中还提供一种基于多目标跟踪算法的图像处理装置10，包括：

处理模块11，用于获取待处理的视频帧，并利用JDE多目标跟踪算法提取所述视频帧对应的特征图，其中，所述JDE多目标跟踪算法的检测头中的卷积单元为可变形卷积单元；

卷积模块12，用于利用所述可变形卷积单元，从所述特征图中提取每个检测框中的特征点对应的偏移量；

定位模块13，用于根据每个所述检测框中的特征点对应的偏移量，确定每个所述检测框的位置信息；以及，

提取模块14，用于根据每个所述检测框中的特征点对应的偏移量，提取每个所述检测框中的初始锚点对应的特征向量；

关联模块15，用于将每个所述检测框的所述位置信息，与每个所述检测框中的初始锚点对应的特征向量进行关联，并将关联后的所述特征向量作为所述检测头的输出，以基于关联后的所述特征向量执行所述视频帧对应的图像跟踪处理。

参照图3，本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储基于多目标跟踪算法的图像处理方法的相关数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于多目标跟踪算法的图像处理方法。

本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定。

此外，本申请还提出一种计算机可读存储介质，所述计算机可读存储介质包括计算机程序，所述计算机程序被处理器执行时实现如以上实施例所述的基于多目标跟踪算法的图像处理方法的步骤。可以理解的是，本实施例中的计算机可读存储介质可以是易失性可读存储介质，也可以为非易失性可读存储介质。

综上所述，为本申请实施例中提供的基于多目标跟踪算法的图像处理方法、基于多目标跟踪算法的图像处理装置、计算机设备和存储介质，通过在JDE多目标跟踪算法中，利用可变形卷积提取各检测框关联的偏移量，以此确定检测框的位置信息，并通过检测框与初始锚点的对应关系，以及初始锚点与特征向量的对应关系，可以快速将检测框的位置信息与特征向量关联输出，从而避免在JDE后续进行图像跟踪并提取图像特征的过程中，出现特征向量与检测框不匹配的情况，进而提高了利用JDE算法进行图像跟踪处理的准确率。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM通过多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其它要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其它相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种基于多目标跟踪算法的图像处理方法，其特征在于，包括：

2.如权利要求1所述的基于多目标跟踪算法的图像处理方法，其特征在于，所述根据每个所述检测框中的特征点对应的偏移量，确定每个所述检测框的位置信息的步骤包括：

3.如权利要求1或2所述的基于多目标跟踪算法的图像处理方法，其特征在于，所述将关联后的所述特征向量作为所述检测头的输出的步骤之后，还包括：

4.如权利要求3所述的基于多目标跟踪算法的图像处理方法，其特征在于，所述获取待处理的视频帧，并利用JDE多目标跟踪算法提取所述视频帧对应的特征图的步骤之前，还包括：

基于所述JDE多目标跟踪算法构建多目标跟踪模型；

检测所述模型总损失是否满足预设条件；

5.如权利要求4所述的基于多目标跟踪算法的图像处理方法，其特征在于，所述判定所述多目标跟踪模型训练完成的步骤之后，还包括：

根据所述多目标跟踪结果对所述目标视频进行标注。

6.如权利要求5所述的基于多目标跟踪算法的图像处理方法，其特征在于，所述根据所述多目标跟踪结果对所述目标视频进行标注的步骤之后，还包括：

根据所述训练样本更新所述多目标跟踪模型。

7.如权利要求4所述的基于多目标跟踪算法的图像处理方法，其特征在于，所述预设条件包括：

所述模型总损失小于预设阈值；

所述模型总损失对应的变化率小于预设变化率。

8.一种基于多目标跟踪算法的图像处理装置，其特征在于，包括：

9.一种计算机设备，其特征在于，所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的基于多目标跟踪算法的图像处理方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的基于多目标跟踪算法的图像处理方法的步骤。