CN114022508A

CN114022508A - 一种目标跟踪方法、终端及计算机可读存储介质

Info

Publication number: CN114022508A
Application number: CN202111109706.8A
Authority: CN
Inventors: 叶乐乐; 张朋; 周祥明; 李庆
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2021-09-18
Filing date: 2021-09-18
Publication date: 2022-02-08

Abstract

本发明提供一种目标跟踪方法、终端及计算机可读存储介质，该目标跟踪方法通过对待处理图像进行目标检测，得到目标对象的关键点信息和与目标对象关联的至少一个检测框；根据关键点信息，确定目标对象的外接框；基于至少一个检测框中各个检测框和外接框的交叠信息，从至少一个检测框中确定出目标对象的跟踪框。本申请通过对待处理图像中的目标对象进行检测时，检测得到目标对象的关键点信息，根据目标对象的关键点信息筛选目标对象的检测框，进而提高目标对象检测框的可靠性，在可靠的跟踪框中确定目标对象的跟踪框，可以提高目标跟踪的准确性，还可以改善目标对象跟踪不稳定的情况。

Description

一种目标跟踪方法、终端及计算机可读存储介质

技术领域

本发明涉及图像识别技术领域，特别是涉及一种目标跟踪方法、终端及计算机可读存储介质。

背景技术

目标跟踪是一项融合图像处理、模式识别、人工智能、自动控制、传感器及导航定位等多种不同领域先进成果综合性应用技术，是军事、民用领域一项广泛应用的技术。现阶段对目标物的跟踪主要是基于视觉的目标检测识别与跟踪处理。目标的检测识别主要是对目标物进行定位和分类，目标跟踪处理则是对同样的目标物持续赋予同样的ID。在对视频帧中的目标物进行检测时，即使整个视频画面保持不变时，目标物就停在原地不动，检测得到的不同视频帧中的目标物的宽高比会发生变化，且检测到的目标物的位置也有所不同。由于检测得到的目标物的位置和宽高比等信息不准确，进而影响目标跟踪的结果。

发明内容

本发明主要解决的技术问题是提供一种目标跟踪方法、终端及计算机可读存储介质，解决现有技术中目标检测准确率低造成的目标跟踪不稳定的问题。

为解决上述技术问题，本发明采用的第一个技术方案是：提供一种目标跟踪方法，该目标跟踪方法包括：对待处理图像进行目标检测，得到目标对象的关键点信息和与目标对象关联的至少一个检测框；根据关键点信息，确定目标对象的外接框；基于至少一个检测框中各个检测框和外接框的交叠信息，从至少一个检测框中确定出目标对象的跟踪框。

其中，基于至少一个检测框中各个检测框和外接框的交叠信息，从至少一个检测框中确定出目标对象的跟踪框，包括：基于至少一个检测框中各个检测框和外接框的交叠信息，筛选出交叠信息符合预设交叠条件的检测框；从筛选出的各个检测框中，确定出目标对象的跟踪框。

其中，交叠信息包括对应的检测框和外接框的交并比；符合预设交叠条件的检测框包括交并比大于交并比阈值的检测框。

其中，关键点信息包括目标对象的轮廓关键点。

其中，从筛选出的各个检测框中，确定出目标对象的跟踪框，包括：基于筛选出的检测框中每两个检测框的交叠信息，将筛选出的各个检测框进行分组，得到检测框组；将每个目标对象分别与检测框组进行匹配；从与目标对象匹配的检测框组中，选取出目标对象在待处理图像中的跟踪框。

其中，基于筛选出的检测框中每两个检测框的交叠信息，将筛选出的各个检测框进行分组，得到检测框组，包括：选取筛选出的检测框中的一个检测框，并确定选取的检测框与其它检测框的交叠程度；将交叠程度超过预设交叠程度对应的检测框与选取的检测框聚类。

其中，待处理图像包括视频流中的当前帧图像；将每个目标对象分别与检测框组进行匹配，包括：在每一所述检测框组中选取一个检测框；确定选取的检测框与当前帧图像的上一帧图像中的跟踪框的交并比；选取最大交并比对应的检测框所在的检测框组与跟踪框对应的目标对象进行匹配。

其中，待处理图像包括视频流中的当前帧图像；从与目标对象匹配的检测框组中，选取出目标对象在待处理图像中的跟踪框的步骤具体包括：针对每个目标对象，分别进行如下操作：确定一个目标对象在参考视频帧中的跟踪框，参考视频帧包括视频流中当前帧图像之前的历史视频帧；基于与目标对象匹配的检测框组中每个检测框与目标对象在参考视频帧中的跟踪框的相似程度，从检测框组中确定出目标对象在当前帧图像中的跟踪框。

其中，基于与目标对象匹配的检测框组中每个检测框与目标对象在参考视频帧中的跟踪框的相似程度，从检测框组中确定出目标对象在当前帧图像中的跟踪框的步骤具体包括：根据参考视频帧中目标对象的跟踪框预测目标对象在当前帧图像中的第一预测框；分别确定检测框组中每一检测框与第一预测框的损失值；选取最小的损失值对应的检测框作为目标对象在当前帧图像中的跟踪框。

其中，损失值包括角点偏移损失、中心点偏移损失和面积损失；计算检测框组中每一检测框与第一预测框的损失值的步骤具体还包括：对角点偏移损失、中心点偏移损失和面积损失进行加权求和得到损失值。

其中，待处理图像包括视频流中的当前帧图像；目标跟踪方法还包括：判断目标对象在当前帧图像中的跟踪框的位置区域的偏移程度是否达到阈值；如果未超过阈值，则确定目标对象处于静止状态；如果超过阈值，则确定目标对象处于运动状态。

其中，关键点信息包括目标对象的中心关键点，判断目标对象在当前帧图像中的跟踪框的位置区域的偏移程度是否达到阈值，包括：基于视频流中当前帧图像之前的历史视频帧中包含目标对象的每一帧图像，确定目标对象的中心关键点的平均位置坐标；根据平均位置坐标设置预设范围；判断当前帧图像中的目标对象的中心关键点的坐标是否符合预设范围；如果未超过阈值，则确定目标对象处于静止状态，包括：如果目标对象的中心关键点的坐标符合预设范围，则确定目标对象处于静止状态；如果超过阈值，则确定目标对象处于运动状态，包括：如果目标对象的中心关键点的坐标不符合预设范围，则确定目标对象处于运动状态。

其中，如果未超过阈值，则确定目标对象处于静止状态，还包括：若目标对象的中心关键点的坐标符合预设范围，则将上一帧图像中目标对象的跟踪框作为目标对象在当前帧图像中的跟踪框进行更新。

其中，如果超过阈值，则确定目标对象处于运动状态，还包括：若目标对象的中心关键点的坐标不符合预设范围，则确定上一帧图像中目标对象的跟踪框与当前帧图像中目标对象的跟踪框的交并比；如果上一帧图像中目标对象的跟踪框与当前帧图像中目标对象的跟踪框的交并比超过预设交并比，则将当前帧图像中目标对象的跟踪框保留并进行更新。

其中，对待处理图像进行目标检测，得到目标对象的关键点信息和与目标对象关联的至少一个检测框的步骤之前还包括：采用目标检测网络模型对待处理图像进行目标检测；其中，目标检测网络模型是基于目标的关键点信息进行训练的。

其中，目标检测网络模型的训练过程包括：获取训练样本，训练样本包括由同一张包含目标的图像组成的训练视频流，图像包括标注目标的真实框以及目标的真实关键点；通过初始目标检测网络模型对图像进行目标检测，得到目标的第二预测框以及目标的预测关键点；通过目标的真实框与目标的第二预测框、目标的真实关键点与目标的预测关键点构建损失函数；利用损失函数对初始目标检测网络模型进行迭代训练得到目标检测网络模型。

为解决上述技术问题，本发明采用的第二个技术方案是：提供一种终端，该终端包括存储器、处理器以及存储于存储器中并在处理器上运行的计算机程序，处理器用于执行程序数据以实现上述的目标跟踪方法中的步骤。

为解决上述技术问题，本发明采用的第三个技术方案是：提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现上述目标跟踪方法中的步骤。

本发明的有益效果是：区别于现有技术的情况，提供的一种目标跟踪方法、终端及计算机可读存储介质，该目标跟踪方法通过对待处理图像进行目标检测，得到目标对象的关键点信息和与目标对象关联的至少一个检测框；根据关键点信息，确定目标对象的外接框；基于至少一个检测框中各个检测框和外接框的交叠信息，从至少一个检测框中确定出目标对象的跟踪框。本申请通过对待处理图像中的目标对象进行检测时，检测得到目标对象的关键点信息，根据目标对象的关键点信息筛选目标对象的检测框，进而提高目标对象检测框的可靠性，在可靠的跟踪框中确定目标对象的跟踪框，可以提高目标跟踪的准确性，还可以改善目标对象跟踪不稳定的情况。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明提供的目标跟踪方法的流程示意图；

图2是本发明提供的目标跟踪方法一具体实施例的流程示意图；

图3是图2提供的目标跟踪方法中步骤S21一具体实施例的流程示意图；

图4是本发明提供的目标跟踪方法中标注的训练样本的图片；

图5是本发明提供的对当前帧图像进行目标检测得到对应检测框的图片；

图6是图2提供的目标跟踪方法中步骤S25一具体实施例的流程示意图；

图7是本发明提供的当前帧图像中目标对象的跟踪框的图片；

图8是本发明提供的对目标对象进行检测和跟踪一具体实施例的流程示意图；

图9是本发明提供的终端一实施方式的示意框图；

图10是本发明提供的计算机可读存储介质一实施方式的示意框图。

具体实施方式

下面结合说明书附图，对本申请实施例的方案进行详细说明。

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、接口、技术之类的具体细节，以便透彻理解本申请。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。此外，本文中的“多”表示两个或者多于两个。

为使本领域的技术人员更好地理解本发明的技术方案，下面结合附图和具体实施方式对本发明所提供的一种目标跟踪方法做进一步详细描述。

请参阅图1，图1是本发明提供的目标跟踪方法的流程示意图。本实施例中提供一种目标跟踪方法，该目标跟踪方法包括如下步骤。

S11：对待处理图像进行目标检测，得到目标对象的关键点信息和与目标对象关联的至少一个检测框。

具体地，待处理图像包括视频流中的当前帧图像；当前帧图像中的目标对象可以为一个，也可以为多个。在一具体实施例中，采用目标检测网络模型对视频流中当前帧图像进行目标检测；其中，目标检测网络模型是基于目标对象的关键点信息进行训练的。采用目标检测网络模型对待处理图像进行目标检测，得到目标对象的轮廓关键点和中心关键点。且检测得出与目标对象关联的至少一个检测框。其中，针对一个目标对象可以检测得到一个检测框，也可以检测得到多个检测框。

S12：根据关键点信息，确定目标对象的外接框。

具体地，由于关键点信息包括目标对象的轮廓关键点。其中，目标对象的轮廓关键点可以为四个，也可以为五个。可以根据目标对象的不同，自行设定轮廓关键点额的数量。且检测的轮廓关键点处于目标对象的边沿处，根据四个轮廓关键点可以得到目标对象的外接框。

S13：基于至少一个检测框中各个检测框和外接框的交叠信息，从至少一个检测框中确定出目标对象的跟踪框。

具体地，基于至少一个检测框中各个检测框和外接框的交叠信息，筛选出交叠信息符合预设交叠条件的检测框；从筛选出的各个检测框中，确定出目标对象的跟踪框。其中，交叠信息包括对应的检测框和外接框的交并比；符合预设交叠条件的检测框包括交并比大于交并比阈值的检测框。

在一具体实施例中，基于筛选出的检测框中每两个检测框的交叠信息，将筛选出的各个检测框进行分组，得到检测框组；将每个目标对象分别与检测框组进行匹配；从与目标对象匹配的检测框组中，选取出目标对象在待处理图像中的跟踪框。在一实施例中，选取筛选出的检测框中的一个检测框，并确定选取的检测框与其它检测框的交叠程度；将交叠程度超过预设交叠程度对应的检测框与选取的检测框聚类。其中，当目标对象与检测框组进行匹配时，在每一所述检测框组中选取一个检测框；确定选取的检测框与当前帧图像的上一帧图像中的跟踪框的交并比；选取最大交并比对应的检测框所在的检测框组与跟踪框对应的目标对象进行匹配。针对每个目标对象，分别进行如下操作：确定一个目标对象在参考视频帧中的跟踪框，参考视频帧包括视频流中当前帧图像之前的历史视频帧；基于与目标对象匹配的检测框组中每个检测框与目标对象在参考视频帧中的跟踪框的相似程度，从检测框组中确定出目标对象在当前帧图像中的跟踪框。

在一实施例中，根据参考视频帧中目标对象的跟踪框预测目标对象在当前帧图像中的第一预测框；分别确定检测框组中每一检测框与第一预测框的损失值；选取最小的损失值对应的检测框作为目标对象在当前帧图像中的跟踪框。损失值包括角点偏移损失、中心点偏移损失和面积损失；对角点偏移损失、中心点偏移损失和面积损失进行加权求和得到损失值。

在一可选实施例中，判断目标对象在当前帧图像中的跟踪框的位置区域的偏移程度是否达到阈值；如果未超过阈值，则确定目标对象处于静止状态；如果超过阈值，则确定目标对象处于运动状态。在一具体实施例中，基于视频流中当前帧图像之前的历史视频帧中包含目标对象的每一帧图像，确定目标对象的中心关键点的平均位置坐标；根据平均位置坐标设置预设范围；判断当前帧图像中的目标对象的中心关键点的坐标是否符合预设范围；如果目标对象的中心关键点的坐标符合预设范围，则确定目标对象处于静止状态。若目标对象的中心关键点的坐标符合预设范围，则将上一帧图像中目标对象的跟踪框作为目标对象在当前帧图像中的跟踪框进行更新。如果目标对象的中心关键点的坐标不符合预设范围，则确定目标对象处于运动状态。若目标对象的中心关键点的坐标不符合预设范围，则确定上一帧图像中目标对象的跟踪框与当前帧图像中目标对象的跟踪框的交并比；如果上一帧图像中目标对象的跟踪框与当前帧图像中目标对象的跟踪框的交并比超过预设交并比，则将当前帧图像中目标对象的跟踪框保留并进行更新。

本实施例中提供的目标跟踪方法通过对待处理图像进行目标检测，得到目标对象的关键点信息和与目标对象关联的至少一个检测框；根据关键点信息，确定目标对象的外接框；基于至少一个检测框中各个检测框和外接框的交叠信息，从至少一个检测框中确定出目标对象的跟踪框。本申请通过对待处理图像中的目标对象进行检测时，检测得到目标对象的关键点信息，根据目标对象的关键点信息筛选目标对象的检测框，进而提高目标对象检测框的可靠性，在可靠的跟踪框中确定目标对象的跟踪框，可以提高目标跟踪的准确性，还可以改善目标对象跟踪不稳定的情况。

请参阅图2，图2是本发明提供的目标跟踪方法一具体实施例的流程示意图。本实施例中提供一种目标跟踪方法，该目标跟踪方法包括如下步骤。

S21：训练得到目标检测网络模型。

具体地，目标检测网络模型是基于目标的关键点信息进行训练的。请参阅图3，图3是图2提供的目标跟踪方法中步骤S21一具体实施例的流程示意图。具体目标检测网络模型的训练步骤如下。

S211：获取训练样本。

具体地，为了提高目标检测网络模型的检测稳定性，训练样本包括由同一张包含目标的图像组成的训练视频流，图像包括标注目标的真实框以及目标的真实关键点。其中，标注的目标的真实关键点刚好贴近目标的轮廓，且对图像中包含的所有目标都要进行标注，避免出现漏标的现象。其中，训练样本中的目标为车辆，也可以为人。其中，真实关键点包括真实中心关键点和真实轮廓关键点。在一实施例中，还需要对目标的真实类别进行标注，以及目标的真实位置坐标。且需要标注目标的真实轮廓关键点与对应的真实框的角点之间的真实距离，以及目标的真实中心关键点与真实框的中心点之间的距离。请参阅图4，图4是本发明提供的目标跟踪方法中标注的训练样本的图片。在一具体实施例中，矩形框为标注的真实框，K0、K1、K2、K3是标注的目标的真实轮廓关键点，K4是标注的目标的真实中心关键点，C点为标注的目标真实框的中心点。

S212：通过初始目标检测网络模型对图像进行目标检测，得到目标的第二预测框以及目标的预测关键点。

具体地，初始目标检测网络模型对训练视频流中的每一张图像进行检测，得到图像中的目标的第二预测框以及目标的预测关键点。其中，第二预测框框选检测到的图像中的目标本身，目标的预测关键点为目标的预测轮廓关键点和目标的预测中心关键点。在一具体实施例中，基于YOLO(You Only Look Once)-v3网络结构对图像进行目标检测。在一可选实施例中，初始目标检测网络还检测目标的第二预测框的置信度，以及预测目标的预测类别、目标的预测位置坐标。

S213：通过目标的真实框与目标的第二预测框、目标的真实关键点与目标的预测关键点构建损失函数。

具体地，根据预测得到的目标的第二预测框与目标的真实框计算预测框预测损失，根据目标的预测关键点和目标的真实关键点计算关键点预测损失，进而根据预测框的预测损失和关键点的预测损失构建损失函数。关键点预测损失包括中心关键点损失和目标的轮廓关键点损失。在一实施例中，可以通过真实类别与预测类别之间的损失、目标的预测轮廓关键点与第二预测框对应的各角点之间的预测距离与目标的真实轮廓关键点与对应的真实框的角点之间的真实距离之间的损失、目标的预测中心关键点与第二预测框的中心点之间的距离与目标的真实中心关键点与真实框的中心点之间的距离之间的损失共同构建损失函数。由于车辆角度差异较大，目标的预测轮廓关键点和第二预测框对应的各角点之间的预测距离与目标的真实轮廓关键点和对应的真实框的角点之间的真实距离损失、目标的预测中心关键点和第二预测框的中心点之间的距离与目标的真实中心关键点和真实框的中心点之间的距离损失会产生差异，为了平衡这种差异，在计算距离上采用了平方将距离损失转为正数，再利用对数缩小不同点之间的距离差异。

其中，具体地损失函数如公式1所示。

其中，

表示目标的预测框坐标损失，λ_coord仅表示坐标的含义；

表示目标预测框对应的目标宽高损失，前面的λ_coord仅表示坐标的含义；

表示预测目标的置信度损失；

表示预测非目标的置信度损失；

表示目标预测的类别损失；

表示预测的五个关键点的位置损失，λ_keypoint仅表示坐标的含义；

表示预测的中心关键点到预测框的中心点的距离损失，μ_distance仅表示距离含义；

表示预测的四个轮廓关键点到预测框对应各个角点的距离损失，μ_distance仅表示距离含义；S是检测网络划分的网格维度，B是预测目标个数的维度。

通过引入轮廓关键点和中心关键点对初始检测网络模型进行训练，不仅仅使得初始检测网络模型预测出目标的预测轮廓关键点和预测中心关键点，还能结合轮廓关键点和中心关键点促进初始检测网络模型更加稳定。

通过在损失函数中加入目标的预测轮廓关键点和第二预测框对应的各角点之间的预测距离与目标的真实轮廓关键点和对应的真实框的角点之间的真实距离损失，是为了使初始检测网络模型对目标的宽高预测更加稳定；通过加入目标的预测中心关键点和第二预测框的中心点之间的距离与目标的真实中心关键点和真实框的中心点之间的距离损失，是为了使初始检测网络模型对目标的中心点预测更加稳定。

S214：利用损失函数对初始目标检测网络模型进行迭代训练得到目标检测网络模型。

具体地，通过目标的真实框与目标的第二预测框之间的误差值、目标的真实关键点与目标的预测关键点之间的误差值对初始目标检测网络模型进行迭代训练得到目标检测网络模型。

在一可选实施例中，初始目标检测网络模型的结果反向传播，根据损失函数反馈的损失值对初始目标检测网络模型的权重进行修正。在一可选实施例中，也可以对初始目标检测网络模型中的参数进行修正，实现对初始目标检测网络模型的训练得到目标检测网络模型。

将图像输入到初始目标检测网络模型中，初始目标检测网络模型对图像中的目标位置以及目标的关键点进行预测。当目标的真实框与目标的第二预测框之间的误差值和目标的真实关键点与目标的预测关键点之间的误差值之间的加和小于预设阈值，预设阈值可以自行设置，例如1％、5％等，则停止对初始目标检测网络模型的训练并获得目标检测网络模型。

S22：采用目标检测网络模型对获取的当前帧图像进行检测，得到目标对象的关键点信息和与目标对象关联的至少一个检测框。

具体地，通过训练得到的目标检测网络模型对获取的当前帧图像进行检测，得到目标对象的检测框和目标对象的轮廓关键点和中心关键点。其中，目标对象可以为一个，也可以为多个。一个目标对象对应检测到的的检测框可以为一个，也可以为多个。在一具体实施例中，采集的当前帧图像的大小为416×416，则目标检测网络模型输出的原始的检测框的个数可以为13*13*3+26*26*3+52*52*3＝10647个。

S23：根据关键点信息，确定目标对象的外接框。

具体地，由于关键点信息包括目标对象的轮廓关键点。其中，目标对象的轮廓关键点可以为四个，且检测的轮廓关键点处于目标对象的边沿处，根据四个轮廓关键点可以得到目标对象的外接框。

S24：基于至少一个检测框中各个检测框和外接框的交叠信息，筛选出交叠信息符合预设交叠条件的检测框。

具体地，由于目标检测网络模型检测得到的检测框中，大多是无效检测框，因此需要对检测得到的检测框进行筛选。具体筛选规则是将检测框与外接框的交叠信息与阈值进行比对。其中，交叠信息包括对应的检测框和外接框的交并比；该步骤中的阈值为交并比阈值。将交并比大于交并比阈值的检测框保留，将交并比不大于交并比阈值的检测框去除。通过筛选以后可以在原始检测得到的检测结果中仅保留可靠的检测框。请参阅图5，图5是本发明提供的对当前帧图像进行目标检测得到对应检测框的图片。通过交叠信息筛选的检测框包括多个。

S25：从筛选出的各个检测框中，确定出目标对象的跟踪框。

具体地，目标对象可以为一个，也可以为两个。

请参阅图6和图7，图6是图2提供的目标跟踪方法中步骤S25一具体实施例的流程示意图；图7是本发明提供的当前帧图像中目标对象的跟踪框的图片。在一具体实施例中，具体从筛选出的各个检测框中，确定出目标对象的跟踪框的步骤如下。

S251：基于筛选出的检测框中每两个检测框的交叠信息，将筛选出的各个检测框进行分组，得到检测框组。

具体地，选取筛选出的检测框中的一个检测框，判断该检测框与另一检测框中，框选的目标对象的类别是否相同；如果类别相同，则确定选取的检测框与其它检测框的交叠程度；将交叠程度超过预设交叠程度对应的检测框与选取的检测框聚类，得到检测框组。其中，交叠程度包括交并比。为每个检测框组分配唯一的组ID(Identity，身份证明)。

S252：将每个目标对象分别与检测框组进行匹配。

具体地，从各检测框组中分别选取一个检测框，将选取的检测框与目标对象进行匹配。在一具体实施例中，计算选取的检测框与当前帧图像的上一帧图像中的跟踪框的交并比；选取最大交并比对应的检测框所在的检测框组与跟踪框对应的目标对象进行匹配。当得到一个检测框组时，在检测框组中选取一个检测框，分别计算该检测框与上一帧图像中的所有检测框的交并比，选取最大交并比对应的跟踪框的目标对象与该检测框匹配。当得到多个检测框组时，分别在各检测框组中选取一个检测框，分别计算选取的检测框与上一帧图像中的所有的跟踪框的交并比，将最大交并比对应的跟踪框对应的目标对象与检测框所属的检测框组进行匹配。

S253：从与目标对象匹配的检测框组中，选取出目标对象在待处理图像中的跟踪框。

具体地，确定一个目标对象在参考视频帧中的跟踪框，参考视频帧包括视频流中当前帧图像之前的历史视频帧；基于与目标对象匹配的检测框组中每个检测框与目标对象在参考视频帧中的跟踪框的相似程度，从检测框组中确定出目标对象在当前帧图像中的跟踪框。

具体地，根据参考视频帧中目标对象的跟踪框预测目标对象在当前帧图像中的第一预测框；分别确定检测框组中每一检测框与第一预测框的损失值；选取最小的损失值对应的检测框作为目标对象在当前帧图像中的跟踪框。损失值包括角点偏移损失、中心点偏移损失和面积损失；对角点偏移损失、中心点偏移损失和面积损失进行加权求和得到损失值。其中，对角点偏移损失、中心点偏移损失和面积损失对应设置的权重参数是α、β、γ，设置该权重参数是为了平衡损失。本实施例中，α＝0.5，β＝0.5、γ＝0.1，也可以根据具体情况自行设定。

其中，通过对步骤S24得到的多个检测框进行分组得到检测框组，并匹配相应的目标对象，进而在检测框组中选取目标对象的跟踪框，如图7所示。

S26：判断目标对象在当前帧图像中的跟踪框的位置区域的偏移程度是否达到阈值。

具体地，基于视频流中当前帧图像之前的历史视频帧中包含目标对象的每一帧图像，确定目标对象的中心关键点的平均位置坐标；根据平均位置坐标设置预设范围；判断当前帧图像中的目标对象的中心关键点的坐标是否符合预设范围，进而判断目标对象的运动状态。

如果未超过阈值，则确定目标对象处于静止状态，则直接执行步骤S27；如果超过阈值，则确定目标对象处于运动状态，则直接执行步骤S28。

S27：将上一帧图像中目标对象的跟踪框作为目标对象在当前帧图像中的跟踪框进行更新。

具体地，如果目标对象的中心关键点的坐标符合预设范围，则确定目标对象处于静止状态。若目标对象的中心关键点的坐标符合预设范围，则将上一帧图像中目标对象的跟踪框作为目标对象在当前帧图像中的跟踪框进行更新。

S28：将当前帧图像中目标对象的跟踪框保留并进行更新。

具体地，如果目标对象的中心关键点的坐标不符合预设范围，则确定目标对象处于运动状态。在将当前帧图像中的处于静止状态的目标对象更新完后，将检测框组中未作为跟踪框的检测框删除。

若目标对象的中心关键点的坐标不符合预设范围，则确定上一帧图像中目标对象的跟踪框与当前帧图像中目标对象的跟踪框的交并比；如果上一帧图像中目标对象的跟踪框与当前帧图像中目标对象的跟踪框的交并比超过预设交并比，则将当前帧图像中目标对象的跟踪框保留并进行更新。具体地，目标对象的平均位置如公式2所示。这样可以的防止当前检测出现波动带来的不稳定性，从而可以在检测框组中寻找更加稳定的检测框。

avecenter＝0.8*history+0.2*now (公式2)

式中：avecenter为平均位置值，history为目标对象在历史视频帧中中心点的位置；now为目标对象在当前帧图像中匹配到的中心点的位置。

其中，具体地对宽高采用如下更新方式，具体参见公式3。

Nowtracker＝0.5*historytracker+0.5*nowdetect (公式3)

其中，Historytracker为目标对象在历史视频帧中的宽高；Nowdetect为目标对象在当前帧图像中检测到的宽高；Nowtracker为目标对象在当前帧图像中的宽高。

请参阅图8，图8是本发明提供的对目标对象进行检测和跟踪一具体实施例的流程示意图。在一具体实施例中，获取包含车辆的图像，采用目标检测网络模型对图像中的车辆进行检测得到车辆的轮廓关键点和中心关键点以及车辆的检测框、对应检测框的置信度，根据车辆的轮廓关键点得到车辆的外接框，根据车辆的外接框以及车辆的检测框的置信度对检测得到的车辆的检测框进行筛选，保留可靠稳定的检测框。对保留的检测框进行分类得到检测框组，再将每一检测框组分别与各个车辆进行匹配，待目标对象匹配到对应的检测框组时，则在检测框组中选取对应车辆在当前帧图像中的跟踪框。基于车辆的中心关键点判断车辆的运动状态，进而基于车辆的运动状态返回稳定的跟踪结果，以得到车辆在当前帧图像中稳定的跟踪框。

本实施例提供的目标跟踪方法通过对待处理图像进行目标检测，得到目标对象的关键点信息和与目标对象关联的至少一个检测框；根据关键点信息，确定目标对象的外接框；基于至少一个检测框中各个检测框和外接框的交叠信息，从至少一个检测框中确定出目标对象的跟踪框。本申请通过对待处理图像中的目标对象进行检测时，检测得到目标对象的关键点信息，根据目标对象的关键点信息筛选目标对象的检测框，进而提高目标对象检测框的可靠性，在可靠的跟踪框中确定目标对象的跟踪框，可以提高目标跟踪的准确性，还可以改善目标对象跟踪不稳定的情况。

参阅图9，图9是本发明提供的终端一实施方式的示意框图。该实施方式中的终端70包括：处理器71、存储器72以及存储在存储器72中并可在处理器71上运行的计算机程序，该计算机程序被处理器71执行时实现上述物品检测方法中，为避免重复，此处不一一赘述。

参阅图10，图10是本发明提供的计算机可读存储介质一实施方式的示意框图。

本申请的实施方式中还提供一种计算机可读存储介质90，计算机可读存储介质90存储有计算机程序901，计算机程序901中包括程序指令，处理器执行程序指令，实现本申请实施方式提供的物品检测方法。

其中，计算机可读存储介质90可以是前述实施方式的计算机设备的内部存储单元，例如计算机设备的硬盘或内存。计算机可读存储介质90也可以是计算机设备的外部存储设备，例如计算机设备上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。

以上仅为本发明的实施方式，并非因此限制本发明的专利保护范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种目标跟踪方法，其特征在于，所述目标跟踪方法包括：

对待处理图像进行目标检测，得到目标对象的关键点信息和与所述目标对象关联的至少一个检测框；

根据所述关键点信息，确定所述目标对象的外接框；

基于所述至少一个检测框中各个所述检测框和所述外接框的交叠信息，从所述至少一个检测框中确定出所述目标对象的跟踪框。

2.根据权利要求1所述的目标跟踪方法，其特征在于，所述基于所述至少一个检测框中各个所述检测框和所述外接框的交叠信息，从所述至少一个检测框中确定出所述目标对象的跟踪框，包括：

基于所述至少一个检测框中各个检测框和所述外接框的交叠信息，筛选出所述交叠信息符合预设交叠条件的所述检测框；

从筛选出的各个所述检测框中，确定出所述目标对象的跟踪框。

3.根据权利要求2所述的目标跟踪方法，其特征在于，所述交叠信息包括对应的所述检测框和所述外接框的交并比；

所述符合预设交叠条件的所述检测框包括交并比大于交并比阈值的所述检测框。

4.根据权利要求1所述的目标跟踪方法，其特征在于，所述关键点信息包括所述目标对象的轮廓关键点。

5.根据权利要求2所述的目标跟踪方法，其特征在于，

所述从筛选出的各个所述检测框中，确定出所述目标对象的跟踪框，包括：

基于所述筛选出的检测框中每两个所述检测框的交叠信息，将所述筛选出的各个所述检测框进行分组，得到检测框组；

将每个所述目标对象分别与所述检测框组进行匹配；

从与所述目标对象匹配的所述检测框组中，选取出所述目标对象在所述待处理图像中的所述跟踪框。

6.根据权利要求5所述的目标跟踪方法，其特征在于，

所述基于所述筛选出的检测框中每两个所述检测框的交叠信息，将所述筛选出的各个所述检测框进行分组，得到检测框组，包括：

选取所述筛选出的检测框中的一个所述检测框，并确定选取的所述检测框与其它所述检测框的交叠程度；

将所述交叠程度超过预设交叠程度对应的所述检测框与选取的所述检测框聚类。

7.根据权利要求5所述的目标跟踪方法，其特征在于，所述待处理图像包括视频流中的当前帧图像；

所述将每个所述目标对象分别与所述检测框组进行匹配，包括：

在每一所述检测框组中选取一个所述检测框；

确定选取的所述检测框与所述当前帧图像的上一帧图像中的所述跟踪框的交并比；

选取最大所述交并比对应的所述检测框所在的所述检测框组与所述跟踪框对应的所述目标对象进行匹配。

8.根据权利要求5所述的目标跟踪方法，其特征在于，所述待处理图像包括视频流中的当前帧图像；

所述从与所述目标对象匹配的所述检测框组中，选取出所述目标对象在所述待处理图像中的所述跟踪框，包括：

针对每个所述目标对象，分别进行如下操作：

确定一个所述目标对象在参考视频帧中的跟踪框，所述参考视频帧包括所述视频流中所述当前帧图像之前的历史视频帧；

基于与所述目标对象匹配的所述检测框组中每个所述检测框与所述目标对象在所述参考视频帧中的所述跟踪框的相似程度，从所述检测框组中确定出所述目标对象在所述当前帧图像中的所述跟踪框。

9.根据权利要求8所述的目标跟踪方法，其特征在于，

所述基于与所述目标对象匹配的所述检测框组中每个所述检测框与所述目标对象在所述参考视频帧中的所述跟踪框的相似程度，从所述检测框组中确定出所述目标对象在所述当前帧图像中的所述跟踪框，包括：

根据所述参考视频帧中所述目标对象的跟踪框预测所述目标对象在所述当前帧图像中的第一预测框；

分别确定所述检测框组中每一所述检测框与所述第一预测框的损失值；

选取最小的所述损失值对应的所述检测框作为所述目标对象在所述当前帧图像中的所述跟踪框。

10.根据权利要求9所述的目标跟踪方法，其特征在于，所述损失值包括角点偏移损失、中心点偏移损失和面积损失；

所述计算所述检测框组中每一所述检测框与所述第一预测框的损失值的步骤具体还包括：

对所述角点偏移损失、所述中心点偏移损失和所述面积损失进行加权求和得到所述损失值。

11.根据权利要求1所述的目标跟踪方法，其特征在于，所述待处理图像包括视频流中的当前帧图像；

所述目标跟踪方法还包括：

判断所述目标对象在所述当前帧图像中的所述跟踪框的位置区域的偏移程度是否达到阈值；

如果未超过所述阈值，则确定所述目标对象处于静止状态；

如果超过所述阈值，则确定所述目标对象处于运动状态。

12.根据权利要求11所述的目标跟踪方法，其特征在于，所述关键点信息包括所述目标对象的中心关键点，

所述判断所述目标对象在所述当前帧图像中的所述跟踪框的位置区域的偏移程度是否达到阈值，包括：

基于所述视频流中所述当前帧图像之前的历史视频帧中包含所述目标对象的每一帧图像，确定所述目标对象的中心关键点的平均位置坐标；

根据所述平均位置坐标设置预设范围；

判断所述当前帧图像中的所述目标对象的中心关键点的坐标是否符合所述预设范围；

所述如果未超过所述阈值，则确定所述目标对象处于静止状态，包括：

如果所述目标对象的中心关键点的坐标符合所述预设范围，则确定所述目标对象处于静止状态；

所述如果超过所述阈值，则确定所述目标对象处于运动状态，包括：

如果所述目标对象的中心关键点的坐标不符合所述预设范围，则确定所述目标对象处于运动状态。

13.根据权利要求12所述的目标跟踪方法，其特征在于，

所述如果未超过所述阈值，则确定所述目标对象处于静止状态，还包括：

若所述目标对象的中心关键点的坐标符合所述预设范围，则将上一帧图像中所述目标对象的跟踪框作为所述目标对象在所述当前帧图像中的所述跟踪框进行更新。

14.根据权利要求12所述的目标跟踪方法，其特征在于，

所述如果超过所述阈值，则确定所述目标对象处于运动状态，还包括：

若所述目标对象的中心关键点的坐标不符合所述预设范围，则确定上一帧图像中所述目标对象的跟踪框与所述当前帧图像中所述目标对象的跟踪框的交并比；

如果所述上一帧图像中所述目标对象的跟踪框与所述当前帧图像中所述目标对象的跟踪框的交并比超过预设交并比，则将所述当前帧图像中目标对象的跟踪框保留并进行更新。

15.根据权利要求1所述的目标跟踪方法，其特征在于，

所述对待处理图像进行目标检测，得到目标对象的关键点信息和与所述目标对象关联的至少一个检测框的步骤之前还包括：

采用目标检测网络模型对所述待处理图像进行目标检测；

其中，所述目标检测网络模型是基于目标的关键点信息进行训练的。

16.根据权利要求15所述的目标跟踪方法，其特征在于，

所述目标检测网络模型的训练过程包括：

获取训练样本，所述训练样本包括由同一张包含所述目标的图像组成的训练视频流，所述图像包括标注所述目标的真实框以及所述目标的真实关键点；

通过初始目标检测网络模型对所述图像进行目标检测，得到所述目标的第二预测框以及所述目标的预测关键点；

通过所述目标的真实框与所述目标的第二预测框、所述目标的真实关键点与所述目标的预测关键点构建损失函数；

利用所述损失函数对所述初始目标检测网络模型进行迭代训练得到所述目标检测网络模型。

17.一种终端，其特征在于，所述终端包括存储器、处理器以及存储于所述存储器中并在所述处理器上运行的计算机程序，所述处理器用于执行程序数据以实现如权利要求1～16任一项所述目标跟踪方法中的步骤。

18.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1～16任一项所述目标跟踪方法中的步骤。