CN110210304B

CN110210304B - 用于目标检测和跟踪的方法及系统

Info

Publication number: CN110210304B
Application number: CN201910355788.0A
Authority: CN
Inventors: 何刚; 袁宇辰
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-04-29
Filing date: 2019-04-29
Publication date: 2021-06-11
Anticipated expiration: 2039-04-29
Also published as: CN110210304A

Abstract

本发明提供一种用于目标检测和跟踪的方法及系统，属于视频监控领域。所述方法包括：训练目标检测与目标跟踪相联合的联合模型；通过所述联合模型处理当前时刻的视频序列的每帧图像，以生成候选框，该候选框包括目标坐标及目标属于各个类别的概率；结合相对于所述当前时刻的前一时刻的跟踪片段调整所述候选框；基于调整后的候选框生成最终的检测框，以进行目标检测，得到最终检测结果；以及将所述最终检测结果与所述前一时刻的跟踪片段相结合，生成所述当前时刻的跟踪片段。本发明利用跟踪信息对检测器本身进行优化，将跟踪信息与检测器在早期进行融合，使得检测结果更为准确。

Description

用于目标检测和跟踪的方法及系统

技术领域

本发明涉及视频监控领域，具体地涉及一种用于目标检测和跟踪的方法及系统。

背景技术

随着互联网和人工智能技术的不断发展，越来越多的领域开始涉及自动化计算与分析，其中视频监控领域是最为重要的场景之一，例如用于安防。在视频监控中，目标检测与跟踪又是最为重要的技术之一。其中，检测算法是在视频帧中找到运动的目标，如在第10帧中找到目标A，在第11帧中找到目标a，而跟踪算法则是证明A与a是同一目标，由此可知跟踪算法是基于检测算法的。

但是，常见的视频监控领域的目标检测与跟踪技术多采用逐帧检测目标的检测算法，然后通过跟踪算法将各帧的检测结果进行结合产生跟踪轨迹。但这种方法只能让跟踪算法从检测结果中受益，而检测算法却不能从跟踪结果中受益。对此，现有技术中的一些优化方案尝试利用之前帧的跟踪信息在当前帧上产生预测框，并将这些预测框与检测器在当前帧上产生的检测框相结合，以用于改善检测结果(例如，利用之前帧的跟踪轨迹对当前帧上匹配的检测框进行重打分等)。但这些优化方案都是属于一些“晚融合”的方法，即只能在检测器输出最终检测结果之后，对检测结果进行处理，并不能利用跟踪信息对检测器本身进行优化。

发明内容

本发明实施例的目的是提供一种用于目标检测和跟踪的方法及系统，用以至少解决现有技术不能利用跟踪信息对检测器本身进行优化的问题。

为了实现上述目的，本发明实施例提供一种用于目标检测和跟踪的方法，包括：训练目标检测与目标跟踪相联合的联合模型；通过所述联合模型处理当前时刻的视频序列的每帧图像，以生成候选框，该候选框包括目标坐标及目标属于各个类别的概率；结合相对于所述当前时刻的前一时刻的跟踪片段调整所述候选框；基于调整后的候选框生成最终的检测框，以进行目标检测，得到最终检测结果；以及将所述最终检测结果与所述前一时刻的跟踪片段相结合，生成所述当前时刻的跟踪片段。

可选的，在所述通过所述联合模型处理当前时刻的视频序列的每帧图像之前，该方法还包括：对所述图像进行预处理，再将预处理后的图像输入至所述联合模型。其中，所述预处理包括：将所述图像缩放成固定尺寸，并减去统一的RGB均值。

可选的，所述训练目标检测与目标跟踪相联合的联合模型包括：通过预测框标注每帧图像中的目标的坐标及所属于的类别，并针对每一预测框分配一个跟踪ID；在所述视频序列的每个训练集中采样当前时刻和前一时刻对应的视频序列中相邻的两帧图像；在所采样的所述前一时刻对应的两帧图像上计算进行目标检测的第一损失；在所采样的所述前一时刻和所述当前时刻分别对应的两帧图像上计算进行目标跟踪的第二损失；以及基于所述第一损失和所述第二损失，训练出所述联合模型。

可选的，所述在所采样的所述前一时刻和所述当前时刻分别对应的两帧图像上计算进行目标跟踪的第二损失包括：对于前一时刻t-1上的每个预测框b_t-1，计算其与该前一时刻t-1的每个真实值范围之间的交并比(Intersection Over Union，IOU)，并将b_t-1分配给IOU最大的真实值范围

确定在当前时刻t与所述

相对应的真实值范围

以及采用以下公式计算b_t-1与

之间的第二损失

式中，

表示预测框b_t-1的表观特征ε(b_t-1)与真实值范围

的表观特征

之间的余弦距离。

可选的，该方法还包括：在生成所述候选框的同时，生成该候选框的表观特征。

可选的，所述结合相对于所述当前时刻的前一时刻的跟踪片段调整所述候选框包括：对于当前时刻t的第i个候选框

通过下式计算其在受到前一时刻t-1所有的跟踪片段

的影响的约束下属于类别c的概率：

式中，

表示候选框

与第j个跟踪片段

的相似度权重，且

表示在候选框

受到跟踪片段

的影响的约束下该候选框

属于类别c的概率；

其中，通过下式计算所述

式中，

表示候选框

的表观特征

与跟踪片段

的表观特征

之间的余弦距离，γ为设定的系数。

其中，通过下式计算所述

式中，

表示候选框

属于类别c的概率，

表示第j个跟踪片段

属于类别c的概率。

可选的，该方法还包括通过下式来确定所述

式中，β为设定参数，

为跟踪片段

的长度。

可选的，所述基于调整后的候选框生成最终的检测框包括：对所述调整后的候选框进行非最大值抑制(Non-Maximum Suppression，NMS)处理和阈值过滤处理以得到最终的检测框。

本发明实施例另一方面提供一种用于目标检测和跟踪的系统，包括：模型训练单元，用于训练目标检测与目标跟踪相联合的联合模型；候选框生成单元，用于通过所述联合模型处理当前时刻的视频序列的每帧图像，以生成候选框，该候选框包括目标坐标及目标属于各个类别的概率；候选框调整单元，用于结合相对于所述当前时刻的前一时刻的跟踪片段调整所述候选框；检测框生成单元，用于基于调整后的候选框生成最终的检测框，以进行目标检测，得到最终检测结果；以及跟踪处理单元，用于将所述最终检测结果与所述前一时刻的跟踪片段相结合，生成所述当前时刻的跟踪片段。

可选的，该系统还包括：预处理单元，用于在所述候选框生成单元通过所述联合模型处理当前时刻的视频序列的每帧图像之前，对所述图像进行预处理。其中，所述预处理包括：将所述图像缩放成固定尺寸，并减去统一的RGB均值。

可选的，所述模型训练单元包括：标注模块，用于通过预测框标注每帧图像中的目标的坐标及所属于的类别，并针对每一预测框分配一个跟踪ID；采样模块，用于在所述视频序列的每个训练集中采样当前时刻和前一时刻对应的视频序列中相邻的两帧图像；第一损失计算模块，用于在所采样的所述前一时刻对应的两帧图像上计算进行目标检测的第一损失；第二损失计算模块，用于在所采样的所述前一时刻和所述当前时刻分别对应的两帧图像上计算进行目标跟踪的第二损失；以及模型训练模块，用于基于所述第一损失和所述第二损失，训练出所述联合模型。

可选的，所述第二损失计算模块用于在所采样的所述前一时刻和所述当前时刻分别对应的两帧图像上计算进行目标跟踪的第二损失包括：对于前一时刻t-1上的每个预测框b_t-1，计算其与该前一时刻t-1的每个真实值范围之间的IOU，并将b_t-1分配给IOU最大的真实值范围

确定在当前时刻t与所述

相对应的真实值范围

以及采用以下公式计算b_t-1与

之间的第二损失

其中，

表示预测框b_t-1的表观特征ε(b_t-1)与真实值范围

的表观特征

之间的余弦距离。

可选的，所述候选框生成单元还用于在生成所述候选框的同时，生成该候选框的表观特征。

可选的，所述候选框调整单元用于结合相对于所述当前时刻的前一时刻的跟踪片段调整所述候选框包括：

对于当前时刻t的第i个候选框

通过下式计算其在受到前一时刻t-1所有的跟踪片段

的影响的约束下属于类别c的概率：

其中，

表示候选框

与第j个跟踪片段

的相似度权重，且

表示在候选框

受到跟踪片段

的影响的约束下该候选框

属于类别c的概率。

其中，通过下式计算所述

式中，

表示候选框

的表观特征

与跟踪片段

的表观特征

之间的余弦距离，γ为设定的系数。

其中，通过下式计算所述

式中，

表示候选框

属于类别c的概率，

表示第j个跟踪片段

属于类别c的概率。

可选的，该方法还包括通过下式来确定所述

其中，β为设定参数，

为跟踪片段

的长度。

可选的，所述检测框生成单元用于基于调整后的候选框生成最终的检测框包括：对所述调整后的候选框进行NMS处理和阈值过滤处理以得到最终的检测框。

本发明实施例另一方面还提供一种机器可读存储介质，该机器可读存储介质上存储有指令，该指令用于使得机器执行上述的用于目标检测和跟踪的方法。

本发明实施例另一方面还提供一种计算机设备，该计算机设备包括：一个或多个处理器；存储器，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述的用于目标检测和跟踪的方法。

通过上述技术方案，本发明实施例的目标检测与跟踪的方法及系统利用跟踪信息对检测器本身进行优化，将跟踪信息与检测器在早期进行融合，使得检测器的检测框受到与它相似的跟踪轨迹的影响，在人流量统计等实际应用场景中能获得更准确的结果。

本发明实施例的其它特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本发明实施例，但并不构成对本发明实施例的限制。在附图中：

图1是本发明实施例的用于目标检测和跟踪的方法的流程示意图；

图2是本发明实施例中训练目标检测与目标跟踪相联合的联合模型的流程示意图；

图3是本发明实施例的用于目标检测和跟踪的系统的结构示意图；以及

图4是本发明优选实施例中的模型训练单元的结构示意图；

附图标记说明

310 模型训练单元 320 候选框生成单元

330 候选框调整单元 340 检测框生成单元

350 跟踪处理单元 360 预处理单元

311 标注模块 312 采样模块

313 第一损失计算模块 314 第二损失计算模块

315 模型训练模块

具体实施方式

以下结合附图对本发明实施例的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明实施例，并不用于限制本发明实施例。

图1是本发明实施例的用于目标检测和跟踪的方法的流程示意图，其中所述目标例如是人体，故而可将该方法应用于多目标人体跟踪以及人流量统计等。如图1所示，该方法可以包括以下步骤：

步骤S110，训练目标检测与目标跟踪相联合的联合模型。

其中，所述联合模型可采用神经网络技术训练得到，其输入为视频序列的图像，输出为一系列的候选框。其中，候选框用于粗略限定检测目标。关于该联合模型的具体训练方法将在下文详细描述，在此不再赘述。

步骤S120，通过所述联合模型处理当前时刻的视频序列的每帧图像，以生成候选框。

其中，该候选框包括目标坐标及目标属于各个类别的概率。举例而言，目标例如是处于运动状态的某物体，类别例如是人或者动物，则该候选框可以包括检测到的人体以及其属于人这一类别的概率高达90％以上。

在优选的实施例中，在通过所述联合模型处理当前时刻的视频序列的每帧图像之前，该方法还可以包括：对所述图像进行预处理，再将预处理后的图像输入至所述联合模型。优选地，所述预处理例如是将所述图像缩放成固定尺寸(如600*1000)，并减去统一的RGB均值(如[104，117，123])。

另外，在优选的实施例中，在生成候选框的同时，还可以生成该候选框的表观特征。该表观特征可用于调整候选框，对此将在下文中具体描述，在此则不再赘述。

需说明的是，该步骤S120所生成的候选框只是进行目标检测的检测器的中间结果，并不是检测器的最终输出结果，后续还将调整候选框以优化检测器。

步骤S130，结合相对于所述当前时刻的前一时刻的跟踪片段调整所述候选框。

从前一步骤S120，可知当前的候选框并不是检测器的最终输出结果，即检测器还未输出最终的检测结果，从而该步骤S130中将前一时刻的跟踪片段与当前时刻的候选框相关联，相当于利用跟踪信息(即前一时刻的跟踪片段)对检测器进行了优化，因此相对于现有技术中的“晚融合”的方法，本发明实施例属于在检测器输出最终检测结果之前对检测器本身进行优化的“早融合”的方法。

在优选的实施例中，该步骤S130结合前一时刻的跟踪片段调整所述候选框具体可以包括：

对于当前时刻t的第i个候选框

通过下面的公式(1)计算其在受到前一时刻t-1所有的跟踪片段

的影响的约束下属于类别c的概率：

式中，

表示候选框

与第j个跟踪片段

的相似度权重，其表明本发明实施例中主要是选择前一时刻中与候选框较为相似的跟踪片段来调整候选框，据此使得候选框受到与之相似的跟踪轨迹的影响。

在优选的实施例中，可通过下面的公式(2)计算所述

其中，

表示候选框

的表观特征

与跟踪片段

的表观特征

之间的余弦距离，γ为设定的系数，例如γ＝8。

式中，

表示在候选框

受到跟踪片段

的影响的约束下，该候选框

属于类别c的概率。在优选的实施例中，可通过下面的公式(3)计算

式中，

表示候选框

属于类别c的概率，

表示第j个跟踪片段

属于类别c的概率。

在优选的实施例中，可通过与跟踪轨迹匹配的检测框求平均得到

具体表现在为通过下面的公式(4)来计算

其中，

为跟踪片段

的长度，β为设定参数，例如β＝0.99。

据此，可知通过对每个候选框进行上面的公式(1)-(4)的计算操作后，它们属于各个类别的概率已经发生了变化，即实现了基于前一时刻的跟踪片段对当前时刻的候选框的调整。

步骤S140，基于调整后的候选框生成最终的检测框，以进行目标检测，得到最终检测结果。

在优选的实施例中，该步骤S140中生成最终的检测框可以包括：对所述调整后的候选框进行非最大值抑制(Non-Maximum Suppression，NMS)处理和阈值过滤处理以得到最终的检测框。最终的检测框进行目标检测得到了最终的检测结果，从而实现了跟踪信息在“早期”对检测器产生影响，并最终影响检测结果。

步骤S150，将所述最终检测结果与所述前一时刻的跟踪片段相结合，生成所述当前时刻的跟踪片段。

其中，将所述最终检测结果与所述前一时刻的跟踪片段相结合，即是对每帧产生的检测结果运用跟踪算法进行匹配，从而得到当前时刻的跟踪片段以作为跟踪结果。处理完所有视频帧后，整个流程结束。

进一步地，生成的所述当前时刻的新的跟踪片段可作为跟踪信息用于调整下一时刻对应的候选框。并且，该新的跟踪片段也可作为跟踪信息来训练前述的联合模型。

图2是本发明实施例中训练目标检测与目标跟踪相联合的联合模型的流程示意图。如图2所示，该训练过程可以包括以下步骤：

步骤S210，通过预测框标注每帧图像中的目标的坐标及所属于的类别，并针对每一预测框分配一个跟踪ID。

举例而言，预测框为一矩形框，通过该矩形框标注每帧图像中的目标的坐标(包括坐标位置)和目标所属于的类别，同时为每个矩形框分配一个track ID(即跟踪ID)用作跟踪训练。

步骤S220，在所述视频序列的每个训练集中采样当前时刻和前一时刻对应的视频序列中相邻的两帧图像。

举例而言，在训练的每个mini-batch(对应训练集)，随机采样视频序列中t-1时刻(对应前一时刻)和t时刻(对应当前时刻)相邻的两帧图像。

步骤S230，在所采样的所述前一时刻对应的两帧图像上计算进行目标检测的第一损失。

举例而言，对于检测loss(即第一损失)只在t-1时刻(对应前一时刻)的图像上计算，比如利用Faster R-CNN神经网络结构，则计算第一损失包括计算Softmax函数(一种归一化指数函数)的交叉熵损失(cross-entropy loss)和L1回归损失(regression loss)。

步骤S240，在所采样的所述前一时刻和所述当前时刻分别对应的两帧图像上计算进行目标跟踪的第二损失。

举例而言，具体包括以下计算步骤：

步骤S241，对于所述前一时刻上的每个预测框b_t-1，计算其与该前一时刻的每个真实值范围之间的交并比(Intersection Over Union，IOU)，并将b_t-1分配给IOU最大的真实值范围

步骤S242，确定在所述当前时刻与所述

相对应的真实值范围

步骤S243，采用以下公式计算b_t-1与

之间的第二损失

其中，

表示预测框b_t-1的表观特征ε(b_t-1)与真实值范围

的表观特征

之间的余弦距离。

步骤S250，基于所述第一损失和所述第二损失，训练出所述联合模型。

举例而言，按照上面步骤S210-S240的方式对训练集中的所有图像计算第一损失和第二损失，再利用反向传播梯度进行训练，最终得出想要的联合模型。

据此，通过上述步骤S210-S250得到了本发明实施例中目标检测与目标跟踪相联合的联合模型，相对于现有技术中的目标检测模型的训练方法，其主要的改进在于模型训练中考虑了跟踪信息，有利于实现将跟踪信息与检测器在“早期”融合。

综上所述，本发明实施例所述的目标检测与跟踪的方法利用跟踪信息对检测器本身进行优化，将跟踪信息与检测器在早期进行融合，使得检测器的检测框受到与它相似的跟踪轨迹的影响，在人流量统计等实际应用场景中能获得更准确的结果。

基于与上述实施例的用于目标检测和跟踪的方法相同的发明思路，本发明实施例还提供了一种用于目标检测和跟踪的系统。图3是本发明实施例的用于目标检测和跟踪的系统的结构示意图。如图3所示，该系统可以包括：模型训练单元310，用于训练目标检测与目标跟踪相联合的联合模型；候选框生成单元320，用于通过所述联合模型处理当前时刻的视频序列的每帧图像，以生成候选框，该候选框包括目标坐标及目标属于各个类别的概率；候选框调整单元330，用于结合相对于所述当前时刻的前一时刻的跟踪片段调整所述候选框；检测框生成单元340，用于基于调整后的候选框生成最终的检测框，以进行目标检测，得到最终检测结果；以及跟踪处理单元350，用于将所述最终检测结果与所述前一时刻的跟踪片段相结合，生成所述当前时刻的跟踪片段。

在优选的实施例中，该系统还包括：预处理单元360，用于在所述候选框生成单元通过所述联合模型处理当前时刻的视频序列的每帧图像之前，对所述图像进行预处理。其中，所述预处理包括：将所述图像缩放成固定尺寸，并减去统一的RGB均值。

图4是本发明优选实施例中的模型训练单元310的结构示意图。如图4所示，所述模型训练单元310可以包括：标注模块311，用于通过预测框标注每帧图像中的目标的坐标及所属于的类别，并针对每一预测框分配一个跟踪ID；采样模块312，用于在所述视频序列的每个训练集中采样当前时刻和前一时刻对应的视频序列中相邻的两帧图像；第一损失计算模块313，用于在所采样的所述前一时刻对应的两帧图像上计算进行目标检测的第一损失；第二损失计算模块314，用于在所采样的所述前一时刻和所述当前时刻分别对应的两帧图像上计算进行目标跟踪的第二损失；以及模型训练模块315，用于基于所述第一损失和所述第二损失，训练出所述联合模型。

在优选的实施例中，所述候选框生成单元320还用于在生成所述候选框的同时，生成该候选框的表观特征。基于此，所述候选框调整单元330可基于上述的公式(1)-(4)来结合前一时刻的跟踪片段调整所述候选框。

在优选的实施例中，所述检测框生成单元340用于基于调整后的候选框生成最终的检测框包括：对所述调整后的候选框进行NMS处理和阈值过滤处理以得到最终的检测框。

需说明的是，本发明实施例的用于目标检测和跟踪的系统的其他实施细节及效果可参考上述关于用于目标检测和跟踪的方法的实施例，在此不再赘述。

本发明另一实施例还提供一种计算机设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上所述的目标检测与跟踪的方法。

本发明另一实施例还提供一种机器可读存储介质，该机器可读存储介质上存储有指令，该指令用于使得机器执行如上所述的目标检测与跟踪的方法。

对于计算机设备及机器可读存储介质中的目标检测与跟踪的方法可参考上述实施例进行理解，在此不再赘述。下面主要结合应用场景对计算机设备及机器可读存储介质进行进一步介绍。

本领域内的技术人员应明白，本发明实施例可提供为方法、装置(设备或系统)、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、装置(设备或系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算机设备包括一个或多个处理器(CPU)、存储器、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本发明实施例可提供为方法、系统或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上结合附图详细描述了本发明实施例的可选实施方式，但是，本发明实施例并不限于上述实施方式中的具体细节，在本发明实施例的技术构思范围内，可以对本发明实施例的技术方案进行多种简单变型，例如改变步骤执行顺序，这些简单变型均属于本发明实施例的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合。为了避免不必要的重复，本发明实施例对各种可能的组合方式不再另行说明。

此外，本发明实施例的各种不同的实施方式之间也可以进行任意组合，只要其不违背本发明实施例的思想，其同样应当视为本发明实施例所公开的内容。

Claims

1.一种用于目标检测和跟踪的方法，其特征在于，该方法包括：

训练目标检测与目标跟踪相联合的联合模型；

通过所述联合模型处理当前时刻的视频序列的每帧图像，以生成候选框，该候选框包括目标坐标及目标属于各个类别的概率，且该候选框是进行目标检测的中间结果；

结合相对于所述当前时刻的前一时刻的跟踪片段调整所述候选框；

基于调整后的候选框生成最终的检测框，以进行目标检测，得到最终检测结果；以及

将所述最终检测结果与所述前一时刻的跟踪片段相结合，生成所述当前时刻的跟踪片段。

2.根据权利要求1所述的用于目标检测和跟踪的方法，其特征在于，在所述通过所述联合模型处理当前时刻的视频序列的每帧图像之前，该方法还包括：

对所述图像进行预处理，再将预处理后的图像输入至所述联合模型；

其中，所述预处理包括：将所述图像缩放成固定尺寸，并减去统一的RGB均值。

3.根据权利要求1所述的用于目标检测和跟踪的方法，其特征在于，所述训练目标检测与目标跟踪相联合的联合模型包括：

通过预测框标注每帧图像中的目标的坐标及所属于的类别，并针对每一预测框分配一个跟踪ID；

在所述视频序列的每个训练集中采样当前时刻和前一时刻对应的视频序列中相邻的两帧图像；

在所采样的所述前一时刻对应的两帧图像上计算进行目标检测的第一损失；

在所采样的所述前一时刻和所述当前时刻分别对应的两帧图像上计算进行目标跟踪的第二损失；以及

基于所述第一损失和所述第二损失，训练出所述联合模型。

4.根据权利要求3所述的用于目标检测和跟踪的方法，其特征在于，所述在所采样的所述前一时刻和所述当前时刻分别对应的两帧图像上计算进行目标跟踪的第二损失包括：

对于前一时刻t-1上的每个预测框b_t-1，计算其与该前一时刻t-1的每个真实值范围之间的交并比IOU，并将b_t-1分配给IOU最大的真实值范围

确定在当前时刻t与所述

相对应的真实值范围

以及

采用以下公式计算b_t-1与

之间的第二损失

式中，

表示预测框b_t-1的表观特征ε(b_t-1)与真实值范围

的表观特征

之间的余弦距离。

5.根据权利要求1所述的用于目标检测和跟踪的方法，其特征在于，该方法还包括：在生成所述候选框的同时，生成该候选框的表观特征。

6.根据权利要求5所述的用于目标检测和跟踪的方法，其特征在于，所述结合相对于所述当前时刻的前一时刻的跟踪片段调整所述候选框包括：

对于当前时刻t的第i个候选框

通过下式计算其在受到前一时刻t-1所有的跟踪片段

的影响的约束下属于类别c的概率：

式中，

表示候选框

与第j个跟踪片段

的相似度权重，且

表示在候选框

受到跟踪片段

的影响的约束下该候选框

属于类别c的概率；

其中，通过下式计算所述

式中，

表示候选框

的表观特征

与跟踪片段

的表观特征

之间的余弦距离，γ为设定的系数；

其中，通过下式计算所述

式中，

表示候选框

属于类别c的概率，

表示第j个跟踪片段

属于类别c的概率。

7.根据权利要求6所述的用于目标检测和跟踪的方法，其特征在于，该方法还包括通过下式来确定所述

式中，β为设定参数，

为跟踪片段

的长度。

8.根据权利要求1所述的用于目标检测和跟踪的方法，其特征在于，所述基于调整后的候选框生成最终的检测框包括：

对所述调整后的候选框进行非最大值抑制NMS处理和阈值过滤处理以得到最终的检测框。

9.一种用于目标检测和跟踪的系统，其特征在于，该系统包括：

模型训练单元，用于训练目标检测与目标跟踪相联合的联合模型；

候选框生成单元，用于通过所述联合模型处理当前时刻的视频序列的每帧图像，以生成候选框，该候选框包括目标坐标及目标属于各个类别的概率，且该候选框是进行目标检测的中间结果；

候选框调整单元，用于结合相对于所述当前时刻的前一时刻的跟踪片段调整所述候选框；

检测框生成单元，用于基于调整后的候选框生成最终的检测框，以进行目标检测，得到最终检测结果；以及

跟踪处理单元，用于将所述最终检测结果与所述前一时刻的跟踪片段相结合，生成所述当前时刻的跟踪片段。

10.根据权利要求9所述的用于目标检测和跟踪的系统，其特征在于，该系统还包括：

预处理单元，用于在所述候选框生成单元通过所述联合模型处理当前时刻的视频序列的每帧图像之前，对所述图像进行预处理；

11.根据权利要求9所述的用于目标检测和跟踪的系统，其特征在于，所述模型训练单元包括：

标注模块，用于通过预测框标注每帧图像中的目标的坐标及所属于的类别，并针对每一预测框分配一个跟踪ID；

采样模块，用于在所述视频序列的每个训练集中采样当前时刻和前一时刻对应的视频序列中相邻的两帧图像；

第一损失计算模块，用于在所采样的所述前一时刻对应的两帧图像上计算进行目标检测的第一损失；

第二损失计算模块，用于在所采样的所述前一时刻和所述当前时刻分别对应的两帧图像上计算进行目标跟踪的第二损失；以及

模型训练模块，用于基于所述第一损失和所述第二损失，训练出所述联合模型。

12.根据权利要求11所述的用于目标检测和跟踪的系统，其特征在于，所述第二损失计算模块用于在所采样的所述前一时刻和所述当前时刻分别对应的两帧图像上计算进行目标跟踪的第二损失包括：

确定在当前时刻t与所述

相对应的真实值范围

以及

采用以下公式计算b_t-1与

之间的第二损失

其中，

表示预测框b_t-1的表观特征ε(b_t-1)与真实值范围

的表观特征

之间的余弦距离。

13.根据权利要求9所述的用于目标检测和跟踪的系统，其特征在于，所述候选框生成单元还用于在生成所述候选框的同时，生成该候选框的表观特征。

14.根据权利要求13所述的用于目标检测和跟踪的系统，其特征在于，所述候选框调整单元用于结合相对于所述当前时刻的前一时刻的跟踪片段调整所述候选框包括：

对于当前时刻t的第i个候选框

通过下式计算其在受到前一时刻t-1所有的跟踪片段

的影响的约束下属于类别c的概率：

其中，

表示候选框

与第j个跟踪片段

的相似度权重，且

表示在候选框

受到跟踪片段

的影响的约束下该候选框

属于类别c的概率；

其中，通过下式计算所述

式中，

表示候选框

的表观特征

与跟踪片段

的表观特征

之间的余弦距离，γ为设定的系数；

其中，通过下式计算所述

式中，

表示候选框

属于类别c的概率，

表示第j个跟踪片段

属于类别c的概率。

15.根据权利要求14所述的用于目标检测和跟踪的系统，其特征在于，该方法还包括通过下式来确定所述

其中，β为设定参数，

为跟踪片段

的长度。

16.根据权利要求9所述的用于目标检测和跟踪的系统，其特征在于，所述检测框生成单元用于基于调整后的候选框生成最终的检测框包括：

17.一种机器可读存储介质，该机器可读存储介质上存储有指令，该指令用于使得机器执行权利要求1至8中任意一项所述的用于目标检测和跟踪的方法。

18.一种计算机设备，其特征在于，该计算机设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1至8中任意一项所述的用于目标检测和跟踪的方法。