CN117372928A

CN117372928A - 一种视频目标检测方法、装置及相关设备

Info

Publication number: CN117372928A
Application number: CN202311373939.8A
Authority: CN
Inventors: 王刚
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Suzhou Software Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Suzhou Software Technology Co Ltd
Priority date: 2023-10-23
Filing date: 2023-10-23
Publication date: 2024-01-09

Abstract

本公开提供一种视频目标检测方法方法、装置及相关设备，涉及计算机视觉的技术领域，其中方法包括：对目标视频中的第一视频帧进行目标检测和目标跟踪，得到所述第一视频帧的检测信息和跟踪信息，其中，所述检测信息包括所述第一视频帧的每一第一检测框的置信度，所述跟踪信息用于预测所述第一视频帧中的多个第二检测框；根据所述第一视频帧的跟踪信息对所述检测信息中的各个第一检测框的置信度进行修正，得到目标检测信息；根据所述目标检测信息，在所述第一视频帧中确定至少一个目标检测框，其中，所述目标检测框为所述目标检测信息包括的多个第一检测框中，对应的置信度大于第一预设阈值的第一检测框。本公开能提升对视频的目标检测效果。

Description

一种视频目标检测方法、装置及相关设备

技术领域

本公开涉及计算机视觉的技术领域，具体涉及一种视频目标检测方法、装置及相关设备。

背景技术

目标检测作为计算机视觉的基础任务，其任务执行结果对其他计算机视觉任务有非常重要的影响。

目前，在视频采集过程中，存在因视频中特定对象运动而导致的画面模糊和视频失焦的问题，这使得对视频的特定对象进行目标检测的难度较大，若应用相关技术对视频进行目标检测处理，易出现目标丢失问题，也就是说，基于相关技术对视频进行目标检测处理的效果较差。

发明内容

本公开的目的在于提供一种视频目标检测方法、装置及相关设备，用于解决相关技术对视频进行目标检测处理的检测效果差的技术问题。

第一方面，本公开实施例提供一种视频目标检测方法，包括：

对目标视频中的第一视频帧进行目标检测，得到所述第一视频帧的检测信息，对所述第一视频帧进行目标跟踪，得到所述第一视频帧的跟踪信息，其中，所述第一视频帧为所述目标视频中的一个视频帧，所述检测信息包括所述第一视频帧的多个第一检测框中，每个第一检测框的置信度，所述跟踪信息用于预测所述第一视频帧中的多个第二检测框；

根据所述第一视频帧的跟踪信息对所述检测信息中的各个第一检测框的置信度进行修正，得到目标检测信息；

根据所述目标检测信息，在所述第一视频帧中确定至少一个目标检测框，其中，所述目标检测框为所述目标检测信息包括的多个第一检测框中，对应的置信度大于第一预设阈值的第一检测框。

在一个实施例中，所述根据所述第一视频帧的跟踪信息对所述检测信息中的各个第一检测框的置信度进行修正，得到目标检测信息，包括：

获取第一目标检测框和所述多个第二检测框，其中，所述第一目标检测框为所述多个第一检测框中的任一第一检测框；

根据所述第一目标检测框和所述多个第二检测框，得到多个优化参数，其中，所述多个优化参数和所述多个第二检测框一一对应，所述优化参数为对应第二检测框的第一参数和第二参数之和，所述第一参数为对应的第二检测框和所述第一目标检测框的交并比，所述第二参数为所述第一目标检测框在所述检测信息中的置信度和第三参数的乘积，所述第三参数为预设系数与所述交并比的差值，所述预设系数用于指示交并比的最大值；

计算所述多个优化参数的均值，并将所述均值确定为所述第一目标检测框在所述目标检测信息中的置信度。

在一个实施例中，所述对目标视频中的第一视频帧进行目标检测，得到所述第一视频帧的检测信息，对所述第一视频帧进行目标跟踪，得到所述第一视频帧的跟踪信息之前，所述方法还包括：

对所述目标视频中的视频帧进行分类，得到至少一个第一视频帧和至少一个第二视频帧，所述第一视频帧的检测难度大于所述第二视频帧的检测难度；

所述对所述目标视频的多个视频帧进行分类，得到至少一个第一视频帧和至少一个第二视频帧之后，所述方法还包括：

对所述第二视频帧进行目标跟踪，得到所述第二视频帧的跟踪信息；

根据所述第二视频帧的跟踪信息，确定所述第二视频帧中的检测框。

在一个实施例中，所述对所述目标视频的多个视频帧进行分类，得到至少一个第一视频帧和至少一个第二视频帧之前，所述方法还包括：

获取第一初始模型和多个第一训练图像，其中，所述第一训练图像包括真值框、对应所述真值框的正样本框以及对应所述真值框的负样本框，所述正样本框和对应的所述真值框的交并比大于第二预设阈值，所述负样本框和对应的所述真值框的交兵比小于或等于第三预设阈值，所述第二预设阈值大于或等于所述第三预设阈值；

基于所述多个第一训练图像对所述第一初始模型进行训练，得到第一目标模型；

所述对所述目标视频的多个视频帧进行分类，得到至少一个第一视频帧和至少一个第二视频帧，包括：

基于所述第一目标模型对所述目标视频中的视频帧进行分类，得到至少一个第一视频帧和至少一个第二视频帧。

在一个实施例中，所述根据所述第二视频帧的跟踪信息，确定所述第二视频帧中的检测框，包括：

根据所述第二视频帧的跟踪信息，确定所述第二视频帧中的预测框；

对所述第二视频帧中的预测框进行位置校正，得到所述第二视频帧中的检测框。

在一个实施例中，所述根据所述第二视频帧的跟踪信息，确定所述第二视频帧中的检测框之前，所述方法还包括：

获取第二初始模型和多个第二训练图像，其中，所述第二训练图像包括真值框和对应所述真值框的锚框；

对所述多个第二训练图像分别进行标准化处理，得到多个第三训练图像，其中，所述第三训练图像的真值框的位置参数为对应第二训练图像的真值框的位置参数与对应第二训练图像的锚框的位置参数的差值，或者，所述第三训练图像的真值框的位置参数为对应第二训练图像的真值框的位置参数与对应第二训练图像的锚框的位置参数的比值的对数，所述位置参数用于指示对应真值框或锚框的端点坐标、中心点坐标、长度和宽度；

基于所述多个第三训练图像对所述第二初始模型进行训练，得到第二目标模型；

所述对所述第二视频帧中的预测框进行位置校正，得到所述第二视频帧中的检测框，包括：

基于所述第二目标模型对所述第二视频帧中的预测框进行位置校正，得到所述第二视频帧中的检测框。

在一个实施例中，所述对所述第一视频帧进行目标跟踪，得到所述第一视频帧的跟踪信息，包括：

基于预设的轻量跟踪器对所述第一视频帧进行目标跟踪，得到所述第一视频帧的跟踪信息，其中，所述轻量跟踪器为基于卡尔曼滤波算法构建的跟踪器。

在一个实施例中，所述根据修正后的所述检测信息，在所述第一视频帧中确定至少一个目标检测框之后，所述方法还包括：

对所述第一视频帧中的至少一个目标检测框进行目标识别，得到每一所述目标检测框的识别结果，且不同目标检测框的识别结果不同。

第二方面，本公开实施例还提供一种视频目标检测装置，包括：

处理模块，用于对目标视频中的第一视频帧进行目标检测，得到所述第一视频帧的检测信息，对所述第一视频帧进行目标跟踪，得到所述第一视频帧的跟踪信息，其中，所述第一视频帧为所述目标视频中的一个视频帧，所述检测信息包括所述第一视频帧的多个第一检测框中，每个第一检测框的置信度，所述跟踪信息用于预测所述第一视频帧中的多个第二检测框；

修正模块，用于根据所述第一视频帧的跟踪信息对所述检测信息中的各个第一检测框的置信度进行修正，得到目标检测信息；

确定模块，用于根据所述目标检测信息，在所述第一视频帧中确定至少一个目标检测框，其中，所述目标检测框为所述目标检测信息包括的多个第一检测框中，对应的置信度大于第一预设阈值的第一检测框。

第三方面，本公开实施例还提供一种电子设备，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现上述的视频目标检测方法的步骤。

第四方面，本公开实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述的视频目标检测方法的步骤。

在本公开实施例中，对视频内的视频帧进行目标检测的过程中，也会对视频帧进行目标跟踪，以利用跟踪信息反映出的，视频帧内的检测框在时序上的连续性，对检测信息所包括的多个第一检测框的置信度进行修正，进而输出置信度更加准确的目标检测信息，并基于目标检测信息确定视频帧内的至少一个目标检测框，这能提升视频所获得的目标检测效果。

附图说明

图1是本公开实施例提供的一种视频目标检测方法的示意图；

图2是本公开实施例提供的另一种视频目标检测方法的示意图；

图3是本公开实施例提供的一种视频目标检测装置的示意图；

图4是本公开实施例提供的一种电子设备的示意图。

具体实施方式

下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

本公开实施例提供一种视频目标检测方法，如图1所示，所述视频目标检测方法包括：

步骤101、对目标视频中的第一视频帧进行目标检测，得到所述第一视频帧的检测信息，对所述第一视频帧进行目标跟踪，得到所述第一视频帧的跟踪信息。

其中，所述第一视频帧为所述目标视频中的一个视频帧，所述检测信息包括所述第一视频帧的多个第一检测框中，每个第一检测框的置信度，所述跟踪信息用于预测所述第一视频帧中的多个第二检测框。

上述目标视频可以为对应多目标检测场景中的任意一个视频，例如：基于车载摄像头采集到的视频、基于道路两旁/楼宇出入口/建筑物转角处所设置的监控摄像头采集到的视频、基于无人机搭载的摄像头采集的视频。

在一示例中，对目标视频中的第一视频帧进行目标检测的过程可以为：

基于预设目标检测模型或检测器，检测第一视频帧中是否包含指示特定对象的图像内容，若包含，则在第一视频帧中，通过检测框围住指示特定对象的图像部分，以标记特定对象在第一视频帧中的位置，举例来说，所述特定对象可以包括：动物、人、车辆等对象中的至少一项。

示例性的，可以应用训练好的目标检测网络模型完成上述目标检测动作，其中，可以参考单阶段检测器的网络架构构建前述目标检测网络模型，并对生成锚框(anchors)时的比例(ratios)进行调整，例如，可将ratios的取值设为0.95、1.0、1.1等，以适配不同待检测对象在视频帧中的比例变化，同时将目标检测网络模型中可训练的参数表示为θ_D。

目标检测网络模型的损失函数可以如下所示：

L_D ＝ λ₁l_cls + λ₂l_reg (1)

式(1)中，L_D为目标检测网络模型的损失值，l_cls为目标检测网络模型的包围框分类损失，用于指示包围框对应的图像区域是否为所检测的对象；l_reg为目标检测网络模型的包围框回归损失，用于包围框对应的图像区域的区域位置是否为准确，λ₁和λ₂为调整系数；

具体来说，在检出的多个包围框中，若对应真值框的包围框越多，则l_cls越低；若包围框和对应真值框之间的交并比越大，则l_reg越低；λ₁可以取为1，λ₂可以取为1。

根据标记有真值框的训练图像，以随机梯度下降算法(Stochastic GradientDescent，SGD)指导目标检测网络模型的训练迭代，直至式(1)所示的损失函数的损失值在一定迭代轮数内不再下降或达到预设的迭代轮数，即可认为得到训练好的目标检测网络模型，举例来说，上述预设的迭代轮数可以设置为30轮、32轮、45轮等。

示例性的，将视频帧输入训练好的目标检测网络模型后，模型输出可以包括：

指示视频帧中的第一检测框位置和指示第一视频帧中的各个第一检测框对应的检测分数(也即置信度)其中，/>分别表示第t帧视频图像(即第t个视频帧)上第i个检测框的左上角x坐标、左上角y坐标、长、宽和检测置信度分数，N^t表示第t帧视频图像上得到的检测结果数量(也即检测框数量)。

在一示例中，对目标视频中的第一视频帧进行目标跟踪的过程可以为：

基于预设目标跟踪模型或跟踪器，根据第一视频帧的前一视频帧的目标检测结果，预测第一视频帧中是否包含指示特定对象的图像内容，若包含，则在第一视频帧中，通过包围框围住指示特定对象的图像部分，以标记特定对象在第一视频帧中的预测位置。

步骤102、根据所述第一视频帧的跟踪信息对所述检测信息中的各个第一检测框的置信度进行修正，得到目标检测信息。

步骤103、根据所述目标检测信息，在所述第一视频帧中确定至少一个目标检测框。

其中，所述目标检测框为所述目标检测信息包括的多个第一检测框中，对应的置信度大于第一预设阈值的第一检测框。

在实际生活中，视频中的目标检测和识别更加贴近真实场景的任务需求，如视频监控、自动驾驶、无人机导航等。与静态图像的目标检测和识别不同，由于视频中的目标是不断变化的，即目标自身属性诸如外观、形状、尺寸会动态地变化，而这些变化会增加目标的检测和识别难度，若基于相关技术对视频中的目标进行检测和识别，漏检和错检的概率较高。

针对上述问题，本公开提出，在对视频内的视频帧进行目标检测的过程中，也会对视频帧进行目标跟踪，以利用跟踪信息反映出的，视频帧内的检测框在时序上的连续性，对检测信息所包括的多个第一检测框的置信度进行修正，进而输出置信度更加准确的目标检测信息，并基于目标检测信息确定视频帧内的至少一个目标检测框，这能提升视频所获得的目标检测效果，降低漏检和错检的概率。

举例来说，利用跟踪信息反映出的，视频帧内的检测框在时序上的连续性(也可以称为一致性，指目标在视频中的出现，具体体现在连续的多个视频帧中均包括该目标对象的图像区域的情况，且相邻帧之间的目标外观存在相似性，以及相邻帧之间的目标位置相临近的特点)，对检测信息所包括的多个第一检测框的置信度进行修正，进而输出置信度更加准确的目标检测信息，可以理解为：

当第一视频帧的前一视频帧检测出目标对象A以及对应检测框的情况下，目标对象A大概率也会出现于第一视频帧中，因此，跟踪信息会在第一视频帧中预测一个对应目标对象A的预测框，若目标对象A在第一视频帧中由于运动幅度较大或失焦等问题，导致检测信息虽然检出了目标对象A的检测框，但给检测框赋予的置信度较低，此时，由于对应目标对象A的预测框的存在，因此可提高目标对象A的检测框的置信度数值，以完成对目标对象A的检测框的置信度修正，使得目标对象A的检测框的修正后的置信度大于第一预设阈值，令目标对象A在第一视频帧得以顺利检出并被准确标记。

示例性的，所述第一预设阈值可根据实际需求进行适应性调整，例如：0.4、0.5、0.55、0.7等。

该实施例中，综合第一检测框和预测的多个第二检测框之间的交并比，以及第一检测框在检测信息中的置信度，通过均值计算的方式获得第一检测框在目标检测信息中的置信度，在基于跟踪信息修正检测信息中的置信度数据的同时，避免跟踪信息的存在对置信度数据的修正影响过大，使得输出的目标检测信息的置信度可以准确反映各个第一检测框的置信程度。

示例性的，优化参数的计算可以如下所示：

式(2)中，为目标视频中的第t个视频帧中，第i个第一检测框和第j个第二检测框对应的优化参数，IOU函数表示求两个包围框的交并比，/>和/>分别表示第t帧视频图像(即第t个视频帧)的第i个检测框及其对应的检测分数(即置信度)，表示第t帧视频图像上由跟踪信息预测的第j个包围框，i取值1-N^t，j取值1-N_kl^t，N^t为第t个视频帧对应检测信息包括的第一检测框的总数量，N_kl^t为第t个视频帧对应跟踪信息包括的第二检测框的总数量，前述预设系数为1。

该实施例中，基于不同视频帧的检测难度差异，在目标视频包括的多个视频帧中区分第一视频帧和第二视频帧，并对检测难度较大的第一视频帧采取目标检测、目标跟踪以及跟踪优化的处理措施，以保障第一视频帧输出的目标检测结果的准确性；而对检测难度较小的第二视频帧采取目标跟踪的处理措施，以利用邻近视频帧中目标的位置相邻的特点，根据历史检测结果(即前若干个帧的检测结果)直接预测得到目标在未来帧上的包围框，以减少检测器的使用次数，从而提升视频中目标检测效率。

示例性的，所述第一视频帧可以理解为，目标由于运动导致所对应图像区域变化幅度过大的视频帧、目标对应的图像区域失焦的视频帧、目标在视频中首次出现的视频帧等。

在一示例中，根据所述第二视频帧的跟踪信息，确定所述第二视频帧中的检测框，可以为：将第二视频帧的跟踪信息预测的包围框确定为所述第二视频帧中的检测框。

该实施例中，通过构建包括正样本框和负样本框的训练图像，在训练第一目标模型的过程中，帮助模型更好地学习用于区别第一视频帧和第二视频帧相关特征，同时帮助模型排除对区别第一视频帧和第二视频帧无用的干扰特征，以提升所训练得到的第一目标模型的视频帧分类效果，也即令分类得到的第一视频帧和第二视频帧更加准确。

在一些实施方式中，可以设定训练图像中正样本框和负样本框的数量相同，以平衡模型受正样本框的特征学习影响和负样本框的特征学习影响，规避模型过拟合的问题。

示例性的，前述第一初始模型可以包括：特征提取网络、感兴趣池化(ROIpooling)模块以及分类头，其中，特征提取网络用于提取输入模型的图像的特征，ROIpooling模块用于对来源于图像中不同比例的目标的特征进行标准化处理，分类头用于去区分标准化后的特征是否属于待识别目标对应的特征；

其中，特征提取网络可以为ResNet34网络，分类头可以包含一个全连接层和sigmoid层，第一初始模型中可训练的参数表示为θ_S。

第一初始模型对应的损失函数如下所示：

式(3)中，N为输入第一初始模型中的第一训练图像的包围框的总数量，y_k为第一训练图像中第k个包围框的真值，p_k为第一初始模型对第k个包围框的分类结果，k取值1-N。

第一初始模型在训练阶段，可以使用随机梯度下降算法进行训练迭代，直到损失函数在一定迭代轮数内不再下降或满足预设的迭代轮数，则完成训练。

示例性的，第一训练图像的数据准备过程可以为：

在原始训练图像中的真值框周围随机选择正样本框和负样本框，每一原始训练图像上选择N×10个用于训练的样本框，样本框中的正样本框和负样本框的比例为1:1；

其中，正样本框的选择规则为：

IOU(gt_k,bboxes_k,m)>0.5 (4)

式(4)中，gt_k是该原始训练图像上第k个真值包围框，bboxes_k,m是在第k个真值包围框周围选择的第m个正样本包围框，k取值1-N，m取值1-5。

其中，负样本框的选择规则为：

IOU(gt_k,bboxes_k,n)≤0.5 (5)

式(5)中，bboxes_k,n是在第k个真值包围框周围选择的第n个正样本包围框，n取值1-5。

该示例中，前述第二预设阈值等于所述第三预设阈值，值为0.5。

举例来说，当第t个视频帧输入所述第一目标模型后，模型输出可以如下所示：

式(6)中，α^t为第t个视频帧对应第一目标模型的输出，为第t个视频帧中第k个包围框的判别分数，判别分数越高，则说明该包围框对应目标的检测难度越高，α^t的数值越大，则说明对应视频帧为第一视频帧的概率越大。

该实施例中，根据第二视频帧的跟踪信息，确定第二视频帧中的预测框后，通过对第二视频帧中的预测框进行位置校正，以提升所得到第二视频帧中的检测框的位置准确性，进而优化视频中检测难度较低的第二视频帧所获得目标检测效果。

该实施例中，在训练第二初始模型的过程中，通过对第二训练图像中的真值框的位置参数进行标准化处理，以统一不同包围框的尺寸大小，以便利第二初始模型的参数收敛，加快第二初始模型的训练速率。

示例性的，对真值框的位置参数的标准化处理过程可以如下所示：

式(7)中，x,y,w,h分别表示包围框中心两个坐标、长和宽，分别表示标准化后的真值包围框中心的X轴坐标、锚框中心的X轴坐标和真值包围框中心的X轴坐标，y,w,h中上下标的含义与之类似。

示例性的，所述第二初始模型可以包括特征提取网络、ROI pooling模块和回归头，网络中的可训练参数表示为θ_C。

其中，特征提取网络选用ResNet34网络；回归头包含两个全连接层；全连接层之间使用ReLU激活函数，以输出得到用于校准包围框位置的偏移量。此处ReLU激活函数为f(x)＝max{(0,x)}。

第二初始模型的损失函数可以如下所示：

式(8)中，L_C为第二初始模型的损失值，SmoothL1是平滑L1函数，N_reg为输入第二初始模型中图像的包围框数量，p取值为1-N_reg，t_p和分别为第p个第二训练图像经过第二初始模型校准后输出的包围框和其对应的真值包围框的参数化形式。

使用随机梯度下降算法训练第二初始模块，直到式(8)所示损失函数在一定迭代轮数内不再下降或满足预设的迭代轮数，则完成训练，本公开中预设的迭代轮数的取值可以为30-45轮，本示例中设定为45轮。

该实施例中，可以对第二训练图像经过第二初始模型校准后输出的包围框也进行前述标准化处理，以匹配标准化后的真值框的位置参数的数据格式，保障损失函数的正常计算。

示例性的，对第二训练图像经过第二初始模型校准后输出的包围框的位置参数的标准化处理过程可以如下所示：

log(h/h_a) (8)

式(8)中，t_x,x_a,x_a分别表示模型输出的包围框经过标准化后中心点的X轴坐标，锚框中心点的X轴坐标和模型输出的包围框中心点的X轴坐标，y,w,h中上下标的含义与之类似。

在一些实施方式中，还可以在第二训练图像的真值框附近随机加入多个正向样本框，以丰富第二训练图像的包围框数量，提升第二目标效果的包围框校正效果；

正向样本框可以为：

IOU(gt_o,bboxes_ov)≥0.7 (9)

其中，gt_o是第o个真值包围框，bboxes_ov是在第o个真值包围框周围选择的第v个样本包围框，o，v的具体取值范围可以根据实际需求进行确定，例如：1-10或1-100等，本公开对此不作限定。

该实施例中，基于卡尔曼滤波算法构建轻量跟踪器，并根据轻量跟踪器完成对视频内第一视频帧的目标跟踪，以简化跟踪器的计算过程，降低对带有标注的视频数据的要求，使之更加能够提升整体流程的速度，并适应视频中一般目标的检测和识别需求。

示例性的，轻量跟踪器的预测过程如下所示：

x′＝Fx(10)

bboxes_kl^t＝Hx′(11)

式中，x为卡尔曼滤波器(即轻量跟踪器)中目标在t-1时刻的均值，x′为卡尔曼滤波器预测的目标在t时刻的均值，F为卡尔曼滤波器中状态转移矩阵，H为卡尔曼滤波器的测量矩阵，通过将物体的均值向量x′映射到检测空间，一得到在第t帧上预测的目标的包围框bboxes_kl^t。

轻量跟踪器对应的代价矩阵如下所示：

式中，表示第t帧上第i个检测框和第j个预测包围框之间的代价。IOU函数表示求两个包围框的交并比，/>表示第t帧视频图像的第i个检测框，/>表示第t帧视频图像上卡尔曼滤波器预测的第j个包围框，i取值1-N^t，j取值1-N_kl^t。

轻量跟踪器对应的状态更新过程如下所示：

x′＝Fx(13)

P′＝FPF^T+Q(14)

K＝P′H^T(HP′H^T+R)^-1(15)

x ＝ x′ + K(z-Hx′) (16)

P＝(I-KH)P′(17)

式中，x为卡尔曼滤波器中物体在t-1时刻的均值，x′为卡尔曼滤波器预测的物体在t时刻的均值，F为卡尔曼滤波器中状态转移矩阵，P为t-1时刻的协方差矩阵，P′为t时刻的协方差矩阵，Q为系统的噪声矩阵，H为卡尔曼滤波器的测量矩阵，K为计算过程中临时矩阵，z为t时刻得到检测框的均值向量。

需要说明的是，本公开中，也可以基于轻量跟踪器实现对第二视频帧的目标跟踪，以减少视频整体的处理耗时，提升对视频中动态目标的检测效率。

该实施例中，在确定第一视频帧中的至少一个目标检测框后，通过对目标检测框所围住的图像区域作进一步识别，以确定每一目标检测框对应的目标编号。

举例来说，可以通过在第一视频帧中标记每一所述目标检测框的识别结果(通过颜色差异、文字标识等方式)，为用户提供更加直观的图像识别结果。

示例性的，可以应用训练好的物体分类网络对所述第一视频帧中的至少一个目标检测框进行目标识别，以得到每一所述目标检测框的识别结果。

所述物体分类网络可以包括特征提取网络和分类头，特征提取网络选用ResNet18；分类头包含一个全连接层和softmax层；

所述物体分类网络在训练阶段的损失函数如下所示：

式中，N为输入网络中总的图像数量，y_i为第i个图片类别的真值，β_i为网络对第i个图像的分类结果，i取值1-N。

随机梯度下降算法训练物体分类网络，直到损失函数在一定迭代轮数内不再下降或满足预设的迭代轮数，则完成训练。

为方便理解，示例说明如下：

如图2所示，对视频T帧(即视频所包括的T个视频帧)进行关键帧判别(即区分T帧中的第一视频帧和第二视频帧)；

若当前帧被识别为关键帧(即第一视频帧)，则对当前帧进行目标检测，以得到当前帧对应的检测框(即前述检测信息，也即图2所示出的T帧包围框)，同时基于卡尔曼滤波器预测当前帧的包围框(即前述跟踪信息)，并参见前述式(2)的公式，基于当前帧对应的预测的包围框优化当前帧对应的检测框的置信度，从而得到前述目标检测信息(即图2所示出的优化的T帧包围框)，最后基于目标检测信息确定当前帧中的目标检测框，并对目标检测框所围住的图像内容进行物体类别分类，以确定每一目标检测框的识别结果(即图2中所示出的T帧检测和识别结果)；

若当前帧被识别为非关键帧(即第二视频帧)，则基于卡尔曼滤波器预测当前帧的包围框(即前述跟踪信息)，并利用前述第二目标模型对预测的包围框进行位置校准，而后基于将校准后的包围框确定为当前帧的检测框，并对检测框所围住的图像内容进行物体类别分类，以确定每一检测框的识别结果(即图2中所示出的T帧检测和识别结果)。

需要指出的是，针对关键帧的处理流程中，当获得前述目标检测信息后，还需要使用匈牙利算法对目标检测信息进行调整，以获得用于更新卡尔曼滤波器的相关信息，保障卡尔曼滤波器的迭代应用；

针对非关键帧的处理流程中，对预测的包围框进行位置校准后，也需要使用匈牙利算法对校准后的跟踪信息进行调整，以获得用于更新卡尔曼滤波器的相关信息，保障卡尔曼滤波器的迭代应用。

参见图3，图3是本公开实施例提供的一种视频目标检测装置，如图3所示，所述视频目标检测装置300包括：

处理模块301，用于对目标视频中的第一视频帧进行目标检测，得到所述第一视频帧的检测信息，对所述第一视频帧进行目标跟踪，得到所述第一视频帧的跟踪信息，其中，所述第一视频帧为所述目标视频中的一个视频帧，所述检测信息包括所述第一视频帧的多个第一检测框中，每个第一检测框的置信度，所述跟踪信息用于预测所述第一视频帧中的多个第二检测框；

修正模块302，用于根据所述第一视频帧的跟踪信息对所述检测信息中的各个第一检测框的置信度进行修正，得到目标检测信息；

确定模块303，用于根据所述目标检测信息，在所述第一视频帧中确定至少一个目标检测框，其中，所述目标检测框为所述目标检测信息包括的多个第一检测框中，对应的置信度大于第一预设阈值的第一检测框。

在一个实施例中，所述修正模块302，包括：

获取单元，用于获取第一目标检测框和所述多个第二检测框，其中，所述第一目标检测框为所述多个第一检测框中的任一第一检测框；

参数计算单元，用于根据所述第一目标检测框和所述多个第二检测框，得到多个优化参数，其中，所述多个优化参数和所述多个第二检测框一一对应，所述优化参数为对应第二检测框的第一参数和第二参数之和，所述第一参数为对应的第二检测框和所述第一目标检测框的交并比，所述第二参数为所述第一目标检测框在所述检测信息中的置信度和第三参数的乘积，所述第三参数为预设系数与所述交并比的差值，所述预设系数用于指示交并比的最大值；

置信度优化单元，用于计算所述多个优化参数的均值，并将所述均值确定为所述第一目标检测框在所述目标检测信息中的置信度。

在一个实施例中，所述装置300还包括：

分类模块，用于对所述目标视频中的视频帧进行分类，得到至少一个第一视频帧和至少一个第二视频帧，所述第一视频帧的检测难度大于所述第二视频帧的检测难度；

跟踪模块，用于对所述第二视频帧进行目标跟踪，得到所述第二视频帧的跟踪信息；

所述确定模块303还用于：根据所述第二视频帧的跟踪信息，确定所述第二视频帧中的检测框。

在一个实施例中，所述装置300还包括：

第一建模模块，用于获取第一初始模型和多个第一训练图像，基于所述多个第一训练图像对所述第一初始模型进行训练，得到第一目标模型，其中，所述第一训练图像包括真值框、对应所述真值框的正样本框以及对应所述真值框的负样本框，所述正样本框和对应的所述真值框的交并比大于第二预设阈值，所述负样本框和对应的所述真值框的交兵比小于或等于第三预设阈值，所述第二预设阈值大于或等于所述第三预设阈值；

所述分类模块，具体用于：基于所述第一目标模型对所述目标视频中的视频帧进行分类，得到至少一个第一视频帧和至少一个第二视频帧。

在一个实施例中，所述确定模块303，包括：

确定单元，用于根据所述第二视频帧的跟踪信息，确定所述第二视频帧中的预测框；

校正单元，用于对所述第二视频帧中的预测框进行位置校正，得到所述第二视频帧中的检测框。

在一个实施例中，所述装置300还包括：

第二建模模块，用于获取第二初始模型和多个第二训练图像；对所述多个第二训练图像分别进行标准化处理，得到多个第三训练图像；基于所述多个第三训练图像对所述第二初始模型进行训练，得到第二目标模型，其中，所述第二训练图像包括真值框和对应所述真值框的锚框，所述第三训练图像的真值框的位置参数为对应第二训练图像的真值框的位置参数与对应第二训练图像的锚框的位置参数的差值，或者，所述第三训练图像的真值框的位置参数为对应第二训练图像的真值框的位置参数与对应第二训练图像的锚框的位置参数的比值的对数，所述位置参数用于指示对应真值框或锚框的端点坐标、中心点坐标、长度和宽度；

所述校正单元，具体用于：

在一个实施例中，所述跟踪模块，具体用于：

在一个实施例中，所述装置300，还包括：

识别模块，用于对所述第一视频帧中的至少一个目标检测框进行目标识别，得到每一所述目标检测框的识别结果，且不同目标检测框的识别结果不同。

本公开实施例提供的视频目标检测装置300能够实现上述视频目标检测方法实施例中的各个过程，为避免重复，这里不再赘述。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质。

图4示出了可以用来实施本公开的实施例的示例电子设备400的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图4所示，设备400包括计算单元401，其可以根据存储在只读存储器(Read-OnlyMemory，ROM)402中的计算机程序或者从存储单元408加载到随机访问存储器(RandomAccess Memory，RAM)403中的计算机程序，来执行各种适当的动作和处理。在RAM 403中，还可存储设备400操作所需的各种程序和数据。计算单元401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。

设备400中的多个部件连接至I/O接口405，包括：输入单元406，例如键盘、鼠标等；输出单元407，例如各种类型的显示器、扬声器等；存储单元408，例如磁盘、光盘等；以及通信单元409，例如网卡、调制解调器、无线通信收发机等。通信单元409允许设备400通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元401可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元401的一些示例包括但不限于中央处理单元(Central Processing Unit，CPU)、图形处理单元(Graphic Process Unit，GPU)、各种专用的人工智能(Artificial Intelligence，AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(Digital SignalProcessing，DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元401执行上文所描述的各个方法和处理，例如视频目标检测方法。例如，在一些实施例中，视频目标检测方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元408。在一些实施例中，计算机程序的部分或者全部可以经由ROM 402和/或通信单元409而被载入和/或安装到设备400上。当计算机程序加载到RAM 403并由计算单元401执行时，可以执行上文描述的视频目标检测方法的一个或多个步骤。备选地，在其他实施例中，计算单元401可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行视频目标检测方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(Field－Programmable Gate Array，FPGA)、专用集成电路(Application Specific Integrated Circuit，ASIC)、专用标准产品(ApplicationSpecific Standard Product，ASSP)、芯片上系统的系统(System on Chip，SOC)、复杂可编程逻辑设备(Complex Programmable Logic Device，CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种视频目标检测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述第一视频帧的跟踪信息对所述检测信息中的各个第一检测框的置信度进行修正，得到目标检测信息，包括：

3.根据权利要求1所述的方法，其特征在于，所述对目标视频中的第一视频帧进行目标检测，得到所述第一视频帧的检测信息，对所述第一视频帧进行目标跟踪，得到所述第一视频帧的跟踪信息之前，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述对所述目标视频的多个视频帧进行分类，得到至少一个第一视频帧和至少一个第二视频帧之前，所述方法还包括：

5.根据权利要求3所述的方法，其特征在于，所述根据所述第二视频帧的跟踪信息，确定所述第二视频帧中的检测框，包括：

6.根据权利要求5所述的方法，其特征在于，所述根据所述第二视频帧的跟踪信息，确定所述第二视频帧中的检测框之前，所述方法还包括：

7.根据权利要求1-6中任一项所述的方法，其特征在于，所述对所述第一视频帧进行目标跟踪，得到所述第一视频帧的跟踪信息，包括：

8.根据权利要求1-6中任一项所述的方法，其特征在于，所述根据修正后的所述检测信息，在所述第一视频帧中确定至少一个目标检测框之后，所述方法还包括：

9.一种视频目标检测装置，其特征在于，所述装置包括：

10.一种电子设备，其特征在于，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至8中任一项所述方法的步骤。

11.一种可读存储介质，其特征在于，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至8中任一项所述方法的步骤。