CN114419520A

CN114419520A - 视频级目标检测模型的训练方法及装置、设备、存储介质

Info

Publication number: CN114419520A
Application number: CN202210308421.5A
Authority: CN
Inventors: 周凯来; 王乙卜; 吕涛; 陈林森; 字崇德
Original assignee: Nanjing Zhipu Technology Co ltd
Current assignee: Nanjing Zhipu Technology Co ltd
Priority date: 2022-03-28
Filing date: 2022-03-28
Publication date: 2022-04-29
Anticipated expiration: 2042-03-28
Also published as: CN114419520B

Abstract

本申请公开了一种视频级目标检测模型的训练方法及装置、设备、存储介质。本申请一实施例中，视频级目标检测模型的训练方法包括：利用视频级目标检测模型提取训练视频的T帧预测框，所述训练视频包括T帧图像；为所述T帧预测框生成偏移量，获得T帧偏移后预测框；通过最小化所述T帧偏移后预测框与所述T帧图像的真实框之间的向量夹角，确定时空聚合损失函数；根据时空聚合损失函数、总体损失函数对所述视频级目标检测模型的参数进行优化。本申请可获得能够实现“三维时空”层面视频目标检测的视频级目标检测模型，并且，几乎不会给原先的模型添加计算量，可以做到即插即用。

Description

视频级目标检测模型的训练方法及装置、设备、存储介质

技术领域

本申请涉及图像检测技术领域，特别是指一种视频级目标检测模型的训练方法及装置、设备、存储介质。

背景技术

目前，基于深度学习的目标检测算法取得了长足发展，在位置回归的损失函数方面，例如Smooth L1 Loss、GIOU Loss、CIOU Loss、balance L1 Loss等等。Smooth L1 Loss与balance L1 Loss等直接从位置误差出发，对预测的目标预选框进行位置回归。GIOULoss、CIOU Loss等计算预测框与实际框之间的交并比（Intersection over Union，IOU），通过最小化IOU使得预测框位置逼近真实框，具有尺度不变性，强调了大小、位置、宽高之间的联系，并且与目标检测效果评价指标关联性更强。但是上述目标检测损失函数都只在“二维空间”层面施加约束，如果应用在视频级目标检测任务上，缺乏对时间维度的考虑。

当前，视频目标检测的主要挑战在于一些遮挡与模糊，而像静态目标检测一样去处理每一帧计算量大，并且需要后处理取得较高的精度。由于视频目标检测单帧目标即非常显著&信息量充足，因此研究重点在于利用关键帧信息去弥补非关键帧信息。而对于某些静态单帧特征不明显的目标，例如，红外光谱画面下的挥发性有机化合物（VOC）气体泄漏目标检测，需要通过时域上的时空形态变化特征来弥补静态单帧特征的缺失。

因此，如何训练视频级目标检测模型以使得视频级目标检测模型能够实现“三维时空”层面的视频目标检测，是亟待解决的问题。

发明内容

为解决上述技术问题，本申请提供一种视频级目标检测模型的训练方法及装置、设备、存储介质，可使得视频级目标检测模型实现“三维时空”层面的视频目标检测。

本申请第一方面提供了一种视频级目标检测模型的训练方法，包括：

利用视频级目标检测模型提取训练视频的T帧预测框，所述训练视频包括T帧图像；

为所述T帧预测框生成偏移量，获得T帧偏移后预测框；

通过最小化所述T帧偏移后预测框与所述T帧图像的真实框之间的向量夹角，确定时空聚合损失函数；

根据时空聚合损失函数、总体损失函数对所述视频级目标检测模型的参数进行优化。

由此，通过最小化预测框与实际框之间的向量夹角，获得时空聚合损失

，由于考虑了时域的关联性，

可在三维时空维度施加约束，因此可以更好地训练挖掘视频级目标检测模型的时空域联系，加强其时空表征能力，从而获得能够实现“三维时空”层面视频目标检测的视频级目标检测模型。

一些可能的实现方式中，所述通过最小化所述T帧偏移后预测框与所述T帧图像的真实框之间的向量夹角，确定时空聚合损失函数，包括：

基于预先构建的cosine损失项和sine损失项计算所述T帧偏移后预测框与所述T帧图像的真实框之间的时空聚合损失函数；其中，所述cosine损失项和所述sine损失项是基于最小化所述T帧偏移后预测框与所述T帧图像的真实框之间的向量夹角的目标构建的。

由此，可通过构建时空聚合损失函数（Spatial-temporal Aggregation loss，STAloss）来获得时空聚合损失

，使得

能够更好地在三维时空维度施加约束，以更好地训练挖掘视频级目标检测模型的时空域联系。

一些可能的实现方式中，所述时空聚合损失函数由cosine损失项和sine损失项构成，表示为：

其中，cosine损失项由cross损失项和self损失项构成；

表示cosine损失项，

表示cross损失项，

表示self损失项；sine损失项是由pre损失项和next损失项构成；

表示sine损失项，

表示pre损失项，

表示next损失项；

表示所述时空聚合损失函数，

代表调节

与

之间权重的超参数

。

由此，可通过

与

的协同作用，共同促进预测框的回归。并且，sine损失项与cosine损失项均在三维时空维度施加约束，可使最终获得的时空聚合损失

能够更好地在三维时空维度施加约束。

一些可能的实现方式中，所述cosine损失项

通过下式计算得到：

其中，

表示第t帧偏移后预测框的中心点

到第t+1帧真实框的中心点

的向量，

表示第t帧真实框中心点

到第t+1帧偏移后预测框的中心点

的向量；

表示第t帧偏移后预测框的中心点

到第t+1帧偏移后预测框的中心点

的向量，

表示第t帧真实框的中心点

到第t+1帧真实框的中心点

的向量， T为训练视频的长度。

由此，通过cross损失项

与self损失项

协同来实现视频级目标检测模型的参数优化，可以互相弥补各自的不足。

一些可能的实现方式中，所述sine损失项

通过下式计算得到：

其中，

表示第t帧偏移后预测框的中心点

到第t帧真实框的中心点

的向量，

表示第t帧偏移后预测框的中心点

到第t+1帧真实框的中心点

的向量；

表示第t+1帧偏移后预测框的中心点

到第t+1帧真实框的中心点

的向量，

表示第t帧真实框中心点

到第t+1帧偏移后预测框的中心点

的向量。

由此，可通过

和

来使得sine损失项

更好地近似

。

一些可能的实现方式中，所述根据时空聚合损失函数、总体损失函数对所述视频级目标检测模型的参数进行优化，包括：根据时空聚合损失函数、分类损失函数与回归损失函数计算总体损失函数，利用总体损失函数通过神经网络梯度下降反向传播对视频级目标检测模型的参数进行优化；所述总体损失函数通过下式计算得到：

其中

表示总体损失函数，

表示分类损失函数，

表示回归损失函数，

表示所述时空聚合损失，

表示

权重的超参数。

由此，时空聚合损失函数可作为额外约束项，几乎不会给原先的模型添加计算量。

本申请第二方面提供了一种视频级目标检测模型的训练装置，包括：

提取模块，用于利用视频级目标检测模型提取训练视频的T帧预测框，所述训练视频包括T帧图像；

偏移调整模块，用于为所述T帧预测框生成偏移量，获得T帧偏移后预测框；

时空聚合损失函数确定模块，用于通过最小化所述T帧偏移后预测框与所述T帧图像的真实框之间的向量夹角，确定时空聚合损失函数；

参数优化模块，用于根据时空聚合损失函数、总体损失函数对所述视频级目标检测模型的参数进行优化。

一些可能的实现方式中，所述时空聚合损失函数确定模块，具体用于：基于预先构建的cosine损失项和sine损失项计算所述T帧偏移后预测框与所述T帧图像的真实框之间的时空聚合损失函数；其中，所述cosine损失项和所述sine损失项是基于最小化所述T帧偏移后预测框与所述T帧图像的真实框之间的向量夹角的目标构建的。

本申请第三方面提供了一种计算设备，包括处理器和存储器，存储器存储有程序指令，程序指令当被处理器执行时使得处理器执行第一方面的视频级目标检测模型的训练方法。

本申请第四方面提供了一种计算机可读存储介质，其上存储有程序指令，其特征在于，程序指令当被计算机执行时使得计算机执行第一方面的视频级目标检测模型的训练方法。

本申请第五方面提供了一种计算机程序产品，其包括计算机程序，计算机程序在被处理器运行时使得该处理器执行第一方面的视频级目标检测模型的训练方法。

本申请实施例还具有如下技术效果：

1）本申请实施例不仅可获得能够实现“三维时空”层面视频目标检测的视频级目标检测模型，而且，因时空聚合损失函数可作为额外约束项，几乎不会给原先的模型添加计算量，因此，可以做到即插即用，兼容性强，可适用于各类目标检测模型。

2）经实验验证，相较于不考虑时空聚合损失的情况，本申请实施例提供的基于时空聚合损失函数的视频级目标检测模型的训练方法，在mAP@0.5指标（mAP@0.5指标是目标检测中的一种指标）上取得了2.15%的准确率提升。

附图说明

图1为本申请实施例提供的视频级目标检测模型的训练方法的流程示意图；

图2为本申请一实施例中将时空聚合损失作为视频级目标检测模型的额外约束项时的训练过程示意图；

图3为本申请一实施例中时空聚合损失函数的原理示意图；

图4为引入时空聚合损失

前后视频级目标检测器在气体泄漏检测数据集IOD-Video上的检测结果示意图；

图5为本申请实施例提供的视频级目标检测模型的训练装置的结构示意图；

图6为本申请实施例提供的计算设备的结构示意图。

具体实施方式

说明书和权利要求书中的词语“第一”、 “第二”、“第三”等类似用语，仅用于区别类似的对象，不代表针对对象的特定排序，可以理解地，在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

图1示出了本申请实施例提供的视频级目标检测模型的训练方法的流程示意图。一些实施方式中，视频级目标检测模型的训练方法可包括：利用视频级目标检测模型提取T帧预测框、为每个预测框生成偏移量、通过多帧偏移后预测框计算时空聚合损失函数

、基于时空聚合损失函数

优化视频级目标检测模型的参数等步骤。

具体地，视频级目标检测模型的训练方法可以包括如下步骤：

步骤S110，利用视频级目标检测模型提取训练视频的T帧预测框，训练视频包括T帧图像；

一些实施例中，训练视频包括T帧图像，即，每个训练视频的长度为T帧。可以利用视频级目标检测模型对训练视频执行目标检测，以获得训练视频的T帧预测框。

具体地，如图2所示，获取训练视频，并将训练视频中的T帧图像输入至视频级目标检测模型，经视频级目标检测模型处理，输出T帧检测框初步预测结果（本文将“检测框初步预测结果”称为预测框）。这里，T帧图像中第t帧图像的预测框可记为

，其中，

代表预测框的右下角像素点的横坐标与纵坐标，

、

代表预测框的左上角像素点的横坐标与纵坐标，t代表预测框所对应图像在T帧图像中的帧数或帧号，预测框

的中心点记为

，其中，

，

，

、

分别为第t帧图像的预测框的中心点横坐标与纵坐标。

步骤S120，为T帧预测框生成偏移量，获得T帧偏移后预测框；

具体地，基于视频级目标检测模型最后一层的特征图

，为每个预测框

生成偏移量，该偏移量记作

，再根据该偏移量调整预测框

的位置，获得偏移后预测框

，

表示偏移调整后的第t帧图像的预测框的中心点坐标。这样，通过预测偏移量并基于偏移量进行位置调整，可以在原先预测框

的基础上通过时空聚合损失函数

微调偏移量

至位置

，以便获得更精确的位置回归。

同时，可以将第t帧图像的真实框的中心点坐标记为

。具体应用中，训练视频的真实框是已知的。

步骤S130，通过最小化T帧偏移后预测框与T帧图像的真实框之间的向量夹角，确定时空聚合损失函数；

具体地，对于视频级目标检测任务，其输入数据为多帧图像，应该考虑利用其中的时间信息，而现有的检测器的损失函数往往只考虑其中的空间信息，为此，本申请实施例预先构建了一种时空聚合损失函数，以处理多帧图像预测框的回归问题。

一些实施例中，可以基于预先构建的时空聚合损失函数计算所述T帧偏移后预测框与所述T帧图像的真实框之间的时空聚合损失函数；其中，所述时空聚合损失函数是基于最小化所述T帧偏移后预测框

与T帧图像的真实框

之间的向量夹角的目标构建的。通过该时空聚合损失函数获得的时空聚合损失函数能够更好地在三维时空施加约束。

一些实施例中，

包括cosine损失项

与sine损失项

，cosine损失项

与sine损失项

相辅相成，共同作用。其中，cosine损失项主要在训练初期作用使得预测框初步回归实际框，但是在训练后期，cosine损失项收敛比较困难，sine损失项可促使预测框获得更精确地逼近实际框。并且，sine损失项与cosine损失项均在三维时空维度施加约束。

这里，整个损失

仅具有一个超参数

，如图3所示，超参数

代表相邻帧之间时间轴上的距离。经过实验分析，超参数

在合适范围内的变化，对最后准确率几乎没有影响，因此

可以认为对超参数设置具有鲁棒性。例如，可以设置

。

一些实施例中，

损失包括cross损失项

与self损失项

，其中，

代表向量

的夹角以及向量

的夹角。

一些实施例中，对于cross损失项

，目标是使得 t帧偏移后预测框的中心点

到t+1帧真实框的中心点

的向量

、与t帧真实框中心点

到t+1帧偏移后预测框的中心点

的向量

方向趋于一致，这样可以使t帧与t+1帧偏移后预测框的中心点

、

逼近真实框中心点

、

所在位置。

然而，仅仅单一的cross损失项

约束存在一定局限性，也即当偏移后预测框的中心点

、

在空间上错位，当

与

处于平行位置，也有可能满足向量

与

方向一致的条件。考虑到上述情况，引入self损失项

来使得损失函数优化，以避免进入这种局部次优的状态。

一些实施例中，self损失项

的目标是使得t帧偏移后预测框的中心点

到t+1帧偏移后预测框的中心点

的向量

与t帧真实框的中心点

到t+1帧真实框的中心点

的向量

方向趋于一致，通过该条件约束可以避免单一cross损失项

造成的

与

处于平行位置的次优状态，而如果单单的self损失项

无法在空间上拉拢预测框与真实框中心点的距离，因此 cross损失项

与self损失项

协同进行优化，可以互相弥补各自的不足。

一些实施例中，向量夹角

可以通过归一化点积计算来得到。

cosine损失项

的目的是使向量

、

的夹角与向量

、

的夹角趋于0，基于上述原理，可以对T帧偏移后预测框中的两两帧逐一计算

。

一些实施例中，

可通过下式（1）计算得到：

（1）

其中，

表示第t帧偏移后预测框的中心点

到第t+1帧真实框的中心点

的向量，

表示第t帧真实框中心点

到第t+1帧偏移后预测框的中心点

的向量；

表示第t帧偏移后预测框的中心点

到第t+1帧偏移后预测框的中心点

的向量，

表示第t帧真实框的中心点

到第t+1帧真实框的中心点

的向量， T为训练视频的长度。

表示cross损失项，

表示self损失项。

当向量

、

夹角与向量

夹角趋于0时，考虑到cosine函数在变量趋于0是曲线趋向于平缓，这意味着在训练后期误差较小时cosine损失项

的导数较小，难以进一步收敛。为了解决这个问题，引入sine损失项

，以便训练后期进一步促进预测框更好地逼近真实框。

考虑到当变量x趋近于0时，sine函数曲线最为陡峭，其导数趋近于1，因此训练初始阶段

起到主要作用，而训练后期

则取而代之占据重要作用，也即

使得预测框“粗略”地回归，而

使得预测框“精细”地回归。

一些实施例中，

可以包括

与

，

代表第t帧的向量模

/

相除的结果，

代表第t+1帧的向量模

/

相除的结果，从而来近似

。由于相邻帧之间真实框中心点变化很小，因此向量

可以近似认为垂直于X-Y空间平面，在此条件之下可以认为

角为向量

的夹角与

的夹角。与

类似，可以对T帧偏移后预测框中的两两帧逐一计算

。

一些实施例中，

可以通过下式（2）计算得到：

（2）

其中，

表示第t帧偏移后预测框的中心点

到第t帧真实框的中心点

的向量，

表示第t帧偏移后预测框的中心点

到第t+1帧真实框的中心点

的向量；

表示第t+1帧偏移后预测框的中心点

到第t+1帧真实框的中心点

的向量，

表示第t帧真实框中心点

到第t+1帧偏移后预测框的中心点

的向量。

代表第t帧的向量模

/

相除的结果，

代表第t+1帧的向量模

/

相除的结果。

一些实施例中，

可通过下式（3）计算得到，也即时空聚合损失函数表示为下式（3）：

（3）

其中，

代表调节

与

之间权重的超参数，通常经验上可以设置为0.5。由此，可通过

与

的协同作用，共同促进预测框的回归。cosine损失项由cross损失项和self损失项构成；

表示cosine损失项，

表示cross损失项，

表示self损失项；sine损失项是由pre损失项和next损失项构成；

表示sine损失项，

表示pre损失项，

表示next损失项；

表示时空聚合损失函数，

代表调节

与

之间权重的超参数

。

步骤S140，根据时空聚合损失函数、总体损失函数对视频级目标检测模型的参数进行优化。

一些实施例中，可以根据时空聚合损失函数、分类损失函数与回归损失函数计算总体损失函数，利用总体损失函数通过神经网络梯度下降反向传播对视频级目标检测模型的参数进行优化。

这里，总体损失函数可以通过下式（4）计算得到：

（4）

其中，

表示总体损失函数，

表示分类损失函数，

表示回归损失函数，

表示步骤S130得到的时空聚合损失函数，

表示

权重的超参数。

由此可见，

可以起到额外约束的作用，作为一个辅助优化目标，因此可以嵌入到其它任何视频级目标检测框架中。

此外，本申请实施例还提供了一种视频目标检测方法，该视频目标检测方法包括：利用视频级目标检测模型对待测视频进行目标检测，以获得所述待测视频的检测结果，所述视频级目标检测模型的参数至少根据通时空聚合损失函数优化得到，该时空聚合损失函数通过最小化训练视频的T帧偏移后预测框与所述训练视频中T帧图像的真实框之间的向量夹角获得。也即，该视频级目标检测模型是通过前文图1所示的训练方法训练得到的。

假设待测视频中包括T帧图像，待测视频的检测结果包括待测视频的T帧检测框。该T帧检测框的表示方式与前文预测框

的表示方式相同，不再赘述。

在气体泄漏检测数据集IOD-Video上进行实验来验证时空聚合损失

的有效性。图4示出了引入时空聚合损失

前后视频级目标检测器在气体泄漏检测数据集IOD-Video上的检测结果。IOD-Video数据集样本分为清晰子集和模糊子集。我们参考了COCO评估方案并报告所有AP0.5、AP0.75、AP（0.5：0.05：0.95）、清晰子集(APclear)和模糊子集(APvague)的平均精度。此外，IOD-Video数据集是随机分配的，并采用K折交叉验证来报告三次分割的平均结果。Frame-based Detector代表经典静态图片目标检测器，例如Faster RCNN、SSD、CenterNet等。Video-based Detector为视频级目标检测器，在表现最好的时空特征提取骨干网络TEA上，

的引入在AP0.5获得了2.15%准确率的提升，总的AP（0.5：0.05：0.95）获得了1.57%准确率的提升，特别是对于清晰的样本获得的准确率提升更加明显。这说明如果原先预测框预测得越准，引入

之后，视频级目标检测模型的准确率提升效果更明显。

图5示出了本申请实施例提供的视频级目标检测模型的训练装置的结构示意图。参见图5，视频级目标检测模型的训练装置500可以包括：

提取模块51，用于利用视频级目标检测模型提取训练视频的T帧预测框，所述训练视频包括T帧图像；

偏移调整模块52，用于为所述T帧预测框生成偏移量，获得T帧偏移后预测框；

时空聚合损失函数确定模块53，用于通过最小化所述T帧偏移后预测框与所述T帧图像的真实框之间的向量夹角，确定时空聚合损失函数；

参数优化模块54，用于根据时空聚合损失函数、总体损失函数对所述视频级目标检测模型的参数进行优化。

一些实施例中，时空聚合损失函数确定模块53，具体用于：基于预先构建的时空聚合损失函数计算所述T帧偏移后预测框与所述T帧图像的真实框之间的时空聚合损失函数；其中，所述时空聚合损失函数是基于最小化所述T帧偏移后预测框与所述T帧图像的真实框之间的向量夹角的目标构建的。

一些实施例中，时空聚合损失函数可表示为前文的式（3）。

一些实施例中，cosine损失项

通过前文式（1）计算得到。

一些实施例中，sine损失项

通过前文式（2）计算得到。

一些实施例中，参数优化模块54，具体用于：根据时空聚合损失函数、分类损失函数与回归损失函数，对所述视频级目标检测模型的参数进行优化。

一些实施例中，参数优化模块54，具体用于：根据时空聚合损失函数、分类损失函数与回归损失函数计算总体损失函数，利用总体损失函数通过神经网络梯度下降反向传播对视频级目标检测模型的参数进行优化；总体损失函数通过前文式（4）计算得到。

实际应用中，视频级目标检测模型的训练装置500可通过软件、硬件或两者的结合实现。

图6是本申请实施例提供的一种计算设备600的结构性示意性图。该计算设备600包括：一个或多个处理器610、一个或多个存储器620。

其中，该处理器610可以与存储器620连接。该存储器620可以用于存储该程序代码和数据。因此，该存储器620可以是处理器610内部的存储单元，也可以是与处理器610独立的外部存储单元，还可以是包括处理器610内部的存储单元和与处理器610独立的外部存储单元的部件。

可选地，计算设备600还可包括通信接口630。应理解，图6所示的计算设备600中的通信接口630可以用于与其他设备之间进行通信。

可选的，计算设备600还可以包括总线。其中，存储器620、通信接口630可以通过总线与处理器610连接。

应理解，在本申请实施例中，该处理器610可以采用中央处理单元(centralprocessing unit，CPU)。该处理器还可以是其它通用处理器、数字信号处理器(digitalsignal processor，DSP)、专用集成电路(application specific integrated circuit，ASIC)、现场可编程门阵列(field programmable gate Array，FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。或者该处理器610采用一个或多个集成电路，用于执行相关程序，以实现本申请实施例所提供的技术方案。

该存储器620可以包括只读存储器和随机存取存储器，并向处理器610提供指令和数据。处理器610的一部分还可以包括非易失性随机存取存储器。例如，处理器610还可以存储设备类型的信息。

在计算设备600运行时，处理器610执行存储器620中的计算机执行指令执行上述视频级目标检测模型的训练方法的操作步骤。

应理解，根据本申请实施例的计算设备600可以对应于执行根据本申请各实施例的方法中的相应主体，并且计算设备600中的各个模块的上述和其它操作和/或功能分别为了实现本实施例各方法的相应流程，为了简洁，在此不再赘述。

实际应用中，计算设备600可实现为芯片中的一个功能单元、独立的芯片、设备的一个功能单元或独立的设备。本申请实施例对计算设备600的形态和部署方式不做限定。

本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器运行时使得处理器执行上述视频级目标检测模型的训练方法。这里，计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是，但不限于电、磁、光、电磁、红外线、半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器、只读存储器、可擦式可编程只读存储器、光纤、便携式紧凑磁盘只读存储器、光存储器件、磁存储器件或者上述的任意合适的组合。

本申请实施例还提供了一种计算机程序产品，其包括计算机程序，所述计算机程序在被处理器运行时使得该处理器执行上述视频级目标检测模型的训练方法。这里，计算机程序产品的程序设计语言可以是一种或多种，该程序设计语言可以包括但不限于诸如Java、C++等面向对象的程序设计语言、诸如“C”语言等的常规过程式程序设计语言。

注意，上述仅为本申请部分实施例及所运用的技术原理。本领域技术人员会理解，本申请不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本申请的保护范围。因此，虽然通过以上实施例对本申请进行了较为详细的说明，但是本申请不仅仅限于以上实施例，在不脱离本申请的构思的情况下，还可以包括更多其他等效实施例，均属于本申请的保护范畴。

Claims

1.一种视频级目标检测模型的训练方法，其特征在于，包括：

为所述T帧预测框生成偏移量，获得T帧偏移后预测框；

2.根据权利要求1所述视频级目标检测模型的训练方法，其特征在于，所述通过最小化所述T帧偏移后预测框与所述T帧图像的真实框之间的向量夹角，确定时空聚合损失函数，包括：

基于预先构建的cosine损失项和sine损失项计算所述T帧偏移后预测框与所述T帧图像的真实框之间的时空聚合损失函数；

其中，所述cosine损失项和所述sine损失项是基于最小化所述T帧偏移后预测框与所述T帧图像的真实框之间的向量夹角的目标构建的。

3.根据权利要求2所述视频级目标检测模型的训练方法，其特征在于，所述时空聚合损失函数由cosine损失项和sine损失项构成，表示为：

其中，cosine损失项由cross损失项和self损失项构成；

表示cosine损失项，

表示cross损失项，

表示self损失项；

sine损失项是由pre损失项和next损失项构成；

表示sine损失项，

表示pre损失项，

表示next损失项；

表示所述时空聚合损失函数，

代表调节

与

之间权重的超参数

。

4.根据权利要求3所述视频级目标检测模型的训练方法，其特征在于，所述cosine损失项

通过下式计算得到：

其中，

表示第t帧偏移后预测框的中心点

到第t+1帧真实框的中心点

的向量，

表示第t帧真实框中心点

到第t+1帧偏移后预测框的中心点

的向量；

表示第t帧偏移后预测框的中心点

到第t+1帧偏移后预测框的中心点

的向量，

表示第t帧真实框的中心点

到第t+1帧真实框的中心点

的向量，T为训练视频的长度。

5.根据权利要求3所述视频级目标检测模型的训练方法，其特征在于，所述sine损失项

通过下式计算得到：

其中，

表示第t帧偏移后预测框的中心点

到第t帧真实框的中心点

的向量，

表示第t帧偏移后预测框的中心点

到第t+1帧真实框的中心点

的向量；

表示第t+1帧偏移后预测框的中心点

到第t+1帧真实框的中心点

的向量，

表示第t帧真实框中心点

到第t+1帧偏移后预测框的中心点

的向量。

6.根据权利要求1所述视频级目标检测模型的训练方法，其特征在于，所述根据时空聚合损失函数、总体损失函数对所述视频级目标检测模型的参数进行优化，包括：根据时空聚合损失函数、分类损失函数与回归损失函数计算总体损失函数，利用总体损失函数通过神经网络梯度下降反向传播对视频级目标检测模型的参数进行优化；所述总体损失函数通过下式计算得到：

其中

表示总体损失函数，

表示分类损失函数，

表示回归损失函数，

表示所述时空聚合损失，

表示

权重的超参数。

7.一种视频级目标检测模型的训练装置，其特征在于，包括：

8.根据权利要求7所述视频级目标检测模型的训练装置，其特征在于，所述时空聚合损失函数确定模块，具体用于：基于预先构建的cosine损失项和sine损失项计算所述T帧偏移后预测框与所述T帧图像的真实框之间的时空聚合损失函数；其中，所述cosine损失项和所述sine损失项是基于最小化所述T帧偏移后预测框与所述T帧图像的真实框之间的向量夹角的目标构建的。

9.一种计算设备，其特征在于，包括处理器和存储器，所述存储器存储有程序指令，所述程序指令当被所述处理器执行时使得所述处理器执行如权利要求1-6任一项所述的方法。

10.一种计算机可读存储介质，其上存储有程序指令，其特征在于，所述程序指令当被计算机执行时使得所述计算机执行如权利要求1-6任一项所述的方法。