CN112101114A

CN112101114A - 一种视频目标检测方法、装置、设备以及存储介质

Info

Publication number: CN112101114A
Application number: CN202010819564.3A
Authority: CN
Inventors: 韩鸣飞; 王亚立; 乔宇
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2020-08-14
Filing date: 2020-08-14
Publication date: 2020-12-18
Anticipated expiration: 2040-08-14
Also published as: CN112101114B

Abstract

本申请适用于计算机技术领域，提供了一种视频目标检测方法、视频目标检测装置、视频目标检测设备及存储介质，包括：获取待检测视频中的目标视频帧以及支撑视频帧；将目标视频帧以及支撑视频帧输入到已训练的视频目标检测模型中处理，得到目标物体对应的检测结果。上述方式，视频目标检测模型基于训练样本视频集中各个视频内的物体相似度以及训练样本视频集中各个视频间的物体相似度生成，不仅考虑到了各个视频内的物体相似度，还考虑到了各个视频间的物体相似度。使用该视频目标检测模型提取到的目标视频帧的目标物体对应的特征更准确、信息更丰富，进而根据目标物体对应的特征确定检测结果时，得到的检测结果更准确。

Description

一种视频目标检测方法、装置、设备以及存储介质

技术领域

本申请属于计算机技术领域，尤其涉及一种视频目标检测方法、视频目标检测装置、视频目标检测设备以及存储介质。

背景技术

视频目标检测是指利用视频序列特征，对视频序列中的帧图像中的目标物体进行定位与识别。该视频目标检测在自动驾驶、智能交通分析、智能安防以及野外动物监控等领域均有重要意义。

目前，视频目标检测的方法为采用深度学习构建的网络模型对视频序列中的帧图像进行处理，得到该帧图像对应的检测结果。然而，现有的网络模型在构建过程中仅考虑视频内各个物体的相似性，导致该网络模型提取到的帧图像所对应的物体特征单薄、不准确，进而导致该网络模型对帧图像中物体的检测结果不准确。

发明内容

有鉴于此，本申请实施例提供了一种视频目标检测方法、视频目标检测装置、视频目标检测设备以及存储介质，以解决传统的视频目标检测方法对视频检测结果不准确的问题。

本申请实施例的第一方面提供了一种视频目标检测方法，包括：

获取待检测视频中的目标视频帧以及支撑视频帧；所述目标视频帧为所述待检测视频中包含目标物体的任一帧视频帧；所述支撑视频帧包括所述待检测视频中除所述目标视频帧外的至少一个视频帧；

将所述目标视频帧以及所述支撑视频帧输入到已训练的视频目标检测模型中处理，得到所述目标物体对应的检测结果；所述检测结果包括所述目标物体对应的类别和位置信息；其中，所述视频目标检测模型基于训练样本视频集中各个视频内的物体相似度以及训练样本视频集中各个视频间的物体相似度生成。

在本申请提供的视频目标检测方法中，视频目标检测设备通过已训练的视频目标检测模型对待检测视频中的目标视频帧以及支撑视频帧进行处理，得到目标视频帧对应的检测结果。该视频目标检测模型基于训练样本视频集中各个视频内的物体相似度以及训练样本视频集中各个视频间的物体相似度生成，即该视频目标检测模型不仅考虑到了各个视频内的物体相似度，还考虑到了各个视频间的物体相似度。因此，使用该视频目标检测模型提取到的目标视频帧的目标物体对应的特征更准确、信息更丰富，进而根据目标物体对应的特征确定检测结果时，得到的检测结果更准确，提高了视频目标检测的准确度。

可选地，所述将所述目标视频帧以及所述支撑视频帧输入到已训练的视频目标检测模型中处理，得到所述目标视频帧对应的检测结果之前，还包括：

基于初始视频目标检测网络、所述训练样本视频集中各个视频内的物体相似度、所述训练样本视频集中各个视频间的物体相似度以及候选物体关系规约生成所述视频目标检测模型；所述候选物体关系规约用于在所述初始视频目标检测网络训练过程中约束各个候选物体之间的关系。

可选地，所述基于初始视频目标检测网络、所述训练样本视频集中各个视频内的物体相似度、所述训练样本视频集中各个视频间的物体相似度以及候选物体关系规约生成所述视频目标检测模型，包括：

在所述初始视频目标检测网络中基于在所述训练样本视频集中选取的样本视频以及支撑视频构建视频三元组；所述训练样本视频集包括多个视频以及每个视频中包含的每个物体所对应的样本物体特征；

基于所述视频三元组中每个视频所对应的物体特征，构建候选物体三元组；

基于所述候选物体三元组中每个候选物体对应的物体特征，确定样本视频中目标视频帧所对应的目标候选物体特征；

基于所述候选物体三元组中每个候选物体对应的物体特征，构建所述候选物体关系规约；

对所述目标候选物体特征进行识别与定位，得到所述样本视频中目标视频帧对应的检测结果；

根据预设的损失函数计算所述目标候选物体特征与样本物体特征之间的损失值；

当所述损失值或所述候选物体关系规约不满足预设条件时，调整所述初始视频目标检测网络的网络参数，并返回继续训练所述初始视频目标检测网络；当所述损失值以及所述候选物体关系规约均满足所述预设条件时，停止训练所述初始视频目标检测网络，并将训练后的所述初始视频目标检测网络作为所述视频目标检测模型。

可选地，所述支撑视频的数量不少于三个；所述在所述初始视频目标检测网络中基于在所述训练样本视频集中选取的样本视频以及支撑视频构建视频三元组，包括：

获取所述样本视频对应的第一特征向量，以及获取每个所述支撑视频对应的第二特征向量；

确定所述第一特征向量与每个所述第二特征向量之间的相似度；

基于所述相似度在多个所述支撑视频中选取目标支撑视频，并基于所述样本视频以及所述目标支撑视频构建所述视频三元组。

可选地，所述基于所述视频三元组中每个视频所对应的物体特征，构建候选物体三元组，包括：

基于所述视频三元组中每个视频所对应的物体特征，确定所述每个视频对应的第一物体相似度；所述第一物体相似度为所述每个视频内包含的物体之间的相似度；

基于每个所述第一物体相似度确定目标候选物体，并基于所述目标候选物体构建所述候选物体三元组。

可选地，所述基于所述候选物体三元组中每个候选物体对应的物体特征，确定样本视频中目标视频帧所对应的目标候选物体特征，包括：

基于所述每个候选物体对应的物体特征，确定所述样本视频中目标视频帧包含的物体对应的第二物体相似度；

基于所述第二物体相似度对所述样本视频中目标视频帧包含的物体进行特征增强处理，得到所述目标候选物体特征。

可选地，所述基于所述候选物体三元组中每个候选物体对应的物体特征，构建所述候选物体关系规约，包括：

基于所述每个候选物体对应的物体特征，确定所述候选物体三元组对应的欧式距离；

基于所述欧式距离计算关系规约损失值。

可选地，所述视频目标检测模型包括第一特征增强模块以及第二特征增强模块，所述第一特征增强模块基于所述训练样本视频集中各个视频内的物体相似度构建生成，所述第二特征增强模块基于所述训练样本视频集中各个视频间的物体相似度构建生成。

可选地，所述视频目标检测模型对所述目标视频帧以及所述支撑视频帧的处理过程包括：

对所述目标视频帧以及所述支撑视频帧分别进行特征提取，得到所述目标视频帧中目标物体对应的第一物体特征以及所述支撑视频帧中参考物体对应的第二物体特征；

基于所述第一特征增强模块以及所述第二物体特征对所述第一物体特征进行特征增强处理，得到所述目标物体对应的增强特征；

基于所述第二特征增强模块对所述增强特征进行特征增强处理，得到所述目标物体对应的目标物体特征；

对所述目标物体特征进行识别与定位，得到所述检测结果。

可选地，所述基于所述第一特征增强模块以及所述第二物体特征对所述第一物体特征进行特征增强处理，得到所述目标物体对应的增强特征，包括：

对所述第二物体特征进行特征增强处理，得到所述支撑视频帧中参考物体对应的第三物体特征；

计算所述第一物体特征与所述第三物体特征之间的余弦相似度，得到所述第一物体特征对应的相似矩阵；

基于所述相似矩阵对所述第三物体特征进行加权处理，得到加权结果；

将所述加权结果与所述第一物体特征进行融合，得到所述增强特征。

本申请实施例的第二方面提供了一种视频目标检测装置，包括：

获取单元，用于获取待检测视频中的目标视频帧以及支撑视频帧；所述目标视频帧为所述待检测视频中包含目标物体的任一帧视频帧；所述支撑视频帧包括所述待检测视频中除所述目标视频帧外的至少一个视频帧；

处理单元，用于将所述目标视频帧以及所述支撑视频帧输入到已训练的视频目标检测模型中处理，得到所述目标物体对应的检测结果；所述检测结果包括所述目标物体对应的类别和位置信息；其中，所述视频目标检测模型基于训练样本视频集中各个视频内的物体相似度以及训练样本视频集中各个视频间的物体相似度生成。

可选地，所述视频目标检测装置还包括：

生成单元，用于基于初始视频目标检测网络、所述训练样本视频集中各个视频内的物体相似度、所述训练样本视频集中各个视频间的物体相似度以及候选物体关系规约生成所述视频目标检测模型；所述候选物体关系规约用于在所述初始视频目标检测网络训练过程中约束各个候选物体之间的关系。

可选地，所述生成单元包括：

第一构建单元，用于在所述初始视频目标检测网络中基于在所述训练样本视频集中选取的样本视频以及支撑视频构建视频三元组；所述训练样本视频集包括多个视频以及每个视频中包含的每个物体所对应的样本物体特征；

第二构建单元，用于基于所述视频三元组中每个视频所对应的物体特征，构建候选物体三元组；

确定单元，基于所述候选物体三元组中每个候选物体对应的物体特征，确定样本视频中目标视频帧所对应的目标候选物体特征；

第三构建单元，用于基于所述候选物体三元组中每个候选物体对应的物体特征，构建所述候选物体关系规约；

识别单元，用于对所述目标候选物体特征进行识别与定位，得到所述样本视频中目标视频帧对应的检测结果；

计算单元，用于根据预设的损失函数计算所述目标候选物体特征与样本物体特征之间的损失值；

调整单元，用于当所述损失值或所述候选物体关系规约不满足预设条件时，调整所述初始视频目标检测网络的网络参数，并返回继续训练所述初始视频目标检测网络；当所述损失值以及所述候选物体关系规约均满足所述预设条件时，停止训练所述初始视频目标检测网络，并将训练后的所述初始视频目标检测网络作为所述视频目标检测模型。

可选地，所述第一构建单元具体用于：

可选地，所述第二构建单元具体用于：

可选地，所述确定单元具体用于：

可选地，所述第三构建单元具体用于：

基于所述欧式距离计算关系规约损失值。

可选地，所述处理单元包括：

特征提取单元，用于对所述目标视频帧以及所述支撑视频帧分别进行特征提取，得到所述目标视频帧中目标物体对应的第一物体特征以及所述支撑视频帧中参考物体对应的第二物体特征；

第一增强单元，用于基于所述第一特征增强模块以及所述第二物体特征对所述第一物体特征进行特征增强处理，得到所述目标物体对应的增强特征；

第二增强单元，用于基于所述第二特征增强模块对所述增强特征进行特征增强处理，得到所述目标物体对应的目标物体特征；

检测单元，用于对所述目标物体特征进行识别与定位，得到所述检测结果。

可选地，所述第一增强单元具体用于：

本申请实施例的第三方面提供了一种视频目标检测设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如上述第一方面所述的视频目标检测方法的步骤。

本申请实施例的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述第一方面所述的视频目标检测方法的步骤。

本申请实施例的第五方面提供了一种计算机程序产品，当计算机程序产品在视频目标检测设备上运行时，使得视频目标检测设备执行上述第一方面所述的视频目标检测方法的步骤。

本申请实施例提供的一种视频目标检测方法、视频目标检测装置、视频目标检测设备以及存储介质具有以下有益效果：

本申请实施例，视频目标检测设备通过已训练的视频目标检测模型对待检测视频中的目标视频帧以及支撑视频帧进行处理，得到目标视频帧对应的检测结果。该视频目标检测模型基于训练样本视频集中各个视频内的物体相似度以及训练样本视频集中各个视频间的物体相似度生成，即该视频目标检测模型不仅考虑到了各个视频内的物体相似度，还考虑到了各个视频间的物体相似度。因此，使用该视频目标检测模型提取到的目标视频帧的目标物体对应的特征更准确、信息更丰富，进而根据目标物体对应的特征确定检测结果时，得到的检测结果更准确，提高了视频目标检测的准确度。进一步地，该视频目标检测模型在训练过程中除了考虑到各个视频内的物体相似度以及各个视频间的物体相似度外，还建立了候选物体关系规约，使训练后得到的视频目标检测模型对易混淆的视频处理时，具有很好的处理结果，以及对视频中相似外观的物体进行检测时，得到精确的检测结果。且该视频目标检测模型在对物体特征进行提取时，可准确地分辨最容易混淆的物体候选框，使该模型具有很好的鲁棒性以及特征提取精确度。进一步地，该视频目标检测模型擅长对视频中易混淆的物体进行检测，并得到精确的检测结果，避免了现有技术中的网络模型对外观相似的物体在检测时，经常出现类别误检、漏检的情况。进一步地，该视频目标检测模型在训练过程中，对训练样本视频集中各个视频处理时，采用了共享参数的方式，例如，在提取特征时采用的全连接层以及激活函数相同，大大减少了该视频目标检测模型在训练过程中的计算量，在占用很少的计算资源的情况下得到更好的检测结果，且提高了训练视频目标检测模型在训练过程中的训练速度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种视频目标检测方法的示意流程图；

图2是本申请另一实施例提供的一种视频目标检测方法的示意性流程图；

图3是本申请提供的对S201的细化示意图；

图4是本申请提供的提取图像特征的示意图；

图5是本申请又一实施例中视频目标检测方法的示意性流程图；

图6是本申请提供的构建第一特征增强模块的示意图；

图7是本申请提供的构建第二特征增强模块的示意图；

图8是本申请提供的构建视频目标检测模型的流程示意图；

图9是本申请一实施例提供的一种视频目标检测装置的示意图；

图10是本申请另一实施例提供的一种视频目标检测设备的示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

现有技术中，视频目标检测的方法为采用深度学习构建的网络模型对视频序列中的帧图像进行处理，得到该帧图像对应的检测结果。然而，现有的网络模型在构建过程中仅考虑视频内各个物体的相似性，导致该网络模型提取到的帧图像所对应的物体特征单薄、不准确，进而导致该网络模型对帧图像中物体的检测结果不准确。且现有技术中采用的这种网络模型对外观相似的物体在检测时，经常出现类别误检、漏检的情况。

有鉴于此，本申请提供了一种视频目标检测方法，该方法中，视频目标检测设备通过已训练的视频目标检测模型对待检测视频中的目标视频帧以及支撑视频帧进行处理，得到目标视频帧对应的检测结果。该视频目标检测模型基于训练样本视频集中各个视频内的物体相似度以及训练样本视频集中各个视频间的物体相似度生成，即该视频目标检测模型不仅考虑到了各个视频内的物体相似度，还考虑到了各个视频间的物体相似度。因此，使用该视频目标检测模型提取到的目标视频帧的目标物体对应的特征更准确、信息更丰富，进而根据目标物体对应的特征确定检测结果时，得到的检测结果更准确，提高了视频目标检测的准确度。进一步地，该视频目标检测模型在训练过程中除了考虑到各个视频内的物体相似度以及各个视频间的物体相似度外，还建立了候选物体关系规约，使训练后得到的视频目标检测模型对易混淆的视频处理时，具有很好的处理结果，以及对视频中相似外观的物体进行检测时，得到精确的检测结果。且该视频目标检测模型在对物体特征进行提取时，可准确地分辨最容易混淆的物体候选框，使该模型具有很好的鲁棒性以及特征提取精确度。进一步地，该视频目标检测模型擅长对视频中易混淆的物体进行检测，并得到精确的检测结果，避免了现有技术中的网络模型对外观相似的物体在检测时，经常出现类别误检、漏检的情况。进一步地，该视频目标检测模型在训练过程中，对训练样本视频集中各个视频处理时，采用了共享参数的方式，例如，在提取特征时采用的全连接层以及激活函数相同，大大减少了该视频目标检测模型在训练过程中的计算量，在占用很少的计算资源的情况下得到更好的检测结果，且提高了训练视频目标检测模型在训练过程中的训练速度。

本申请提供的视频目标检测方法可应用于各种需要进行视频目标检测的领域，例如自动驾驶、智能交通分析、智能安防以及野生动物与筛查等领域，此处仅为示例性说明，对此不做限定。

请参见图1，图1是本申请实施例提供的一种视频目标检测方法的示意流程图。本实施例中视频目标检测方法的执行主体为视频目标检测设备，视频目标检测设备包括但不限于智能手机、平板电脑、计算机、个人数字助理(Personal Digital Assistant，PDA)等移动设备，还可以包括台式电脑等设备。如图1所示的视频目标检测方法可包括：

S101：获取待检测视频中的目标视频帧以及支撑视频帧；所述目标视频帧为所述待检测视频中包含目标物体的任一帧视频帧；所述支撑视频帧包括所述待检测视频中除所述目标视频帧外的至少一个视频帧。

视频目标检测设备在获取到待检测视频后，在该待检测视频中选取目标视频帧以及支撑视频帧。其中，目标视频帧中包含有待检测的目标物体，对目标物体的数量不做限定，可以是一个也可以是多个。可理解为目标视频帧为需要被检测的视频帧，目标视频帧为待检测视频中的任一视频帧。该视频目标检测设备最终会检测出该目标视频帧中包含的目标物体所对应的类别与位置信息。示例性地，目标视频帧可以为视频目标检测设备随机选取的待检测视频中的一帧视频帧，也可以为视频目标检测设备按照视频帧的排列顺序在待检测视频中顺序选取的一帧视频帧，还可以为用户指定的待检测视频中的某个视频帧，对此均不作限定。

支撑视频帧也可称为辅助视频帧，即辅助视频目标检测设备更准确地检测目标视频帧中包含的目标物体所对应的类别与位置信息。支撑视频帧包括待检测视频中除该目标视频帧外的至少一个视频帧。视频目标检测设备在排除目标视频帧后，在待检测视频中选取一帧或多帧视频帧作为支撑视频帧。选取支撑视频帧的方式与选取目标视频帧的方式类似，即可以是视频目标检测设备随机选取，也可以是视频目标检测设备按照预设的选取支撑视频帧的数量以及视频帧的排列顺序在待检测视频中顺序选取，还可以是用户指定待检测视频中的某些视频帧作为支撑视频帧，对此均不作限定。

值得说明的是，当目标视频帧和/或支撑视频帧由用户指定时，具体可以是用户在视频目标检测设备的输入界面输入指令，视频目标检测设备检测到该指令后，根据该指令中的指定内容确定待检测视频中的目标视频帧以及支撑视频帧。例如，指定内容可以是“将待检测视频中的第16帧作为目标视频帧”、“将待检测视频中的第20帧至第50帧作为支撑视频帧”等。

例如，待检测视频由128个视频帧构成，视频目标检测设备随机选取到该待检测视频中的第8帧视频帧作为目标视频帧，排除该第8帧视频帧后，随机再选取30帧视频帧作为支撑视频帧。或者，用户指定该待检测视频中的第20帧视频帧作为目标视频帧，排除该第20帧视频帧后，再任意指定40帧视频帧作为支撑视频帧。

S102：将所述目标视频帧以及所述支撑视频帧输入到已训练的视频目标检测模型中处理，得到所述目标物体对应的检测结果；所述检测结果包括所述目标物体对应的类别和位置信息；其中，所述视频目标检测模型基于训练样本视频集中各个视频内的物体相似度以及训练样本视频集中各个视频间的物体相似度生成。

在本实施例中，视频目标检测设备中预先存储有预先训练好的视频目标检测模型。该视频目标检测模型是使用机器学习算法，基于训练样本视频集中对初始视频目标检测网络进行训练得到。具体地，视频目标检测模型基于训练样本视频集中各个视频内的物体相似度以及训练样本视频集中各个视频间的物体相似度构建生成。

可以理解的是，视频目标检测模型可以由视频目标检测设备预先训练好，也可以由其他设备预先训练好后将视频目标检测模型对应的文件移植至视频目标检测设备中。即训练该视频目标检测模型的执行主体与使用该视频目标检测模型的执行主体可以是相同的，也可以是不同的。例如，当采用其他设备训练初始视频目标检测网络时，其他设备对初始视频目标检测网络结束训练后，固定初始视频目标检测网络的网络参数，得到视频目标检测模型对应的文件，然后将该文件移植到视频目标检测设备中。

视频目标检测设备在获取到目标视频帧以及支撑视频帧后，利用视频目标检测模型对目标视频帧以及支撑视频帧进行处理，得到该目标视频帧包含的目标物体对应的检测结果，即得到目标目标物体对应的类别和位置信息。

在本实施例中，该视频目标检测模型对该目标视频帧以及该支撑视频帧的处理包括，基于该目标视频帧以及该支撑视频帧提取该目标视频帧的目标物体特征，并根据该目标物体特征确定该检测结果。

在本申请实施例中，视频目标检测设备通过已训练的视频目标检测模型对待检测视频中的目标视频帧以及支撑视频帧进行处理，得到目标视频帧对应的检测结果。该视频目标检测模型基于训练样本视频集中各个视频内的物体相似度以及训练样本视频集中各个视频间的物体相似度生成，即该视频目标检测模型不仅考虑到了各个视频内的物体相似度，还考虑到了各个视频间的物体相似度。因此，使用该视频目标检测模型提取到的目标视频帧的目标物体对应的特征更准确、信息更丰富，进而根据目标物体对应的特征确定检测结果时，得到的检测结果更准确，提高了视频目标检测的准确度。进一步地，该视频目标检测模型在训练过程中除了考虑到各个视频内的物体相似度以及各个视频间的物体相似度外，还建立了候选物体关系规约，使训练后得到的视频目标检测模型对易混淆的视频处理时，具有很好的处理结果，以及对视频中相似外观的物体进行检测时，得到精确的检测结果。且该视频目标检测模型在对物体特征进行提取时，可准确地分辨最容易混淆的物体候选框，使该模型具有很好的鲁棒性以及特征提取精确度。进一步地，该视频目标检测模型擅长对视频中易混淆的物体进行检测，并得到精确的检测结果，避免了现有技术中的网络模型对外观相似的物体在检测时，经常出现类别误检、漏检的情况。进一步地，该视频目标检测模型在训练过程中，对训练样本视频集中各个视频处理时，采用了共享参数的方式，例如，在提取特征时采用的全连接层以及激活函数相同，大大减少了该视频目标检测模型在训练过程中的计算量，在占用很少的计算资源的情况下得到更好的检测结果，且提高了训练视频目标检测模型在训练过程中的训练速度。

请参见图2，图2为本申请另一实施例提供的一种视频目标检测方法的示意流程图。该方法可以包括S201～S203。其中，图2所示的步骤S202、S203可以参考上述对S101、S102的相关描述，为了简洁，这里不再赘述。下面将具体对步骤S201进行说明。

S201：基于初始视频目标检测网络、所述训练样本视频集中各个视频内的物体相似度、所述训练样本视频集中各个视频间的物体相似度以及候选物体关系规约生成所述视频目标检测模型；所述候选物体关系规约用于在所述初始视频目标检测网络训练过程中约束各个候选物体之间的关系。

训练样本视频集可以包括多个视频以及每个视频中包含的每个物体所对应的样本物体特征。候选物体关系规约用于在初始视频目标检测网络训练过程中约束各个候选物体之间的关系。视频目标检测设备在该训练样本视频集中选取样本视频以及支撑视频用于构建视频三元组；基于视频三元组中每个视频所对应的物体特征，构建候选物体三元组；基于候选物体三元组中每个候选物体对应的物体特征，确定样本视频中目标视频帧所对应的目标候选物体特征；基于候选物体三元组中每个候选物体对应的物体特征，构建候选物体关系规约；对目标候选物体特征进行识别与定位，得到样本视频中目标视频帧对应的检测结果；根据预设的损失函数计算目标候选物体特征与样本物体特征之间的损失值；当所述损失值或所述候选物体关系规约不满足预设条件时，调整初始视频目标检测网络的网络参数，并返回继续训练初始视频目标检测网络；当损失值以及候选物体关系规约均满足预设条件时，停止训练初始视频目标检测网络，并将训练后的初始视频目标检测网络作为视频目标检测模型。

其中，在构建视频三元组时，实现了对易混淆视频的挖掘。在构建候选物体三元组时，是基于每个视频内各个物体之间的相似度为基础构建的，也就是说该视频目标检测模型在训练过程中考虑到了各个视频内的物体相似度。在确定目标候选物体特征时，基于候选物体三元组中各个物体之间的相似度确定，即该视频目标检测模型在训练过程中考虑到了各个视频间的物体相似度。还基于候选物体三元组中每个候选物体对应的物体特征，构建了候选物体关系规约。使训练后得到的视频目标检测模型对易混淆的视频处理时，具有很好的处理结果，以及对视频中相似外观的物体进行检测时，得到精确的检测结果；且使得该视频目标检测模型擅长对视频中易混淆的物体进行检测，并得到精确的检测结果，避免了现有技术中的网络模型对外观相似的物体在检测时，经常出现类别误检、漏检的情况。进一步地，该视频目标检测模型在训练过程中，对训练样本视频集中各个视频处理时，采用了共享参数的方式，大大减少了该视频目标检测模型在训练过程中的计算量，在占用很少的计算资源的情况下得到更好的检测结果，且提高了训练视频目标检测模型在训练过程中的训练速度。

S202：获取待检测视频中的目标视频帧以及支撑视频帧；所述目标视频帧为所述待检测视频中包含目标物体的任一帧视频帧；所述支撑视频帧包括所述待检测视频中除所述目标视频帧外的至少一个视频帧。

S203：将所述目标视频帧以及所述支撑视频帧输入到已训练的视频目标检测模型中处理，得到所述目标物体对应的检测结果；所述检测结果包括所述目标物体对应的类别和位置信息；其中，所述视频目标检测模型基于训练样本视频集中各个视频内的物体相似度以及训练样本视频集中各个视频间的物体相似度生成。

可选地，如图3所示，图3是本申请提供的对S201的细化示意图，在一种可能的实现方式中，上述S201可包括S2011～S2017，具体如下：

S2011：在所述初始视频目标检测网络中基于在所述训练样本视频集中选取的样本视频以及支撑视频构建视频三元组；所述训练样本视频集包括多个视频以及每个视频中包含的每个物体所对应的样本物体特征。

训练样本视频集中有多个视频，每个视频由多个视频帧构成，每个视频帧中包含的各个物体都被标注有其对应的样本物体特征。该样本物体特征不仅包含各自对应的视频帧中各个物体的特征信息，还包含各个物体的位置信息。其中，训练样本视频集中的多个视频又可根据其包含的物体的类别分为多个视频组。例如，将所有包含猫的视频分为一组，将所有包含车辆的视频分为一组等。值得说明的是，一个视频可被分类到多个视频组中，若一个视频中即包含猫又包含车辆，其被分到猫视频组，同时其也可被分到车辆视频组中。此处仅为示例性说明，对此不做限定。

视频目标检测设备在训练样本视频集中选取样本视频以及支撑视频，在初始视频目标检测网络中基于样本视频以及支撑视频构建视频三元组。若视频目标检测设备在训练样本视频集中任意选取了三个视频，则随机指定其中一个视频作为样本视频，将剩余的两个视频作为支撑视频，基于这三个视频构建视频三元组。若视频目标检测设备在训练样本视频集中任意选取了至少四个视频，即除过随机指定的样本视频外，还有数量不少于三个的支撑视频，则先在支撑视频中确定两个目标支撑视频，再根据样本视频以及这两个目标支撑视频构建视频三元组。

可选地，当支撑视频的数量不少于三个时，上述S2011可以包括S20111～S20113，具体如下：

S20111：获取所述样本视频对应的第一特征向量，以及获取每个所述支撑视频对应的第二特征向量。

示例性地，视频目标检测设备先根据物体类别确定K个视频组，从K个视频组中随机选取N个视频，共选取K×N个视频，在K×N个视频中随机选取一个视频作为样本视频。除该样本视频外其余的K×N-1个视频作为支撑视频。在样本视频中随机选取一帧视频帧作为该样本视频的目标视频帧，随机选取预设数量的视频帧作为该样本视频的支撑视频帧。在每个支撑视频中各随机选取一帧视频帧作为每个支撑视频对应的目标视频帧，随机选取预设数量的视频帧作为每个支撑视频对应的支撑视频帧。

针对样本视频以及每个支撑视频，提取选取的每个目标视频帧以及每个支撑视频帧各自对应的图像特征，并用提取到的图像特征表征各自对应的视频的特征。

请参见图4，图4是本申请提供的提取图像特征的示意图。以样本视频中的目标视频帧和支撑视频帧为例进行说明。通过初始视频目标检测网络提取样本视频中的目标视频帧以及支撑视频帧中的图像特征，得到H×W×C×T的特征张量。其中，H×W表示输出的特征图的空间分辨率，C表示特征通道数量，T表示样本视频中的目标视频帧和支撑视频帧的数量。沿空间维度对该特征张量进行全局平均池化操作，得到C×T维特征张量，沿时间维度取元素最大值，得到C维向量，该C维向量用于表征样本视频对应的第一特征向量。对每个支撑视频的处理类似，此处不再赘述。通过上述处理，可得到样本视频对应的第一特征向量，以及每个支撑视频对应的第二特征向量。

S20112：确定所述第一特征向量与每个所述第二特征向量之间的相似度。

视频目标检测设备可通过余弦距离公式计算第一特征向量与每个第二特征向量之间的相似度，并对计算得到相似度进行排序。

S20113：基于所述相似度在多个所述支撑视频中选取目标支撑视频，并基于所述样本视频以及所述目标支撑视频构建所述视频三元组。

根据相似度的排序结果，视频目标检测设备选取与样本视频对应的物体类别相同但相似度最低的支撑视频，以及选取与样本视频对应的物体类别不同但相似度最高的支撑视频作为目标支撑视频。基于选取到的这两个目标支撑视频以及样本视频构建生成视频三元组。

可选地，在一种可能的实现方式中，K与N的值分别取3,即视频目标检测设备先根据物体类别确定3个视频组，从3个视频组中随机选取3个视频，共选取3×3个视频，在3×3个视频中随机选取一个视频作为样本视频。除该样本视频外其余的3×3-1个视频作为支撑视频。在样本视频中随机选取一帧视频帧作为该样本视频的目标视频帧，随机选取2帧视频帧作为该样本视频的支撑视频帧。在每个支撑视频中各随机选取一帧视频帧作为每个支撑视频对应的目标视频帧，各随机选取2帧视频帧作为每个支撑视频对应的支撑视频帧。

针对样本视频以及每个支撑视频，提取选取的每个目标视频帧以及每个支撑视频帧各自对应的图像特征，并用提取到的图像特征表征各自对应的视频的特征，即得到样本视频对应的第一特征向量，以及3×3-1个支撑视频各自对应的第二特征向量。视频目标检测设备可通过余弦距离公式计算第一特征向量与每个第二特征向量之间的相似度，并对计算得到相似度进行排序。该实施例中K与N的值分别取3，则会有6个与样本视频对应的物体类别不同的视频，2个与样本视频对应的物体类别相同的视频，根据相似度的排序结果，在这6个视频中选取与样本视频相似度最高的一个视频作为目标支撑视频，在这2个视频中选取与样本视频相似度最低的一个视频作为目标支撑视频，基于选取到的这两个目标支撑视频以及样本视频构建生成视频三元组。

S2012：基于所述视频三元组中每个视频所对应的物体特征，构建候选物体三元组。

为了便于描述，将视频三元组中除样本视频外的两个支撑视频分别记为支撑视频1以及支撑视频2。视频目标检测设备获取视频三元组中样本视频中的目标视频帧和支撑视频帧中各个物体对应的物体特征，获取支撑视频1中的目标视频帧和支撑视频帧中各个物体对应的物体特征，获取支撑视频2中的目标视频帧和支撑视频帧中各个物体对应的物体特征，在这些物体特征中确定构建候选物体三元组的目标候选物体，并基于选中的目标候选物体构建候选物体三元组。

可选地，在一种可能的实现方式中，延用S20113中的例子，样本视频以及支撑视频分别对应的支撑视频帧为2帧，在每个目标视频帧以及每个支撑视频帧中各提取128个候选物体，即得到每个目标视频帧以及每个支撑视频帧各自对应的128个候选物体的物体特征，在这些物体特征中确定构建候选物体三元组的目标候选物体，并基于选中的目标候选物体构建候选物体三元组。

可选地，为了准确地选取目标候选物体，进而快速准确构建候选物体三元组，S2012可以包括：S20121～S20122，具体如下：

S20121：基于所述视频三元组中每个视频所对应的物体特征，确定所述每个视频对应的第一物体相似度；所述第一物体相似度为所述每个视频内包含的物体之间的相似度。

第一物体相似度包括每个视频内的各个物体两两之间的物体相似度。以样本视频为例进行说明，第一物体相似度为样本视频的目标视频帧中各个物体对应的物体特征与支撑视频帧中各个物体对应的物体特征之间的余弦相似度。示例性地，视频目标检测设备采用初始视频目标检测网络提取样本视频的目标视频帧以及支撑视频帧中各个物体对应的物体特征，提取特征的过程可参考上面提取特征的描述，此处不再赘述。基于提取到的各个物体对应的物体特征，计算样本视频对应的第一物体相似度。具体地，通过余弦距离公式计算样本视频的目标视频帧中各个物体对应的物体特征与支撑视频帧中各个物体对应的物体特征之间的余弦相似度。对于支撑视频1以及支撑视频2也进行类似处理，得到支撑视频1对应的第一物体相似度，以及支撑视频2对应的第一物体相似度。

S20122：基于每个所述第一物体相似度确定目标候选物体，并基于所述目标候选物体构建所述候选物体三元组。

基于每个第一物体相似度对其对应的视频的目标视频帧中包含的各个物体的物体特征进行特征增强处理，得到每个视频的目标视频帧中各个物体对应的增强特征。基于获取到的各个增强特征，计算样本视频的目标视频帧中各个物体对应的增强特征，与两个支撑视频中各个物体对应的增强特征之间的余弦相似度，并对计算得到余弦相似度进行排序。基于排序结果为样本视频的目标视频帧中的每个物体选取两个候选物体。例如，选取余弦相似度最低和余弦相似度最高的两个物体作为其的候选物体，并将这三个物体组成候选物体三元组。最终得到样本视频的目标视频帧中的每个物体对应的候选物体三元组。

在本实施例中，构建候选物体三元组时，是基于每个视频内各个物体之间的相似度为基础构建的。例如，样本视频对应的第一物体相似度，就是样本视频的目标视频帧中各个物体对应的物体特征与样本视频的支撑视频帧中各个物体对应的物体特征之间的余弦相似度。基于此，初始视频目标检测网络建立了视频内物体之间的关系，也可理解为此时基于视频内物体之间的关系构建生成第一特征增强模块。

S2013：基于所述候选物体三元组中每个候选物体对应的物体特征，确定样本视频中目标视频帧所对应的目标候选物体特征。

基于候选物体三元组中各个候选物体对应的物体特征，可确定样本视频中目标视频帧包含的各个物体对应的目标候选物体特征。

可选地，上述S2013可包括S20131～S20132，具体如下：

S20131：基于所述每个候选物体对应的物体特征，确定所述样本视频中目标视频帧包含的物体对应的第二物体相似度。

第二物体相似度是指样本视频的目标视频帧中的每个物体，与候选物体三元组中其他候选物体之间的余弦相似度。示例性地，针对样本视频的目标视频帧中的每个物体，通过余弦距离公式计算样本视频的目标视频帧中的每个物体对应的物体特征，与候选物体三元组中其他候选物体对应的物体特征之间的余弦相似度，得到样本视频的目标视频帧中的每个物体对应的相似矩阵。

S20132：基于所述第二物体相似度对所述样本视频中目标视频帧包含的物体进行特征增强处理，得到所述目标候选物体特征。

基于样本视频的目标视频帧中的每个物体对应的相似矩阵，对其他候选物体进行加权处理，得到加权结果；将加权结果与样本视频的目标视频帧中的每个物体对应的增强特征进行融合，得到样本视频的目标视频帧中的每个物体对应的目标候选物体特征。

在本实施例中，确定目标候选物体特征时，是基于候选物体三元组中各个物体之间的相似度为基础构建的。候选物体三元组中的各个候选物体又是在不同视频中选出来的，基于此，初始视频目标检测网络建立了视频间各物体之间的关系，也可理解为此时基于视频间各物体之间的关系构建生成第二特征增强模块。

S2014：基于所述候选物体三元组中每个候选物体对应的物体特征，构建所述候选物体关系规约。

候选物体关系规约用于在初始视频目标检测网络训练过程中约束各个候选物体之间的关系。可基于候选物体三元组中每个候选物体对应的物体特征，计算候选物体三元组中各个物体之间的欧式距离，基于欧式距离计算关系规约损失值。该关系规约损失值可用于表征该候选物体关系规约。

本实施例中，构建候选物体关系规约对视频内物体和视频间物体进行关系约束，拉开同类物体在特征空间的距离，拉近不同类物体在特征空间的距离，基于此生成的视频目标检测模型在视频目标检测中，可精确地识别同类但是不同目标的物体对应的物体特征。

可选地，上述S2014可包括S20141～S20142，具体如下：

S20141：基于所述每个候选物体对应的物体特征，确定所述候选物体三元组对应的欧式距离。

可通过欧式距离公式计算候选物体三元组对应的欧式距离。每个候选物体对应的物体特征以向量的形式表现。例如，将每组候选物体三元组中的三个候选物体各自对应的物体特征代入欧式距离公式进行计算，得到该候选物体三元组对应的欧式距离。

S20142：基于所述欧式距离计算关系规约损失值。

基于预设的关系规约损失值计算公式以及候选物体三元组对应的欧式距离，计算关系规约损失值。

预设的关系规约损失值计算公式如下：

上述(1)式中，L_relation表示关系规约损失值，d表示欧式距离，

表示样本视频中目标视频帧对应的物体特征，m表示候选物体的数量，α^-表示与

不同类物体对应的物体特征，α⁺表示与

同类物体对应的物体特征，λ为预设常数，用于表示特征间欧式距离差距的下限。

可选地，在一些可能的实现方式中，λ可取为10。此处仅为示例性说明，对此不做限定。

采用本申请中的这种计算关系规约损失值的方法，可拉开同类物体间的欧式距离，结合基于训练样本视频集中各个视频内的物体相似度构建的第一特征增强模块、基于训练样本视频集中各个视频间的物体相似度构建生成的第二特征增强模块，以及特征增强处理，使训练好的视频目标检测模型在对同类别不同物体进行识别时，可准确地提取到该物体的物体特征，进而得到准确地识别结果以及精确地对其定位。而传统的计算三元组损失值(triplet loss)的方式，拉近了同类物体间的欧式距离，无法准确区分同一类别不同物体，本申请中采用的方法很好的解决了这个问题。

S2015：对所述目标候选物体特征进行识别与定位，得到所述样本视频中目标视频帧对应的检测结果。

可通过全连接层以及逻辑回归模型(softmax)对每个目标候选物体特征进行识别与定位，得到样本视频的目标视频帧中每个物体对应的类别以及位置信息。

S2016：根据预设的损失函数计算所述目标候选物体特征与样本物体特征之间的损失值。

样本视频的目标视频帧中的每个物体在训练样本视频集中都有一个与之对应的样本物体特征，该损失值用于衡量通过初始视频目标检测网络提取到的目标候选物体特征的准确度。当损失值越小时，证明通过该初始视频目标检测网络提取到的目标候选物体特征越接近样本物体特征，即该目标候选物体特征越准确、丰富，进而根据该目标候选物体特征进行识别与定位时，得到的检测结果越准确。当损失值越大时，证明通过该初始视频目标检测网络提取到的目标候选物体特征与样本物体特征偏差较大，还需继续训练该初始视频目标检测网络。

在该实例中，预设的损失函数可以为绝对误差损失函数，将每个目标候选物体特征以及与其对应的样本物体特征代入该损失函数中进行计算，得到对应的损失值。

S2017：当所述损失值或所述候选物体关系规约不满足预设条件时，调整所述初始视频目标检测网络的网络参数，并返回继续训练所述初始视频目标检测网络；当所述损失值以及所述候选物体关系规约均满足所述预设条件时，停止训练所述初始视频目标检测网络，并将训练后的所述初始视频目标检测网络作为所述视频目标检测模型。

预设条件可以包括第一预设条件和第二预设条件。第一预设条件可以是损失值小于或等于第一损失值阈值，也可以是损失值属于第一预设误差范围，但并不限于此，还可以根据实际情况进行设置，此处不做限制。第一预设条件可以是关系规约损失值小于或等于第二损失值阈值，也可以是关系规约损失值属于第二预设误差范围内，但并不限于此，还可以根据实际情况进行设置，此处不做限制。

在得到每个目标候选物体特征和与其对应的样本物体特征之间的损失值时，判断损失值是否满足第一预设条件；同时判断候选物体关系规约是否满足第二预设条件，即判断关系规约损失值是否满足第二预设条件。当损失值与关系规约损失值中任意一个不满足其对应的预设条件时，调整初始视频目标检测网络的网络参数，并返回继续训练该初始视频目标检测网络。当损失值与关系规约损失值均满足其对应的预设条件时，停止训练初始视频目标检测网络，并将训练后的初始视频目标检测网络作为视频目标检测模型。

例如，假设第一预设条件为损失值小于或等于第一损失值阈值，第二预设条件为关系规约损失值小于或等于第二损失值阈值。那么，当执行训练过程的设备(例如，视频目标检测设备，或者其他设备)在确认当前的损失值大于第一损失值阈值，或者当前的关系规约损失值大于第二损失值阈值时，判定当前的初始视频目标检测网络还未达到要求。此时，需要调整初始视频目标检测网络的网络参数，之后返回S2011，继续执行S2011～S2016，直到在S2016中确定的损失值小于或等于第一损失值阈值，且关系规约损失值小于或等于第二损失值阈值时，停止训练初始视频目标检测网络，并将训练后的初始视频目标检测网络作为视频目标检测模型。

此时调整网络参数后的初始视频目标检测网络经过了大量的训练，且其各个损失值保持在一个较小的范围内，使用该初始视频目标检测网络对视频帧进行处理，可以获得提取到丰富准确地物体特征，进而基于该物体特征进行识别与定位时，得到的检测结果更准确。因此，可以将停止训练时(即最后一次训练完成后)的初始视频目标检测网络作为视频目标检测模型。

值得说明的是，在训练视频目标检测模型的过程中，初始视频目标检测网络在提取物体特征时，采用了共享参数的方式，例如，在提取特征时采用的全连接层以及激活函数相同，大大减少了该视频目标检测模型在训练过程中的计算量，在占用很少的计算资源的情况下得到更好的检测结果，且提高了训练视频目标检测模型在训练过程中的训练速度。

可选地，在一种可能的实现方式中，为了更好的训练初始视频目标检测网络，使得到的视频目标检测模型能提取到更准确的物体特征，进而提升视频目标检测的准确率，提升视频目标检测模型的鲁棒性。在基于视频三元组中每个视频所对应的物体特征，构建候选物体三元组之后，可基于预设的损失函数计算样本视频对应的各个物体特征与样本物体特征之间的损失值，并根据损失值与预设的损失阈值的大小调整初始视频目标检测网络的网络参数。这里用到的损失函数可以与S2016中的损失函数相同，也可不同。值得说明的是，当这里的损失值小于或等于预设的损失值阈值时，并不是停止训练初始视频目标检测网络，而是以此时初始视频目标检测网络中的网络参数为基准，继续执行S2012以及后续步骤。

可选地，在一种可能的实现方式中，获取测试集对训练中的初始视频目标检测网络进行测试，并根据检测准确率对初始视频目标检测网络的训练时长进行调整。示例性地，测试集中包括多个待测试视频以及每个待测试视频对应的检测结果。获取待测试视频中的目标视频帧以及支撑视频帧，将目标视频帧以及支撑视频帧输入到初始视频目标检测网络中进行处理，得到目标视频帧中目标物体对应的检测结果，也可以理解为得到待测试视频对应的检测结果。根据测试集中的检测结果以及初始视频目标检测网络得到的检测结果计算检测准确率，当检测准确率大于预设准确率阈值时，可不增加初始视频目标检测网络的训练时长；当检测准确率小于或等于预设准确率阈值时，增加初始视频目标检测网络的训练时长。在该实现方式中，当各个损失值，以及检测准确率均满足其对应的条件时，停止训练初始视频目标检测网络，并将训练后的初始视频目标检测网络作为视频目标检测模型。

例如，在测试过程中，任意选取待测试视频中的一帧视频帧作为其对应的目标视频帧，对于支撑视频帧的数量可从2帧开始逐渐递增，经过测试得出支撑视频帧选30帧时效果最佳。在测试中对于每个视频帧分别提取300个候选物体，并对这些候选物体对应的物体特征进行增强处理，最终得到待测试视频的目标视频帧所对应的目标候选物体特征，对目标候选物体特征进行识别与定位，得到待测试视频的目标视频帧对应的检测结果。

采用本申请中的方法训练得到的视频目标检测模型，已经对视频目标检测国际通用的权威数据集(ImageNet-VID)进行了测试，测试准确率可达到85.5％，远远超过现有技术中的网络模型对该数据集的测试准确率。

可选地，在一种可能的实现方式中，视频目标检测模型包括第一特征增强模块以及第二特征增强模块。其中，第一特征增强模块基于训练样本视频集中各个视频内的物体相似度构建生成；第二特征增强模块基于训练样本视频集中各个视频间的物体相似度构建生成。第一特征增强模块用于对物体特征进行增强处理，第二特征增强模块用于对第一特征增强模块增强后的特征进一步增强。

例如，视频目标检测模型在使用过程中，提取到目标视频帧中目标物体对应的第一物体特征以及支撑视频帧中参考物体对应的第二物体特征；可基于第一特征增强模块以及第二物体特征对第一物体特征进行特征增强处理，得到目标物体对应的增强特征；进一步基于第二特征增强模块对增强特征进行特征增强处理，得到目标物体对应的目标物体特征。对物体特征进行两次特征增强后，使提取到的目标物体对应的特征更准确、信息更丰富，进而根据目标物体对应的特征确定检测结果时，得到的分类结果以及定位更准确。

如图5所示，图5是本申请又一实施例中视频目标检测方法的示意性流程图，可选地，在一种可能的实现方式中，视频目标检测模型对所述目标视频帧以及所述支撑视频帧的处理过程包括S301～S304，具体如下：

S301：对所述目标视频帧以及所述支撑视频帧分别进行特征提取，得到所述目标视频帧中目标物体对应的第一物体特征以及所述支撑视频帧中参考物体对应的第二物体特征。

视频目标检测设备基于已训练的视频目标检测模型对目标视频帧进行特征提取处理，可提取到目标视频帧中的目标物体对应的第一物体特征；同时，视频目标检测设备基于已训练的视频目标检测模型对每个支撑视频帧分别进行特征提取处理，可提取到每个支撑视频帧中参考物体所对应的第二物体特征。其中，第一物体特征以及第二物体特征均已向量的形式表现，第一物体特征以及第二物体特征不仅包含各自对应的视频帧中各个物体的特征信息，还包含各个物体的位置信息。

示例性地，已训练好的视频目标检测模型中可包括输入层、多个卷积层、多个采样层、区域建议网络(Region Proposal Network，RPN)、输出层(全连接层)。以目标视频帧为例进行说明，将该目标视频帧输入视频目标检测模型中进行处理，视频目标检测模型中的输入层对该目标视频帧进行数据归一化处理。具体地，获取该目标视频帧中每个像素点对应的像素值，用每个像素点对应的像素值除以255，使每个像素点对应的像素值落入[0，1]中，对该目标视频帧中的每个像素点都这样处理后，得到数据归一化处理后的图像。将经过数据归一化处理后的图像传递至第一个卷积层，第一个卷积层对该图像进行卷积处理，提取该图像对应的特征，并基于提取的特征输出特征图，其中，该特征可以包括该图像的颜色特征、轮廓特征、图像中包含的人物特征、动物特征、事物特征等。第一卷积层将特征图输入至第一个采样层，第一个采样层对特征图进行特征选择，去除多余特征，重构新的特征图，并将新的特征图传递至第二个卷积层。第二个卷积层对新的特征图进行二次特征提取，并基于提取的特征再次输出特征图，第二个卷积层将再次输出的特征图传递至第二个采样层，第二个采样层进行二次特征选择，重构特征图。以此类推，直至视频目标检测模型中的所有采样层对图像处理完成后，得到最终的特征图。通过RPN遍历该图像，生成多个建议窗口，对这些建议窗口进行裁剪、过滤，判断进过裁剪、过滤后的各个建议窗口中的图像属于前景还是后景，即判断这些建议窗口中的图像是物体或者不是物体，标记图像是物体的建议窗口。把标记后的建议窗口映射到最终的特征图中，得到目标视频帧中目标物体对应的第一物体特征。

S302：基于所述第一特征增强模块以及所述第二物体特征对所述第一物体特征进行特征增强处理，得到所述目标物体对应的增强特征。

已训练的视频目标检测模型可以包括第一特征增强模块，该第一特征增强模块基于训练样本视频集中各个视频内的物体相似度构建而成。

视频目标检测设备基于该第一特征增强模块计算目标视频帧中每个目标物体对应的第一物体特征与支撑视频帧中每个参考物体对应的第二物体特征之间的余弦相似度，得到每个第一物体特征对应的相似矩阵；基于每个第一物体特征对应的相似矩阵对每个第二物体特征进行加权处理，得到每个第二物体特征对应的加权结果；将每个第二物体特征对应的加权结果与每个第一物体特征进行融合，得到每个第一物体特征对应的增强特征，即得到目标视频帧中每个目标物体对应的增强特征。

例如，从目标视频帧中提取到12个第一物体特征，同时，从每个支撑视频帧中也各提取到了12个第二物体特征。计算目标视频帧中第1个第一物体特征与第1个支撑视频帧中第1个第二物体特征之间的余弦相似度，得到目标视频帧中第1个第一物体特征与第1个支撑视频帧中第1个第二物体特征之间的相似矩阵。计算目标视频帧中第1个第一物体特征与第1个支撑视频帧中第2个第二物体特征之间的余弦相似度，得到目标视频帧中第1个第一物体特征与第1个支撑视频帧中第2个第二物体特征之间的相似矩阵；以此类推，得到目标视频帧中第1个第一物体特征与每个支撑视频帧中每个第二物体特征之间的相似矩阵。基于这些相似矩阵对其对应的第二物体特征进行加权处理，得到每个第二物体特征对应的加权结果；将这些加权结果与目标视频帧中第1个第一物体特征进行融合，得到目标视频帧中第1个第一物体特征对应的增强特征。对目标视频帧中提取到的每个第一物体特征都进行上述处理，得到目标视频帧中每个目标物体对应的增强特征。

可选地，在一种可能的实现方式中，也可以是先对支撑视频帧对应的每个第二物体特征进行特征增强处理后，基于特征增强处理的结果再对每个第一物体特征进行特征增强处理，得到目标视频帧中每个目标物体对应的增强特征。当为该种实现方式时，上述S302可以包括S3021～S3024，具体如下：

S3021：对所述第二物体特征进行特征增强处理，得到所述支撑视频帧中参考物体对应的第三物体特征。

对每个第二物体特征进行特征增强处理的过程与上述S202中对每个第一物体特征进行特征增强处理的过程类似，区别在于此处是针对每个支撑视频帧中的参考物体对应的第二物体特征进行特征增强处理，无需目标视频帧对应的每个第一物体特征参与。示例性地，计算每个支撑视频帧中每个第二物体特征对应的相似矩阵，基于每个相似矩阵对每个第二物体特征进行加权处理，将加权处理得到的加权结果与每个第二物体特征进行融合，得到每个支撑视频帧中各个物体对应的第三物体特征。

例如，从每个支撑视频帧中各提取到了12个第二物体特征。计算第1个支撑视频帧中第1个第二物体特征与第2个支撑视频帧中第1个第二物体特征之间的余弦相似度，得到第1个支撑视频帧中第1个第二物体特征与第2个支撑视频帧中第1个第二物体特征之间的相似矩阵；以此类推，得到第1个支撑视频帧中第1个第二物体特征与其余每个支撑视频帧中每个第二物体特征之间的相似矩阵。基于这些相似矩阵对其余每个支撑视频帧中的每个第二物体特征进行加权处理，得到每个第二物体特征对应的加权结果；将这些加权结果与第1个支撑视频帧中第1个第二物体特征进行融合，得到第1个支撑视频帧中第1个第二物体特征对应的增强特征，即第三物体特征。对第1个支撑视频帧中提取到的每个第二物体特征都进行上述处理，得到第1个支撑视频帧中每个第二物体特征对应的第三物体特征。基于相同的处理方式，对每个支撑视频帧进行该处理，得到每个支撑视频帧中各个参考物体对应的第三物体特征。

S3022：计算所述第一物体特征与所述第三物体特征之间的余弦相似度，得到所述第一物体特征对应的相似矩阵。

第一物体特征与第三物体特征均以向量的形式表现，可通过余弦距离公式计算每个第一物体特征与每个第三物体特征之间的余弦相似度，得到每个第一物体特征对应的相似矩阵。

S3023：基于所述相似矩阵对所述第三物体特征进行加权处理，得到加权结果。

该相似矩阵是基于哪个第三物体特征计算得到的，就将该相似矩阵与哪个第三物体特征进行加权处理，即将该相似矩阵与该第三物体特征相加，得到该第三物体特征对应的加权结果。

S3024：将所述加权结果与所述第一物体特征进行融合，得到所述增强特征。

获取与每个第一物体特征有关联的所有加权结果，将这些加权结果以及与其有关联的第一物体特征相加，得到每个第一物体特征对应的增强特征。由于加权结果是基于相似矩阵得到的，相似矩阵又是基于第一物体特征与第三物体特征之间的余弦相似度得到的，因此每个加权结果均有一个与其关联的第一物体特征。

S303：基于所述第二特征增强模块对所述增强特征进行特征增强处理，得到所述目标物体对应的目标物体特征。

已训练的视频目标检测模型可以包括第二特征增强模块，该第二特征增强模块基于训练样本视频集中各个视频间的物体相似度构建而成。

视频目标检测设备基于第二特征增强模块计算目标视频帧中每个目标物体对应的增强特征与支撑视频帧中每个参考物体对应的第二物体特征之间的余弦相似度，得到每个增强特征对应的相似矩阵；基于每个增强特征对应的相似矩阵对每个第二物体特征进行加权处理，得到每个第二物体特征对应的加权结果；将每个第二物体特征对应的加权结果与每个增强特征进行融合，得到每个增强特征对应的目标物体特征，即得到目标视频帧中每个目标物体对应的目标物体特征。

可选地，也可以是视频目标检测设备基于第二特征增强模块计算目标视频帧中每个目标物体对应的增强特征与支撑视频帧中每个参考物体对应的第三物体特征之间的余弦相似度，得到每个增强特征对应的相似矩阵；基于每个增强特征对应的相似矩阵对每个第三物体特征进行加权处理，得到每个第三物体特征对应的加权结果；将每个第三物体特征对应的加权结果与每个增强特征进行融合，得到每个增强特征对应的目标物体特征，即得到目标视频帧中各个目标物体对应的目标物体特征。具体的过程可参考S302中的描述，此处不再赘述。

S304：对所述目标物体特征进行识别与定位，得到所述检测结果。

可通过全连接层以及逻辑回归模型(softmax)对每个目标物体特征进行识别与定位，得到目标视频帧中每个目标物体对应的类别以及位置信息。基于全连接层以及softmax对目标物体特征进行识别与定位的过程可参考现有技术，此处不再赘述。

在本申请实施例中，视频目标检测设备通过已训练的视频目标检测模型中包含的第一特征增强模块以及第二特征增强模块，对目标物体对应的特征进行了两次特征增强处理，使提取到的目标物体对应的特征信息更丰富、更准确，进而基于该特征进行识别和定位时，得到的检测结果更准确，即对目标物体的类别识别更准确，不会出现误检的情况，同时检测得到的目标物体的位置信息也更准确。

示例性地，为了便于理解本申请，请参见图6，图6是本申请提供的构建第一特征增强模块的示意图。同时可参考S2012中的描述，基于每个视频中目标视频帧对应的物体特征以及支撑视频帧对应的物体特征，通过输出1024维的全连接层计算余弦相似度，根据计算结果进行加权处理，基于加权结果进行特征融合，最终构建生成第一特征增强模块。可选地，在加权处理后可对加权结果先进行卷积后再进行特征融合。其中，卷积步长可为1，输入输出通道数均可为1024。此处仅为示例性说明，对此不做限定。

示例性地，为了便于理解本申请，请参见图7，图7是本申请提供的构建第二特征增强模块的示意图。同时可参考S2013中的描述，基于视频三元组中每个视频所对应的物体特征，构建候选物体三元组。基于候选物体三元组中每个候选物体对应的物体特征，确定样本视频中目标视频帧所对应的目标候选物体特征。如图7所示，基于每个视频中目标视频帧对应的物体特征以及支撑视频帧对应的物体特征，计算余弦相似度，基于计算得到的余弦相似度确定目标候选物体，并基于目标候选物体构建候选物体三元组；基于候选物体三元组中每个候选物体对应的物体特征，确定样本视频中目标视频帧所对应的目标候选物体特征。候选物体之间的关系可理解为确定目标候选物体时，对各个候选物体之间的相似度计算，以及计算三元组损失值时，各个候选物体之间的约束关系。

示例性地，为了便于理解本申请，请参见图8，图8是本申请提供的构建视频目标检测模型的流程示意图。在训练样本视频集中进行易混淆视频挖掘，根据挖掘结果构建视频三元组。通过初始视频目标检测网络中的RPN网络对视频三元组中的视频中的视频帧进行获取物体候选框等处理。计算视频三元组中样本视频对应的第一物体相似度并进行相应的特征融合，计算视频三元组中支撑视频1对应的第一物体相似度并进行相应的特征融合，计算视频三元组中支撑视频2对应的第一物体相似度并进行相应的特征融合。基于各个第一物体相似度进行易混淆候选物体挖掘，即基于各个第一物体相似度确定目标候选物体，再计算视频间的物体相似度并进行相应的特征融合，最终得到样本视频的目标视频帧中的每个物体对应的目标候选物体特征。对目标候选物体特征进行识别与定位，得到样本视频中目标视频帧对应的检测结果。

示例性地，本申请提供的视频目标检测方法可应用于各种需要进行视频目标检测的领域，且在各个领域中均有显著的检测效果。

例如，在野生动物监控与筛查领域，对于重点保护动物和野生动物研究区域设有大量的摄像头，视频目标检测技术是动物状态检测的基础。采用本申请提供的视频目标检测方法对该摄像头采集的视频进行检测，可得到准确的检测结果。在野外环境中，野生动物运动速度快、不可控性强，导致摄像头监控到的视频中存在运动模糊以及一些动物不常见的姿势，进而导致使用现有技术中的网络模型对视频中的动物进行检测时，容易出现漏检、类别误判以及定位出错的问题；而本申请提供的视频目标检测模型对易混淆的物体可准确识别，因此，采用本申请提供的视频目标检测模型可准确地检测到各个时间段、各种动物的类别、数量等，完美的解决了现有技术中存在的技术问题，达到了显著的检测效果。

又例如，视频目标检测在自动驾驶领域起着非常重要的作用。在自动驾驶中，对行人、交通设施与车辆的准确检测与分类，是自动驾驶安全使用和发挥效用的关键基础技术。

采用本申请提供的视频目标检测模型可以对交通设施，如限速指示牌、路灯、路障、交通信号灯可进行准确识别；在光照条件以及天气恶劣的情况下，也可对行人、交通设施与车辆进行准确识别。比如，在光照不足、或者天气恶劣时，摄像头采集到的交通设施、车辆、行人等变得模糊，十分容易混淆。而我们的视频目标检测模型擅长处理这种易混淆物体的识别，进而保证了自动驾驶的行驶安全。

又例如，我们提供的视频目标检测模型在智能交通分析领域的应用。智能交通流量分析要对某一时间段、某一路段的车流量进行分析，从而对市政规划、交通信号调整提供数据支撑。具体地，需要对道路上的各类车辆进行准确识别与定位，便于统计、调控以及对违规车辆的处罚。我们提供的视频目标检测模型对外观相似的车辆可以准确的定位与识别，很好的辅助交通流量分析。

示例性地，我们提供的视频目标检测方法在无人机监控领域也有很好的应用。比如，地面监控布局常常不完备，会存在视野盲区，无人机可以提供高空中的俯瞰视角视频，来补充地面监控的不足。我们提供的视频目标检测方法在训练过程中利用共享参数对视频三元组中不同的视频对应的物体特征进行特征增强；这种共享参数的方式保证了我们提供的视频目标检测方法在移动平台上的适用性；且这种共享参数的方式，大大减少了视频目标检测模型在训练过程中的计算量，在占用很少的计算资源的情况下得到更好的检测结果，且提高了训练视频目标检测模型在训练过程中的训练速度。

请参见图9，图9是本申请一实施例提供的一种视频目标检测装置的示意图。该一种视频目标检测装置包括的各单元用于执行图1、图2、图3、图5对应的实施例中的各步骤。具体请参阅图1、图2、图3、图5各自对应的实施例中的相关描述。为了便于说明，仅示出了与本实施例相关的部分。参见图9，包括：

获取单元410，用于获取待检测视频中的目标视频帧以及支撑视频帧；所述目标视频帧为所述待检测视频中包含目标物体的任一帧视频帧；所述支撑视频帧包括所述待检测视频中除所述目标视频帧外的至少一个视频帧；

处理单元420，用于将所述目标视频帧以及所述支撑视频帧输入到已训练的视频目标检测模型中处理，得到所述目标物体对应的检测结果；所述检测结果包括所述目标物体对应的类别和位置信息；其中，所述视频目标检测模型基于训练样本视频集中各个视频内的物体相似度以及训练样本视频集中各个视频间的物体相似度生成。

可选地，所述视频目标检测装置还包括：

可选地，所述生成单元包括：

可选地，所述第一构建单元具体用于：

可选地，所述第二构建单元具体用于：

可选地，所述确定单元具体用于：

可选地，所述第三构建单元具体用于：

基于所述欧式距离计算关系规约损失值。

可选地，所述处理单元420包括：

可选地，所述第一增强单元具体用于：

请参见图10，图10是本申请另一实施例提供的一种视频目标检测设备的示意图。如图10所示，该实施例的一种视频目标检测设备5包括：处理器50、存储器51以及存储在所述存储器51中并可在所述处理器50上运行的计算机可读指令52。所述处理器50执行所述计算机可读指令52时实现上述各个视频目标检测方法实施例中的步骤，例如图1所示的S101至S102。或者，所述处理器50执行所述计算机可读指令52时实现上述各实施例中各单元的功能，例如图9所示单元410至420功能。

示例性地，所述计算机可读指令52可以被分割成一个或多个单元，所述一个或者多个单元被存储在所述存储器51中，并由所述处理器50执行，以完成本申请。所述一个或多个单元可以是能够完成特定功能的一系列计算机可读指令段，该指令段用于描述所述计算机可读指令52在所述视频目标检测设备5中的执行过程。例如，所述计算机可读指令52可以被分割为获取单元以及处理单元，各单元具体功能如上所述。

所述视频目标检测设备可包括，但不仅限于，处理器50、存储器51。本领域技术人员可以理解，图10仅仅是视频目标检测设备5的示例，并不构成对视频目标检测设备5的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述视频目标检测设备还可以包括输入输出终端、网络接入终端、总线等。

所称处理器50可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器51可以是所述视频目标检测设备5的内部存储单元，例如视频目标检测设备5的硬盘或内存。所述存储器51也可以是所述视频目标检测设备5的外部存储终端，例如所述视频目标检测设备5上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器51还可以既包括所述视频目标检测设备5的内部存储单元也包括外部存储终端。所述存储器51用于存储所述计算机可读指令以及所述终端所需的其他程序和数据。所述存储器51还可以用于暂时地存储已经输出或者将要输出的数据。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神范围，均应包含在本申请的保护范围之内。

Claims

1.一种视频目标检测方法，其特征在于，包括：

2.如权利要求1所述的视频目标检测方法，其特征在于，所述将所述目标视频帧以及所述支撑视频帧输入到已训练的视频目标检测模型中处理，得到所述目标视频帧对应的检测结果之前，还包括：

3.如权利要求2所述的视频目标检测方法，其特征在于，所述基于初始视频目标检测网络、所述训练样本视频集中各个视频内的物体相似度、所述训练样本视频集中各个视频间的物体相似度以及候选物体关系规约生成所述视频目标检测模型，包括：

4.如权利要求3所述的视频目标检测方法，其特征在于，所述支撑视频的数量不少于三个；所述在所述初始视频目标检测网络中基于在所述训练样本视频集中选取的样本视频以及支撑视频构建视频三元组，包括：

5.如权利要求3所述的视频目标检测方法，其特征在于，所述基于所述视频三元组中每个视频所对应的物体特征，构建候选物体三元组，包括：

6.如权利要求3所述的视频目标检测方法，其特征在于，所述基于所述候选物体三元组中每个候选物体对应的物体特征，确定样本视频中目标视频帧所对应的目标候选物体特征，包括：

7.如权利要求3所述的视频目标检测方法，其特征在于，所述基于所述候选物体三元组中每个候选物体对应的物体特征，构建所述候选物体关系规约，包括：

基于所述欧式距离计算关系规约损失值。

8.如权利要求1至7任一项所述的视频目标检测方法，其特征在于，所述视频目标检测模型包括第一特征增强模块以及第二特征增强模块，所述第一特征增强模块基于所述训练样本视频集中各个视频内的物体相似度构建生成，所述第二特征增强模块基于所述训练样本视频集中各个视频间的物体相似度构建生成。

9.如权利要求8所述的视频目标检测方法，其特征在于，所述视频目标检测模型对所述目标视频帧以及所述支撑视频帧的处理过程包括：

对所述目标物体特征进行识别与定位，得到所述检测结果。

10.如权利要求9所述的视频目标检测方法，其特征在于，所述基于所述第一特征增强模块以及所述第二物体特征对所述第一物体特征进行特征增强处理，得到所述目标物体对应的增强特征，包括：

11.一种视频目标检测装置，其特征在于，包括：

12.一种视频目标检测设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至10任一项所述的方法。

13.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至10任一项所述的方法。