CN111353597B

CN111353597B - 一种目标检测神经网络训练方法和装置

Info

Publication number: CN111353597B
Application number: CN201811582168.2A
Authority: CN
Inventors: 石大虎; 虞抒沁; 谭文明
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2018-12-24
Filing date: 2018-12-24
Publication date: 2023-12-05
Anticipated expiration: 2038-12-24
Also published as: CN111353597A

Abstract

本申请实施例提供了一种目标检测神经网络训练方法和装置。其中，方法包括：利用所述特征提取子网络对样本视频中参考视频帧进行处理，以基于所述参考视频帧与关键视频帧之间的变换关系，计算所述关键视频帧的图像特征，得到预估图像特征，所述参考视频帧为所述样本视频中未经过标定的视频帧，所述样本视频为所述样本视频中经过标定的视频帧；利用所述检测子网络对所述预估图像特征进行处理，得到预测结果；基于所述预测结果与所述关键视频帧的标定结果之间的误差计算损失，对所述目标检测神经网络的网络参数进行调整。可以在不增加因标定带来的工作量的情况下，提高经过训练的目标检测神经网络的准确性。

Description

一种目标检测神经网络训练方法和装置

技术领域

本申请涉及计算机视觉技术领域，特别是涉及一种目标检测神经网络训练方法和装置。

背景技术

目标检测神经网络可以包括特征提取子网络和检测子网络，特征提取子网络可以提取出视频帧的图像特征，检测子网络可以基于图像特征确定视频帧中存在目标物体的区域，以得到检测结果。为了使得目标检测神经网络能够准确识别出视频帧中目标物体所在的区域，即提高目标检测神经网络的检测结果的准确性，需要预先对目标检测神经网络进行训练。

现有技术中，可以在样本视频的多个视频帧中标定出目标物体所在区域，作为这多个视频帧的标定结果。将这些经过标定的视频帧作为目标检测神经网络的输入，得到目标检测神经网络输出的检测结果。通过检测结果和标定结果之间的误差计算损失，调整目标检测神经网络的网络参数。

但是，如果标定的视频帧较少，则经过训练的目标检测神经网络的准确性可能较差，而如果标定的视频帧较多，则标定带来的工作量较大。

发明内容

本申请实施例的目的在于提供一种目标检测神经网络训练方法，以实现在不增加因标定带来的工作量的情况下，提高经过训练的目标检测神经网络的准确性。具体技术方案如下：

在本申请实施例的第一方面，提供了一种目标检测神经网络训练方法，所述目标检测神经网络包括特征提取子网络和检测子网络，所述方法包括：

利用所述特征提取子网络对样本视频中参考视频帧进行处理，以基于所述参考视频帧与关键视频帧之间的变换关系，计算所述关键视频帧的图像特征，得到预估图像特征，所述参考视频帧为所述样本视频中未经过标定的视频帧，所述样本视频为所述样本视频中经过标定的视频帧；

利用所述检测子网络对所述预估图像特征进行处理，得到预测结果；

基于所述预测结果与所述关键视频帧的标定结果之间的误差计算损失，对所述目标检测神经网络的网络参数进行调整。

结合第一方面，在第一种可能的实现方式中，所述利用所述特征提取子网络对样本视频中参考视频帧进行处理，以基于所述参考视频帧与关键视频帧之间的变换关系，计算所述关键视频帧的图像特征，得到预估图像特征，包括：

利用所述特征提取子网络提取样本视频中参考视频帧的图像特征，作为参考图像特征；

基于所述参考视频帧与关键视频帧之间的光流，对所述参考图像特征进行映射，得到所述参考视频的映射图像特征，作为预估图像特征。

结合第一方面的第一种可能的实现方式，在第二种可能的实现方式中，所述基于所述参考视频帧与关键视频帧之间的光流，对所述参考图像特征进行映射，得到所述参考视频帧的映射图像特征，作为预估图像特征，所述方法还包括：

基于所述参考视频帧与关键视频帧之间的稠密光流，将所述参考图像特征通过双线性插值进行映射，得到所述参考视频帧的映射图像特征，作为预估图像特征。

结合第一方面，在第三种可能的实现方式中，所述利用所述特征提取子网络对样本视频中参考视频帧进行处理，以基于所述参考视频帧与关键视频帧之间的变换关系，计算所述关键视频帧的图像特征，得到预估图像特征，包括：

基于样本视频中参考视频帧与关键视频帧之间的变换因子，对所述特征提取子网络的卷积核进行变形；

利用卷积核经过变形的所述特征提取子网络提取所述参考视频帧的图像特征，作为预估图像特征。

结合第一方面，在第四种可能的实现方式中，所述参考视频帧的数目大于一个；

所述利用所述特征提取子网络对样本视频中参考视频帧进行处理，以基于所述参考视频帧与关键视频帧之间的变换关系，计算所述关键视频帧的图像特征，得到预估图像特征，包括：

针对每个参考视频帧，分别利用所述特征提取子网络对该参考视频帧进行处理，以基于该参考视频帧与关键视频帧之间的映射关系，计算关键视频帧的图像特征，得到该参考视频帧的计算结果；

对所有参考视频帧的计算结果，按照归一化权重进行加权求和，得到加权求和的结果，作为预估图像特征。

结合第一方面的第四种可能的实现方式，在第五种可能的实现方式中，每个计算结果的归一化权重，与该计算结果和关键图像特征的相似度正相关，所述关键图像特征为利用所述特征提取子网络从所述关键视频帧提取到的图像特征。

结合第一方面，在第六种可能的实现方式中，所述参考视频帧与所述关键视频帧之间间隔的帧数小于预设帧数间隔。

在本申请实施例的第二方面，提供了一种目标检测神经网络训练装置，所述目标检测神经网络包括特征提取子网络和检测子网络，所述装置包括：

特征迁移模块，用于利用所述特征提取子网络对样本视频中参考视频帧进行处理，以基于所述参考视频帧与关键视频帧之间的变换关系，计算所述关键视频帧的图像特征，得到预估图像特征，所述参考视频帧为所述样本视频中未经过标定的视频帧，所述样本视频为所述样本视频中经过标定的视频帧；

特征检测模块，用于利用所述检测子网络对所述预估图像特征进行处理，得到预测结果；

参数调整模块，用于基于所述预测结果与所述关键视频帧的标定结果之间的误差计算损失，对所述目标检测神经网络的网络参数进行调整。

结合第二方面，在第一种可能的实现方式中，所述特征迁移模块，具体用于利用所述特征提取子网络提取样本视频中参考视频帧的图像特征，作为参考图像特征；

结合第二方面的第一种可能的实现方式，在第二种可能的实现方式中，所述特征迁移模块，具体用于基于所述参考视频帧与关键视频帧之间的稠密光流，将所述参考图像特征通过双线性插值进行映射，得到所述参考视频帧的映射图像特征，作为预估图像特征。

结合第二方面，在第三种可能的实现方式中，所述特征迁移模块，具体用于基于样本视频中参考视频帧与关键视频帧之间的变换因子，对所述特征提取子网络的卷积核进行变形；

结合第二方面，在第四种可能的实现方式中，所述参考视频帧的数目大于一个；

所述特征迁移模块，具体用于针对每个参考视频帧，分别利用所述特征提取子网络对该参考视频帧进行处理，以基于该参考视频帧与关键视频帧之间的映射关系，计算关键视频帧的图像特征，得到该参考视频帧的计算结果；

结合第二方面的第四种可能的实现方式，在第五种可能的实现方式中，每个计算结果的归一化权重，与该计算结果和关键图像特征的相似度正相关，所述关键图像特征为利用所述特征提取子网络从所述关键视频帧提取到的图像特征。

结合第二方面，在第六种可能的实现方式中，所述参考视频帧与所述关键视频帧之间间隔的帧数小于预设帧数间隔。

在本申请实施例的第三方面，提供了一种电子设备，包括存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述任一所述的目标检测神经网络训练方法步骤。

在本申请实施例的第四方面，提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一所述的目标检测神经网络训练方法步骤。

本申请实施例提供的目标检测神经网络训练方法和装置，可以通过参考视频帧与关键视频帧之间的变换关系，进行特征迁移(Propagation)，以基于参考视频帧得到预估图像特征，并基于预估图像特征的预测结果与关键视频帧的标定结果，计算两者之间的误差，对网络参数进行调整，使得可以在不标定参考视频帧的情况下，使用参考视频帧对目标检测神经网络进行训练，实现了在不增加因标定带来的工作量的情况下，提高经过训练的目标检测神经网络的准确性。当然，实施本申请的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的目标检测神经网络训练方法的一种流程示意图；

图2为本申请实施例提供的训练网络的一种结构示意图；

图3为本申请实施例提供的目标检测神经网络训练方法的另一种流程示意图；

图4为本申请实施例提供的训练网络的另一种结构示意图；

图5为本申请实施例提供的目标检测神经网络训练方法的另一种流程示意图；

图6为本申请实施例提供的目标检测神经网络训练装置的一种结构示意图；

图7为本申请实施例提供的电子装备的一种结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

参见图1，图1所示为本申请实施例提供的目标检测神经网络训练方法的一种流程示意图，所训练的目标检测神经网络包括特征提取子网络和检测子网络，可以包括：

S101，利用特征提取子网络对样本视频中参考视频帧进行处理，以基于参考视频帧与关键视频帧之间的变换关系，计算关键视频帧的图像特征，得到预估图像特征。

其中，参考视频帧为样本视频帧中未经过标定的视频帧。样本视频包括多个视频帧，并且这多个视频帧中至少存在一个预先经过标定的关键视频帧，该关键视频帧可以是经过用户人工标定的，也可以是利用已经训练完成的目标检测神经网络进行标定的。示例性的，可以是选取一个视频，从该视频的第一个视频帧开始，每间隔预设数目个视频帧选取一个视频帧，在所选取的视频帧中设置位置框，并标定每个位置框中所存在的目标物体，以得到样本视频，在该样本视频中，被设置位置框并进行标定的视频帧为关键视频帧，除关键视频帧以外的其他视频帧为参考视频帧。

参考视频帧与关键视频帧之间的变换关系，根据实际需求可以以不同的形式表现。示例性的，可以是以光流的形式表示参考视频帧与关键视频帧之间的变换关系，也可以是以变换因子的形式表示参考视频帧与关键视频帧之间的变换关系。其中，变换因子可以用于表示各个像素点在参考视频帧与关键视频帧之间的相对偏移量。

在一种可选的实施例中，可以是利用特征提取子网络提取样本视频中参考视频帧的图像特征，作为参考图像特征。并给予参考视频帧与关键视频之间的光流，对参考图像进行映射，得到参考视频帧的映射图像特征，作为预估图像特征。

在另一种可选的实施例中，也可以是基于样本视频中参考视频帧与关键视频帧之间的变换因子，对特征提取子网络的卷积核进行变形。并利用卷积核经过变形的特征提取子网络提取参考视频帧的图像特征，作为预估图像特征。

示例性的，可以是将参考视频帧和关键视频帧输入预先经过训练的用于计算视频帧之间的变换因子的神经网络，以得到参考视频帧和关键视频帧之间的变换因子。基于该变换因子，改变卷积核中卷积核单元(unit)的位置，以使得利用卷积核经过变形后的特征提取子网络提取到的参考视频帧的图像特征，与关键视频帧的图像特征对齐。

为讨论方便，假设变形前的卷积核为3*3矩阵，则利用该卷积核对关键视频帧进行卷积运算时，每次提取关键视频帧中3*3的像素区域，而由于画面运动，因此关键视频帧中3*3的像素区域中各个像素点，在参考视频帧中的位置可能发生变化，因此，相同的卷积核在相同的位置，分别对关键视频帧和参考视频帧进行卷积，得到的结果可能不一样。可以在对参考视频帧进行卷积时改变卷积核中卷积核单元的位置，以使得该卷积核单元从关键视频帧提取到的像素点和从参考视频帧中提取到的像素点趋于一致(甚至相同)，进而使得得到的结果趋于一致(甚至相同)。在这种情况下，利用卷积核经过变形的特征提取子网络从参考视频帧中提取到的图像特征，近似(甚至完全相等)于利用卷积核经过变形前的特征提取子网络从关键视频帧提取到的图像特征。因此，本实施例中，可以将利用卷积核经过变形的特征提取子网络提取参考视频帧的图像特征，作为预估图像特征。

如果样本视频中只包括一个关键视频帧，则计算预估图像特征时，所基于的变换关系为参考视频帧与该关键视频帧之间的变换关系，如果样本视频帧中包括多个关键视频帧，则计算预估图像特征时，所基于的变换关系为参考视频帧与从该样本视频的多个关键视频帧中选取的一个关键视频帧之间的变换关系。

进一步的，如果样本视频中包括多个关键视频帧和多个参考视频帧，则利用特征提取子网络提进行处理的参考视频帧可以是其中一个或多个参考视频帧，也可以是样本视频中的所有参考视频帧。并且如果利用特征提取子网络提进行处理的参考视频帧不为样本视频中的所有参考视频帧，则利用特征提取子网络提进行处理的参考视频帧的选取，和计算预估图像特征所涉及的一个关键视频帧的选取可以是相关的，也可以是不相关的。

不相关的情况下，利用特征提取子网络提进行处理的的参考视频帧可以是从样本视频中多个参考视频帧中随机选取的，计算预估图像特征所涉及的一个关键视频帧也可以是从样本视频的多个关键视频帧中随机选取的。

相关的情况下，可以是从样本视频帧的多个关键视频帧中选取一个关键视频帧，如样本视频帧中的第i个视频帧(以下称视频帧i)，在与视频帧i之间间隔的帧数小于预设帧数间隔内的多个参考视频帧中选取一个或多个参考图像帧，示例性的，可以是在视频帧i-k到视频帧i+k这2k+1个视频帧中所有的参考视频帧内随机选取一个或多个参考视频帧。两个视频帧之间间隔的帧数越大，则越难以准确得到这两个视频帧之间的变换关系，即两个视频帧之间间隔的帧数越大，两个视频帧之间的变换关系可能越不准确，而基于不准确的变换关系，得到预估图像特征的准确性也越低，因此将所选取的参考视频帧和所选取的关键视频帧之间间隔的帧数控制在预设帧数间隔以内，可以有效避免关键视频帧与参考视频帧之间的变换关系不准确而导致的训练不稳定或者训练效果不佳。

S102，利用检测子网络对预估图像特征进行处理，得到预测结果。

将预估图像特征作为检测子网络的输入，并将检测子网络的输出作为预测结果。

S103，基于预测结果与关键视频帧的标定结果之间的误差计算损失，对目标检测神经网络的网络参数进行调整。

其中，预测结果与标定结果之间的误差计算损失表示预测结果与标定结果之间的差异程度。进一步的，在本申请实施例中，可以是基于梯度下降法对目标检测神经网络的网络参数进行调整。

为方便讨论，将直接利用特征提取子网络提取关键视频帧得到的图像特征记为关键图像特征。虽然预估图像特征是利用特征提取子网络对样本视频中参考视频帧进行处理，以基于所述参考视频帧与关键视频帧之间的变换关系，在理想情况下预估图像特征可能和关键图像特征一致，在实际情况下预估图像特征与关键图像特征之间可能相近但存在差异。可以近似认为该差异能够忽略不计，则理论上利用预估图像特征计算得到的预测结果，和利用关键图像特征计算得到的预测结果一致。而理想中的目标检测神经网络，利用关键图像特征计算得到的预测结果与关键视频帧的标定结果一致，因此基于利用预估图像特征计算得到的预测结果与标定结果之间的误差计算损失对目标检测神经网络的网络参数进行调整，可以使得目标检测神经网络的网络参数向理想情况收敛。

并且参考视频帧和关键视频帧并非同一个视频帧(如果参考视频帧与关键视频帧完全一致，则参考视频帧等效于关键视频帧，可以直接作为样本数据对目标检测神经网络进行训练，不存在本申请实施例所需要解决的技术问题，故在此不讨论这种情况)，因此可以看做和关键视频帧不同的样本数据，因此选用该实施例可以将样本视频中的一个或多个参考视频帧作为与关键视频帧不同的样本数据，对目标检测神经网络中的特征提取子网络和检测子网络进行训练，即可以在不增加因标定带来的工作量的同时，增加训练目标检测神经网络时可用的样本数据量，以提高训练得到的目标检测神经网络的准确性。

下面将结合实际应用场景，对本申请实施例提供的目标检测神经网络训练方法进行说明，参见图2，图2所示为训练目标检测神经网络时所使用的训练网络的一种结构示意图，包括特征提取子网络210、检测子网络220以及光流估计模块230，其中，变换关系估计模块230用于计算所输入的多个视频帧之间的变换关系，在一种可选的实施例中，变换关系估计模块230可以是基于卷积神经网络的光流估计网络(如FlowNet、PWCNet等)，也可以是用于计算视频帧之间的变换因子的神经网络。特征提取子网络210和检测子网络220为需要训练的目标检测神经网络中的特征提取子网络和检测子网络。在一种可选的实施例中，在目标检测神经网络训练完成后，可以将变换关系估计模块230从训练网络中删除，保留其中的特征提取子网络210和检测子网络220，得到目标检测神经网络。

基于图2所示的训练网络的结构，每次可以利用样本视频中的单个参考视频帧对目标检测神经网络进行训练，以变换关系估计模块230为光流估计网络为例，参见图3，可以包括：

S301，选取样本视频帧中的一个关键视频帧。

为讨论方便，假设该关键视频帧为样本视频中的第i个视频帧，并将该关键视频帧记为视频帧i。

S302，在该关键视频帧前后各k帧范围内，选取一个参考视频帧。

示例性的，可以是从第i-k个视频帧到第i+k个视频帧范围内所有的参考视频帧中随机选取一个参考视频帧。k的取值可以根据用户实际需求或者历史经验进行设置，示例性的，假设i＝10，k＝3，则参考视频帧的选取范围为第7个视频帧到第13个视频帧中所有的参考视频帧。

S303，利用变换关系估计模块计算关键视频帧与参考视频帧之间的稠密光流。

可以是将关键视频帧和参考视频帧作为光流估计网络的输入，将光流估计网络的输出作为关键视频帧和参考视频帧之间的稠密光流。该稠密光流可以表示各个像素点从参考视频帧到关键视频帧之间的速度信息，可以是通过针对关键视频帧和参考视频帧进行逐点匹配，并计算每个像素点在这两个视频帧之间的偏移量得到的。

S304，利用特征提取子网络提取参考视频帧的图像特征，作为参考图像特征。

该步骤与S101相同，可以参见前述关于S101的描述，在此不再赘述。

S305，基于稠密光流，将参考图像特征通过双线性插值进行映射，得到参考视频帧的映射图像特征，作为关键视频帧的预估图像特征。

可以理解的是，特征提取子网络从参考视频帧中提取出的参考图像特征可以视作二维图像，因此可以利用双线性插值对参考图像特征进行映射。使用双线性插值，可以利用参考图像特征中相邻的四个点取值，较为准确地计算得到映射图像特征中某个点的取值，示例性的，假设映射图像特征中点A在参考图像特征中的映射点的坐标为(i+u，j+v)，其中i、j为整数，u、v的取值范围为[0，1)，则可以基于参考图像特征中(i，j)、(i+1，j)、(i，j+1)、(i+1，j+1)四个点的取值，按照下式计算得到点(i+u，j+v)的取值，并作为映射图像特征中点A的取值：

其中，f(i,j)、f(i,j+1)、f(i+1,j)、f(i+1,j+1)、f(i+u,j+v)分别表示点(i，j)、(i，j+1)、(i+1，j)、(i+1，j+1)、(i+u，j+v)的取值。

S306，利用检测子网络计算预估图像特征的预测结果。

该步骤与S103相同，可以参见前述关于S103的描述，在此不再赘述。

S307，基于预测结果与关键视频帧的标定结果之间的误差计算损失，对目标检测神经网络的网络参数进行调整。

该步骤与S104相同，可以参见前述关于S104的描述，在此不再赘述。

参见图4，图4所示为本申请实施例提供的用于训练目标检测神经网络的另一种结构示意图，可以包括：特征提取子网络210、检测子网络220、光流估计模块230、加权平均模块240，其中，多个特征提取子网络210的网络参数是一致的。其中，每个光流估计模块230对应于一个特征提取子网络210。在目标检测神经网络训练完成后，可以将该训练网络中的光流估计模块230、加权平均模块240删除，保留其中的特征提取子网络210和检测子网络220。

基于图4所示的训练网络，每次可以利用样本视频中的多个参考视频帧对目标检测神经网络进行训练，以变换关系估计模块230为光流估计网络为例，参见图5，可以包括：

S501，选取样本视频帧中的一个关键视频帧。

该步骤与S301相同，可以参见前述关于S301的描述，在此不再赘述。

S502，在该关键视频帧前后各k帧范围内，选取多个参考视频帧。

在一种可选的实施例中，多个参考视频帧可以是在关键视频帧前后各k帧范围内随机选取的。在另一种可选的实施例中，为了使得参考视频帧分布相对均匀，如果多个参考视频帧的数量为偶数，例如选取2n个参考视频帧，则可以是在关键视频帧的前k帧范围内随机选取n个参考视频帧，在关键视频帧的后k帧范围内随机选取n个参考视频帧，如果多个参考视频帧的数量为奇数，例如选取2n+1个参考视频帧，则可以是在关键视频帧的前k帧范围内随机选取n+1个参考视频帧，在关键视频帧的后k帧范围内随机选取n个参考视频帧，也可以是在关键视频帧的前k帧范围内随机选取n个参考视频帧，在关键视频帧的后k帧范围内随机选取n+1个参考视频帧。

S503，针对每个参考视频帧，利用各个变换关系估计模块计算该参考视频帧与关键视频帧之间的稠密光流。

可以是将多个参考视频帧分别输入训练网络中的各个光流估计网络，并将关键视频帧输入至各个光流估计网络，每个光流估计网络的输出，作为输入该光流估计网络的参考视频帧与关键视频帧之间的稠密光流。其中，每个光流估计网络的输入为一个参考视频帧和关键视频帧。在其他的实施例中，所使用的训练网络的结构可能不同，也可以是只包括一个光流估计网络，则可以是利用该光流估计网络依次计算每个视频帧与关键视频帧之间的稠密光流。

S504，针对每个参考视频帧，利用对应的特征提取子网络提取该参考视频帧的图像特征，作为该参考视频帧的参考图像特征。

其中，对应的特征提取子网络是指，与该参考视频帧所输入的光流估计模块对应的特征提取子网络。在其他实施例中，所使用的训练网络的结构可能不同，也可以是只一个特征提取子网络，则可以是利用该特征提取子网络依次提取每个参考视频帧的图像特征，作为该参考视频帧的参考图像特征。

S505，针对每个参考视频帧，基于稠密光流，将该参考视频帧的参考图像特征通过双线性插值进行映射，得到该参考视频帧的映射图像特征，作为该参考视频帧的计算结果。

关于稠密光流和双线性插值可以参见S305中的相关描述，在此不再赘述。理想情况下，各个参考视频帧的映射图像特征可能是一致的，并且与关键视频帧的关键图像特征一致。但是实际情况中，可能因为一些难以避免的误差，各个参考视频帧的映射图像特征均与关键图像特征存在一定的差异，因此将其中任何一个映射图像特征直接作为关键视频帧的预估图像特征可能均存在较大误差。

S506，利用加权平均模块，对所有参考视频帧的计算结果，按照归一化权重进行加权求和，得到加权求和的结果，作为关键视频帧的预估图像特征。

其中，归一化权重是指所有参考视频帧的映射图像特征在加权求和时所使用的权重，其相加之和为1。示例性的，假设一共有3个参考视频帧，这三个参考视频帧的计算结果分别记为f₁、f₂、f₃，则预估图像特征f_merge可以是按照下式计算得到的：

f_merge＝w₁*f₁+w₂*f₂+w₃*f₃

其中，w₁为f₁的权重，w₂为f₂的权重，w₃为f₃的权重，并且满足w₁+w₂+w₃＝1。在一种可选的实施例中，各个计算结果的权重可以是一致的，也可以是基于所属参考视频帧与关键视频帧之间间隔的帧数确定的。在另一种可选的实施例中，还可以是基于该计算结果与关键图像特征之间的相似度确定的，示例性的，可以是利用训练网络中不与任何光流估计模块对应的特征提取子网络从关键视频帧中提取关键图像特征，并输入至加权平均模块，加权平均模块分别计算各个计算结果与关键图像特征的相似度，并对计算得到的相似度进行归一化，得到各个计算结果的权重，示例性的，可以是按照下式：

其中，w_i为第i个计算结果的权重，α_i为第i个计算结果与关键图像特征的相似度，n为计算结果的总数目。示例性的，假设一共有3个计算结果，这3个计算结果与关键图像特征的相似度分别为0.85，0.9，0.75，则这3个计算结果在加权求和时所使用的权重分别为0.34、0.36、0.3。选用该实施例，可以使得与关键图像特征越接近的计算结果权重越高，进而在加权过程中的影响越大，可以使得加权结果与关键图像特征更加接近。

S507，利用检测子网络计算预估图像特征的预测结果。

S508，基于预测结果与关键视频帧的标定结果之间的误差计算损失，对目标检测神经网络的网络参数进行调整。

该步骤与S104相同，可以参见前述关于S104的描述，在此不再赘述。由于本申请实施例在对目标检测神经网络的网络参数进行调整时，所基于的是预估图像特征的预测结果与关键视频帧的标定结果之间的误差，如果预估图像特征与关键图像特征相差较大，则理论上利用预估图像特征计算得到的预测结果，和利用关键图像特征计算得到的预测结果将存在较大差异，在这种情况下，如果仍然使用该预测结果与针对关键视频帧的标定结果之间的误差计算损失，对目标检测神经网络的网络参数进行调整，可能使得目标检测神经网络的网络参数向理想情况收敛的幅度有限(即训练难以充分收敛)，甚至可能导致网络参数远离理想情况(即训练发散)。而选用图5所示的实施例，可以基于多个计算结果加权求和得到预估图像特征，使得预估图像特征与关键图像特征更加接近，以解决上述技术问题。

参见图6，图6所示为本申请实施例提供的一种目标检测神经网络训练装置，装置包括：

特征迁移模块601，用于利用特征提取子网络对样本视频中参考视频帧进行处理，以基于参考视频帧与关键视频帧之间的变换关系，计算关键视频帧的图像特征，得到预估图像特征，参考视频帧为样本视频中未经过标定的视频帧，样本视频为样本视频中经过标定的视频帧；

特征检测模块602，用于利用检测子网络对预估图像特征进行处理，得到预测结果；

参数调整模块603，用于基于预测结果与关键视频帧的标定结果之间的误差计算损失，对目标检测神经网络的网络参数进行调整。

在一种可选的实施例中，特征迁移模块601，具体用于利用特征提取子网络提取样本视频中参考视频帧的图像特征，作为参考图像特征；

基于参考视频帧与关键视频帧之间的光流，对参考图像特征进行映射，得到参考视频的映射图像特征，作为预估图像特征。

在一种可选的实施例中，特征迁移模块601，具体用于基于参考视频帧与关键视频帧之间的稠密光流，将参考图像特征通过双线性插值进行映射，得到参考视频帧的映射图像特征，作为预估图像特征。

在一种可选的实施例中，特征迁移模块601，具体用于基于样本视频中参考视频帧与关键视频帧之间的变换因子，对特征提取子网络的卷积核进行变形；

利用卷积核经过变形的特征提取子网络提取参考视频帧的图像特征，作为预估图像特征。

在一种可选的实施例中，参考视频帧的数目大于一个；

特征迁移模块601，具体用于针对每个参考视频帧，分别利用特征提取子网络对该参考视频帧进行处理，以基于该参考视频帧与关键视频帧之间的映射关系，计算关键视频帧的图像特征，得到该参考视频帧的计算结果；

在一种可选的实施例中，每个计算结果的归一化权重，与该计算结果和关键图像特征的相似度正相关，关键图像特征为利用特征提取子网络从关键视频帧提取到的图像特征。

在一种可选的实施例中，参考视频帧与关键视频帧之间间隔的帧数小于预设帧数间隔。

本申请实施例还提供了一种电子设备，如图7所示，包括：

存储器701，用于存放计算机程序；

处理器702，用于执行存储器701上所存放的程序时，实现如下步骤：

利用特征提取子网络对样本视频中参考视频帧进行处理，以基于参考视频帧与关键视频帧之间的变换关系，计算关键视频帧的图像特征，得到预估图像特征，参考视频帧为样本视频中未经过标定的视频帧，样本视频为样本视频中经过标定的视频帧；

利用检测子网络对预估图像特征进行处理，得到预测结果；

基于预测结果与关键视频帧的标定结果之间的误差计算损失，对目标检测神经网络的网络参数进行调整。

在一种可选的实施例中，利用特征提取子网络对样本视频中参考视频帧进行处理，以基于参考视频帧与关键视频帧之间的变换关系，计算关键视频帧的图像特征，得到预估图像特征，包括：

利用特征提取子网络提取样本视频中参考视频帧的图像特征，作为参考图像特征；

在一种可选的实施例中，基于参考视频帧与关键视频帧之间的光流，对参考图像特征进行映射，得到参考视频帧的映射图像特征，作为预估图像特征，方法还包括：

基于参考视频帧与关键视频帧之间的稠密光流，将参考图像特征通过双线性插值进行映射，得到参考视频帧的映射图像特征，作为预估图像特征。

基于样本视频中参考视频帧与关键视频帧之间的变换因子，对特征提取子网络的卷积核进行变形；

在一种可选的实施例中，参考视频帧的数目大于一个；

利用特征提取子网络对样本视频中参考视频帧进行处理，以基于参考视频帧与关键视频帧之间的变换关系，计算关键视频帧的图像特征，得到预估图像特征，包括：

针对每个参考视频帧，分别利用特征提取子网络对该参考视频帧进行处理，以基于该参考视频帧与关键视频帧之间的映射关系，计算关键视频帧的图像特征，得到该参考视频帧的计算结果；

在本申请提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一目标检测神经网络训练方法。

在本申请提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一目标检测神经网络训练方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备、计算机可读存储介质、计算机程序产品实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请的较佳实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本申请的保护范围内。

Claims

1.一种目标检测神经网络训练方法，所述目标检测神经网络包括特征提取子网络和检测子网络，其特征在于，所述方法包括：

利用所述特征提取子网络对样本视频中参考视频帧进行处理，以基于所述参考视频帧与关键视频帧之间的变换关系，计算所述参考视频帧的图像特征，得到关键视频帧的预估图像特征，所述参考视频帧为所述样本视频中未经过标定的视频帧，所述关键视频帧为所述样本视频中经过标定的视频帧；所述参考视频帧与所述关键视频帧之间间隔的帧数小于预设帧数间隔；

基于所述预测结果与所述关键视频帧的标定结果之间的误差计算损失，对所述目标检测神经网络的网络参数进行调整；

所述参考视频帧的数目大于一个；

所述利用所述特征提取子网络对样本视频中参考视频帧进行处理，以基于所述参考视频帧与关键视频帧之间的变换关系，计算所述参考视频帧的图像特征，得到关键视频帧的预估图像特征，包括：

针对每个参考视频帧，分别利用所述特征提取子网络对该参考视频帧进行处理，以基于该参考视频帧与关键视频帧之间的映射关系，计算参考视频帧的图像特征，得到该参考视频帧的计算结果；

对所有参考视频帧的计算结果，按照归一化权重进行加权求和，得到加权求和的结果，作为关键视频帧的预估图像特征。

2.根据权利要求1所述的方法，其特征在于，所述利用所述特征提取子网络对样本视频中参考视频帧进行处理，以基于所述参考视频帧与关键视频帧之间的变换关系，计算所述参考视频帧的图像特征，得到关键视频帧的预估图像特征，包括：

基于所述参考视频帧与关键视频帧之间的光流，对所述参考图像特征进行映射，得到所述参考视频帧的映射图像特征，作为关键视频帧的预估图像特征。

3.根据权利要求2所述的方法，其特征在于，所述基于所述参考视频帧与关键视频帧之间的光流，对所述参考图像特征进行映射，得到所述参考视频帧的映射图像特征，作为关键视频帧的预估图像特征，所述方法还包括：

基于所述参考视频帧与关键视频帧之间的稠密光流，将所述参考图像特征通过双线性插值进行映射，得到所述参考视频帧的映射图像特征，作为关键视频帧的预估图像特征。

4.根据权利要求1所述的方法，其特征在于，所述利用所述特征提取子网络对样本视频中参考视频帧进行处理，以基于所述参考视频帧与关键视频帧之间的变换关系，计算所述参考视频帧的图像特征，得到关键视频帧的预估图像特征，包括：

利用卷积核经过变形的所述特征提取子网络提取所述参考视频帧的图像特征，作为关键视频帧的预估图像特征。

5.根据权利要求1所述的方法，其特征在于，每个计算结果的归一化权重，与该计算结果和关键图像特征的相似度正相关，所述关键图像特征为利用所述特征提取子网络从所述关键视频帧提取到的图像特征。

6.一种目标检测神经网络训练装置，所述目标检测神经网络包括特征提取子网络和检测子网络，其特征在于，所述装置包括：

特征迁移模块，用于利用所述特征提取子网络对样本视频中参考视频帧进行处理，以基于所述参考视频帧与关键视频帧之间的变换关系，计算所述参考视频帧的图像特征，得到关键视频帧的预估图像特征，所述参考视频帧为所述样本视频中未经过标定的视频帧，所述关键视频帧为所述样本视频中经过标定的视频帧；所述参考视频帧与所述关键视频帧之间间隔的帧数小于预设帧数间隔；

参数调整模块，用于基于所述预测结果与所述关键视频帧的标定结果之间的误差计算损失，对所述目标检测神经网络的网络参数进行调整；

所述参考视频帧的数目大于一个；

所述特征迁移模块，具体用于针对每个参考视频帧，分别利用所述特征提取子网络对该参考视频帧进行处理，以基于该参考视频帧与关键视频帧之间的映射关系，计算参考视频帧的图像特征，得到该参考视频帧的计算结果；

7.根据权利要求6所述的装置，其特征在于，所述特征迁移模块，具体用于利用所述特征提取子网络提取样本视频中参考视频帧的图像特征，作为参考图像特征；

8.根据权利要求7所述的装置，其特征在于，所述特征迁移模块，具体用于基于所述参考视频帧与关键视频帧之间的稠密光流，将所述参考图像特征通过双线性插值进行映射，得到所述参考视频帧的映射图像特征，作为关键视频帧的预估图像特征。

9.根据权利要求6所述的装置，其特征在于，所述特征迁移模块，具体用于基于样本视频中参考视频帧与关键视频帧之间的变换因子，对所述特征提取子网络的卷积核进行变形；

10.根据权利要求6所述的装置，其特征在于，每个计算结果的归一化权重，与该计算结果和关键图像特征的相似度正相关，所述关键图像特征为利用所述特征提取子网络从所述关键视频帧提取到的图像特征。