CN111160229A

CN111160229A - 基于ssd网络的视频目标检测方法及装置

Info

Publication number: CN111160229A
Application number: CN201911370916.5A
Authority: CN
Inventors: 尉婉青; 禹晶; 柏鳗晏; 肖创柏
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2019-12-26
Filing date: 2019-12-26
Publication date: 2020-05-15
Anticipated expiration: 2039-12-26
Also published as: CN111160229B

Abstract

本发明实施例提供一种基于SSD网络的视频目标检测方法及装置，该方法包括：将待检测视频的当前帧和邻近帧，分别输入至预设的SSD网络模型的低层卷积进行特征提取；通过光流网络获取每一邻近帧和当前帧的光流场；根据每一邻近帧特征提取后的低层特征和当前帧的光流场，获得当前帧的多个光流补偿特征；根据当前帧的低层特征和多个光流补偿特征，进行特征融合，得到当前帧的时间融合特征；将当前帧的时间融合特征输入高层卷积进行特征提取，输出当前帧的检测结果。该方法充分考虑到与当前帧有时间关联的邻近帧以及之间的光流场，从而不受视频中目标、背景的不断变化造成的模糊、光照变化和目标变化等情况影响，能够显著提高视频的目标检测精度。

Description

基于SSD网络的视频目标检测方法及装置

技术领域

本发明涉及图像识别领域，尤其涉及一种基于SSD网络的视频目标检测方法及装置。

背景技术

目标检测是计算机视觉领域中一个基础性的研究课题，相关研究工作一直是计算机视觉的研究热点。目标检测的任务是准确判断目标在图像中的类别和位置，而视频目标检测要求对视频中的每一帧图像的目标都能正确识别和定位，同时保证目标检测的一致性。在目标检测领域，静态图像目标检测已取得了快速的进展。

例如目前的单发多目标检测器(Single Shot MultiBox Detector，SSD)，该方法将候选区域提取和检测融合到一个网络模型中，利用卷积神经网络对图像提取出多个不同尺度的特征，通过检测网络得到最终的检测结果，提高了检测效率。

由于视频中目标、背景的不断变化，会造成模糊、光照变化、目标变化等情况，因此利用SSD网络对视频进行目标检测无法得到较高的准确率。

发明内容

为了解决上述问题，本发明实施例提供一种基于SSD网络的视频目标检测方法及装置。

第一方面，本发明实施例提供一种基于SSD网络的视频目标检测方法，包括：将待检测视频的当前数据帧和邻近帧，分别输入至预设的SSD网络模型的低层卷积，进行特征提取；通过光流网络获取每一邻近帧和当前帧的光流场；根据每一邻近帧特征提取后的低层特征和当前帧的光流场，获得当前帧的多个光流补偿特征；根据当前帧的低层特征和所述多个光流补偿特征，进行特征融合，得到当前帧的时间融合特征；将所述当前帧的时间融合特征，输入高层卷积进行特征提取，输出当前帧的检测结果；其中，所述SSD网络模型根据带有目标类别和坐标位置标签的视频样本进行训练后得到。

进一步地，所述根据当前帧的低层特征，和所述多个光流补偿特征，进行特征融合，包括：计算当前帧的低层特征，分别和所述多个光流补偿特征的余弦相似度，并进行归一化；根据归一化的余弦相似度，对当前帧的低层特征和所述多个光流补偿特征进行加权，得到当前帧的时间融合特征。

进一步地，所述将所述当前帧的时间融合特征，输入高层卷积进行特征提取之后，所述输出当前帧的检测结果之前，还包括：利用高层卷积得到的特征依次进行上采样，得到与每个不同尺度的低层特征相同维度的待融合特征；将每个不同尺度的低层特征与待融合特征进行特征融合后进行检测。

进一步地，将待检测视频的当前数据帧和邻近帧，分别输入至预设的SSD网络模型的低层卷积之前，还包括：获取多个已知目标类别和坐标位置的视频数据的和图片数据，得到第一训练集样本；利用所述第一训练集样本对所述SSD网络模型的多个卷积层进行训练，直至收敛或到达最大迭代次数；获取多个已知目标类别和坐标位置的视频数据，得到第二训练集样本；对于每一第二训练样本，将当前帧和邻近帧，对加入光流网络的SSD网络模型进行训练，直至收敛或到达最大迭代次数。

进一步地，所述根据每一邻近帧特征提取后的低层特征和当前帧的光流场，获得当前帧的多个光流补偿特征，包括：根据每一邻近帧特征提取后的低层特征和当前帧的光流场，通过双线性插值函数，获得当前帧的多个光流补偿特征。

进一步地，所述SSD网络模型为加入ResNet101网络构建得到。

进一步地，所述已知目标类别和坐标位置的视频数据和图片数据分别为，ImageNet VID数据集和ImageNet DET数据集中的数据。

第二方面，本发明实施例提供一种基于SSD网络的视频目标检测装置，包括：输入模块，用于将待检测视频的当前数据帧和邻近帧，分别输入至预设的SSD网络模型的低层卷积，进行特征提取；光流获取模块，用于通过光流网络获取每一邻近帧和当前帧的光流场；特征补偿模块，用于根据每一邻近帧特征提取后的低层特征和当前帧的光流场，获得当前帧的多个光流补偿特征；特征融合模块，用于根据当前帧的低层特征和所述多个光流补偿特征，进行特征融合，得到当前帧的时间融合特征；处理模块，用于将所述当前帧的时间融合特征，输入高层卷积进行特征提取，输出当前帧的检测结果；其中，所述SSD网络模型根据带有目标类别和坐标位置标签的视频样本进行训练后得到。

第三方面，本发明实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现本发明第一方面基于SSD网络的视频目标检测方法的步骤。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现本发明第一方面基于SSD网络的视频目标检测方法的步骤。

本发明实施例提供的基于SSD网络的视频目标检测方法及装置，根据每一邻近帧特征提取后的低层特征和当前帧的光流场，获得当前帧的多个光流补偿特征，充分考虑到与当前帧有时间关联的邻近帧，以及当前帧与邻近帧的光流场。根据当前帧的低层特征和所述多个光流补偿特征，进行特征融合，不会受视频中目标、背景的不断变化造成的模糊、光照变化和目标变化等情况影响，从而能够显著提高视频的目标检测精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于SSD网络的视频目标检测方法流程图；

图2为本发明实施例提供的SSD网络模型示意图；

图3为本发明实施例提供的基于光流估计的SSD网络模型结构图；

图4为本发明实施例提供的基于ResNet101和空间特征融合的SSD网络模型结构图；

图5为本发明另一实施例提供的基于SSD网络的视频目标检测方法流程图；

图6为本发明实施例提供的基于SSD网络的视频目标检测装置结构图；

图7为本发明实施例提供的一种电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的基于SSD网络的视频目标检测方法流程图，如图1所示，本发明实施例提供一种基于SSD网络的视频目标检测方法，包括：

101、将待检测视频的当前数据帧和邻近帧，分别输入至预设的SSD网络模型的低层卷积，进行特征提取。

图2为本发明实施例提供的SSD网络模型示意图，本实施例与目前方法不同的是，本实施例中，输入的是当前帧和多个邻近帧，分别通过SSD网络模型进行特征提取。邻近帧的数量可根据具体需求设置，如前后相邻的总共20帧。高层卷积和低层卷积是相对而言的，输入的数据帧图片经多个卷积层提取特征到输出层，与输入图片相近的为低层卷积，与输出层相近的为高层卷积，提取的特征分别为低层特征和高层特征。也就是说，除了最后一个与输出层最近的卷积层，都可以是低层卷积。

102、通过光流网络获取每一邻近帧和当前帧的光流场。

本发明实施例中，考虑到了邻近帧对当前帧的影响，通过一训练好的光流网络来提取每个邻近帧和当前帧之间的光流场。例如，光流网络是FlowNetS，该网络包括卷积层和反卷积层，利用卷积层提取图像特征，利用反卷积层逐层对特征进行扩展，获取到光流场。

图3为本发明实施例提供的基于光流估计的SSD网络模型结构图，图中加入了下述实施例的ResNet101和空间特征融合，该部分均为优选实施例。其中res_1-4对应低层卷积，res_5-9对应高层卷积。ResNet为当前应用最为广泛的CNN特征提取网络之一，ResNet101是具有101层卷积层的残差网络。

设输入的两帧图像分别为当前帧I_t和邻近帧I_t-k，将两帧图像输入到光流网络

中，输出光流场M_t-k→t

103、根据每一邻近帧特征提取后的低层特征和当前帧的光流场，获得当前帧的多个光流补偿特征。

作为可选实施例，根据每一邻近帧特征提取后的低层特征和当前帧的光流场，获得当前帧的多个光流补偿特征，包括：根据每一邻近帧特征提取后的低层特征和当前帧的光流场，通过双线性插值函数，获得当前帧的多个光流补偿特征，以下以此为例进行说明。

根据计算的光流场，使用低层(例如下述基于ResNet101实施例的res_1-4层的卷积)卷积操作后的邻近帧的特征f_t-k估计出当前帧的特征f_t-k→t：

式中，

表示双线性插值函数，由于光流场的数值可能存在小数，因此使用双线性插值算法计算每个位置的特征值。

可选的，还可包括将估计出的特征输入到嵌入卷积神经网络ε中，提取嵌入特征f^e＝ε(f)，该网络可包括三层卷积层，卷积核大小都是1×1。

104、根据当前帧的低层特征和所述多个光流补偿特征，进行特征融合，得到当前帧的时间融合特征。

将当前帧经低层卷积层提取的特征，和根据上述光流场得到的多个光流补偿特征f_t-k→t进行特征融合，得到当前帧的时间融合特征。该时间融合特征包含了当前帧与邻近帧时间关系的特征。

105、将所述当前帧的时间融合特征，输入高层卷积进行特征提取，输出当前帧的检测结果。

将融合后的时间融合特征，输入高层卷积进行特征提取，然后进行检测。例如，SSD模型中，将提取得到每一层的特征，包括当前帧的低层特征、时间融合后的时间融合特征，以及时间融合特征经每个高层卷积层提取的高层特征，通过非极大值抑制的方法输出结果。需要说明的是，该SSD网络模型，是根据带有目标类别和坐标位置标签的视频样本进行训练后得到的。也就是说，根据大量样本训练后，该模型才能实现准确的目标检测。训练过程和上述步骤的特征提取是对应的，训练样本也分为当前数据帧和邻近帧。

本实施例提供的基于SSD网络的视频目标检测方法，根据每一邻近帧特征提取后的低层特征和当前帧的光流场，获得当前帧的多个光流补偿特征，充分考虑到与当前帧有时间关联的邻近帧，以及当前帧与邻近帧的光流场。根据当前帧的低层特征和所述多个光流补偿特征，进行特征融合，不会受视频中目标、背景的不断变化造成的模糊、光照变化和目标变化等情况影响，从而能够显著提高视频的目标检测精度。

基于上述实施例的内容，作为一种可选实施例，根据当前帧的低层特征和所述多个光流补偿特征，进行特征融合，包括：计算当前帧的低层特征，分别和所述多个光流补偿特征的余弦相似度，并进行归一化；根据归一化的余弦相似度，对当前帧的低层特征和所述多个光流补偿特征进行加权，得到当前帧的时间融合特征。

具体的时间特征融合，可以是通过邻近帧和当前帧的余弦相似度计算自适应权重并进行归一化处理，以嵌入特征为例，即在嵌入特征的每个位置p上使用余弦相似度计算权重：

由于需要融合多帧图像的特征，因此对权重进行归一化处理，例如：

利用归一化后的自适应权重对特征进行加权特征融合，得到最终的特征

在特征

的基础上继续进行卷积操作，获取高层特征，进行检测。

本实施例提供的基于SSD网络的视频目标检测方法，根据归一化的余弦相似度，对当前帧的低层特征和所述多个光流补偿特征进行加权，能够准确刻画多个光流补偿特征对当前帧的影响程度，有利于提高当前帧时间融合特征的准确度。

基于上述实施例的内容，作为一种可选实施例，将所述当前帧的时间融合特征，输入高层卷积进行特征提取之后，所述输出当前帧的检测结果之前，还包括：利用高层卷积得到的特征依次进行上采样，得到与每个不同尺度的低层特征相同维度的待融合特征；将每个不同尺度的低层特征与待融合特征进行特征融合后进行检测。

作为可选实施例，SSD网络模型为加入ResNet101网络构建得到，以下以此为例进行说明。目前的SSD网络模型利用VGG16提取多个不同尺度的特征，如图2所示。本发明在SSD模型的基础上使用ResNet101网络层。ResNet101网络层的准确率，高于使用VGG16的网络模型，使得深层卷积神经网络能够提取到更加准确的特征图，后续会对效果进行说明。

具体地，以包括ResNet101网络的模型为例进行说明，图4为本发明实施例提供的基于ResNet101和空间特征融合的SSD网络模型结构图，如图4所示，参数如下：第一组是一层卷积层，卷积核大小为7×7，滑动步长为2，第二组、第三组、第四组和第五组分别由3个、4个、23个和3个残差结构构成，残差结构由三个卷积层组成，这三个卷积层的卷积核大小分别为1×1、3×3和1×1。除此之外，在ResNet101的后面增加四组卷积层，每组卷积层包括一个卷积核为1×1、滑动步长为1的卷积层和一个卷积核为3×3、滑动步长为2的卷积层。将待检测的图像帧输入到上述网络模型提取到7个不同尺度的特征，分别是res3、res4、res5、res6、res7、res8和res9。

在提取出不同尺度的特征之后，由于高层特征具有丰富的语义信息，低层特征具有精确的位置信息，因此逐层将高层特征融合到低层特征中，提高低层特征的检测能力。本发明实施例以根据最后一个高层特征进行融合为例进行说明。对于高层特征，由于其尺寸小于低层特征，使用上采样操作将其扩展到与低层特征同样的尺寸；对于低层特征，通过1×1的卷积操作，使低层特征在通道维度上与高层特征一致，从而能够与高层特征融合。最后将上采样和1×1的卷积获取到的两个特征进行相加得到P0、P1、P2、P3、P4、P5、P6，相对应的尺度为64×64、32×32、16×16、8×8、4×4、2×2、1×1。

可利用FPN(Feature pyramid network)进行空间特征融合，通过高低层特征融合丰富低层特征的语义信息，提高低层特征对于小目标的检测能力。融合后的所有特征，共同作为检测特征进行检测，如图4所示的非极大值抑制算法进行检测。

本实施例提供的基于SSD网络的视频目标检测方法，将每个不同尺度的低层特征与待融合特征进行特征融合后，结合高层特征进行检测，空间特征融合后能够丰富低层特征的语义信息，提高低层特征的检测能力，进一步提高目标检测精度。

基于上述实施例的内容，作为一种可选实施例，待检测视频的当前数据帧和邻近帧，分别输入至预设的SSD网络模型的低层卷积之前，还包括：获取多个已知目标类别和坐标位置的视频数据和图片数据，得到第一训练集样本；利用所述第一训练集样本对所述SSD网络模型的多个卷积层进行训练，直至收敛或到达最大迭代次数；获取多个已知目标类别和坐标位置的视频数据，得到第二训练集样本；对于每一第二训练样本，将当前帧和邻近帧，对加入光流网络的SSD网络模型进行训练，直至收敛或到达最大迭代次数。

作为可选实施例，所述已知目标类别和坐标位置的视频数据和图片数据分别为，ImageNet VID数据集和ImageNet DET数据集中的数据。

深度模型需要大量的数据集进行训练，本发明利用ImageNet VID数据集和ImageNet DET数据集中的数据的训练集共同训练上述构建的SSD网络模型。ImageNet VID是一个视频目标检测数据集，训练集有3862个视频片段，验证集有555个视频片段，每个视频片段的帧率是每秒25或30帧，视频中的每一帧图像都有标注，整个数据集标注了30个目标类别；ImageNet DET是一个图像目标检测数据集，包含数万幅图像和200个类别，而ImageNet VID中的类别是ImageNet DET的类别的子集，因此在训练时使用ImageNet DET中与ImageNet VID的类别相对应的图像。由于训练集的图像尺寸不统一，通过双线性插值算法将图像扩展为512×512的尺寸，使其符合网络模型的输入，将所有训练数据集输入到只包括卷积层的SSD网络模型(即不包括光流网络)，提取到多个不同尺度的特征，最后通过检测网络检测出目标框的类别置信度和坐标位置。

在检测网络中，每个特征对应不同尺寸和不同宽高比的先验框，使用具有精确位置信息的低层特征检测小目标，即对应尺寸较小的先验框；使用具有丰富语义信息的高层特征检测大目标，即对应尺寸较大的先验框。

先验框尺寸的计算公式为：

式中，m表示特征图的层数，s_min和s_max分别表示先验框的最小和最大尺寸，即所选择的先验框的范围，s_k是第k层特征所对应的先验框的尺寸。先验框的引入使网络模型能够检测出各种不同比例和尺寸的目标框，提高检测准确率。

网络的输出包括目标框的类别置信度和位置偏移量，使用损失函数L({p_i}，{l_i})度量网络输出误差，表示为：

其中，L_conf(·)和L_loc(·)分别表示分类损失函数和定位损失函数；N表示正样本的数量；α用来衡量分类损失和定位损失的超参数，如果对定位准确性有更高的要求，则选取较大的α值，否则，选取较小的α值。

上式中，分类损失定义为：

式中，i表示目标框的索引，p_i表示第i个目标框softmax归一化的类别置信度，

表示第i个目标框的真实类别。利用对数损失函数计算网络输出误差，当检测出的目标框类别与真实类别一致时，

在这种情况下目标框的类别置信度越高，网络输出误差越小；当检测出的目标框类别与真实类别不一致时，

对网络输出误差的贡献为零。

位置偏移量是目标框的坐标位置相对于先验框的差值，定位损失定义为：

式中，i表示目标框的索引，N表示正样本的数量；l_i表示第i个目标框相对于先验框的位置偏移量，具体地，

表示中心坐标的偏移量，

和

分别表示宽和高的偏移量；

表示第i个目标框对应的真实目标框相对于先验框的位置偏移量，

其中，上标d表示先验框。基于目标框的位置偏移量和真实目标框的位置偏移量，利用

函数计算网络输出误差，定义为：

其中，当|x|＜1时，采用二次函数惩罚网络输出误差；当|x|≥1时，采用线性函数惩罚网络输出误差。

函数结合l₁范数的鲁棒性和l₂范数的稳定性的优点，减少异常点对网络模型训练的影响。其中，定位损失只计算正样本的网络输出误差，同时，先验框的引入使网络输出在先验框的基础上进一步细化目标框的坐标位置，对先验框进行边框回归。

最后利用随机梯度下降算法训练网络模型，训练过程中一次批处理选取M₁幅图像进行训练，由于显存的限制，本发明中M₁取值为16，理论上一次批处理选取的图像越多，检测准确率越高。当网络迭代到5个epoch时，即使用训练数据集训练5次之后，模型的训练终止，保存网络模型的参数。

第二阶段的模型训练利用视频数据集ImageNet VID的训练集进行训练，由于训练集的图像尺寸不统一，在输入到模型之前，将图像的尺寸通过双线性插值算法扩展为512×512，使其符合网络模型的输入。将所有训练数据集输入到带有光流网络的整体网络模型中，对于每一帧图像，从包含自身和其邻近帧的21帧图像中随机选取两帧图像用于模型训练，输出检测的目标的类别置信度和位置偏移量，使用损失函数：

度量网络输出误差，利用随机梯度下降算法训练整体网络模型，训练过程中一次批处理选取M₂幅图像进行训练，由于显存的限制，本发明中M₂取值为8。当网络迭代到2个epoch时，即使用训练数据集训练2次之后，模型的训练终止，保存网络模型的参数。

基于上述各实施例，图5为本发明另一实施例提供的基于SSD网络的视频目标检测方法流程图，详情参见图5和上述各实施例。在本发明的方法中，深层卷积神经网络的作用是提取更加准确的特征；FPN特征融合的作用是融合高低层特征，提高低层特征的检测能力；而光流网络FlowNetS用来估计两帧图像之间的光流场，通过时间特征融合来补偿当前帧的特征。为了验证联合使用这三种方法对检测准确率的提升，本发明实施例在ImageNetVID数据集上分别针对VGG16、ResNet101、ResNet101+FPN、ResNet101+FPN+FlowNetS四种网络模型进行了实验。表1列出了在mAP、mAP(慢)、mAP(中)和mAP(快)上不同网络模型对应的检测准确率，其中，mAP表示所有类别的平均准确率(Average precision，AP)的均值，mAP(慢)表示在慢速目标上的mAP值，mAP(中)表示在中速目标上的mAP值，mAP(快)表示在快速目标上的mAP值。观察表1可以看出，使用ResNet101网络模型的方法的mAP值明显高于使用VGG16网络模型的方法，表明应用深层卷积神经网络能够提取到更加准确的特征图；从第四行可以看出，FPN特征融合的引入可以提高mAP值，表明空间特征融合能够丰富低层特征的语义信息，提高低层特征的检测能力；最后通过比较第四行和第五行可以看出，在结合光流网络之后，通过融合多帧图像信息可以弥补当前帧的特征，表明时间特征融合能够进一步提高mAP值。

表1

在ImageNet VID验证集上，TCN、TPN+LSTM方法与本发明的mAP值以及在每一类目标上的AP值，包括飞机、羚羊、熊等30个类别。经验证得出，本发明在mAP值上高于TCN和TPN+LSTM方法，并且在飞机、羚羊、熊等多个类别的AP值上也高于TCN和TPN+LSTM方法。

图6为本发明实施例提供的基于SSD网络的视频目标检测装置结构图，如图6所示，该基于SSD网络的视频目标检测装置包括：输入模块601、光流获取模块602、特征补偿模块603、特征融合模块604和处理模块605。其中，输入模块601用于将待检测视频的当前数据帧和邻近帧，分别输入至预设的SSD网络模型的低层卷积，进行特征提取；光流获取模块602用于通过光流网络获取每一邻近帧和当前帧的光流场；特征补偿模块603用于根据每一邻近帧特征提取后的低层特征和当前帧的光流场，获得当前帧的多个光流补偿特征；特征融合模块604用于根据当前帧的低层特征和所述多个光流补偿特征，进行特征融合，得到当前帧的时间融合特征；处理模块605用于将所述当前帧的时间融合特征，输入高层卷积进行特征提取，输出当前帧的检测结果；其中，所述SSD网络模型根据带有目标类别和坐标位置标签的视频样本进行训练后得到。

本发明实施例提供的装置实施例是为了实现上述各方法实施例的，具体流程和详细内容请参照上述方法实施例，此处不再赘述。

本发明实施例提供的基于SSD网络的视频目标检测装置，根据每一邻近帧特征提取后的低层特征和当前帧的光流场，获得当前帧的多个光流补偿特征，充分考虑到与当前帧有时间关联的邻近帧，以及当前帧与邻近帧的光流场。根据当前帧的低层特征和所述多个光流补偿特征，进行特征融合，不会受视频中目标、背景的不断变化造成的模糊、光照变化和目标变化等情况影响，从而能够显著提高视频的目标检测精度。

图7为本发明实施例提供的一种电子设备的实体结构示意图，如图7所示，该电子设备可以包括：处理器(processor)701、通信接口(Communications Interface)702、存储器(memory)703和总线704，其中，处理器701，通信接口702，存储器703通过总线704完成相互间的通信。通信接口702可以用于电子设备的信息传输。处理器701可以调用存储器703中的逻辑指令，以执行包括如下的方法：将待检测视频的当前数据帧和邻近帧，分别输入至预设的SSD网络模型的低层卷积，进行特征提取；通过光流网络获取每一邻近帧和当前帧的光流场；根据每一邻近帧特征提取后的低层特征和当前帧的光流场，获得当前帧的多个光流补偿特征；根据当前帧的低层特征和所述多个光流补偿特征，进行特征融合，得到当前帧的时间融合特征；将所述当前帧的时间融合特征，输入高层卷积进行特征提取，输出当前帧的检测结果；其中，所述SSD网络模型根据带有目标类别和坐标位置标签的视频样本进行训练后得到。

此外，上述的存储器703中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明上述各方法实施例的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的传输方法，例如包括：将待检测视频的当前数据帧和邻近帧，分别输入至预设的SSD网络模型的低层卷积，进行特征提取；通过光流网络获取每一邻近帧和当前帧的光流场；根据每一邻近帧特征提取后的低层特征和当前帧的光流场，获得当前帧的多个光流补偿特征；根据当前帧的低层特征和所述多个光流补偿特征，进行特征融合，得到当前帧的时间融合特征；将所述当前帧的时间融合特征，输入高层卷积进行特征提取，输出当前帧的检测结果；其中，所述SSD网络模型根据带有目标类别和坐标位置标签的视频样本进行训练后得到。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于SSD网络的视频目标检测方法，其特征在于，包括：

将待检测视频的当前数据帧和邻近帧，分别输入至预设的SSD网络模型的低层卷积，进行特征提取；

通过光流网络获取每一邻近帧和当前帧的光流场；

根据每一邻近帧特征提取后的低层特征和当前帧的光流场，获得当前帧的多个光流补偿特征；

根据当前帧的低层特征和所述多个光流补偿特征，进行特征融合，得到当前帧的时间融合特征；

将所述当前帧的时间融合特征，输入高层卷积进行特征提取，输出当前帧的检测结果；

其中，所述SSD网络模型根据带有目标类别和坐标位置标签的视频样本进行训练后得到。

2.根据权利要求1所述的基于SSD网络的视频目标检测方法，其特征在于，所述根据当前帧的低层特征和所述多个光流补偿特征，进行特征融合，包括：

计算当前帧的低层特征，分别和所述多个光流补偿特征的余弦相似度，并进行归一化；

根据归一化的余弦相似度，对当前帧的低层特征和所述多个光流补偿特征进行加权，得到当前帧的时间融合特征。

3.根据权利要求1所述的基于SSD网络的视频目标检测方法，其特征在于，所述将所述当前帧的时间融合特征，输入高层卷积进行特征提取之后，所述输出当前帧的检测结果之前，还包括：

利用高层卷积得到的特征依次进行上采样，得到与每个不同尺度的低层特征相同维度的待融合特征；

将每个不同尺度的低层特征与待融合特征进行特征融合后进行检测。

4.根据权利要求1所述的基于SSD网络的视频目标检测方法，其特征在于，将待检测视频的当前数据帧和邻近帧，分别输入至预设的SSD网络模型的低层卷积之前，还包括：

获取多个已知目标类别和坐标位置的视频数据和图片数据，得到第一训练集样本；

利用所述第一训练集样本对所述SSD网络模型的多个卷积层进行训练，直至收敛或到达最大迭代次数；

获取多个已知目标类别和坐标位置的视频数据，得到第二训练集样本；

对于每一第二训练样本，将当前帧和邻近帧，对加入光流网络的SSD网络模型进行训练，直至收敛或到达最大迭代次数。

5.根据权利要求1所述的基于SSD网络的视频目标检测方法，其特征在于，所述根据每一邻近帧特征提取后的低层特征和当前帧的光流场，获得当前帧的多个光流补偿特征，包括：

根据每一邻近帧特征提取后的低层特征和当前帧的光流场，通过双线性插值函数，获得当前帧的多个光流补偿特征。

6.根据权利要求1所述的基于SSD网络的视频目标检测方法，其特征在于，所述SSD网络模型为加入ResNet101网络构建得到。

7.根据权利要求4所述的基于SSD网络的视频目标检测方法，其特征在于，所述已知目标类别和坐标位置的视频数据和图片数据分别为，ImageNet VID数据集和ImageNet DET数据集中的数据。

8.一种基于SSD网络的视频目标检测装置，其特征在于，包括：

输入模块，用于将待检测视频的当前数据帧和邻近帧，分别输入至预设的SSD网络模型的低层卷积，进行特征提取；

光流获取模块，用于通过光流网络获取每一邻近帧和当前帧的光流场；

特征补偿模块，用于根据每一邻近帧特征提取后的低层特征和当前帧的光流场，获得当前帧的多个光流补偿特征；

特征融合模块，用于根据当前帧的低层特征和所述多个光流补偿特征，进行特征融合，得到当前帧的时间融合特征；

处理模块，用于将所述当前帧的时间融合特征，输入高层卷积进行特征提取，输出当前帧的检测结果；

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述基于SSD网络的视频目标检测方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至7任一项所述基于SSD网络的视频目标检测方法的步骤。