CN111383245B

CN111383245B - 视频检测方法、视频检测装置和电子设备

Info

Publication number: CN111383245B
Application number: CN201811634571.5A
Authority: CN
Inventors: 蒋正锴; 张骞; 王国利; 黄畅
Original assignee: Beijing Horizon Robotics Technology Research and Development Co Ltd
Current assignee: Beijing Horizon Robotics Technology Research and Development Co Ltd
Priority date: 2018-12-29
Filing date: 2018-12-29
Publication date: 2023-09-22
Anticipated expiration: 2038-12-29
Also published as: CN111383245A

Abstract

公开了一种视频检测方法、视频检测装置和电子设备。该视频检测方法包括：确定当前帧图像的类型；基于所述类型，通过神经网络确定当前帧图像用于参与融合的第一特征图；确定所述当前帧图像之前的所述类型为设定类型的先前帧图像的第二特征图；融合所述第一特征图和所述第二特征图，得到第三特征图；以及，基于所述第三特征图，识别所述当前帧图像中的物体所属的类别。这样，可以减小用于特征传播的模型大小并提高检测速度。

Description

视频检测方法、视频检测装置和电子设备

技术领域

本申请涉及视频处理领域，且更为具体地，涉及一种视频检测方法、视频检测装置和电子设备。

背景技术

基于图像的目标检测任务在过去几年深度学习的发展背景下取得了巨大的进展，检测性能得到明显提升。在视频监控、车辆辅助驾驶等领域，基于视频的目标检测有着更为广泛的需求。但是，由于视频中存在运动模糊，遮挡，形态变化多样性，光照变化多样性等问题，仅利用基于图像的目标检测技术检测视频中的目标并不能得到很好的检测结果。

因此，需要改进的视频检测方案。

发明内容

为了解决上述技术问题，提出了本申请。本申请的实施例提供了一种视频检测方法、视频检测装置和电子设备，其通过融合当前帧图像与之前的设定类型的先前帧图像的特征图来识别当前帧图像中的物体所属的类别，以实现图像帧之间的特征传播，从而减小了用于特征传播的模型大小并提高了检测物体的速度。

根据本申请的一个方面，提供了一种视频检测方法，包括：确定当前帧图像的类型；基于所述类型，通过神经网络确定当前帧图像用于参与融合的第一特征图；确定所述当前帧图像之前的所述类型为设定类型的先前帧图像的第二特征图；融合所述第一特征图和所述第二特征图，得到第三特征图；以及，基于所述第三特征图，识别所述当前帧图像中的物体所属的类别。

根据本申请的另一方面，提供了一种视频检测装置，包括：图像类型确定单元，用于确定当前帧图像的类型；第一特征图确定单元，用于基于所述图像类型确定单元所确定的类型，通过神经网络确定当前帧图像用于参与融合的第一特征图；第二特征图确定单元，用于确定所述当前帧图像之前的所述类型为设定类型的先前帧图像的第二特征图；特征图融合单元，用于融合所述第一特征图确定单元所确定的第一特征图和所述第二特征图确定单元所确定的第二特征图，得到第三特征图；以及物体类别识别单元，用于基于所述特征图融合单元所获得的第三特征图，识别所述当前帧图像中的物体所属的类别。

根据本申请的再一方面，提供了一种电子设备，包括：处理器；以及，存储器，在所述存储器中存储有计算机程序指令，所述计算机程序指令在被所述处理器运行时使得所述处理器执行如上所述的视频检测方法。

根据本申请的又一方面，提供了一种计算机可读介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行如上所述的视频检测方法。

与现有技术相比，根据本申请的视频检测方法、视频检测装置和电子设备可以确定当前帧图像的类型；基于所述类型，通过神经网络确定当前帧图像用于参与融合的第一特征图；确定所述当前帧图像之前的所述类型为设定类型的先前帧图像的第二特征图；融合所述第一特征图和所述第二特征图，得到第三特征图；以及，基于所述第三特征图，识别所述当前帧图像中的物体所属的类别。

这样，根据本申请的视频检测方法、视频检测装置和电子设备通过融合当前帧图像的第一特征图以及当前帧图像之前的类型为设定类型的先前帧图像的第二特征图来实现先前帧图像到当前帧图像的特征传播，不需要使用需要大量标记的特征传播模型，从而减小了用于特征传播的模型大小，并节省了用于模型的硬件存储空间。

并且，根据本申请的视频检测方法、视频检测装置和电子设备通过先前帧图像到当前帧图像的特征传播，可以获得良好的检测效果，并且由于通过特征图融合的方式进行特征传播，可以提高检测物体的速度，从而快速并准确地检测视频中的物体。

附图说明

通过结合附图对本申请实施例进行更详细的描述，本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解，并且构成说明书的一部分，与本申请实施例一起用于解释本申请，并不构成对本申请的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1图示了根据本申请实施例的视频检测方法的流程图。

图2图示了当前帧图像为关键帧的情况下的视频检测过程的示意图。

图3图示了根据本申请实施例的与关键帧对应的特征图融合过程的示意性流程图。

图4图示了针对关键帧通过权重预测网络获得权重和偏移的过程的示意性流程图。

图5图示了针对关键帧通过权重和偏移融合特征图的过程的示意性流程图。

图6图示了当前帧图像为非关键帧的情况下的视频检测过程的示意图。

图7图示了根据本申请实施例的与非关键帧对应的特征图融合过程的示意性流程图。

图8图示了针对非关键帧通过权重和偏移融合特征图的过程的示意性流程图。

图9图示了根据本申请实施例的视频预测装置的框图。

图10图示了根据本申请实施例的视频预测装置的特征图融合单元的第一示例的框图。

图11图示了根据本申请实施例的第一示例的特征图融合单元的权重预测网络子单元的框图。

图12图示了根据本申请实施例的第一示例的特征图融合单元的权重偏移计算子单元的框图。

图13图示了根据本申请实施例的视频预测装置的特征图融合单元的第二示例的框图。

图14图示了根据本申请实施例的电子设备的框图。

具体实施方式

下面，将参考附图详细地描述根据本申请的示例实施例。显然，所描述的实施例仅仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解，本申请不受这里描述的示例实施例的限制。

申请概述

如上所述，在视频检测方法中，需要从视频帧中检测目标物体，由于视频流通常具有连续性，因此，如何利用视频中目标物体的时序信息和上下文等信息成为提升视频目标检测性能的关键。

现有的技术方案主要包括：利用视频连续性信息将视频的检测转化为小管(tubelet)；利用光流信息来对关键帧的特征进行传播，从而起到加速的效果。

此外，为了利用视频的时序信息，往往还需要在关键帧之间进行信息的传递。但是，转化为小管的方法通常只能离线来做，而且效果不好，无法应用于实际的场景。而仅通过光流在关键帧到非关键帧进行特征传播虽然检测速度提升明显，但往往效果不好。

基于上述技术问题，本申请的基本构思是通过融合当前帧图像的第一特征图以及当前帧图像之前的类型为设定类型的先前帧图像的第二特征图为第三特征图，并基于第三特征图来识别物体。

具体地，本申请提供的视频检测方法、视频检测装置和电子设备首先确定当前帧图像的类型，再基于所述类型，通过神经网络确定当前帧图像用于参与融合的第一特征图，然后确定所述当前帧图像之前的所述类型为设定类型的先前帧图像的第二特征图，接下来，融合所述第一特征图和所述第二特征图，得到第三特征图，最后基于所述第三特征图，识别所述当前帧图像中的物体所属的类别。

这样，通过融合当前帧图像的第一特征图以及当前帧图像之前的类型为设定类型的先前帧图像的第二特征图，可以实现先前帧图像到当前帧图像的特征传播，而不需要使用需要大量标记的特征传播模型，从而减小了用于特征传播的模型大小，并节省了用于模型的硬件存储空间。

并且，通过在先前帧图像和当前帧图像之间进行特征传播，可以获得良好的检测效果，并且由于通过特征图融合的方式进行特征传播，可以提高检测物体的速度，从而快速并准确地检测视频中的物体。

在介绍了本申请的基本原理之后，下面将参考附图来具体介绍本申请的各种非限制性实施例。

示例性方法

图1图示了根据本申请实施例的视频检测方法的流程图。

如图1所示，根据本申请实施例的视频检测方法包括如下步骤。

在步骤S110中，确定当前帧图像的类型。这里，所述当前帧图像的类型可以是视频中的关键帧，也可以是视频中的非关键帧。其中，所述关键帧是按照预设条件确定的帧。具体地，预设条件是每隔预设帧数确定一帧图像为关键帧，例如每隔5帧的一帧为关键帧，每隔10帧的一帧为关键帧。或者，预设条件为当检测到帧图像中存在预设物体来确定关键帧。

在下文中，将针对当前帧图像的类型为关键帧和非关键帧的情况分别进行详细说明。

在步骤S120中，基于所述类型，通过神经网络确定当前帧图像用于参与融合的第一特征图。如上所述，所述当前帧图像的类型可以是关键帧或者非关键帧。在当前帧图像是关键帧的情况下，表示当前帧图像的特征比较重要，因此期望通过神经网络提取所述当前帧图像的高阶特征，或者也称为深层特征。这里，所述当前帧图像的高阶特征或者深层特征是指在通过神经网络提取特征的情况下，经过较多层数提取出的特征，例如，在50层神经网络中经过30层或者40层后提取出的特征。而相对应地，在当前帧图像是非关键帧的情况下，通过神经网络提取所述当前帧图像的低阶特征，或者也称为浅层特征，即通过神经网络提取特征的情况下，经过较少层数提取出的特征，例如，在50层神经网络中经过10层或者20层后提取出的特征。又例如，以resnet101为例，则res4b-3的结果为浅层特征，而res5的结果为深层特征。

在步骤S130中，确定所述当前帧图像之前的所述类型为设定类型的先前帧图像的第二特征图。也就是说，为了进行先前帧到当前帧之间的特征传播，确定所述当前帧图像之前的设定类型的先前帧图像。这里，所述设定类型的先前帧图像可以是上面所述的关键帧图像，也可以是其它具有比较重要的特征的图像。例如，在每隔5帧设置关键帧图像的情况下，可以设置所述当前帧图像之前10帧的先前帧图像为用于特征传播的图像，以使得传播的特征差异更显著。

值得注意的是，所述类型为设定类型的先前帧图像的第二特征图也是通过融合所述先前帧图像之前的帧图像，例如，通过上一关键帧之前的再上一关键帧的特征图与本帧的特征图的方式实现的。针对整个视频的第一帧，可以将其设置为关键帧，并提取其深层特征来作为第二特征图。

在步骤S140中，融合所述第一特征图和所述第二特征图，得到第三特征图。这里，所述第三特征图是当前帧图像的用于进行视频检测，即物体识别的特征图，例如，可以将其称为任务特征图。并且，取决于所述当前帧图像是关键帧还是非关键帧，所述第一特征图与所述第二特征图的融合方式也不相同，这将在下文中进一步具体说明。

在步骤S150中，基于所述第三特征图，识别所述当前帧图像中的物体所属的类别。例如，在自动驾驶场景下，可以识别出所述物体是行人、车辆等。又例如，在物体分类的场景下，可以识别出所述物体是某种特定的静止物体或者运动物体，例如沙发、桌子、狗、猫等。

本实施例中，通过融合当前帧图像的第一特征图以及先前帧图像的第二特征图，可以将先前帧图像中的特征图融合到当前帧图像中，从而实现了特征在不同帧图像中的传播；在当前帧图像的物体识别过程中，通过利用视频中当前帧图像以及先前帧图像的时序信息，确保先前帧图像对当前帧图像的特征的影响，进而提高物体所属的类别的识别精度。

在根据本申请实施例的视频检测方法中，当前帧图像的类型可包含当前帧图像为关键帧和非关键帧这两种情况。下面，将针对每一种情况进行具体说明。

如上所述，在所述当前帧图像为关键帧，即按照预设条件确定的帧图像的情况下，通过神经网络得到关键帧的深层特征。并将当前帧图像的深层特征与上一关键帧图像的用于识别物体的特征图，即任务特征图进行融合，以得到当前帧图像的任务特征图，并通过将当前帧图像的任务特征图输入检测器，来识别出当前帧图像中的物体类别。

如图2所示，如果所述当前帧图像为关键帧，即如图2所示的k1，则通过神经网络的深层，即如图2所示的Net_H提取当前帧图像的深层特征以获得第一特征图，即，如图2所示的这里，所述神经网络的深层指的是用于获得所述深层特征的神经网络部分，例如，以resnet101为例，res5可以定义为深层。

也就是，在根据本申请实施例的视频检测方法中，基于所述类型，通过神经网络确定当前帧图像用于参与融合的第一特征图，包括：若所述当前帧图像的类型为关键帧图像，通过神经网络的第一数目的卷积层获得所述当前帧图像用于参与融合的第一特征图，所述第一数目大于或等于预定阈值。

这样，通过在关键帧图像的情况下获得深层特征作为第一特征图，可以充分利用关键帧图像中的特征进行物体识别，从而提高了视频检测的精度。

进一步如图2所示，假设所述当前帧图像之前的所述类型为设定类型的先前帧图像为关键帧k0，则通过神经网络的深层，即如图2所示的Net_H提取k0的深层特征以获得第二特征图，即，如图2所示的

值得注意的是，在本申请实施例中，如果所述先前帧图像为所述视频的第一关键帧，例如，所述视频的首帧，则直接获得通过神经网络的深层提取出的深层特征作为第二特征图。相对地，如果所述先前帧图像为已经进行了特征传播的关键帧，则其第二特征图为按照下面所述的方式基于再前一关键帧进行了特征传播后得到的融合的特征图。

在一实施例中，融合所述第一特征图和所述第二特征图，得到第三特征图的过程如图3所示。图3图示了根据本申请实施例的与关键帧对应的特征图融合过程的示意性流程图。

如图3所示，在如图1所示的实施例的基础上，所述步骤S140可包括如下步骤。

在步骤S210中，通过神经网络的第二数目的卷积层获得所述当前帧图像的第二数目的第四特征图，所述第二数目小于所述预定阈值。也就是说，通过神经网络的浅层，即如图2所示的Net_L获得所述当前帧图像的浅层特征作为第四特征图，即图2中的这里，所述神经网络的浅层指的是用于获得所述浅层特征的神经网络部分，例如，以resnet101为例，res4b-3可以定义为浅层。

在步骤S220中，通过所述神经网络的所述第二数目的卷积层获得所述先前帧图像的第五特征图。也就是，通过神经网络的浅层，即如图2所示的Net_L获得所述先前帧图像的浅层特征作为第五特征图，即图2中的

在步骤S230中，通过权重预测网络，即图2中的W₀从所述第四特征图和所述第五特征图获得第一权重和第一偏移。这里，虽然在图2中没有示出，但是本领域技术人员可以理解，所述第一权重和第一偏移为所述权重预测网络W₀的输出。图4图示了针对关键帧通过权重预测网络获得权重和偏移的过程的示意性流程图。

如图4所示，在如图3所示的实施例的基础上，所述步骤S230可包括如下步骤。

在步骤S231中，将所述第四特征图，即如图2所示的和所述第五特征图，即如图2所示的/>通过所述权重预测网络中的级联部分进行级联，例如沿预定轴进行级联以获得级联特征。

在步骤S232中，以所述权重预测网络中的第一卷积核，例如3×3卷积核将所述级联特征减小到第一特定通道，例如256通道以获得减小特征。

在步骤S233中，以所述权重预测网络中的划分部分将所述减小特征划分为多个减小的浅层特征，例如，沿与上述级联相同的方向，即所述预定轴的方向进行划分。这里，所述浅层特征是例如resnet101深度神经网络的res4b-3的结果。

在步骤S234中，以所述权重预测网络中的关联部分对所述多个减小的浅层特征进行关联以获得关联特征。

在步骤S235中，以所述权重预测网络中的具有所述第一特定通道数，即256通道数的第二卷积核，例如也为3×3卷积核和逻辑递归操作，例如Softmax逻辑递归操作之后的第二通道，例如k×k通道获得所述第一权重。

在步骤S236中，以所述权重预测网络中的具有第三通道，例如2×k×k通道的第三卷积核，例如1×1卷积核获得所述第一偏移。

也就是，通过权重预测网络提取两帧的浅层特征，并通过特征相关操作来获得两者的差异，再通过这个差异来预测得到特征图上每一个位置的相应的核的权重以及偏移量。这样，可以生成空间变化的权重和偏移，从而有效地融合特征图，提升了视频检测的精度。

返回参考图3，在步骤S240中，基于所述第一权重和第一偏移从所述第二特征图，即图2中的获得第六特征图，即图2中的/>图5图示了针对关键帧通过权重和偏移融合特征图的过程的示意性流程图。

如图5所示，在如图3所示的实施例的基础上，所述步骤S240可包括如下步骤。

在步骤S241中，针对所述第六特征图中的每个待计算位置，计算在所述待计算位置的局部邻域核权重大小和所述待计算位置周围的局部邻域指数。也就是，假设{i,j}为所述第六特征图中的每个待计算位置，则计算其局部邻域核权重大小{2h+1,2w+1}，和其周围的局部邻域指数{u,v}。

在步骤S242中，以所述局部邻域指数指定的位置处的第一权重对所述第二特征图在所述待计算位置在所述局部邻域指数与所述第一偏移的差值指示的邻域内的特征值进行加权以获得加权特征值。也就是，所述局部邻域指数指定位置处的第一权重表示为所述第二特征图用于所述待计算位置的特征值设为/>其中，i′＝i-u+Δp_u，j′＝j-v+Δp_v。也就是说，所述第二特征图用于获得所述第六特征图在所述待计算位置的特征值是所述第二特征图在所述待计算位置在所述局部邻域指数与所述第一偏移的差值，即(u-Δp_u,v-Δp_v)指示的邻域内的特征值。

在步骤S243中，对所述加权特征值在所述局部邻域核权重大小的范围内求和以获得所述第六特征图在所述待计算位置的特征值。即，设所述第六特征图在所述待计算位置{i,j}的特征值为则有：

并且，如果考虑多个通道的特征图，假定特征图的通道索引为c，则有

这样，针对所述第六特征图的每个位置计算出其特征值，就可以获得第六特征图。

因此，通过利用局部可变形邻域进行帧之间的特征传播，由于不需要采用例如需要大量标记的光流的光流网络来传播特征，可以减小用于传播特征的模型的大小，从而节省硬件的存储并提升检测速度。

继续返回图3，在步骤S250中，聚合所述第六特征图，即和所述第一特征图，即/>以得到所述第三特征图，即用于物体识别的任务特征图/>此外，所述任务特征图除了用于物体识别之外，还可以在存储器中存储为如图2所示的/>以作为所述当前帧图像向后续帧图像进行特征传播的特征图。

具体地，可以通过多个随机初始化的卷积层从所述第六特征图和所述第一特征图获得所述第三特征图。例如，可以采用三个卷积层，其中第一卷积层为3×3×256卷积层，第二卷积层为1×1×16卷积层，且第三卷积层为1×1×1卷积层。

这样，通过特征图之间的聚合操作，可以实现用于特征结合的质量评估网络，提高特征的传播程度，以使得提高检测精度。

如上所述，在所述当前帧图像为非关键帧的情况下，通过神经网络得到非关键帧的浅层特征。并将当前帧图像的浅层特征与上一关键帧图像的用于识别物体的特征图，即任务特征图进行融合，以得到当前帧图像的任务特征图，并通过将当前帧图像的任务特征图输入检测器，来识别出当前帧图像中的物体类别。

如图6所示，如果所述当前帧图像为非关键帧，即如图6所示的k1+i，则通过神经网络的浅层，即如图2所示的Net_L提取当前帧图像的浅层特征以获得第一特征图，即，如图6所示的

也就是，在根据本申请实施例的视频检测方法中，基于所述类型，通过神经网络确定当前帧图像用于参与融合的第一特征图，包括：若所述当前帧图像的类型为非关键帧图像，通过神经网络的第三数目的卷积层获得所述当前帧图像用于参与融合的第一特征图，所述第三数目小于或等于预定阈值。

这样，通过在非关键帧图像的情况下获得浅层特征作为第一特征图，可以充分利用特征图的融合来进行特征传播，同时减小神经网络模型的大小，节省了用于神经网络模型的参数在存储到存储器中的空间，减少了在运算时从存储器中读取神经网络模型的参数的次数，进而可提升视频检测的速度。

进一步如图6所示，假设所述当前帧图像之前的所述类型为设定类型的先前帧图像为之前进行了特征传播的关键帧k1，则如上所述，所述第二特征图为融合了再前一关键帧k0的特征图后获得的任务特征图，即，如图6所示的

并且，融合所述第一特征图和所述第二特征图，得到第三特征图的过程如图7所示。这里，图7图示了根据本申请实施例的与非关键帧对应的特征图融合过程的示意性流程图。

如图7所示，在如图1所示的实施例的基础上，所述步骤S140可包括如下步骤。

在步骤S310中，通过所述神经网络的第四数目的卷积层获得所述先前帧图像的第七特征图，所述第四数目小于或等于所述预定阈值。也就是说，通过神经网络的浅层，即如图6所示的Net_L获得所述先前帧图像的浅层特征作为第七特征图，即图6中的

在步骤S320中，通过权重预测网络，即图6中的W₁从所述第一特征图和所述第七特征图获得第二权重和第二偏移。

这里，所述第二权重和所述第二偏移的获得方式与之前说明的所述第一权重和所述第一偏移的获得方式相同，因此，为了避免冗余将不再赘述。

也就是，在根据本申请实施例的视频检测方法中，通过权重预测网络从所述第一特征图和所述第七特征图获得第二权重和第二偏移包括：将所述第一特征图和所述第七特征图通过所述权重预测网络中的级联部分进行级联以获得级联特征；以所述权重预测网络中的第一卷积核将所述级联特征减小到第一特定通道以获得减小特征；以所述权重预测网络中的划分部分将所述减小特征划分为多个减小的浅层特征；以所述权重预测网络中的关联部分对所述多个减小的浅层特征进行关联以获得关联特征；以所述权重预测网络中的具有所述第一特定通道数的第二卷积核和逻辑递归操作之后的第二通道获得所述第二权重；以及，以所述权重预测网络中的具有第三通道的第三卷积核获得所述第二偏移。

也就是，通过权重预测网络提取两帧的浅层特征，并通过特征相关操作来获得两者的差异，再通过这个差异来预测得到特征图上每一个位置的相应的核的权重以及偏移量。这样，可以生成空间变化的权重和偏移，从而有效地融合两帧的特征图，提升了视频中物体检测的精度。

在步骤S330中，基于所述第二权重和第二偏移从所述第二特征图，即图6中的获得第三特征图，即图6中的/>图8图示了针对非关键帧通过权重和偏移融合特征图的过程的示意性流程图。

如图8所示，在如图7所示的实施例的基础上，所述步骤S330可包括如下步骤。

在步骤S331中，针对所述第三特征图中的每个待计算位置，计算在所述待计算位置的局部邻域核权重大小和所述待计算位置周围的局部邻域指数。也就是，假设{i,j}为所述第三特征图中的每个待计算位置，则计算其局部邻域核权重大小{2h+1,2w+1}，和其周围的局部邻域指数{u,v}。

在步骤S332中，以所述局部邻域指数指定的位置处的第一权重对所述第二特征图在所述待计算位置在所述局部邻域指数指示的邻域内的特征值进行加权以获得加权特征值。也就是，所述局部邻域指数指定位置处的第一权重表示为所述第二特征图用于所述待计算位置的特征值设为/>其中，i′＝i-u，j^′＝j-v。也就是说，所述第二特征图用于获得所述第三特征图在所述待计算位置的特征值是所述第二特征图在所述待计算位置在所述局部邻域指数指示的邻域内的特征值。

在步骤S333中，对所述加权特征值在所述局部邻域核权重大小的范围内求和以获得所述第三特征图在所述待计算位置的特征值。即，设所述第三特征图在所述待计算位置{i,j}的特征值为则有：

这样，针对所述第三特征图的每个位置计算出其特征值，就可以获得第三特征图。

因此，通过利用局部可变形邻域进行帧之间的特征传播，由于不需要采用例如需要大量标记的光流的光流网络来传播特征，可以减小神经网络模型的大小，节省了用于神经网络模型的参数在存储到存储器中的空间，减少了在运算时从存储器中读取神经网络模型的参数的次数，进而可提升视频检测的速度。

示例性装置

图9图示了根据本申请实施例的视频预测装置的框图。

如图9所示，根据本申请实施例的视频预测装置400包括：图像类型确定单元410，用于确定当前帧图像的类型；第一特征图确定单元420，用于基于所述图像类型确定单元410所确定的类型，通过神经网络确定当前帧图像用于参与融合的第一特征图；第二特征图确定单元430，用于确定所述当前帧图像之前的所述类型为设定类型的先前帧图像的第二特征图；特征图融合单元440，用于融合所述第一特征图确定单元420所确定的第一特征图和所述第二特征图确定单元430所确定的第二特征图，得到第三特征图；以及，物体类别识别单元450，用于基于所述特征图融合单元440所获得的第三特征图，识别所述当前帧图像中的物体所属的类别。

在一个示例中，在上述视频检测方法中，所述第一特征图确定单元420用于：基于所述图像类型确定单元410确定所述当前帧图像的类型为关键帧图像，通过神经网络的第一数目的卷积层获得所述当前帧图像用于参与融合的第一特征图，所述第一数目大于或等于预定阈值。

如图10所示，在如图9所示的实施例的基础上，在该第一示例中，所述特征图融合单元440包括：第一特征图获得子单元510，用于通过神经网络的第二数目的卷积层获得所述当前帧图像的第四特征图，所述第二数目小于所述预定阈值；第二特征图获得子单元520，用于通过所述神经网络的所述第二数目的卷积层获得所述先前帧图像的第五特征图；权重预测网络子单元530，用于通过权重预测网络从所述第一特征图获得子单元510所获得的所述第四特征图和所述第二特征图获得子单元520所获得的所述第五特征图获得第一权重和第一偏移；权重偏移计算子单元540，用于基于所述权重预测网络子单元530所获得的所述第一权重和第一偏移从所述第二特征图获得第六特征图；以及特征图聚合子单元550，用于聚合所述权重偏移计算子单元540所获得的所述第六特征图和所述第一特征图确定单元420所获得的第一特征图以得到所述第三特征图。

如图11所示，在如图10所示的实施例的基础上，在该第一示例中，所述权重预测网络子单元530包括：特征级联模块531，用于将所述第一特征图获得子单元510所获得的第四特征图和所述第二特征图获得子单元520所获得的所述第五特征图通过所述权重预测网络中的级联部分进行级联以获得级联特征；特征减小模块532，用于以所述权重预测网络中的第一卷积核将所述特征级联模块531所获得的级联特征减小到第一特定通道以获得减小特征；特征划分模块533，用于以所述权重预测网络中的划分部分将所述特征减小模块532所获得的减小特征划分为多个减小的浅层特征；特征关联模块534，用于以所述权重预测网络中的关联部分对所述特征划分模块533所获得的多个减小的浅层特征进行关联以获得关联特征；权重获得模块535，用于以所述权重预测网络中的具有所述第一特定通道数的第二卷积核和逻辑递归操作之后的第二通道获得所述第一权重；以及偏移获得模块536，用于以所述权重预测网络中的具有第三通道的第三卷积核获得所述第一偏移。

如图12所示，在如图10所示的实施例的基础上，在该第一示例中，所述权重偏移计算子单元540包括：计算模块541，用于针对所述第六特征图中的每个待计算位置，计算在所述待计算位置的局部邻域核权重大小和所述待计算位置周围的局部邻域指数；加权模块542，用于以所述局部邻域指数指定的位置处的第一权重对所述第二特征图在所述待计算位置在所述局部邻域指数与所述第一偏移的差值指示的邻域内的特征值进行加权以获得加权特征值；以及，求和模块543，用于对所述加权特征值在所述局部邻域核权重大小的范围内求和以获得所述第六特征图在所述待计算位置的特征值。

在一个示例中，在上述视频检测方法中，所述特征图聚合子单元用于通过三个随机初始化的卷积层从所述第六特征图和所述第一特征图获得所述第三特征图。

在一个示例中，在上述视频检测方法中，所述第一特征图确定单元420用于：基于所述图像类型确定单元410确定所述当前帧图像的类型为非关键帧图像，通过神经网络的第三数目的卷积层获得所述当前帧图像用于参与融合的第一特征图，所述第三数目小于或等于预定阈值。

如图13所示，在如图9所示的实施例的基础上，在该第二示例中，所述特征图融合单元440包括：特征图获得子单元610，用于通过所述神经网络的第四数目的卷积层获得所述先前帧图像的第七特征图，所述第四数目小于或等于所述预定阈值；权重预测子单元620，用于通过权重预测网络从所述第一特征图和所述特征图获得子单元610所获得的所述第七特征图获得第二权重和第二偏移；以及，特征图融合子单元630，用于基于所述权重预测子单元620所获得的所述第二权重和第二偏移从所述第二特征图获得第三特征图。

在一个示例中，在上述视频检测方法中，所述权重预测子单元620包括：特征级联模块，用于将所述第一特征图和所述第七特征图通过所述权重预测网络中的级联部分进行级联以获得级联特征；特征减小模块，用于以所述权重预测网络中的第一卷积核将所述级联特征减小到第一特定通道以获得减小特征；特征划分模块，用于以所述权重预测网络中的划分部分将所述减小特征划分为多个减小的浅层特征；特征关联模块，用于以所述权重预测网络中的关联部分对所述多个减小的浅层特征进行关联以获得关联特征；权重获得模块，用于以所述权重预测网络中的具有所述第一特定通道数的第二卷积核和逻辑递归操作之后的第二通道获得所述第二权重；以及，偏移获得模块，用于以所述权重预测网络中的具有第三通道的第三卷积核获得所述第二偏移。

在一个示例中，在上述视频检测装置中，所述权重偏移计算子单元630包括：计算模块，用于针对所述第三特征图中的每个待计算位置，计算在所述待计算位置的局部邻域核权重大小和所述待计算位置周围的局部邻域指数；加权模，用于以所述局部邻域指数指定的位置处的第一权重对所述第二特征图在所述待计算位置在所述局部邻域指数指示的邻域内的特征值进行加权以获得加权特征值；以及，求和模块，用于对所述加权特征值在所述局部邻域核权重大小的范围内求和以获得所述第三特征图在所述待计算位置的特征值。

这里，本领域技术人员可以理解，上述视频检测装置400中的各个单元和模块的具体功能和操作已经在上面参考图1到图8的视频检测方法的描述中得到了详细介绍，并因此，将省略其重复描述。

如上所述，根据本申请实施例的视频检测装置400可以实现在各种终端设备中，例如用于从视频检测物体的计算机或者微处理器中。在一个示例中，根据本申请实施例的视频检测装置400可以作为一个软件模块和/或硬件模块而集成到终端设备中。例如，该视频检测装置400可以是该终端设备的操作系统中的一个软件模块，或者可以是针对于该终端设备所开发的一个应用程序；当然，该视频检测装置400同样可以是该终端设备的众多硬件模块之一。

替换地，在另一示例中，该视频检测装置400与该终端设备也可以是分立的设备，并且该视频检测装置400可以通过有线和/或无线网络连接到该终端设备，并且按照约定的数据格式来传输交互信息。

示例性电子设备

下面，参考图14来描述根据本申请实施例的电子设备。

图14图示了根据本申请实施例的电子设备的框图。

如图14所示，电子设备10包括一个或多个处理器11和存储器12。

处理器13可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备10中的其他组件以执行期望的功能。

存储器12可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器11可以运行所述程序指令，以实现上文所述的本申请的各个实施例的视频检测方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如第一特征图、第二特征图、第三特征图等各种内容。

在一个示例中，电子设备10还可以包括：输入装置13和输出装置14，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

该输入装置13可以包括例如键盘、鼠标等等。

该输出装置14可以向外部输出各种信息，包括视频中物体检测的结果等。该输出装置14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图14中仅示出了该电子设备10中与本申请有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备10还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本申请的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的视频检测方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本申请的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的视频检测方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本申请的基本原理，但是，需要指出的是，在本申请中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本申请为必须采用上述具体的细节来实现。

本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

还需要指出的是，在本申请的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此，本申请不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种视频检测方法，包括：

确定当前帧图像的类型；

基于所述类型，通过神经网络确定当前帧图像用于参与融合的第一特征图；

确定所述当前帧图像之前的所述类型为设定类型的先前帧图像的第二特征图；

融合所述第一特征图和所述第二特征图，得到第三特征图；

基于所述第三特征图，识别所述当前帧图像中的物体所属的类别；

其中，基于所述类型，通过神经网络确定当前帧图像用于参与融合的第一特征图，包括：若所述当前帧图像的类型为关键帧图像，通过神经网络的第一数目的卷积层获得所述当前帧图像用于参与融合的第一特征图，所述第一数目大于或等于预定阈值；

融合所述第一特征图和所述第二特征图，得到第三特征图包括：通过神经网络的第二数目的卷积层获得所述当前帧图像的第四特征图，所述第二数目小于所述预定阈值；通过所述神经网络的所述第二数目的卷积层获得所述先前帧图像的第五特征图；通过权重预测网络从所述第四特征图和所述第五特征图获得第一权重和第一偏移；基于所述第一权重和第一偏移从所述第二特征图获得第六特征图；以及聚合所述第六特征图和所述第一特征图以得到所述第三特征图；

其中，通过权重预测网络从所述第四特征图和所述第五特征图获得第一权重和第一偏移包括：将所述第四特征图和所述第五特征图通过所述权重预测网络中的级联部分进行级联以获得级联特征；以所述权重预测网络中的第一卷积核将所述级联特征减小到第一特定通道以获得减小特征；以所述权重预测网络中的划分部分将所述减小特征划分为多个减小的浅层特征；以所述权重预测网络中的关联部分对所述多个减小的浅层特征进行关联以获得关联特征；以所述权重预测网络中的具有所述第一特定通道数的第二卷积核和逻辑递归操作之后的第二通道获得所述第一权重；以及以所述权重预测网络中的具有第三通道的第三卷积核获得所述第一偏移。

2.如权利要求1所述的视频检测方法，其中，基于所述第一权重和第一偏移从所述第二特征图获得第六特征图包括：

针对所述第六特征图中的每个待计算位置，计算在所述待计算位置的局部邻域核权重大小和所述待计算位置周围的局部邻域指数；

以所述局部邻域指数指定的位置处的第一权重对所述第二特征图在所述待计算位置在所述局部邻域指数与所述第一偏移的差值指示的邻域内的特征值进行加权以获得加权特征值；

对所述加权特征值在所述局部邻域核权重大小的范围内求和以获得所述第六特征图在所述待计算位置的特征值。

3.如权利要求1所述的视频检测方法，其中，聚合所述第六特征图与所述第一特征图以获得所述第三特征图包括：

通过三个随机初始化的卷积层从所述第六特征图和所述第一特征图获得所述第三特征图。

4.如权利要求1所述的视频检测方法，其中，基于所述类型，通过神经网络确定当前帧图像用于参与融合的第一特征图，包括：

若所述当前帧图像的类型为非关键帧图像，通过神经网络的第三数目的卷积层获得所述当前帧图像用于参与融合的第一特征图，所述第三数目小于或等于预定阈值。

5.如权利要求4所述的视频检测方法，其中，融合所述第一特征图和所述第二特征图，得到第三特征图包括：

通过所述神经网络的第四数目的卷积层获得所述先前帧图像的第七特征图，所述第四数目小于或等于所述预定阈值；

通过权重预测网络从所述第一特征图和所述第七特征图获得第二权重和第二偏移；以及

基于所述第二权重和第二偏移从所述第二特征图获得第三特征图。

6.如权利要求5所述的视频检测方法，其中，通过权重预测网络从所述第一特征图和所述第七特征图获得第二权重和第二偏移包括：

将所述第一特征图和所述第七特征图通过所述权重预测网络中的级联部分进行级联以获得级联特征；

以所述权重预测网络中的第一卷积核将所述级联特征减小到第一特定通道以获得减小特征；

以所述权重预测网络中的划分部分将所述减小特征划分为多个减小的浅层特征；

以所述权重预测网络中的关联部分对所述多个减小的浅层特征进行关联以获得关联特征；

以所述权重预测网络中的具有所述第一特定通道数的第二卷积核和逻辑递归操作之后的第二通道获得所述第二权重；以及

以所述权重预测网络中的具有第三通道的第三卷积核获得所述第二偏移。

7.如权利要求5所述的视频检测方法，其中，基于所述第二权重和第二偏移从所述第二特征图获得第三特征图包括：

针对所述第三特征图中的每个待计算位置，计算在所述待计算位置的局部邻域核权重大小和所述待计算位置周围的局部邻域指数；

以所述局部邻域指数指定的位置处的第一权重对所述第二特征图在所述待计算位置在所述局部邻域指数指示的邻域内的特征值进行加权以获得加权特征值；

对所述加权特征值在所述局部邻域核权重大小的范围内求和以获得所述第三特征图在所述待计算位置的特征值。

8.一种视频检测装置，包括：

图像类型确定单元，用于确定当前帧图像的类型；

第一特征图确定单元，用于基于所述图像类型确定单元所确定的类型，通过神经网络确定当前帧图像用于参与融合的第一特征图，包括：若所述当前帧图像的类型为关键帧图像，通过神经网络的第一数目的卷积层获得所述当前帧图像用于参与融合的第一特征图，所述第一数目大于或等于预定阈值；

第二特征图确定单元，用于确定所述当前帧图像之前的所述类型为设定类型的先前帧图像的第二特征图；

特征图融合单元，用于融合所述第一特征图确定单元所确定的第一特征图和所述第二特征图确定单元所确定的第二特征图，得到第三特征图，包括：通过神经网络的第二数目的卷积层获得所述当前帧图像的第四特征图，所述第二数目小于所述预定阈值；通过所述神经网络的所述第二数目的卷积层获得所述先前帧图像的第五特征图；通过权重预测网络从所述第四特征图和所述第五特征图获得第一权重和第一偏移；基于所述第一权重和第一偏移从所述第二特征图获得第六特征图；以及聚合所述第六特征图和所述第一特征图以得到所述第三特征图；以及

物体类别识别单元，用于基于所述特征图融合单元所获得的第三特征图，识别所述当前帧图像中的物体所属的类别；

9.一种电子设备，包括：

处理器；以及

存储器，在所述存储器中存储有计算机程序指令，所述计算机程序指令在被所述处理器运行时使得所述处理器执行如权利要求1-7中任一项所述的视频检测方法。

10.一种计算机可读介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行如权利要求1-7中任一项所述的视频检测方法。