CN110008789A

CN110008789A - 多类物体检测与识别的方法、设备及计算机可读存储介质

Info

Publication number: CN110008789A
Application number: CN201810009329.2A
Authority: CN
Inventors: 潘伟森; 李俭; 高黎明
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Communications Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Communications Co Ltd
Priority date: 2018-01-05
Filing date: 2018-01-05
Publication date: 2019-07-12

Abstract

本发明实施例提供了一种多类物体检测与识别的方法、设备及计算机可读存储介质。本发明根据视频中连续的帧通常具有高度相似性和高冗余性的特点，本发明根据这个特点，引入了光流，只是对I帧，也就是关键帧，做CNN特征提取；对于非I帧，使用I帧已提取的特征进行传播。在进行传播这个环节，本发明提出的双层光流网络进行光流分析。通过引入光流，本发明大大提高了视频检测的速度，也提高了视频检测的精度。

Description

多类物体检测与识别的方法、设备及计算机可读存储介质

技术领域

本发明涉及多类物体检测与识别(VID，object detection from video)目标检测技术领域，具体涉及一种多类物体检测与识别的方法、设备及计算机可读存储介质。

背景技术

目标检测在计算机视觉领域中占有非常大的比重。近年来深度学习技术在物体检测方面的持续发展，为这个领域带来了变革式的发展。一方面，新的卷积神经网络从区域卷积神经网络(RCNN到)快速区域卷积神经网络(Fast RCNN)，再到更快区域卷积神经网络(Faster RCNN)，不断的刷新精准度；另外一个方面，深度神经网络的SSD、YOLO、YOLOv2等算法，则是把处理的速度提高到越来越高的帧率。对于视频来说，相邻帧之间通常存在明显的上下文关系，这种关系在技术上表现就是跟踪(Tracking)。另外，视频目标检测中因为变形、遮挡、运动模糊(Blur)等因素可能导致目标在中间帧无法检测到。视频目标检测(VID，object detection from video)已经成为一个重要的挑战方向，目前的主要思路主要是结合帧间的上下文(Context)信息、跟踪(Tracking)信息来构建深度学习的网络。

基于图片的物体检测目前已经做得很成熟，比较有代表意义的就是使用FasterRCNN和YOLOv2做目标检测和分割。但是，基于视频的目标检测目前还是有很大的问题，例如在视频检测处理的速度和精度上。例如，现有的视频目标检测通常是每个视频帧上运行CNN来检测目标，以目前先进的YOLOv2算法为例，通常一个图像处理器(GPU)只能达到每秒几十帧的处理速度，而这对于大量的视频数据其速度是难以满足要求的。因此，亟需一种视频目标检测方法，能够提供视频目标检测的处理能力。

发明内容

本发明实施例要解决的技术问题是提供一种多类物体检测与识别的方法、设备及计算机可读存储介质，提高多类物体检测与识别的处理能力。

为解决上述技术问题，本发明实施例提供了一种多类物体检测与识别的方法，包括：

确定视频流中的当前视频帧为关键帧或非关键帧；

在当前视频帧为非关键帧时，将当前视频帧之前的最近一个关键帧的图像特征映射到当前视频帧，得到当前视频帧的图像特征地图；以及，在当前视频帧为关键帧时，直接提取当前视频帧的图像特征，获得当前视频帧的图像特征地图；

根据当前视频图像帧的图像特征地图，进行目标检测，获得目标检测结果。

本发明实施例还提供了一种多类物体检测与识别的设备，包括：

确定单元，用于确定视频流中的当前视频帧为关键帧或非关键帧；

第一特征提取单元，用于在当前视频帧为非关键帧时，将当前视频帧之前的最近一个关键帧的图像特征映射到当前视频帧，得到当前视频帧的图像特征地图；

第二特征提取单元，用于在当前视频帧为关键帧时，直接提取当前视频帧的图像特征，获得当前视频帧的图像特征地图；

目标检测单元，用于根据当前视频图像帧的图像特征地图，进行目标检测，获得目标检测结果。

本发明实施例还提供了一种多类物体检测与识别的设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述计算机程序被所述处理器执行时，实现如上所述的多类物体检测与识别的方法的步骤。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时，实现如上所述的多类物体检测与识别的方法的步骤。

与现有技术相比，本发明实施例提供的一种多类物体检测与识别的方法、设备及计算机可读存储介质，针对视频中的非关键帧，不再做CNN特征提取，而是利用之前的关键帧的图像特征以及光流，获取非关键帧的图像特征，从而可以减少需要进行CNN处理的帧数量，因此可以大大降低CNN处理的运算量，提高多类物体检测与识别的检测速度。另外，对于非关键帧，借鉴了之前的关键帧的图像特征，可以提高多类物体检测与识别的检测精度。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为现有技术的多类物体检测与识别的一种示意图；

图2为视频中可能存在的导致无法检出目标物体的图像示意图；

图3为视频中的动态模糊导致无法检测出目标的示意图；

图4为本发明实施例提供的多类物体检测与识别的方法的一种流程图；

图5为本发明实施例提供的光流计算的示意图；

图6为本发明实施例提供的多类物体检测与识别的方法的另一种流程图；

图7为本发明实施例对非关键帧进行特征映射的示意图；

图8为本发明实施例提供的多类物体检测与识别的设备的一种结构示意图；

图9为本发明实施例提供的多类物体检测与识别的设备的另一种结构示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。在下面的描述中，提供诸如具体的配置和组件的特定细节仅仅是为了帮助全面理解本发明的实施例。因此，本领域技术人员应该清楚，可以对这里描述的实施例进行各种改变和修改而不脱离本发明的范围和精神。另外，为了清楚和简洁，省略了对已知功能和构造的描述。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。

在本发明的各种实施例中，应理解，下述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

目前，多类物体检测与识别的主要挑战有检测速度和检测精度两方面。

其中，在检测速度方面，当前视频数据都是爆炸性地增长，最新进展的深度学习已经可以自动分析这些海量的视频数据了。但是，深度学习方法的计算是非常昂贵的，以当前比较先进的NVIDIA P100GPU为例，可以每秒10-90帧的速度计算。对于单个视频还好，但是对于大规模实际部署的视频来说，比如全国各地的交通视频，这个设备成本是非常高的。

当前先进的视频处理模型是YOLOv2或Faster R-CNN之类的用于对象检测的CNN卷积神经网络，通过在视频的每个帧上运行CNN来检测目标，图1给出了现有视频检测的一个处理示意图，其处理流程是针对视频帧，一帧一帧的计算CCN卷积，导致计算资源浪费大，运行速度也较为缓慢。即使以在检测中效果比较好的YOLOv2算法为例，一个GPU也只能达到每秒几十帧的处理速度。而出于成本考虑，通常不会为每一个视频采集设备(如摄像机)配备一个GPU，因此对于大量的视频数据的目标检测，希望能够进一步提高上述处理速度。

在检测精度方面，现有的目标检测方法，除了每帧都要计算CNN卷积浪费大量的计算资源并影响实时性以外，视频帧中出现的各种问题，比如图2所示的动态模糊(motionblur)、部分遮挡(part occlusion)和姿态多样(rare pose)等各种姿态，可能导致某些帧无法正常检测出目标物体。图3进一步给出了因视频中的动态模糊导致无法检测出目标的示意图。

基于现有技术的目标检测，通常都是每帧都做CNN处理，其计算工作耗费大量资源。考虑到视频流通常有明显的时间和空间的重复冗余和相关性，根据这个特点，本发明实施例针对视频帧中的关键帧和非关键帧进行不同处理，并将光流引入到多类物体检测与识别中，不用对视频逐帧做CNN特征提取，可以提高目标检测的处理能力。

请参照图4，本发明实施例提供的多类物体检测与识别的方法，包括：

步骤41，确定视频流中的当前视频帧为关键帧或非关键帧。

这里，关键帧通常是指I帧，I帧描述了图片背景和运动主体的详情，解码时仅I帧的数据就可以重构完整的图像，不需要参考其他画面。I帧是帧组(GOP)的基础帧(第一帧)，一个帧组通常只有一个I帧；I帧所占的信息量比较大。视频帧中除去I帧以外的其他帧，就是非I帧，也就是非关键帧。具体的，可以使用FFmpeg压缩域的算法提取关键帧。本发明实施例将对关键帧和非关键帧进行不同的处理。

步骤42，在当前视频帧为非关键帧时，将当前视频帧之前的最近一个关键帧的图像特征映射到当前视频帧，得到当前视频帧的图像特征地图。

这里，在当前视频帧为非关键帧时，本发明实施例将利用位于当前视频帧之前，且离当前视频帧最近的一个关键帧的图像特征，来获取当前视频帧的图像特征地图。

考虑到视频流通常有明显的时间和空间的重复冗余和相关性，在获取非关键帧的图像特征时，本发明实施例将光流引入进来。具体的，可以根据当前视频帧和所述最近一个关键帧，计算得到两者之间的一个光流结果。然后，对所述最近一个关键帧进行特征扭曲，得到一扭曲结果，并将所述扭曲结果与所述光流结果进行特征融合处理，得到当前视频帧的图像特征地图。

在计算所述光流结果时，本发明实施例采用两次光流计算，提高光流结果的精确度。具体的，请参考图5，可以利用预定的光流估算算法，计算所述当前视频帧和所述最近一个关键帧之间的第一光流(FLOW)。这里，光流估算算法可能会造成空间形变，为此可以对所述最近一个关键帧进行特征扭曲处理，使最近一个关键帧经特征扭曲处理后的扭曲结果与当前视频帧的空间信息对齐(空间统一)，具体处理可以引入尺度比例函数，通过拉伸、变形、裁剪等方式实现。然后，计算第一光流与所述最近一个关键帧经特征扭曲(wrap)之后的扭曲结果之间的第二光流，得到所述光流结果(FLOW’)。

以上图5处理中，在计算精度和资源耗费中折衷考虑，采用了双重网络(FlowNet)的光流计算，即，将所述当前视频帧和所述最近一个关键帧输入至双层光流网络的第一层网络，计算得到第一光流；然后，将所述第一光流与最近一个关键帧经特征扭曲之后的扭曲结果输入至双层光流网络的第二层网络，计算得到第二光流。相比于一层的FlowNet，可以提高光流计算的精度，也避免了采用三四层以上的网络导致的耗时和耗费计算资源。

在计算得到所述光流结果之后，可以对所述最近一个关键帧进行特征扭曲(feature warping)，也就是通过拉伸，变形，裁剪等方式，使得所述最近一个关键帧与所述当前视频帧的空间统一。在空间统一之后，对所述最近一个关键帧的扭曲结果与所述光流结果进行特征融合(feature aggregation)处理，从而生成融合后的特征地图(aggregatedfeature map)，即得到当前视频帧的图像特征地图。

步骤43，根据当前视频图像帧的图像特征地图，进行目标检测，获得目标检测结果。

这里，可以利用各种目标检测算法，如SSD(Single Shot MultiBox Detector)、YOLO(You Only Look Once)、YOLOv2等算法进行深度神经网络模型的建模，并利用建立好的深度神经网络模型对当前视频图像帧的图像特征地图进行目标检测，获得目标检测结果。

例如，可以采用YOLOv2做目标检测。YOLOv2是YOLO的升级版，其一方面保证原有处理速度的同时提高了精度。另外目前提出的YOLO9000，可以实现对9000多种物体做实时检测的模型。本发明实施例可以采用诸如YOLO9000等神经网络模型，从而可以在某一个帧中检测并识别多种物体，而非单一的关注某一种特定物体。例如，当查看一个视频中的某个公交车的作息时间，此时检测的可能就是该公交车这个特定物体，此时为单目标检测。又如，在检测斑马线上的行人时，虽然来来往往不同的各种人，但是都是指“人”这个事物，从广义来说，也是一种单目标检测。本发明实施例则可以利用上述神经网络模型做多目标检测，也就是可以同时检测多种感兴趣的事物，比如某一帧中，可以检测出三种事物，并且识别这些事物是自行车、狗、还是人。基于YOLO9000可以检测出至少9000种事物，本发明实施例可以挑选感兴趣的事物进行同时检测及识别。

根据以上步骤中的工作流程，可以建立相应的深度神经网络模型，用于实现上述步骤：确定视频流中的当前视频帧为关键帧或非关键帧；在当前视频帧为非关键帧时，将当前视频帧之前的最近一个关键帧的图像特征映射到当前视频帧，得到当前视频帧的图像特征地图；以及，在当前视频帧为关键帧时，直接提取当前视频帧的图像特征，获得当前视频帧的图像特征地图；根据当前视频图像帧的图像特征地图，进行目标检测，获得目标检测结果。这个模型是端到端的模型，也就是只要输入一次数据，就可以得到目标检测结果。

进一步的，在建立了神经网络模型后，为了更好的平衡误差，本发明实施例可以进一步通过端到端的训练(end-to-end training)，通过样本训练，来优化该神经网络模型，提高该神经网络模型的识别精度，达到更好的视频检测效果。

例如，针对交通场景，训练样本可以是来自于大量的道路监控视频，主要检测视频中的某一段时间内的行人和自行车的来往数量。行人和自行车都可以有神经网络模型自动检测，并标注名称，并在识别结果中给出同时出现某一段时间内的行人数量和自行车数量等信息。

通过以上步骤，本发明实施例针对视频中的非关键帧，不再做CNN特征提取，而是利用之前的关键帧的图像特征以及光流，获取非关键帧的图像特征，从而可以减少需要进行CNN处理的帧数量。由于非关键帧在视频中大量存在，因此本发明实施例可以大大降低CNN处理的运算量，提高多类物体检测与识别的检测速度。另外，对于非关键帧，借鉴了之前的关键帧的图像特征，可以在一定程度上减少因非关键帧的动态模糊、部分遮挡和姿态多样等问题导致的检测精度不高的问题，提高多类物体检测与识别的检测精度。

在本发明实施例中，在当前视频帧为关键帧时，则可以直接提取当前视频帧的图像特征，获得当前视频帧的图像特征地图。例如，使用基于区域的全卷积神经网络(R-FCN)，对当前视频帧进行卷积神经网络CNN特征提取，获得当前视频帧的图像特征地图。在获得当前的关键帧的图像特征地图，可以进入步骤43，通过目标检测，获得当前关键帧的目标检测结果。

可以看出，本发明实施例只对关键帧做CNN特征提取，对于非关键帧，则根据视频上下文的联系，借助光流(flow field)将关键帧的信息扩散到当前的非关键帧，从而得到非关键帧的图像特征地图(feature map)。而这种基于光流(flow field)的计算量相对CNN特征提取处理非常小，处理速度相对CNN特征提取来说非常快，从而可以提高节约计算资源，提高多类物体检测与识别的检测速度。

图6进一步给出了本发明实施例上述方法的一种工作流程。图6中，对于关键帧(I帧)，做CNN特征提取之后，生成了特征地图(feature map)，然后用YOLOV2算法(此处具体可以采用YOLO9000)进行多目标检测，最后输出检测结果。图6中，对非关键帧(非I帧)进行检测时没有CNN特征提取这个步骤。首先，对非关键帧和该非关键帧的最近一个关键帧一起使用流估计算法得到光流，此处可以采用了图5中的光流网络计算方式。然后，将最近一个关键帧的图像特征传播到非关键帧，得到非关键帧的特征地图，再进行目标检测，获得检测结果。基于以上特点，本发明实施例的多类物体检测与识别的方法又可称作FlowVR，即UsingOptical Flow to Optimize Deep Networks for Video Recognition。图7还进一步给出了对非关键帧进行特征映射的示意图。

基于以上方法，本发明实施例还提供了实施上述方法的设备。

请参照图8，本发明实施例提供了一种多类物体检测与识别的设备60，包括：

确定单元61，用于确定视频流中的当前视频帧为关键帧或非关键帧；

第一特征提取单元62，用于在当前视频帧为非关键帧时，将当前视频帧之前的最近一个关键帧的图像特征映射到当前视频帧，得到当前视频帧的图像特征地图；

目标检测单元63，用于根据当前视频图像帧的图像特征地图，进行目标检测，获得目标检测结果。

优选的，上述设备还可以包括：第二特征提取单元，用于在当前视频帧为关键帧时，直接提取当前视频帧的图像特征，获得当前视频帧的图像特征地图。

优选的，上述设备还可以包括：模型训练单元，用于建立用于获取所述目标检测结果的深度神经网络模型，并利用训练样本训练优化所述深度神经网络模型。

优选的，所述第一特征提取单元62可以包括：

光流计算单元，用于根据所述当前视频帧和所述最近一个关键帧，计算得到光流结果；

特征扭曲及融合单元，用于对所述最近一个关键帧进行特征扭曲，得到一扭曲结果，并将所述扭曲结果与所述光流结果进行特征融合处理，得到当前视频帧的图像特征地图。

优选的，所述光流计算单元可以包括：

第一计算单元，用于利用预定的光流估算算法，计算所述当前视频帧和所述最近一个关键帧之间的第一光流；

第二计算单元，用于计算第一光流与所述最近一个关键帧经特征扭曲之后的结果之间的第二光流，得到所述光流结果。

这里，所述第二特征提取单元，具体用于使用基于区域的全卷积神经网络R-FCN，对当前视频帧进行卷积神经网络CNN特征提取，获得当前视频帧的图像特征地图。

这里，所述关键帧为I帧，所述非关键帧为除I帧外的非I帧。

请参考图9，本发明实施例提供了多类物体检测与识别的设备700的另一结构示意图，包括：处理器701、收发机702、存储器703和总线接口，其中：

在本发明实施例中，第一无线网节点700还包括：存储在存储器上703并可在处理器701上运行的计算机程序，计算机程序被处理器701执行时实现如下步骤：确定视频流中的当前视频帧为关键帧或非关键帧；在当前视频帧为非关键帧时，将当前视频帧之前的最近一个关键帧的图像特征映射到当前视频帧，得到当前视频帧的图像特征地图；以及，在当前视频帧为关键帧时，直接提取当前视频帧的图像特征，获得当前视频帧的图像特征地图；根据当前视频图像帧的图像特征地图，进行目标检测，获得目标检测结果。

在图9中，总线架构可以包括任意数量的互联的总线和桥，具体由处理器701代表的一个或多个处理器和存储器703代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口提供接口。收发机702可以是多个元件，即包括发送机和接收机，提供用于在传输介质上与各种其他装置通信的单元。

处理器701负责管理总线架构和通常的处理，存储器703可以存储处理器701在执行操作时所使用的数据。

可选的，计算机程序被处理器701执行时还可实现如下步骤：根据所述当前视频帧和所述最近一个关键帧，计算得到光流结果；对所述最近一个关键帧进行特征扭曲，得到一扭曲结果，并将所述扭曲结果与所述光流结果进行特征融合处理，得到当前视频帧的图像特征地图。在当前视频帧为关键帧时，直接提取当前视频帧的图像特征，获得当前视频帧的图像特征地图。

可选的，计算机程序被处理器701执行时还可实现如下步骤：利用预定的光流估算算法，计算所述当前视频帧和所述最近一个关键帧之间的第一光流；计算第一光流与所述最近一个关键帧经特征扭曲之后的结果之间的第二光流，得到所述光流结果。

可选的，计算机程序被处理器701执行时还可实现如下步骤：使用基于区域的全卷积神经网络R-FCN，对当前视频帧进行卷积神经网络CNN特征提取，获得当前视频帧的图像特征地图。

这里，所述关键帧为I帧，所述非关键帧为除I帧外的非I帧。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述多类物体检测与识别的方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种多类物体检测与识别的方法，其特征在于，包括：

确定视频流中的当前视频帧为关键帧或非关键帧；

2.如权利要求1所述的方法，其特征在于，所述方法还包括：

建立用于获取所述目标检测结果的深度神经网络模型，并利用训练样本训练优化所述深度神经网络模型。

3.如权利要求1或2所述的方法，其特征在于，所述在当前视频帧为非关键帧时，将当前视频帧之前的最近一个关键帧的图像特征映射到当前视频帧，得到当前视频帧的图像特征地图的步骤，包括：

根据所述当前视频帧和所述最近一个关键帧，计算得到光流结果；

对所述最近一个关键帧进行特征扭曲，得到一扭曲结果，并将所述扭曲结果与所述光流结果进行特征融合处理，得到当前视频帧的图像特征地图。

4.如权利要求3所述的方法，其特征在于，所述根据所述当前视频帧和所述最近一个关键帧，计算得到光流结果的步骤，包括：

利用预定的光流估算算法，计算所述当前视频帧和所述最近一个关键帧之间的第一光流；

计算第一光流与所述最近一个关键帧经特征扭曲之后的扭曲结果之间的第二光流，得到所述光流结果。

5.如权利要求2所述的方法，其特征在于，所述在当前视频帧为关键帧时，提取当前视频帧的图像特征，获得当前视频帧的图像特征地图的步骤，包括：

使用基于区域的全卷积神经网络R-FCN，对当前视频帧进行卷积神经网络CNN特征提取，获得当前视频帧的图像特征地图。

6.如权利要求1所述的方法，其特征在于，所述关键帧为I帧，所述非关键帧为除I帧外的非I帧。

7.一种多类物体检测与识别的设备，其特征在于，包括：

8.如权利要求7所述的设备，其特征在于，还包括：

模型训练单元，用于建立用于获取所述目标检测结果的深度神经网络模型，并利用训练样本训练优化所述深度神经网络模型。

9.如权利要求7或8所述的设备，其特征在于，所述第一特征提取单元包括：

10.如权利要求9所述的设备，其特征在于，所述光流计算单元包括：

第二计算单元，用于计算第一光流与所述最近一个关键帧经特征扭曲之后的扭曲结果之间的第二光流，得到所述光流结果。

11.一种多类物体检测与识别的设备，其特征在于，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述计算机程序被所述处理器执行时，实现如权利要求1至6中任一项所述的多类物体检测与识别的方法的步骤。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时，实现如权利要求1至6中任一项所述的多类物体检测与识别的方法的步骤。