CN111914756A

CN111914756A - 一种视频数据处理方法和装置

Info

Publication number: CN111914756A
Application number: CN202010769394.2A
Authority: CN
Inventors: 张樯; 李斌; 赵凯; 李司同
Original assignee: Beijing Institute of Environmental Features
Current assignee: Beijing Institute of Environmental Features
Priority date: 2020-08-03
Filing date: 2020-08-03
Publication date: 2020-11-10

Abstract

本发明涉及一种视频数据处理方法和装置，涉及图像处理技术领域。该方法包括：将当前帧图像输入特征提取网络，以得到所述当前帧图像的特征图；确定所述当前帧图像与历史帧图像之间的光流信息，根据所述光流信息将历史帧图像的特征图与所述当前帧图像的特征图进行空间对齐处理；其中，所述历史帧图像为视频中与所述当前帧图像相邻的一帧或多帧图像；对所述当前帧图像的特征图与空间对齐处理后的历史帧图像的特征图进行融合处理，以得到融合后的特征图；对所述融合后的特征图进行目标关键点检测，以得到目标关键点检测结果。通过以上步骤，能够解决由于视频中广泛存在的运动模糊、遮挡等问题造成检测算法的性能急剧下降、目标检测结果不准确的问题。

Description

一种视频数据处理方法和装置

技术领域

本发明涉及图像处理技术领域，尤其涉及一种视频数据处理方法和装置。

背景技术

人体关键点检测研究的是如何对图像中人体的各个关键点进行准确地识别与定位，它是动作识别、人机交互等诸多计算机视觉应用的基础。

随着深度学习的发展，深度神经网络被应用在人体关键点检测上，并且大大提高了人体关键点检测的准确率。当前，根据是否需要先检测全局人体可将人体关键点检测算法分为“自底向上”和“自顶向下”两种。其中，“自底向上”算法不需要先检测图像中的全局人体，它是直接利用神经网络先检测图像中可能存在的关键点，之后对这些关键点进行聚类、去除冗余连接，最后将每一个检测到的关键点匹配到具体的一个人。“自顶向下”算法需要先采用faster rcnn、yolo等通用目标检测算法检测出图像中的每一个全局人体，然后根据得到的检测框对图像进行剪裁，从而将一幅多人图像剪裁成多幅单人图像，之后再对每一幅单人图像再进行关键点检测。

在实现本发明的过程中，本发明的发明人发现：无论是“自底向上”还是“自顶向下”算法，当前的研究多集中在单帧图像方面。在现有技术中，处理视频数据时大都只是简单的将视频分解为若干帧，再利用单帧检测算法进行逐帧处理，即将视频中的每一帧作为独立的图像处理。这种简单、粗暴的处理方式没有利用帧间的时域信息，无法解决视频中广泛存在的运动模糊、遮挡等问题。当视频中的某一帧存在运动模糊或者遮挡时，单帧检测算法的性能会急剧下降。

因此，针对以上不足，需要提供一种新的视频数据处理方法和装置，以提高视频中目标的检测准确性。

发明内容

(一)要解决的技术问题

本发明要解决的技术问题是解决现有利用单帧检测算法对视频进行逐帧处理时由于视频中广泛存在的运动模糊、遮挡等问题造成检测算法的性能急剧下降、目标检测结果不准确的问题。

(二)技术方案

为了解决上述技术问题，一方面，本发明提供了一种视频数据处理方法。

本发明的视频数据处理方法包括：将当前帧图像输入特征提取网络，以得到所述当前帧图像的特征图；确定所述当前帧图像与历史帧图像之间的光流信息，根据所述光流信息将历史帧图像的特征图与所述当前帧图像的特征图进行空间对齐处理；其中，所述历史帧图像为视频中与所述当前帧图像相邻的一帧或多帧图像；对所述当前帧图像的特征图与空间对齐处理后的历史帧图像的特征图进行融合处理，以得到融合后的特征图；对所述融合后的特征图进行目标关键点检测，以得到目标关键点检测结果。

可选地，所述确定所述当前帧图像与历史帧图像之间的光流信息包括：将所述当前帧图像与历史帧图像输入光流信息提取网络，以得到所述当前帧图像与历史帧图像之间的光流信息；其中，所述光流信息提取网络基于卷积神经网络构建。

可选地，所述根据所述光流信息将历史帧图像的特征图与所述当前帧图像的特征图进行空间对齐处理包括：通过双线性插值将对所述历史帧图像与所述当前帧的光流信息进行缩放，以使缩放后的光流信息与所述特征图的尺寸相同；根据缩放后的光流信息对历史帧图像的特征图与所述当前帧图像的特征图进行空间对齐。

可选地，所述方法还包括：在所述对所述当前帧图像的特征图与空间对齐处理后的历史帧图像的特征图进行融合处理之前，根据所述光流信息提取网络输出的尺度场对所述空间对齐后的历史帧图像的特征图进行细化处理。

可选地，所述对所述当前帧图像的特征图与空间对齐处理后的历史帧图像的特征图进行融合处理，以得到融合后的特征图包括：将当前帧图像的特征图与细化处理后的历史帧图像的特征图输入时域特征融合网络，以得到融合后的特征图。

可选地，所述方法还包括：在所述对所述融合后的特征图进行目标关键点检测，以得到目标关键点检测结果之后，根据所述目标关键点检测结果对目标的姿态进行估计。

为了解决上述技术问题，另一方面，本发明还提供了一种视频数据处理装置。

本发明的视频数据处理装置包括：特征提取模块，用于将当前帧图像输入特征提取网络，以得到所述当前帧图像的特征图；特征对齐模块，用于确定所述当前帧图像与历史帧图像之间的光流信息，根据所述光流信息将历史帧图像的特征图与所述当前帧图像的特征图进行空间对齐处理；其中，所述历史帧图像为视频中与所述当前帧图像相邻的一帧或多帧图像；融合处理模块，用于对所述当前帧图像的特征图与空间对齐处理后的历史帧图像的特征图进行融合处理，以得到融合后的特征图；检测模块，用于对所述融合后的特征图进行目标关键点检测，以得到目标关键点检测结果。

可选地，所述特征对齐模块确定所述当前帧图像与历史帧图像之间的光流信息包括：所述特征对齐模块将所述当前帧图像与历史帧图像输入光流信息提取网络，以得到所述当前帧图像与历史帧图像之间的光流信息；其中，所述光流信息提取网络基于卷积神经网络构建。

可选地，所述特征对齐模块根据所述光流信息将历史帧图像的特征图与所述当前帧图像的特征图进行空间对齐处理包括：所述特征对齐模块通过双线性插值将对所述历史帧图像与所述当前帧的光流信息进行缩放，以使缩放后的光流信息与所述特征图的尺寸相同；所述特征对齐模块根据缩放后的光流信息对历史帧图像的特征图与所述当前帧图像的特征图进行空间对齐。

可选地，所述特征对齐模块，还用于根据所述光流信息提取网络输出的尺度场对所述空间对齐后的历史帧图像的特征图进行细化处理。

(三)有益效果

本发明的上述技术方案具有如下优点：通过确定所述当前帧图像与历史帧图像之间的光流信息，根据所述光流信息将历史帧图像的特征图与所述当前帧图像的特征图进行空间对齐处理，能够消除帧间特征的空间误差，提高视频检测结果的准确率；进一步，通过对所述当前帧图像的特征图与空间对齐处理后的历史帧图像的特征图进行融合处理，对融合后的特征图进行目标关键点检测，能够提取帧间的时域信息来增强当前帧的特征，进而提高视频检测结果的准确率。

附图说明

图1是本发明实施例一中的视频数据处理方法的主要流程示意图；

图2是本发明实施例二中的视频数据处理方法的主要流程示意图；

图3是本发明实施例三中的视频数据处理装置的主要组成模块示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要指出的是，在不影响本发明实施的情况下，本发明的实施例以及实施例中的技术特征可以相互组合。

实施例一

图1是本发明实施例一中的视频数据处理方法的主要流程示意图。如图1所示，本发明实施例提供的视频数据处理方法包括：

步骤S101：将当前帧图像输入特征提取网络，以得到所述当前帧图像的特征图。

其中，当前帧图像为从待检测视频中提取的一帧图像。在该步骤中，将当前帧图像输入特征提取网络，以从当前帧图像中提取丰富的特征。示例性地，所述特征提取网络可采用卷积神经网络，比如VGG、Resnet(残差网络)等网络。

步骤S102：确定所述当前帧图像与历史帧图像之间的光流信息，根据所述光流信息将历史帧图像的特征图与所述当前帧图像的特征图进行空间对齐处理。

其中，所述历史帧图像为视频中与所述当前帧图像相邻的一帧或多帧图像。比如，当前帧图像为视频中的第5帧图像，可将视频中的第3帧图像和第4帧图像作为历史帧图像。

光流估计是根据两个观测瞬间之间的物体表面、形状等的变化从而计算出物体运动变化的一种方法。光流表征的是两幅图像间的运动信息，它反映的是前一帧图像中的像素运动到后一帧图像的瞬时速度。

在一个可选示例中，可基于深度学习算法确定当前帧图像与历史帧图像之间的光流信息。在该可选示例中，可将所述当前帧图像与历史帧图像输入光流信息提取网络，以得到所述当前帧图像与历史帧图像之间的光流信息。其中，所述光流信息提取网络可基于卷积神经网络构建。具体实施时，所述光流信息提取网络可采用Flownet、Flownet2.0等网络。在另一个可选示例中，可基于传统的光流估计算法(比如Lucas-Kanade算法等)确定当前帧图像与历史帧图像之间的光流信息。

进一步，在确定当前帧图像与历史帧图像之间的光流信息之后，可基于该光流信息将历史帧图像的特征图与当前帧图像的特征图进行空间对齐，以得到空间对齐处理后的历史帧图像的特征图。

步骤S103：对所述当前帧图像的特征图与空间对齐处理后的历史帧图像的特征图进行融合处理，以得到融合后的特征图。

示例性地，在该步骤中，可将当前帧图像的特征图与空间对齐处理后的历史帧图像的特征图输入时域特征融合网络，以得到融合后的特征图。其中，所述时序特征融合网络可以为LSTM(Long Short-Term Memory，长短期记忆网络)、GRU(Gated Recurrent Units，门控循环单元)、ConvGRU等可用于时序特征融合的网络。

步骤S104：对所述融合后的特征图进行目标关键点检测，以得到目标关键点检测结果。

示例性地，在得到融合后的特征图之后，可将融合后的特征图输入目标关键点检测网络，以输出目标关键点检测结果。以目标为人体为例，可将融合后的特征图输入人体关键点检测模型，以得到人体关键点检测结果。例如，在进行人体关键点检测时，可采用Mask-RCNN中具体任务的子网络(包括8层3*3的卷积层)。另外，考虑到人体关键点检测的准确率对于特征图的分辨率很敏感，因此还可在8层卷积层的基础上级联一个解卷积层和一个双线性插值层，使得最后输出的结果尺度为56×56。

在本发明实施例中，通过确定所述当前帧图像与历史帧图像之间的光流信息，根据所述光流信息将历史帧图像的特征图与所述当前帧图像的特征图进行空间对齐处理，能够消除帧间特征的空间误差，提高视频检测结果的准确率；进一步，通过对所述当前帧图像的特征图与空间对齐处理后的历史帧图像的特征图进行融合处理，对融合后的特征图进行目标关键点检测，能够提取帧间的时域信息来增强当前帧的特征，进而提高视频检测结果的准确率。

实施例二

图2是本发明实施例二中的视频数据处理方法的主要流程示意图。如图2所示，本发明实施例的视频数据方法包括：

步骤S201：将当前帧图像输入特征提取网络，以得到所述当前帧图像的特征图。

其中，当前帧图像为从待检测视频中提取的一帧图像。在该步骤中，将当前帧图像输入特征提取网络，以从当前帧图像中提取丰富的特征。示例性地，所述特征提取网络可采用卷积神经网络，比如VGG、或者Resnet(残差网络)、FPN(特征图金字塔网络)等网络。

在一个可选实施方式中，考虑到图像中往往存在大小、尺度各异的不同目标，仅从单一尺度的特征图进行检测容易漏检，故而，采用FPN网络作为特征提取网络，以输出多尺度的特征图。与采用Resnet网络相比，通过使用FPN网络作为主干网络可以将不同尺度的信息融合起来，输出的多尺度特征图对于后续的目标关键点检测具有重要的意义。

步骤S202：将所述当前帧图像与历史帧图像输入光流信息提取网络，以得到所述当前帧图像与历史帧图像之间的光流信息以及尺度场信息。

在本发明实施例中，可基于深度学习算法确定当前帧图像与历史帧图像之间的光流信息。具体来说，可将所述当前帧图像与历史帧图像输入光流信息提取网络，以得到所述当前帧图像与历史帧图像之间的光流信息。其中，所述光流信息提取网络可基于卷积神经网络构建。具体实施时，所述光流信息提取网络可采用Flownet、Flownet2S等网络。

步骤S203：根据所述光流信息将历史帧图像的特征图与所述当前帧图像的特征图进行空间对齐处理。

示例性地，步骤S203可具体包括以下步骤：通过双线性插值将对所述历史帧图像与所述当前帧的光流信息进行缩放，以使缩放后的光流信息与所述特征图的尺寸相同；根据缩放后的光流信息对历史帧图像的特征图与所述当前帧图像的特征图进行空间对齐。

进一步，假设用M_i→k来表示一个通过光流提取网络计算得到的第i帧到第k帧的二维光流场，假设某一像素在第i帧位于位置p，在第k帧时该像素运动到位置q，则有q＝p+δp，其中δp＝M_i→k(p)。由于上式中的δp大都是小数，因此可通过式(1)来实现特征对齐。

其中，c表示特征图f的一个通道；q表示特征图上的任一个坐标；G(q,p+δp)表示双线性插值变换核，用于将光流缩放到特征图的相同尺寸；由于G(q,p+δp)是二维变换核的，可以将其分解为两个一维变换核相乘的形式，如式(2)所示。

G(q,p+δp)＝g(q_x,p_x+δp_x)·g(q_y,p_y+δp_y) (2)

其中，G(q_x,p_x+δp_x)表示一个一维变换核，G(q_y,p_y+δp_y)表示其另一个一维变换核；这两个一维变换核满足：g(a,b)＝max(0,1-|a-b)。由于上式中只有很少项是非零的，所以上式的计算会很快。

步骤S204：根据所述尺度场信息对空间对齐后的历史帧图像的特征图进行细化处理。

在本发明实施例中，考虑到光流估计结果可能存在误差，进而导致上述空间对齐存在误差。为了使得对齐后的特征能够更有利于进行目标关键点检测，可令光流提取网络在输出光流场的同时输出一个和特征图相同维度的尺度场S_i→k，并令尺度场S_i→k和空间对齐后的特征图相乘，以得到细化后的特征图。

步骤S205：将当前帧图像的特征图与细化处理后的历史帧图像的特征图输入时域特征融合网络，以得到融合后的特征图。

示例性地，在该步骤中，可将当前帧图像的特征图与空间对齐处理后的历史帧图像的特征图输入时域特征融合网络，以得到融合后的特征图。其中，所述时序特征融合网络可以为LSTM(Long Short-Term Memory，长短期记忆网络)、GRU(Gated Recurrent Units，门控循环单元)、ConvGRU等可用于时序特征融合的网络。其中，LSTM有遗忘门、输入门、输出门三个门控制信息的流动，LSTM通过记忆单元把隐层状态包装起来。GRU有更新门、重置门两个门，GRU直接将隐层状态传给下一个单元。与LSTM相比，GRU参数更少因此更容易收敛。ConvGRU是传统GRU的扩展，它将传统GRU中的全连接层换成了卷积层，因此它不仅具有GRU的时序建模能力，而且还能像CNN(卷积神经网络)一样刻画局部特征，可以说是时空特性兼备。

步骤S206：对所述融合后的特征图进行目标关键点检测，以得到目标关键点检测结果。

示例性地，在得到融合后的特征图之后，可将融合后的特征图输入目标关键点检测网络，以输出目标关键点检测结果。以目标为人体为例，可将融合后的特征图输入人体关键点检测模型，以得到人体关键点检测结果。例如，在进行人体关键点检测时，可采用Mask-RCNN中具体任务的子网络(包括8层3*3的卷积层)。另外，考虑到人体关键点检测的准确率对于特征图的分辨率很敏感，因此还可在8层卷积层的基础上级联一个解卷积层和一个双线性插值层，使得最后输出的结果尺度为56×56。具体实施时，在得到融合后的特征图之后，且在步骤S206之前，可先通过候选框生成网络生成目标候选框，根据目标候选框对特征图进行剪裁。

步骤S207：根据所述目标关键点检测结果对目标的姿态进行估计。

在得到目标关键点检测结果，可据此对目标的姿态进行估计。例如，在得到人体关键点检测结果后，可据此对视频中人物的姿态进行估计。

在本发明实施例中，通过以上步骤实现了一种适用于视频的目标关键点检测算法，能够进一步提高目标关键点检测的准确率，解决了现有利用单帧检测算法对视频进行逐帧处理时由于视频中广泛存在的运动模糊、遮挡等问题造成检测算法的性能急剧下降、目标检测结果不准确的问题。进一步，通过将相邻的几帧图像送到特征提取网络生成相应的特征图，根据光流信息将历史帧的特征图于当前帧的特征图进行对齐，再通过convGRU(Convlution Gate Recurrent Unit)将对齐后的历史帧的特征图和当前帧的特征图进行融合，并将融合后的特征图用于后续的目标关键点检测，能够进一步提高检测的准确率。

实施例三

图3是本发明实施例三中的视频数据处理装置的主要组成模块示意图。如图3所示，本发明实施例的视频数据处理装置300包括：特征提取模块301、特征对齐模块302、融合处理模块303、检测模块304。

特征提取模块301，用于将当前帧图像输入特征提取网络，以得到所述当前帧图像的特征图。

其中，当前帧图像为从待检测视频中提取的一帧图像。具体来说，特征提取模块301将当前帧图像输入特征提取网络，以从当前帧图像中提取丰富的特征。示例性地，所述特征提取网络可采用卷积神经网络，比如VGG、Resnet(残差网络)等网络。

特征对齐模块302，用于确定所述当前帧图像与历史帧图像之间的光流信息，根据所述光流信息将历史帧图像的特征图与所述当前帧图像的特征图进行空间对齐处理。

在一个可选示例中，特征对齐模块302可基于深度学习算法确定当前帧图像与历史帧图像之间的光流信息。在该可选示例中，特征对齐模块302可将所述当前帧图像与历史帧图像输入光流信息提取网络，以得到所述当前帧图像与历史帧图像之间的光流信息。其中，所述光流信息提取网络可基于卷积神经网络构建。具体实施时，所述光流信息提取网络可采用Flownet、Flownet2.0等网络。在另一个可选示例中，特征对齐模块302可基于传统的光流估计算法(比如Lucas-Kanade算法等)确定当前帧图像与历史帧图像之间的光流信息。

进一步，在确定当前帧图像与历史帧图像之间的光流信息之后，特征对齐模块302可基于该光流信息将历史帧图像的特征图与当前帧图像的特征图进行空间对齐，以得到空间对齐处理后的历史帧图像的特征图。

融合处理模块303，用于对所述当前帧图像的特征图与空间对齐处理后的历史帧图像的特征图进行融合处理，以得到融合后的特征图。

示例性地，融合处理模块303可将当前帧图像的特征图与空间对齐处理后的历史帧图像的特征图输入时域特征融合网络，以得到融合后的特征图。其中，所述时序特征融合网络可以为LSTM(Long Short-Term Memory，长短期记忆网络)、GRU(Gated RecurrentUnits，门控循环单元)、ConvGRU等可用于时序特征融合的网络。

检测模块304，用于对所述融合后的特征图进行目标关键点检测，以得到目标关键点检测结果。

示例性地，在得到融合后的特征图之后，检测模块304可将融合后的特征图输入目标关键点检测网络，以输出目标关键点检测结果。以目标为人体为例，检测模块304可将融合后的特征图输入人体关键点检测模型，以得到人体关键点检测结果。例如，在进行人体关键点检测时，可采用Mask-RCNN中具体任务的子网络(包括8层3*3的卷积层)。另外，考虑到人体关键点检测的准确率对于特征图的分辨率很敏感，因此还可在8层卷积层的基础上级联一个解卷积层和一个双线性插值层，使得最后输出的结果尺度为56×56。

在本发明实施例的装置中，通过特征对齐模块确定所述当前帧图像与历史帧图像之间的光流信息，根据所述光流信息将历史帧图像的特征图与所述当前帧图像的特征图进行空间对齐处理，能够消除帧间特征的空间误差，提高视频检测结果的准确率；进一步，通过融合处理模块对所述当前帧图像的特征图与空间对齐处理后的历史帧图像的特征图进行融合处理，对融合后的特征图进行目标关键点检测，能够提取帧间的时域信息来增强当前帧的特征，进而提高视频检测结果的准确率。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种视频数据处理方法，其特征在于，所述方法包括：

将当前帧图像输入特征提取网络，以得到所述当前帧图像的特征图；

确定所述当前帧图像与历史帧图像之间的光流信息，根据所述光流信息将历史帧图像的特征图与所述当前帧图像的特征图进行空间对齐处理；其中，所述历史帧图像为视频中与所述当前帧图像相邻的一帧或多帧图像；

对所述当前帧图像的特征图与空间对齐处理后的历史帧图像的特征图进行融合处理，以得到融合后的特征图；

对所述融合后的特征图进行目标关键点检测，以得到目标关键点检测结果。

2.根据权利要求1所述的方法，其特征在于，所述确定所述当前帧图像与历史帧图像之间的光流信息包括：

将所述当前帧图像与历史帧图像输入光流信息提取网络，以得到所述当前帧图像与历史帧图像之间的光流信息；其中，所述光流信息提取网络基于卷积神经网络构建。

3.根据权利要求1所述的方法，其特征在于，所述根据所述光流信息将历史帧图像的特征图与所述当前帧图像的特征图进行空间对齐处理包括：

通过双线性插值将对所述历史帧图像与所述当前帧的光流信息进行缩放，以使缩放后的光流信息与所述特征图的尺寸相同；根据缩放后的光流信息对历史帧图像的特征图与所述当前帧图像的特征图进行空间对齐。

4.根据权利要求2所述的方法，其特征在于，所述方法还包括：

在所述对所述当前帧图像的特征图与空间对齐处理后的历史帧图像的特征图进行融合处理之前，根据所述光流信息提取网络输出的尺度场对所述空间对齐后的历史帧图像的特征图进行细化处理。

5.根据权利要求4所述的方法，其特征在于，所述对所述当前帧图像的特征图与空间对齐处理后的历史帧图像的特征图进行融合处理，以得到融合后的特征图包括：

将当前帧图像的特征图与细化处理后的历史帧图像的特征图输入时域特征融合网络，以得到融合后的特征图。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在所述对所述融合后的特征图进行目标关键点检测，以得到目标关键点检测结果之后，根据所述目标关键点检测结果对目标的姿态进行估计。

7.一种视频数据处理装置，其特征在于，所述装置包括：

特征提取模块，用于将当前帧图像输入特征提取网络，以得到所述当前帧图像的特征图；

特征对齐模块，用于确定所述当前帧图像与历史帧图像之间的光流信息，根据所述光流信息将历史帧图像的特征图与所述当前帧图像的特征图进行空间对齐处理；其中，所述历史帧图像为视频中与所述当前帧图像相邻的一帧或多帧图像；

融合处理模块，用于对所述当前帧图像的特征图与空间对齐处理后的历史帧图像的特征图进行融合处理，以得到融合后的特征图；

检测模块，用于对所述融合后的特征图进行目标关键点检测，以得到目标关键点检测结果。

8.根据权利要求7所述的装置，其特征在于，所述特征对齐模块确定所述当前帧图像与历史帧图像之间的光流信息包括：

所述特征对齐模块将所述当前帧图像与历史帧图像输入光流信息提取网络，以得到所述当前帧图像与历史帧图像之间的光流信息；其中，所述光流信息提取网络基于卷积神经网络构建。

9.根据权利要求7所述的装置，其特征在于，所述特征对齐模块根据所述光流信息将历史帧图像的特征图与所述当前帧图像的特征图进行空间对齐处理包括：

所述特征对齐模块通过双线性插值将对所述历史帧图像与所述当前帧的光流信息进行缩放，以使缩放后的光流信息与所述特征图的尺寸相同；所述特征对齐模块根据缩放后的光流信息对历史帧图像的特征图与所述当前帧图像的特征图进行空间对齐。

10.根据权利要求8所述的装置，其特征在于，所述特征对齐模块，还用于根据所述光流信息提取网络输出的尺度场对所述空间对齐后的历史帧图像的特征图进行细化处理。