CN109815931B

CN109815931B - 一种视频物体识别的方法、装置、设备以及存储介质

Info

Publication number: CN109815931B
Application number: CN201910104597.7A
Authority: CN
Inventors: 黄国恒; 黄斯彤; 胡可; 张挥谦
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2019-02-01
Filing date: 2019-02-01
Publication date: 2024-02-23
Anticipated expiration: 2039-02-01
Also published as: CN109815931A

Abstract

本发明公开了一种视频物体识别的方法、装置、设备以及计算机可读存储介质，包括：读取待识别的视频，截取所述视频的当前帧的图像；利用FCN网络算法对所述当前帧的图像进行下采样处理，得到所述当前帧的图像的第一空间特征图像；利用区域特征聚集算法对所述第一空间特征图像进行处理，得到所述第一空间特征图像内的感兴趣区域，截取所述感兴趣区域内的目标图像；将所述目标图像输入至所述FCN网络算法，计算得到所述目标图像的第二空间特征图像，以便于根据所述第二空间特征图像，识别所述当前帧的图像内的目标物体。本发明所提供的方法、装置、设备以及计算机可读存储介质，提高了视频图像内物体分割的准确性。

Description

一种视频物体识别的方法、装置、设备以及存储介质

技术领域

本发明涉及计算机视觉视频检测技术领域，特别是涉及一种视频物体识别的方法、装置、设备以及计算机可读存储介质。

背景技术

计算机视觉在当今科技发展中占有重要意义，图像和视频识别更是被用到各行各业中，如安防，自动驾驶，医疗成像中。因此不断地追求识别的精度有着十分重要的意义。

现有技术中视频物体识别方法对于图像内边缘不够清晰，形状尺寸在输入的图像之间占据相对较小的区域的物体会存在被错误分割或者不分割的问题。

综上所述可以看出，如何提高视频图像内物体分割的准确性是目前有待解决的问题。

发明内容

本发明的目的是提供一种视频物体识别的方法、装置、设备以及计算机可读存储介质，以解决现有技术中对于视频图像内边缘不清晰，形状尺寸占比较小的物体存在被错误分割或不分割的问题。

为解决上述技术问题，本发明提供一种视频物体识别的方法，包括：读取待识别的视频，截取所述视频的当前帧的图像；利用FCN网络算法对所述当前帧的图像进行下采样处理，得到所述当前帧的图像的第一空间特征图像；利用区域特征聚集算法对所述第一空间特征图像进行处理，得到所述第一空间特征图像内的感兴趣区域，截取所述感兴趣区域内的目标图像；将所述目标图像输入至所述FCN网络算法，计算得到所述目标图像的第二空间特征图像，以便于根据所述第二空间特征图像，识别所述当前帧的图像内的目标物体。

优选地，所述读取待识别的视频，截取所述视频的当前帧的图像包括：

调用视频接口读取所述待识别的视频，在所述视频时长t分钟内每隔n秒截取一帧图像，从而得到60t/n帧待处理的图像；

获取所述当前帧的图像，以便于利用所述FCN网络算法对所述当前帧的图像进行下采样处理。

优选地，所述利用区域特征聚集算法对所述第一空间特征图像进行处理，得到所述第一空间特征图像内的感兴趣区域，截取所述感兴趣区域内的目标图像包括：

利用ROI Align算法对所述第一空间特征图像进行处理，得到所述第一空间特征图内的感兴趣区域，以便于在所述第一空间特征图内截取所述感兴趣区域内的目标图像。

优选地，所述利用区域特征聚集算法对所述第一空间特征图像进行处理，得到所述第一空间特征图像内的感兴趣区域，截取所述感兴趣区域内的目标图像后还包括：

利用基于对象上下文的场景分割网络，预测所述目标图像内各个像素所属对象的类别，并利用图像金字塔结构为所述目标图像内的各个类别设置标签。

优选地，所述利用基于对象上下文的场景分割网络，预测所述目标图像内各个像素所属对象的类别，并利用图像金字塔结构为所述目标图像内的各个类别设置标签前还包括：

依据所述当前帧的图像的上一副图像在长期短期记忆网络内的记忆内容，对所述目标图像内的像素进行比对与校正。

本发明还提供了一种视频物体识别的装置，包括：

第一截取模块，用于读取待识别的视频，截取所述视频的当前帧的图像；

下采样模块，用于利用FCN网络算法对所述当前帧的图像进行下采样处理，得到所述当前帧的图像的第一空间特征图像；

第二截取模块，用于利用区域特征聚集算法对所述第一空间特征图像进行处理，得到所述第一空间特征图像内的感兴趣区域，截取所述感兴趣区域内的目标图像；

识别模块，用于将所述目标图像输入至所述FCN网络算法，计算得到所述目标图像的第二空间特征图像，以便于根据所述第二空间特征图像，识别所述当前帧的图像内的目标物体。

优选地，所述第一截取模块具体用于：

优选地，所述第二截取模块具体用于：

本发明还提供了一种视频物体识别的设备，包括：

存储器，用于存储计算机程序；处理器，用于执行所述计算机程序时实现上述一种视频物体识别的方法的步骤。

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述一种视频物体识别的方法的步骤。

本发明所提供的视频物体识别的方法，截取到视频内当前帧的图像，利用FCN网络算法对所述当前帧的图像进行下采样处理，得到所述当前帧的图像的第一空间特征图像。利用区域特征聚集算法对所述第一空间特征图像进行处理，得到所述第一空间特征图像的感兴趣区域。截取所述感兴趣区域内的图像作为目标图像，将所述图像再次输入至所述FCN网络算法中，得到所述目标图像的第二空间特征图像。在所述第二空间特征图像中精细的分割出所述当前帧的图像中小物体的轮廓。本发明将视频当前帧的截图输入至所述FCN网络算法后，输出所述当前帧的图像的粗尺度分割图；将所述粗尺度分割图中感兴趣区域内的图像再次输入至所述FCN网络算法中，从而得到所述目标图像的精尺度分割图，且所述精尺度分割图内可以准确划分所述当前帧的图像内的形状尺度较小的物体，解决了现有技术中由于图像内物体边缘不够清晰，形状尺寸在输入的图像之间占据相对较小的区域导致被错误分割或者不分割的问题。

相对应的，本发明所提供的视频物体识别的装置、设备以及计算机可读存储介质均具有上述有益效果。

附图说明

为了更清楚的说明本发明实施例或现有技术的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明所提供的视频物体识别的方法的第一种具体实施例的流程图；

图2为利用ROI Align算法截取图像感兴趣区域的示意图；

图3为本发明所提供的视频物体识别的方法的第二种具体实施例的流程图；

图4为图像金字塔的工作原理图；

图5为本发明实施例提供的一种视频物体识别的装置的结构框图。

具体实施方式

本发明的核心是提供一种视频物体识别的方法、装置、设备以及计算机可读存储介质，提高了视频图像内物体分割的准确性。

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，图1为本发明所提供的视频物体识别的方法的第一种具体实施例的流程图；具体操作步骤如下：

步骤S101：读取待识别的视频，截取所述视频的当前帧的图像；

在本实施中，可以调用视频接口读取所述待识别的视频，在所述视频时长t分钟内每隔n秒截取一帧图像，从而得到60t/n帧待处理的图像。

步骤S102：利用FCN网络算法对所述当前帧的图像进行下采样处理，得到所述当前帧的图像的第一空间特征图像；

所述FCN(Fully Convolutional Networks)网络是针对语义分割训练一个端到端，点对点的网络，达到了state-of-the-art。FCN对图像进行像素级的分类，从而解决了语义级别的图像分割问题。与经典的CNN在卷积层使用全连接层得到固定长度的特征向量进行分类不同，FCN可以接受任意尺寸的输入图像，采用反卷积层对最后一个卷基层的特征图(feature map)进行上采样，使它恢复到输入图像相同的尺寸，从而可以对每一个像素都产生一个预测，同时保留了原始输入图像中的空间信息，最后奇偶在上采样的特征图进行像素的分类。

所述FCN网络算法用到的三种技术为：卷积化(convolution alization)、上采样(up sampling)和跳跃结构(Skip Architecture)。

所述卷积化：分类所使用的网络通常会在最后连接全连接层，它会将原来的二维的矩阵压缩成一维数据，从而丢失空间信息，最后训练输出的知识一个标量，这就是我们的分类标签。全连接层和卷积层之间唯一的不同就是卷积层中的神经元只与输入数据中的一个局部区域连接，并且在卷积列中的神经元共享参数。然而在两类层中，神经元都是计算点积，所以它们的函数形式是一样的。因此，将此两者相互转化是可能的。把全连接层重塑成卷积层可以让卷积网络在一张更大的输入图片上滑动，得到多个输出，从而让我们在单个向前传播的过程中完成上述的操作。

所述上采样：在caffe中也被称为反卷积(Deconvolution)。使用了这一种反卷积手段使得图像可以变大，FCN作者使用的方法是反卷积的一种变体，这样就可以获得相应的像素值，图像可以实现end to end的训练。

所述跳跃结构：其实直接使用前两种结构就已经可以得到结果了，但是直接将全卷积后的结果上采样后得到的结果通常是很粗糙的。限于精度问题不能够很好地还原图像当中的特征，因此在这里向前迭代。所以这一结构主要是用来优化最终结果的，思路就是将不同池化层的结果进行上采样，然后结合这些结果来优化输出，最后就完成了整个图像的还原。

在获取所述当前帧的图像后，对所述当前帧的图像进行下采样处理时：输入是I_t，也就是帧。卷积网络中的每一层数据都是尺寸为H*W*D的三维数组，其中H和W是空间维度，D是特征或通道维度。第一层是图像，像素大小为H*W，以及D个颜色通道。较高层中的位置对应于它们路径连接的图像中的位置，这些位置称为它们的接受域。在特定层记X_ij为在坐标(i，j)的数据向量，在following layer有Y_ij，Y_ij的计算公式如下：

Y_ij＝f_ks({x_si+δ_i，s_j+δ_j}0≤δ_i，δ_j≤k)

其中，k称为卷积核大小，s是步长或者称为二次采样因子，f_ks决定图层类型：一个卷积的矩阵乘或者是平均池化，用于最大池的最大空间值或者是一个激励函数的一个非线性elementwise，亦或是层的其他种类等等。当卷积核尺寸和步长遵从转换规则，这个函数形式被表述为如下形式：

下采样输入图片后，用一个大小为W x H的图像栅格定义I_t，m个不同的Maps中有特征集FCN的输出是大小为w′*H′的/>其中w＜＜w，H′＜＜H。图片I_t用特征集来表示，每个点(i，j)都有1＜＝z＜＝w′，1＜＝J＜＝H′。/>是I_t中m个接受域的描述。

步骤S103：利用区域特征聚集算法对所述第一空间特征图像进行处理，得到所述第一空间特征图像内的感兴趣区域，截取所述感兴趣区域内的目标图像；

在本实施例中，可利用ROI Align算法对所述第一空间特征图像进行处理，得到所述第一空间特征图内的n感兴趣区域，以便于在所述第一空间特征图内截取所述感兴趣区域内的目标图像。

在常见的两级物体检测框架(比如Fast-RCNN,Faster-RCNN)中，ROI Pooling的作用是根据预选框的位置坐标在feature map中将相应区域池化为固定尺寸的feature map，以便进行后续的分类以及包围框的回归操作。由于预选框的位置通常是模型回归得到的，一般来说是浮点数，而池化后的特征图要求尺寸固定。所以ROI Pooling存在将候选框便捷量化为整数点坐标值，以及将量化后的便捷区域平均分割成k*k个单元，并且对每个单元的边界进行量化的量词量化过程。ROI Pooling的反向传播公式如下：

但是事实上，经过两次量化以后的候选框，已经与最开始回归出来的位置有一定的偏差，这个偏差会影响检测或者分割的准确性。为了解决ROI Pooling的上述缺点，在本实施例中使用ROI Align这一改进的方法。ROI Align的思路很简单，就是取消量化操作，并且通过使用双线性内插的方法获得坐标为浮点数的像素点上的图像数值，让整个特征聚集的过程转化为一个连续的操作。具体的算法操作上，ROIAlign的反向传播公式如下：

在ROI Align中，Xi^*(r，j)是一个浮点数的坐标位置(前向传播时计算出来的采样点)，在池化前的特征图中，每一个与Xi^*(r，j)横纵坐标均小于1的点都应该接受与此对应的点y_rj回传的梯度，如图2所示。

步骤104：将所述目标图像输入至所述FCN网络算法，计算得到所述目标图像的第二空间特征图像，以便于根据所述第二空间特征图像，识别所述当前帧的图像内的目标物体。

在本实施例中，将视频当前帧的截图输入至所述FCN网络算法后，输出所述当前帧的图像的粗尺度分割图；将所述粗尺度分割图中感兴趣区域内的图像再次输入至所述FCN网络算法中，从而得到所述目标图像的精尺度分割图，且所述精尺度分割图内可以准确划分所述当前帧的图像内的形状尺度较小的物体。

基于上述实施例，在本实施例中，在截取所述感兴趣区域内的目标图像后，可以利用基于对象上下文的场景分割网络和LSTM的记忆内容对所述目标图像进行比对校正，以便于提高所述目标图像的识别结果的准确率。

请参考图3，图3为本发明所提供的视频物体识别的方法的第二种具体实施例的流程图；具体操作步骤如下：

步骤S301：调用视频接口读取待识别的视频，截取所述视频的当前帧的图像；

步骤S302：利用FCN网络算法对所述当前帧的图像进行下采样处理，得到所述当前帧的图像的第一空间特征图像；

步骤S303：利用ROI Align算法对所述第一空间特征图像进行处理，得到所述第一空间特征图内的感兴趣区域，以便于在所述第一空间特征图内截取所述感兴趣区域内的目标图像；

步骤S304：利用基于对象上下文的场景分割网络，预测所述目标图像内各个像素所属对象的类别，并利用图像金字塔结构为所述目标图像内的各个类别设置标签，以便于对所述目标图像内的像素进行比对和校正；

在深度学习兴起之前，开展了很多利用场景上下文来提高检测精度的研究。而随着金字塔对象上下文和和Atrous空间金字塔对象上下文来捕获多个尺度的上下文的方法的兴起，基于FCN的利用上下文关联信息的一种基于对象上下文的场景分割网络(ObjectContext Network for Scene Parsing，简称OCNet)也就被提了出来。上下文对于各种计算机视觉任务至关重要最先进的场景解析方法利用了在图像级别定义的上下文的有效性。这种上下文携带属于不同类别的对象的混合。根据每个像素的标签被定义为它所属的对象的类别，OCNet提出了考虑属于同一类别的对象的对象上下文。任何像素P的对象上下文的表示是属于与P相同类别的所有像素的特征的聚合。由于预先估计属于相同类别的所有对象是不切实际的，OCNet采用自我关注方法通过学习像素相似性图来更加精细地估计对象。

为了能让高层的低分辨率，强语义信息特征如何和浅层的高分辨率，弱语义信息自然地结合；为了不引入过多的额外计算，做到也只需要单尺度的原始输入就可以检测到较小的目标，本实施例选择了图像金字塔，如图4所示。图中实体轮廓线框起来的就是不同层输出的特征图。实体线越粗，代表其语义信息越强。不同层级的特征地图做了合并，能够使得每个级别的语义信息都比较强(注意看实体线的粗细)。这样保证了每一层都有合适的分辨率以及强语义特征。在裁剪出来后的每个分辨率的feature map引入后一分辨率缩放两倍的feature map做element-wise相加的操作，通过这样的连接，每一层预测所用的feature map都融合了不同分辨率、不同语义强度的特征，融合的不同分辨率的featuremap分别做对应分辨率大小的物体检测。这里比较重要的一点是怎么把ROI分配给每一层，本实施例中采用了下面的公式：

步骤S305：依据所述当前帧的图像的上一副图像在长期短期记忆网络内的记忆内容，对所述目标图像内的像素进行比对与校正；

LSTM(Long Short Term)网络是一种RNN特殊的类型，可以学习长期依赖信息。长期短期记忆(LSTM)网络是一种特殊类型的递归神经网络(RNN)，引入它来解决RNN模型梯度弥散问题和实现长时间记忆信息的功能。LSTM由Hochreiter&Schmidhuber(1997)提出，并在近期被Alex Graves进行了改良和推广。在很多问题，LSTM都取得相当巨大的成功，并得到了广泛的使用。LSTM通过刻意的设计来避免长期依赖问题。记住长期的信息在实践中是LSTM的默认行为，而并非需要付出很大代价才能获得的能力。所有RNN都具有一种重复神经网络模块的链式的形式。每个LSTM模块由一个存储器单元和许多输入和输出门组成，这些门控制序列中的信息流并防止它在时间序列中丢失重要信息。

将第一次经过FCN的粗尺度分割图与精细尺度分割图联合迭代优化，由OcNet可以联合上下文场景信息，有助于两阶段的分割图更好地融合优化。这里需要使用到LSTM(LongShort Term)。由于在误差反向传播时，算出来的梯度会随着往前传播而发生指数级的衰减或放大，因此，RNN的记忆单元是短时的。LSTM的第一步就是决定什么信息应该被神经元遗忘。这是一个被称为“遗忘门层”的Sigmod层组成的。它输入h_t-1和x_t，然后在c^t-1每个神经元状态输出0～1之间的数字。“1”表示“完全保留这个”；“0”表示“完全遗忘这个”。首先使用LSTM的当前输入χ^t和上一个状态传递下来的h^t-1拼接训练得到四个状态。

其中，z^f，zⁱ，z⁰是由拼接向量乘以权重矩阵之后，再通过一个sigmoid激活函数转换成0到1之间的数值，来作为一种门控状态。而z则是将结果通过一个tanh激活函数将转换成-1到1之间的值。通过计算得到的z^f(f表示forget)来作为忘记门控，来控制上一个状态的c^t-1哪些需要留哪些需要忘。接下来，主要是会对χ^t输入进行选择记忆。哪些重要则着重记录下来，哪些不重要，则少记一些。当前的输入内容由前面计算得到的z表示。而选择的门控信号则是由zⁱ(i代表information)来进行控制。

步骤S306：将经过所述基于对象上下文的场景分割网络和所述长期短期记忆网络的比对和校正后的目标图像输入至所述FCN网络算法，计算得到所述目标图像的第二空间特征图像；

步骤S307：根据所述第二空间特征图像，识别所述当前帧的图像内的目标物体。

在本实施例中，联合LSTM的记忆内容，以及粗分割图的概率得分与语义信息，以及OcNet共享的场景信息，可以优化最后的精细分割。最后输出的分割结果在边缘不够清晰的物体上会得到更好的体现。

请参考图5，图5为本发明实施例提供的一种视频物体识别的装置的结构框图；具体装置可以包括：

第一截取模块100，用于读取待识别的视频，截取所述视频的当前帧的图像；

下采样模块200，用于利用FCN网络算法对所述当前帧的图像进行下采样处理，得到所述当前帧的图像的第一空间特征图像；

第二截取模块300，用于利用区域特征聚集算法对所述第一空间特征图像进行处理，得到所述第一空间特征图像内的感兴趣区域，截取所述感兴趣区域内的目标图像；

识别模块400，用于将所述目标图像输入至所述FCN网络算法，计算得到所述目标图像的第二空间特征图像，以便于根据所述第二空间特征图像，识别所述当前帧的图像内的目标物体。

本实施例的视频物体识别的装置用于实现前述的视频物体识别的方法，因此视频物体识别的装置中的具体实施方式可见前文中的视频物体识别的方法的实施例部分，例如，第一截取模块100，下采样模块200，第二截取模块300，识别模块400，分别用于实现上述视频物体识别的方法中步骤S101，S102，S103和S104，所以，其具体实施方式可以参照相应的各个部分实施例的描述，在此不再赘述。

本发明具体实施例还提供了一种视频物体识别的设备，包括：存储器，用于存储计算机程序；处理器，用于执行所述计算机程序时实现上述一种视频物体识别的方法的步骤。

本发明具体实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述一种视频物体识别的方法的步骤。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本发明所提供的视频物体识别的方法、装置、设备以及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.一种视频物体识别的方法，其特征在于，包括：

读取待识别的视频，截取所述视频的当前帧的图像；

利用FCN网络算法对所述当前帧的图像进行下采样处理，得到所述当前帧的图像的第一空间特征图像，即得到所述当前帧的图像的粗尺度分割图；

利用区域特征聚集算法对所述第一空间特征图像进行处理，得到所述第一空间特征图像内的感兴趣区域，截取所述感兴趣区域内的目标图像；

利用基于对象上下文的场景分割网络，预测所述目标图像内各个像素所属对象的类别，并利用图像金字塔结构为所述目标图像内的各个类别设置标签，依据所述当前帧的图像的上一副图像在长期短期记忆网络内的记忆内容，对所述目标图像内的像素进行比对与校正；

将经过所述基于对象上下文的场景分割网络和所述长期短期记忆网络的比对和校正后的所述目标图像输入至所述FCN网络算法，计算得到所述目标图像的第二空间特征图像，即得到所述目标图像的精尺度分割图，以便于根据所述第二空间特征图像，识别所述当前帧的图像内的目标物体。

2.如权利要求1所述的方法，其特征在于，所述读取待识别的视频，截取所述视频的当前帧的图像包括：

3.如权利要求1所述的方法，其特征在于，所述利用区域特征聚集算法对所述第一空间特征图像进行处理，得到所述第一空间特征图像内的感兴趣区域，截取所述感兴趣区域内的目标图像包括：

4.一种视频物体识别的装置，其特征在于，包括：

下采样模块，用于利用FCN网络算法对所述当前帧的图像进行下采样处理，得到所述当前帧的图像的第一空间特征图像，即得到所述当前帧的图像的粗尺度分割图；

第二截取模块，用于利用区域特征聚集算法对所述第一空间特征图像进行处理，得到所述第一空间特征图像内的感兴趣区域，截取所述感兴趣区域内的目标图像，利用基于对象上下文的场景分割网络，预测所述目标图像内各个像素所属对象的类别，并利用图像金字塔结构为所述目标图像内的各个类别设置标签，依据所述当前帧的图像的上一副图像在长期短期记忆网络内的记忆内容，对所述目标图像内的像素进行比对与校正；

识别模块，用于将经过所述基于对象上下文的场景分割网络和所述长期短期记忆网络的比对和校正后的所述目标图像输入至所述FCN网络算法，计算得到所述目标图像的第二空间特征图像，即得到所述目标图像的精尺度分割图，以便于根据所述第二空间特征图像，识别所述当前帧的图像内的目标物体。

5.如权利要求4所述的装置，其特征在于，所述第一截取模块具体用于：

6.如权利要求4所述的装置，其特征在于，所述第二截取模块具体用于：

7.一种视频物体识别的设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至3任一项所述一种视频物体识别的方法的步骤。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至3任一项所述一种视频物体识别的方法的步骤。