CN108053410A

CN108053410A - 运动目标分割方法及装置

Info

Publication number: CN108053410A
Application number: CN201711311606.7A
Authority: CN
Inventors: 刘挺; 邢晨; 徐展; 曲晓超; 张伟
Original assignee: Xiamen Meitu Technology Co Ltd
Current assignee: Xiamen Meitu Technology Co Ltd
Priority date: 2017-12-11
Filing date: 2017-12-11
Publication date: 2018-05-18
Anticipated expiration: 2037-12-11
Also published as: CN108053410B

Abstract

本发明实施例提供一种运动目标分割方法及装置，应用于图像处理设备，该图像处理设备中预存有用于进行运动目标分割的CNN模型。方法包括：针对待分割视频的当前图像帧，将当前图像帧以及从当前图像帧之前的预设数量帧图像中分割出的运动目标轮廓输入CNN模型进行处理，得到当前图像帧的多个特征图，该多个特征图包括运动目标的运动时序特征图及底层图像特征图；对该多个特征图进行处理，得到并输出运动目标在当前图像帧中的轮廓。通过上述设计，在CNN模型的输入信息中增加了当前图像帧之前的预设数量帧图像的信息，从而引入了运动目标的时序信息，使得CNN模型可以用更精简的神经网络层和网络参数对视频中的运动目标进行分割。

Description

运动目标分割方法及装置

技术领域

本发明涉及图像处理技术领域，具体而言，涉及一种运动目标分割方法及装置。

背景技术

图像分割是图像处理和编辑中的一项基本操作，精确地从图像中分割出所需要的区域是基于内容的图像处理算法的关键。视频分割可以看成是图像分割的扩展，是从视频流的每一帧图像分割出感兴趣的区域。在实际应用中，运动目标(如，人像、动物、交通工具等)分割是必要的处理步骤。

现有的运动目标分割方法主要包括以下两种：第一，传统分割方法，例如，基于阈值的分割方法、基于边缘的分割方法、基于区域增长的分割方法、基于聚类的分割方法以及基于图像的分割方法等；第二，基于深度学习的分割算法。

然而，上述第一种方法只适用于背景简单、运动目标没有剧烈运动且运动目标与背景对比鲜明的简单应用场景，一旦应用场景变复杂，则很容易出现分割错误；上述第二种方法，通常使用CNN(Convolutional Neural Network，卷积神经网络)模型来抽取图像底层特征(如，边缘特征、纹理特征等)，并不断抽取出抽象的语义信息，最后通过对图像上每个像素点进行分类来达到分割的目的，其算法复杂度较高，无法实现对运动目标的实时分割。

发明内容

有鉴于此，本发明的目的在于提供一种运动目标分割方法及装置，以改善上述问题。

为了达到上述目的，本发明实施例提供一种运动目标分割方法，应用于图像处理设备，所述图像处理设备预存有用于进行运动目标分割的CNN模型，所述方法包括：

针对待分割视频的当前图像帧，将所述当前图像帧以及从所述当前图像帧之前的预设数量帧图像中分割出的运动目标轮廓输入所述CNN模型进行处理，得到所述当前图像帧的多个特征图，所述多个特征图包括所述运动目标的运动时序特征图及底层图像特征图；

对所述多个特征图进行处理，得到并输出所述运动目标在所述当前图像帧中的轮廓。

可选地，所述CNN模型包括由卷积层和池化层组成的多个组合，所述多个组合依次连接，前一组合中的池化层的输出是下一组合中的卷积层的输入；所述多个特征图由多个不同的卷积层输出；

所述对所述多个特征图进行处理，得到并输出所述运动目标在所述当前图像帧中的轮廓，包括：

将所述多个特征图归一化到相同尺度；

通过级联的方式对相同尺度的所述多个特征图进行融合，得到并输出所述运动目标在所述当前图像帧中的轮廓。

可选地，所述通过级联的方式对相同尺度的所述多个特征图进行融合，得到并输出所述运动目标在所述当前图像帧中的轮廓，包括：

根据所述运动时序特征图计算出所述运动目标在所述当前图像帧中的轮廓所在范围；

根据所述底层图像特征图对所述轮廓所在范围进行校正，得到并输出所述运动目标在所述当前图像帧中的轮廓。

可选地，所述将所述多个特征图归一化到相同尺度，包括：

通过反卷积层对所述多个特征图进行尺度变换，从而得到相同尺度的所述多个特征图。

可选地，输入所述CNN模型的相邻两帧图像之间的时间间隔不超过30毫秒。

本发明实施例还提供一种运动目标分割装置，应用于图像处理设备，所述图像处理设备预存有用于进行运动目标分割的CNN模型，所述方法包括：

输入模块，用于针对分割视频的当前图像帧，将所述当前图像帧以及从所述当前图像帧之前的预设数量帧图像中分割出的运动目标轮廓输入所述CNN模型进行处理，得到所述当前图像帧的多个特征图，所述多个特征图包括所述运动目标的运动时序特征图及底层图像特征图；

处理模块，用于对所述多个特征图进行处理，得到并输出所述运动目标在所述当前图像帧中的轮廓。

可选地，所述CNN模型包括由卷积层和池化层组成的多个组合，所述多个组合依次连接，前一组合中的池化层的输出是下一组合中的卷积层的输入；所述多个特征图由多个不同的卷积层输出；所述处理模块包括：

归一化子模块，用于将所述多个特征图归一化到相同尺度；

融合子模块，用于通过级联的方式对相同尺度的所述多个特征图进行融合，得到并输出所述运动目标在所述当前图像帧中的轮廓。

可选地，所述处理模块根据所述运动时序特征图计算出所述运动目标在所述当前图像帧中的轮廓所在范围，并根据所述底层图像特征图对所述轮廓所在范围进行校正，以实现通过级联的方式对相同尺度的所述多个特征图进行融合，从而得到并输出所述运动目标在所述当前图像帧中的轮廓。

可选地，所述处理模块通过反卷积层对所述多个特征图进行尺度变换，从而得到相同尺度的所述多个特征图。

相对于现有技术而言，本发明具有以下有益效果：

本发明实施例提供一种运动目标分割方法及装置，针对待分割视频的当前图像帧，将当前图像帧以及从当前图像帧之前的预设数量帧图像中分割出的运动目标轮廓输入CNN模型进行处理，得到当前图像帧的多个特征图，该多个特征图包括运动目标的运动时序特征图及底层图像特征图；对该多个特征图进行处理，得到并输出运动目标在当前图像帧中的轮廓。通过上述设计，在CNN模型的输入信息中增加了当前图像帧之前的预设数量帧图像的信息，从而在CNN模型中引入了运动目标的时序信息，相较于仅使用当前图像帧的信息进行分割，所述CNN模型可以用更精简的神经网络层和网络参数对视频中的运动目标进行分割。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例提供的一种图像处理设备的方框示意图；

图2为本发明实施例提供的一种运动目标分割方法的流程示意图；

图3为本发明实施例提供的一种预设数量帧图像的时间间隔示意图；

图4为本发明实施例提供的又一种运动目标分割方法的流程示意图；

图5为本发明实施例提供的一种特征图的级联方式示意图；

图6为本发明实施例提供的一种运动目标分割装置的功能模块框图。

图标：100-图像处理设备；110-存储器；120-处理器；130-显示单元；200-运动目标分割装置；210-输入模块；220-处理模块；221-归一化子模块；222-融合子模块；300-CNN模型。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

经发明人研究发现，现有的基于CNN模型的运动目标分割算法通常是仅仅根据待分割视频的每一帧图像的特征对该帧图像进行分割，采用这种方式，要想得到相对精确的分割结果，需要较多的网络参数，同时还需经过较多的神经网络层，计算过程较为复杂，分割速度慢。

然而，在某些情况下(如，需要进行目标跟踪时)，需要实时地分割出视频中的运动目标，通过现有的CNN模型分割方法无法达到实时分割的效果。

因而，发明人设计对基于CNN模型的运动目标分割方法进行改进，以降低分割过程的算法复杂度，提高运动目标的分割速度，从而达到对视频中的运动目标实时分割的效果。

经过大量分析，发明人发现由于运动目标的运动是一个连续的过程，若在CNN模型的输入信息中引入运动目标的运动时序信息则可以增加用于分割的信息量，从而减少CNN模型所需的网络参数，进而减少CNN模型所需的神经网络层。

发明人经分析后设计在CNN模型的输入信息中加入当前图像帧之前的预设数量帧图像的分割结果，从而在CNN模型中引入运动目标的运动时序信息。

请参照图1，是本发明实施例提供的一种图像处理设备100的方框示意图，所述图像处理设备100可以是移动终端、个人计算机(Personal Computer，PC)等任意具有图像处理功能的电子设备。

所述图像处理设备100包括运动目标分割装置200、CNN模型300、存储器110、处理器120及显示单元130。

所述存储器110、处理器120以及显示单元130各元件相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述运动目标分割装置200包括至少一个可以软件或固件(firmware)的形式存储于所述存储器110中或固化在所述图像处理设备100的操作系统(operatingsystem，OS)中的软件功能模块。所述处理器120用于执行存储器110中存储的可执行模块，例如所述运动目标分割装置200所包括的软件功能模块及计算机程序等。

其中，所述存储器110可以是，但不限于，随机存取存储器(Random AccessMemory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(ProgrammableRead-Only Memory，PROM)，可擦除只读存储器(Erasable Programmable Read-OnlyMemory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-OnlyMemory，EEPROM)等。

所述处理器120可以是一种集成电路芯片，具有信号处理能力。所述处理器120也可以是通用处理器，如中央处理器(Central Processing Unit，CPU)、网络处理器(NetworkProcessor，NP)、微处理器等；还可以是数字信号处理器(DSP))、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件；所述处理器120还可以是任何常规的处理器，可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。

所述显示单元130用于显示所述图像处理设备100中的待显示信息，此外，所述显示单元130还可以用于建立所述图像处理设备100的交互界面，以实现所述图像处理设备100与用户之间的交互。

应当理解，图1所示的结构仅为示意，所述图像处理设备100可以具有比图1所示更多、更少或完全不同的配置。值得说明的是，图1所示的各组件可以软件、硬件或其组合实现。

如图2所示，是本发明实施例提供的一种运动目标分割算法的流程示意图，所述运动目标分割算法应用于图1所示的图像处理设备100。下面对图1所示的具体流程及步骤做详细阐述。

步骤S110，针对待分割视频的当前图像帧，将所述当前图像帧以及从所述当前图像帧之前的预设数量帧图像中分割出的运动目标轮廓输入所述CNN模型300进行处理，得到所述当前图像帧的多个特征图。

在本实施例中，运动目标可以是人、交通工具、动物等中的任意一种，本实施例对此不做限制。

以运动目标是人为例，从所述待分割视频的图像帧中分割出的运动目标轮廓即为人像掩模，所述人像掩模相当于将待分割视频帧中的人像区域内的各像素的值设置为1，人像区域外的各像素的值设置为0后得到的图像。

下面将以运动目标是人为例对本实施例提供的运动目标分割方法做详细阐述。

在本实施例中，针对所述待分割视频的每一视频帧，所述CNN模型300都会输出与该视频帧对应的人像掩模。

在输入时，针对所述待分割视频的当前图像帧，将所述当前视频帧以及所述当前视频帧之前的预设数量帧图像对应的人像掩模(即，分割结果)输入到所述CNN模型300。

由于人的运动是一个连续的过程，相隔时间较近的图像帧中的运动目标的形状变化也是一个连续的变化过程。因此，通过所述当前图像帧之前的预设数量帧图像对应的人像掩模可以预测出所述当前图像帧中的人像掩模的大致范围等全局信息，在此基础上，再通过所述当前图像帧的信息进行精确地人像分割，可以事半功倍地完成分割。

可选地，为了使根据所述预设数量帧图像得到的人像掩模的大致范围与所述当前图像帧的实际人像掩模更匹配，可以选择所述当前图像帧之前预设时长内的预设数量帧图像。所述预设时长可以是100毫秒-500毫秒。

在本实施例中，所述预设数量可以为1、2或者更多，本实施例对此不做限制。本实施例中将所述预设数量优选为3。

进一步地，为了达到较好的实时分割效果，可以选择所述当前图像帧之前每两帧相邻图像的时间间隔不超过30毫秒的连续预设数量帧图像。如图3所示，假设存在一系列连续的图像帧A1、A2、A3、A4、A5、A6，其中A1与A2、A3与A4以及A5与A6的时间间隔均为20毫秒，A2与A3、A4与A5的时间间隔均为5毫秒。

实施时，若当前图像帧为A6，假设所述预设数量为3，则在将A6输入所述CNN模型300时，可以将A3、A4以及A5三帧图像对应的人像掩模输入到所述CNN模型300，也可以将A2、A4以及A5三帧图像对应的人像掩模输入到所述CNN模型300，还可以将A1、A3及A5三帧图像对应的人像掩模输入到所述CNN模型300。

在本实施例中，所述多个特征图包括所述人像(即，运动目标)的运动时序特征图及底层图像特征图。其中，所述运动时序特征图用于表征所述人像的运动方向、运动速率及形变情况等信息，所述底层图像特征图用于表征所述人像的纹理特征、边缘特征、轮廓特征等。

步骤S120，对所述多个特征图进行处理，得到并输出所述运动目标在所述当前图像帧中的轮廓。

在本实施例中，通过对包括运动时序特征图的所述多个特征图进行处理，可以更快速地得到并输出所述运动目标在所述当前图像帧的轮廓。

可选地，在本实施例中，所述CNN模型300包括由卷积层(Convolution Layer)和池化层(Pooling Layer)组成的多个组合，所述多个组合依次连接，前一组合中的池化层的输出是下一组合中的卷积层的输入。其中，每个卷积层都会输入相应的特征图，不同的卷积层输出的特征图具有不同的深度。

因而，如图4所示，可选地，所述步骤S120可以包括步骤S121以及步骤S122两个子步骤。

步骤S121，将所述多个特征图归一化到相同尺度。

在实际应用中，池化层会对卷积层输出的特征图进行长和宽各2倍的下采样，也即，对每个不重叠的2×2像素区域保留像素值最大的那个像素，这一过程又被称作max-pooling。经过池化层处理的特征图会被作为下一卷积层的输入，因而，特征图经过的层数越多，输出的特征图会越小。为了保证最终输出的人像掩模与输入图像的尺寸一致，在本实施例中，可以通过反卷积层对所述多个特征图进行尺度变换，从而得到相同尺度的所述多个特征图。

步骤S122，通过级联的方式对相同尺度的所述多个特征图进行融合，得到并输出所述运动目标在所述当前图像帧中的轮廓。

在本实施例中，所述CNN模型300可以从逻辑上被划分为编码部分和解码部分两部分。其中，编码部分用于从输入图像中提取相应的特征图，所述多个组合均属于所述CNN模型300的编码部分，所述多个特征图可以视作所述CNN模型300的编码部分的输出。解码部分用于根据编码部分输出的特征图输出所需的人像掩模(即，运动目标轮廓)。

可选地，如图5所示，在本实施例中，在所述CNN模型300中，通过级联的方式对编码部分输出的多个特征图进行融合，从而得到所述当前图像帧对应的人像掩模。

在本实施例中，所述步骤S122可以包括如下子步骤：

实施时，可以将所述多个特征图按照相应的权重叠加在一起从而实现对所述多个特征图的级联，所述相应的权重可以由所述CNN模型300通过自学习得到。如此，所述CNN模型300可以通过所述步骤S122所包括的子步骤对所述多个特征图进行计算，进而得到所述当前图像帧对应的人像掩模(亦即，运动目标轮廓)。

在本实施例中，所述CNN模型300包括上述的卷积层和池化层，此外，所述CNN模型300还包括非线性激活层(Activation Layer)、归一化层(Batch Normalization Layer)、损失函数层(Loss Layer)等。

以所述运动目标是人为例，所述CNN模型300可以通过如下方式建立和训练：

首先，构建训练数据集、测试数据集以及验证数据集。

其中，训练数据集可以采用符合实际应用场景的样本，也即，背景图像(人所在的环境)复杂多变且人像运动变化较大的人像视频。将所述人像视频的每一帧图像抽取出来并绘制出该帧图像对应的掩模图像，并将得到的掩模图像中的人像区域标注为白色，非人像区域标注为黑色。

为了增加数据的多样性，从而确保分割结果的准确性，可以对训练数据集中的样本进行处理，例如进行随机裁剪、随机旋转固定角度、随机颜色变换、随机调整图像亮度和饱和度等，从而形成新的样本，并将所述新的样本也作为所述训练数据集的一部分。

在本实施例中，可以从不同类别的训练集中随机抽取一部分构成验证数据集。

测试数据集用于评估所构建的CNN模型300的最终分割效果，可以从真实的使用场景收集得到，并采用与训练数据集相同的方式，抽取出样本视频中的每一帧图像并绘制出对应的人像掩模。测试时，可以将构建的CNN模型300输出的人像掩模与绘制的人像掩模进行对比，从而判断所述CNN模型300的分割结果是否准确，进而调整后向传递算法(back-propagation)调整所述CNN模型300的相应参数，经过大量的迭代计算后，所述CNN模型300的损失函数会收敛值低于预设值时，可以确定所述CNN模型300训练完毕。其中，所述预设值可以根据实际的统计数据进行设定。

相应地，在本实施例中，当所述运动目标为别的物体时，可以选用该物体在不同运动场景下的视频来构建训练数据集、验证数据集和测试数据集，其详细构建过程与上述构建用于分割人像的CNN模型300的过程类似，在此不再赘述。

如图6所示，是本发明实施例提供的一种运动目标分割装置200，应用于图1所示的图像处理设备100。所述图像处理设备100预存有用于进行运动目标分割的CNN模型300。

在本实施例中，所述运动目标分割装置200包括输入模块210以及处理模块220。

其中，所述输入模块210用于针对分割视频的当前图像帧，将所述当前图像帧以及从所述当前图像帧之前的预设数量帧图像中分割出的运动目标轮廓输入所述CNN模型300进行处理，得到所述当前图像帧的多个特征图，所述多个特征图包括所述运动目标的运动时序特征图及底层图像特征图。

可选地，输入所述CNN模型300的相邻两帧图像之间的时间间隔可以不超过30毫秒。

在本实施例中，关于所述输入模块210的描述具体可参考对图2所示步骤S110的详细描述，也即，所述步骤S110可以由所述输入模块210执行。

所述处理模块220用于对所述多个特征图进行处理，得到并输出所述运动目标在所述当前图像帧中的轮廓。

在本实施例中，关于所述处理模块220的描述具体可参考对图2所示步骤S120的详细描述，也即，所述步骤S120可以由所述处理模块220执行。

在本实施例中，所述CNN模型300可以包括由卷积层和池化层组成的多个组合，所述多个组合依次连接，前一组合中的池化层的输出是下一组合中的卷积层的输入。其中，所述多个特征图由不同的卷积层输出。

可选地，所述处理模块220可以包括归一化子模块221和融合子模块222。

其中，所述归一化子模块221用于将所述多个特征图归一化到相同尺度。

可选地，在本实施例中，关于所述归一化子模块221的描述具体可参考对图4所示步骤S121的详细描述，也即所述步骤S121可以由所述归一化子模块221执行。

所述融合子模块222用于通过级联的方式对相同尺度的所述多个特征图进行融合，得到并输出所述运动目标在所述当前图像帧中的轮廓。

在本实施例中，关于所述融合子模块222的描述具体可参考对图4所示步骤S122的详细描述，也即，所述步骤S122可以由所述融合子模块222执行。

可以通过将所述多个特征图归一化到相同尺度，并通过级联的方式对相同尺度的所述多个特征图进行融合，以实现对所述多个特征图的处理，从而得到并输出所述运动目标在所述当前图像帧中的轮廓。

进一步地，所述处理模块220根据所述运动时序特征图计算出所述运动目标在所述当前图像帧中的轮廓所在范围，并根据所述底层图像特征图对所述轮廓所在范围进行校正，以实现通过级联的方式对相同尺度的所述多个特征图进行融合，从而得到并输出所述运动目标在所述当前图像帧中的轮廓。

进一步地，所述处理模块220可以通过反卷积层对所述多个特征图进行尺度变换，从而得到相同尺度的所述多个特征图。

综上所述，本发明实施例提供的运动目标分割方法及装置，针对待分割视频的当前图像帧，将当前图像帧以及从当前图像帧之前的预设数量帧图像中分割出的运动目标轮廓输入CNN模型300进行处理，得到当前图像帧的多个特征图，该多个特征图包括运动目标的运动时序特征图及底层图像特征图；对该多个特征图进行处理，得到并输出运动目标在当前图像帧中的轮廓。通过上述设计，在CNN模型300的输入信息中增加了当前图像帧之前的预设数量帧图像的信息，从而在CNN模型300中引入了运动目标的时序信息，相较于仅使用当前图像帧的信息进行分割，所述CNN模型300可以用更精简的神经网络层和网络参数对视频中的运动目标进行分割。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种运动目标分割方法，其特征在于，应用于图像处理设备，所述图像处理设备预存有用于进行运动目标分割的CNN模型，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述CNN模型包括由卷积层和池化层组成的多个组合，所述多个组合依次连接，前一组合中的池化层的输出是下一组合中的卷积层的输入；所述多个特征图由多个不同的卷积层输出；

将所述多个特征图归一化到相同尺度；

3.根据权利要求2所述的方法，其特征在于，所述通过级联的方式对相同尺度的所述多个特征图进行融合，得到并输出所述运动目标在所述当前图像帧中的轮廓，包括：

4.根据权利要求2所述的方法，其特征在于，所述将所述多个特征图归一化到相同尺度，包括：

5.根据权利要求1-4任一项所述的方法，其特征在于，输入所述CNN模型的相邻两帧图像之间的时间间隔不超过30毫秒。

6.一种运动目标分割装置，其特征在于，应用于图像处理设备，所述图像处理设备预存有用于进行运动目标分割的CNN模型，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述CNN模型包括由卷积层和池化层组成的多个组合，所述多个组合依次连接，前一组合中的池化层的输出是下一组合中的卷积层的输入；所述多个特征图由多个不同的卷积层输出；所述处理模块包括：

归一化子模块，用于将所述多个特征图归一化到相同尺度；

8.根据权利要求7所述的装置，其特征在于，所述处理模块根据所述运动时序特征图计算出所述运动目标在所述当前图像帧中的轮廓所在范围，并根据所述底层图像特征图对所述轮廓所在范围进行校正，以实现通过级联的方式对相同尺度的所述多个特征图进行融合，从而得到并输出所述运动目标在所述当前图像帧中的轮廓。

9.根据权利要求7所述的装置，其特征在于，所述处理模块通过反卷积层对所述多个特征图进行尺度变换，从而得到相同尺度的所述多个特征图。

10.根据权利要求6-9任一项所述的装置，其特征在于，输入所述CNN模型的相邻两帧图像之间的时间间隔不超过30毫秒。