CN108520223A

CN108520223A - 视频图像的分割方法、分割装置、存储介质和终端设备

Info

Publication number: CN108520223A
Application number: CN201810282876.8A
Authority: CN
Inventors: 刘凌海; 王雷
Original assignee: Guangzhou Huaduo Network Technology Co Ltd
Current assignee: Guangzhou Cubesili Information Technology Co Ltd
Priority date: 2018-04-02
Filing date: 2018-04-02
Publication date: 2018-09-11
Anticipated expiration: 2038-04-02
Also published as: CN108520223B

Abstract

本发明提供了一种视频图像的分割方法、分割装置、存储介质和终端设备；所述视频图像的分割方法包括：获取视频中上一帧图像的热图标注信息和本帧图像；将上一帧图像的热图标注信息和本帧图像输入神经网络模型，输出本帧图像的热图标注信息；其中，所述神经网络模型用于表征上一帧图像的热图标注信息、本帧图像和本帧图像的热图标注信息的关联关系；根据所述本帧图像的热图标注信息，对本帧图像进行分割。本发明降低了神经网络模型的复杂度，适于应用于移动端。

Description

视频图像的分割方法、分割装置、存储介质和终端设备

技术领域

本发明涉及信息处理技术，尤其是一种视频图像的分割方法、分割装置、存储介质和终端设备。

背景技术

深度学习是一种堆叠多层神经网络的机器学习方法。由于神经网络的层数比传统的方法层数多得多，故称为深度学习。随着近年来大量训练数据获得的可能，以及计算机计算性能(主要是显卡的计算性能)的提高，训练大型深度学习模型成为可能。随着深度学习算法的发展，深度学习在很多领域都达到了最先进的水平。例如图像识别、图像分割和自然语言处理等领域。

传统的抠图是蓝幕抠图/绿幕抠图，一般需要用户搭建蓝幕和/或绿幕的背景，然后拍摄图像和/或视频，再对拍摄的图像和/或视频运用蓝幕和/或绿幕抠图算法得到前景视频和/或图像。

在现有移动端的直播视频或者短视频的应用中，对连续的视频帧进行抠图时，对抠图的实时性和稳定性有较高的要求，以使用户快速得到每帧图片的抠图结果，且抠图后形成的视频应是连贯平滑的，需避免突兀的变化。现有技术中，对视频流进行实时实景分割时，一般需要准备带有标签信息的视频数据，即前背景标签，使得训练深度学习网络模型时可用第t帧标签信息去预测第t+1帧的热图，但是标注视频数据需要耗费巨大的人力物力财力和时间，获取成本太高；而且，为了达到足够高的分割准确率，所述深度学习网络模型的参数普遍很高，存储空间和计算复杂度相应也很高，导致这些深度学习网络模型不适合部署到移动端运行。

发明内容

本发明提供视频图像的分割方法、分割装置、存储介质和终端设备，解决了现有视频图像的分割复杂度高和分割后运动不连贯的问题。

本发明提供的视频图像的分割方法，包括：

获取视频中上一帧图像的热图标注信息和本帧图像；

将上一帧图像的热图标注信息和本帧图像输入神经网络模型，输出本帧图像的热图标注信息；其中，所述神经网络模型用于表征上一帧图像的热图标注信息、本帧图像和本帧图像的热图标注信息的关联关系；

根据所述本帧图像的热图标注信息，对本帧图像进行分割。

优选地，所述神经网络模型通过以下步骤得到：

获取训练图像，得到训练图像的热图标注信息；

对训练图像的热图标注信息进行变换，得到变换后的热图标注信息；将变换后的热图标注信息作为上一帧图像的热图标注信息；

将上一帧图像的热图标注信息、训练图像输入神经网络模型，输出训练图像的热图标注信息；

判断所述输出的训练图像的热图标注信息与所述得到的训练图像的热图标注信息的偏差是否小于预设阈值；若否，调整神经网络模型的参数数值，继续所述把上一帧图像的热图标准信息、训练图像输入所述神经网络模型的步骤；若是，得到训练好的神经网络模型。

优选地，所述判断所述输出的训练图像的热图标注信息与所述得到的训练图像的热图标注信息的偏差是否小于预设阈值，包括：

把所述输出的训练图像的热图标注信息与所述得到的训练图像的热图标注信息，输入到损失函数中，得到损失函数值，判断损失函数值是否小于预设阈值。

优选地，所述对训练图像的热图标注信息进行变换，包括：根据预设形变函数对训练图像的热图标注信息进行变换；所述预设形变函数包括与训练图像的平移、旋转和缩放中任一种形变对应的仿射形变函数，和/或与训练图像的弹性形变对应的双线性差值变换函数。

优选地，所述预设形变函数包括与训练图像的平移、旋转和缩放中任一种形变对应的仿射形变函数；所述对训练图像的热图标注信息进行变换，包括：

其中Q为所述变换后的热图标注信息，M为2*3变换矩阵，x与y为所述训练图像热图标注信息中的两个坐标分量。

优选地，所述预设形变函数包括与训练图像的弹性形变对应的双线性差值变换函数；所述对训练图像的热图标注信息进行变换，包括：

根据双线性差值变换函数生成与训练图像大小一致的随机偏移向量图；

根据训练图像的每个像素点位置和所述随机偏移向量图，得到变换后的热图标注信息对应的像素矩阵。

优选地，所述神经网络模型包括卷积层，池化层和反卷积层。

优选地，所述热图标注信息包括前景热图标注信息或背景热图标注信息；所述对本帧图像进行分割之后，还包括：

将分割出的前景热图标注信息或背景热图标注信息与预设的替换图像进行合成。

本发明还提出一种视频图像的分割装置，包括：

获取模块，用于获取视频中上一帧图像的热图标注信息和本帧图像；

模型运算模块，用于将上一帧图像的热图标注信息和本帧图像输入神经网络模型，输出本帧图像的热图标注信息；其中，所述神经网络模型用于表征上一帧图像的热图标注信息、本帧图像和本帧图像的热图标注信息的关联关系；

分割模块，用于根据所述本帧图像的热图标注信息，对本帧图像进行分割。

本发明还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，该程序被处理器执行时，实现前述任一项所述视频图像的分割方法的步骤。

本发明还提出一种终端设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序；其特征在于，所述处理器执行所述计算机程序时，实现前述任一项所述视频图像的分割方法的步骤。

本发明的有益效果如下：

1、本发明提供了一种适用于移动端实时进行视频图像的分割方法，该方法通过采用根据上一帧图像的热图标注信息和本帧图像可实时得到本帧图像的热图标注信息，以对本帧图像进行分割，避免了分割后视频中相邻两帧画面之间前景图案或背景图案的突变，以及由于跳变引起的运动画面不连贯的问题；而且，所述神经网络模型输出的本帧图像的热图标注信息，还可作为输出下一帧图像的热图标注信息的输入信息，简化了模型的复杂程度。

2、本发明采用静态的训练图像训练所述神经网络模型，降低了所述神经网络模型的复杂度；同时，对训练图像的热图标注信息进行变换，以模拟视频中的运动画面，并将变换后的热图标注信息作为模拟训练视频中上一帧图像的热图标注信息，以训练出视频中相邻两帧画面之间的运动关系对应的热图标注变换关系，从而使得到的所述本帧图像的热图标注信息中包括的前景图案和背景图案的区分更准确，进而使得识别出的运动画面更准确，实时抠出的视频画面更清晰连贯。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明视频图像的分割方法第一实施例的流程示意图；

图2为本发明神经网络模型的训练方法第一实施例的流程示意图；

图3为本发明神经网络模型的网络结构示意图；

图4为本发明所述平移、旋转和缩放形变前后的图片对比示意图；

图5为本发明所述弹性形变前后的图片对比示意图；

图6为本发明所述平移、旋转、缩放和弹性形变前后的对比示意图；

图7为本发明所述终端设备的实施例示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”到另一元件时，它可以直接连接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

本发明提出一种视频图像的分割方法，可对移动端的视频图像进行抠图，如图1所示的第一实施例，包括如下步骤：

步骤S10：获取视频中上一帧图像的热图标注信息和本帧图像；

步骤S20：将上一帧图像的热图标注信息和本帧图像输入神经网络模型，输出本帧图像的热图标注信息；其中，所述神经网络模型用于表征上一帧图像的热图标注信息、本帧图像和本帧图像的热图标注信息的关联关系；

步骤S30：根据所述本帧图像的热图标注信息，对本帧图像进行分割；

其中，每个步骤具体如下：

视频图像均是由一系列静态的图像组成的，这些静态的图像称为帧。由于视频中相邻两帧之间的画面变化相对较小，若用0或1来标记每一帧画面的前景热图或背景热图，那么相邻两帧之间的前景热图和背景热图也是相近的，则可将第t-1帧的热图与第t帧的图像输入到一个预设的神经网络中去预测第t帧的热图。本步骤中所述的上一帧图像的热图标注信息包括上一帧图像的前景热图或背景热图信息，所述本帧图像为当前帧的静态图片；本步骤可获取第t帧的图像以及第t-1帧的热图标注信息，以根据第t帧的图像对t-1帧的热图标注信息进行微调，得到第t帧的热图标注结果；其中，所述t为正整数，即从第一帧开始直至最后一帧；当t＝1时，第t-1帧不存在，可将第t-1帧的热图标注信息标记为零。

所述神经网络模型主要用于根据第t帧的图像对t-1帧的热图标注信息进行微调，其微调的具体参数可预先经过一定的训练方法进行深度学习，以得到较为准确的调整结果。为获得所述神经网络模型，本发明需预先准备大量的训练数据，用于训练特殊设计的神经网络模型；为使该神经网络模型适于移动端使用，本发明直接利用静态的单张图像集合而不是连续的视频帧对所设计的神经网络模型进行训练，可将所述神经网络模型设计得非常小；而且所述神经网络模型输出的结果为本帧图像的热图标注信息，可用于区分本帧图像的前景图案和背景图案，而且又可作为预测下一帧热图标注信息的输入，形成了良好的循环输入。本发明中的神经网络模型的参数量可小于1兆，浮点运算小于900兆。

本发明中所述的对神经网络模型进行训练可采用如图2所示的第一实施例的训练方法，其包括如下步骤：

步骤S01：获取训练图像，得到训练图像的热图标注信息；

为使所述神经网络模型可根据静态图片得到包括前景图案和/或背景图案的热图标注信息，在训练中，所述训练图像亦为静态的单张图像集合，而不是连续的视频帧画面。在现有的视频流实景分割中，所需的大量训练数据一般为带有标签信息的视频数据，但所述标签信息的获取成本巨大，且训练出的神经网络模型过于复杂，不适于移动端。本发明利用视频中相邻两帧之间的变化关系，通过静态的单张图像集合来训练神经网络，同样可对视频中每一帧的画面进行高质量的前景图案和背景图案的分割。故，本步骤利用静态的训练图像可缩小训练数据的存储空间和神经网络模型的运算复杂程度，提高神经网络模型的训练效率。

步骤S02：对训练图像的热图标注信息进行变换，得到变换后的热图标注信息；将变换后的热图标注信息作为上一帧图像的热图标注信息；

在视频抠图中，如果单独对视频中的每一帧画面进行前景图案和背景图案的识别和分割，而不考虑每一帧画面之间的变化关系，则由于画面识别的误差，尤其是前景图案和背景图案的颜色过于接近或界限较为模糊时，容易导致识别出的前景图案和背景图案混淆和出错，进而导致从画面中分离出来的前景图案或背景图案的运动不连贯或出现画面的跳变等异常。由于视频中人物或物体的运动主要包括平移、旋转、缩放和弹性形变等几种主要变化，故，本步骤可将视频中可能出现的因运动带来的画面变化通过预设形变函数进行表达，以模拟出上一帧图像的热图标注信息，从而使后续输入至需要的训练的所述神经网络模型的上一帧图像的热图标注信息和训练图像可体现相邻两帧画面的运动关系，避免出现前景图案和背景图案的识别和分割出现跳变的情况，从而避免导致运动不连贯。

所述训练图像可通过矩阵来表达，例如已知训练图像中的某像素点位置及像素值表达为向量A，对该训练图像的热图标注信息进行变换的函数为矩阵B，得到变换后的热图标注信息中的像素点位置及像素值表达为向量C时，其变换关系可以为：C＝A*B。本步骤中得到上一帧图像的热图标注信息主要是为了模拟视频中训练图像之前一帧的画面，以便进行后续网络神经模型的深度学习；在实际视频的抠图中，可直接将获取本帧图像之前一帧图像的热图标注信息，并将其与所述本帧图像作为所述神经网络模型下一帧的输入。

步骤S03：将上一帧图像的热图标注信息、训练图像输入神经网络模型，输出训练图像的热图标注信息；

将获得的一些所述上一帧图像的热图标注信息、训练图像和训练图像的热图标注信息组成训练集；获得的另外一些所述上一帧图像的热图标注信息、训练图像和训练图像的热图标注信息组成验证集；其中，所述上一帧图像的热图标注信息与所述训练图像组成一对输入信息，所述训练图像的热图标注信息是所述神经网络模型输出的真值。

将所述训练集中上一帧图像的热图标注信息与所述训练图像组成的一对输入信息输入所述神经网络模型，以输出所述训练图像的热图标注信息；再根据所述验证集，判断所述神经网络模型输出的训练图像的热图标注信息与所述验证集中的训练图像的热图标注信息的偏差是否小于预设阈值；若否，调整神经网络模型的参数数值，继续把所述训练集中的上一帧图像的热图标准信息、训练图像输入神经网络模型的步骤；若是，得到训练好的神经网络模型。

为输出所述训练图像的热图标注信息，本步骤中的神经网络模型需识别所述上一帧图像的热图标注信息和训练图像，故训练所述神经网络模型的主要作用在于构建滤波器，并通过构建的滤波器识别特定图案的特征，该构建过程即是通过深度学习训练图像以得到所述神经网络模型。所述神经网络模型，可为以下之一：CNN(卷积神经网络)、RNN(循环神经网络)或DNN(深度神经网络)。开始训练时，所述神经网络模型不能激活任何图案特征，只有通过训练之后，才能建立识别的模型，并给出准确结果。由于输出的训练图像的热图标注信息中包括了用于标记前景热图和背景热图的信息，故可作为对该训练图像进行抠图的依据。

所述神经网络模型可如图3所示。其中，矩形框代表网络的输入端或者输出端，所述输入端的代表上一帧图像的热图标注信息，f_t代表本帧训练图像；中间两个沙漏图形共同代表了所述神经网络模型，输出端的a_t代表本帧训练图像的热图标注信息。所用的神经网络由两个相同的子网络构成(子网络参数不同)。第一个子网络用于接收视频中当前帧的RGB图像(即本帧图像)以及视频中上一帧图像的热图标注信息(训练模型时，即将训练图像的热图标注信息变换后的热图标注信息作为上一帧图像的热图标注信息)。第二个子网络用于接收来自第一个子网络的输出和当前帧RGB图像，叠加后输出当前帧的热图标注信息(即本帧图像的热图标注信息)。本发明采用端到端的训练过程，故所述两个子网络的具体作用可不做人工干预，其中，第二个子网络可作为第一个子网络输出结果的进一步修正。

所述神经网络模型可由卷积层、池化层和反卷积层构成。其中，池化层主要用于对输入的特征图像进行压缩，一方面使特征图像变小，简化网络计算的复杂度；另一方面进行特征压缩，提取主要特征。所述池化层一般有两种操作方式，一种是Avy Pooling,一种是max Pooling。所述max pooling主要是在每一个预设矩阵区域中寻找最大值，以在原特征图像中提取主要特征得到新的矩阵图。Avy pooling为平均池化层，主要是对每一个预设矩阵区域中的元素求和，以得到主要特征。

神经网络模型中的卷积层第一层一般用来检测低阶特征，例如边、角、曲线等。随着卷积层层数的增加，对应的检测特征复杂度依次增加。例如第二层的输入为第一层的输出，以用来检测低阶特征的组合情况，例如半圆、四边形等。以此类推，更多层的卷积层可用来检测越来越复杂的特征。最后一层可按照训练目的，即可识别出输入图像中的前景图案和背景图案。所述卷积层不仅可用来进行特征提取，还可实现权值共享，即一个特征图上的每个神经元对应的权值参数可被每个神经元共享，从而节约了神经网络模型的参数量。

所述神经网络模型还可包括全连接层，以连接所有图像特征，将输出值送给分类器。在进行计算加速优化时，可将通过所述卷积层进行优化；进行图像的参数优化、权值裁剪时，可通过所述全连接层进行优化。

步骤S04：判断所述输出的训练图像的热图标注信息与所述得到的训练图像的热图标注信息的偏差是否小于预设阈值；若否，调整神经网络模型的参数数值，继续所述把上一帧图像的热图标准信息、训练图像输入所述神经网络模型的步骤；若是，得到训练好的神经网络模型。

判断时，可将输出的训练图像的热图标注信息放入所述验证集中，以判断其与所述验证集中的训练图像的热图标注信息的偏差是否小于预设阈值；若否，则调整神经网络模型的参数数值，继续所述把所述训练集中的上一帧图像的热图标准信息、训练图像输入所述神经网络模型的步骤。在所述神经网络模型训练的初期，所述神经网络模型不能识别任何图案特征，只有通过训练才能逐渐建立识别的模型，故在训练过程中，需要不断监控识别结果，并根据所述识别结果对所述神经网络模型的参数进行调整；使得调整后的所述神经网络模型输出的结果趋于收敛，以准确地识别每个图像特征。

为判断所述输出的训练图像的热图标注信息与所述得到的训练图像的热图标注信息的偏差是否小于预设阈值，本发明可采用包括如下步骤的实施例：

例如，训练用于分类的神经网络，以使该神经网络可判定输入图像中的物体可能是十个类别中的哪一类。第一次训练，输入一张图像，这个图像通过各层卷积层处理输出一组向量；对于完全由随机滤波器构建的神经网络，其输出认为所述图像属于十个类别中某一种类别的概率相同。但是对于训练，我们有一个标准值，例如该图像属于十个类别中的第三类。故，可定义一个损失函数，例如常见的MSE(mean squared error)，然后将这个损失函数的输出值反馈给整个卷积神经网络，亦即反向传输(back propagation)至整个卷积神经网络，以修改各卷积层中滤波器的权重，使得损失函数值最小。在实际中，一般不会一次就可将滤波器中的矩阵值修改为使损失函数值最小的情况，而是需要多次训练和多次修改。理想情况下，所述矩阵值的修改方向是使得损失函数的输出值变化趋于收敛，以使得训练的神经网络中各个卷积层的滤波器能够组合起来，形成最优化的检测模式。在本发明的神经网络模型训练中，所述神经网络模型输出的训练图像的热图标注信息将与所述步骤S01中实际得到的训练图像的热图标注信息进行比对，并根据得到的损失函数数值不断调整所述神经网络模型中的参数，以使所有所述神经网络模型输出的训练图像的热图标注信息都趋于与实际得到的训练图像的热图标注信息一致，从而提高所述神经网络模型的识别精度。

基于前一实施例，本发明还提出如下的神经网络模型的训练实施例，结合图3所示，其包括如下步骤：

步骤S1：从数据集采样得到本帧训练图像f_t和本帧训练图像的热图标注信息a_t；

步骤S2:对本帧训练图像的热图标注信息a_t应用上述的图像变换，得到变换后的热图标注信息并将该热图标注信息作为上一帧视频图像的模拟热图标注信息；

步骤S3：将本帧训练图像f_t和变换后的热图标注信息输入到所述神经网络模型，所述神经网络模型经过运算，输出本帧训练图像的热图标注信息

步骤S4：将输出的本帧训练图像的热图标注信息和得到的本帧训练图像的热图标注信息a_t输入到损失函数中，得到损失函数值；

步骤S5：得到所述损失函数值之后，判断所述损失函数值是否小于预设阈值；如果不小于预设阈值，则进行后向传播，调整所述神经网络模型中的参数数值；

步骤S6：重复步骤S1-步骤S5，直到所述损失函数值降到预设阈值之下，则训练出所述神经网络模型。

本发明中所述的神经网络模型训练实施例可一方面可避免直接标注所述本帧图像带来的存储空间占用问题，另一方面在生成所述本帧图像的热图标注信息时，结合了上一帧图像的热图标注信息，从而避免了相邻两帧画面之间前景图案和背景图案识别的突变；当本发明应用于视频抠图时，可避免从所述本帧图像中抠出前景图案时引起的运动不连贯和画面跳变问题。

由于所述本帧图像的热图标注信息中包括前景热图和/或背景热图的信息，故可根据该热图标注信息对本帧图像进行分割，以分割出背景图案和/或前景图案，从而实现视频中图像的分割。

基于训练的所述神经网络模型，本发明可根据视频中上一帧图像的热图标注信息和本帧图像预测出本帧图像的热图标注信息，以便于根据所述本帧图像的热图标注信息对本帧图像进行分割，从而实现对本帧图像的抠图；同时，得到的所述本帧图像的热图标注信息亦可作为预测下一帧图像的热图标注信息的输入信息，从而避免了现有技术中对视频数据的每一帧都进行标注带来的成本和复杂度等问题。

当所述神经网络模型应用于移动端进行视频分割时，其参数数量应尽量少，以降低任务的复杂程度；本发明可通过采用一系列静态的训练图像来训练所述神经网络模型，以降低所述神经网络模型的复杂度；而且，本发明的所述神经网络模型的算法可充分利用移动端有限的机器性能对视频进行抠图，利用人眼观察不到迟钝或延迟使得从视频中分割出的前景图案或背景图案仍具有较好的连贯性，从而实现视频的实景抠图目的。

如前所述，由于视频中人物或物体的运动主要包括平移、旋转、缩放和弹性形变等几种主要变化，故，所述对训练图像的热图标注信息进行变换，可包括：根据预设形变函数对训练图像的热图标注信息进行变换；所述预设形变函数包括与训练图像的平移、旋转和缩放中任一种形变对应的仿射形变函数，和/或与训练图像的弹性形变对应的双线性差值变换函数。

更具体地，所述预设形变函数可包括与训练图像的平移、旋转和缩放中任一种形变对应的仿射形变函数；所述对训练图像的热图标注信息进行变换，包括：

对二维图像进行平移、旋转和缩放可以用仿射变换来表示。仿射变换的过程可以用矩阵运算来表示。例如原图的像素值为P(x,y)，有x和y两个坐标分量，经过变换之后的图片像素值为Q(u,v)，则其仿射变换的过程可用一个2*3的矩阵M来表示。具体运算过程如下：

即变换之后的图片像素值Q的u，v分量如下：

u＝a₀₀*x+a₀₁*y+b₀，

v＝a₁₀*x+a₁₁*y+b₁；

得到的Q(u，v)即是在原图一定平移、旋转和缩放变换之后的结果。如图4所示的图片，从左到右有一定程度的平移、旋转和缩放，而没有弹性形变。

本实施例中的所述仿射形变函数亦可写为：其中A为2*2的矩阵，为所述原图变换之前对应的像素值，为预设二维向量参数，为经过变换后的图片像素值。

当所述形变包括弹性形变时，本发明还提出另一实施例：所述预设形变函数包括与训练图像的弹性形变对应的双线性差值变换函数；所述对训练图像的热图标注信息进行变换，包括：

如图5所示，弹性形变会对原图(参见图5中左侧的实线图像)引入更多不规则的形变。本实施例可首先生成一个随机偏移向量图(参见图5中间的箭头图像)。该随机偏移向量图的大小跟原图相同，每个像素位置都对应一个随机方向的偏移向量。每个位置的偏移向量给出了原图对应的像素点经过变化之后对应的像素值。具体如下：所述偏移向量的起点为原图中对应像素点的像素值，终点在原图中的像素值则是该像素点经过变化之后的像素值，该终点位置的像素值可以通过双线性差值得到。对原图中所有的像素点应用对应的偏移向量，则可得到弹性形变之后的图(参见图5中右侧的虚线图像)

在所述神经网络模型中，所述仿射变换和双线性差值变换可同时存在，亦可只有一种变换，例如图4中仅包括仿射形变函数对应的平移、旋转和缩放变换，图5中仅包括所述双线性差值变换对应的弹性形变；图6中的实线图像到虚线图像则包括了实线图像经过平移、旋转、缩放和弹性形变之后得到虚线图像。

本发明还提出又一实施例：所述热图标注信息包括前景热图标注信息或背景热图标注信息；所述对本帧图像进行分割之后，还包括：

本实施例可将从视频图像中抠出的前景图案或背景图案与另一图像进行合成，以生成新的视频信息，从而为用户提供更丰富便捷的视频娱乐功能。本实施例可实现简易高效的视频抠图，可应用于视频直播、导播以及短视频的后期处理中。

例如，在视频直播中，本发明视频图像的分割方法可支持移动端高效实时的抠图，故，用户可以可通过本发明的分割方法，实时地替换掉背景图案，将前景图案(例如用户自己)实时地合成到预定的背景中去；该预定的背景可由服务器提供，亦可由用户自行设定或提供，从而使用户很方便地制作出炫酷精美的视频，为直播用户提供了另一种有新意的直播玩法。

在短视频等不强调实时性的视频中，本发明同样可实时地替换掉短视频中的背景，以实现实时预览；若用户认为效果不佳，可得到及时的反馈，以便用户迅速重新拍摄；本发明视频图像的分割方法提供的实时性可为用户带来更大的使用弹性。

基于所述视频图像的分割方法，本发明还提出一种神经网络训练装置，包括：

基于所述视频图像的分割方法，本发明还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，该程序被处理器执行时，实现前述任一项所述视频图像的分割方法的步骤。其中，所述存储介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM(Read-Only Memory，只读存储器)、RAM(Random AcceSSMemory，随即存储器)、EPROM(EraSable Programmable Read-Only Memory，可擦写可编程只读存储器)、EEPROM(Electrically EraSable Programmable Read-Only Memory，电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是，存储介质包括由设备(例如，计算机)以能够读的形式存储或传输信息的任何介质。可以是只读存储器，磁盘或光盘等。

本发明还提出一种终端设备，如图7所示，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序；所述处理器执行所述计算机程序时，实现前述任一项所述视频图像的分割方法的步骤。

如图7所示为本发明所述终端设备的部分结构框图，为了便于说明，仅示出了与本发明实施例相关的部分。所述终端设备可以为包括手机、平板电脑、笔记本电脑、台式电脑等可录制视频的终端设备。下面以手机为例说明本发明终端设备的工作方式。

参考图7，手机包括处理器、存储器、输入单元、显示单元等部件。本领域技术人员可以理解，图7中示出的手机结构并不构成对所有手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件。存储器可用于存储计算机程序以及各功能模块，处理器通过运行存储在存储器的计算机程序，从而执行手机的各种功能应用以及数据处理。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如录制视频的功能)等；存储数据区可存储根据手机的使用所创建的数据(比如录制的视频数据等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器或其它易失性固态存储器件。

输入单元可用于接收用户输入的录制视频的指令，以及产生与手机的用户设置以及功能控制有关的信号输入。具体地，输入单元可包括触控面板以及其它输入设备。触控面板可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板上或在触控面板附近的操作)，并根据预先设定的程序驱动相应的连接装置；其它输入设备可以包括但不限于物理键盘、功能键(比如录制控制按键、开关按键等)、轨迹球、操作杆等中的一种或多种。显示单元可用于显示用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元可液晶屏、OLED屏等形式。处理器是手机的控制中心，利用各种接口和线路连接手机的各个部分，通过运行或执行存储在存储器内的软件程序和/或模块，以及调用存储在存储器内的数据，执行各种功能和处理数据。

在本发明各个实施例中的各模块可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种视频图像的分割方法，其特征在于，包括：

获取视频中上一帧图像的热图标注信息和本帧图像；

根据所述本帧图像的热图标注信息，对本帧图像进行分割。

2.根据权利要求1所述的分割方法，其特征在于，所述神经网络模型通过以下步骤得到：

获取训练图像，得到训练图像的热图标注信息；

判断所述输出的训练图像的热图标注信息与所述得到的训练图像的热图标注信息的偏差是否小于预设阈值；若否，调整神经网络模型的参数数值，继续把所述上一帧图像的热图标准信息、训练图像输入神经网络模型的步骤；若是，得到训练好的神经网络模型。

3.根据权利要求2所述的分割方法，其特征在于，所述判断所述输出的训练图像的热图标注信息与所述得到的训练图像的热图标注信息的偏差是否小于预设阈值，包括：

4.根据权利要求2所述的分割方法，其特征在于，所述对训练图像的热图标注信息进行变换，包括：根据预设形变函数对训练图像的热图标注信息进行变换；所述预设形变函数包括与训练图像的平移、旋转和缩放中任一种形变对应的仿射形变函数，和/或与训练图像的弹性形变对应的双线性差值变换函数。

5.根据权利要求4所述的分割方法，其特征在于，所述预设形变函数包括与训练图像的平移、旋转和缩放中任一种形变对应的仿射形变函数；所述对训练图像的热图标注信息进行变换，包括：

6.根据权利要求4所述的分割方法，其特征在于，所述预设形变函数包括与训练图像的弹性形变对应的双线性差值变换函数；所述对训练图像的热图标注信息进行变换，包括：

7.根据权利要求1所述的分割方法，其特征在于，所述神经网络模型包括卷积层，池化层和反卷积层。

8.根据权利要求1所述的分割方法，其特征在于，所述热图标注信息包括前景热图标注信息或背景热图标注信息；所述对本帧图像进行分割之后，还包括：

9.一种视频图像的分割装置，其特征在于，包括：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，该程序被处理器执行时，实现权利要求1至8任一项所述视频图像的分割方法的步骤。

11.一种终端设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序；其特征在于，所述处理器执行所述计算机程序时，实现权利要求1至8任一项所述视频图像的分割方法的步骤。