CN108010049A

CN108010049A - 使用全卷积神经网络分割定格动画中人手部区域的方法

Info

Publication number: CN108010049A
Application number: CN201711098799.2A
Authority: CN
Inventors: 许家荣; 李桂清
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2017-11-09
Filing date: 2017-11-09
Publication date: 2018-05-08

Abstract

本发明公开了一种使用全卷积神经网络分割定格动画中人手部区域的方法，包括步骤：1)数据输入；2)使用全卷积网络进行特征提取和初步分割；3)使用条件随机场CRF算法对分割效果进行优化；4)对网络模型进行训练；5)使用完成训练的模型对输入图片进行分割。本发明主要解决的问题是通过自己建立包含人手部区域的图片数据集，构建网络模型，并使用数据集对这个网络模型进行训练。训练完成后，网络模型将能够对人手部区域进行具有较高精确度的分割。本发明具有精确度高、抗噪性好、使用简单、效率高、速度快等优点。

Description

使用全卷积神经网络分割定格动画中人手部区域的方法

技术领域

本发明涉及计算机图形学和定格动画制作领域，尤其是指一种使用全卷积神经网络分割定格动画中人手部区域的方法。

背景技术

定格动画是通过一张一张动画进行拍摄，然后将这些动画进行播放，使其形成接连不断的动画影片。尽管现在动画生成中更多的利用电脑辅助设计以及3D技术，但是定格动画仍然是动画行业中一个独具一格的分支，至今仍有重要的魅力，在行业中占有一定的分量。定格动画的拍摄方式通常需要某种支撑物对需要拍摄的物体进行支撑，形成各种动作，并在动画的制作后期中再利用不同方法对支撑物进行擦除，对支撑物进行擦除后能够使物体看起来是自己动起来的。支撑物一般是金属骨架或者人的手。利用软件进行擦除对金属骨架有比较好的效果，但是对人的手部效果不够理想。因此，人的手部区域一般是通过人工完成，人工方法效率低下，费时费力。因此，通过研究定格动画生成中的人手部自动分割，能够有效的提高擦除效率，进而能够大大提升动画制作效率，对这种动画制作方式来说具有十分重要的意义。

早期的手部分割研究是基于剪影法(image substraction method)的，这种方法首先采用了一张没有任何物体的背景图，而后再给出同一张背景图，与前一张背景图不同的是，这张图中含有人的手部，此后将这2张图作对比，建立皮肤颜色模型，根据皮肤颜色模型分析，将背景图与手部图在裁剪，进而分割出手部区域。这种分割是分别实现在灰度图，RGB颜色空间的图像以及归一化RGB颜色空间的图像(normalized RGB color space)上的，能够获得比较理想的效果，但是，一旦背景中含有与人的皮肤颜色比较相近的物体时，就容易获得一个比较糟糕的结果。此外，为了建立一个精确的皮肤颜色模型，这种方法需要大量的手部样本图像，而采集大量的手部图像是一件十分耗时耗力的事情。

人类皮肤颜色在颜色空间上是聚集在一个相当小的区域里的，不论是任何人种，都是如此。另外，在一定的光照条件下，皮肤颜色分布可以用一个多元正态分布来描述(在归一化颜色空间下)。基于这些特征，Lew[Y.P.Lew,A.R.Ramli,S.Y.Koay,et al.A handsegmentation scheme using clustering technique in homogeneousbackground.Student Conference on Research and Development.IEEE,2002:305-308]提出了一种聚类技术来建立皮肤颜色模型，这种方法避免了采集大量的样本的方法，对于不同的用户，也能有较好的分割结果。但是这种剪影法仅能在单一或匀质背景下(homogenous background)有较好的结果，对于复杂的背景，例如多个不同物体聚集的背景当中，则效果有所降低，不够理想。

Wang等[W.Wang,J.Pan.Hand segmentation using skin color and backgroundinformation.International Conference on Machine Learning andCybernetics.IEEE,2012:1487-1492]则提出利用背景信息的连贯性来提高手部分割效果的建议。这种方法提供了一个新的研究视角，以往大多数的研究均没有提及背景信息的运用。在人手的一些边界区域中，由于图片的分辨率不同，或多或少都会存在一些非皮肤像素的混入，因此一些非皮肤像素会被容易认为是皮肤像素。而加入背景信息的运用之后，这类错误将能得到大大的减少。此文通过将背景信息逐一分离，将其综合到分离出的手部区域结果上，从而使手部区域分割效果提高。

Cui等[X.Cui,W.Bu,X.Q.Wu,et al.Hand segmentation in complexenvironment based on skin color model and boundary cutting.InternationalConference on Machine Learning and Cybernetics.IEEE,2012:1098-1103]加入了边界切除的方法，该方法在获得粗略手部区域图像之后，通过边界切除以获得更为精准的手部区域，这种切除方法是基于Vote Map的，能够结合不同的颜色空间并将错误和不连续的边缘像素抛弃掉。

建立皮肤颜色模型是已经被证明为一种具有鲁棒性的手部检测方法。其主要方法是通过大量的训练获得一个分类器，将图像中每一个像素通过分类以确定是否属于手部区域。关于皮肤颜色模型的研究颇为丰富，Dawod等[A.Y.Dawod,J.Abdullah,M.J.Alam.A newmethod for hand segmentation using free-form skin color model.InternationalConference on Advanced Computer Theory and Engineering.IEEE,2010:V2-562-V2-566.]提出了一种自由形式(free-form)的皮肤颜色模型，这种模型捕捉一个人的手的像素值并将其转换到YCbCr颜色空间中，然后将CbCr颜色空间映射到一个CbCr颜色盘上，进而构建与该人相关的一个聚集的皮肤区域。与这种方案类似，Dawod等[A.Y.Dawod,J.Abdullah,M.J.Alam.Adaptive skin color model for hand segmentation.InternationalConference on Computer Applications and Industrial Electronics.IEEE,2010:486-489.]又提出了一种具有自适应性(adaptive)的皮肤颜色模型，在使用类似的技术构建了一个相关的聚集皮肤区域后，与前面的方案不同，在这个区域上使用边缘检测去构建一个皮肤颜色模型。

识别皮肤颜色方法也有其明显的局限之处，那就是当背景中含有与皮肤相近的颜色时就容易出错。

卷积神经网络是图像识别与分割领域中的一个重要技术，它为当今识别技术提供了一种快速而精准有效的方法。同时，能够大大降低数据处理的复杂性以及计算的运算时间，通过大量减少参数而提高计算效率，在图像处理中有着广泛应用。将卷积神经网络运用在图像分割中能够得到比较好的效果。

在近几年，卷积神经网络有很多研究进展。Long等[J.Long,E.Shelhamer,T.Darrell.Fully convolutional networks for semantic segmentation.IEEETransactions on Pattern Analysis&Machine Intelligence,2015,79(10):1337-1342.]提出了将卷积神经网络中的全连接层更改为卷积层的想法。经典的卷积神经网络一般用于图像的识别与分类，而将全连接层改为卷积层后的全卷积神经网络则能够完成像素级别的语义分割，经过训练后，能够将图像中的某种物体分割出来。

本发明在了解和认识了近年来的研究状况后，探究利用全卷积神经网络完成手部区域的识别分割。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提出了一种使用全卷积神经网络分割定格动画中人手部区域的方法，这种方法能够不需要建立复杂的皮肤模型，只需要使用包含人手部区域图片的数据集对网络模型进行训练，训练完成后的模型将能够对人手部区域进行分割，且具有较高的精确度，满足分割任务的要求。

为实现上述目的，本发明所提供的技术方案为：使用全卷积神经网络分割定格动画中人手部区域的方法，包括以下步骤：

1)数据输入

给定的一个定格动画中的关键帧，将其保存为jpg格式图片，对图片的分辨率没有固定要求，但是同一个定格动画中的每个关键帧的分辨率必须相同，将jpg格式的图片作为网络的输入，可以由网络直接读取；

2)使用全卷积神经网络进行特征提取和初步分割

使用一个全卷积神经网络对输入的数据进行特征提取，并进行初步的分割，全卷积神经网络的输出将是一张单通道的图片，是对人手部区域的具有一定精确度的分割图像；

3)使用条件随机场CRF对分割效果进行优化

使用一个条件随机场算法对全卷积神经网络输出的初步分割图像进行分割优化，这个优化将会进一步提升分割的效果；

4)对网络模型进行训练

对由全卷积神经网络以及条件随机场组成的网络模型进行训练，训练使用包含人体手部区域的图像的数据集进行训练；

5)使用完成训练的模型对输入图片进行分割

条件随机场算法输出的同样是一张单通道的图片，是对人手部的区域的具有较高精确度的分割图像，保存的图像格式为png格式。

在步骤2)中，使用的全卷积神经网络分为两个部分，第一个部分采取多层卷积层和池化层堆叠的方式，形成一个特征提取的过程；而第二部分则采用反卷积层进行上采样，获得网络的分割结果；

第一个部分的网络结构是较为单一的卷积层与池化层的重复：首先是两层的卷积层与一层池化层，池化层采用的是最大池化方法。接着是同样是两层卷积层与一层池化层。接下来是三层卷积层与一层池化层。再接着是将这个三层卷积层与一层池化层的结构重复两次，即三层卷积层、一层池化层以及三层卷积层、一层池化层，总共6层卷积层2层池化层，以上各卷积层参数设置除卷积核数量外均相同，各池化层参数设置相同。在最后的池化层后连接的，是将全连接层转化而成卷积层，这样的卷积层共有两层，这里说的转化，实际上是将卷积操作从对1个像素单位操作改为对多个像素单位操作，即改变卷积核的大小，这样的做法能大大减少参数数目，同时能够提取到图像高维的特征。最终，第一个部分的结构一共组成了20层的结构网络。

需要提到的一点即是，第一部分的网络结构中的卷积层结果输出的图像尺寸均是与输入图像尺寸相同的。因此，在这个部分的网络当中，会使图像尺寸缩小的只有池化层，池化层会使图像长度缩小2倍，宽度缩小2倍。由于存在5个池化层，因此，第一部分网络最后的卷积层输出将是比原始图像长宽各缩小32倍的特征图。

第二部分的网络结构对比起第一部分网络结构大为减少，但也较为复杂，这个部分的网络结构是输出最后的分割结果的，因此可以将这部分结构看作输出层。

首先将第一部分网络最后的输出再次经过一个附加的卷积层，反卷积层以及卷积层进行处理，反卷积层会将输入扩大2倍。此时，为了将浅层信息加入考虑，将第一部分网络的第4层池化层输出与这里附加的最后一层卷积层的输出融合起来。这里的融合实际上是一个简单的加和过程，即对每个像素的像素值进行加和。这里将融合后的输出结果称为融合1。将融合1的结果经过一个反卷积层，此后再经过一个卷积层处理，同样反卷积层会将输入扩大2倍。随后，类似地，这个卷积层的输出将会与第一部分网络的第3层池化层输出进行融合，这个融合同样是简单的像素值加和过程，我们可以称这个结果为融合2，融合2会经过一个反卷积层，反卷积层将输入扩大8倍，最终得到网路的预测结果，该结果将输入到下一步骤进行优化。

在步骤3)中，使用的条件随机场算法为：在与全卷积神经网络进行连接时，条件随机场算法实际上会被拆分为五个步骤，这些步骤将会被看作一个神经网络的层次，将这些步骤重新组合而成的层次，将以全卷积神经网络的输出作为输入，对输入的分割结果进行优化，最后得到优化后的分割结果，具体过程如下：

定义x_i为像素i的随机变量，它的值取自标签集合L＝{l₁,l₂,...,l_L}。定义X为由x₁,x₂,…,x_N组成的向量，N为图像中的像素个数。对于一个图G＝(V,E)，V＝{x₁,x₂,…x_N}，定义I为图像中每个像素的观测值的集合，条件随机场的目标即为通过像素观测值I推测出每个像素所对应的标签类别，即X，这个过程可以通过公式(1)说明。

其中Z(I)为规范化函数，作用为将每个像素i的观测值的能量项进行加和，其定义为：

Z(I)＝Σ_iE(x_i) (2)

公式(1)，(2)中E(X)称为能量项，X∈L_N，E(X)的定义为：

E(X)＝Σ_iψ_u(x_i)+Σ_i≠jψ_p(x_i,x_j) (3)

其中ψ_u(x_i)为势能函数，Σ_iψ_u(x_i)即为一元势能项，它表征了像素i取标签值x_i的代价。这一项可以通过一个卷积神经网络的输出得到，即这一项代表的是卷积神经网络的输出，也可以看作是在不考虑平滑性以及标签一致性的情况下对像素的标签进行预测。ψ_p(x_i,x_j)同样是势能函数，它表征了同时将标签值x_i,x_j赋予像素i,j时的代价，对于这一成对势能项，则可以通过高斯权重函数进行得到：

其中，k^(m)为高斯核，m＝1,2,...,M，M为高斯核的数量，w^(m)为高斯核对应的权重值；f_i,f_j为像素i,j的特征向量，这个特征向量由图像信息组成，例如空间位置以及相应的RGB值；μ(x_i,x_j)表示了两个标签值之间的兼容性度量。w^(m)，μ(x_i,x_j)均是通过训练过程不断更新的参数。

由于直接求解P(X)比较困难，因此可以通过计算一个近似的概率函数Q(X)来近似得到P(X)：

Q(X)＝Π_iQ_i(x_i) (5)

其中Q_i(x_i)可以定义为公式(6)：

上式的意义为标签值x_i取中l的概率值，l,l'均属于标签集合L＝{l₁,l₂,...,l_L}。这是一个迭代的过程。

将公式(6)拆分为几个步骤，每个步骤可以看作为一个神经网络层。这几个步骤可以分为：

●初始化:对所有i进行计算

●信息传递:

●权重赋予:

●相容性变换:

●二元项添加:

●归一化:

需要注意的是，在初始化这一步骤中，这一步骤所进行的计算输出实际上等价于一个卷积神经网络的输出。因此在实际网络中，是使用卷积神经网络的输出来代替这一步骤。而在二元项添加这一步骤中，需要添加一个一元势能项。这个势能项不需要花费额外的计算，只需要把卷积神经网络的输出，也即是全卷积神经网络的输出作为即可。因此这也就意味着，条件随机场算法需要将全卷积神经网络的输出分裂为2个来作为输入。

在步骤4)中，建立的数据集为：数据集共以不同男性或女性的手部为采集目标，图片拍摄环境为办公室，学生宿舍内以及办公楼户外等等地方，图中人的手可以为无抓握物体的状态，也可以抓握某种物体，抓取的物体为生活用品，办公用品等日常生活中常见物体。拍摄环境需要包含亮度较为光亮的环境，以及亮度较为暗的环境。

拍摄方法为将笔记本电脑连接Kinect摄像头，使用视频拍摄软件进行拍摄。拍摄的人员进行拍摄时应交替用左手、右手以及双手实现抓取物体或不抓取物体的手势。视频长度为1-2分钟，分别以第一人称视角以及第三人称视角进行拍摄。

拍摄完成后对视频进行选帧处理。视频选择手部区域较为明显，清晰的一帧进行截取，每个视频截取数帧，截取帧时应对每种视角下拍摄的手部图片进行截取，并且，应分别截取仅包含左手、仅包含右手以及包含左右手的图片。图片尺寸不限，但需要每张图片尺寸统一。

后期训练过程中为了提高分割的精确度，可以对数据集进行增加。增加的数据集制作方法相同。

为了提高分割精度，可以使用数据增强的方法对数据集进行增强。数据增强的方法由裁剪，平移，旋转以及添加杂色。裁剪是对图片进行以手部区域为中心的随机区域裁剪，裁剪后的图片需要将尺寸调整为统一尺寸，主要目的是减少过于复杂的背景因素影响，有利于初期训练，而在训练的后期将使用不裁剪的原始图片。平移是对图片往随机方向随机平移一定的像素距离。旋转则主要有90度旋转，180度旋转，水平翻转，垂直翻转以及往右或者左旋转5-7度。添加杂色的数量为14％-18％，分布方式为平均分布。

在步骤4)中，使用的训练方案为：训练过程中需要输入标签(label)以计算损失值进行权值更新。与图像分类中使用的标签不同，图像分割的标签需要对每一个像素进行标记，因此需要先人工对手部区域进行区分。

由于此次分割任务是将手部区域分割出来，为了避免无关因素的影响，在标记时仅仅将图片中的物体分为2类，第一类为背景，第二类为人的手部区域。

在制作标签集时，首先使用图像处理软件对图像进行人工的手部区域分割。做法是对手部区域以某一纯色RGB值为进行标记，而其余的区域即背景区域则以另外一中纯色RGB值进行标记。这样做的结果是获得一张手部区域呈单一颜色，而背景呈另外一种单一颜色的图片。由于网络最后的输出是一张单通道图片，为了与之相对应，因此标签集的图片也必须为单通道的图片。为此，使用图像处理算法对上述图片进行处理，转换为单通道图片，图片格式为png或者jpg。

本次完成的标签集的标签规划是将手部区域的像素标记为0，背景区域的像素标记为1。因此将手部区域的像素值全部修改为0，而背景区域的像素值全部修改为1，而这种图片也即是最终作为网络输入的标签集的图片，图片格式为png或者jpg。

训练过程使用带动量的随机梯度下降法(SGD)优化函数进行训练。训练当中使用动量(momentum)值范围为0.90～0.99，权值衰减(weight decay)范围为0.0005～0.0010。训练的批大小(batch size)为1～50均可。

训练是使用微调(fine tune)的方法进行训练的。微调使得训练更加有效率。在训练时，权值的初始化是很重要的问题，没有正确的进行初始化往往会导致输出全为0的情况。使用随机的方法进行初始化是一种方法，但是这种随机初始化对数据集的要求比较大，训练耗时，效率较低。

初始学习率设置范围为1e-13～1e-8。调整学习率将使得权值在训练过程当中波动范围改变。

首先将数据集分为三个数据集，即数据集1、数据集2、数据集3，这种拆分是随机抽取进行拆分的。数据集1以及数据集2主要包含进行了一定程度的裁剪的图片，以使得手部区域较为明显和突出，减少背景复杂因素影响，而数据集3则主要包含不进行裁剪，保留原图所有物体的原始图片。训练首先使用数据集1作为训练集进行，同时以数据集2作为验证集。分别进行了三次训练，训练次数分别为20000～80000次。在观察到网络能初步抓取到手部特征后，改为数据集2作为训练集，数据集1作为验证集进行同样次数的训练。同样在观测到网络能明显提取到手部特征时，使用数据集3作为训练集，数据集1或者数据集2作为验证集进行训练，训练次数为60000～80000次，同时调整学习率。训练完成后网络能够对图像中的手部区域进行具有较高精确度的分割。

如果在初次训练过程中，发现网络无法抓取手部特征，即网络输出为全零时，则需要调整训练参数，包括增加学习率以及增加训练次数。同时考虑数据集重新制作，重新制作目标是使得图片中的分割目标，即手部区域更为突出，同时使背景区域更为单一，没有杂物影响。

本发明与现有技术相比，具有如下优点与有益效果：

1、分割效果更好，抗噪性更好。在往期的关于人体手部区域的研究工作，大部分都是基于颜色模型的，建立颜色模型不仅需要大量的样本，而且分割的效果并没有达到较为理想的程度，在背景掺杂了与人的皮肤颜色相近的物体时，就容易出错。而使用全卷积神经网络进行人体手部区域分割，能够使用神经网络具有自我学习的特性，自动的学习手部区域的特征，在训练完毕后的网络模型，能够很好的把握人体手部区域的特征，从而较好的分割出人的手部区域。而且，在图像中噪音较为多的情况下，例如手部区域被遮挡，含有与皮肤颜色相近的物体等情况，也能够对手部区域进行具有一定精确度的分割。另外，在使用数据集外的图片进行测试时，也能够获得很好的结果。

2、使用简单，效率更高，代码量更低。往期的手部分割研究工作均需要建立较为复杂的模型，这涉及到比较大的代码量以及计算量，而且，要较好的图像的分割结果，往往还需要较为复杂的后处理，例如边缘处理。而使用全卷积神经网络对人的手部区域进行分割，只需要建立网络模型，并对网络模型完成训练即可。在使用一些流行的深度学习框架如Caffe或者Tensorflow时，网络模型本身的代码量非常少，不到200行。对网络模型进行训练也只需要花费2-3天的时间即可。在完成训练后，网络能够很好的对图像进行分割，不需要复杂的预处理以及后处理，整个工作流程更为简单，效率更高。另外，对一张图片进行分割所需的时间，在一台含有单个GTX1080显卡的电脑上运行时，仅需要0.1-0.2s，而传统的手部分割则需要花费更多时间。

3、本发明中建立数据集的方法，是针对本技术方案建立的，具有针对性，能够比较有效率的建立数据集。通过这种建立数据集的方法，能够建立很好的满足网络对输入的图片要求的数据集，所需的人员以及物资少。通过数据增强的方法，能够快速提升数据集的质量，增加数据集的多样性，使网络的训练效果更好，不需要再费时间去制作更多的图片。

4、本发明中提供的训练方案，是通过总结训练过程的经验而提出的。这种训练方案，能够充分使用数据集，而且花费更少时间去完成训练，避免输出全为0的情况。同时，训练方案中设置的参数，也是通过总结训练过程的经验而来，能够更好的提升训练效果。

附图说明

图1为本发明的训练时所使用的自己建立的手部数据集。

图2为本发明所使用的网络模型。

图3为本发明中使用的条件随机场算法流程图。

图4为本发明的一些图像分割结果，其中使用的测试图片来自训练数据集，最下方的黑色背景图为人工分割的标准结果，中间的为分割效果图。

图5为本发明的一些图像分割结果，其中使用的测试图片为数据集外的图片。

图6为使用本发明在不同图片亮度下对图像进行分割实验的结果。

图7为在对图片混入不同浓度的杂色下，使用本发明对图像进行分割实验的结果。

图8为在对手部区域进行不同位置的遮挡情况下，使用本发明对图像进行分割实验的结果。

图9为对背景区域进行不同替换下，使用本发明对图像进行分割实验的结果。

图10为使用数据集对网络模型进行训练时的损失值-训练次数图。

图11为使用数据集对网络模型进行训练时的精确度-训练次数图。

具体实施方式

下面结合具体实施例对本发明作进一步说明。

本实施例所提供的使用全卷积神经网络对定格动画人手部区域自动分割的方法，其具体情况如下：

1)数据集准备

训练首先需要建立包含人手部区域的数据集。数据集可以包含初始图片1500-3000张，共不同男性或女性的手部为采集目标，最好是男女均有。图片拍摄环境不限，学生宿舍内以及办公楼户外等，图中人手可以抓取一些物体进行拍摄，为生活用品，办公用品等等，也可以不抓取物体进行拍摄。可以考虑在不同亮度环境下进行拍摄，例如在宿舍内拍摄的图片亮度较为暗，而在办公楼户外拍摄的图片亮度则较为明亮。

拍摄方法为将笔记本电脑连接Kinect摄像头，使用视频拍摄软件进行拍摄。拍摄的人员为2人，交替用手部抓取物体进行拍摄视频。视频长度为1-2分钟，分别以第一人称视角以及第三人称视角进行拍摄。

拍摄完成后对视频进行选帧处理。视频选择手部区域较为明显，清晰的一帧进行截取，每个视频截取10帧，也即是10张图片，共包含4张左手持物，4张右手持物，2张双手持物图片。图片尺寸为480×640。共拍摄了151个视频，每个视频截取10张图片。建立的数据集图片例子如图1所示。

为了提高分割精确度，仅仅1500-3000张图片数据集还不足以训练一个较为深层的网络进行特征提取，因此数据集在这之后还将使用数据增强的方法对数据集进行增强。

数据增强的方法由裁剪，平移，旋转以及添加杂色。裁剪是对图片进行以手部区域为中心的随机裁剪，主要目的是减少过于复杂的背景因素影响，利于初期训练，而在训练的后期将使用不裁剪的图片。平移是对图片往随机方向随机平移一定的像素。旋转则主要有90度旋转，180度旋转，水平翻转，垂直翻转以及往右或者左旋转5-7度。添加杂色的数量为14％-18％，分布方式为平均分布。可以使用一些图像处理软件如Photoshop等进行处理。

训练过程中需要输入标签(label)以计算损失值进行权值更新。与图像分类中使用的标签不同，图像分割的标签需要对每一个像素进行标记。因此需要先人工对手部区域进行区分，而这种人工进行分割获得的精确的分割图像也称为标准结果。

在制作标签集时，首先使用PhotoShop CS6对图像进行人工的手部区域分割。做法是对手部区域以RGB值为(0,0,255)进行标记，而其余的区域即背景区域则以RGB值(0,0,0)进行标记。这样做的结果是获得一张手部区域蓝色，而背景呈黑色的图片。由于网络最后的输出是一张单通道图片，为了与之相对应，因此标签集的图片也必须为单通道的图片。为此，可以使用OpenCV对上述图片进行处理，将蓝色通道分割出来并保存起来，这将获得一张手部区域的像素值为255，而背景区域像素值为0的单通道图片。

本次完成的标签集的标签规划是将手部区域的像素标记为0，背景区域的像素标记为1。因此同样使用OpenCV将手部区域的像素值全部修改为0，而背景区域的像素值全部修改为1，而这种图片也即是最终作为网络输入的标签集的图片。

2)构建网络

网络模型如图2所示，灰色矩形为卷积层，黑边白色矩形为池化层，深灰色矩形为反卷积层。使用一些比较流行的深度学习框架如Caffe、Tensorflow等能够非常方便的建立起网络模型。网络模型的设置为如下：全卷积神经网络分为两个部分。第一个部分采取了多层卷积层和池化层堆叠的方式，形成一个特征提取的过程。而第二部分则采用了反卷积层进行上采样，获得最终的分割结果。

第一个部分的网络结构是较为单一的卷积层与池化层的重复。首先是两层的卷积层与一层池化层，这两层卷积层采用的卷积核为每一层各64个，卷积核大小为3×3，滑动步长为1，并且首层卷积层对输入图像进填充(pad)像素，其值为100，池化层采用的是最大池化方法，使用的卷积核大小为2×2，滑动步长为2。接着是同样是两层卷积层与一层池化层，这两层卷积层每一层各使用128个卷积核，卷积核大小与前面的卷积层相同，滑动步长也是设置为1，pad则设置为1，池化层的设置与前面的池化层一样。接下来是三层卷积层与一层池化层，每个卷积层的所使用的卷积核数量为256个，除此之外的卷积核大小，滑动步长，填充设置均与相邻的前面2层卷积相同，池化层也是同样的设置，即使用的卷积核大小为2×2，滑动步长为2。再接着是将这个三层卷积层与一层池化层的结构重复两次，即三层卷积层一层池化层以及三层卷积层一层池化层，总共6层卷积层2层池化层，采用的卷积核数量为每一卷积层512个，其余参数设置均与前面的卷积层设置相同，池化层同样是使用的卷积核大小为2×2，滑动步长为2。在最后的池化层后连接的，是将全连接层转化而成卷积层，这样的卷积层共有两层，每一层采用了4096个卷积核，第一个卷积层的卷积核大小为7×7，滑动步长为1，填充设置为0，而第二个卷积层的卷积核大小为1×1，滑动步长为1，填充同样设置为0。最终，第一个部分的结构一共组成了20层的结构网络。

在这个部分的网络当中，会使图像尺寸缩小的只有池化层，池化层会使图像长度缩小2倍，宽度缩小2倍。由于存在5个池化层，因此，第一部分网络最后的卷积层输出将是比原始图像长宽各缩小32倍的特征图。

首先将第一部分网络最后的输出再次经过一个附加的卷积层，反卷积层以及卷积层进行处理。这两层卷积层的参数设置为卷积核数量设置为2个，卷积核大小为1×1，填充设置为0，滑动步长为0，而反卷积层的设置则为卷积核数为2，卷积核大小为4×4，滑动步长为2，因此这个反卷积层将使输出扩大为输入的2倍，而卷积层输出尺寸则不变。此时，为了将浅层信息加入考虑，将第一部分网络的第4层池化层输出与这里附加的最后一层卷积层输出融合起来。这里的融合实际上是一个简单的加和过程，即对每个像素的像素值进行加和，而这里的第4层池化输出是初始图像的1/16，而卷积层输出也是初始图像的1/16，两者的尺寸是相同的，因此可以相互融合。这里将融合后的输出结果称为融合1。随后，将融合1的结果经过一个反卷积层，反卷积层的设置为卷积核数为2，卷积核大小为4×4，滑动步长为2，此后再经过一个卷积层，卷积层的卷积核数量为2，卷积核大小为1×1，滑动步长为2。随后，这个卷积层的输出将会与第一部分网络的第3层池化层输出进行融合，这个融合同样是简单的像素值加和过程，我们可以称这个结果为融合2，融合2会经过一个反卷积层，反卷积层的设置则是卷积核数量为2，卷积核大小为16×16，滑动步长为8，最终得到网络的预测结果，该结果将输入到下一步骤进行优化。

3)将条件随机场算法加入到网络模型中对分割结果进行优化

在与全卷积神经网络进行连接时，条件随机场算法实际上会被拆分为五个步骤，这些步骤将会被看做一个神经网络的层次，将这些步骤重新组合而成的层次，将以全卷积神经网络的输出作为输出，对分割结果进行优化，最后得到优化后的分割结果。条件随机场算法的流程图如图3所示。条件随机场算法的计算过程如下：定义x_i为像素i的随机变量，它的值取自标签集合L＝{l₁,l₂,...,l_L}。定义X为由x₁,x₂,…,x_N组成的向量，N为图像中的像素个数。对于一个图G＝(V,E)，V＝{x₁,x₂,…x_N}，定义I为图像中每个像素的观测值的集合，条件随机场的目标即为通过像素观测值I推测出每个像素所对应的标签类别，即X，这个过程可以通过公式(1)说明。

Z(I)＝Σ_iE(x_i) (2)

公式(1)，(2)中E(X)称为能量项，X∈L_N，E(X)的定义为：

E(X)＝Σ_iψ_u(x_i)+Σ_i≠jψ_p(x_i,x_j) (3)

Q(X)＝Π_iQ_i(x_i) (5)

其中Q_i(x_i)可以定义为公式(6)：

●初始化:对所有i进行计算

●信息传递:

●权重赋予:

●相容性变换:

●二元项添加:

●归一化:

4)使用建立的数据集对网络模型进行训练

使用的训练方案如下：使用的训练方案为:训练过程使用带动量的随机梯度下降法(SGD)优化函数进行训练。训练当中使用动量(momentum)值为0.99，权值衰减(weightdecay)设置为0.0005。训练的批大小(batch size)为1。

初始学习率设置为1e-8。调整学习率将使得权值在训练过程当中波动范围改变，学习率越高，权值的波动范围也就越大。

首先将数据集分为包含19004张图片的数据集1，包含19226图片的数据2，包含19104图片的数据集3，这种拆分是随机抽取进行拆分的。数据集1以及数据集2进行了一定程度的裁剪，以使得手部区域较为明显和突出，减少背景复杂因素影响，而数据集3不进行裁剪，保留原图所有物体。训练首先使用数据集1作为训练集进行，同时以数据集2作为验证集。分别进行了三次训练，训练次数分别为20000，40000，80000次。在观察到网络能初步抓取到手部特征后，改为数据集2作为训练集，数据集1作为验证集进行同样次数的训练。同样在观测到网络能明显提取到手部特征时，使用数据集3作为训练集，数据集1或者数据集2作为验证集进行训练，训练次数为80000次，同时调整学习率为1e-9。训练完成后网络能够对图像中的手部区域进行具有较高精确度的分割。

5)完成训练后，可以使用图片对网络模型进行测试。

综上所述，本发明提出了一种新的对定格动画中人手部区域的自动分割的技术方案，即通过使用全卷积神经网络对人手部区域进行自动识别和分割。使用全卷积神经网络的优势在于，能够自动对手部区域进行具有较高精确度的分割，而且抗噪性高，使用比较简便，代码量小。分割一张图片所需的时间也低，效率高。本发明方案也经过了实验证明其可行性。图4、图5为本发明的一些图像分割结果，使用的测试图片来自训练数据集以及数据外的图片。中间的灰色背景图为网络分割结果。图4中黑色背景的分割图为人工分割的标准结果。图6、图7、图8、图9为使用本发明在不同图片亮度、混入不同浓度的杂色下、对手部区域进行不同位置的遮挡情况下以及对背景区域进行不同替换下，使用本发明对图像进行分割实验的结果。图10、图11为使用数据集对网络模型进行训练时的损失值-训练次数图以及精确度-训练次数图。

以上所述实施例只为本发明之较佳实施例，并非以此限制本发明的实施范围，故凡依本发明之形状、原理所作的变化，均应涵盖在本发明的保护范围内。

Claims

1.使用全卷积神经网络分割定格动画中人手部区域的方法，其特征在于，包括以下步骤：

1)数据输入

给定的一个定格动画中的关键帧，将其保存为jpg格式图片，对图片的分辨率没有固定要求，但是同一个定格动画中的每个关键帧的分辨率必须相同，将jpg格式的图片作为网络的输入，由网络直接读取；

2)使用全卷积神经网络进行特征提取和初步分割

使用一个全卷积神经网络对输入的数据进行特征提取，并进行初步的分割，全卷积神经网络的输出将是一张单通道的图片，是对人手部区域的初步分割图像；

3)使用条件随机场CRF对分割效果进行优化

4)对网络模型进行训练

5)使用完成训练的模型对输入图片进行分割

条件随机场算法输出的同样是一张单通道的图片，是对人手部的区域的进一步分割图像，保存的图像格式为png格式。

2.根据权利要求1所述的使用全卷积神经网络分割定格动画中人手部区域的方法，其特征在于：在步骤2)中，使用的全卷积神经网络分为两个部分，第一个部分采取多层卷积层和池化层堆叠的方式，形成一个特征提取的过程；而第二部分则采用反卷积层进行上采样，获得网络的分割结果；

第一个部分的网络结构是单一的卷积层与池化层的重复：首先是两层的卷积层与一层池化层，池化层采用的是最大池化方法，接着同样是两层卷积层与一层池化层，接下来是三层卷积层与一层池化层，再接着是将这个三层卷积层与一层池化层的结构重复两次，即三层卷积层、一层池化层以及三层卷积层、一层池化层，总共六层卷积层、两层池化层，以上各卷积层参数设置除卷积核数量外均相同，各池化层参数设置相同，在最后的池化层后连接的是将全连接层转化而成卷积层，这样的卷积层共有两层，这里说的转化，实际上是将卷积操作从对1个像素单位操作改为对多个像素单位操作，即改变卷积核的大小，这样的做法能减少参数数目，同时能够提取到图像高维的特征；最终，第一个部分的结构一共组成20层的结构网络；其中，需要提到的一点是：第一部分的网络结构中的卷积层结果输出的图像尺寸均是与输入图像尺寸相同的，因此，在这个部分的网络当中，会使图像尺寸缩小的只有池化层，池化层会使图像长度缩小2倍，宽度缩小2倍，由于存在5个池化层，因此，第一部分网络最后的卷积层输出将是比原始图像长宽各缩小32倍的特征图；

第二部分的网络结构是输出最后的分割结果的，因此将这部分结构看作输出层：首先将第一部分网络最后的输出再次经过一个附加的卷积层，反卷积层以及卷积层进行处理，反卷积层会将输入扩大2倍，此时，为了将浅层信息加入考虑，将第一部分网络的第4层池化层输出与这里附加的最后一层卷积层的输出融合起来，这里的融合实际上是一个加和过程，即对每个像素的像素值进行加和，这里将融合后的输出结果称为融合1，将融合1的结果经过一个反卷积层，此后再经过一个卷积层处理，同样反卷积层会将输入扩大2倍，随后，类似地，这个卷积层的输出将会与第一部分网络的第3层池化层输出进行融合，这个融合同样是像素值加和过程，这里称这个结果为融合2，融合2会经过一个反卷积层，反卷积层将输入扩大8倍，最终得到网路的预测结果，该结果将输入到下一步骤进行优化。

3.根据权利要求1所述的使用全卷积神经网络分割定格动画中人手部区域的方法，其特征在于，在步骤3)中，使用的条件随机场算法为：在与全卷积神经网络进行连接时，条件随机场算法实际上会被拆分为五个步骤，这些步骤将会被看作一个神经网络的层次，将这些步骤重新组合而成的层次，将以全卷积神经网络的输出作为输入，对输入的分割结果进行优化，最后得到优化后的分割结果，具体过程如下：

定义x_i为像素i的随机变量，它的值取自标签集合L＝{l₁,l₂,...,l_L}，定义X为由x₁,x₂,…,x_N组成的向量，N为图像中的像素个数，对于一个图G＝(V,E)，V＝{x₁,x₂,…x_N}，定义I为图像中每个像素的观测值的集合，条件随机场的目标即为通过像素观测值I推测出每个像素所对应的标签类别，即X，这个过程通过公式(1)说明；

Z(I)＝Σ_iE(x_i) (2)

公式(1)、(2)中E(X)称为能量项，X∈L_N，E(X)的定义为：

E(X)＝Σ_iψ_u(x_i)+Σ_i≠jψ_p(x_i,x_j) (3)

其中ψ_u(x_i)为势能函数，Σ_iψ_u(x_i)即为一元势能项，它表征了像素i取标签值x_i的代价，这一项能够通过一个卷积神经网络的输出得到，即这一项代表的是卷积神经网络的输出，也能够看作是在不考虑平滑性以及标签一致性的情况下对像素的标签进行预测，ψ_p(x_i,x_j)同样是势能函数，它表征同时将标签值x_i,x_j赋予像素i,j时的代价，对于这一成对势能项，则通过高斯权重函数进行得到：

<mrow> <msub> <mi>&psi;</mi> <mi>p</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>x</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mi>&mu;</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>x</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <msubsup> <mo>&Sigma;</mo> <mrow> <mi>m</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>M</mi> </msubsup> <msup> <mi>w</mi> <mrow> <mo>(</mo> <mi>m</mi> <mo>)</mo> </mrow> </msup> <msup> <mi>k</mi> <mrow> <mo>(</mo> <mi>m</mi> <mo>)</mo> </mrow> </msup> <mrow> <mo>(</mo> <msub> <mi>f</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>f</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>

其中，k^(m)为高斯核，m＝1,2,...,M，M为高斯核的数量，w^(m)为高斯核对应的权重值；f_i,f_j为像素i,j的特征向量，这个特征向量由图像信息组成；μ(x_i,x_j)表示两个标签值之间的兼容性度量；w^(m)，μ(x_i,x_j)均是通过训练过程不断更新的参数；

通过计算一个近似的概率函数Q(X)来近似得到P(X)：

Q(X)＝Π_iQ_i(x_i) (5)

其中Q_i(x_i)定义为公式(6)：

<mrow> <msub> <mi>Q</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>=</mo> <mi>l</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <msub> <mi>Z</mi> <mi>i</mi> </msub> </mfrac> <mi>exp</mi> <mo>{</mo> <mo>-</mo> <msub> <mi>&psi;</mi> <mi>u</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>-</mo> <munder> <mo>&Sigma;</mo> <mrow> <msup> <mi>l</mi> <mo>&prime;</mo> </msup> <mo>&Element;</mo> <mi>L</mi> </mrow> </munder> <mi>&mu;</mi> <mrow> <mo>(</mo> <mi>l</mi> <mo>,</mo> <msup> <mi>l</mi> <mo>&prime;</mo> </msup> <mo>)</mo> </mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>m</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>M</mi> </munderover> <msup> <mi>w</mi> <mrow> <mo>(</mo> <mi>m</mi> <mo>)</mo> </mrow> </msup> <munder> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>&NotEqual;</mo> <mi>j</mi> </mrow> </munder> <msup> <mi>k</mi> <mrow> <mo>(</mo> <mi>m</mi> <mo>)</mo> </mrow> </msup> <mrow> <mo>(</mo> <msub> <mi>f</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>f</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <msub> <mi>Q</mi> <mi>j</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>j</mi> </msub> <mo>=</mo> <msup> <mi>l</mi> <mo>&prime;</mo> </msup> <mo>)</mo> </mrow> <mo>}</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>6</mn> <mo>)</mo> </mrow> </mrow>

上式的意义为标签值x_i取中l的概率值，l,l'均属于标签集合L＝{l₁,l₂,...,l_L}，这是一个迭代的过程；

将公式(6)拆分为以下六个步骤，每个步骤看作为一个神经网络层，这六个步骤分为：

●初始化:对所有i进行计算

●信息传递:

●权重赋予:

●相容性变换:

●二元项添加:

●归一化:

需要注意的是，在初始化这一步骤中，这一步骤所进行的计算输出实际上等价于一个卷积神经网络的输出，因此在实际网络中，是使用卷积神经网络的输出来代替这一步骤，而在二元项添加这一步骤中，需要添加一个一元势能项，这个势能项不需要花费额外的计算，只需要把卷积神经网络的输出，也即是全卷积神经网络的输出作为即可，因此这也就意味着，条件随机场算法需要将全卷积神经网络的输出分裂为2个来作为输入。

4.根据权利要求1所述的使用全卷积神经网络分割定格动画中人手部区域的方法，其特征在于，在步骤4)中，建立的数据集为：数据集以不同男性或女性的手部为采集目标，图片拍摄环境为办公室，学生宿舍内以及办公楼户外的地方，图中人的手为无抓握物体的状态，或抓握物体的状态，抓取的物体为日常生活中常见物体，拍摄环境需要包含亮度较为光亮的环境，以及亮度较为暗的环境；

拍摄方法为将笔记本电脑连接Kinect摄像头，使用视频拍摄软件进行拍摄，拍摄的人员进行拍摄时应交替用左手、右手以及双手实现抓取物体或不抓取物体的手势，视频长度为1-2分钟，分别以第一人称视角以及第三人称视角进行拍摄；

拍摄完成后对视频进行选帧处理，视频选择手部区域清晰的一帧进行截取，每个视频截取数帧，截取帧时应对每种视角下拍摄的手部图片进行截取，并且应分别截取仅包含左手、仅包含右手以及包含左右手的图片，图片尺寸不限，但需要每张图片尺寸统一；

后期训练过程中为了提高分割的精确度，能对数据集进行增加，增加的数据集制作方法相同；

为了提高分割精度，使用数据增强的方法对数据集进行增强，数据增强的方法有裁剪、平移、旋转以及添加杂色；裁剪是对图片进行以手部区域为中心的随机区域裁剪，裁剪后的图片需要将尺寸调整为统一尺寸，主要目的是减少复杂的背景因素影响，有利于初期训练，而在训练的后期将使用不裁剪的原始图片；平移是对图片往随机方向随机平移预设的像素距离；旋转则主要有90度旋转、180度旋转、水平翻转、垂直翻转以及往右或者左旋转5-7度；添加杂色的数量为14％-18％，分布方式为平均分布。

5.根据权利要求1所述的使用全卷积神经网络分割定格动画中人手部区域的方法，其特征在于，在步骤4)中，使用的训练方案为：训练过程中需要输入标签以计算损失值进行权值更新，与图像分类中使用的标签不同，图像分割的标签需要对每一个像素进行标记，因此需要先人工对手部区域进行区分；

由于此次分割任务是将手部区域分割出来，为了避免无关因素的影响，在标记时仅仅将图片中的物体分为2类，第一类为背景，第二类为人的手部区域；

在制作标签集时，首先使用图像处理软件对图像进行人工的手部区域分割，做法是对手部区域以某一纯色RGB值为进行标记，而其余的区域即背景区域则以另外一中纯色RGB值进行标记，这样做的结果是获得一张手部区域呈单一颜色，而背景呈另外一种单一颜色的图片，由于网络最后的输出是一张单通道图片，为了与之相对应，因此标签集的图片也必须为单通道的图片，为此，使用图像处理算法对上述图片进行处理，转换为单通道图片，图片格式为png或者jpg；

本次完成的标签集的标签规划是将手部区域的像素标记为0，背景区域的像素标记为1，因此将手部区域的像素值全部修改为0，而背景区域的像素值全部修改为1，而这种图片也即是最终作为网络输入的标签集的图片，图片格式为png或者jpg；

训练过程使用带动量的随机梯度下降法优化函数进行训练，训练当中使用动量值范围为0.90～0.99，权值衰减范围为0.0005～0.0010，训练的批大小为1～50均可；

训练是使用微调的方法进行训练的，微调使得训练更加有效率，在训练时，权值的初始化是很重要的问题，没有正确进行初始化往往会导致输出全为0的情况；具体情况如下：

初始学习率设置范围为1e-13～1e-8，调整学习率将使得权值在训练过程当中波动范围改变，首先将数据集分为三个数据集，即数据集1、数据集2、数据集3，这种拆分是随机抽取进行拆分的，数据集1以及数据集2主要包含进行了预设程度的裁剪的图片，以使得手部区域明显和突出，减少背景复杂因素影响；而数据集3则主要包含不进行裁剪、保留原图所有物体的原始图片；训练首先使用数据集1作为训练集进行，同时以数据集2作为验证集，分别进行三次训练，训练次数分别为20000～80000次，在观察到网络能初步抓取到手部特征后，改为数据集2作为训练集，数据集1作为验证集进行同样次数的训练，同样在观测到网络能明显提取到手部特征时，使用数据集3作为训练集，数据集1或者数据集2作为验证集进行训练，训练次数为60000～80000次，同时调整学习率，训练完成后网络能够对图像中的手部区域进行高精确度的分割；

如果在初次训练过程中，发现网络无法抓取手部特征，即网络输出为全零时，则需要调整训练参数，包括增加学习率以及增加训练次数，同时考虑数据集重新制作，重新制作目标是使得图片中的分割目标，即手部区域更为突出，同时使背景区域更为单一，没有杂物影响。