CN109377498B

CN109377498B - 基于循环神经网络的交互式抠图方法

Info

Publication number: CN109377498B
Application number: CN201811006615.XA
Authority: CN
Inventors: 陈少喆; 杨鑫; 尹宝才; 张强; 魏小鹏
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2018-08-31
Filing date: 2018-08-31
Publication date: 2021-08-20
Anticipated expiration: 2038-08-31
Also published as: CN109377498A

Abstract

本发明提供了一种基于循环神经网络的交互式抠图方法，属于计算机技术领域。本发明针对现有数字抠图算法工作量需求大，对用户输入质量依赖性高的问题，设计了一种基于循环神经网络的交互式抠图方法。所设计的框架通过循环过程中人为检测信息区域减少无价值判断结果，在减少工作量的同时能够得到主流抠图方式的抠图结果。本发明有益效果如下：(1)交互式模型、(2)长短期记忆网络、(3)强化学习方法和(4)三维场景渲染。

Description

基于循环神经网络的交互式抠图方法

技术领域

本发明涉及一种基于循环神经网络的交互式抠图方法，属于计算机技术领域。

背景技术

抠图技术(Image Matting)就是将图像中的前景从背景中分离出来的技术，该技术能够将人们需要的区域提取出来，便于对图像关键信息进行后续操作。图像抠图是计算机视觉方向的热门问题。现有的高性能数字抠图方法通常需要先验知识，即整张图片的三分图(Trimap)。但三分图的获取大大增加的工作量。对于少量基于交互输入的抠图方法。本发明旨在利用深度循环神经网络，探索一种基于交互，但限制用户交互方式的数字抠图方法，在减少工作量的同时达到令人满意的抠图效果。

图像均是由前景和背景构成的，根据原始的图像合成公式，一幅图像C可以表示为其前景F与背景B的一个结合(每一个像素点同样的可以视为在其同一位置的一个前景值和一个背景值的合成)，即：

I_z＝α_zF_z+(1-α_z)B (1)

其中z＝(x，y)代表输入图像I中像素的位置。α值alpha抠图结果，它的值在(0，1)之间，表示前景的不透明度。背景区域像素点α值为0，前景区域像素α值为1，介于前景和背景之间区域的细节部分，α值介于(0,1)之间，如果我们能够确定该区域α值，那么我们就能确定该像素点的颜色值，而这也是图像抠图技术需要解决的问题。

(1)抠图方法

①基于三元图的方法

现有的高性能数字抠图方法通常需要先验知识，即整张图片的三分图(Trimap)。三分图由前景(白色)、背景(黑色)以及未知区域(灰色)组成。这些算法可分为两类，基于采样和基于传播的方法。基于采样的方法假设每个未知像素可以用一对已知的前景/背景像素来代表。基于传播的方法使用相邻像素亲和力，将α值从已知区传播到未知区域。Ning Xu等人应用深度卷积编码-解码网络，将图像和三元图作为输入，并输出抠图结果。试验表明，随着三元图质量下降，输出抠图结果的质量大幅下降。另一方面，三元图获取需要较大工作量，使用三原图预估能够减少三元图获取过程的工作量，但要求图像前景明显，因此不能在实践中广泛应用。

②基于输入笔画的方法

基于用户自由笔画是一种用户友好型的获取前景/背景信息的方式，需要用户图像在前景及背景部分画几处笔画。然而，该方法产生的抠图结果质量高度依赖于用户输入的笔画与抠图算法设定之间的适应程度。此外，输入适当的笔画需要掌握抠图算法的专业知识才能得到高质量的抠图效果。

③交互式模型

交互式模型应用在许多问题之中，如分类问题，图像分割以及曲线结构描绘等。微软实验室和美国奥斯汀大学提出一种交互式选择过程，通过用户判断来选择代表性图片，并传递到剩余未标记图片，用于自动分割。交互式模型应用目的虽然不同，但其核心思路相同，即让用户参与循环之中以提供具有代表性的标签。在本文中，我们提出了第一个用于抠图算法的主动式模型，检测用户标注的信息区域。

(2)长短期记忆网络

循环神经网络(Recurrent Neural Network)能够处理序列类型数据。长短期记忆网络(Long Short Term Memory)是一种特殊的循环神经网络，可以学习长期依赖的信息。长短期记忆网络包含一种“门”结构，能够去除或增加信息到细胞状态。一个网络模块拥有三个“门”来保护和控制细胞的状态。首先决定从细胞中丢弃哪些信息，之后确定被存放的新信息，最后将旧状态经过处理得到变化后的新状态。根据长短期记忆网络的特点，本发明将引入该网络模块，通过已有的信息区域和生成抠图结果的编码信息，并结合视觉特征，为用户建议下一处信息区域。

(3)强化学习策略

强化学习将学习看作试探评价过程，通过与环境进行交互获得的奖赏来指导行为，使智能体(Agent)得到最大的奖赏。本方案需要以真实数据作为监督，根据预测值与真实值的差距调节网络参数并实现收敛。然而，由于本方案引入了用户交互的过程，这使得导数梯度的传导遭到了破坏。为继续传播这一关系，本方案引入了强化学习的策略。当前步的用户信息标记图和求得的抠图预测为当前步的状态；下一步用户将在某一位置给定下一个标签为当前步的动作；给定这个标签后对抠图预测结果的影响作为奖励函数。

发明内容

本发明针对现有数字抠图算法工作量需求大，对用户输入质量依赖性高的问题，设计了一种基于循环神经网络的交互式抠图方法。所设计的框架通过循环过程中人为检测信息区域减少无价值判断结果，在减少工作量的同时能够得到主流抠图方式的抠图结果。

本发明的技术方案：

基于循环神经网络的交互式抠图方法，步骤如下：

(1)训练集和测试集

数据集包括肖像数据集，抠图基准数据集和渲染100数据集；肖像数据集包含1700张训练图像、300张测试图像以及相应的真实数据；抠图基准数据集包括27张带有用户定义的三元图和抠图结果真实数据的图像，以及8张没有三元图和抠图结果的图像；使用肖像数据集的测试图像和抠图基准数据集中的27张图像进行评估；

使用肖像数据集中的训练图像来训练网络结构；为避免过拟合，提出一个用于微调的渲染100数据集，该数据集有100张图像及其相应的真实数据；使用90张图像进行数据增强微调，并使用10张图像进行测试；在该数据集构建过程中，选择不同的3D模型作为前景对象(例如兔子，毛球和金属球体等)，并使用自然图像作为背景；数据集图像使用物理渲染技术(Physically Based Rendering Technology)进行渲染。在训练和测试过程中，输入图像的大小调整为400×400像素；

(2)网络结构

首先将输入图像送到特征提取网络以提取图像特征g₀；然后将g₀被送到RNN单元以提供用于预测的“视觉”信息，然后由位置解码网络解码以获得第一次建议的信息区域(表示为2D坐标l₁)。在每次建议的信息区域之后的迭代中，本发明中所设计的网络结构会要求用户回答该区域属于前景层还是背景层。基于用户给出的回答反馈，该推荐区域内的每个像素分配对应标签，以此方法可以生成一个累积三元图。抠图结果求解器将输入图像和累积的三元图作为输入并计算一个抠图结果，然后将上一次迭代建议区域的2D坐标反馈给联合编码网络，对上一次迭代建议区域与生成抠图结果之间的关系进行编码。最后，RNN单元使用区域-抠图结果间关系的编码信息和初始视觉特征信息为用户建议下一个信息区域。提出的网络从用户反馈中学习，并且采用强化学习策略为每个检测到的信息区域分配训练奖励。

①特征提取网络

使用去掉softmax层的VGG16网络作为特征提取模块，用于提取原始输入图像I的图像特征，通过VGG16网络，网络结构分析原始输入图像I并将其投射到低层特征空间：g₀＝f_Extra(I；θ_Extra)，其中θ_Extra是VGG16网络参数；

②RNN单元

使用长短期记忆网络将图像特征与当前建议区域对应的抠图结果间关系相融合，产生用于预测下一个建议区域的向量：v_i+1＝f_rnn({g_k}；θ_rnn)，其中k＝1,2,3…i，θ_rnn代表长短期记忆网络参数；网络结构分析当前建议区域及其生成抠图结果后，提出下一处建议区域；

③位置解码网络

位置解码网络将来自RNN单元的预测信息v_i解码成二维坐标：l_i＝f_loc(v_i；θ_loc)，其中i代表当前的第i次迭代，θ_loc代表位置解码网络参数；

④抠图结果求解器

累积生成的三元图s_i由当前的建议区域和所有之前的建议区域及各自对应的用户输入产生；将s_i和原始输入图像I共同传入抠图结果求解器来获得最新的抠图结果α_i，α_i＝f_solver(s_i；I)；

所述的抠图结果求解器为用于实时alpha抠图结果的共享采样方法；

⑤联合编码网络

当位置解码网络生成二维坐标后，使用联合编码网络将该二维坐标与对应的抠图结果相融合，建立当前的建议区域与对应的抠图结果之间的关系；该关系编码为：g_i＝f_iEnc(l_i,α_i；θ_jEnc)，其中θ_jEnc代表位置解码网络参数；

(3)序列的强化学习策略

网络结构的抽象函数F对网络的整体参数Θ(其中Θ是上述各部分网络参数θ_Extraθ_rnnθ_locθ_jEnc的集合)导数如式(2)：

其中，M表示总的训练迭代次数，T表示每次迭代训练中潜在的可能可以弹出的位置个数，

是第m轮迭代中预测出的第i个可能位置，b_i对应于第i个可能位置的一个防止梯度急剧变化的基线值，

是对于第m轮迭代中第i个可能位置的奖励函数；

的设计如式(3)：

该方程度量了在第i次训练中第j个可能性区域的奖励函数；其中

和

分别表示在第i次训练中弹出第j个可能区域及在第i-1次训练中弹出第j个可能区域后，用户给出一个确定标签后所算出的抠图预测结果；

表示在第i次训练中弹出的所有可能区域接受用户标签后算出的抠图预测结果集合；

表示数据集中提供的抠图结果的真实值；从实际意义上讲，这个函数定义的奖励函数将使得每一步中弹出使抠图结果最显著变优的策略获得更大的奖励，而这也是本框架中“有信息量”的内含：即尽量使得每一个训练步都能找到这一的区域，他们使得给出这些区域的标签后预测的抠图结果能有最大的提升。

(4)后期处理

由于从用户反馈中产生的三元图非常粗糙，因此最终迭代生成的抠图结果(表示为matte_r)可能仍然不够好。为了解决这一限制，我们执行alpha精化作为后处理步骤。

首先，我们将matte_r转换为三元图，表示为trimap_r(即，如果trimap_r中的像素完全属于前景，则将其设置为1；如果trimap_r中的像素完全属于背景，则设置为0；其余像素设置为0.5以指示未知区域)。

之后，我们应用一种基于马尔可夫吸收链的传播方法来将绝对前景/背景区域传播到其余部分以获得三元图。在该方法中，我们构造了一种图模型，它由两种节点组成：吸收节点(trimap_r中具有0或1值的已知区域)和瞬态节点(具有0.5值的未知区域)。通过测量瞬态节点与吸收节点的相似度，前景/背景标签从吸收节点传播到瞬态节点。传播之后，我们获得一个新的三元图，表示为trimap_p。我们将trimap_p传入抠图结果求解器生成一个表示为matte_p的抠图结果。

最后，我们将matte_r和matte_p传入一种细化方法，该方法将两个不同的抠图结果作为输入，并输出一个改良版的alpha抠图结果作为我们的最终抠图结果。

本发明与同类相比具有显著的特点，具体详细说明如下：

(1)交互式模型

本方案提出了使用人工交互来替代辅助信息的方法。在形式上人机交互的模式对于用户而言更友好、更易用，在实现过程中更加便于操作。

(2)长短期记忆网络

本方案使用长短时记忆模块实现了模型的记忆功能，将各个重要的区域有关联地依次弹出，保证了信息量的上下文连接关系。

(3)强化学习方法

对用户参与而导致的训练过程中梯度消失的问题，本方案创新地采用增强学习的训练方法。增强学习为人工神经网络的梯度求导与用户主观的信息标记间架起了一座桥梁。

(4)三维场景渲染

为丰富实验数据的多样性，本方案将创新地提出使用三维场景渲染的方法，生成模拟数据，生成更高质量的数据集用于模型的训练与测试。

附图说明

图1是本发明方法的流程框图。

图2是不同抠图求解器在模型中的表现图。

图3(a)以及图3(b)是不同类型图片在不同迭代次数和不同区域大小条件下均方误差的表现，图3(a)表示稀疏型图片(例如毛发、树叶等)的表现统计图；图3(b)表示紧致型图片(例如玩具、汽车等)的表现统计图；其中，区域大小组别1、2、3分别代表弹出区域为边长为16像素、20像素、25像素的正方形。每组区域大小又分别进行10、20、30次迭代。均方误差值越小表明模型表现越好。

具体实施方式

下面结合具体实施方式对本发明作进一步详细说明，但本发明并不局限于具体实施方式。

基于循环神经网络的交互式抠图方法在的具体实施过程主要分为两个方面。即训练模型所需数据集的产生和模型本身超参数的选择及训练方法。

(1)训练网络模型

在训练该交互式抠图方法时，我们需要一个拥有较大数据量的数据集。该数据集应包括一张彩色的二维图片，图片中应包含一个明显的待抠出的前景物体。另外，对应于每一张彩色图片，数据集中还应含有一张准确的抠图结果(Alpha Matte)即训练过程中的真实值(Ground Truth)。现有相关的数据集包括一个含有27组图片的抠图基准数据集和一个含有3000组图片的肖像像数据集。为了扩充数据量同时增加数据集图片的多样性，本发明中采用了基于光线跟踪的渲染技术，利用三维场景渲染得到的二维图片及三维物体的坐标位置获得对应的彩色二维图片和抠图结果的真实值形成渲染100数据集。最终，基于循环神经网络的交互式抠图方法综合采用现有的抠图基准数据集、肖像像数据集和本发明中提出的渲染100数据集共同作为训练数据集。

(2)模型超参数选择及训练方法

模型每个迭代轮次向用户弹出的建议区域的大小和总共展开的迭代次数是本发明模型中的两个重要超参数。如图3(a)以及图3(b)所示，对于稀疏型图片，较小的推荐区域大小表现更好；对于紧致型图片，较大的推荐区域表现较好。迭代次数的增加将提升模型的表现性能但是将为用户带来更多的使用负担。因此，为了平衡各类型图片的表现和用户体验及模型总体性能，本发明采用适中的建议区域大小和迭代次数。即本发明在每轮迭代中采用边长为20像素大小的推荐区域，并展开为20轮次迭代。

本发明在Tensorflow深度学习框架下实现，配合其特有的Tensorboard套件，在训练过程中，各个所需调整调整的参数可清晰地可视化展现出来。当各参数的训练曲线收敛时(即随着训练时间的延长损失不再下降)，即模型完成训练。此时的参数将被固定下来并加以保存，预测时导入可直接使用。

Claims

1.一种基于循环神经网络的交互式抠图方法，其特征在于，步骤如下：

(1)训练集和测试集

使用肖像数据集中的训练图像来训练网络结构；为避免过拟合，提出一个用于微调的渲染100数据集，该数据集有100张图像及其相应的真实数据；使用90张图像进行数据增强微调，并使用10张图像进行测试；在该数据集构建过程中，选择不同的3D模型作为前景对象，并使用自然图像作为背景；数据集图像使用物理渲染技术进行渲染；在训练和测试过程中，输入图像的大小调整为400×400像素；

(2)网络结构

网络结构包括特征提取网络、RNN单元、位置解码网络、抠图结果求解器、联合编码网络五个部分；

①特征提取网络

②RNN单元

使用长短期记忆网络将图像特征与当前建议区域对应的抠图结果间关系相融合，产生用于预测下一个建议区域的向量：v_z+1＝f_rnn({g_k}；θ_rnn)，其中k＝1,2,3…u，θ_rnn代表长短期记忆网络参数；网络结构分析当前建议区域及其生成抠图结果后，提出下一处建议区域；

③位置解码网络

位置解码网络将来自RNN单元的预测信息v_z解码成二维坐标：l_i＝f_loc(v_z；θ_loc)，其中i代表当前的第i次迭代，θ_loc代表位置解码网络参数；

④抠图结果求解器

累积生成的三元图s_z由当前的建议区域和所有之前的建议区域及各自对应的用户输入产生；将s_z和原始输入图像I共同传入抠图结果求解器来获得最新的抠图结果α_z，α_z＝f_solver(s_z；I)；

⑤联合编码网络

当位置解码网络生成二维坐标后，使用联合编码网络将该二维坐标与对应的抠图结果相融合，建立当前的建议区域与对应的抠图结果之间的关系；该关系编码为：g_z＝f_iEnc(l_i,α_z；θ_jEnc)，其中θ_jEnc代表联合编码网络参数；

(3)序列的强化学习策略

网络结构的抽象函数F对网络的整体参数Θ导数如式(1)：

其中，Θ是上述各部分网络参数θ_Extraθ_rnnθ_locθ_jEnc的集合，T表示总的训练迭代次数，M表示某轮迭代训练中总采样次数，

是第i次训练中第m个采样到的区域，b_i对应于第i次训练中的一个防止梯度急剧变化的基线值，

是对于第i次训练中第m个采样值的奖励函数；

的设计如式(2)：

和

表示在第i次训练中弹出的所有可能区域接受用户标签后算出的抠图预测结果集合；α^gt表示数据集中提供的抠图结果的真实值；

(4)后期处理

首先，将matte_r转换为三元图，表示为trimap_r，即如果trimap_r中的像素完全属于前景，则将其设置为1；如果trimap_r中的像素完全属于背景，则设置为0；其余像素设置为0.5以指示未知区域；

之后，再用一种基于马尔可夫吸收链的传播方法来将绝对前景/背景区域传播到其余部分以获得三元图；在该方法中，构造一种图模型，由两种节点组成：吸收节点即trimap_r中具有0或1值的已知区域和瞬态节点即具有0.5值的未知区域；通过测量瞬态节点与吸收节点的相似度，前景/背景标签从吸收节点传播到瞬态节点；传播后，获得一个新的三元图，表示为trimap_p；将trimap_p传入抠图结果求解器生成一个表示为matte_p的抠图结果；

最后，将matte_r和matte_p传入一种细化方法，该方法将两个不同的抠图结果作为输入，并输出一个改良版的alpha抠图结果作为最终抠图结果。