CN111967533B

CN111967533B - 一种基于场景识别的草图图像翻译方法

Info

Publication number: CN111967533B
Application number: CN202010913017.1A
Authority: CN
Inventors: 周凡; 陈茜茜; 苏卓; 林淑金; 王若梅
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2020-09-03
Filing date: 2020-09-03
Publication date: 2022-09-23
Anticipated expiration: 2040-09-03
Also published as: CN111967533A

Abstract

本发明公开了一种基于场景识别的草图图像翻译方法。用户在所选取的场景图背景上交互式的逐步绘制草图，系统根据场景识别网络识别出的场景图类别对轮廓草图进行语义匹配得到对象类别，再根据对象类别与草图，利用部分草图形状完成网络与完整图像外观生成网络进行轮廓与外观合成，经过交互式的绘制最终生成需要的前景对象图像。本发明可以允许用户不用进行整个场景级别的草图绘制，只需在现有的场景背景图上描绘前景部分的对象草图，系统会自动进行与背景场景图语义匹配的对象完成，使得最终生成的图像质量与清晰度更高。

Description

一种基于场景识别的草图图像翻译方法

技术领域

本发明涉及计算机视觉、图像处理技术领域，具体涉及一种基于场景识别的草图图像翻译方法。

背景技术

绘制草图是用于人类表达和传递信息的最自然与灵活的途径之一。近年来随着触屏设备的日益普及，在触屏上以寥寥数笔绘制草图来表达人类的视觉需求，已经成为重要的人机的交互方式。随着深度学习在图像处理领域的蓬勃发展，草图完成、草图识别、草图编辑和草图检索等一系列草图领域的技术应用得以飞速发展。

草图-图像翻译是一类图像生成任务。结合用户界面，用户可以在目标域中利用徒手绘制的抽象草图快速创建图像。由于草图具有高度抽象性，且不同人绘制的草图在完成的准确度与风格上可能有很大的不同，因此草图-图像翻译问题仍面临着巨大的挑战。

场景识别与分类问题是计算机视觉领域中的重要问题。场景由图像中的局部对象、全局布局和背景环境多级信息组成。随着深度学习技术的巨大进展，大规模的场景数据集基准(如Place2、Place365等)得以建立，基于深度学习的解决方案取代了基于原始手工提取特征的解决方案，从而更好地促进了场景识别与分类性能的提高。

目前的现有技术之一是Ghosh等的《Interactive sketch&fill:Multiclasssketch-to-image translation》所提出的SkinnyResnet网络结构，该方法根据用户输入的类条件，通过对用户逐步绘制的部分轮廓草图进行及时反馈，交互式的向用户推荐合理的草图完成轮廓并显示相应的合成图像，从而有效地帮助新手用户创建简单对象的图像。该方法将交互式图像生成的问题分为两个阶段：稀疏的用户草图对象形状的完成与完成形状草图的外观合成。但通常一幅图像中除了单个对象之外，可能还包含有其他多个对象、空间布局与背景环境信息，因此该方法的缺点是：1)生成的空白背景图片无法很好的适用于图像识别、图像检索等更进一步的图像任务；2)该方法需要用户点击类别按钮进行类条件选择，不能够根据背景图进行语义匹配自动进行选择。

目前的现有技术之二是Gao等的《Image Generation from Freehand SceneSketches》所提出的edgeGAN网络结构，该方法能够从徒手绘制的场景草图中可控的生成具有许多对象和关系的逼真图像，包括：1)通过草图分割模型首先分割识别出场景草图中所有的对象实例；2)由前景生成模型edgeGAN生成每个对象实例的图像内容，edgeGAN学习图象和图像边缘的联合嵌入，通过属性向量连接共享属性空间表示，从而将场景草图-图象生成任务转换为边缘图-图象生成任务，大大降低了收集场景草图数据的要求，并且可以应对用户具有不同绘画风格的挑战；3)将步骤2中生成的结果联合背景草图利用Pix2Pix模型生成最终的场景图象。缺点是难以如实地再现带有许多对象和关系的高质量复杂场景。由于不同的用户具有不同的草图绘画风格，现有的技术难以在完全满足用户需求的条件下生成逼真的场景图像。且由于用户主要关心的是图象中的前景部分，对于背景部分用户往往只画简单的几笔，使得场景草图-图象翻译任务仍然面临着巨大的挑战。

发明内容

本发明的目的是克服现有方法的不足，提出了一种基于场景识别的草图图像翻译方法。本发明解决的主要问题是，用户如何在需求的背景场景图上进行前景草图的绘制，使得前景草图的生成类别能够根据背景场景的内容语义自动进行匹配与控制。

为了解决上述问题，本发明提出了一种基于场景识别的草图图像翻译方法，所述方法包括：

构建对象数据集与场景数据集并进行语义匹配，对对象数据集的原始图像进行边缘检测与简化从而得到完整对象边缘图像，之后进行随机遮挡掩模处理以模拟用户的部分草图输入从而得到不完整对象边缘图像，对场景数据集进行场景识别预训练产生OPlace365-Resnet50网络；

用户从所述场景数据集中选取场景背景图，然后利用所述OPlace365-Resnet50网络对所选取的场景背景图进行分类识别，得到场景类别；

利用所述完整对象边缘图像和所述不完整对象边缘图像作为数据集训练部分草图形状完成网络，利用所述对象数据集的原始图像和所述完整对象边缘图像作为数据集训练完整图像外观生成网络；

所述场景类别通过所述语义匹配得到对应的对象类别，之后所述部分草图形状完成网络根据对象类别和用户描绘的部分草图生成完整的草图轮廓，然后所述完整图像外观生成网络再根据对象类别和所生成的完整草图轮廓生成带有颜色和纹理的前景图像；

用户根据所述带有颜色和纹理的前景图像交互式的进行下一笔草图描绘，直到生成在所述用户选取的场景背景图上满足用户需求的前景对象图像，即为最终生成图像。

优选地，所述构建对象数据集与场景数据集并进行语义匹配，具体为：

从Place365数据集中提取其中的二十个类别构建成场景数据集；

对象数据集与场景数据集各包括二十个类别的图像；

对对象数据集中二十个类别的图像与场景数据集中二十个类别的图像进行一对一的语义匹配。

优选地，所述部分草图形状完成网络，具体为：

部分草图形状完成网络采用Pix2Pix结构，包含一个生成器G_s和一个判别器D_s；

生成器G_s采用加入跳跃连接skip connection的U-Net网络结构，包括：将所述对象类别连同所述用户描绘的部分草图作为网络输入，每个网络层都加入批标准化层BatchNormalization与线性整流函数ReLU，网络最后一层的输出采用双曲正切函数tanh作为激活函数；

判别器D_s由PatchGAN组成，包括：每个网络层都加入批标准化层BatchNormalization与带泄露线性整流函数Leaky ReLU，判别器将输入图片分为多块，对每一块都给出一个分数，最后对所有块的分数求平均。

优选地，所述完整图像外观生成网络，具体为：

完整图像外观生成网络包含一个生成器G_t和一个判别器D_t；

生成器G_t采用改进的U-Net网络结构GU-Net，包括：GU-Net的前五个卷积层得到的特征图分别与类条件向量级联，得到级联特征图，再利用GRU循环神经网络将卷积层的第五层级联特征图和与之相应成镜像关系的反卷积层特征图进行跳跃连接，每个网络层都加入标准化层Instance Normalization与带泄露线性整流函数Leaky ReLU，上采样Upsample和下采样Downsample均采用最近邻插值采样；

判别器D_t包括：前三个卷积层得到的特征图分别与类条件向量级联，得到级联特征图，最后一个卷积层输出的特征图采用Sigmoid激活函数。

本发明提出的一种基于场景识别的草图图像翻译方法，可以允许用户不用进行整个场景级别的草图绘制，只需在现有的场景背景图上描绘前景部分的对象草图，系统会自动进行与背景场景图语义匹配的对象完成，使得最终生成的图像质量与清晰度更高。

附图说明

图1是本发明实施例的一种基于场景识别的草图图像翻译方法的总体流程图；

图2是本发明实施例的部分草图形状完成网络生成器G_s的结构图；

图3是本发明实施例的部分草图形状完成网络判别器D_s的结构图；

图4是本发明实施例的完整图像外观生成网络生成器G_t的结构图；

图5是本发明实施例的完整图像外观生成网络判别器D_t的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明实施例的一种基于场景识别的草图图像翻译方法的总体流程图，如图1所示，该方法包括：

S1，构建对象数据集与场景数据集并进行语义匹配，对对象数据集的原始图像进行边缘检测与简化从而得到完整对象边缘图像，之后进行随机遮挡掩模处理以模拟用户的部分草图输入从而得到不完整对象边缘图像，对场景数据集进行场景识别预训练产生OPlace365-Resnet50网络；

S2，用户从所述场景数据集中选取场景背景图，然后利用所述OPlace365-Resnet50网络对所选取的场景背景图进行分类识别，得到场景类别；

S3，利用所述完整对象边缘图像和所述不完整对象边缘图像作为数据集训练部分草图形状完成网络，利用所述对象数据集的原始图像和所述完整对象边缘图像作为数据集训练完整图像外观生成网络；

S4，所述场景类别通过所述语义匹配得到对应的对象类别，之后所述部分草图形状完成网络根据对象类别和用户描绘的部分草图生成完整的草图轮廓，然后所述完整图像外观生成网络再根据对象类别和所生成的完整草图轮廓生成带有颜色和纹理的前景图像；

S5，用户根据所述带有颜色和纹理的前景图像交互式的进行下一笔草图描绘，直到生成在所述用户选取的场景背景图上满足用户需求的前景对象图像，即为最终生成图像。

步骤S1，具体如下：

S1-1，对收集的二十个类别对象数据集(篮球、足球、蛋糕等)与从Place365数据集中提取的二十个类别的场景数据集图象(篮球场、草坪、厨房等)进行一对一的语义匹配，例如篮球场与篮球，草坪与足球、厨房与蛋糕等。

S1-2，利用边缘检测算法HED提取出对象数据集中图像的边缘并进行边缘简化。

S1-3，使用三种不同尺寸大小的空白矩形块(64*64，128*128，192*192)对S1-2中简化的对象边缘图像进行随机遮挡掩模处理以模拟用户的部分草图输入。

S1-4，对S1-1步骤中从Place365数据集中提取的二十个类别场景数据集的图像基于Resnet50网络模型进行场景识别预训练，产生OPlace365-Resnet50预训练网络。

步骤S2，具体如下：

用户从场景数据集中选取场景背景图，输入S1-4步骤中预训练出的OPlace365-Resnet50网络，输出背景图片的场景分类概率：

其中，K为场景数据集中场景类别的数量，f_k为样本在第K个类别的分数，F∈R^K为线性层生成的K维向量，l(F)表示对K维向量F进行softmax操作。由分类概率确定最终的场景类别M。

步骤S3，具体如下：

S3-1，部分草图形状完成网络负责将用户输入的对象部分草图(即不完整对象边缘图像)翻译成完整对象边缘图像，采用Pix2Pix结构，包含一个生成器G_s和一个判别器D_s。

S3-1-1，生成器G_s采用加入跳跃连接skip connection的U-Net网络结构，如图2所示，包括：

(a)将所述对象类别连同所述用户描绘的部分草图作为网络输入；

(b)每个网络层都加入批标准化层Batch Normalization与线性整流函数ReLU；

(c)网络最后一层的输出采用双曲正切函数tanh作为激活函数。

S3-1-2，判别器D_s由PatchGAN组成，如图3所示，包括：

(a)每个网络层都加入批标准化层Batch Normalization与带泄露线性整流函数Leaky ReLU；

(b)判别器将输入图片分为多块，对每一块都给出一个分数，最后对所有块的分数求平均。

S3-2，完整图像外观生成网络负责将部分草图形状完成网络输出的完整对象边缘图像翻译为最终带有颜色和纹理的对象图像，包含一个生成器G_t和一个判别器D_t。

S3-2-1，生成器G_t采用改进的U-Net网络结构GU-Net，如图4所示，包括：

(a)GU-Net的前五个卷积层得到的特征图分别与类条件向量级联，得到级联特征图；

(b)再利用GRU循环神经网络将卷积层的第五层级联特征图和与之相应成镜像关系的反卷积层特征图进行跳跃连接。设类条件向量为p，第4层编码层的特征图为f_enc，第5层级联后的隐藏状态为s，根据公式(2)更新隐藏状态以匹配不同层的特征图尺寸大小：

s^g＝W_T*[s,p] (2)

对上采样更新后的隐藏状态s^g和特征图f_enc利用GRU进行处理：

r^l＝σ(W_r*[[f_enc,p],s^g]) (3)

z^l＝σ(W_z*[[f_enc,p],s^g]) (4)

其中，[,]表示级联操作，W_T*表示反卷积操作，σ表示Sigmoid函数，W_z*、Wr*、W_h*表示卷积操作，

表示点乘，tanh表示双曲正切函数，r^l和z^l分别代表第l层的重置门控和更新门控，s^l为隐藏状态的输出，

为更新后的特征图，

为经过转换的编码特征的输出。

(c)每个网络层都加入标准化层Instance Normalization与带泄露线性整流函数Leaky ReLU；

(d)上采样Upsample和下采样Downsample均采用最近邻插值采样。

S3-2-2，判别器D_t如图5所示，包括：

(a)前三个卷积层得到的特征图分别与类条件向量级联，得到级联特征图；

(b)最后一个卷积层输出的特征图采用Sigmoid激活函数。

S3-3，部分草图形状完成网络与完整图像外观生成网络的损失函数L_total采用cGAN损失函数L_cGAN与L₁损失函数，λ为超参数：

L₁＝||x-G(x)||₁ (8)

L_total＝λL₁+L_cGAN (10)

其中，x为原始真实数据，符合P_data分布。y为标签，z是噪声数据，噪声数据符合P_z(z)分布，例如高斯分布或者均匀分布。G和D分别代表生成器和判别器。

步骤S4，具体如下：

将S2步骤中识别出的背景图场景类别M映射到步骤S1-1中语义匹配得到对象类别O；

本实施例中，需要编码对象类别O为One-Hot Encoding形式的类条件向量C；

类条件向量C作为基于cGAN的部分草图形状完成网络与完整图像外观生成网络两个子网络的类条件向量，指导草图图像翻译过程的完成；

之后部分草图形状完成网络根据类条件向量C和用户描绘的部分草图生成完整的草图轮廓，然后完整图像外观生成网络再根据类条件向量C和所生成的完整草图轮廓生成最终带有颜色和纹理的前景图像。

本发明实施例提出的一种基于场景识别的草图图像翻译方法，可以允许用户不用进行整个场景级别的草图绘制，只需在现有的场景背景图上描绘前景部分的对象草图。系统会自动进行与背景场景图语义匹配的对象完成，使得最终生成的图像质量与清晰度更高。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、磁盘或光盘等。

另外，以上对本发明实施例所提供的一种基于场景识别的草图图像翻译方法进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于场景识别的草图图像翻译方法，其特征在于，所述方法包括：

用户根据所述带有颜色和纹理的前景图像交互式的进行下一笔草图描绘，直到生成在所述用户选取的场景背景图上满足用户需求的前景对象图像，即为最终生成图像；

其中，所述部分草图形状完成网络，具体为：

判别器D_s由PatchGAN组成，包括：每个网络层都加入批标准化层Batch Normalization与带泄露线性整流函数Leaky ReLU，判别器将输入图片分为多块，对每一块都给出一个分数，最后对所有块的分数求平均；

其中，所述完整图像外观生成网络，具体为：

完整图像外观生成网络包含一个生成器G_t和一个判别器D_t；

2.如权利要求1所述的一种基于场景识别的草图图像翻译方法，其特征在于，所述构建对象数据集与场景数据集并进行语义匹配，具体为：

对象数据集与场景数据集各包括二十个类别的图像；